Skip to main content
La versione in lingua italiana fornita proviene da una traduzione automatica. Per eventuali incoerenze, fare riferimento alla versione in lingua inglese.

Risolvere i problemi di un sistema StorageGRID

Collaboratori

Se si riscontrano problemi durante l'utilizzo di un sistema StorageGRID, consultare i suggerimenti e le linee guida di questa sezione per ottenere assistenza nella determinazione e nella risoluzione del problema.

Panoramica della determinazione del problema

Se si verifica un problema quando Amministrazione di un sistema StorageGRID, è possibile utilizzare il processo descritto in questa figura per identificare e analizzare il problema. In molti casi, è possibile risolvere i problemi da soli; tuttavia, potrebbe essere necessario eseguire l'escalation di alcuni problemi al supporto tecnico.

Diagramma di flusso che mostra le fasi principali della procedura di determinazione dei problemi

Definire il problema

Il primo passo per risolvere un problema è definire il problema in modo chiaro.

Questa tabella fornisce esempi dei tipi di informazioni che è possibile raccogliere per definire un problema:

Domanda Esempio di risposta

Cosa fa o non fa il sistema StorageGRID? Quali sono i suoi sintomi?

Le applicazioni client segnalano che non è possibile acquisire oggetti in StorageGRID.

Quando è iniziato il problema?

L'acquisizione di oggetti è stata negata per la prima volta alle 14:50 dell'8 gennaio 2020.

Come hai notato il problema per la prima volta?

Notificato dall'applicazione client. Ha ricevuto anche notifiche email di avviso.

Il problema si verifica in modo coerente o solo a volte?

Il problema è in corso.

Se il problema si verifica regolarmente, quali passaggi lo causano

Il problema si verifica ogni volta che un client tenta di acquisire un oggetto.

Se il problema si verifica in modo intermittente, quando si verifica? Registrare i tempi di ciascun incidente di cui si è a conoscenza.

Il problema non è intermittente.

Hai già visto questo problema? Con quale frequenza avete avuto questo problema in passato?

Questa è la prima volta che vedo questo problema.

Valutare i rischi e l'impatto sul sistema

Una volta definito il problema, valutarne il rischio e l'impatto sul sistema StorageGRID. Ad esempio, la presenza di avvisi critici non significa necessariamente che il sistema non stia fornendo servizi di base.

Questa tabella riassume l'impatto del problema di esempio sulle operazioni del sistema:

Domanda Esempio di risposta

Il sistema StorageGRID è in grado di acquisire contenuti?

No

Le applicazioni client possono recuperare il contenuto?

Alcuni oggetti possono essere recuperati e altri no.

I dati sono a rischio?

No

La capacità di condurre il business è gravemente compromessa?

Sì, perché le applicazioni client non possono memorizzare oggetti nel sistema StorageGRID e i dati non possono essere recuperati in modo coerente.

Raccogliere i dati

Dopo aver definito il problema e averne valutato il rischio e l'impatto, raccogliere i dati per l'analisi. Il tipo di dati più utili da raccogliere dipende dalla natura del problema.

Tipo di dati da raccogliere Perché raccogliere questo dat Istruzioni

Creare una tempistica delle modifiche recenti

Le modifiche al sistema StorageGRID, alla sua configurazione o al suo ambiente possono causare nuovi comportamenti.

Consente di rivedere avvisi e allarmi

Gli avvisi e gli allarmi possono aiutare a determinare rapidamente la causa principale di un problema fornendo importanti indizi sui problemi sottostanti che potrebbero causarlo.

Consultare l'elenco degli avvisi e degli allarmi correnti per verificare se StorageGRID ha identificato la causa principale di un problema.

Per ulteriori informazioni, rivedere gli avvisi e gli allarmi attivati in passato.

Monitorare gli eventi

Gli eventi includono qualsiasi errore di sistema o evento di guasto per un nodo, inclusi errori come gli errori di rete. Monitorare gli eventi per ottenere ulteriori informazioni sui problemi o per la risoluzione dei problemi.

Identificare i trend utilizzando grafici e report di testo

Le tendenze possono fornire indizi preziosi su quando sono comparsi i problemi per la prima volta e possono aiutarti a capire quanto rapidamente le cose stanno cambiando.

Stabilire le linee di base

Raccogliere informazioni sui livelli normali dei vari valori operativi. Questi valori di riferimento, e le deviazioni da queste linee di base, possono fornire indizi preziosi.

Eseguire test di acquisizione e recupero

Per risolvere i problemi di performance con acquisizione e recupero, utilizzare una workstation per memorizzare e recuperare gli oggetti. Confrontare i risultati con quelli osservati durante l'utilizzo dell'applicazione client.

Esaminare i messaggi di audit

Esaminare i messaggi di audit per seguire in dettaglio le operazioni di StorageGRID. I dettagli nei messaggi di audit possono essere utili per la risoluzione di molti tipi di problemi, inclusi quelli relativi alle performance.

Controllare le posizioni degli oggetti e l'integrità dello storage

In caso di problemi di storage, verificare che gli oggetti siano posizionati nel punto previsto. Verificare l'integrità dei dati dell'oggetto su un nodo di storage.

Raccogliere i dati per il supporto tecnico

Il supporto tecnico potrebbe richiedere di raccogliere dati o rivedere informazioni specifiche per risolvere i problemi.

Crea una timeline di modifiche recenti

Quando si verifica un problema, è necessario prendere in considerazione le modifiche apportate di recente e il momento in cui si sono verificate tali modifiche.

  • Le modifiche al sistema StorageGRID, alla sua configurazione o al suo ambiente possono causare nuovi comportamenti.

  • Una tempistica delle modifiche può aiutarti a identificare quali modifiche potrebbero essere responsabili di un problema e in che modo ciascuna modifica potrebbe avere influenzato il suo sviluppo.

Creare una tabella di modifiche recenti al sistema che includa informazioni su quando si è verificata ogni modifica e su eventuali dettagli rilevanti relativi alla modifica, ad esempio informazioni su ciò che è accaduto durante l'esecuzione della modifica:

Tempo di cambiamento Tipo di cambiamento Dettagli

Ad esempio:

  • Quando è stato avviato il ripristino del nodo?

  • Quando è stato completato l'aggiornamento del software?

  • Hai interrotto il processo?

Che cosa è successo? Cosa hai fatto?

Documentare i dettagli relativi alla modifica. Ad esempio:

  • Dettagli delle modifiche di rete.

  • Quale hotfix è stato installato.

  • Come sono cambiati i carichi di lavoro dei client.

Assicurarsi di notare se più di una modifica si è verificata contemporaneamente. Ad esempio, questa modifica è stata apportata mentre era in corso un aggiornamento?

Esempi di modifiche recenti significative

Ecco alcuni esempi di modifiche potenzialmente significative:

  • Il sistema StorageGRID è stato recentemente installato, ampliato o ripristinato?

  • Il sistema è stato aggiornato di recente? È stata applicata una correzione rapida?

  • L'hardware è stato riparato o modificato di recente?

  • La policy ILM è stata aggiornata?

  • Il carico di lavoro del client è cambiato?

  • L'applicazione client o il suo comportamento sono cambiati?

  • Hai modificato i bilanciatori di carico o aggiunto o rimosso un gruppo ad alta disponibilità di nodi di amministrazione o nodi gateway?

  • Sono state avviate attività che potrebbero richiedere molto tempo? Alcuni esempi sono:

    • Ripristino di un nodo di storage guasto

    • Disattivazione del nodo di storage

  • Sono state apportate modifiche all'autenticazione dell'utente, ad esempio l'aggiunta di un tenant o la modifica della configurazione LDAP?

  • La migrazione dei dati è in corso?

  • I servizi della piattaforma sono stati abilitati o modificati di recente?

  • La compliance è stata abilitata di recente?

  • I pool di storage cloud sono stati aggiunti o rimossi?

  • Sono state apportate modifiche alla compressione o alla crittografia dello storage?

  • Sono state apportate modifiche all'infrastruttura di rete? Ad esempio, VLAN, router o DNS.

  • Sono state apportate modifiche alle origini NTP?

  • Sono state apportate modifiche alle interfacce Grid, Admin o Client Network?

  • Sono state apportate modifiche alla configurazione del nodo di archiviazione?

  • Sono state apportate altre modifiche al sistema StorageGRID o al suo ambiente?

stabilire le linee di base

È possibile stabilire linee di base per il sistema registrando i livelli normali di diversi valori operativi. In futuro, è possibile confrontare i valori correnti con queste linee di base per rilevare e risolvere i valori anomali.

Proprietà Valore Come ottenere

Consumo medio di storage

GB consumati al giorno

Percentuale consumata al giorno

Accedere a Grid Manager. Nella pagina Nodes (nodi), selezionare l'intera griglia o un sito e passare alla scheda Storage (archiviazione).

Nel grafico Storage used - Object Data (Storage utilizzato - dati oggetto), individuare un periodo in cui la riga è abbastanza stabile. Posizionare il cursore del mouse sul grafico per stimare la quantità di storage consumata ogni giorno

È possibile raccogliere queste informazioni per l'intero sistema o per un data center specifico.

Consumo medio di metadati

GB consumati al giorno

Percentuale consumata al giorno

Accedere a Grid Manager. Nella pagina Nodes (nodi), selezionare l'intera griglia o un sito e passare alla scheda Storage (archiviazione).

Nel grafico Storage used - Object Metadata (Storage utilizzato - metadati oggetto), individuare un punto in cui la riga è abbastanza stabile. Posizionare il cursore del mouse sul grafico per valutare la quantità di storage dei metadati consumata ogni giorno

È possibile raccogliere queste informazioni per l'intero sistema o per un data center specifico.

Tasso di operazioni S3/Swift

Operazioni/secondo

Accedere alla dashboard in Grid Manager. Nella sezione Protocol Operations (operazioni protocollo), visualizzare i valori per la velocità S3 e la velocità Swift.

Per visualizzare i tassi di acquisizione e recupero e i conteggi per un sito o nodo specifico, selezionare NODES Site o Storage Node Objects. Spostare il cursore sul grafico Ingest e Retrieve per S3 o Swift.

Operazioni S3/Swift non riuscite

Operazioni

Selezionare SUPPORT Tools Grid topology. Nella scheda Overview (Panoramica) della sezione API Operations (operazioni API), visualizzare il valore di S3 Operations - Failed (operazioni S3 - non riuscite) o Swift Operations - Failed (operazioni Swift - non riuscite).

Tasso di valutazione ILM

Oggetti/secondo

Dalla pagina nodi, selezionare grid ILM.

Nel grafico ILM Queue, individuare un punto in cui la riga è abbastanza stabile. Posizionare il cursore del mouse sul grafico per stimare un valore di riferimento per tasso di valutazione per il sistema.

Velocità di scansione ILM

Oggetti/secondo

Selezionare NODI grid ILM.

Nel grafico ILM Queue, individuare un punto in cui la riga è abbastanza stabile. Posizionare il cursore del mouse sul grafico per stimare un valore di riferimento per velocità di scansione per il sistema.

Oggetti accodati dalle operazioni del client

Oggetti/secondo

Selezionare NODI grid ILM.

Nel grafico ILM Queue, individuare un punto in cui la riga è abbastanza stabile. Posizionare il cursore del mouse sul grafico per stimare un valore di riferimento per oggetti accodati (dalle operazioni client) per il sistema.

Latenza media delle query

Millisecondi

Selezionare NODI nodo di storage oggetti. Nella tabella Query, visualizzare il valore della latenza media.

Analizzare i dati

Utilizzare le informazioni raccolte per determinare la causa del problema e le potenziali soluzioni.

‐analisi dipende dal problema, ma in generale:

  • Individuare i punti di guasto e i colli di bottiglia utilizzando gli allarmi.

  • Ricostruire la cronologia dei problemi utilizzando la cronologia degli allarmi e i grafici.

  • Utilizzare i grafici per individuare le anomalie e confrontare la situazione del problema con il normale funzionamento.

Lista di controllo per le informazioni di escalation

Se non si riesce a risolvere il problema da solo, contattare il supporto tecnico. Prima di contattare il supporto tecnico, raccogliere le informazioni elencate nella seguente tabella per facilitare la risoluzione del problema.

selezionare Elemento Note

Dichiarazione del problema

Quali sono i sintomi del problema? Quando è iniziato il problema? Si verifica in modo coerente o intermittente? In caso di intermittenza, quali sono le volte in cui si è verificato il problema?

Valutazione dell'impatto

Qual è la gravità del problema? Qual è l'impatto sull'applicazione client?

  • Il client si è connesso correttamente in precedenza?

  • Il client è in grado di acquisire, recuperare ed eliminare i dati?

ID sistema StorageGRID

Selezionare MANUTENZIONE sistema licenza. L'ID di sistema StorageGRID viene visualizzato come parte della licenza corrente.

Versione del software

Nella parte superiore di Gestione griglia, selezionare l'icona della guida e selezionare About (informazioni su) per visualizzare la versione di StorageGRID.

Personalizzazione

Riepilogare la configurazione del sistema StorageGRID. Ad esempio, elencare quanto segue:

  • Il grid utilizza la compressione dello storage, la crittografia dello storage o la conformità?

  • ILM esegue la replica o la cancellazione di oggetti codificati? ILM garantisce la ridondanza del sito? Le regole ILM utilizzano comportamenti di ingest rigorosi, bilanciati o doppi?

File di log e dati di sistema

Raccogliere i file di log e i dati di sistema per il sistema. Selezionare SUPPORT Tools Logs.

È possibile raccogliere i log per l'intera griglia o per i nodi selezionati.

Se si stanno raccogliendo registri solo per i nodi selezionati, assicurarsi di includere almeno un nodo di storage che dispone del servizio ADC. I primi tre nodi di storage di un sito includono il servizio ADC.

Informazioni di riferimento

Raccogliere informazioni di riferimento relative alle operazioni di acquisizione, alle operazioni di recupero e al consumo dello storage.

Tempistiche delle modifiche recenti

Creare una timeline che riepiloga le modifiche recenti apportate al sistema o al suo ambiente.

Cronologia degli sforzi per diagnosticare il problema

Se sono state adottate misure per diagnosticare o risolvere il problema da soli, assicurarsi di registrare i passaggi e il risultato.