Fehler in einem StorageGRID System beheben
Wenn bei der Verwendung eines StorageGRID-Systems ein Problem auftritt, finden Sie in den Tipps und Richtlinien dieses Abschnitts Hilfe zum ermitteln und Beheben des Problems.
Überblick über die Problembestimmung
Wenn bei der Administration eines StorageGRID-Systems ein Problem auftritt, können Sie das Problem mithilfe des in dieser Abbildung beschriebenen Prozesses identifizieren und analysieren. In vielen Fällen können Sie Probleme selbstständig lösen. In diesem Fall müssen Sie jedoch einige Probleme an den technischen Support eskalieren.
Definition des Problems
Der erste Schritt zur Lösung eines Problems besteht darin, das Problem klar zu definieren.
Diese Tabelle enthält Beispiele für die Arten von Informationen, die Sie erfassen können, um ein Problem zu definieren:
Frage | Beispielantwort |
---|---|
Was macht das StorageGRID-System? Was sind die Symptome? |
Client-Applikationen melden, dass Objekte nicht in StorageGRID aufgenommen werden können. |
Wann hat das Problem begonnen? |
Die Objektaufnahme wurde am 8. Januar 2020 um 14:50 Uhr verweigert. |
Wie haben Sie das Problem zum ersten Mal bemerkt? |
Durch Client-Anwendung benachrichtigt. Auch Benachrichtigung per E-Mail erhalten. |
Tritt das Problem konsequent oder nur in manchen Fällen auf? |
Das Problem ist noch nicht behoben. |
Wenn das Problem regelmäßig auftritt, welche Schritte dazu führen, dass es auftritt |
Das Problem tritt jedes Mal auf, wenn ein Client versucht, ein Objekt aufzunehmen. |
Wenn das Problem zeitweise auftritt, wann tritt es auf? Notieren Sie die Zeiten der einzelnen Vorfälle, die Sie kennen. |
Das Problem ist nicht intermittierend. |
Haben Sie dieses Problem schon einmal gesehen? Wie oft hatten Sie dieses Problem in der Vergangenheit? |
Dies ist das erste Mal, dass ich dieses Thema gesehen habe. |
Bewertung von Risiken und Auswirkungen auf das System
Bewerten Sie nach Definition des Problems sein Risiko und die Auswirkungen auf das StorageGRID System. Beispielsweise bedeutet das Vorhandensein kritischer Warnmeldungen nicht zwangsläufig, dass das System keine Kernservices liefert.
In dieser Tabelle sind die Auswirkungen eines Beispielproblems auf Systemvorgänge zusammengefasst:
Frage | Beispielantwort |
---|---|
Kann das StorageGRID System Inhalte aufnehmen? |
Nein |
Können Client-Anwendungen Inhalte abrufen? |
Einige Objekte können abgerufen werden, andere können nicht. |
Sind Daten gefährdet? |
Nein |
Ist die Fähigkeit, Geschäfte zu führen, stark beeinträchtigt? |
Ja, da Client-Applikationen keine Objekte auf dem StorageGRID System speichern und Daten nicht konsistent abgerufen werden können. |
Erfassen von Daten
Nach dem Definition des Problems und der Bewertung der Risiken und Auswirkungen können Sie Daten zur Analyse sammeln. Die Art der Daten, die am nützlichsten zu erfassen sind, hängt von der Art des Problems ab.
Art der zu erfassenden Daten | Warum diese Daten sammeln | Anweisungen |
---|---|---|
Zeitplan der neuesten Änderungen erstellen |
Änderungen an Ihrem StorageGRID System, seiner Konfiguration oder seiner Umgebung können zu neuem Verhalten führen. |
|
Prüfen von Warnungen und Alarmen |
Mithilfe von Warnfunktionen und Alarmen können Sie die Ursache eines Problems schnell ermitteln, indem Sie wichtige Hinweise auf die zugrunde liegenden Probleme geben. Überprüfen Sie die Liste der aktuellen Warnungen und Alarme, um festzustellen, ob StorageGRID die Ursache eines Problems für Sie ermittelt hat. Prüfen Sie die in der Vergangenheit ausgelösten Warnmeldungen und Alarme, um zusätzliche Einblicke zu erhalten. |
|
Monitoring von Ereignissen |
Ereignisse umfassen Systemfehler oder Fehlerereignisse für einen Node, einschließlich Fehler wie Netzwerkfehler. Überwachen Sie Ereignisse, um weitere Informationen zu Problemen zu erhalten oder um Hilfe bei der Fehlerbehebung zu erhalten. |
|
Trends anhand von Diagramm- und Textberichten identifizieren |
Trends liefern wertvolle Hinweise darauf, wann Probleme zuerst auftraten, und können Ihnen helfen zu verstehen, wie schnell sich die Dinge ändern. |
|
Basispläne erstellen |
Sammeln von Informationen über die normalen Stufen verschiedener Betriebswerte. Diese Basiswerte und Abweichungen von diesen Grundlinien können wertvolle Hinweise liefern. |
|
Durchführen von Einspeisung und Abruf von Tests |
Zur Fehlerbehebung von Performance-Problemen bei Aufnahme und Abruf können Objekte auf einer Workstation gespeichert und abgerufen werden. Vergleichen Sie die Ergebnisse mit denen, die bei der Verwendung der Client-Anwendung angezeigt werden. |
|
Audit-Meldungen prüfen |
Überprüfen Sie Audit-Meldungen, um StorageGRID Vorgänge im Detail zu befolgen. Die Details in Audit-Meldungen können bei der Behebung vieler Arten von Problemen, einschließlich von Performance-Problemen, nützlich sein. |
|
Überprüfen Sie Objektstandorte und Storage-Integrität |
Wenn Sie Speicherprobleme haben, stellen Sie sicher, dass Objekte an der gewünschten Stelle platziert werden. Überprüfen Sie die Integrität von Objektdaten auf einem Storage-Node. |
|
Datenerfassung für technischen Support |
Vom technischen Support werden Sie möglicherweise aufgefordert, Daten zu sammeln oder bestimmte Informationen zu überprüfen, um Probleme zu beheben. |
Erstellen einer Chronik der neuesten Änderungen
Wenn ein Problem auftritt, sollten Sie berücksichtigen, was sich kürzlich geändert hat und wann diese Änderungen aufgetreten sind.
-
Änderungen an Ihrem StorageGRID System, seiner Konfiguration oder seiner Umgebung können zu neuem Verhalten führen.
-
Durch eine Zeitleiste von Änderungen können Sie feststellen, welche Änderungen für ein Problem verantwortlich sein könnten und wie jede Änderung ihre Entwicklung beeinflusst haben könnte.
Erstellen Sie eine Tabelle mit den letzten Änderungen an Ihrem System, die Informationen darüber enthält, wann jede Änderung stattgefunden hat und welche relevanten Details über die Änderung angezeigt werden, und Informationen darüber, was während der Änderung noch passiert ist:
Zeit der Änderung | Art der Änderung | Details |
---|---|---|
Beispiel:
|
Was ist los? Was haben Sie gemacht? |
Dokumentieren Sie alle relevanten Details zu der Änderung. Beispiel:
Achten Sie darauf, zu beachten, ob mehrere Änderungen gleichzeitig durchgeführt wurden. Wurde diese Änderung beispielsweise vorgenommen, während ein Upgrade durchgeführt wurde? |
Beispiele für signifikante aktuelle Änderungen
Hier einige Beispiele für potenziell signifikante Änderungen:
-
Wurde das StorageGRID System kürzlich installiert, erweitert oder wiederhergestellt?
-
Wurde kürzlich ein Upgrade des Systems durchgeführt? Wurde ein Hotfix angewendet?
-
Wurde irgendeine Hardware in letzter Zeit repariert oder geändert?
-
Wurde die ILM-Richtlinie aktualisiert?
-
Hat sich der Client-Workload geändert?
-
Hat sich die Client-Applikation oder deren Verhalten geändert?
-
Haben Sie den Lastausgleich geändert oder eine Hochverfügbarkeitsgruppe aus Admin-Nodes oder Gateway-Nodes hinzugefügt oder entfernt?
-
Wurden Aufgaben gestartet, die ein sehr langer Zeitaufwand beanspruchen können? Beispiele:
-
Wiederherstellung eines fehlerhaften Speicherknotens
-
Ausmusterung von Storage-Nodes
-
-
Wurden Änderungen an der Benutzerauthentifizierung vorgenommen, beispielsweise beim Hinzufügen eines Mandanten oder bei der Änderung der LDAP-Konfiguration?
-
Findet eine Datenmigration statt?
-
Wurden Plattform-Services kürzlich aktiviert oder geändert?
-
Wurde die Compliance in letzter Zeit aktiviert?
-
Wurden Cloud-Storage-Pools hinzugefügt oder entfernt?
-
Wurden Änderungen an der Storage-Komprimierung oder -Verschlüsselung vorgenommen?
-
Wurden Änderungen an der Netzwerkinfrastruktur vorgenommen? Beispiel: VLANs, Router oder DNS.
-
Wurden Änderungen an NTP-Quellen vorgenommen?
-
Wurden Änderungen an den Grid-, Admin- oder Client-Netzwerkschnittstellen vorgenommen?
-
Wurden Konfigurationsänderungen am Archiv-Node vorgenommen?
-
Wurden weitere Änderungen am StorageGRID System bzw. an der zugehörigen Umgebung vorgenommen?
Basisvorgänge werden erstellt
Sie können Basislinien für Ihr System einrichten, indem Sie die normalen Ebenen verschiedener Betriebswerte erfassen. In Zukunft können Sie aktuelle Werte mit diesen Basiswerten vergleichen, um ungewöhnliche Werte zu erkennen und zu beheben.
Eigenschaft | Wert | Wie zu erhalten |
---|---|---|
Durchschnittlicher Storage-Verbrauch |
GB verbrauchen/Tag Prozent verbraucht/Tag |
Wechseln Sie zum Grid Manager. Wählen Sie auf der Seite Knoten das gesamte Raster oder eine Site aus, und wechseln Sie zur Registerkarte Speicher. Suchen Sie im Diagramm Speicher verwendet - Objektdaten einen Zeitraum, in dem die Linie ziemlich stabil ist. Bewegen Sie den Mauszeiger über das Diagramm, um zu schätzen, wie viel Storage täglich belegt wird Sie können diese Informationen für das gesamte System oder für ein bestimmtes Rechenzentrum erfassen. |
Durchschnittlicher Metadatenkverbrauch |
GB verbrauchen/Tag Prozent verbraucht/Tag |
Wechseln Sie zum Grid Manager. Wählen Sie auf der Seite Knoten das gesamte Raster oder eine Site aus, und wechseln Sie zur Registerkarte Speicher. Suchen Sie im Diagramm „verwendete Speicher - Objektmetadaten“ einen Zeitraum, in dem die Zeile ziemlich stabil ist. Bewegen Sie den Mauszeiger über das Diagramm, um zu schätzen, wie viel Metadaten-Storage jeden Tag belegt wird Sie können diese Informationen für das gesamte System oder für ein bestimmtes Rechenzentrum erfassen. |
Geschwindigkeit von S3/Swift Operationen |
Vorgänge/Sekunde |
Wechseln Sie im Grid Manager zum Fenster Dashboard. Sehen Sie sich im Abschnitt Protokollvorgänge die Werte für die S3-Rate und die Swift-Rate an. Um Einspeis- und Abrufraten und Zählungen für einen bestimmten Standort oder Knoten anzuzeigen, wählen Sie Knoten > Standort oder Storage Node > Objekte. Halten Sie den Mauszeiger über das Diagramm Aufnahme und Abruf für S3 oder Swift. |
S3/Swift-Vorgänge sind fehlgeschlagen |
Betrieb |
Wählen Sie Support > Tools > Grid Topology Aus. Zeigen Sie auf der Registerkarte Übersicht im Abschnitt API-Vorgänge den Wert für S3-Operationen an – Fehlgeschlagen oder Swift-Vorgänge – Fehlgeschlagen. |
ILM-Auswertungsrate |
Objekte/Sekunde |
Wählen Sie auf der Seite Knoten GRID > ILM aus. Suchen Sie im ILM-Queue-Diagramm einen Zeitraum, in dem die Zeile ziemlich stabil ist. Bewegen Sie den Mauszeiger über das Diagramm, um einen Basiswert für Evaluierungsrate für Ihr System zu schätzen. |
ILM-Scan-Rate |
Objekte/Sekunde |
Wählen Sie Nodes > GRID > ILM aus. Suchen Sie im ILM-Queue-Diagramm einen Zeitraum, in dem die Zeile ziemlich stabil ist. Bewegen Sie den Cursor über das Diagramm, um einen Basiswert für Scanrate für Ihr System zu schätzen. |
Objekte, die sich aus Client-Vorgängen in Warteschlange befinden |
Objekte/Sekunde |
Wählen Sie Nodes > GRID > ILM aus. Suchen Sie im ILM-Queue-Diagramm einen Zeitraum, in dem die Zeile ziemlich stabil ist. Bewegen Sie den Mauszeiger über das Diagramm, um einen Basiswert für Objekte in der Warteschlange (aus Client-Operationen) für Ihr System zu schätzen. |
Durchschnittliche Abfragelatenz |
Millisekunden |
Wählen Sie Knoten > Speicherknoten > Objekte Aus. Zeigen Sie in der Tabelle Abfragen den Wert für durchschnittliche Latenz an. |
Datenanalyse
Verwenden Sie die gesammelten Informationen, um die Ursache des Problems und der potenziellen Lösungen zu ermitteln.
Die Analyse ist Problem‐abhängig, aber im Allgemeinen:
-
Erkennen von Fehlerpunkten und Engpässen mithilfe der Alarme.
-
Rekonstruieren Sie den Problemverlauf mithilfe der Alarmhistorie und -Diagramme.
-
Verwenden Sie Diagramme, um Anomalien zu finden und die Problemsituation mit dem normalen Betrieb zu vergleichen.
Checkliste für Eskalationsinformationen
Wenn Sie das Problem nicht selbst lösen können, wenden Sie sich an den technischen Support. Bevor Sie sich an den technischen Support wenden, müssen Sie die in der folgenden Tabelle aufgeführten Informationen zur Erleichterung der Problembehebung nutzen.
Element | Hinweise | |
---|---|---|
Problemstellung |
Was sind die Problemsymptome? Wann hat das Problem begonnen? Passiert es konsequent oder intermittierend? Welche Zeiten hat es gelegentlich gegeben? |
|
Folgenabschätzung |
Wo liegt der Schweregrad des Problems? Welche Auswirkungen hat dies auf die Client-Applikation?
|
|
StorageGRID System-ID |
Wählen Sie Wartung > System > Lizenz. Die StorageGRID System-ID wird im Rahmen der aktuellen Lizenz angezeigt. |
|
Softwareversion |
Klicken Sie auf Hilfe > Info, um die StorageGRID-Version anzuzeigen. |
|
Anpassbarkeit |
Fassen Sie zusammen, wie Ihr StorageGRID System konfiguriert ist. Nehmen Sie z. B. Folgendes auf:
|
|
Log-Dateien und Systemdaten |
Erfassen von Protokolldateien und Systemdaten für Ihr System Wählen Sie Support > Extras > Protokolle. Sie können Protokolle für das gesamte Grid oder für ausgewählte Nodes sammeln. Wenn Sie Protokolle nur für ausgewählte Knoten erfassen, müssen Sie mindestens einen Speicherknoten mit dem ADC-Service einschließen. (Die ersten drei Storage-Nodes an einem Standort enthalten den ADC-Service.) |
|
Basisinformationen |
Sammeln von Basisinformationen über Erfassungs-, Abrufvorgänge und Storage-Verbrauch |
|
Zeitachse der letzten Änderungen |
Erstellen Sie eine Zeitleiste, in der alle letzten Änderungen am System oder seiner Umgebung zusammengefasst sind. |
|
Verlauf der Bemühungen zur Diagnose des Problems |
Wenn Sie Schritte zur Diagnose oder Behebung des Problems selbst ergriffen haben, achten Sie darauf, die Schritte und das Ergebnis zu notieren. |