Skip to main content
Die deutsche Sprachversion wurde als Serviceleistung für Sie durch maschinelle Übersetzung erstellt. Bei eventuellen Unstimmigkeiten hat die englische Sprachversion Vorrang.

Fehler in einem StorageGRID System beheben

Beitragende

Wenn bei der Verwendung eines StorageGRID-Systems ein Problem auftritt, finden Sie in den Tipps und Richtlinien dieses Abschnitts Hilfe zum ermitteln und Beheben des Problems.

Häufig können Sie Probleme selbst lösen. Unter Umständen müssen Sie jedoch einige Probleme an den technischen Support eskalieren.

Definieren Sie das Problem

Der erste Schritt zur Lösung eines Problems besteht darin, das Problem klar zu definieren.

Diese Tabelle enthält Beispiele für die Arten von Informationen, die Sie erfassen können, um ein Problem zu definieren:

Frage Beispielantwort

Was macht das StorageGRID-System? Was sind die Symptome?

Client-Applikationen berichten, dass Objekte nicht in StorageGRID aufgenommen werden können.

Wann hat das Problem begonnen?

Die Objektaufnahme wurde am 8. Januar 2020 um 14:50 Uhr verweigert.

Wie haben Sie das Problem zum ersten Mal bemerkt?

Durch Client-Anwendung benachrichtigt. Auch Benachrichtigung per E-Mail erhalten.

Tritt das Problem konsequent oder nur in manchen Fällen auf?

Das Problem ist noch nicht behoben.

Wenn das Problem regelmäßig auftritt, welche Schritte dazu führen, dass es auftritt

Das Problem tritt jedes Mal auf, wenn ein Client versucht, ein Objekt aufzunehmen.

Wenn das Problem zeitweise auftritt, wann tritt es auf? Notieren Sie die Zeiten der einzelnen Vorfälle, die Sie kennen.

Das Problem ist nicht intermittierend.

Haben Sie dieses Problem schon einmal gesehen? Wie oft hatten Sie dieses Problem in der Vergangenheit?

Dies ist das erste Mal, dass ich dieses Thema gesehen habe.

Bewerten Sie das Risiko und die Auswirkungen auf das System

Bewerten Sie nach Definition des Problems sein Risiko und die Auswirkungen auf das StorageGRID System. Beispielsweise bedeutet das Vorhandensein kritischer Warnmeldungen nicht zwangsläufig, dass das System keine Kernservices liefert.

In dieser Tabelle sind die Auswirkungen eines Beispielproblems auf Systemvorgänge zusammengefasst:

Frage Beispielantwort

Kann das StorageGRID System Inhalte aufnehmen?

Nein

Können Client-Anwendungen Inhalte abrufen?

Einige Objekte können abgerufen werden, andere nicht.

Sind Daten gefährdet?

Nein

Ist die Fähigkeit, Geschäfte zu führen, stark beeinträchtigt?

Ja, da Client-Applikationen keine Objekte im StorageGRID System speichern können und Daten nicht konsistent abgerufen werden können.

Datenerfassung

Nach dem Definition des Problems und der Bewertung der Risiken und Auswirkungen können Sie Daten zur Analyse sammeln. Die Art der Daten, die am nützlichsten zu erfassen sind, hängt von der Art des Problems ab.

Art der zu erfassenden Daten Warum diese Daten sammeln Anweisungen

Zeitplan der neuesten Änderungen erstellen

Änderungen an Ihrem StorageGRID System, seiner Konfiguration oder seiner Umgebung können zu neuem Verhalten führen.

Prüfen von Warnmeldungen

Mithilfe von Warnmeldungen können Sie die Ursache eines Problems schnell ermitteln, indem Sie wichtige Hinweise zu den zugrunde liegenden Problemen geben, die das Problem verursachen könnten.

Prüfen Sie die Liste der aktuellen Meldungen, um festzustellen, ob StorageGRID die Ursache eines Problems für Sie ermittelt hat.

Prüfen Sie in der Vergangenheit ausgelöste Warnmeldungen, um zusätzliche Informationen zu erhalten.

Monitoring von Ereignissen

Ereignisse umfassen Systemfehler oder Fehlerereignisse für einen Node, einschließlich Fehler wie Netzwerkfehler. Überwachen Sie Ereignisse, um weitere Informationen zu Problemen zu erhalten oder um Hilfe bei der Fehlerbehebung zu erhalten.

Identifizieren von Trends mithilfe von Diagrammen und Textberichten

Trends liefern wertvolle Hinweise darauf, wann Probleme zuerst auftraten, und können Ihnen helfen zu verstehen, wie schnell sich die Dinge ändern.

Basispläne erstellen

Sammeln von Informationen über die normalen Stufen verschiedener Betriebswerte. Diese Basiswerte und Abweichungen von diesen Grundlinien können wertvolle Hinweise liefern.

Durchführen von Einspeisung und Abruf von Tests

Zur Fehlerbehebung von Performance-Problemen bei Aufnahme und Abruf können Objekte auf einer Workstation gespeichert und abgerufen werden. Vergleichen Sie die Ergebnisse mit denen, die bei der Verwendung der Client-Anwendung angezeigt werden.

Audit-Meldungen prüfen

Überprüfen Sie Audit-Meldungen, um StorageGRID Vorgänge im Detail zu befolgen. Die Details in Audit-Meldungen können bei der Behebung vieler Arten von Problemen, einschließlich von Performance-Problemen, nützlich sein.

Überprüfen Sie Objektstandorte und Storage-Integrität

Wenn Sie Speicherprobleme haben, stellen Sie sicher, dass Objekte an der gewünschten Stelle platziert werden. Überprüfen Sie die Integrität von Objektdaten auf einem Storage-Node.

Datenerfassung für technischen Support

Vom technischen Support werden Sie möglicherweise aufgefordert, Daten zu sammeln oder bestimmte Informationen zu überprüfen, um Probleme zu beheben.

Erstellen Sie eine Zeitleiste der neuesten Änderungen

Wenn ein Problem auftritt, sollten Sie berücksichtigen, was sich kürzlich geändert hat und wann diese Änderungen aufgetreten sind.

  • Änderungen an Ihrem StorageGRID System, seiner Konfiguration oder seiner Umgebung können zu neuem Verhalten führen.

  • Durch eine Zeitleiste von Änderungen können Sie feststellen, welche Änderungen für ein Problem verantwortlich sein könnten und wie jede Änderung ihre Entwicklung beeinflusst haben könnte.

Erstellen Sie eine Tabelle mit den letzten Änderungen an Ihrem System, die Informationen darüber enthält, wann jede Änderung stattgefunden hat und welche relevanten Details über die Änderung angezeigt werden, und Informationen darüber, was während der Änderung noch passiert ist:

Zeit der Änderung Art der Änderung Details

Beispiel:

  • Wann haben Sie die Node-Wiederherstellung gestartet?

  • Wann wurde das Software-Upgrade abgeschlossen?

  • Haben Sie den Prozess unterbrochen?

Was ist los? Was haben Sie gemacht?

Dokumentieren Sie alle relevanten Details zu der Änderung. Beispiel:

  • Details zu den Netzwerkänderungen.

  • Welcher Hotfix wurde installiert.

  • Änderungen bei Client-Workloads

Achten Sie darauf, zu beachten, ob mehrere Änderungen gleichzeitig durchgeführt wurden. Wurde diese Änderung beispielsweise vorgenommen, während ein Upgrade durchgeführt wurde?

Beispiele für signifikante aktuelle Änderungen

Hier einige Beispiele für potenziell signifikante Änderungen:

  • Wurde das StorageGRID System kürzlich installiert, erweitert oder wiederhergestellt?

  • Wurde kürzlich ein Upgrade des Systems durchgeführt? Wurde ein Hotfix angewendet?

  • Wurde irgendeine Hardware in letzter Zeit repariert oder geändert?

  • Wurde die ILM-Richtlinie aktualisiert?

  • Hat sich der Client-Workload geändert?

  • Hat sich die Client-Applikation oder deren Verhalten geändert?

  • Haben Sie den Lastausgleich geändert oder eine Hochverfügbarkeitsgruppe aus Admin-Nodes oder Gateway-Nodes hinzugefügt oder entfernt?

  • Wurden Aufgaben gestartet, die ein sehr langer Zeitaufwand beanspruchen können? Beispiele:

    • Wiederherstellung eines fehlerhaften Speicherknotens

    • Ausmusterung von Storage-Nodes

  • Wurden Änderungen an der Benutzerauthentifizierung vorgenommen, beispielsweise beim Hinzufügen eines Mandanten oder bei der Änderung der LDAP-Konfiguration?

  • Findet eine Datenmigration statt?

  • Wurden Plattform-Services kürzlich aktiviert oder geändert?

  • Wurde die Compliance in letzter Zeit aktiviert?

  • Wurden Cloud-Storage-Pools hinzugefügt oder entfernt?

  • Wurden Änderungen an der Storage-Komprimierung oder -Verschlüsselung vorgenommen?

  • Wurden Änderungen an der Netzwerkinfrastruktur vorgenommen? Beispiel: VLANs, Router oder DNS.

  • Wurden Änderungen an NTP-Quellen vorgenommen?

  • Wurden Änderungen an den Grid-, Admin- oder Client-Netzwerkschnittstellen vorgenommen?

  • Wurden weitere Änderungen am StorageGRID System bzw. an der zugehörigen Umgebung vorgenommen?

Basispläne erstellen

Sie können Basislinien für Ihr System einrichten, indem Sie die normalen Ebenen verschiedener Betriebswerte erfassen. In Zukunft können Sie aktuelle Werte mit diesen Basiswerten vergleichen, um ungewöhnliche Werte zu erkennen und zu beheben.

Eigenschaft Wert Wie zu erhalten

Durchschnittlicher Storage-Verbrauch

GB verbrauchen/Tag

Prozent verbraucht/Tag

Wechseln Sie zum Grid Manager. Wählen Sie auf der Seite Knoten das gesamte Raster oder eine Site aus, und wechseln Sie zur Registerkarte Speicher.

Suchen Sie im Diagramm Speicher verwendet - Objektdaten einen Zeitraum, in dem die Linie ziemlich stabil ist. Bewegen Sie den Mauszeiger über das Diagramm, um zu schätzen, wie viel Speicherplatz jeden Tag verbraucht wird

Sie können diese Informationen für das gesamte System oder für ein bestimmtes Rechenzentrum erfassen.

Durchschnittlicher Metadatenkverbrauch

GB verbrauchen/Tag

Prozent verbraucht/Tag

Wechseln Sie zum Grid Manager. Wählen Sie auf der Seite Knoten das gesamte Raster oder eine Site aus, und wechseln Sie zur Registerkarte Speicher.

Suchen Sie im Diagramm „verwendete Speicher - Objektmetadaten“ einen Zeitraum, in dem die Zeile ziemlich stabil ist. Bewegen Sie den Mauszeiger über das Diagramm, um zu schätzen, wie viel Metadaten-Storage täglich belegt wird

Sie können diese Informationen für das gesamte System oder für ein bestimmtes Rechenzentrum erfassen.

Geschwindigkeit von S3/Swift Operationen

Vorgänge/Sekunde

Wählen Sie im Dashboard von Grid Manager Performance > S3 Operations oder Performance > Swift Operations aus.

Um die Aufnahme- und Abrufraten für einen bestimmten Standort oder Knoten anzuzeigen, wählen Sie NODES > Site oder Storage Node > Objects aus. Positionieren Sie den Cursor auf dem Diagramm „Aufnahme und Abruf“ für S3.

S3/Swift-Vorgänge sind fehlgeschlagen

Betrieb

Wählen Sie SUPPORT > Tools > Grid-Topologie aus. Zeigen Sie auf der Registerkarte Übersicht im Abschnitt API-Vorgänge den Wert für S3-Operationen an – Fehlgeschlagen oder Swift-Vorgänge – Fehlgeschlagen.

ILM-Auswertungsrate

Objekte/Sekunde

Wählen Sie auf der Seite Knoten GRID > ILM aus.

Suchen Sie im ILM-Queue-Diagramm einen Zeitraum, in dem die Zeile ziemlich stabil ist. Bewegen Sie den Cursor über das Diagramm, um einen Basislinienwert für Bewertungsrate für Ihr System zu schätzen.

ILM-Scan-Rate

Objekte/Sekunde

Wählen Sie NODES > Grid > ILM aus.

Suchen Sie im ILM-Queue-Diagramm einen Zeitraum, in dem die Zeile ziemlich stabil ist. Bewegen Sie den Cursor über das Diagramm, um einen Basislinienwert für Scan-Rate für Ihr System abzuschätzen.

Objekte, die sich aus Client-Vorgängen in Warteschlange befinden

Objekte/Sekunde

Wählen Sie NODES > Grid > ILM aus.

Suchen Sie im ILM-Queue-Diagramm einen Zeitraum, in dem die Zeile ziemlich stabil ist. Bewegen Sie den Cursor über das Diagramm, um einen Basislinienwert für Objekte in der Warteschlange (von Client-Operationen) für Ihr System abzuschätzen.

Durchschnittliche Abfragelatenz

Millisekunden

Wählen Sie NODES > Storage Node > Objekte aus. Zeigen Sie in der Tabelle Abfragen den Wert für durchschnittliche Latenz an.

Analysieren von Daten

Verwenden Sie die gesammelten Informationen, um die Ursache des Problems und der potenziellen Lösungen zu ermitteln.

Die Analyse ist Problem‐abhängig, aber im Allgemeinen:

  • Ermitteln Sie mithilfe der Warnmeldungen Points of Failure und Engpässe.

  • Rekonstruieren Sie den Problemverlauf mithilfe des Alarmverlaufs und der Diagramme.

  • Verwenden Sie Diagramme, um Anomalien zu finden und die Problemsituation mit dem normalen Betrieb zu vergleichen.

Checkliste für Eskalationsinformationen

Wenn Sie das Problem nicht alleine lösen können, wenden Sie sich an den technischen Support. Bevor Sie sich an den technischen Support wenden, müssen Sie die in der folgenden Tabelle aufgeführten Informationen zur Erleichterung der Problembehebung nutzen.

Häkchen Element Hinweise

Problemstellung

Was sind die Problemsymptome? Wann hat das Problem begonnen? Passiert es konsequent oder intermittierend? Welche Zeiten hat es gelegentlich gegeben?

Folgenabschätzung

Wo liegt der Schweregrad des Problems? Welche Auswirkungen hat dies auf die Client-Applikation?

  • Ist der Client bereits erfolgreich verbunden?

  • Kann der Client Daten aufnehmen, abrufen und löschen?

StorageGRID System-ID

Wählen Sie WARTUNG > System > Lizenz. Die StorageGRID System-ID wird im Rahmen der aktuellen Lizenz angezeigt.

Softwareversion

Wählen Sie oben im Grid Manager das Hilfesymbol aus, und wählen Sie über, um die StorageGRID-Version anzuzeigen.

Anpassbarkeit

Fassen Sie zusammen, wie Ihr StorageGRID System konfiguriert ist. Nehmen Sie z. B. Folgendes auf:

  • Verwendet das Grid Storage-Komprimierung, Storage-Verschlüsselung oder Compliance?

  • Werden replizierte oder Erasure-Coded-Objekte von ILM erstellt? Stellt ILM Standortredundanz sicher? Nutzen ILM-Regeln das ausgewogene, strikte oder duale Commit-Aufnahmverhalten?

Log-Dateien und Systemdaten

Erfassen von Protokolldateien und Systemdaten für Ihr System Wählen Sie SUPPORT > Extras > Protokolle.

Sie können Protokolle für das gesamte Grid oder für ausgewählte Nodes sammeln.

Wenn Sie Protokolle nur für ausgewählte Knoten erfassen, müssen Sie mindestens einen Speicherknoten mit dem ADC-Service einschließen. (Die ersten drei Storage-Nodes an einem Standort enthalten den ADC-Service.)

Basisinformationen

Sammeln von Basisinformationen über Erfassungs-, Abrufvorgänge und Storage-Verbrauch

Zeitachse der letzten Änderungen

Erstellen Sie eine Zeitleiste, in der alle letzten Änderungen am System oder seiner Umgebung zusammengefasst sind.

Verlauf der Bemühungen zur Diagnose des Problems

Wenn Sie Schritte zur Diagnose oder Behebung des Problems selbst ergriffen haben, achten Sie darauf, die Schritte und das Ergebnis zu notieren.