Fehlerbehebung bei einem StorageGRID -System
Wenn bei der Verwendung eines StorageGRID -Systems ein Problem auftritt, finden Sie in den Tipps und Richtlinien in diesem Abschnitt Hilfe bei der Ermittlung und Lösung des Problems.
Oft können Sie Probleme selbst lösen. Bei manchen Problemen müssen Sie sich jedoch möglicherweise an den technischen Support wenden.
Definieren Sie das Problem
Der erste Schritt zur Lösung eines Problems besteht darin, das Problem klar zu definieren.
Diese Tabelle enthält Beispiele für die Arten von Informationen, die Sie zur Definition eines Problems sammeln können:
Frage | Beispielantwort |
---|---|
Was macht das StorageGRID -System bzw. was macht es nicht? Was sind die Symptome? |
Clientanwendungen melden, dass Objekte nicht in StorageGRID aufgenommen werden können. |
Wann begann das Problem? |
Die Objektaufnahme wurde am 8. Januar 2020 gegen 14:50 Uhr erstmals verweigert. |
Wie haben Sie das Problem zum ersten Mal bemerkt? |
Benachrichtigung durch Clientanwendung. Habe auch E-Mail-Benachrichtigungen erhalten. |
Tritt das Problem ständig auf oder nur manchmal? |
Das Problem besteht weiterhin. |
Wenn das Problem regelmäßig auftritt, welche Schritte führen dazu, dass es auftritt? |
Das Problem tritt jedes Mal auf, wenn ein Client versucht, ein Objekt aufzunehmen. |
Wenn das Problem zeitweise auftritt, wann tritt es auf? Notieren Sie die Zeitpunkte aller Vorfälle, die Ihnen bekannt sind. |
Das Problem tritt nicht zeitweise auf. |
Ist Ihnen dieses Problem schon einmal begegnet? Wie oft hatten Sie dieses Problem in der Vergangenheit? |
Dieses Problem ist mir zum ersten Mal begegnet. |
Bewerten Sie das Risiko und die Auswirkungen auf das System
Nachdem Sie das Problem definiert haben, bewerten Sie dessen Risiko und Auswirkungen auf das StorageGRID -System. Beispielsweise bedeutet das Vorhandensein kritischer Warnungen nicht unbedingt, dass das System keine Kerndienste bereitstellt.
Diese Tabelle fasst die Auswirkungen des Beispielproblems auf den Systembetrieb zusammen:
Frage | Beispielantwort |
---|---|
Kann das StorageGRID -System Inhalte aufnehmen? |
NEIN. |
Können Clientanwendungen Inhalte abrufen? |
Einige Objekte können abgerufen werden, andere nicht. |
Sind Daten gefährdet? |
NEIN. |
Ist die Geschäftsfähigkeit stark beeinträchtigt? |
Ja, da Clientanwendungen keine Objekte im StorageGRID -System speichern können und Daten nicht konsistent abgerufen werden können. |
Daten sammeln
Nachdem Sie das Problem definiert und sein Risiko und seine Auswirkungen bewertet haben, sammeln Sie Daten für die Analyse. Welche Art von Daten am sinnvollsten zu erfassen ist, hängt von der Art des Problems ab.
Art der zu erfassenden Daten | Warum diese Daten gesammelt werden | Anweisungen |
---|---|---|
Erstellen Sie eine Zeitleiste der letzten Änderungen |
Änderungen an Ihrem StorageGRID -System, seiner Konfiguration oder seiner Umgebung können zu neuem Verhalten führen. |
|
Benachrichtigungen überprüfen |
Mithilfe von Warnmeldungen können Sie die Grundursache eines Problems schnell ermitteln, indem Sie wichtige Hinweise auf die zugrunde liegenden Probleme liefern, die das Problem möglicherweise verursachen. Überprüfen Sie die Liste der aktuellen Warnungen, um festzustellen, ob StorageGRID die Grundursache eines Problems für Sie identifiziert hat. Überprüfen Sie in der Vergangenheit ausgelöste Warnungen, um zusätzliche Erkenntnisse zu erhalten. |
|
Überwachen von Ereignissen |
Zu den Ereignissen zählen alle Systemfehler oder Störungsereignisse für einen Knoten, einschließlich Fehlern wie Netzwerkfehlern. Überwachen Sie Ereignisse, um mehr über Probleme zu erfahren oder bei der Fehlerbehebung zu helfen. |
|
Identifizieren Sie Trends mithilfe von Diagrammen und Textberichten |
Trends können wertvolle Hinweise darauf liefern, wann Probleme erstmals auftraten, und Ihnen helfen zu verstehen, wie schnell sich die Dinge ändern. |
|
Festlegen von Basislinien |
Sammeln Sie Informationen über die Normalwerte verschiedener Betriebswerte. Diese Basiswerte und Abweichungen von diesen Basiswerten können wertvolle Hinweise liefern. |
|
Durchführen von Aufnahme- und Abruftests |
Um Leistungsprobleme beim Aufnehmen und Abrufen zu beheben, verwenden Sie eine Workstation zum Speichern und Abrufen von Objekten. Vergleichen Sie die Ergebnisse mit denen, die Sie bei Verwendung der Clientanwendung sehen. |
|
Überprüfen von Auditmeldungen |
Überprüfen Sie die Prüfmeldungen, um die StorageGRID -Vorgänge im Detail zu verfolgen. Die Details in den Prüfmeldungen können bei der Behebung vieler Arten von Problemen hilfreich sein, darunter auch Leistungsprobleme. |
|
Überprüfen Sie die Objektstandorte und Speicherintegrität |
Wenn Sie Speicherprobleme haben, überprüfen Sie, ob die Objekte dort platziert werden, wo Sie es erwarten. Überprüfen Sie die Integrität der Objektdaten auf einem Speicherknoten. |
|
Sammeln Sie Daten für den technischen Support |
Der technische Support bittet Sie möglicherweise, Daten zu sammeln oder bestimmte Informationen zu überprüfen, um bei der Behebung von Problemen zu helfen. |
Erstellen Sie eine Zeitleiste der letzten Änderungen
Wenn ein Problem auftritt, sollten Sie berücksichtigen, was sich kürzlich geändert hat und wann diese Änderungen aufgetreten sind.
-
Änderungen an Ihrem StorageGRID -System, seiner Konfiguration oder seiner Umgebung können zu neuem Verhalten führen.
-
Mithilfe einer Zeitleiste der Änderungen können Sie ermitteln, welche Änderungen möglicherweise für ein Problem verantwortlich sind und wie sich jede Änderung möglicherweise auf dessen Entwicklung ausgewirkt hat.
Erstellen Sie eine Tabelle mit den letzten Änderungen an Ihrem System, die Informationen darüber enthält, wann die einzelnen Änderungen vorgenommen wurden, sowie alle relevanten Details zu den Änderungen, z. B. Informationen darüber, was sonst noch während der Änderung geschah:
Zeit der Veränderung | Art der Änderung | Details |
---|---|---|
Beispiel:
|
Was ist passiert? Was hast du gemacht? |
Dokumentieren Sie alle relevanten Details zur Änderung. Beispiel:
Achten Sie darauf, ob mehrere Änderungen gleichzeitig vorgenommen wurden. Wurde diese Änderung beispielsweise während eines laufenden Upgrades vorgenommen? |
Beispiele für bedeutende aktuelle Änderungen
Hier sind einige Beispiele für potenziell bedeutende Änderungen:
-
Wurde das StorageGRID -System kürzlich installiert, erweitert oder wiederhergestellt?
-
Wurde das System kürzlich aktualisiert? Wurde ein Hotfix angewendet?
-
Wurde kürzlich Hardware repariert oder ausgetauscht?
-
Wurde die ILM-Richtlinie aktualisiert?
-
Hat sich die Arbeitsbelastung des Kunden geändert?
-
Hat sich die Clientanwendung oder ihr Verhalten geändert?
-
Haben Sie Load Balancer geändert oder eine Hochverfügbarkeitsgruppe von Admin-Knoten oder Gateway-Knoten hinzugefügt oder entfernt?
-
Wurden Aufgaben begonnen, deren Erledigung möglicherweise viel Zeit in Anspruch nimmt? Beispiele hierfür sind:
-
Wiederherstellung eines ausgefallenen Speicherknotens
-
Außerbetriebnahme von Speicherknoten
-
-
Wurden Änderungen an der Benutzerauthentifizierung vorgenommen, z. B. das Hinzufügen eines Mandanten oder das Ändern der LDAP-Konfiguration?
-
Findet eine Datenmigration statt?
-
Wurden Plattformdienste kürzlich aktiviert oder geändert?
-
Wurde die Compliance vor Kurzem aktiviert?
-
Wurden Cloud-Speicherpools hinzugefügt oder entfernt?
-
Wurden Änderungen an der Speicherkomprimierung oder -verschlüsselung vorgenommen?
-
Gab es Änderungen an der Netzwerkinfrastruktur? Zum Beispiel VLANs, Router oder DNS.
-
Wurden Änderungen an NTP-Quellen vorgenommen?
-
Wurden Änderungen an den Grid-, Admin- oder Client-Netzwerkschnittstellen vorgenommen?
-
Wurden sonstige Änderungen am StorageGRID -System oder seiner Umgebung vorgenommen?
Festlegen von Basislinien
Sie können Basiswerte für Ihr System festlegen, indem Sie die Normalwerte verschiedener Betriebswerte aufzeichnen. In Zukunft können Sie aktuelle Werte mit diesen Basiswerten vergleichen, um abnormale Werte zu erkennen und zu beheben.
Eigentum | Wert | So erhalten Sie |
---|---|---|
Durchschnittlicher Speicherverbrauch |
Verbrauchte GB/Tag Prozent verbraucht/Tag |
Gehen Sie zum Grid Manager. Wählen Sie auf der Seite „Knoten“ das gesamte Raster oder eine Site aus und wechseln Sie zur Registerkarte „Speicher“. Suchen Sie im Diagramm „Speichernutzung – Objektdaten“ einen Zeitraum, in dem die Linie relativ stabil ist. Bewegen Sie den Cursor über das Diagramm, um zu schätzen, wie viel Speicherplatz täglich verbraucht wird Sie können diese Informationen für das gesamte System oder für ein bestimmtes Rechenzentrum erfassen. |
Durchschnittlicher Metadatenverbrauch |
Verbrauchte GB/Tag Prozent verbraucht/Tag |
Gehen Sie zum Grid Manager. Wählen Sie auf der Seite „Knoten“ das gesamte Raster oder eine Site aus und wechseln Sie zur Registerkarte „Speicher“. Suchen Sie im Diagramm „Speicherplatznutzung – Objektmetadaten“ einen Zeitraum, in dem die Linie relativ stabil ist. Bewegen Sie den Cursor über das Diagramm, um zu schätzen, wie viel Metadatenspeicher täglich verbraucht wird Sie können diese Informationen für das gesamte System oder für ein bestimmtes Rechenzentrum erfassen. |
Rate der S3/Swift-Operationen |
Operationen/Sekunde |
Wählen Sie im Grid Manager-Dashboard Leistung > S3-Operationen oder Leistung > Swift-Operationen. Um die Aufnahme- und Abrufraten sowie die Anzahl für eine bestimmte Site oder einen bestimmten Knoten anzuzeigen, wählen Sie KNOTEN > Site oder Speicherknoten > Objekte. Positionieren Sie Ihren Cursor über dem Ingest- und Retrieve-Diagramm für S3. |
Fehlgeschlagene S3/Swift-Operationen |
Operationen |
Wählen Sie SUPPORT > Tools > Gittertopologie. Zeigen Sie auf der Registerkarte „Übersicht“ im Abschnitt „API-Operationen“ den Wert für „S3-Operationen – Fehlgeschlagen“ oder „Swift-Operationen – Fehlgeschlagen“ an. |
ILM-Auswertungsrate |
Objekte/Sekunde |
Wählen Sie auf der Seite „Knoten“ grid > ILM aus. Suchen Sie im ILM-Warteschlangendiagramm einen Zeitraum, in dem die Leitung relativ stabil ist. Positionieren Sie Ihren Cursor über dem Diagramm, um einen Basiswert für die Bewertungsrate für Ihr System zu schätzen. |
ILM-Scanrate |
Objekte/Sekunde |
Wählen Sie NODES > grid > ILM. Suchen Sie im ILM-Warteschlangendiagramm einen Zeitraum, in dem die Leitung relativ stabil ist. Positionieren Sie Ihren Cursor über dem Diagramm, um einen Basiswert für die Scanrate für Ihr System zu schätzen. |
Objekte aus Clientvorgängen in der Warteschlange |
Objekte/Sekunde |
Wählen Sie NODES > grid > ILM. Suchen Sie im ILM-Warteschlangendiagramm einen Zeitraum, in dem die Leitung relativ stabil ist. Positionieren Sie Ihren Cursor über dem Diagramm, um einen Basiswert für in die Warteschlange gestellte Objekte (aus Clientvorgängen) für Ihr System zu schätzen. |
Durchschnittliche Abfragelatenz |
Millisekunden |
Wählen Sie NODES > Storage Node > Objects. Zeigen Sie in der Abfragetabelle den Wert für die durchschnittliche Latenz an. |
Daten analysieren
Verwenden Sie die gesammelten Informationen, um die Ursache des Problems und mögliche Lösungen zu ermitteln.
Die Analyse ist problemabhängig, aber im Allgemeinen gilt:
-
Lokalisieren Sie mithilfe der Warnungen Fehlerpunkte und Engpässe.
-
Rekonstruieren Sie den Problemverlauf mithilfe des Warnverlaufs und der Diagramme.
-
Verwenden Sie Diagramme, um Anomalien zu finden und die Problemsituation mit dem Normalbetrieb zu vergleichen.
Checkliste für Eskalationsinformationen
Wenn Sie das Problem nicht selbst lösen können, wenden Sie sich an den technischen Support. Bevor Sie sich an den technischen Support wenden, sammeln Sie die in der folgenden Tabelle aufgeführten Informationen, um die Problemlösung zu erleichtern.
![]() |
Artikel | Hinweise |
---|---|---|
Problemstellung |
Was sind die Problemsymptome? Wann begann das Problem? Passiert das ständig oder zeitweise? Wenn es zeitweise auftritt, wann ist es aufgetreten? |
|
Folgenabschätzung |
Wie schwerwiegend ist das Problem? Welche Auswirkungen hat dies auf die Clientanwendung?
|
|
StorageGRID -System-ID |
Wählen Sie WARTUNG > System > Lizenz. Die StorageGRID -System-ID wird als Teil der aktuellen Lizenz angezeigt. |
|
Softwareversion |
Wählen Sie oben im Grid Manager das Hilfesymbol und dann Info aus, um die StorageGRID -Version anzuzeigen. |
|
Anpassung |
Fassen Sie zusammen, wie Ihr StorageGRID -System konfiguriert ist. Listen Sie beispielsweise Folgendes auf:
|
|
Protokolldateien und Systemdaten |
Sammeln Sie Protokolldateien und Systemdaten für Ihr System. Wählen Sie SUPPORT > Tools > Protokolle. Sie können Protokolle für das gesamte Raster oder für ausgewählte Knoten sammeln. Wenn Sie Protokolle nur für ausgewählte Knoten sammeln, achten Sie darauf, mindestens einen Speicherknoten einzuschließen, der über den ADC-Dienst verfügt. (Die ersten drei Speicherknoten an einem Standort umfassen den ADC-Dienst.) |
|
Basisinformationen |
Sammeln Sie Basisinformationen zu Aufnahmevorgängen, Abrufvorgängen und Speicherverbrauch. |
|
Zeitleiste der jüngsten Änderungen |
Erstellen Sie eine Zeitleiste, die alle aktuellen Änderungen am System oder seiner Umgebung zusammenfasst. |
|
Verlauf der Bemühungen zur Diagnose des Problems |
Wenn Sie selbst Schritte zur Diagnose oder Fehlerbehebung des Problems unternommen haben, dokumentieren Sie die durchgeführten Schritte und das Ergebnis. |