Überwachen Sie die Volumenlatenz in Workload Factory für EDA
Als IT-Administrator oder DevOps-Ingenieur, der EDA-Workloads verwaltet, können Sie die Latenzanalyse nutzen, um die Lese- und Schreiblatenz von FSx for ONTAP-Volumes zu überwachen. Konfigurieren Sie Warn- und kritische Schwellenwerte, um Leistungsprobleme frühzeitig zu erkennen. Wenn Ereignisse auftreten, bietet Workload Factory eine automatisierte Basisanalyse, und Sie können optional eine KI-Agentenanalyse ausführen, um Details zur Ursache, betroffene Clients und empfohlene Abhilfemaßnahmen zu erhalten.
Überblick
Die Latenzanalyse erfasst CloudWatch-Metriken für Lese- und Schreibvorgänge auf allen FSx for ONTAP Volumes, die Ihren AWS-Anmeldeinformationen zugeordnet sind. Eine Warnung wird generiert, wenn sowohl der Latenz- als auch der IOPS-Schwellenwert für alle Datenpunkte innerhalb des konfigurierten Zeitraums überschritten werden. Dadurch werden Fehlalarme reduziert, da sichergestellt wird, dass die erhöhte Latenz unter realer Last kontinuierlich anhält. Sie können alle erkannten Ereignisse einsehen und erhalten, sofern Sie Benachrichtigungen konfiguriert haben, E-Mail- oder Amazon SNS-Benachrichtigungen mit Details zu den betroffenen Volumes.
Wird ein Ereignis erkannt, führt Workload Factory eine grundlegende Analyse mithilfe von ONTAP QoS-Verzögerungszentrumsmetriken durch, um den primären Latenzverursacher zu identifizieren (zum Beispiel FlexCache, Kapazitätspool, QoS-Grenzwerte, Festplatte, Daten, Cluster oder andere Subsysteme). Anschließend können Sie "Latenztrends analysieren" mithilfe eines interaktiven Diagramms vorgehen.
Für Daten- und Cluster-Szenarien können Sie optional eine KI-Agentenanalyse durchführen, um eine detaillierte Ursachenerklärung, eine Liste der betroffenen EC2-Clients und empfohlene Abhilfemaßnahmen zu erhalten.
Anforderungen
Um die Funktionen zur Latenzüberwachung und -analyse nutzen zu können, stellen Sie sicher, dass Sie die folgenden Anforderungen erfüllen:
- AWS-Anmeldeinformationen und Berechtigungen
-
Sie müssen AWS-Anmeldeinformationen mit lesen/schreiben-Berechtigungen zu Workload Factory hinzufügen. Die Funktion zur Latenzüberwachung benötigt Zugriff auf CloudWatch-Metriken für alle FSx for ONTAP Volumes, die Ihren AWS-Anmeldeinformationen zugeordnet sind.
Die Berechtigungen Basic und Read-only werden für die Latenzüberwachung nicht unterstützt.
Wenn Sie noch keine AWS-Zugangsdaten konfiguriert haben, siehe "AWS-Anmeldeinformationen hinzufügen".
- FSx für ONTAP -Dateisystem
-
Sie benötigen mindestens ein FSx for ONTAP-Dateisystem mit in Ihrer AWS-Umgebung bereitgestellten Volumes. Die Latenzüberwachungsfunktion erfasst automatisch Metriken für alle Volumes, die Ihren konfigurierten AWS-Anmeldeinformationen zugeordnet sind.
- Link zu FSx für ONTAP
-
Um grundlegende Analyseerkenntnisse anzuzeigen, müssen Sie einen Link mit dem FSx for ONTAP-Dateisystem verknüpfen. Ohne einen Link können zwar weiterhin Ereignisse erkannt werden, aber die Analyse liefert nur eingeschränkte Erkenntnisse. Wenn noch kein Link verknüpft ist, wählen Sie in EDA Link verknüpfen, entscheiden Sie, ob Sie einen neuen Link erstellen oder einen bestehenden Link verknüpfen möchten, und wählen Sie dann Weiter, um automatisch zur Seite zur Linkerstellung in Storage workloads zu gelangen.
Anleitungen zum Erstellen und Verknüpfen von Links finden Sie unter "Link erstellen".
- Amazon Bedrock Modell ARN (optional)
-
Um die optionale KI-Agentenanalysefunktion nutzen zu können, müssen Sie in Ihren Workload Factory-Einstellungen einen Amazon Bedrock-Modell-ARN angeben.
Weitere Einzelheiten finden Sie unter "Grundlegende GenAI-Anforderungen".
Wenn Sie keinen Bedrock-Modell-ARN konfigurieren, können Sie weiterhin die Latenzüberwachung und die automatisierte Basisanalyse nutzen, aber die KI-Agenten-Analyse ist nicht verfügbar.
- Benachrichtigungskonfiguration (optional)
-
Um E-Mail- oder Amazon SNS-Benachrichtigungen bei Latenzereignissen zu erhalten, konfigurieren Sie die Benachrichtigungseinstellungen in den Workload Factory-Einstellungen. Siehe Latenzbenachrichtigungen konfigurieren für Details.
Warnmeldungen verstehen
Die Latenzanalyse nutzt CloudWatch-Alarme zur Überwachung der Volumenleistung. Das Verständnis, wie Warnmeldungen ausgelöst werden, hilft Ihnen, geeignete Schwellenwerte zu konfigurieren und die Ergebnisse zu interpretieren.
Gesammelte Kennzahlen
Das System erfasst die folgenden CloudWatch-Kennzahlen für jedes Volumen:
-
Leselatenzschwelle: Berechnet als 1000 * m2/(m1+0.000001), wobei m1 = DataReadOperations und m2 = DataReadOperationTime
-
Schreiblatenzschwelle: Berechnet als 1000 * m2/(m1+0.000001), wobei m1 = DataWriteOperations und m2 = DataWriteOperationTime
Alarm-Auslösebedingungen
Eine Warnung wird ausgelöst, wenn alle der folgenden Bedingungen erfüllt sind:
-
Der Latenzschwellenwert wird für den Operationstyp (Lesen oder Schreiben) überschritten.
-
Der IOPS-Schwellenwert wird für den Betriebstyp überschritten.
-
Beide Bedingungen bestehen für alle Datenpunkte innerhalb des konfigurierten Zeitraums fort.
Bei voreingestellten Warnschwellenwerten wird beispielsweise eine Lesewarnung nur dann ausgelöst, wenn die Leselatenz 6 ms überschreitet UND die Lese-IOPS 100 Operationen/Sekunde für alle Datenpunkte innerhalb eines 10-minütigen Zeitraums übersteigt.
Schweregrad
-
Warnereignisse: Weisen auf erhöhte Latenzzeiten hin, die möglicherweise Aufmerksamkeit erfordern
-
Kritische Ereignisse: Weisen auf eine erhebliche Latenz hin, die eine sofortige Untersuchung erfordert
Latenzschwellenwerte konfigurieren
Sie können Warn- und kritische Schwellenwerte für Lese- und Schreibvorgänge konfigurieren. Das System wertet die Schwellenwerte kontinuierlich aus und generiert Warnmeldungen, sobald die Bedingungen erfüllt sind.
|
|
Sie müssen die Schwellenwerte für kritische Ereignisse höher ansetzen als die für Warnereignisse, um eine ordnungsgemäße Eskalation von Warnmeldungen sicherzustellen. Andernfalls können Sie Ihre Konfiguration nicht speichern. |
-
Melden Sie sich mit einem der folgenden Dienste an: "Konsolenerlebnisse"Die
-
Wählen Sie das Menü
und wählen Sie dann EDA aus. -
Wählen Sie die Registerkarte Latenz aus.
-
Konfigurieren Sie auf der EDA-Latenzkonfigurationsseite die folgenden Schwellenwerte:
-
Warnereignisse
-
Leselatenzschwelle: Geben Sie die Latenzschwelle in Millisekunden ein. Standard: 6 ms.
-
Read IOPS-Schwellenwert: Geben Sie den IOPS-Schwellenwert in Operationen pro Sekunde ein. Standard: 100 ops/sec.
-
Lesezeitraum: Geben Sie den Zeitraum in Minuten ein (5-20). Standard: 10 Minuten.
-
Schreiblatenzschwelle: Geben Sie die Latenzschwelle in Millisekunden ein. Standard: 8 ms.
-
Write IOPS threshold: Geben Sie den IOPS-Schwellenwert in Operationen pro Sekunde ein. Standard: 100 ops/sec.
-
Write time range: Geben Sie den Zeitbereich in Minuten (5-20) ein. Standard: 10 Minuten.
-
-
Kritische Ereignisse
-
Leselatenzschwelle: Geben Sie die Latenzschwelle in Millisekunden ein. Standard: 12 ms.
-
Read IOPS-Schwellenwert: Geben Sie den IOPS-Schwellenwert in Operationen pro Sekunde ein. Standard: 100 ops/sec.
-
Lesezeitraum: Geben Sie den Zeitraum in Minuten ein (5-20). Standard: 10 Minuten.
-
Schreiblatenzschwelle: Geben Sie die Latenzschwelle in Millisekunden ein. Standard: 15 ms.
-
Write IOPS threshold: Geben Sie den IOPS-Schwellenwert in Operationen pro Sekunde ein. Standard: 100 ops/sec.
-
Write time range: Geben Sie den Zeitbereich in Minuten (5-20) ein. Standard: 10 Minuten.
-
-
-
Wählen Sie Übernehmen.
Workload Factory beginnt mit der Erfassung von Latenzmetriken für alle FSx for ONTAP Volumes, die Ihren AWS-Anmeldeinformationen zugeordnet sind. Metriken werden mindestens alle 20 Minuten erfasst. Alle Volumes, die Ihre konfigurierten Schwellenwerte überschreiten, werden angezeigt.
Latenzereignisse anzeigen
Die Tabelle der Latenzereignisse bietet eine zentrale Übersicht über alle Warn- und kritischen Ereignisse, die in den letzten 72 Stunden erkannt wurden.
-
Es wird jeweils nur der letzte Sicherheitsvorfall pro Volume angezeigt. Bei mehreren Sicherheitsvorfällen pro Volume wird nur das aktuellste Ereignis angezeigt.
-
Ereignisse werden nach 72 Stunden automatisch entfernt.
-
Es werden maximal 200 Ereignisse angezeigt. Ältere Ereignisse werden entfernt, sobald neue hinzugefügt werden.
-
Ereignisse werden auch dann angezeigt, wenn kein Link mit dem Dateisystem verknüpft ist. Ein Link ist erforderlich, um grundlegende Analysedetails anzuzeigen und die AI-Agentenanalyse auszuführen.
-
Überprüfen Sie im Reiter Latenz die Informationen zu jedem Ereignis, einschließlich:
-
Schweregrad: Gibt an, ob das Ereignis kritisch oder eine Warnung ist
-
Volume-Name: Der Name des betroffenen Volumes
-
Volume ID: Die ID des betroffenen Volumes
-
Dateisystem: Das FSx for ONTAP-Dateisystem, das das Volume enthält
-
Mediane Latenz (ms): Der mediane Latenzwert während des Verstoßzeitraums
-
% über dem Schwellenwert: Der Prozentsatz, um den die Latenz den konfigurierten Schwellenwert überschritten hat
-
Erkennungszeitpunkt: Zeitpunkt, zu dem der Sicherheitsverstoß erkannt wurde
-
-
Um Details zu einem Latenzereignis anzuzeigen, wählen Sie das Ereignis in der Spalte Schweregrad aus. Dadurch wird ein Latenzanalyse-Panel für dieses Ereignis geöffnet.
-
Um die Tabelle zu sortieren, wählen Sie eine beliebige Spaltenüberschrift aus. Standardmäßig werden kritische Ereignisse zuerst nach Zeit sortiert angezeigt, gefolgt von Warnereignissen, ebenfalls nach Zeit sortiert.
-
Um ein oder mehrere Ereignisse zu verwerfen, wählen Sie neben dem jeweiligen Ereignis
Verwerfen. -
Um der Tabelle Spalten hinzuzufügen, wählen Sie
, wählen Sie die Spalten aus und wählen Sie Anwenden. -
Um Latenztrends im Zeitverlauf zu analysieren, wählen Sie ein Ereignis aus, um das Latenzanalyse-Panel zu öffnen. Verwenden Sie die Registerkarte Zeitverlauf, um das interaktive Latenzdiagramm anzuzeigen. Siehe "Latenztrends analysieren" für Details.
Analysiere ein Latenzereignis
Eine Basisanalyse hilft Ihnen, die Ursache von Latenzproblemen schnell und ohne manuelle Untersuchung zu identifizieren. Sobald ein Latenzereignis erkannt wird, führt Workload Factory automatisch eine Basisanalyse anhand von ONTAP QoS Delay Center-Metriken durch. Die Analyse ermittelt, welche Komponente die Latenz verursacht, und liefert eine kurze Beschreibung.
|
|
Es kann geringfügige Abweichungen zwischen den Latenzwerten aus der ONTAP-QoS-Analyse und den CloudWatch-Daten geben, da unterschiedliche Erfassungsmethoden verwendet werden. Die Basisanalyse verwendet ONTAP-Daten zur Ursachenidentifikation. |
Latenzanalyse-Panel
Wählen Sie ein Latenzereignis in der Spalte Schweregrad aus, um das Latenzanalyse-Panel für dieses Ereignis zu öffnen. Das Panel enthält Registerkarten, die verschiedene Ansichten des Latenzereignisses bieten:
-
Übersicht: Zeigt grundlegende Analyseergebnisse an, die anzeigen, welche Komponente die Latenz verursacht
-
Im Zeitverlauf: Zeigt ein interaktives Latenzdiagramm mit historischen Daten
Überblick
Auf der Registerkarte Übersicht werden die Ergebnisse der automatisierten Basisanalyse angezeigt, die identifizieren, welche Komponente die Latenz verursacht:
-
FlexCache: Latenz aus FlexCache-Operationen
-
Kapazitätspool: Latenz aus Kapazitätspool-Operationen
-
QoS min: Latenz gemäß den Mindestgrenzen der QoS-Richtliniengruppe
-
QoS max: Latenz aufgrund der Obergrenzen der QoS-Richtliniengruppe
-
Festplatte: Latenz des Speichersubsystems
-
Daten: Latenz des WAFL-Subsystems, einschließlich CPU-Verarbeitung, Metadatenaktualisierungen und Cache-Verwaltung
-
Cluster: Latenz zwischen intern verbundenen Knoten
-
Sonstige: Latenz durch andere Subsysteme wie NVRAM und Netzwerk
Wenn ein Amazon Bedrock-Modell-ARN konfiguriert ist, enthält die Registerkarte Übersicht auch eine Option zur Durchführung einer KI-Agentenanalyse für Daten- und Clusterszenarien. Wenn Bedrock nicht konfiguriert ist, zeigt die Registerkarte einen Link zur Konfigurationsseite für Storage workloads des jeweiligen Dateisystems an, wo Sie den Bedrock-Zugriff konfigurieren können.
Im Laufe der Zeit
Die Registerkarte Over time zeigt ein interaktives Latenzdiagramm, das CloudWatch-Latenzmetriken im Zeitverlauf für das betroffene Volume anzeigt. Das Diagramm zeigt entweder die Lese- oder die Schreiblatenz an, abhängig davon, welcher Alarmtyp das Ereignis ausgelöst hat. Sie können verschiedene Zeitrahmen (1H, 3H, 12H, 24H, 72H) auswählen, um das Latenzverhalten über unterschiedliche Zeiträume hinweg anzuzeigen.
Eine detaillierte Anleitung zur Verwendung des Diagramms finden Sie unter "Latenztrends analysieren".
KI-Agentenanalyse ausführen
Während eine einfache Analyse die Latenzquelle identifiziert, erfordern komplexe Szenarien mit Daten oder Clusterkomponenten oft eine tiefergehende Untersuchung, um die genaue Ursache und mögliche Abhilfemaßnahmen zu ermitteln. Die KI-Agentenanalyse bietet diese tiefere Ebene der Fehlerbehebung, indem sie Probleme wie Bully-Volumes, nicht optimale Konfigurationen oder Scale-out-Anforderungen erkennt, die eine einfache Analyse nicht erkennen kann.
Konfigurieren Sie einen Amazon Bedrock-Modell-ARN in den Workload Factory-Einstellungen, siehe "Grundlegende GenAI-Anforderungen".
Bei der Ausführung der KI-Agentenanalyse aktualisiert das System automatisch die Basisanalysedaten und verwendet diese als Eingabe für den KI-Agenten. Der KI-Agent bewertet das Latenzszenario und liefert:
-
Mögliche Ursache: Detaillierte Erklärung, was das Latenzproblem verursacht
-
Betroffene Clients: Liste der von der Latenz betroffenen EC2-Instanznamen
-
Mögliche Abhilfemaßnahmen: Zwei oder mehr konkrete Maßnahmen zur Behebung des Problems
Der KI-Agent befolgt die grundlegenden Analyserichtlinien, um Szenarien wie die folgenden zu identifizieren:
-
Bully-Volumes verbrauchen übermäßig viele Ressourcen (wegen Datenverzögerungen)
-
Nicht optimale Mount-Point-Konfigurationen (für Clusterverzögerungen)
-
FlexGroup Anforderungen an die Neuausrichtung (bei Clusterverzögerungen)
-
Skalierungsanforderungen (für Clusterverzögerungen)
-
Suchen Sie auf der Registerkarte Latenz das Ereignis, das Sie analysieren möchten.
-
Wählen Sie in der Spalte Schweregrad ein Latenzereignis aus, um ein Analysefenster für dieses Ereignis zu öffnen.
Wenn kein Link mit dem Dateisystem verknüpft ist, wird eine Aufforderung angezeigt, die Sie auffordert, einen Link mit dem betroffenen Dateisystem zu verknüpfen. Wählen Sie die Aufforderung aus, um zur Link-Einrichtungsseite für dieses Dateisystem weitergeleitet zu werden.
-
Überprüfen Sie die Registerkarte Übersicht, um die grundlegenden Analyseergebnisse zu verstehen und die Latenzquelle zu identifizieren.
-
Wenn die Latenzquelle als Daten oder Cluster identifiziert wird, wählen Sie Analysieren, um die KI-Agentenanalyse auszuführen.
-
Überprüfen Sie die Ergebnisse der KI-Agentenanalyse.
-
Setzen Sie die empfohlenen Maßnahmen zur Behebung des Latenzproblems um.
-
Nach der Behebung sollte die Tabelle der Latenzereignisse überwacht werden, um zu überprüfen, ob das Problem behoben ist.
Latenzkonfiguration verwalten
Nach der Erstkonfiguration können Sie Ihre Schwellenwerte bearbeiten.
-
Wählen Sie auf der Seite Latenz Bearbeiten aus.
-
Ändern Sie bei Bedarf einen der Schwellenwerte.
Stellen Sie sicher, dass die kritischen Schwellenwerte höher als die Warnschwellenwerte bleiben. Das System zeigt eine Fehlermeldung an, wenn Sie die kritischen Schwellenwerte niedriger als die Warnschwellenwerte konfigurieren. -
Wählen Sie Apply, um Ihre Änderungen zu speichern.
Latenzbenachrichtigungen konfigurieren
Sie können E-Mail- oder Amazon SNS-Benachrichtigungen konfigurieren, um bei Latenzereignissen Warnmeldungen zu erhalten. Benachrichtigungen werden jedes Mal versendet, wenn ein Volume Ihre konfigurierten Schwellenwerte überschreitet, sodass Sie Leistungsprobleme in Echtzeit erkennen können. Informationen zum Aktivieren von Benachrichtigungen finden Sie unter "Benachrichtigungseinstellungen konfigurieren".
Latenzbenachrichtigungen werden dateisystembezogen versendet. Wenn ein oder mehrere Volumes in einem Dateisystem die Latenzschwellenwerte überschreiten, erhalten Sie eine einzelne Benachrichtigung mit einer Liste aller betroffenen Volumes.
|
|
Sind mehr als 10 Volumes betroffen, werden in der E-Mail die ersten 10 Volumes angezeigt und die Anzahl der zusätzlich betroffenen Volumes angegeben. Sie können alle betroffenen Volumes in der Workload Factory console einsehen. |
Benachrichtigungen umfassen:
-
Details zum Dateisystem
-
Liste der Volumes mit überschrittenen Schwellenwerten
-
Schweregrad (Warnung oder Kritisch)
-
Latenzwerte und Schwellenwertvergleiche
-
Direkter Link zur Latenzseite zur Untersuchung
Benachrichtigungskanäle:
-
E-Mail: Wird an die in Ihren Workload Factory-Benachrichtigungseinstellungen konfigurierten E-Mail-Adressen gesendet
-
Amazon SNS: Veröffentlicht in Ihrem konfigurierten SNS-Thema zur Integration mit anderen Systemen
Best Practices
Beachten Sie diese Empfehlungen bei der Konfiguration und Verwendung der Latenzanalyse:
-
Reale Schwellenwerte festlegen: Konfigurieren Sie die Schwellenwerte entsprechend Ihren Arbeitslastanforderungen. Standardwerte bieten einen Ausgangspunkt, könnten aber für Ihre spezifische Umgebung angepasst werden müssen.
-
Beginnen Sie mit Warnschwellenwerten: Verwenden Sie Warnereignisse, um grundlegende Leistungserwartungen festzulegen, bevor Sie kritische Schwellenwerte feinabstimmen.
-
Zeiträume sorgfältig abwägen: Kürzere Zeiträume (5-10 Minuten) erkennen Probleme schneller, können aber mehr Warnmeldungen auslösen. Längere Zeiträume (15-20 Minuten) reduzieren Fehlalarme, können die Erkennung aber verzögern.
-
Trends überwachen: Überprüfen Sie regelmäßig die Tabelle der Latenzereignisse, um Muster oder wiederkehrende Probleme zu identifizieren, die auf zugrunde liegende Konfigurationsprobleme hinweisen könnten.
-
IOPS- und Latenzschwellenwerte koordinieren: Die Logik mit zwei Bedingungen bedeutet, dass beide überschritten werden müssen. Das Festlegen sehr hoher IOPS-Schwellenwerte kann Warnmeldungen verhindern, selbst wenn die Latenz problematisch ist.
-
Überprüfung abgewiesener Ereignisse: Überprüfen Sie regelmäßig, warum Ereignisse abgewiesen wurden, um Möglichkeiten zur Anpassung der Schwellenwerte oder Infrastrukturverbesserungen zu identifizieren.
-
KI-Agentenanalyse strategisch einsetzen: Führen Sie die KI-Agentenanalyse für Daten- und Cluster-Szenarien durch, bei denen die Basisanalyse dies empfiehlt. Die KI-Agentenanalyse liefert tiefere Einblicke in komplexe Leistungsprobleme, die eine detaillierte Fehlerbehebung erfordern.
Für bewährte Methoden zur Analyse von Latenztrends siehe "Graphinterpretation".