Überwachen Sie die Volumenlatenz in EDA-Workloads
Als IT-Administrator oder DevOps-Ingenieur, der EDA-Workloads verwaltet, können Sie die Latenzanalyse nutzen, um die Lese- und Schreiblatenz von FSx for ONTAP-Volumes zu überwachen. Konfigurieren Sie Warn- und kritische Schwellenwerte, um Leistungsprobleme frühzeitig zu erkennen. Wenn Ereignisse auftreten, bietet Workload Factory eine automatisierte Basisanalyse, und Sie können optional eine KI-Agentenanalyse ausführen, um Details zur Ursache, betroffene Clients und empfohlene Abhilfemaßnahmen zu erhalten.
Überblick
Die Latenzanalyse erfasst CloudWatch-Metriken für Lese- und Schreibvorgänge auf allen FSx for ONTAP-Volumes, die Ihren AWS-Anmeldeinformationen zugeordnet sind. Eine Warnung wird generiert, wenn sowohl der Latenz- als auch der IOPS-Schwellenwert für alle Datenpunkte innerhalb des konfigurierten Zeitraums überschritten wird. Diese Logik mit zwei Bedingungen reduziert Fehlalarme, indem sichergestellt wird, dass die erhöhte Latenz unter realer Last kontinuierlich anhält.
Wenn ein Ereignis erkannt wird, führt Workload Factory eine grundlegende Analyse anhand von ONTAP QoS Delay Center-Metriken durch, um den Hauptverursacher der Latenz zu ermitteln (zum Beispiel FlexCache, Kapazitätspool, QoS-Grenzwerte, Festplatte, Daten, Cluster oder andere Subsysteme).
Für Daten- und Cluster-Szenarien können Sie optional eine KI-Agentenanalyse über das Latenzanalyse-Panel aufrufen, um eine detaillierte Ursachenerklärung, eine Liste der betroffenen EC2-Clients und empfohlene Abhilfemaßnahmen zu erhalten.
Anforderungen
Um die Funktionen zur Latenzüberwachung und -analyse nutzen zu können, stellen Sie sicher, dass Sie die folgenden Anforderungen erfüllen:
- AWS-Anmeldeinformationen und Berechtigungen
-
Sie müssen AWS-Anmeldeinformationen mit lesen/schreiben-Berechtigungen zu Workload Factory hinzufügen. Die Funktion zur Latenzüberwachung benötigt Zugriff auf CloudWatch-Metriken für alle FSx for ONTAP Volumes, die Ihren AWS-Anmeldeinformationen zugeordnet sind.
Die Berechtigungen Basic und Read-only werden für die Latenzüberwachung nicht unterstützt.
Wenn Sie noch keine AWS-Zugangsdaten konfiguriert haben, siehe "AWS-Anmeldeinformationen hinzufügen".
- FSx für ONTAP -Dateisystem
-
Sie benötigen mindestens ein FSx for ONTAP-Dateisystem mit in Ihrer AWS-Umgebung bereitgestellten Volumes. Die Latenzüberwachungsfunktion erfasst automatisch Metriken für alle Volumes, die Ihren konfigurierten AWS-Anmeldeinformationen zugeordnet sind.
- Link zu FSx für ONTAP
-
Um grundlegende Analyseerkenntnisse in der Tabelle der Latenzereignisse und im Analysebereich anzuzeigen, müssen Sie einen Link mit dem FSx for ONTAP-Dateisystem verknüpfen. Ohne einen Link können zwar weiterhin Ereignisse erkannt werden, aber die Analyse liefert nur eingeschränkte Erkenntnisse. Wenn noch kein Link verknüpft ist, wählen Sie in EDA Link verknüpfen, entscheiden Sie, ob Sie einen neuen Link erstellen oder einen bestehenden Link verknüpfen möchten, und wählen Sie dann Weiter, um automatisch zur Seite zur Linkerstellung in Storage workloads zu gelangen.
Anleitungen zum Erstellen und Verknüpfen von Links finden Sie unter "Link erstellen".
- Amazon Bedrock Modell ARN (optional)
-
Um die optionale KI-Agentenanalysefunktion nutzen zu können, müssen Sie in Ihren Workload Factory-Einstellungen einen Amazon Bedrock-Modell-ARN angeben.
Weitere Einzelheiten finden Sie unter "Grundlegende GenAI-Anforderungen".
Wenn Sie keine Bedrock-Modell-ARN konfigurieren, können Sie dennoch Latenzüberwachung und automatisierte Basisanalysen nutzen. KI-Agentenanalyse wird nicht verfügbar sein.
Warnmeldungen verstehen
Die Funktion zur Latenzanalyse nutzt CloudWatch Alarme zur Überwachung der Volumenleistung. Das Verständnis, wie Warnmeldungen ausgelöst werden, hilft Ihnen, geeignete Schwellenwerte zu konfigurieren und die Ergebnisse zu interpretieren.
Gesammelte Kennzahlen
Das System erfasst die folgenden CloudWatch-Kennzahlen für jedes Volumen:
-
Leselatenzschwelle: Berechnet als 1000 * m2/(m1+0.000001), wobei m1 = DataReadOperations und m2 = DataReadOperationTime
-
Schreiblatenzschwelle: Berechnet als 1000 * m2/(m1+0.000001), wobei m1 = DataWriteOperations und m2 = DataWriteOperationTime
Alarm-Auslösebedingungen
Eine Warnung wird ausgelöst, wenn alle der folgenden Bedingungen erfüllt sind:
-
Der Latenzschwellenwert wird für den Operationstyp (Lesen oder Schreiben) überschritten.
-
Der IOPS-Schwellenwert wird für den Betriebstyp überschritten.
-
Beide Bedingungen bestehen für alle Datenpunkte innerhalb des konfigurierten Zeitraums fort.
Bei voreingestellten Warnschwellenwerten wird beispielsweise eine Lesewarnung nur dann ausgelöst, wenn die Leselatenz 6 ms überschreitet UND die Lese-IOPS 100 Operationen/Sekunde für alle Datenpunkte innerhalb eines 10-minütigen Zeitraums übersteigt.
Schweregrad
-
Warnereignisse: Weisen auf erhöhte Latenzzeiten hin, die möglicherweise Aufmerksamkeit erfordern
-
Kritische Ereignisse: Weisen auf eine erhebliche Latenz hin, die eine sofortige Untersuchung erfordert
Latenzschwellenwerte konfigurieren
Konfigurieren Sie Warn- und kritische Schwellenwerte für Lese- und Schreibvorgänge. Das System wertet die Schwellenwerte kontinuierlich aus und generiert Warnmeldungen, sobald die Bedingungen erfüllt sind.
|
|
Sie müssen die Schwellenwerte für kritische Ereignisse höher ansetzen als die für Warnereignisse, um eine ordnungsgemäße Eskalation von Warnmeldungen sicherzustellen. Andernfalls können Sie Ihre Konfiguration nicht speichern. |
-
Melden Sie sich mit einem der folgenden Dienste an: "Konsolenerlebnisse"Die
-
Wählen Sie das Menü
und wählen Sie dann EDA aus. -
Wählen Sie die Registerkarte Latenz aus.
-
Konfigurieren Sie auf der EDA-Latenzkonfigurationsseite die folgenden Schwellenwerte:
-
Warnereignisse
-
Leselatenzschwelle: Geben Sie die Latenzschwelle in Millisekunden ein. Standard: 6 ms.
-
Read IOPS-Schwellenwert: Geben Sie den IOPS-Schwellenwert in Operationen pro Sekunde ein. Standard: 100 ops/sec.
-
Lesezeitraum: Geben Sie den Zeitraum in Minuten ein (5-20). Standard: 10 Minuten.
-
Schreiblatenzschwelle: Geben Sie die Latenzschwelle in Millisekunden ein. Standard: 8 ms.
-
Write IOPS threshold: Geben Sie den IOPS-Schwellenwert in Operationen pro Sekunde ein. Standard: 100 ops/sec.
-
Write time range: Geben Sie den Zeitbereich in Minuten (5-20) ein. Standard: 10 Minuten.
-
-
Kritische Ereignisse
-
Leselatenzschwelle: Geben Sie die Latenzschwelle in Millisekunden ein. Standard: 12 ms.
-
Read IOPS-Schwellenwert: Geben Sie den IOPS-Schwellenwert in Operationen pro Sekunde ein. Standard: 100 ops/sec.
-
Lesezeitraum: Geben Sie den Zeitraum in Minuten ein (5-20). Standard: 10 Minuten.
-
Schreiblatenzschwelle: Geben Sie die Latenzschwelle in Millisekunden ein. Standard: 15 ms.
-
Write IOPS threshold: Geben Sie den IOPS-Schwellenwert in Operationen pro Sekunde ein. Standard: 100 ops/sec.
-
Write time range: Geben Sie den Zeitbereich in Minuten (5-20) ein. Standard: 10 Minuten.
-
-
-
Wählen Sie Übernehmen.
Workload Factory beginnt mit der Erfassung von Latenzmetriken für alle FSx for ONTAP Volumes, die Ihren AWS-Anmeldeinformationen zugeordnet sind. Metriken werden mindestens alle 20 Minuten erfasst. Die Latenzereignistabelle zeigt alle Volumes an, die Ihre konfigurierten Schwellenwerte überschreiten.
Latenzereignisse anzeigen
Die Tabelle der Latenzereignisse bietet eine zentrale Übersicht über alle Warn- und kritischen Ereignisse, die in den letzten 72 Stunden erkannt wurden.
-
In der Tabelle wird nur der jeweils letzte Sicherheitsverstoß für jedes Volume angezeigt. Wenn ein Volume mehrere Sicherheitsverstöße aufweist, wird nur das aktuellste Ereignis angezeigt.
-
Ereignisse werden nach 72 Stunden automatisch entfernt.
-
Die Tabelle zeigt maximal 200 Ereignisse an. Ältere Ereignisse werden entfernt, wenn neue Ereignisse hinzugefügt werden.
-
Ereignisse werden in der Tabelle angezeigt, auch wenn kein Link mit dem Dateisystem verknüpft ist. Ein Link ist erforderlich, um grundlegende Analysedetails anzuzeigen und die KI-Agentenanalyse auszuführen.
-
Im Tab Latenz sehen Sie die Tabelle der Latenzereignisse.
-
Überprüfen Sie die Informationen für jedes Ereignis, einschließlich:
-
Schweregrad: Gibt an, ob das Ereignis kritisch oder eine Warnung ist
-
Volume-Name: Der Name des betroffenen Volumes
-
Volume ID: Die ID des betroffenen Volumes
-
Dateisystem: Das FSx for ONTAP-Dateisystem, das das Volume enthält
-
Mediane Latenz (ms): Der mediane Latenzwert während des Verstoßzeitraums
-
% über dem Schwellenwert: Der Prozentsatz, um den die Latenz den konfigurierten Schwellenwert überschritten hat
-
Erkennungszeitpunkt: Zeitpunkt, zu dem der Sicherheitsverstoß erkannt wurde
-
-
Um Details zu einem Latenzereignis anzuzeigen, wählen Sie das Ereignis in der Spalte Schweregrad der Tabelle der Latenzereignisse aus. Dadurch wird ein Latenzanalyse-Panel für dieses Ereignis geöffnet.
-
Um die Tabelle zu sortieren, wählen Sie eine beliebige Spaltenüberschrift aus. Standardmäßig werden kritische Ereignisse zuerst nach Zeit sortiert angezeigt, gefolgt von Warnereignissen, die ebenfalls nach Zeit sortiert sind.
-
Um ein oder mehrere Ereignisse zu verwerfen, wählen Sie neben dem jeweiligen Ereignis
Verwerfen. -
Um der Tabelle Spalten hinzuzufügen, wählen Sie
, wählen Sie die Spalten aus und wählen Sie Anwenden.
Grundlegende Analyse verstehen
Die Basisanalyse hilft Ihnen, die Ursache von Latenzproblemen schnell und ohne manuelle Untersuchung zu identifizieren. Sobald ein Latenzereignis erkannt wird, führt Workload Factory automatisch eine Basisanalyse anhand von ONTAP QoS delay center-Metriken durch. Die Analyse ermittelt, welche Komponente die Latenz verursacht, und liefert eine kurze Beschreibung im Latenzanalyse-Panel.
|
|
Es kann geringfügige Abweichungen zwischen den Latenzwerten aus der ONTAP-QoS-Analyse und den CloudWatch-Daten geben, da unterschiedliche Erfassungsmethoden verwendet werden. Die Basisanalyse verwendet ONTAP-Daten zur Ursachenidentifikation. |
Latenzanalyse-Panel
Durch Auswahl eines Latenzereignisses in der Spalte Schweregrad der Tabelle der Latenzereignisse wird ein Latenzanalyse-Panel für dieses Ereignis geöffnet.
-
FlexCache: Latenz aus FlexCache-Operationen
-
Kapazitätspool: Latenz aus Kapazitätspool-Operationen
-
QoS min: Latenz gemäß den Mindestgrenzen der QoS-Richtliniengruppe
-
QoS max: Latenz aufgrund der Obergrenzen der QoS-Richtliniengruppe
-
Festplatte: Latenz des Speichersubsystems
-
Daten: Latenz des WAFL-Subsystems, einschließlich CPU-Verarbeitung, Metadatenaktualisierungen und Cache-Verwaltung
-
Cluster: Latenz zwischen intern verbundenen Knoten
-
Sonstige: Latenz durch andere Subsysteme wie NVRAM und Netzwerk
Wenn ein Amazon Bedrock-Modell-ARN konfiguriert ist, bietet das Bedienfeld auch die Option, eine KI-Agentenanalyse für Daten- und Clusterszenarien durchzuführen. Ist Bedrock nicht konfiguriert, zeigt das Bedienfeld einen Link zur Konfigurationsseite für Storage workloads des jeweiligen Dateisystems an, wo Sie den Bedrock-Zugriff konfigurieren können.
KI-Agentenanalyse ausführen
Während eine einfache Analyse die Latenzquelle identifiziert, erfordern komplexe Szenarien mit Daten oder Clusterkomponenten oft eine tiefergehende Untersuchung, um die genaue Ursache und mögliche Abhilfemaßnahmen zu ermitteln. Die KI-Agentenanalyse bietet diese tiefere Ebene der Fehlerbehebung, indem sie Probleme wie Bully-Volumes, nicht optimale Konfigurationen oder Scale-out-Anforderungen erkennt, die eine einfache Analyse nicht erkennen kann.
Sie müssen in den Workload Factory-Einstellungen einen Amazon Bedrock-Modell-ARN konfiguriert haben.
Bei der Ausführung der KI-Agentenanalyse aktualisiert das System automatisch die Basisanalysedaten und verwendet diese als Eingabe für den KI-Agenten. Der KI-Agent bewertet das Latenzszenario und liefert:
-
Mögliche Ursache: Detaillierte Erklärung, was das Latenzproblem verursacht
-
Betroffene Clients: Liste der von der Latenz betroffenen EC2-Instanznamen
-
Mögliche Abhilfemaßnahmen: Zwei oder mehr konkrete Maßnahmen zur Behebung des Problems
Der KI-Agent befolgt die grundlegenden Analyserichtlinien, um Szenarien wie die folgenden zu identifizieren:
-
Bully-Volumes verbrauchen übermäßig viele Ressourcen (wegen Datenverzögerungen)
-
Nicht optimale Mount-Point-Konfigurationen (für Clusterverzögerungen)
-
FlexGroup Anforderungen an die Neuausrichtung (bei Clusterverzögerungen)
-
Skalierungsanforderungen (für Clusterverzögerungen)
-
Suchen Sie auf der Registerkarte Latenz das Ereignis, das Sie analysieren möchten.
-
Wählen Sie in der Spalte Schweregrad der Tabelle der Latenzereignisse ein Latenzereignis aus, um ein Analysefenster für dieses Ereignis zu öffnen.
Wenn kein Link mit dem Dateisystem verknüpft ist, wird eine Aufforderung angezeigt, die Sie auffordert, einen Link mit dem betroffenen Dateisystem zu verknüpfen. Wählen Sie die Aufforderung aus, um zur Link-Einrichtungsseite für dieses Dateisystem weitergeleitet zu werden. Ein Tooltip erläutert die Weiterleitung und weist darauf hin, dass die Verknüpfung eines Links und die Konfiguration des Bedrock-Zugriffs (empfohlen) eine vollständige Ereignisanalyse ermöglichen.
-
Überprüfen Sie im Analysebereich die grundlegenden Analyseergebnisse, um die Ursache der Latenz zu verstehen.
-
Wenn die Latenzquelle als Daten oder Cluster identifiziert ist, wählen Sie Analysieren.
-
Überprüfen Sie die Ergebnisse der KI-Agentenanalyse, die Folgendes umfassen:
-
Erklärung der Hauptursache
-
Liste der betroffenen EC2-Clients
-
Mögliche Abhilfemaßnahmen
-
-
Setzen Sie die empfohlenen Maßnahmen zur Behebung des Latenzproblems um.
-
Nach der Behebung sollte die Tabelle der Latenzereignisse überwacht werden, um zu überprüfen, ob das Problem behoben ist.
Latenzkonfiguration verwalten
Nach der Erstkonfiguration können Sie Ihre Schwellenwerte bearbeiten.
-
Wählen Sie auf der Seite Latenz Bearbeiten aus.
-
Ändern Sie bei Bedarf einen der Schwellenwerte.
Stellen Sie sicher, dass die kritischen Schwellenwerte höher als die Warnschwellenwerte bleiben. Das System zeigt eine Fehlermeldung an, wenn Sie die kritischen Schwellenwerte niedriger als die Warnschwellenwerte konfigurieren. -
Wählen Sie Apply, um Ihre Änderungen zu speichern.
Best Practices
Beachten Sie diese Empfehlungen bei der Konfiguration und Verwendung der Latenzanalyse:
-
Reale Schwellenwerte festlegen: Konfigurieren Sie die Schwellenwerte entsprechend Ihren Arbeitslastanforderungen. Standardwerte bieten einen Ausgangspunkt, könnten aber für Ihre spezifische Umgebung angepasst werden müssen.
-
Beginnen Sie mit Warnschwellenwerten: Verwenden Sie Warnereignisse, um grundlegende Leistungserwartungen festzulegen, bevor Sie kritische Schwellenwerte feinabstimmen.
-
Zeiträume sorgfältig abwägen: Kürzere Zeiträume (5-10 Minuten) erkennen Probleme schneller, können aber mehr Warnmeldungen auslösen. Längere Zeiträume (15-20 Minuten) reduzieren Fehlalarme, können die Erkennung aber verzögern.
-
Trends überwachen: Überprüfen Sie regelmäßig die Tabelle der Latenzereignisse, um Muster oder wiederkehrende Probleme zu identifizieren, die auf zugrunde liegende Konfigurationsprobleme hinweisen könnten.
-
IOPS- und Latenzschwellenwerte koordinieren: Die Logik mit zwei Bedingungen bedeutet, dass beide überschritten werden müssen. Das Festlegen sehr hoher IOPS-Schwellenwerte kann Warnmeldungen verhindern, selbst wenn die Latenz problematisch ist.
-
Überprüfung abgewiesener Ereignisse: Überprüfen Sie regelmäßig, warum Ereignisse abgewiesen wurden, um Möglichkeiten zur Anpassung der Schwellenwerte oder Infrastrukturverbesserungen zu identifizieren.
-
KI-Agentenanalyse strategisch einsetzen: Führen Sie die KI-Agentenanalyse für Daten- und Cluster-Szenarien durch, bei denen die Basisanalyse dies empfiehlt. Die KI-Agentenanalyse liefert tiefere Einblicke in komplexe Leistungsprobleme, die eine detaillierte Fehlerbehebung erfordern.