Skip to main content
Die deutsche Sprachversion wurde als Serviceleistung für Sie durch maschinelle Übersetzung erstellt. Bei eventuellen Unstimmigkeiten hat die englische Sprachversion Vorrang.

Erfahren Sie mehr über Latenzüberwachung in Workload Factory für EDA

Beitragende netapp-sineadd
Änderungen vorschlagen

Die Latenzüberwachung in Workload Factory für EDA hilft Ihnen, Leistungsengpässe in Ihren FSx for ONTAP Volumes proaktiv zu erkennen und zu beheben. Das System überwacht die Lese- und Schreiblatenz mithilfe von CloudWatch-Metriken und bietet eine automatisierte Analyse, um Ihnen zu helfen, die Ursache von Leistungsproblemen zu verstehen.

Wie Latenzüberwachung funktioniert

Die Latenzanalyse erfasst CloudWatch-Metriken für Lese- und Schreibvorgänge auf allen FSx for ONTAP Volumes, die Ihren AWS-Anmeldeinformationen zugeordnet sind. Das System wertet diese Metriken kontinuierlich anhand konfigurierbarer Schwellenwerte aus, um Leistungsprobleme frühzeitig zu erkennen.

Wird ein Latenzereignis erkannt, führt Workload Factory automatisch eine Basisanalyse mithilfe von ONTAP QoS Delay Center-Metriken durch, um den primären Latenzverursacher zu identifizieren. Für komplexere Szenarien mit Daten- oder Clusterkomponenten können Sie optional eine KI-Agentenanalyse ausführen, um detaillierte Root-Cause-Erklärungen, Listen betroffener Clients und spezifische Abhilfeschritte zu erhalten.

Alarmgenerierung

Eine Warnung wird generiert, wenn sowohl der Latenz- als auch der IOPS-Schwellenwert für alle Datenpunkte innerhalb des konfigurierten Zeitraums überschritten werden. Dieser Ansatz mit zwei Bedingungen reduziert Fehlalarme, indem sichergestellt wird, dass die erhöhte Latenz kontinuierlich unter realer Last anhält.

Sie können separate Schwellenwerte konfigurieren für:

  • Leseoperationen

  • Schreiboperationen

  • Schweregrad

  • Kritischer Schweregrad

Alle erkannten Ereignisse werden in der Tabelle der Latenzereignisse angezeigt, und wenn Sie Benachrichtigungen konfiguriert haben, erhalten Sie E-Mail- oder Amazon SNS-Benachrichtigungen mit Details zu den betroffenen Volumes.

Warnmeldungen verstehen

Das Verständnis, wie Warnmeldungen ausgelöst werden, hilft Ihnen, geeignete Schwellenwerte zu konfigurieren und die Ergebnisse zu interpretieren.

Gesammelte Kennzahlen

Das System erfasst die folgenden CloudWatch-Kennzahlen für jedes Volumen:

  • Leselatenzschwelle: Berechnet als 1000 * m2/(m1+0.000001), wobei m1 = DataReadOperations und m2 = DataReadOperationTime

  • Schreiblatenzschwelle: Berechnet als 1000 * m2/(m1+0.000001), wobei m1 = DataWriteOperations und m2 = DataWriteOperationTime

Alarm-Auslösebedingungen

Eine Warnung wird ausgelöst, wenn alle der folgenden Bedingungen erfüllt sind:

  • Der Latenzschwellenwert wird für den Operationstyp (Lesen oder Schreiben) überschritten.

  • Der IOPS-Schwellenwert wird für den Betriebstyp überschritten.

  • Beide Bedingungen bestehen für alle Datenpunkte innerhalb des konfigurierten Zeitraums fort.

Bei voreingestellten Warnschwellenwerten wird beispielsweise eine Lesewarnung nur dann ausgelöst, wenn die Leselatenz 6 ms überschreitet UND die Lese-IOPS 100 Operationen/Sekunde für alle Datenpunkte innerhalb eines 10-minütigen Zeitraums übersteigt.

Schweregrad

  • Warnereignisse: Weisen auf erhöhte Latenzzeiten hin, die möglicherweise Aufmerksamkeit erfordern

  • Kritische Ereignisse: Weisen auf eine erhebliche Latenz hin, die eine sofortige Untersuchung erfordert

Latenzanalyse

Workload Factory bietet zwei Analyseebenen, die Ihnen bei der Behebung von Latenzproblemen helfen.

Grundlagenanalyse

Wird ein Latenzereignis erkannt, führt Workload Factory automatisch eine Basisanalyse mithilfe von ONTAP QoS Delay Center-Metriken durch, um die Komponente zu identifizieren, die die Latenz verursacht (z. B. FlexCache, Kapazitätspool, QoS-Grenzwerte, Festplatte, Daten, Cluster oder andere Subsysteme). Diese Analyse ermöglicht die schnelle Identifizierung der Latenzquelle ohne manuelle Untersuchung.

Eine grundlegende Analyse ist für alle Latenzereignisse verfügbar, wenn Sie einen Link mit dem FSx for ONTAP-Dateisystem verknüpft haben. Ohne einen Link können Ereignisse weiterhin erkannt werden, aber die Analyse liefert nur eingeschränkte Einblicke.

Hinweis Es kann geringfügige Abweichungen zwischen den Latenzwerten aus der ONTAP-QoS-Analyse und den CloudWatch-Daten geben, da unterschiedliche Erfassungsmethoden verwendet werden. Die Basisanalyse verwendet ONTAP-Daten zur Ursachenidentifikation.

KI-Agentenanalyse

Während eine einfache Analyse die Latenzquelle identifiziert, erfordern komplexe Szenarien mit Daten oder Clusterkomponenten oft eine tiefergehende Untersuchung. Die KI-Agenten-Analyse bietet diese tiefere Ebene der Fehlerbehebung, indem sie Probleme wie Bully-Volumes, nicht optimale Konfigurationen oder Scale-out-Anforderungen identifiziert, die eine einfache Analyse nicht erkennen kann.

Bei der Durchführung einer KI-Agentenanalyse liefert das System:

  • Mögliche Ursache: Detaillierte Erklärung, was das Latenzproblem verursacht

  • Betroffene Clients: Liste der von der Latenz betroffenen EC2-Instanznamen

  • Mögliche Abhilfemaßnahmen: Zwei oder mehr konkrete Maßnahmen zur Behebung des Problems

Für die Analyse mit KI-Agenten ist ein Amazon Bedrock-Modell-ARN erforderlich, der in Ihren Workload Factory-Einstellungen konfiguriert ist. Falls Bedrock nicht konfiguriert ist, können Sie dennoch Latenzüberwachung und automatisierte Basisanalyse nutzen.