Skip to main content
Die deutsche Sprachversion wurde als Serviceleistung für Sie durch maschinelle Übersetzung erstellt. Bei eventuellen Unstimmigkeiten hat die englische Sprachversion Vorrang.

Überwachen Sie die Volumenlatenz in EDA-Workloads

Beitragende netapp-sineadd
Änderungen vorschlagen

Als IT-Administrator oder DevOps-Ingenieur, der EDA-Workloads verwaltet, können Sie die Latenzanalyse nutzen, um die Volume-Performance proaktiv zu überwachen, indem Sie Lese- und Schreiblatenzmetriken in Ihren FSx for ONTAP-Dateisystemen verfolgen. Konfigurieren Sie anpassbare Schwellenwerte für Warn- und kritische Ereignisse, um potenzielle Leistungsengpässe zu erkennen, bevor sie die Simulationslaufzeit und die Markteinführungszeit beeinträchtigen. Werden Latenzereignisse erkannt, hilft eine automatisierte Basisanalyse, die Ursache zu ermitteln.

Überblick

Hohe Latenzzeiten beeinträchtigen die Simulationslaufzeit und die Markteinführungszeit Ihrer EDA-Projekte unmittelbar. Nicht gesunde Volumes können eine erhebliche Leistungsverschlechterung verursachen, was zu kostspieligen Produktionsverzögerungen führt. Die Latenzanalyse hilft Ihnen, Betriebsprobleme in Ihrer gesamten Speicherumgebung proaktiv zu identifizieren, zu beheben und zu lösen, bevor sie Ihre Workloads beeinträchtigen.

Die Latenzanalyse erfasst und überwacht CloudWatch Metriken für Lese- und Schreibvorgänge. Wenn sowohl die Schwellenwerte für Latenz als auch für IOPS für alle Datenpunkte innerhalb eines festgelegten Zeitraums überschritten werden, generiert das System Warnmeldungen, die in der Tabelle der Latenzereignisse angezeigt werden.

Wenn Latenzereignisse erkannt werden, führt das System automatisch eine grundlegende Analyse mithilfe von ONTAP QoS delay center-Metriken durch, um die Latenzquelle zu identifizieren.

Dies ermöglicht Ihnen:

  • Identifizieren Sie Volumes, die eine Leistungsverschlechterung aufweisen.

  • Unterscheiden Sie zwischen Leistungsproblemen auf Warnstufe und auf kritischer Stufe.

  • Analysieren Sie automatisch die Hauptursache von Latenzproblemen.

  • Verfolgen Sie Latenztrends im Zeitverlauf, um Speicherkonfigurationen zu optimieren.

  • Ergreifen Sie proaktiv Maßnahmen, bevor Latenz die Arbeitslastleistung beeinträchtigt.

Anforderungen

Um die Funktionen zur Latenzüberwachung und -analyse nutzen zu können, stellen Sie sicher, dass Sie die folgenden Anforderungen erfüllen:

AWS-Anmeldeinformationen und Berechtigungen

Sie müssen AWS-Anmeldeinformationen mit lesen/schreiben-Berechtigungen zu Workload Factory hinzufügen. Die Funktion zur Latenzüberwachung benötigt Zugriff auf CloudWatch-Metriken für alle FSx for ONTAP Volumes, die Ihren AWS-Anmeldeinformationen zugeordnet sind.

Basic-Modus und read-only-Modus-Berechtigungen werden für die Latenzüberwachung nicht unterstützt.

Wenn Sie noch keine AWS-Zugangsdaten konfiguriert haben, siehe "AWS-Anmeldeinformationen hinzufügen".

FSx für ONTAP -Dateisystem

Sie benötigen mindestens ein FSx for ONTAP-Dateisystem mit in Ihrer AWS-Umgebung bereitgestellten Volumes. Die Latenzüberwachungsfunktion erfasst automatisch Metriken für alle Volumes, die Ihren konfigurierten AWS-Anmeldeinformationen zugeordnet sind.

Link zu FSx für ONTAP

Um Erkenntnisse aus der Basisanalyse zu gewinnen, müssen Sie einen Link mit Ihrem FSx for ONTAP-Dateisystem verknüpfen. Wenn noch kein Link verknüpft ist, wählen Sie in EDA Associate link, entscheiden Sie, ob Sie einen neuen Link erstellen oder einen bestehenden Link verknüpfen möchten, und wählen Sie dann Continue, um automatisch zur Seite zur Link-Erstellung in Storage workloads zu gelangen.

Anleitungen zum Erstellen und Verknüpfen von Links finden Sie unter "Link erstellen".

Warnmeldungen verstehen

Die Funktion zur Latenzanalyse nutzt CloudWatch Alarme zur Überwachung der Volumenleistung. Das Verständnis, wie Warnmeldungen ausgelöst werden, hilft Ihnen, geeignete Schwellenwerte zu konfigurieren und die Ergebnisse zu interpretieren.

Gesammelte Kennzahlen

Das System erfasst die folgenden CloudWatch-Kennzahlen für jedes Volumen:

  • Leselatenzschwelle: Berechnet als 1000 * m2/(m1+0.000001), wobei m1 = DataReadOperations und m2 = DataReadOperationTime

  • Schreiblatenzschwelle: Berechnet als 1000 * m2/(m1+0.000001), wobei m1 = DataWriteOperations und m2 = DataWriteOperationTime

Alarm-Auslösebedingungen

Eine Warnung wird ausgelöst, wenn alle der folgenden Bedingungen erfüllt sind:

  • Der Latenzschwellenwert wird für den Operationstyp (Lesen oder Schreiben) überschritten.

  • Der IOPS-Schwellenwert wird für den Betriebstyp überschritten.

  • Beide Bedingungen bestehen für alle Datenpunkte innerhalb des konfigurierten Zeitraums fort.

Bei voreingestellten Warnschwellenwerten wird beispielsweise eine Lesewarnung nur dann ausgelöst, wenn die Leselatenz 6 ms überschreitet UND die Lese-IOPS 100 Operationen/Sekunde für alle Datenpunkte innerhalb eines 10-minütigen Zeitraums übersteigt.

Schweregrad

  • Warnereignisse: Weisen auf erhöhte Latenz hin, die möglicherweise Aufmerksamkeit erfordern.

  • Kritische Ereignisse: Weisen auf eine schwere Latenz hin, die eine sofortige Untersuchung erfordert.

Latenzschwellenwerte konfigurieren

Durch die Konfiguration geeigneter Latenzschwellenwerte erhalten Sie zeitnahe Benachrichtigungen, wenn Volumes Leistungsprobleme aufweisen. Indem Sie sowohl Warn- als auch kritische Schwellenwerte festlegen, können Sie zwischen Problemen, die Aufmerksamkeit erfordern, und solchen, die sofortiges Handeln erfordern, unterscheiden, sodass Sie Ihre Speicherumgebung effektiver verwalten und verhindern können, dass Leistungsprobleme Produktions-Workloads beeinträchtigen.

Sie können Schwellenwerte für Warn- und kritische Ereignisse konfigurieren. Jeder Ereignistyp umfasst separate Schwellenwerte für Lese- und Schreibvorgänge. Das System wertet diese Schwellenwerte kontinuierlich aus und generiert Warnmeldungen, sobald die Bedingungen erfüllt sind.

Hinweis Sie müssen die Schwellenwerte für kritische Ereignisse höher ansetzen als die für Warnereignisse, um eine ordnungsgemäße Eskalation von Warnmeldungen sicherzustellen. Andernfalls können Sie Ihre Konfiguration nicht speichern.
Über diese Aufgabe

Damit eine Warnung ausgelöst wird, müssen sowohl der Latenzschwellenwert als auch der IOPS-Schwellenwert für alle Datenpunkte innerhalb des angegebenen Zeitraums überschritten werden. Diese Logik mit zwei Bedingungen trägt dazu bei, Fehlalarme zu reduzieren, indem sichergestellt wird, dass hohe Latenz unter signifikanter Last kontinuierlich aufrechterhalten wird.

Schritte
  1. Melden Sie sich mit einem der folgenden Dienste an: "Konsolenerlebnisse"Die

  2. Wählen Sie das Menü Das Hamburger-Menüsymbol und wählen Sie dann EDA aus.

  3. Wählen Sie im EDA-Menü Latenz aus.

  4. Konfigurieren Sie auf der EDA-Latenzkonfigurationsseite die folgenden Schwellenwerte:

    • Warnereignisse

      • Leselatenzschwelle: Geben Sie die Latenzschwelle in Millisekunden ein. Standard: 6 ms.

      • Read IOPS-Schwellenwert: Geben Sie den IOPS-Schwellenwert in Operationen pro Sekunde ein. Standard: 100 ops/sec.

      • Lesezeitraum: Geben Sie den Zeitraum in Minuten ein (5-20). Standard: 10 Minuten.

      • Schreiblatenzschwelle: Geben Sie die Latenzschwelle in Millisekunden ein. Standard: 8 ms.

      • Write IOPS threshold: Geben Sie den IOPS-Schwellenwert in Operationen pro Sekunde ein. Standard: 100 ops/sec.

      • Write time range: Geben Sie den Zeitbereich in Minuten (5-20) ein. Standard: 10 Minuten.

    • Kritische Ereignisse

      • Leselatenzschwelle: Geben Sie die Latenzschwelle in Millisekunden ein. Standard: 12 ms.

      • Read IOPS-Schwellenwert: Geben Sie den IOPS-Schwellenwert in Operationen pro Sekunde ein. Standard: 100 ops/sec.

      • Lesezeitraum: Geben Sie den Zeitraum in Minuten ein (5-20). Standard: 10 Minuten.

      • Schreiblatenzschwelle: Geben Sie die Latenzschwelle in Millisekunden ein. Standard: 15 ms.

      • Write IOPS threshold: Geben Sie den IOPS-Schwellenwert in Operationen pro Sekunde ein. Standard: 100 ops/sec.

      • Write time range: Geben Sie den Zeitbereich in Minuten (5-20) ein. Standard: 10 Minuten.

  5. Wählen Sie Übernehmen.

Ergebnis

Workload Factory beginnt mit der Erfassung von Latenzmetriken für alle FSx for ONTAP Volumes, die Ihren AWS-Anmeldeinformationen zugeordnet sind. Metriken werden mindestens alle 20 Minuten erfasst. Die Latenzereignistabelle zeigt alle Volumes an, die Ihre konfigurierten Schwellenwerte überschreiten.

Latenzereignisse anzeigen

Als Administrator, der mehrere Dateisysteme und Volumes verwaltet, bietet die Tabelle der Latenzereignisse eine zentrale Übersicht über alle Leistungsprobleme, die Ihre Aufmerksamkeit erfordern. Die Tabelle zeigt alle Warn- und kritischen Ereignisse, die in den letzten 72 Stunden erkannt wurden, an. Jedes Ereignis enthält automatisierte Basisanalyseergebnisse in der Spalte Details, sodass Sie die Ursache von Latenzproblemen schnell identifizieren und die Behebungsmaßnahmen in Ihrer gesamten Umgebung priorisieren können.

  • In der Tabelle wird nur der jeweils letzte Sicherheitsverstoß für jedes Volume angezeigt. Wenn ein Volume mehrere Sicherheitsverstöße aufweist, wird nur das aktuellste Ereignis angezeigt.

  • Ereignisse werden nach 72 Stunden automatisch entfernt.

  • Die Tabelle zeigt maximal 200 Ereignisse an. Ältere Ereignisse werden entfernt, wenn neue Ereignisse hinzugefügt werden.

Schritte
  1. Im Tab Latenz sehen Sie die Tabelle der Latenzereignisse.

  2. Überprüfen Sie die Informationen für jedes Ereignis, einschließlich:

    • Schweregrad: Gibt an, ob das Ereignis kritisch oder eine Warnung ist.

    • Volume name: Der Name des betroffenen Volumes.

    • Volume ID: Die ID des betroffenen Volumes.

    • Dateisystem: Das FSx for ONTAP-Dateisystem, das das Volume enthält.

    • Erkennungszeitpunkt: Zeitpunkt, zu dem der Sicherheitsverstoß erkannt wurde

    • Mediane Latenz: Der mediane Latenzwert während des Verstoßzeitraums.

    • Details: Automatisierte Basisanalyseergebnisse, die die Latenzquelle identifizieren und empfohlene Maßnahmen enthalten.

  3. Um die Tabelle zu sortieren, wählen Sie eine beliebige Spaltenüberschrift aus. Standardmäßig werden kritische Ereignisse zuerst nach Zeit sortiert angezeigt, gefolgt von Warnereignissen, die ebenfalls nach Zeit sortiert sind.

  4. Um ein oder mehrere Ereignisse zu verwerfen, wählen Sie neben jedem Ereignis Verwerfen aus.

  5. Um der Tabelle Spalten hinzuzufügen, wählen Sie das Spaltensymbol, wählen Sie die Spalten und wählen Sie Anwenden.

Grundlegende Analyse verstehen

Die Basisanalyse hilft Ihnen, die Ursache von Latenzproblemen schnell und ohne manuelle Untersuchung zu identifizieren. Wenn ein Latenzereignis erkannt wird, führt Workload Factory automatisch eine Basisanalyse mithilfe von ONTAP QoS Delay Center-Metriken durch. Die Analyse ermittelt, welche Komponente die Latenz verursacht, und liefert in der Spalte Details der Latenzereignistabelle konkrete Handlungsempfehlungen, sodass Sie die Ursache verstehen können.

Hinweis Es kann geringfügige Abweichungen zwischen den Latenzwerten aus der ONTAP-QoS-Analyse und den CloudWatch-Daten geben, da unterschiedliche Erfassungsmethoden verwendet werden. Die Basisanalyse verwendet ONTAP-Daten zur Ursachenidentifikation.

Analyseszenarien

Die Basisanalyse wertet mehrere Latenzkomponenten aus und liefert auf Grundlage der Ergebnisse für jedes Szenario spezifische Handlungsempfehlungen:

  • Flexcache: Latenz pro E/A-Operation für FlexCache-Operationen

  • Kapazitätspool: Latenz pro E/A-Operation für Kapazitätspool-Operationen

  • QoS min: Latenz pro E/A-Operation für QoS Policy Group Floor

  • QoS max: Latenz pro E/A-Operation für QoS Policy Group Ceiling

  • Festplatte: Latenz pro E/A-Operation im Storage-Subsystem

  • Daten: Latenz pro E/A-Operation im WAFL-Subsystem-Dateisystem, das Aufgaben wie CPU-Verarbeitung, Metadatenaktualisierungen und Cache-Verwaltung umfasst

  • Cluster: Latenz pro E/A-Operation über die intern verbundenen Knoten in einem Cluster

  • Sonstiges: Latenz pro E/A-Operation auf FSx für ONTAP subsystems

Latenzkonfiguration verwalten

Nach der Erstkonfiguration können Sie Ihre Schwellenwerte bearbeiten.

Schritte
  1. Wählen Sie auf der Seite Latenz Bearbeiten aus.

  2. Ändern Sie bei Bedarf einen der Schwellenwerte.

    Hinweis Stellen Sie sicher, dass die kritischen Schwellenwerte höher als die Warnschwellenwerte bleiben. Das System zeigt eine Fehlermeldung an, wenn Sie die kritischen Schwellenwerte niedriger als die Warnschwellenwerte konfigurieren.
  3. Wählen Sie Apply, um Ihre Änderungen zu speichern.

Best Practices

Beachten Sie diese Empfehlungen bei der Konfiguration und Verwendung der Latenzanalyse:

  • Reale Schwellenwerte festlegen: Konfigurieren Sie die Schwellenwerte entsprechend Ihren Arbeitslastanforderungen. Standardwerte bieten einen Ausgangspunkt, könnten aber für Ihre spezifische Umgebung angepasst werden müssen.

  • Beginnen Sie mit Warnschwellenwerten: Verwenden Sie Warnereignisse, um grundlegende Leistungserwartungen festzulegen, bevor Sie kritische Schwellenwerte feinabstimmen.

  • Zeiträume sorgfältig abwägen: Kürzere Zeiträume (5-10 Minuten) erkennen Probleme schneller, können aber mehr Warnmeldungen auslösen. Längere Zeiträume (15-20 Minuten) reduzieren Fehlalarme, können die Erkennung aber verzögern.

  • Trends überwachen: Überprüfen Sie regelmäßig die Tabelle der Latenzereignisse, um Muster oder wiederkehrende Probleme zu identifizieren, die auf zugrunde liegende Konfigurationsprobleme hinweisen könnten.

  • IOPS- und Latenzschwellenwerte koordinieren: Die Logik mit zwei Bedingungen bedeutet, dass beide überschritten werden müssen. Das Festlegen sehr hoher IOPS-Schwellenwerte kann Warnmeldungen verhindern, selbst wenn die Latenz problematisch ist.

  • Überprüfung abgewiesener Ereignisse: Überprüfen Sie regelmäßig, warum Ereignisse abgewiesen wurden, um Möglichkeiten zur Anpassung der Schwellenwerte oder Infrastrukturverbesserungen zu identifizieren.