Skip to main content
日本語は機械翻訳による参考訳です。内容に矛盾や不一致があった場合には、英語の内容が優先されます。

Workload Factory で EDA のレイテンシー傾向を分析する

共同作成者 netapp-sineadd

遅延イベントを検出した後、インタラクティブなグラフを使用して、時間の経過に伴うボリューム遅延の挙動を分析できます。これにより、パターンを特定し、パフォーマンスの問題が繰り返し発生しているのか、それとも単発的なものなのかを理解し、修復に関するデータ主体の決定を行うことができます。

開始する前に

"レイテンシー監視を設定済み"があり、少なくとも1つの遅延イベントが検出されている必要があります。

レイテンシの傾向を分析

レイテンシーグラフは、時間の経過に伴うボリュームレイテンシーの挙動を視覚的に表現したものです。

タスク概要

レイテンシーグラフには、影響を受けるボリュームのCloudWatchレイテンシデータが表示されます。グラフは、どのアラームがイベントをトリガーしたかに基づいて、読み取りレイテンシまたは書き込みレイテンシを自動的に表示します。時間範囲を調整することで、異なる期間におけるレイテンシの挙動を確認できます。

内容は以下の通りです:

  • レイテンシメトリックライン:CloudWatchから経時的に収集された実際のレイテンシ値(ミリ秒単位)を表示します

  • しきい値線:設定した警告しきい値とクリティカルしきい値を示す点線の水平線

  • 違反インジケーター:期間中にしきい値を超過した日時と回数を示す視覚的なマーカー

  • 違反の詳細:各違反について、レイテンシの中央値、しきい値を超える割合、QoS遅延センターデータ、および検出時間を表示します

手順
  1. *レイテンシ*タブで、イベントテーブルからレイテンシイベントを選択します。

    レイテンシー分析パネルが開きます。

  2. Over time タブを選択します。

  3. 過去3時間のレイテンシデータを表示するデフォルトのグラフビューを確認してください。

  4. 時間範囲を変更して、異なる期間を分析し、パターンを特定します。

  5. しきい値線に対するレイテンシ傾向線を観察してください。

  6. グラフ上の違反指標を確認してください:

    表示期間中にしきい値を複数回超過した場合、違反マーカーによってしきい値を超過した時点が示されます。

  7. 侵害の詳細を表示するには、侵害インジケータにカーソルを合わせるか、選択してください。

  8. 侵害件数の概要を確認してください:

    このグラフは、選択した期間中に検出された警告または重大な違反の総数を示しています。

  9. グラフインサイトを使用して、次の操作を実行します。

    • レイテンシの問題が単発的なものか、繰り返し発生するものかを判断する

    • 高レイテンシと相関する時間帯パターンを特定する

    • レイテンシスパイクが短時間か持続的かを評価する

    • レイテンシイベントをワークロードパターンまたはシステム変更と関連付ける

結果

ボリューム遅延の推移を包括的に把握できるため、即時の修復が必要か、しきい値を調整する必要があるか、あるいは根本的なインフラストラクチャの問題を調査する必要があるかなどについて、情報に基づいた意思決定を行うことができます。

メモ レイテンシグラフにはCloudWatchメトリックデータが表示されますが、収集方法の違いにより、ONTAP QoS遅延センターデータとは若干異なる場合があります。包括的な分析のために、両方のデータソースが提供されています。

グラフの解釈

レイテンシの傾向を分析する際には、次の推奨事項を考慮してください:

  • 複数の時間枠を使用する:異なる時間枠でグラフを確認し、一時的な急上昇と持続的なパフォーマンス低下を区別します。まずは24H表示で状況を把握し、その後、より短い期間にズームインして特定の事象を分析したり、72H表示に拡大して日々のパターンを特定したりしてください。

  • しきい値を視覚的に比較する:グラフ上のしきい値線を使用して、設定した警告値とクリティカル値がワークロードパターンに適しているかどうかを評価します。レイテンシが頻繁にしきい値に近づくものの、それを超えない場合は、しきい値の設定が高すぎるかどうかを検討してください。動作に影響を与えない短時間のしきい値超過が多数見られる場合、しきい値が敏感すぎる可能性があります。

  • 日々のパターンを特定する:24時間表示と72時間表示を使用して、時間帯ごとのパターンを特定します。レイテンシーの急増が予測可能な時間帯に発生する場合は、リソースを大量に消費する処理をオフピーク時にスケジュールしたり、ピーク時の負荷に対応できるよう容量を追加したりすることで、事前に対応できます。

  • スパイクの種類を区別する:短く鋭いスパイクは一時的な問題(一時的なリソース競合など)を示し、持続的に高いレイテンシはシステム的な問題(容量の制約や構成の問題など)を示唆します。それぞれ異なる修復方法が必要となります。

  • 変更後の傾向を監視する:しきい値の調整、容量の追加、または構成の変更を行った後は、変更が意図した効果をもたらしていることを確認するために、少なくとも72時間グラフを監視してください。