Skip to main content
日本語は機械翻訳による参考訳です。内容に矛盾や不一致があった場合には、英語の内容が優先されます。

ボリュームのレイテンシを監視する

共同作成者 netapp-sineadd

レイテンシ分析を使用すると、FSx for ONTAPファイルシステム全体の読み取りおよび書き込みレイテンシメトリクスを追跡することで、ボリュームのパフォーマンスをプロアクティブに監視できます。警告イベントや重大イベントのしきい値をカスタマイズして設定することで、EDAワークロードに影響を与える前に潜在的なパフォーマンスボトルネックを特定できます。

概要

レイテンシ分析は、CloudWatchメトリクスを収集・監視し、ボリュームの読み取りおよび書き込み操作を追跡します。指定された時間範囲内のすべてのデータポイントでレイテンシとIOPSの両方のしきい値が超過した場合、システムはレイテンシイベントテーブルにアラートを生成します。これにより、次のことが可能になります:

  • パフォーマンスの低下が発生しているボリュームを特定します。

  • 警告レベルと重大レベルのパフォーマンスの問題を区別します。

  • 時間の経過に伴うレイテンシの傾向を追跡し、ストレージ構成を最適化します。

  • レイテンシがワークロードのパフォーマンスに影響を与える前に、プロアクティブなアクションを実行します。

開始する前に

レイテンシ分析を使用するには、Workload Factory で AWS 認証情報を設定する必要があります。この機能を使用するには、AWS 認証情報に関連付けられたすべての FSx for ONTAP ボリュームの CloudWatch メトリクスへのアクセスが必要です。

AWS 認証情報をまだ設定していない場合は、"AWS認証情報を追加する"を参照してください。

レイテンシしきい値を設定する

警告イベントと重大イベントの両方にしきい値を設定できます。各イベントタイプには、読み取り操作と書き込み操作の個別のしきい値が含まれます。システムはこれらのしきい値を継続的に評価し、条件が満たされるとアラートを生成します。

メモ 適切なアラートエスカレーションを確実に行うには、重大イベントのしきい値を警告イベントのしきい値よりも高く設定する必要があります。そうでない場合、設定を保存できません。
タスク概要

アラートをトリガーするには、指定された時間範囲内のすべてのデータポイントにおいて、レイテンシしきい値とIOPSしきい値の両方を超過する必要があります。この二重条件ロジックにより、大きな負荷下で高レイテンシが持続していることを保証することで、誤検知を削減できます。

手順
  1. 次のいずれかを使用してログインします "コンソール体験"

  2. メニューハンバーガーメニューアイコンを選択し、*EDA*を選択します。

  3. EDA メニューから、Latency を選択します。

  4. EDA レイテンシ構成ページで、次のしきい値を構成します:

    • 警告イベント

      • 読み取りレイテンシしきい値:レイテンシしきい値をミリ秒単位で入力します。デフォルト:6 ms。

      • 読み取りIOPSしきい値:IOPSしきい値を1秒あたりの操作数で入力します。デフォルト:100 ops/sec。

      • 読み取り時間範囲:時間範囲を分単位で入力します(5~20分)。デフォルト:10分。

      • 書き込みレイテンシしきい値:レイテンシしきい値をミリ秒単位で入力します。デフォルト:8 ms。

      • 書き込みIOPSしきい値:IOPSしきい値を1秒あたりの操作数で入力します。デフォルト:100 ops/sec。

      • 書き込み時間範囲:時間範囲を分単位で入力します(5~20)。デフォルト:10分。

    • 重大なイベント

      • 読み取りレイテンシしきい値:レイテンシしきい値をミリ秒単位で入力します。デフォルト:12 ms。

      • 読み取りIOPSしきい値:IOPSしきい値を1秒あたりの操作数で入力します。デフォルト:100 ops/sec。

      • 読み取り時間範囲:時間範囲を分単位で入力します(5~20分)。デフォルト:10分。

      • 書き込みレイテンシしきい値:レイテンシしきい値をミリ秒単位で入力します。デフォルト:15 ミリ秒。

      • 書き込みIOPSしきい値:IOPSしきい値を1秒あたりの操作数で入力します。デフォルト:100 ops/sec。

      • 書き込み時間範囲:時間範囲を分単位で入力します(5~20)。デフォルト:10分。

  5. *適用*を選択します。

結果

Workload FactoryはAWS認証情報に関連付けられたすべてのFSx for ONTAPボリュームのレイテンシメトリクスの収集を開始します。メトリクスは少なくとも20分ごとに収集されます。レイテンシイベントテーブルには、設定されたしきい値を超えたボリュームが表示されます。

アラートについて

レイテンシ分析機能はCloudWatchアラームを使用してボリュームのパフォーマンスを監視します。アラートがどのようにトリガーされるかを理解することで、適切なしきい値を設定し、結果を解釈するのに役立ちます。

収集されたメトリック

システムは各ボリュームについて次のCloudWatchメトリックを収集します:

  • 読み取りレイテンシしきい値:1000 * m2/(m1+0.000001)として計算されます。ここで、m1 = DataReadOperations、m2 = DataReadOperationTime

  • 書き込みレイテンシしきい値:1000 * m2/(m1+0.000001)として計算されます。ここで、m1 = DataWriteOperations、m2 = DataWriteOperationTime

アラートのトリガー条件

次の条件がすべて満たされると、アラートがトリガーされます:

  • 操作タイプ(読み取りまたは書き込み)のレイテンシしきい値を超えています。

  • 操作タイプの IOPS しきい値を超えています。

  • 両方の条件は、構成された時間範囲内のすべてのデータポイントに対して持続します。

たとえば、デフォルトの警告しきい値では、読み取りレイテンシが 6 ms を超え、かつ 10 分間にすべてのデータポイントの読み取り IOPS が 100 ops/sec を超えた場合にのみ読み取りアラートがトリガーされます。

イベントの重大度

  • 警告イベント:注意が必要な可能性のある、待機時間の増加を示します。

  • 重大なイベント:すぐに調査する必要がある重大な遅延を示します。

レイテンシイベントを表示する

レイテンシイベントテーブルには、過去72時間以内に検出されたすべての警告イベントと重大イベントが表示されます。このテーブルを使用して、ボリュームのパフォーマンスを監視し、最適化が必要なボリュームを特定してください。

追加情報
  • 各ボリュームの最新の侵害のみが表に表示されます。ボリュームで複数の侵害が発生した場合は、最新のイベントのみが表示されます。

  • イベントは 72 時間後に自動的に削除されます。

  • 表には最大200件のイベントが表示されます。新しいイベントが追加されると、古いイベントは削除されます。

手順
  1. レイテンシ タブで、レイテンシイベントテーブルを表示します。

  2. 以下を含む各イベントの情報を確認します:

    • 重大度:イベントが重大か警告かを示します。

    • ボリューム名:影響を受けるボリュームの名前。

    • ボリューム ID:影響を受けるボリュームの ID。

    • ファイルシステム:ボリュームを含む FSx for ONTAP ファイルシステム。

    • 検出時刻:侵害が検出された時刻

    • 中央値レイテンシ:違反期間中の中央値レイテンシ。

  3. 表を並べ替えるには、任意の列ヘッダーを選択します。デフォルトでは、まず重大なイベントが時間順に並び替えられ、次に警告イベントが時間順に並び替えられて表示されます。

  4. 1 つ以上のイベントを却下するには、各イベントの横にある 却下 を選択します。

  5. テーブルに列を追加するには、列アイコンを選択し、列を選択して、*適用*を選択します。

レイテンシ設定を管理する

初期設定後、しきい値を編集できます。

手順
  1. Latency ページで、Edit を選択します。

  2. 必要に応じて、しきい値を変更します。

    メモ 重要しきい値が警告しきい値よりも高い値に設定されていることを確認してください。重要しきい値を警告しきい値よりも低く設定した場合、システムはエラーを表示します。
  3. 変更を保存するには、*適用*を選択します。

ベストプラクティス

レイテンシ分析を構成および使用するときは、次の推奨事項を考慮してください:

  • 現実的なしきい値を設定する:ワークロード要件に基づいてしきい値を設定します。デフォルト値は出発点となりますが、特定の環境に合わせて調整が必要になる場合があります。

  • 警告しきい値から開始:重要なしきい値を微調整する前に、警告イベントを使用してベースラインパフォーマンスの期待値を確立します。

  • 時間範囲を慎重に検討してください:短い時間範囲(5~10分)では問題の検出が速くなりますが、アラートが多く生成される可能性があります。長い時間範囲(15~20分)では誤検知は減りますが、検出が遅れる可能性があります。

  • 傾向の監視:レイテンシ イベント テーブルを定期的に確認して、根本的な構成の問題を示唆する可能性のあるパターンや繰り返し発生する問題を特定します。

  • IOPSとレイテンシのしきい値を調整する:二重条件ロジックでは、両方のしきい値を超える必要があります。IOPSしきい値を非常に高く設定すると、レイテンシが問題となる場合でもアラートが発生しない可能性があります。

  • 却下されたイベントを確認する:イベントが却下された理由を定期的に確認し、しきい値の調整やインフラストラクチャの改善の機会を特定します。