EDA ワークロードのボリュームレイテンシを監視する
EDAワークロードを管理するIT管理者またはDevOpsエンジニアは、レイテンシ分析を使用してFSx for ONTAPボリュームの読み取りおよび書き込みレイテンシを監視できます。パフォーマンスの問題を早期に検出するために、警告および重大なしきい値を設定してください。イベントが発生すると、Workload Factoryは自動的に基本的な分析を提供します。また、必要に応じてAIエージェントによる分析を実行し、根本原因の詳細、影響を受けるクライアント、推奨される修復手順などを確認できます。
概要
遅延分析では、AWS クレデンシャルに関連付けられているすべての FSx for ONTAP ボリュームでの読み取りおよび書き込み処理について CloudWatch メトリックを収集します。設定された時間範囲内のすべてのデータポイントにおいて、レイテンシしきい値と IOPS しきい値の両方が超過した場合にアラートが生成されます。この二重条件ロジックは、実際の負荷がかかった状態でも高いレイテンシが維持されることを保証することで、誤検出を低減します。
イベントが検出されると、Workload FactoryはONTAP QoS遅延センターメトリクスを使用して基本的な分析を実行し、主な遅延要因(FlexCache、容量プール、QoS制限、ディスク、データ、クラスタ、またはその他のサブシステムなど)を特定します。
データおよびクラスタのシナリオでは、レイテンシ分析パネルからAIエージェント分析をオプションで呼び出すことで、詳細な根本原因の説明、影響を受けるEC2クライアントのリスト、および推奨される修復手順を取得できます。
要件
レイテンシ監視および分析機能を使用するには、次の要件を満たしていることを確認してください:
- AWS の認証情報と権限
-
読み取り / 書き込み権限を持つAWS認証情報をWorkload Factoryに追加する必要があります。レイテンシ監視機能では、AWS認証情報に関連付けられたすべてのFSx for ONTAPボリュームのCloudWatchメトリクスへのアクセスが必要です。
レイテンシ監視では、_Basic_モードおよび_Read-only_モードの権限はサポートされていません。
AWS 認証情報をまだ設定していない場合は、"AWS認証情報を追加する"を参照してください。
- FSx for ONTAPファイルシステム
-
AWS 環境にデプロイされたボリュームを持つ少なくとも 1 つの FSx for ONTAP ファイルシステムが必要です。レイテンシー監視機能は、設定された AWS 認証情報に関連付けられているすべてのボリュームのメトリクスを自動的に収集します。
- FSx for ONTAP へのリンク
-
レイテンシイベントテーブルと分析パネルで基本的な分析インサイトを表示するには、FSx for ONTAP ファイルシステムにリンクを関連付ける必要があります。リンクがなくてもイベントを検出することはできますが、分析から得られるインサイトは限られます。リンクがまだ関連付けられていない場合は、EDA で*リンクの関連付け*を選択し、新しいリンクを作成するか既存のリンクを関連付けるかを選択してから、*続行*を選択すると、ストレージワークロードのリンク作成ページに自動的に移動します。
リンクの作成と関連付けの手順については、"リンクを作成"を参照してください。
- Amazon Bedrock モデル ARN(オプション)
-
オプションのAIエージェント分析機能を使用するには、Workload Factoryの設定でAmazon BedrockモデルのARNを指定する必要があります。
詳細については、"GenAIの基本要件"を参照してください。
BedrockモデルのARNを設定しなくても、レイテンシー監視と自動基本分析は引き続き使用できます。AIエージェントによる分析は利用できません。
アラートについて
レイテンシ分析機能はCloudWatchアラームを使用してボリュームのパフォーマンスを監視します。アラートがどのようにトリガーされるかを理解することで、適切なしきい値を設定し、結果を解釈するのに役立ちます。
収集されたメトリック
システムは各ボリュームについて次のCloudWatchメトリックを収集します:
-
読み取りレイテンシしきい値:1000 * m2/(m1+0.000001)として計算されます。ここで、m1 = DataReadOperations、m2 = DataReadOperationTime
-
書き込みレイテンシしきい値:1000 * m2/(m1+0.000001)として計算されます。ここで、m1 = DataWriteOperations、m2 = DataWriteOperationTime
アラートのトリガー条件
次の条件がすべて満たされると、アラートがトリガーされます:
-
操作タイプ(読み取りまたは書き込み)のレイテンシしきい値を超えています。
-
操作タイプの IOPS しきい値を超えています。
-
両方の条件は、構成された時間範囲内のすべてのデータポイントに対して持続します。
たとえば、デフォルトの警告しきい値では、読み取りレイテンシが 6 ms を超え、かつ 10 分間にすべてのデータポイントの読み取り IOPS が 100 ops/sec を超えた場合にのみ読み取りアラートがトリガーされます。
イベントの重大度
-
警告イベント:注意が必要な可能性のあるレイテンシの上昇を示します
-
重大なイベント:直ちに調査が必要な深刻なレイテンシを示します
レイテンシしきい値を設定する
読み取りおよび書き込み操作に対する警告しきい値とクリティカルしきい値を設定します。システムはしきい値を継続的に評価し、条件が満たされた際にアラートを生成します。
|
|
適切なアラートエスカレーションを確実に行うには、重大イベントのしきい値を警告イベントのしきい値よりも高く設定する必要があります。そうでない場合、設定を保存できません。 |
-
次のいずれかを使用してログインします "コンソール体験"。
-
メニュー
を選択し、*EDA*を選択します。 -
*レイテンシ*タブを選択します。
-
EDA レイテンシ構成ページで、次のしきい値を構成します:
-
警告イベント
-
読み取りレイテンシしきい値:レイテンシしきい値をミリ秒単位で入力します。デフォルト:6 ms。
-
読み取りIOPSしきい値:IOPSしきい値を1秒あたりの操作数で入力します。デフォルト:100 ops/sec。
-
読み取り時間範囲:時間範囲を分単位で入力します(5~20分)。デフォルト:10分。
-
書き込みレイテンシしきい値:レイテンシしきい値をミリ秒単位で入力します。デフォルト:8 ms。
-
書き込みIOPSしきい値:IOPSしきい値を1秒あたりの操作数で入力します。デフォルト:100 ops/sec。
-
書き込み時間範囲:時間範囲を分単位で入力します(5~20)。デフォルト:10分。
-
-
重大なイベント
-
読み取りレイテンシしきい値:レイテンシしきい値をミリ秒単位で入力します。デフォルト:12 ms。
-
読み取りIOPSしきい値:IOPSしきい値を1秒あたりの操作数で入力します。デフォルト:100 ops/sec。
-
読み取り時間範囲:時間範囲を分単位で入力します(5~20分)。デフォルト:10分。
-
書き込みレイテンシしきい値:レイテンシしきい値をミリ秒単位で入力します。デフォルト:15 ミリ秒。
-
書き込みIOPSしきい値:IOPSしきい値を1秒あたりの操作数で入力します。デフォルト:100 ops/sec。
-
書き込み時間範囲:時間範囲を分単位で入力します(5~20)。デフォルト:10分。
-
-
-
*適用*を選択します。
Workload FactoryはAWS認証情報に関連付けられたすべてのFSx for ONTAPボリュームのレイテンシメトリクスの収集を開始します。メトリクスは少なくとも20分ごとに収集されます。レイテンシイベントテーブルには、設定されたしきい値を超えたボリュームが表示されます。
レイテンシイベントを表示する
レイテンシイベントテーブルは、過去72時間以内に検出されたすべての警告イベントと重大イベントを一元的に表示します。
-
各ボリュームの最新の侵害のみが表に表示されます。ボリュームで複数の侵害が発生した場合は、最新のイベントのみが表示されます。
-
イベントは 72 時間後に自動的に削除されます。
-
表には最大200件のイベントが表示されます。新しいイベントが追加されると、古いイベントは削除されます。
-
ファイルシステムにリンクが関連付けられていない場合でも、イベントはテーブルに表示されます。基本的な分析の詳細を表示したり、AI エージェントによる分析を実行したりするには、リンクが必要です。
-
レイテンシ タブで、レイテンシイベントテーブルを表示します。
-
以下を含む各イベントの情報を確認します:
-
重大度:イベントが重大か警告かを示します
-
ボリューム名:影響を受けるボリュームの名前
-
ボリューム ID:影響を受けるボリュームの ID
-
ファイルシステム:ボリュームを含む FSx for ONTAP ファイルシステム
-
中央値レイテンシ(ms):違反期間中の中央値レイテンシ値
-
しきい値超過率:設定されたしきい値をレイテンシが超えた割合
-
検出時刻:侵害が検出された時刻
-
-
遅延イベントの詳細を表示するには、遅延イベントテーブルの*重大度*列で該当するイベントを選択します。これにより、そのイベントの遅延分析パネルが開きます。
-
表を並べ替えるには、任意の列ヘッダーを選択します。デフォルトでは、まず重大なイベントが時間順に並び替えられ、次に警告イベントが時間順に並び替えられて表示されます。
-
1つまたは複数のイベントを破棄するには、各イベントの横にある
*却下*を選択します。 -
テーブルに列を追加するには、
を選択し、列を選択してから*適用*を選択します。
基本的な分析について
基本的な分析を行うことで、手動による調査を行うことなく、遅延問題の根本原因を迅速に特定できます。レイテンシイベントが検出されると、Workload FactoryはONTAP QoS遅延センターの指標を使用して自動的に基本的な分析を実行します。この分析では、遅延の原因となっているコンポーネントを特定し、遅延分析パネルに簡単な説明を表示します。
|
|
ONTAP QoS分析とCloudWatchデータのレイテンシ値には、収集方法の違いにより若干の差異がある可能性があります。基本的な分析では、根本原因の特定にONTAPデータを使用します。 |
レイテンシ分析パネル
レイテンシイベントテーブルの*重大度*列でレイテンシイベントを選択すると、そのイベントのレイテンシ分析パネルが開きます。
-
FlexCache:FlexCache処理からのレイテンシ
-
容量プール:容量プール操作による遅延
-
QoS最小値:QoSポリシーグループの下限値からのレイテンシ
-
QoS max:QoSポリシーグループの上限制限による遅延
-
ディスク:ストレージ サブシステムからのレイテンシ
-
データ:CPU処理、メタデータ更新、キャッシュ管理を含むWAFLサブシステムからのレイテンシ
-
クラスタ:内部接続されたノード間のレイテンシ
-
その他:NVRAMやネットワークなどの他のサブシステムからのレイテンシ
Amazon Bedrock モデルの ARN が設定されている場合、パネルにはデータおよびクラスタシナリオに対する AI エージェント分析を実行するオプションも含まれます。Bedrock が設定されていない場合、パネルには、Bedrock へのアクセスを設定できる特定のファイルシステムのストレージワークロード構成ページへのリンクが表示されます。
AIエージェント分析を実行する
基本的な分析では遅延の原因を特定できますが、データやクラスタコンポーネントが関わる複雑なシナリオでは、具体的な根本原因と潜在的な修復手順を特定するために、より詳細な調査が必要となることがよくあります。AIエージェント分析は、基本的な分析では検出できないbully volume、非最適な構成、またはスケールアウト要件などの問題を特定することで、このより深いレベルのトラブルシューティングを提供します。
Workload Factoryの設定で、Amazon BedrockモデルのARNを設定しておく必要があります。
AIエージェントによる分析を実行すると、システムは自動的に基本分析データを更新し、それをAIエージェントへの入力として使用します。AIエージェントは遅延シナリオを評価し、以下の情報を提供します:
-
潜在的な根本原因:遅延問題の原因に関する詳細な説明
-
影響を受けるクライアント:レイテンシの影響を受けるEC2インスタンス名のリスト
-
潜在的な修復手順:問題を解決するための2つ以上の具体的なアクション
AIエージェントは、以下のようなシナリオを特定するために、基本的な分析ガイドラインに従います:
-
過剰なリソースを消費する大量のボリューム(データ遅延の原因となる)
-
最適ではないマウントポイント構成(クラスタ遅延の原因)
-
FlexGroup の再バランスのニーズ(クラスターの遅延に対応)
-
スケールアウト要件(クラスタ遅延の場合)
-
*レイテンシ*タブで、分析するイベントを探します。
-
遅延イベントテーブルの*重大度*列で、遅延イベントを選択すると、そのイベントの分析パネルが開きます。
ファイルシステムにリンクが関連付けられていない場合、影響を受けるファイルシステムにリンクを関連付けるよう求めるプロンプトが表示されます。プロンプトを選択すると、該当するファイルシステムのリンク設定ページにリダイレクトされます。ツールチップにはリダイレクトの説明が表示され、リンクを関連付けてBedrockアクセスを設定する(推奨)ことで、イベントの完全な分析が可能になることが示されます。
-
分析パネルで、基本的な分析結果を確認し、遅延の原因を把握してください。
-
遅延の原因がデータまたはクラスタであると特定された場合は、*分析*を選択してください。
-
AI エージェントの分析結果を確認してください。結果には以下が含まれます:
-
根本原因の説明
-
影響を受けるEC2クライアントのリスト
-
潜在的な修復手順
-
-
遅延の問題を解決するために、推奨される修復手順を実施してください。
-
修復後、レイテンシイベントテーブルを監視して問題が解決したことを確認してください。
レイテンシ設定を管理する
初期設定後、しきい値を編集できます。
-
Latency ページで、Edit を選択します。
-
必要に応じて、しきい値を変更します。
重要しきい値が警告しきい値よりも高い値に設定されていることを確認してください。重要しきい値を警告しきい値よりも低く設定した場合、システムはエラーを表示します。 -
変更を保存するには、*適用*を選択します。
ベストプラクティス
レイテンシ分析を構成および使用するときは、次の推奨事項を考慮してください:
-
現実的なしきい値を設定する:ワークロード要件に基づいてしきい値を設定します。デフォルト値は出発点となりますが、特定の環境に合わせて調整が必要になる場合があります。
-
警告しきい値から開始:重要なしきい値を微調整する前に、警告イベントを使用してベースラインパフォーマンスの期待値を確立します。
-
時間範囲を慎重に検討してください:短い時間範囲(5~10分)では問題の検出が速くなりますが、アラートが多く生成される可能性があります。長い時間範囲(15~20分)では誤検知は減りますが、検出が遅れる可能性があります。
-
傾向の監視:レイテンシ イベント テーブルを定期的に確認して、根本的な構成の問題を示唆する可能性のあるパターンや繰り返し発生する問題を特定します。
-
IOPSとレイテンシのしきい値を調整する:二重条件ロジックでは、両方のしきい値を超える必要があります。IOPSしきい値を非常に高く設定すると、レイテンシが問題となる場合でもアラートが発生しない可能性があります。
-
却下されたイベントを確認する:イベントが却下された理由を定期的に確認し、しきい値の調整やインフラストラクチャの改善の機会を特定します。
-
AIエージェント分析を戦略的に活用する:基本的な分析で推奨されるデータおよびクラスタのシナリオに対して、AIエージェント分析を実行します。AIエージェントによる分析は、詳細なトラブルシューティングを必要とする複雑なパフォーマンス問題に対して、より深い洞察を提供します。