Workload Factory for EDA でボリュームレイテンシを監視
EDAワークロードを管理するIT管理者またはDevOpsエンジニアは、レイテンシ分析を使用してFSx for ONTAPボリュームの読み取りおよび書き込みレイテンシを監視できます。パフォーマンスの問題を早期に検出するために、警告および重大なしきい値を設定してください。イベントが発生すると、Workload Factoryは自動的に基本的な分析を提供します。また、必要に応じてAIエージェントによる分析を実行し、根本原因の詳細、影響を受けるクライアント、推奨される修復手順などを確認できます。
概要
レイテンシ分析では、AWSクレデンシャルに関連付けられたすべてのFSx for ONTAPボリュームの読み取りおよび書き込み操作についてCloudWatchメトリックを収集します。設定された時間範囲内のすべてのデータポイントにおいて、レイテンシしきい値とIOPSしきい値の両方が超過した場合にアラートが生成されます。これにより、実際の負荷がかかった状態で高いレイテンシが維持されることが保証され、誤検出が減少します。検出されたすべてのイベントを確認でき、通知を設定している場合は、影響を受けたボリュームの詳細を記載したEメールまたはAmazon SNS通知を受け取ることができます。
イベントが検出されると、Workload FactoryはONTAP QoS遅延センターメトリクスを使用して基本的な分析を実行し、主な遅延要因(FlexCache、容量プール、QoS制限、ディスク、データ、クラスタ、またはその他のサブシステムなど)を特定します。その後、"レイテンシの傾向を分析する"インタラクティブなグラフを使用できます。
データおよびクラスタのシナリオでは、オプションでAIエージェント分析を実行して、詳細な根本原因の説明、影響を受けるEC2クライアントのリスト、および推奨される修復手順を取得できます。
要件
レイテンシ監視および分析機能を使用するには、次の要件を満たしていることを確認してください:
- AWS の認証情報と権限
-
読み取り / 書き込み権限を持つAWS認証情報をWorkload Factoryに追加する必要があります。レイテンシ監視機能では、AWS認証情報に関連付けられたすべてのFSx for ONTAPボリュームのCloudWatchメトリクスへのアクセスが必要です。
レイテンシ監視では、_Basic_モードおよび_Read-only_モードの権限はサポートされていません。
AWS 認証情報をまだ設定していない場合は、"AWS認証情報を追加する"を参照してください。
- FSx for ONTAPファイルシステム
-
AWS 環境にデプロイされたボリュームを持つ少なくとも 1 つの FSx for ONTAP ファイルシステムが必要です。レイテンシー監視機能は、設定された AWS 認証情報に関連付けられているすべてのボリュームのメトリクスを自動的に収集します。
- FSx for ONTAP へのリンク
-
基本的な分析結果を表示するには、FSx for ONTAPファイルシステムにリンクを関連付ける必要があります。リンクがなくてもイベントを検出することはできますが、分析から得られる知見は限られます。リンクがまだ関連付けられていない場合は、EDAで*リンクの関連付け*を選択し、新しいリンクを作成するか既存のリンクを関連付けるかを選択してから、*続行*を選択すると、ストレージワークロードのリンク作成ページに自動的に移動します。
リンクの作成と関連付けの手順については、"リンクを作成"を参照してください。
- Amazon Bedrock モデル ARN(オプション)
-
オプションのAIエージェント分析機能を使用するには、Workload Factoryの設定でAmazon BedrockモデルのARNを指定する必要があります。
詳細については、"GenAIの基本要件"を参照してください。
BedrockモデルのARNを設定しない場合でも、レイテンシ監視と自動基本分析は使用できますが、AIエージェントによる分析は利用できません。
- 通知設定(オプション)
-
レイテンシーイベントが検出された際にメールまたはAmazon SNS通知を受信するには、Workload Factoryの設定で通知設定を構成してください。詳細については、レイテンシ通知を設定するを参照してください。
アラートについて
遅延分析では、CloudWatchアラームを使用してボリュームのパフォーマンスを監視します。アラートがどのようにトリガーされるかを理解することで、適切なしきい値を設定し、結果を解釈するのに役立ちます。
収集されたメトリック
システムは各ボリュームについて次のCloudWatchメトリックを収集します:
-
読み取りレイテンシしきい値:1000 * m2/(m1+0.000001)として計算されます。ここで、m1 = DataReadOperations、m2 = DataReadOperationTime
-
書き込みレイテンシしきい値:1000 * m2/(m1+0.000001)として計算されます。ここで、m1 = DataWriteOperations、m2 = DataWriteOperationTime
アラートのトリガー条件
次の条件がすべて満たされると、アラートがトリガーされます:
-
操作タイプ(読み取りまたは書き込み)のレイテンシしきい値を超えています。
-
操作タイプの IOPS しきい値を超えています。
-
両方の条件は、構成された時間範囲内のすべてのデータポイントに対して持続します。
たとえば、デフォルトの警告しきい値では、読み取りレイテンシが 6 ms を超え、かつ 10 分間にすべてのデータポイントの読み取り IOPS が 100 ops/sec を超えた場合にのみ読み取りアラートがトリガーされます。
イベントの重大度
-
警告イベント:注意が必要な可能性のあるレイテンシの上昇を示します
-
重大なイベント:直ちに調査が必要な深刻なレイテンシを示します
レイテンシしきい値を設定する
読み取り操作と書き込み操作に対して、警告しきい値とクリティカルしきい値を設定できます。システムはしきい値を継続的に評価し、条件が満たされた際にアラートを生成します。
|
|
適切なアラートエスカレーションを確実に行うには、重大イベントのしきい値を警告イベントのしきい値よりも高く設定する必要があります。そうでない場合、設定を保存できません。 |
-
次のいずれかを使用してログインします "コンソール体験"。
-
メニュー
を選択し、*EDA*を選択します。 -
*レイテンシ*タブを選択します。
-
EDA レイテンシ構成ページで、次のしきい値を構成します:
-
警告イベント
-
読み取りレイテンシしきい値:レイテンシしきい値をミリ秒単位で入力します。デフォルト:6 ms。
-
読み取りIOPSしきい値:IOPSしきい値を1秒あたりの操作数で入力します。デフォルト:100 ops/sec。
-
読み取り時間範囲:時間範囲を分単位で入力します(5~20分)。デフォルト:10分。
-
書き込みレイテンシしきい値:レイテンシしきい値をミリ秒単位で入力します。デフォルト:8 ms。
-
書き込みIOPSしきい値:IOPSしきい値を1秒あたりの操作数で入力します。デフォルト:100 ops/sec。
-
書き込み時間範囲:時間範囲を分単位で入力します(5~20)。デフォルト:10分。
-
-
重大なイベント
-
読み取りレイテンシしきい値:レイテンシしきい値をミリ秒単位で入力します。デフォルト:12 ms。
-
読み取りIOPSしきい値:IOPSしきい値を1秒あたりの操作数で入力します。デフォルト:100 ops/sec。
-
読み取り時間範囲:時間範囲を分単位で入力します(5~20分)。デフォルト:10分。
-
書き込みレイテンシしきい値:レイテンシしきい値をミリ秒単位で入力します。デフォルト:15 ミリ秒。
-
書き込みIOPSしきい値:IOPSしきい値を1秒あたりの操作数で入力します。デフォルト:100 ops/sec。
-
書き込み時間範囲:時間範囲を分単位で入力します(5~20)。デフォルト:10分。
-
-
-
*適用*を選択します。
Workload Factory は、AWS クレデンシャルに関連付けられたすべての FSx for ONTAP ボリュームのレイテンシメトリックの収集を開始します。メトリックは少なくとも 20 分ごとに収集されます。設定したしきい値を超えたボリュームはすべて表示されます。
レイテンシイベントを表示する
レイテンシイベントテーブルは、過去72時間以内に検出されたすべての警告イベントと重大イベントを一元的に表示します。
-
各ボリュームの最新の違反のみが表示されます。ボリュームで複数の違反が発生した場合は、最新のイベントのみが表示されます。
-
イベントは 72 時間後に自動的に削除されます。
-
最大200件のイベントが表示されます。新しいイベントが追加されると、古いイベントは削除されます。
-
ファイルシステムにリンクが関連付けられていない場合でも、イベントは表示されます。基本的な分析の詳細を表示したり、AIエージェントによる分析を実行したりするには、リンクが必要です。
-
*レイテンシ*タブで、各イベントの情報を確認してください。以下が含まれます:
-
重大度:イベントが重大か警告かを示します
-
ボリューム名:影響を受けるボリュームの名前
-
ボリューム ID:影響を受けるボリュームの ID
-
ファイルシステム:ボリュームを含む FSx for ONTAP ファイルシステム
-
中央値レイテンシ(ms):違反期間中の中央値レイテンシ値
-
しきい値超過率:設定されたしきい値をレイテンシが超えた割合
-
検出時刻:侵害が検出された時刻
-
-
遅延イベントの詳細を表示するには、*重大度*列で該当するイベントを選択してください。これにより、そのイベントの遅延分析パネルが開きます。
-
テーブルを並べ替えるには、任意の列ヘッダーを選択してください。デフォルトでは、まず重大なイベントが時間順に表示され、次に警告イベントが時間順に表示されます。
-
1つまたは複数のイベントを破棄するには、各イベントの横にある
*却下*を選択します。 -
テーブルに列を追加するには、
を選択し、列を選択してから*適用*を選択します。 -
時間の経過に伴う遅延傾向を分析するには、イベントを選択して遅延分析パネルを開きます。*Over time*タブを使用して、インタラクティブな遅延グラフを表示します。詳細については、"レイテンシの傾向を分析"を参照してください。
レイテンシイベントを分析する
基本的な分析を行うことで、手動による調査を行うことなく、遅延問題の根本原因を迅速に特定できます。レイテンシイベントが検出されると、Workload FactoryはONTAP QoS遅延センターの指標を使用して自動的に基本的な分析を実行します。この分析では、遅延の原因となっているコンポーネントを特定し、簡単な説明を提供します。
|
|
ONTAP QoS分析とCloudWatchデータのレイテンシ値には、収集方法の違いにより若干の差異がある可能性があります。基本的な分析では、根本原因の特定にONTAPデータを使用します。 |
レイテンシ分析パネル
*重大度*列でレイテンシイベントを選択すると、そのイベントのレイテンシ分析パネルが開きます。このパネルには、レイテンシイベントのさまざまなビューを提供するタブが含まれています:
-
概要:レイテンシの原因となっているコンポーネントを示す基本的な分析結果を表示します。
-
時間の経過とともに:履歴データを含むインタラクティブなレイテンシグラフを表示します
概要
Overview タブには、自動化された基本分析の結果が表示され、どのコンポーネントが遅延の原因となっているかが特定されます。
-
FlexCache:FlexCache処理からのレイテンシ
-
容量プール:容量プール操作による遅延
-
QoS最小値:QoSポリシーグループの下限値からのレイテンシ
-
QoS max:QoSポリシーグループの上限制限による遅延
-
ディスク:ストレージ サブシステムからのレイテンシ
-
データ:CPU処理、メタデータ更新、キャッシュ管理を含むWAFLサブシステムからのレイテンシ
-
クラスタ:内部接続されたノード間のレイテンシ
-
その他:NVRAMやネットワークなどの他のサブシステムからのレイテンシ
Amazon Bedrock モデルの ARN が設定されている場合、 * 概要 * タブには、データおよびクラスタシナリオの AI エージェント分析を実行するオプションも含まれます。Bedrock が設定されていない場合、タブには、 Bedrock アクセスを設定できる特定のファイルシステムのストレージワークロード設定ページへのリンクが表示されます。
時間の経過とともに
Over time タブには、影響を受けるボリュームの時間経過に伴う CloudWatch レイテンシ指標を示すインタラクティブなレイテンシグラフが表示されます。このグラフは、イベントをトリガーしたアラームの種類に応じて、読み取りレイテンシまたは書き込みレイテンシを示しています。異なる期間におけるレイテンシの挙動を確認するために、異なる時間枠(1H、3H、12H、24H、72H)を選択できます。
グラフの使用方法に関する詳細な手順については、"レイテンシの傾向を分析"を参照してください。
AIエージェント分析を実行する
基本的な分析では遅延の原因を特定できますが、データやクラスタコンポーネントが関わる複雑なシナリオでは、具体的な根本原因と潜在的な修復手順を特定するために、より詳細な調査が必要となることがよくあります。AIエージェント分析は、基本的な分析では検出できないbully volume、非最適な構成、またはスケールアウト要件などの問題を特定することで、このより深いレベルのトラブルシューティングを提供します。
Workload Factory 設定で Amazon Bedrock モデル ARN を設定します。"GenAIの基本要件"を参照してください。
AIエージェントによる分析を実行すると、システムは自動的に基本分析データを更新し、それをAIエージェントへの入力として使用します。AIエージェントは遅延シナリオを評価し、以下の情報を提供します:
-
潜在的な根本原因:遅延問題の原因に関する詳細な説明
-
影響を受けるクライアント:レイテンシの影響を受けるEC2インスタンス名のリスト
-
潜在的な修復手順:問題を解決するための2つ以上の具体的なアクション
AIエージェントは、以下のようなシナリオを特定するために、基本的な分析ガイドラインに従います:
-
過剰なリソースを消費する大量のボリューム(データ遅延の原因となる)
-
最適ではないマウントポイント構成(クラスタ遅延の原因)
-
FlexGroup の再バランスのニーズ(クラスターの遅延に対応)
-
スケールアウト要件(クラスタ遅延の場合)
-
*レイテンシ*タブで、分析するイベントを探します。
-
*重大度*列で、遅延イベントを選択すると、そのイベントの分析パネルが開きます。
ファイルシステムにリンクが関連付けられていない場合、影響を受けるファイルシステムにリンクを関連付けるよう求めるプロンプトが表示されます。プロンプトを選択すると、該当するファイルシステムのリンク設定ページにリダイレクトされます。
-
*概要*タブを確認して、基本的な分析結果を理解し、遅延の原因を特定してください。
-
遅延の原因がデータまたはクラスタであると特定された場合は、*分析*を選択してAIエージェントによる分析を実行します。
-
AIエージェントの分析結果を確認してください。
-
遅延の問題を解決するために、推奨される修復手順を実施してください。
-
修復後、レイテンシイベントテーブルを監視して問題が解決したことを確認してください。
レイテンシ設定を管理する
初期設定後、しきい値を編集できます。
-
Latency ページで、Edit を選択します。
-
必要に応じて、しきい値を変更します。
重要しきい値が警告しきい値よりも高い値に設定されていることを確認してください。重要しきい値を警告しきい値よりも低く設定した場合、システムはエラーを表示します。 -
変更を保存するには、*適用*を選択します。
レイテンシ通知を設定する
レイテンシイベントが検出された際にアラートを受信するように、Eメールまたは Amazon SNS 通知を設定できます。ボリュームが設定されたしきい値を超えるたびに通知が送信され、パフォーマンスの問題をリアルタイムで認識できます。通知を有効にするには、"通知を設定する"を参照してください。
レイテンシ通知はファイルシステムごとに送信されます。ファイルシステム内の1つ以上のボリュームがレイテンシのしきい値を超えると、影響を受けるすべてのボリュームを一覧表示する単一の通知が届きます。
|
|
影響を受けるボリュームが10個を超える場合、メールには最初の10個のボリュームが表示され、さらに影響を受けるボリュームの数が示されます。影響を受けるすべてのボリュームは、Workload Factoryコンソールで確認できます。 |
通知には次のものが含まれます:
-
ファイルシステムの詳細
-
しきい値を超えたボリュームのリスト
-
イベントの重大度(警告または重大)
-
レイテンシ値としきい値の比較
-
調査用のレイテンシページへの直接リンク
通知チャネル:
-
メール:Workload Factoryの通知設定で設定されているメールアドレスに送信されます。
-
Amazon SNS:他のシステムとの統合のために、設定済みのSNSトピックに公開されます
ベストプラクティス
レイテンシ分析を構成および使用するときは、次の推奨事項を考慮してください:
-
現実的なしきい値を設定する:ワークロード要件に基づいてしきい値を設定します。デフォルト値は出発点となりますが、特定の環境に合わせて調整が必要になる場合があります。
-
警告しきい値から開始:重要なしきい値を微調整する前に、警告イベントを使用してベースラインパフォーマンスの期待値を確立します。
-
時間範囲を慎重に検討してください:短い時間範囲(5~10分)では問題の検出が速くなりますが、アラートが多く生成される可能性があります。長い時間範囲(15~20分)では誤検知は減りますが、検出が遅れる可能性があります。
-
傾向の監視:レイテンシ イベント テーブルを定期的に確認して、根本的な構成の問題を示唆する可能性のあるパターンや繰り返し発生する問題を特定します。
-
IOPSとレイテンシのしきい値を調整する:二重条件ロジックでは、両方のしきい値を超える必要があります。IOPSしきい値を非常に高く設定すると、レイテンシが問題となる場合でもアラートが発生しない可能性があります。
-
却下されたイベントを確認する:イベントが却下された理由を定期的に確認し、しきい値の調整やインフラストラクチャの改善の機会を特定します。
-
AIエージェント分析を戦略的に活用する:基本的な分析で推奨されるデータおよびクラスタのシナリオに対して、AIエージェント分析を実行します。AIエージェントによる分析は、詳細なトラブルシューティングを必要とする複雑なパフォーマンス問題に対して、より深い洞察を提供します。
遅延傾向の分析に関するベストプラクティスについては、"グラフの解釈"を参照してください。