Workload Factory for EDAにおけるレイテンシーの問題を分析する
検出されたレイテンシイベントを表示し、自動分析ツールを使用して根本原因を特定し、FSx for ONTAPボリュームのパフォーマンスボトルネックを解決します。
開始する前に
遅延イベントを表示および分析する前に、"レイテンシー監視を設定済み"を実行しておく必要があります。
レイテンシイベントを表示する
レイテンシイベントテーブルは、過去72時間以内に検出されたすべての警告イベントと重大イベントを一元的に表示します。
-
各ボリュームの最新の違反のみが表示されます。ボリュームで複数の違反が発生した場合は、最新のイベントのみが表示されます。
-
イベントは 72 時間後に自動的に削除されます。
-
最大200件のイベントが表示されます。新しいイベントが追加されると、古いイベントは削除されます。
-
ファイルシステムにリンクが関連付けられていない場合でも、イベントは表示されます。基本的な分析の詳細を表示したり、AIエージェントによる分析を実行したりするには、リンクが必要です。
-
次のいずれかを使用してログインします "コンソール体験"。
-
メニュー
を選択し、*EDA*を選択します。 -
*レイテンシ*タブを選択します。
-
レイテンシイベントテーブルの各イベントの情報を確認します。
-
遅延イベントの詳細を表示するには、*重大度*列で該当するイベントを選択してください。これにより、そのイベントの遅延分析パネルが開きます。
-
テーブルを並べ替えるには、任意の列ヘッダーを選択してください。デフォルトでは、まず重大なイベントが時間順に表示され、次に警告イベントが時間順に表示されます。
-
1つまたは複数のイベントを破棄するには、各イベントの横にある
*却下*を選択します。 -
テーブルに列を追加するには、
を選択し、列を選択してから*適用*を選択します。 -
時間の経過に伴う遅延傾向を分析するには、イベントを選択して遅延分析パネルを開きます。*Over time*タブを使用して、インタラクティブな遅延グラフを表示します。詳細については、"レイテンシの傾向を分析"を参照してください。
レイテンシイベントを分析する
基本的な分析を行うことで、手動による調査を行うことなく、遅延問題の根本原因を迅速に特定できます。
レイテンシ分析パネル
*重大度*列でレイテンシイベントを選択すると、そのイベントのレイテンシ分析パネルが開きます。このパネルには、レイテンシイベントのさまざまなビューを提供するタブが含まれています:
-
概要:レイテンシの原因となっているコンポーネントを示す基本的な分析結果を表示します。
-
時間の経過とともに:履歴データを含むインタラクティブなレイテンシグラフを表示します
概要タブ
Overview タブには、自動化された基本分析の結果が表示され、遅延の原因となっているコンポーネントが特定されます。
Amazon Bedrock モデルの ARN が設定されている場合、 * 概要 * タブには、データおよびクラスタシナリオの AI エージェント分析を実行するオプションも含まれます。Bedrock が設定されていない場合、タブには、 Bedrock アクセスを設定できる特定のファイルシステムのストレージワークロード設定ページへのリンクが表示されます。
時間経過タブ
Over time タブには、影響を受けるボリュームの時間経過に伴う CloudWatch レイテンシ指標を示すインタラクティブなレイテンシグラフが表示されます。このグラフは、イベントをトリガーしたアラームの種類に応じて、読み取りレイテンシまたは書き込みレイテンシを示しています。異なる期間におけるレイテンシの挙動を確認するために、異なる時間枠(1H、3H、12H、24H、72H)を選択できます。
グラフの使用方法に関する詳細な手順については、"レイテンシの傾向を分析"を参照してください。
手順
-
*レイテンシ*タブで、分析するイベントを探します。
-
*重大度*列で、遅延イベントを選択すると、そのイベントの分析パネルが開きます。
ファイルシステムにリンクが関連付けられていない場合、影響を受けるファイルシステムにリンクを関連付けるよう求めるプロンプトが表示されます。プロンプトを選択すると、該当するファイルシステムのリンク設定ページにリダイレクトされます。
-
*概要*タブを確認して、基本的な分析結果を理解し、遅延の原因を特定してください。
-
必要に応じて、Over time タブを選択すると、影響を受けるボリュームのレイテンシ傾向を確認できます。
-
遅延の原因についてより詳細な調査が必要な場合(データまたはクラスタのシナリオなど)、AI-agent による分析を実行します。
AIエージェント分析を実行する
AIエージェントによる分析は、より詳細な調査を行い、具体的な根本原因と潜在的な改善策を特定します。
Workload Factory 設定で Amazon Bedrock モデル ARN を設定します。"GenAIの基本要件"を参照してください。
AIエージェントによる分析を実行すると、システムは自動的に基本分析データを更新し、それをAIエージェントへの入力として使用します。
-
*レイテンシ*タブで、分析するイベントを探します。
-
*重大度*列で、遅延イベントを選択すると、そのイベントの分析パネルが開きます。
ファイルシステムにリンクが関連付けられていない場合、影響を受けるファイルシステムにリンクを関連付けるよう求めるプロンプトが表示されます。プロンプトを選択すると、該当するファイルシステムのリンク設定ページにリダイレクトされます。
-
*概要*タブを確認して、基本的な分析結果を理解し、遅延の原因を特定してください。
-
遅延の原因がデータまたはクラスタであると特定された場合は、*分析*を選択してAIエージェントによる分析を実行します。
-
AI エージェントの分析結果を確認します。結果には以下が含まれます:
-
潜在的な根本原因の説明
-
影響を受けるEC2クライアントのリスト
-
推奨される修復手順
-
-
遅延の問題を解決するために、推奨される修復手順を実施してください。
-
修復後、レイテンシイベントテーブルを監視して問題が解決したことを確認してください。
ベストプラクティス
レイテンシの問題を分析する際には、次の推奨事項を考慮してください:
-
傾向の監視:レイテンシ イベント テーブルを定期的に確認して、根本的な構成の問題を示唆する可能性のあるパターンや繰り返し発生する問題を特定します。
-
AIエージェント分析を戦略的に活用する:基本的な分析で推奨されるデータおよびクラスタのシナリオに対して、AIエージェント分析を実行します。AIエージェントによる分析は、詳細なトラブルシューティングを必要とする複雑なパフォーマンス問題に対して、より深い洞察を提供します。
-
却下されたイベントを確認する:イベントが却下された理由を定期的に確認し、しきい値の調整やインフラストラクチャの改善の機会を特定します。
遅延傾向の分析に関するベストプラクティスについては、"グラフの解釈"を参照してください。