Workload Factory for EDAにおけるレイテンシ監視について学ぶ
Workload Factory for EDA のレイテンシ監視は、FSx for ONTAP ボリュームのパフォーマンスボトルネックを事前に特定して解決するのに役立ちます。システムは CloudWatch メトリックを使用して読み取りおよび書き込みレイテンシを監視し、パフォーマンス問題の根本原因を理解するのに役立つ自動分析を提供します。
レイテンシ監視の仕組み
遅延分析は、AWS 認証情報に関連付けられたすべての FSx for ONTAP ボリュームの読み取りおよび書き込み操作について CloudWatch メトリックを収集します。システムは、これらのメトリックを構成可能なしきい値と照らし合わせて継続的に評価し、パフォーマンスの問題を早期に検出します。
レイテンシイベントが検出されると、Workload FactoryはONTAP QoS遅延センターの指標を使用して基本的な分析を自動的に実行し、主なレイテンシの原因を特定します。データやクラスタコンポーネントが関係するより複雑なシナリオの場合、オプションでAIエージェント分析を実行して、詳細な根本原因の説明、影響を受けるクライアントリスト、および具体的な修復手順を取得できます。
アラート生成
設定された時間範囲内のすべてのデータポイントにおいて、レイテンシしきい値とIOPSしきい値の両方が超過した場合にアラートが生成されます。この二重条件アプローチは、実際の負荷がかかった状態で高いレイテンシが維持されることを保証することで、誤検出を低減します。
以下の項目について個別のしきい値を設定できます:
-
読み取り操作
-
書き込み操作
-
警告の重大度
-
重大度
検出されたすべてのイベントはレイテンシーイベントテーブルに表示され、通知を設定している場合は、影響を受けるボリュームの詳細を記載したメールまたは Amazon SNS 通知が届きます。
アラートについて
アラートがどのようにトリガーされるかを理解することで、適切なしきい値を設定し、結果を解釈するのに役立ちます。
収集されたメトリック
システムは各ボリュームについて次のCloudWatchメトリックを収集します:
-
読み取りレイテンシしきい値:1000 * m2/(m1+0.000001)として計算されます。ここで、m1 = DataReadOperations、m2 = DataReadOperationTime
-
書き込みレイテンシしきい値:1000 * m2/(m1+0.000001)として計算されます。ここで、m1 = DataWriteOperations、m2 = DataWriteOperationTime
アラートのトリガー条件
次の条件がすべて満たされると、アラートがトリガーされます:
-
操作タイプ(読み取りまたは書き込み)のレイテンシしきい値を超えています。
-
操作タイプの IOPS しきい値を超えています。
-
両方の条件は、構成された時間範囲内のすべてのデータポイントに対して持続します。
たとえば、デフォルトの警告しきい値では、読み取りレイテンシが 6 ms を超え、かつ 10 分間にすべてのデータポイントの読み取り IOPS が 100 ops/sec を超えた場合にのみ読み取りアラートがトリガーされます。
イベントの重大度
-
警告イベント:注意が必要な可能性のあるレイテンシの上昇を示します
-
重大なイベント:直ちに調査が必要な深刻なレイテンシを示します
レイテンシ分析
Workload Factoryは、レイテンシの問題のトラブルシューティングに役立つ2つのレベルの分析を提供します。
基本分析
レイテンシイベントが検出されると、Workload Factoryは自動的に基本的な分析を実行します。ONTAP QoS遅延センターメトリクスを使用して、どのコンポーネントがレイテンシを引き起こしているかを特定します(例:FlexCache、容量プール、QoS制限、ディスク、データ、クラスタ、またはその他のサブシステム)。この分析により、手動調査を行うことなく、レイテンシの原因を迅速に特定できます。
FSx for ONTAP ファイルシステムにリンクを関連付けると、すべてのレイテンシイベントに対して基本的な分析が利用可能になります。リンクがなくてもイベントを検出することはできますが、分析から得られる知見は限られます。
|
|
ONTAP QoS分析とCloudWatchデータのレイテンシ値には、収集方法の違いにより若干の差異がある可能性があります。基本的な分析では、根本原因の特定にONTAPデータを使用します。 |
AIエージェント分析
基本的な分析では遅延の原因を特定できるものの、データやクラスタコンポーネントが関わる複雑なシナリオでは、より詳細な調査が必要となる場合が多い。AIエージェント分析は、基本的な分析では検出できないbully volume、最適ではない構成、またはスケールアウト要件などの問題を特定することで、このより深いレベルのトラブルシューティングを提供します。
AI エージェント分析を実行すると、システムは次の情報を提供します。
-
潜在的な根本原因:遅延問題の原因に関する詳細な説明
-
影響を受けるクライアント:レイテンシの影響を受けるEC2インスタンス名のリスト
-
潜在的な修復手順:問題を解決するための2つ以上の具体的なアクション
AIエージェントの分析には、Workload Factoryの設定で構成されたAmazon BedrockモデルのARNが必要です。Bedrockが設定されていない場合でも、レイテンシー監視と自動基本分析は引き続き使用できます。