日本語は機械翻訳による参考訳です。内容に矛盾や不一致があった場合には、英語の内容が優先されます。

Workload Factory for EDAにおけるレイテンシ監視について学ぶ

07/16/2026 共同作成者

Workload Factory for EDA のレイテンシ監視は、FSx for ONTAP ボリュームのパフォーマンス低下を見つけて修正するのに役立ちます。CloudWatch メトリクスを使用して読み取りと書き込みのレイテンシを追跡し、データを自動的に分析してパフォーマンス問題の原因特定を支援します。

レイテンシ監視の仕組み

レイテンシ分析は、お客様の AWS アカウントに接続されているすべての FSx for ONTAP ボリュームの読み取りおよび書き込みアクティビティに関する CloudWatch メトリクスを収集します。パフォーマンスの問題を早期に検出するために、これらのメトリクスを定義された制限値と継続的に照合します。

レイテンシが上昇した場合、Workload Factory は ONTAP QoS 遅延メトリクスを自動的に確認し、速度低下の主な原因を特定します。データやクラスタコンポーネントに関わるより複雑な問題については、オプションの AI 分析を実行することで、考えられる根本原因を特定し、影響を受けるクライアントを識別し、問題を解決するための手順を提案できます。

アラート生成

アラートは、選択された時間範囲全体にわたって以下の条件が満たされた場合にのみトリガーされます。すなわち、レイテンシがしきい値を超え、かつIOPSがしきい値を超え続ける場合です。両方の条件を必須とすることで、システムが実際のワークロードを処理している間に高いレイテンシが発生した場合にのみアラートが発生するようになり、誤報を減らすことができます。

以下の項目について個別のしきい値を設定できます：

読み取り操作
書き込み操作
警告の重大度
重大度

検出されたすべてのイベントは、レイテンシイベントテーブルに表示されます。通知が設定されている場合は、影響を受けるボリュームの詳細を記載したメールまたは Amazon SNS メッセージも受信します。通知を受け取る頻度は、ファイルシステムごとに毎日、または 20 分ごとに設定できます。

アラートについて

アラートがどのようにトリガーされるかを理解することで、適切なしきい値を設定し、結果を解釈するのに役立ちます。

収集されたメトリック

システムは各ボリュームについて次のCloudWatchメトリックを収集します：

読み取りレイテンシしきい値：1000 * m2/(m1+0.000001)として計算されます。ここで、m1 = DataReadOperations、m2 = DataReadOperationTime
書き込みレイテンシしきい値：1000 * m2/(m1+0.000001)として計算されます。ここで、m1 = DataWriteOperations、m2 = DataWriteOperationTime

アラートのトリガー条件

次の条件がすべて満たされると、アラートがトリガーされます：

操作タイプ（読み取りまたは書き込み）のレイテンシしきい値を超えています。
操作タイプの IOPS しきい値を超えています。
両方の条件は、構成された時間範囲内のすべてのデータポイントに対して持続します。

たとえば、デフォルトの警告しきい値では、読み取りレイテンシが 6 ms を超え、かつ 10 分間にすべてのデータポイントの読み取り IOPS が 100 ops/sec を超えた場合にのみ読み取りアラートがトリガーされます。

イベントの重大度

警告イベント：注意が必要な可能性のあるレイテンシの上昇を示します
重大なイベント：直ちに調査が必要な深刻なレイテンシを示します

レイテンシ分析

Workload Factoryは、レイテンシの問題のトラブルシューティングに役立つ2つのレベルの分析を提供します。

基本分析

レイテンシイベントが発生すると、Workload Factory は自動的に基本的な分析を実行して原因を特定します。ONTAP QoS 遅延センターメトリクスを使用して、FlexCache、容量プール、QoS 制限、ディスク、データ、クラスタ、またはその他のサブシステムなど、速度低下の原因となっているコンポーネントを確認します。これにより、手動による調査を必要とせずに、レイテンシの原因を迅速に特定できます。

コンポーネントの内訳は、リンクが FSx for ONTAP ファイルシステムに関連付けられている場合にのみ表示できます。リンクが存在しない場合でも、レイテンシ、IOPS、およびスループットのグラフを表示できます。

ONTAP QoS 分析と CloudWatch のレイテンシ値は、データの収集方法が異なるため、若干の違いが生じる場合があります。基本的な分析では、ONTAP データを使用して根本原因を特定します。

AI分析

基本的な分析によって遅延の原因を特定できる場合もありますが、データやクラスタコンポーネントが関わるより複雑な状況では、より詳細な調査が必要となることが多いです。AI分析は、過負荷状態のボリューム、不適切な設定、容量追加の必要性など、基本的な分析では見落とされる可能性のある問題を発見することで、より詳細なトラブルシューティングを可能にします。

AI分析を実行すると、システムは以下を提供します：

潜在的な根本原因：遅延問題の原因に関する詳細な説明
影響を受けるクライアント：レイテンシの影響を受けるEC2インスタンス名のリスト
潜在的な修復手順：問題を解決するための2つ以上の具体的なアクション

AI分析には、Workload Factoryの設定にAmazon BedrockモデルのARNが必要です。Bedrockが設定されていない場合でも、レイテンシ監視と基本的な自動分析は利用できます。