ディスク障害が原因の動的なパフォーマンス イベントへの対処

Unified Managerを使用して、アグリゲートを過剰に消費しているワークロードが原因のパフォーマンス イベントを調査できます。また、Unified Managerを使用してアグリゲートの健全性を確認し、アグリゲートで検出された最近の健全性イベントがパフォーマンス イベントに関与しているかどうかを判断できます。

開始する前に

手順

  1. [イベントの詳細]ページを表示してイベントに関する情報を確認します。
  2. 説明に表示されているイベントに関連するワークロードおよび競合状態のクラスタ コンポーネントの説明を確認します。
    競合状態のクラスタ コンポーネントによってレイテンシが影響を受けたVictimボリュームが複数あります。障害ディスクをスペア ディスクと交換するためにRAIDの再構築を実行中のアグリゲートが、競合状態のクラスタ コンポーネントです。[競合しているコンポーネント]の下にアグリゲート アイコンが赤で強調表示され、かっこ内にアグリゲートの名前が表示されます。
  3. [ワークロード利用率]グラフで、[Bully ワークロード]を選択します。
  4. グラフにカーソルを合わせると、コンポーネントに影響を与えている上位のBullyワークロードが表示されます。
    イベントの検出以降、最大利用率が最も高い上位のワークロードがグラフの最上位に表示されます。上位のワークロードの1つはシステム定義のワークロード「Disk Health」です。これはRAIDの再構築を示しています。再構築は、スペア ディスクを使用してアグリゲートを再構築する内部プロセスです。Disk Healthワークロードとこのアグリゲートの他のワークロードが組み合わされて、アグリゲートでの競合および関連するイベントを引き起こした可能性があります。
  5. Disk Healthワークロードのアクティビティがイベントの原因であることを確認したら、再構築が完了し、Unified Managerがイベントを分析してアグリゲートが引き続き競合状態にあるかを検出するまで約30分待ちます。
  6. [イベントの詳細]をリフレッシュします。
    RAIDの再構築が完了したら、[状態]廃止になったことを確認します。これは、イベントが解決されたことを示します。
  7. [ワークロード利用率]グラフで、[Bully ワークロード]を選択して、アグリゲートのワークロードを最大利用率順に表示します。
  8. [推奨される操作]領域で、先頭にあるワークロードの[ワークロードを分析]ボタンをクリックします。
  9. [ワークロード分析]ページで、選択したボリュームの過去24時間(1日)のデータを表示するように期間を設定します。
    [イベント タイムライン]の赤のドット(Performance Managerのインシデント アイコン)は、ディスク障害イベントが発生したタイミングを示しています。
  10. [ノードとアグリゲートの利用率]グラフで、ノード統計の行を非表示にし、アグリゲートの行だけを表示します。
  11. このグラフのデータを[レイテンシ]グラフのイベント発生時点のデータと比較します。
    [アグリゲート利用率]では、イベント発生時にRAIDの再構築プロセスが原因の多数の読み取り / 書き込みアクティビティが表示されており、これが選択したボリュームのレイテンシ増加につながりました。イベント発生の数時間後には、読み取り / 書き込みとレイテンシの両方が減少し、アグリゲートの競合状態は解消しました。