ディスク障害が原因の動的なパフォーマンス イベントへの対処

Unified Managerを使用して、アグリゲートを過剰に消費しているワークロードが原因のパフォーマンス イベントを調査できます。また、Unified Managerを使用してアグリゲートの健全性を確認し、アグリゲートで検出された最近の健全性イベントがパフォーマンス イベントに関与しているかどうかを判断できます。

開始する前に

手順

  1. [イベントの詳細]ページを表示してイベントに関する情報を確認します。
  2. [説明]に表示されているイベントに関連するワークロードおよび競合状態のクラスタ コンポーネントの説明を確認します。
    競合状態のクラスタ コンポーネントによってレイテンシが影響を受けたVictimボリュームが複数あります。障害ディスクをスペア ディスクと交換するためにRAIDの再構築を実行中のアグリゲートが、競合状態のクラスタ コンポーネントです。[競合しているコンポーネント]の下にアグリゲート アイコンが赤で強調表示され、かっこ内にアグリゲートの名前が表示されます。
  3. [ワークロード利用率]グラフで、[Bully ワークロード]を選択します。
  4. グラフにカーソルを合わせると、コンポーネントに影響を与えている上位のBullyワークロードが表示されます。
    イベントの検出以降、最大利用率が最も高い上位のワークロードがグラフの最上位に表示されます。上位のワークロードの1つはシステム定義のワークロード「Disk Health」です。これはRAIDの再構築を示しています。再構築は、スペア ディスクを使用してアグリゲートを再構築する内部プロセスです。Disk Healthワークロードとこのアグリゲートの他のワークロードが組み合わされて、アグリゲートでの競合および関連するイベントを引き起こした可能性があります。
  5. Disk Healthワークロードのアクティビティがイベントの原因であることを確認したら、再構築が完了し、Unified Managerがイベントを分析してアグリゲートが引き続き競合状態にあるかを検出するまで約30分待ちます。
  6. Unified Managerで、手順2で記録したイベントIDを検索します。
    ディスク障害のイベントが[イベントの詳細]ページに表示されます。RAIDの再構築が完了したら、[状態]廃止になったことを確認します。これは、イベントが解決されたことを示します。
  7. [ワークロード利用率]グラフで、[Bully ワークロード]を選択して、アグリゲートのワークロードを最大利用率順に表示します。
  8. 上位のワークロードの[パフォーマンス / ボリュームの詳細]ページに移動します。
  9. [1 日]をクリックして、選択したボリュームの過去24時間(1日)のデータを表示します。
    [レイテンシ]グラフの赤のドット(Performance Managerのインシデント アイコン)は、ディスク障害イベントが発生したタイミングを示しています。
  10. [データ内訳の基準]を選択します。
  11. [コンポーネント]で、[ディスク利用率]を選択します。
  12. [送信]をクリックします。
    [ディスク利用率]グラフには、選択したワークロードからターゲット アグリゲートのディスクへのすべての読み取り要求と書き込み要求のグラフが表示されます。
  13. [ディスク利用率]グラフのデータを[レイテンシ]グラフのイベント発生時点のデータと比較します。
    [ディスク利用率]グラフでは、イベント発生時にRAIDの再構築プロセスが原因の多数の読み取り/書き込みアクティビティが表示されており、これが選択したボリュームのレイテンシ増加につながりました。イベント発生の数時間後には、読み取り / 書き込みとレイテンシの両方が減少し、アグリゲートの競合状態は解消しました。