HAテイクオーバーが原因の動的なパフォーマンス イベントへの対処

Unified Managerを使用して、高可用性(HA)ペアを構成するクラスタ ノードでの大量のデータ処理が原因のパフォーマンス イベントを調査できます。また、Unified Managerを使用してノードの健全性を確認し、ノードで検出された最近の健全性イベントがパフォーマンス イベントに関与しているかどうかを判断できます。

開始する前に

手順

  1. [イベントの詳細]ページを表示してイベントに関する情報を確認します。
  2. 説明に表示されているイベントに関連するワークロードおよび競合状態のクラスタ コンポーネントの説明を確認します。
    競合状態のクラスタ コンポーネントによってレイテンシが影響を受けたVictimボリュームが1つあります。パートナー ノードからすべてのワークロードをテイクオーバーしてデータを処理中のノードが、競合状態のクラスタ コンポーネントです。[競合しているコンポーネント]の下に[データ処理]アイコンが赤で強調表示され、イベント発生時にデータを処理していたノードの名前がかっこ内に表示されます。
  3. 説明で、ボリュームの名前をクリックします。
    ボリュームの[パフォーマンス エクスプローラ]ページが表示されます。ページの上部のイベントタイムラインで、変更イベントのアイコン(変更イベント アイコン)はUnified ManagerがHAテイクオーバーの開始を検出した時間を示しています。
  4. HAテイクオーバーの変更イベント アイコンにカーソルを合わせます。HAテイクオーバーの詳細がホバー テキストで表示されます。
    [レイテンシ]グラフに表示されたイベントから、HAテイクオーバーと同じタイミングで発生した高レイテンシが原因で、選択したボリュームでパフォーマンスしきい値が超えたことがわかります。
  5. [ズーム ビュー]をクリックして、新しいページにレイテンシ グラフを表示します。
  6. [表示]メニューで[クラスタ コンポーネント]を選択して、クラスタ コンポーネントごとの合計レイテンシを表示します。
  7. HAテイクオーバーの開始を示す変更イベント アイコンにマウス カーソルを合わせ、データ処理のレイテンシを合計レイテンシと比較します。
    HAテイクオーバーの実行時に、データ処理ノードでワークロード需要が増加したためにデータ処理のレイテンシが急増しています。CPU利用率の増加によってレイテンシが増加し、イベントがトリガーされました。
  8. 障害が発生したノードを修復したあと、ONTAP System Managerを使用してHAギブバックを実行します。ワークロードはパートナー ノードから修復されたノードに移動します。
  9. HAギブバックが完了したら、Unified Managerでの次回の構成の検出のあと(約15分後)に、HAテイクオーバーによってトリガーされたイベントとワークロードを[イベント管理]インベントリ ページで確認します。
    HAテイクオーバーによってトリガーされたイベントの状態が廃止になり、イベントが解決されたことを確認できます。データ処理コンポーネントでのレイテンシが低下し、その結果合計レイテンシも低下しています。選択したボリュームが現在データ処理に使用しているノードでイベントが解決されました。