HA テイクオーバーが原因の動的なパフォーマンスイベントへの対処
Unified Manager を使用して、ハイアベイラビリティ( HA )ペアを構成するクラスタノードでの大量のデータ処理が原因のパフォーマンスイベントを調査できます。また、 Unified Manager を使用してノードの健全性を確認し、ノードで検出された最近の健全性イベントがパフォーマンスイベントに関与しているかどうかを判断できます。
作業を開始する前に
-
オペレータ、アプリケーション管理者、またはストレージ管理者のロールが必要です。
-
新規、確認済み、または廃止状態のパフォーマンスイベントが存在する必要があります。
手順
-
イベントの詳細情報を表示するには、イベントの詳細 * ページを表示します。
-
イベントに関連するワークロードおよび競合状態のクラスタコンポーネントを示す * 概要 * を確認します。
競合状態のクラスタコンポーネントによってレイテンシが影響を受けた Victim ボリュームが 1 つあります。パートナーノードからすべてのワークロードをテイクオーバーしてデータを処理中のノードが、競合状態のクラスタコンポーネントです。競合状態のコンポーネントの下にあるデータ処理アイコンが赤で強調表示され、イベント発生時にデータ処理を行っていたノードの名前がかっこ内に表示されます。
-
概要 * で、ボリュームの名前をクリックします。
ボリュームパフォーマンスエクスプローラページが表示されます。ページ上部のイベントタイムラインで、変更イベントアイコン() Unified Manager が HA テイクオーバーの開始を検出した時間。
-
HA テイクオーバーの変更イベントアイコンにカーソルを合わせます。 HA テイクオーバーの詳細がホバーテキストで表示されます。
レイテンシグラフに表示されたイベントから、 HA テイクオーバーと同じタイミングで発生した高レイテンシが原因で、選択したボリュームでパフォーマンスしきい値が超えたことがわかります。
-
新しいページにレイテンシグラフを表示するには、 * Zoom View * をクリックします。
-
View(表示)メニューで、* Cluster Components(クラスタコンポーネント)*を選択して、クラスタコンポーネントごとの合計レイテンシを表示します。
-
HA テイクオーバーの開始を示す変更イベントアイコンにマウスカーソルを合わせ、データ処理のレイテンシを合計レイテンシと比較します。
HA テイクオーバーの実行時に、データ処理ノードでワークロード需要が増加したためにデータ処理の急増が発生しています。CPU 利用率の増加によってレイテンシが増加し、イベントがトリガーされました。
-
障害が発生したノードを修正したら、 ONTAP System Manager を使用して HA ギブバックを実行します。ワークロードはパートナーノードから修復されたノードに移動します。
-
HA ギブバックが完了したら、 Unified Manager での次回の構成の検出のあと(約 15 分後)に、 HA テイクオーバーによってトリガーされたイベントとワークロードを「 * Event Management * 」インベントリページで確認します。
HA テイクオーバーによってトリガーされたイベントの状態が廃止となり、イベントが解決されたことを確認できるようになりました。データ処理コンポーネントでのレイテンシが低下し、その結果合計レイテンシも低下しています。選択したボリュームが現在データ処理に使用しているノードでイベントが解決されました。