AI Data Engineシステムとクラスタのステータスの表示
ストレージ管理者は、ONTAP System Managerを使用してダッシュボードにアクセスし、クラスタのステータスを表示できます。これは、AI Data Engine(AIDE)の管理タスクを開始する前、または運用上の問題が疑われる場合に実行すると良い最初のステップです。
-
AIDE ONTAP 関連の管理タスクを実行するには_ストレージ管理者_権限が必要です。
ダッシュボードからAIDEの健全性と容量を監視
-
クラスタ管理アドレスを使用して ONTAP System Manager に接続します:
https://$FQDN_OR_IP/ -
管理者アカウントでSign inします。
-
左側のナビゲーションペインで Dashboard を選択します。
-
*Health*タイルを確認します。
-
クラスタの全体的な健全性を確認します。
-
Data compute nodes の数とステータスを確認します。
-
アラートを確認してください:
-
DCN ノードの問題または接続の問題
-
エラーのあるワークスペースまたはデータコレクション(コレクションの公開エラーなど)
-
-
-
*容量*タイルを確認します:
-
クラスタの合計容量と使用容量を確認します。
-
AIDEクラスタの場合は、次の点を確認します:
-
AIDE メタデータとアプリケーションボリュームで使用される容量(メタデータStorage VM)
-
ワークスペースとデータコレクションで使用される容量(利用可能な場合)
-
-
-
必要に応じて、*ネットワーク*タイルと*パフォーマンス*タイルを確認し、AIDEワークロードに影響を与える可能性のあるクラスタ全体の動作(ネットワークの輻輳や保護ラグなど)を把握します。
データDCNの健全性と利用状況を表示
-
ナビゲーション ペインで、Cluster を選択し、次に Overview を選択します。
-
Data compute タブを選択します。
このタブには、クラスタ内のすべてのDCNノードが次の情報とともに表示されます:
-
ノード名、モデル、シリアル番号、ソフトウェアバージョン
-
ノード全体の状態
-
CPUとメモリの使用率
-
GPU 使用率(GPU が存在する場合)
-
ノードレベルのエラーインジケーター
-
-
DCNノードを展開して詳細ビューを開き、次の項目を確認します:
-
システムのCPUとメモリの使用状況
-
GPUメモリ使用量
-
報告されたハードウェアまたはサービスの問題
-
-
*クラスタ > 概要*ページで*配線*を選択して、DCNノードがクラスタ スイッチに正しくケーブル接続されているかどうかを確認し、ポートまたはリンクの問題を特定します。
ワークスペースとメタデータのフットプリントを監視する
-
ナビゲーション ペインで、Data engine を選択し、次に Workspaces を選択します。
-
ページ上部のワークスペースの概要を確認します:
-
ワークスペースの数とその状態(例:
Processing、Healthy、Error)。 -
ワークスペースの合計サイズ
-
すべてのワークスペースで消費されるクラスタ容量の割合。
-
-
ワークスペース グリッドを確認します:
-
重要なワークスペースが*正常*な状態を示していることを確認します。
-
ワークスペースのサイズと容量の消費量を確認します。
-
`Error`または長時間実行されている `Processing`状態のワークスペースを探します。
-
-
特定のワークスペースの詳細を確認するには、その名前を選択します:
-
*概要*タブで、次のことを確認します:
-
ワークスペースの状態とサイズ
-
含まれるデータコンテナ(ボリューム)とそのアイテム数
-
各データソースの最終更新時刻
-
-
*Data collections*タブで、次のことを確認します。
-
そのワークスペースに存在するデータコレクション(データコレクションは System Manager では読み取り専用です)
-
状態、サイズ、最終更新時刻
-
-
*ユーザー*タブで、どのAIDE Consoleユーザーがアクセス権を持っているかを確認します。
-
メタデータStorage VMとAIDE管理保護の監視
-
ナビゲーション ペインで、Cluster を選択し、次に Storage VMs を選択します。
-
サブタイプ `data-engine`を持つStorage VMを特定します(メタデータSVM):
-
メタデータ SVM がオンラインであることを確認します。
-
必要に応じて詳細を開いて、次の数を確認します:
-
ボリューム
-
タイプが `Data compute network`のLIF(DCN-ONTAP通信に使用)
-
-
-
ワークスペースで使用されるリモートデータソースの保護を表示するには、* Protection を選択してから Relationships *を選択します:
-
命名パターンによってAIDEが作成したSnapMirror関係を識別:
-
宛先ボリューム:
<source_volume_name>_dest_<source_volume_UUID> -
ポリシー:
<source_volume_name>_dest_aide_policy_<source_volume_UUID>
-
-
このビューを使用して、関係が正常であること、および遅延時間がワークスペースの更新の期待値と一致していることを確認します。
-
|
|
メタデータStorage VM、AIDEで作成されたSnapMirror関係、またはAIDE管理スナップショット(またはそのスケジュール)をONTAPで直接変更しないでください。変更するとAIDEバージョン履歴が破損する可能性があります。更新動作を調整する必要がある場合は"ワークスペースの更新設定を調整する"。 |
AIDE関連のアラートと通知を確認する
-
ナビゲーション ペインで、Events & Jobs を選択し、次に System alerts を選択します。
-
以下に関連するアクティブなアラートを確認します:
-
DCNノードの健全性または接続性
-
データエンジンのネットワークの問題
-
ワークスペースまたはデータ収集エラー
-
ONTAP と DCN クラスタ間のソフトウェアバージョンの不一致
-
-
必要に応じて、Cluster > Settings > Notification management で通知先(メール、syslog など)を設定し、AIDE 関連のアラートが運用ツールに転送されるようにします。