クラスタおよびHAトラフィックに使用されるI/Oモジュールをホットスワップ - AFF C30およびAFF C60
クラスタおよびHA I/Oモジュールは、クラスタリングと高可用性のための相互接続をサポートしています。モジュールに障害が発生した場合、ストレージシステムが特定の要件を満たしていれば、 AFF C30またはAFF C60ストレージシステム内のモジュールをホットスワップできます。
モジュールをホットスワップするには、ストレージ システムが手順の要件を満たしていることを確認し、ストレージ システムとスロット 4 の I/O モジュールを準備し、障害の発生したモジュールを同等のモジュールとホットスワップし、交換用モジュールをオンラインにして、ストレージ システムを通常の動作に復元し、障害の発生したモジュールをNetAppに返却します。
-
クラスターと HA I/O モジュールをホットスワップすると、手動で引き継ぎを実行する必要がなくなります。障害のあるコントローラー (障害が発生したクラスターと HA I/O モジュールがあるコントローラー) が、正常なコントローラーを自動的に引き継ぎます。
障害のあるコントローラーが正常なコントローラーを引き継いだ場合、停止せずに回復する唯一の方法は、モジュールをホットスワップすることです。
-
クラスターと HA I/O モジュールをホットスワップする場合は、正しいコントローラーにコマンドを適用することが重要です。
-
障害のあるコントローラー は、クラスターと HA I/O モジュールをホットスワップしているコントローラーであり、正常なコントローラーを引き継いだコントローラーです。
-
正常なコントローラ は、障害のあるコントローラの HA パートナーであり、障害のあるコントローラによって引き継がれたコントローラです。
-
-
影響を受けるストレージシステムの物理的な位置を特定するために、必要に応じてストレージシステムのロケーション(青色の)LEDを点灯できます。SSHを使用してBMCにログインし、コマンドを入力し `system location-led on`ます。
ストレージシステムにはロケーションLEDが3つあります。1つはオペレータ用ディスプレイパネルに、もう1つは各コントローラにあります。ロケーションLEDは30分間点灯したままになります。
無効にするには、コマンドを入力し
system location-led off`ます。LEDが点灯しているか消灯しているかが不明な場合は、コマンドを入力してLEDの状態を確認できます `system location-led show
。
ステップ1: ストレージシステムが手順の要件を満たしていることを確認する
この手順を使用するには、ストレージ システムがすべての要件を満たしていることを確認してください。
|
ストレージシステムがすべての要件を満たしていない場合は、"I/Oモジュールの交換手順" 。 |
-
ストレージ システムでONTAP 9.17.1以降が実行されている必要があります。
-
障害が発生した I/O モジュールは、スロット 4 のクラスタおよび HA I/O モジュールである必要があり、同等のクラスタおよび HA I/O モジュールに交換する必要があります。/Oモジュールのタイプを変更することはできません。
-
ストレージ システム構成では、スロット 4 にクラスタと HA I/O モジュールが 2 つではなく、クラスタと HA I/O モジュールが 1 つだけ配置されている必要があります。
-
ストレージ システムは、2 ノード (スイッチレスまたはスイッチ) のクラスター構成である必要があります。
-
障害が発生したクラスタとHA I/Oモジュールを持つコントローラ(障害コントローラ)は、正常なパートナーコントローラを既に引き継いでいる必要があります。I/Oモジュールに障害が発生した場合、引き継ぎは自動的に実行されるはずです。
2ノードクラスタの場合、ストレージシステムはどのコントローラに障害が発生したI/Oモジュールがあるかを判別できないため、どちらかのコントローラがテイクオーバーを開始する可能性があります。クラスタとHA I/Oモジュールのホットスワップ手順は、障害が発生したI/Oモジュールを持つコントローラ(障害コントローラ)が正常なコントローラを引き継いだ場合にのみサポートされます。
障害のあるコントローラが正常なコントローラを正常に引き継いだかどうかを確認するには、 `storage failover show`指示。
故障したI/Oモジュールがどのコントローラにあるのか分からない場合は、 "ネットアップサポート" 。
-
ストレージシステムの他のすべてのコンポーネントが正常に動作している必要があります。正常に動作していない場合は、この手順を続行する前にににお問い合わせください "ネットアップサポート"。
ステップ2: ストレージシステムとI/Oモジュールスロット4を準備する
障害が発生したクラスターと HA I/O モジュールを安全に取り外せるように、ストレージ システムと I/O モジュール スロット 4 を準備します。
-
自身の適切な接地対策を行います
-
障害が発生したクラスターと HA I/O モジュールからケーブルを外します。
この手順の後半でケーブルを同じポートに再接続できるように、ケーブルに必ずラベルを付けてください。
-
AutoSupportが有効になっている場合は、AutoSupportメッセージを呼び出してケースの自動作成を停止します。
system node autosupport invoke -node * -type all -message MAINT=<number of hours down>h
たとえば、次のAutoSupportメッセージは、自動ケース作成を 2 時間抑制します。
node2::> system node autosupport invoke -node * -type all -message MAINT=2h
-
自動ギブバックを無効にする:
-
障害のあるコントローラのコンソールから次のコマンドを入力します。
storage failover modify -node local -auto-giveback false
-
入力
y
「自動ギブバックを無効にしますか?」というプロンプトが表示されたら、
-
-
スロット 4 の障害が発生したクラスタと HA モジュールをサービスから削除し、電源をオフにして、取り外す準備をします。
-
次のコマンドを入力します。
system controller slot module remove -node impaired_node_name -slot slot_number
-
入力
y
「続行しますか?」というプロンプトが表示されたらたとえば、次のコマンドは、ノード 2 (障害のあるコントローラ) のスロット 4 にあるモジュールを削除する準備を行い、安全に削除できることを示すメッセージを表示します。
node2::> system controller slot module remove -node node2 -slot 4 Warning: IO_2X_100GBE_NVDA_NIC module in slot 4 of node node2 will be powered off for removal. Do you want to continue? {y|n}: y The module has been successfully removed from service and powered off. It can now be safely removed.
-
-
障害が発生したクラスタとスロット 4 の HA モジュールの電源がオフになっていることを確認します。
system controller slot module show
出力には次のように表示されるはずです `powered-off`スロット 4 の障害が発生したモジュールのステータス列に表示されます。
ステップ3: 障害が発生したクラスタとHA I/Oモジュールを交換する
スロット 4 の障害が発生したクラスターと HA I/O モジュールを同等の I/O モジュールに交換します。
-
接地対策がまだの場合は、自身で適切に実施します。
-
障害が発生したクラスターと HA I/O モジュールを障害のあるコントローラーから削除します。
I/Oモジュールの取り付けネジを反時計回りに回して緩めます。
左側のポート ラベル タブと右側のつまみネジを使用して、I/O モジュールをコントローラーから引き出します。
-
交換用クラスターと HA I/O モジュールをスロット 4 にインストールします。
-
I/O モジュールをスロットの端に合わせます。
-
I/O モジュールをゆっくりとスロットの奥まで押し込み、I/O モジュールがコネクタに正しく装着されていることを確認します。
左側のタブと右側のつまみネジを使用して、I/O モジュールを押し込むことができます。
-
蝶ネジを時計回りに回して締めます。
-
-
クラスターと HA I/O モジュールをケーブル接続します。
ステップ4: 交換用クラスタとHA I/Oモジュールをオンラインにする
交換用クラスターとスロット 4 の HA I/O モジュールをオンラインにして、モジュール ポートが正常に初期化されていることを確認し、スロット 4 の電源がオンになっていることを確認し、モジュールがオンラインで認識されていることを確認します。
-
交換用クラスターと HA I/O モジュールをオンラインにします。
-
次のコマンドを入力します。
system controller slot module insert -node impaired_node_name -slot slot_name
-
入力
y
「続行しますか?」というプロンプトが表示されたら、出力により、クラスターと HA I/O モジュールが正常にオンラインになったこと (電源がオンになり、初期化され、サービスが開始されたこと) が確認されます。
たとえば、次のコマンドは、ノード 2 (障害のあるコントローラ) のスロット 4 をオンラインにし、プロセスが成功したことを示すメッセージを表示します。
node2::> system controller slot module insert -node node2 -slot 4 Warning: IO_2X_100GBE_NVDA_NIC module in slot 4 of node node2 will be powered on and initialized. Do you want to continue? {y|n}: `y` The module has been successfully powered on, initialized and placed into service.
-
-
クラスタと HA I/O モジュールの各ポートが正常に初期化されたことを確認します。
event log show -event *hotplug.init*
必要なファームウェアの更新とポートの初期化には数分かかる場合があります。 出力には、クラスタとHA I/Oモジュールの各ポートに記録されたhotplug.init.success EMSイベントが表示されます。 `hotplug.init.success:`の中で `Event`カラム。
たとえば、次の出力は、クラスタと HA I/O モジュール ポート e4b および e4a の初期化が成功したことを示しています。
node2::> event log show -event *hotplug.init* Time Node Severity Event ------------------- ---------------- ------------- --------------------------- 7/11/2025 16:04:06 node2 NOTICE hotplug.init.success: Initialization of ports "e4b" in slot 4 succeeded 7/11/2025 16:04:06 node2 NOTICE hotplug.init.success: Initialization of ports "e4a" in slot 4 succeeded 2 entries were displayed.
-
I/O モジュール スロット 4 の電源がオンになっていて、操作の準備ができていることを確認します。
system controller slot module show
出力にはスロット4のステータスが次のように表示されます。 `powered-on`したがって、交換用クラスターと HA I/O モジュールの操作準備が整います。
-
交換用クラスターと HA I/O モジュールがオンラインで認識されていることを確認します。
障害のあるコントローラのコンソールから次のコマンドを入力します。
system controller config show -node local -slot4
交換用クラスターと HA I/O モジュールが正常にオンラインになり、認識された場合、出力にはスロット 4 のポート情報を含む I/O モジュール情報が表示されます。
たとえば、次のような出力が表示されます。
node2::> system controller config show -node local -slot 4 Node: node2 Sub- Device/ Slot slot Information ---- ---- ----------------------------- 4 - Dual 40G/100G Ethernet Controller CX6-DX e4a MAC Address: d0:39:ea:59:69:74 (auto-100g_cr4-fd-up) QSFP Vendor: CISCO-BIZLINK QSFP Part Number: L45593-D218-D10 QSFP Serial Number: LCC2807GJFM-B e4b MAC Address: d0:39:ea:59:69:75 (auto-100g_cr4-fd-up) QSFP Vendor: CISCO-BIZLINK QSFP Part Number: L45593-D218-D10 QSFP Serial Number: LCC2809G26F-A Device Type: CX6-DX PSID(NAP0000000027) Firmware Version: 22.44.1700 Part Number: 111-05341 Hardware Revision: 20 Serial Number: 032403001370
ステップ5: ストレージシステムを通常の動作に復元する
ストレージを正常なコントローラに戻し、自動ギブバックを復元し、 AutoSupport の自動ケース作成を再度有効にして、ストレージ システムを通常の動作に戻します。
-
ストレージを戻して、正常なコントローラ (引き継がれたコントローラ) を通常の動作に戻します。
storage failover giveback -ofnode healthy_node_name
-
障害のあるコントローラ (正常なコントローラを引き継いだコントローラ) のコンソールから自動ギブバックを復元します。
storage failover modify -node local -auto-giveback true
-
AutoSupportが有効になっている場合は、ケースの自動作成をリストアします。
system node autosupport invoke -node * -type all -message MAINT=end
手順 6 :障害が発生したパーツをネットアップに返却する
障害が発生したパーツは、キットに付属のRMA指示書に従ってNetAppに返却してください。 "パーツの返品と交換"詳細については、ページを参照してください。