本繁體中文版使用機器翻譯，譯文僅供參考，若與英文版本牴觸，應以英文版本為準。

熱插拔用於叢集和 HA 流量的 I/O 模組 - AFF C30 和AFF C60

08/08/2025 貢獻者

PDF

叢集和 HA I/O 模組支援叢集和高可用性互連。當模組發生故障且您的儲存系統符合特定要求時，您可以在AFF C30 或AFF C60 儲存系統中熱插拔該模組。

要熱插拔模組，您需要確保您的儲存系統符合程式要求，準備好插槽 4 中的儲存系統和 I/O 模組，將故障模組熱插拔為等效模組，使替換模組聯機，將儲存系統恢復正常運行，然後將故障模組傳回NetApp。

關於這項工作

熱交換叢集和 HA I/O 模組意味著您不必執行手動接管；受損控制器（具有故障叢集和 HA I/O 模組的控制器）已自動接管健康的控制器。

當受損控制器接管健康控制器時，不發生中斷而恢復的唯一方法就是熱插拔模組。
熱插拔叢集和 HA I/O 模組時，將指令應用到正確的控制器至關重要：
- _受損控制器_是您正在熱交換叢集和 HA I/O 模組的控制器，它是接管了健康控制器的控制器。
- _健康控制器_是受損控制器的 HA 夥伴，也是被受損控制器接管的控制器。
如有需要，您可以開啟儲存系統位置（藍色） LED ，以協助實際定位受影響的儲存系統。使用 SSH 登入 BMC ，然後輸入 `system location-led on`命令。

儲存系統有三個位置 LED ：一個在操作員顯示面板上，一個在每個控制器上。位置LED會持續亮起30分鐘。

您可以輸入命令將其關閉 system location-led off。如果您不確定 LED 是否亮起或熄滅，可以輸入命令來檢查其狀態 system location-led show。

步驟 1：確保儲存系統符合程序要求

若要使用此流程，請確保您的儲存系統符合所有要求。

如果您的儲存系統不符合所有要求，則必須使用"更換 I/O 模組程序"。

您的儲存系統必須運作ONTAP 9.17.1 或更高版本。
發生故障的 I/O 模組必須是插槽 4 中的叢集和 HA I/O 模組，並且必須將其替換為等效的叢集和 HA I/O 模組。您無法變更 I/O 模組類型。
您的儲存系統配置必須只有一個位於插槽 4 的叢集和 HA I/O 模組，而不是兩個叢集和 HA I/O 模組。
您的儲存系統必須是雙節點（無交換器或有交換器）叢集配置。
叢集和 HA I/O 模組發生故障的控制器（受損控制器）必須已接管正常的配對控制器。如果 I/O 模組發生故障，接管應該會自動進行。

對於雙節點集群，儲存系統無法辨別哪個控制器的 I/O 模組發生故障，因此任一控制器都可能啟動接管。只有當 I/O 模組發生故障的控制器（受損控制器）接管了正常的控制器時，才支援叢集和 HA I/O 模組熱插拔過程。

您可以輸入以下命令來驗證受損控制器是否成功接管了健康控制器 `storage failover show`命令。

如果您不確定哪個控制器的 I/O 模組出現故障，請聯絡 "NetApp支援" 。
儲存系統中的所有其他元件都必須正常運作；否則，請先聯絡， "NetApp支援"再繼續執行此程序。

步驟 2：準備儲存系統和 I/O 模組插槽 4

準備儲存系統和 I/O 模組插槽 4，以便可以安全地移除故障叢集和 HA I/O 模組：

步驟

請妥善接地。
拔掉故障集群和 HA I/O 模組的電纜。

確保標記電纜，以便稍後在此過程中將它們重新連接到相同的連接埠。
如果啟用了「支援」功能、請叫用下列消息來禁止自動建立個案AutoSupport AutoSupport ：

system node autosupport invoke -node * -type all -message MAINT=<number of hours down>h

例如，以下AutoSupport訊息會抑制自動案例建立兩小時：

node2::> system node autosupport invoke -node * -type all -message MAINT=2h
停用自動交還：
1. 從受損控制器的控制台輸入以下命令：
  
  storage failover modify -node local -auto-giveback false
2. 進入 `y`當您看到提示「您是否要停用自動回饋？」時
準備移除插槽 4 中的故障叢集和 HA 模組，方法是將其從服務中移除並關閉電源：
1. 輸入以下命令：
  
  system controller slot module remove -node impaired_node_name -slot slot_number
2. 進入 `y`當您看到提示“您想繼續嗎？”
  
  例如，以下命令準備移除節點 2（受損控制器）上插槽 4 中的模組，並顯示可以安全移除的訊息：
```
node2::> system controller slot module remove -node node2 -slot 4

Warning: IO_2X_100GBE_NVDA_NIC module in slot 4 of node node2 will be powered off for removal.

Do you want to continue? {y|n}: y

The module has been successfully removed from service and powered off. It can now be safely removed.
```
驗證發生故障的叢集以及插槽 4 中的 HA 模組是否已關閉：

system controller slot module show

輸出應該顯示 `powered-off`在插槽 4 發生故障的模組的狀態列中。

步驟 3：更換故障的叢集和 HA I/O 模組

使用等效的 I/O 模組更換插槽 4 中發生故障的叢集和 HA I/O 模組：

步驟

如果您尚未接地、請正確接地。
從受損的控制器中移除發生故障的叢集和 HA I/O 模組：

逆時針旋轉 I/O 模組指旋螺絲以鬆開。

使用左側的連接埠標籤卡榫和右側的翼形螺絲將 I/O 模組從控制器中拉出。
將替換叢集和 HA I/O 模組安裝到插槽 4 中：
1. 將I/O模組與插槽邊緣對齊。
2. 輕輕地將 I/O 模組完全推入插槽，確保 I/O 模組正確插入連接器。
  
  您可以使用左側的卡榫和右側的翼形螺絲來推入 I/O 模組。
3. 順時針旋轉指旋螺絲以旋緊。
連接集群和 HA I/O 模組。

步驟 4：使替換叢集和 HA I/O 模組聯機

將插槽 4 中的替換叢集和 HA I/O 模組聯機，驗證模組連接埠是否已成功初始化，驗證插槽 4 是否已開啟電源，然後驗證模組是否連線並被識別。

步驟

使替換叢集和 HA I/O 模組連線：
1. 輸入以下命令：
  
  system controller slot module insert -node impaired_node_name -slot slot_name
2. 進入 `y`當您看到提示“您想繼續嗎？”
  
  輸出應確認叢集和 HA I/O 模組已成功上線（啟動、初始化並投入使用）。
  
  例如，以下命令使節點 2（受損控制器）上的插槽 4 聯機，並顯示該程序成功的訊息：
```
node2::> system controller slot module insert -node node2 -slot 4

Warning: IO_2X_100GBE_NVDA_NIC module in slot 4 of node node2 will be powered on and initialized.

Do you want to continue? {y|n}: `y`

The module has been successfully powered on, initialized and placed into service.
```
驗證叢集和 HA I/O 模組上的每個連接埠是否已成功初始化：

event log show -event *hotplug.init*

可能需要幾分鐘的時間才能完成所需的韌體更新和連接埠初始化。

輸出應顯示為群集和 HA I/O 模組上的每個連接埠記錄的 hotplug.init.success EMS 事件，其中包含 `hotplug.init.success:`在 `Event`柱子。

例如，以下輸出顯示叢集和 HA I/O 模組連接埠 e4b 和 e4a 的初始化成功：
```
node2::> event log show -event *hotplug.init*

Time                Node             Severity      Event

------------------- ---------------- ------------- ---------------------------

7/11/2025 16:04:06  node2      NOTICE        hotplug.init.success: Initialization of ports "e4b" in slot 4 succeeded

7/11/2025 16:04:06  node2      NOTICE        hotplug.init.success: Initialization of ports "e4a" in slot 4 succeeded

2 entries were displayed.
```
驗證 I/O 模組插槽 4 是否已通電並準備好運作：

system controller slot module show

輸出應顯示插槽 4 狀態為 `powered-on`因此可以為替換叢集和 HA I/O 模組的運作做好準備。

驗證替換叢集和 HA I/O 模組是否在線並被識別。

從受損控制器的控制台輸入命令：

system controller config show -node local -slot4

如果取代叢集和 HA I/O 模組成功連線並被識別，則輸出將顯示插槽 4 的 I/O 模組訊息，包括連接埠資訊。

例如，您應該會看到類似以下內容的輸出：

node2::> system controller config show -node local -slot 4

Node: node2
Sub- Device/
Slot slot Information
---- ---- -----------------------------
   4    - Dual 40G/100G Ethernet Controller CX6-DX
                  e4a MAC Address: d0:39:ea:59:69:74 (auto-100g_cr4-fd-up)
                          QSFP Vendor:        CISCO-BIZLINK
                          QSFP Part Number:   L45593-D218-D10
                          QSFP Serial Number: LCC2807GJFM-B
                  e4b MAC Address: d0:39:ea:59:69:75 (auto-100g_cr4-fd-up)
                          QSFP Vendor:        CISCO-BIZLINK
                          QSFP Part Number:   L45593-D218-D10
                          QSFP Serial Number: LCC2809G26F-A
                  Device Type:        CX6-DX PSID(NAP0000000027)
                  Firmware Version:   22.44.1700
                  Part Number:        111-05341
                  Hardware Revision:  20
                  Serial Number:      032403001370

步驟 5：恢復儲存系統正常運作

透過將儲存交還給運作狀況良好的控制器、恢復自動交還以及重新啟用AutoSupport自動案例創建，將儲存系統恢復正常運作。

步驟

透過歸還存儲，使健康控制器（被接管的控制器）恢復正常運作：

storage failover giveback -ofnode healthy_node_name
從受損控制器（接管正常控制器的控制器）的控制台恢復自動交還：

storage failover modify -node local -auto-giveback true
如果啟用 AutoSupport 、請還原自動建立案例：

system node autosupport invoke -node * -type all -message MAINT=end

步驟6：將故障零件歸還給NetApp

如套件隨附的RMA指示所述、將故障零件退回NetApp。如 "零件退貨與更換"需詳細資訊、請參閱頁面。