熱插拔用於叢集和 HA 流量的 I/O 模組 - ASA A20、 ASA A30 和ASA A50
叢集和 HA I/O 模組支援叢集和高可用性互連。當模組發生故障且您的儲存系統符合特定要求時,您可以在ASA A20、 ASA A30 或ASA A50 儲存系統中熱插拔該模組。
要熱插拔模組,您需要確保您的儲存系統符合程式要求,準備好插槽 4 中的儲存系統和 I/O 模組,將故障模組熱插拔為等效模組,使替換模組聯機,將儲存系統恢復正常運行,然後將故障模組傳回NetApp。
-
熱交換叢集和 HA I/O 模組意味著您不必執行手動接管;受損控制器(具有故障叢集和 HA I/O 模組的控制器)已自動接管健康的控制器。
當受損控制器接管健康控制器時,不發生中斷而恢復的唯一方法就是熱插拔模組。
-
熱插拔叢集和 HA I/O 模組時,將指令應用到正確的控制器至關重要:
-
_受損控制器_是您正在熱交換叢集和 HA I/O 模組的控制器,它是接管了健康控制器的控制器。
-
_健康控制器_是受損控制器的 HA 夥伴,也是被受損控制器接管的控制器。
-
-
如有需要,您可以開啟儲存系統位置(藍色) LED ,以協助實際定位受影響的儲存系統。使用 SSH 登入 BMC ,然後輸入 `system location-led on`命令。
儲存系統有三個位置 LED :一個在操作員顯示面板上,一個在每個控制器上。位置LED會持續亮起30分鐘。
您可以輸入命令將其關閉
system location-led off
。如果您不確定 LED 是否亮起或熄滅,可以輸入命令來檢查其狀態system location-led show
。
步驟 1:確保儲存系統符合程序要求
若要使用此流程,請確保您的儲存系統符合所有要求。
|
如果您的儲存系統不符合所有要求,則必須使用"更換 I/O 模組程序"。 |
-
您的儲存系統必須運作ONTAP 9.17.1 或更高版本。
-
發生故障的 I/O 模組必須是插槽 4 中的叢集和 HA I/O 模組,並且必須將其替換為等效的叢集和 HA I/O 模組。您無法變更 I/O 模組類型。
-
您的儲存系統配置必須只有一個位於插槽 4 的叢集和 HA I/O 模組,而不是兩個叢集和 HA I/O 模組。
-
您的儲存系統必須是雙節點(無交換器或有交換器)叢集配置。
-
叢集和 HA I/O 模組發生故障的控制器(受損控制器)必須已接管正常的配對控制器。如果 I/O 模組發生故障,接管應該會自動進行。
對於雙節點集群,儲存系統無法辨別哪個控制器的 I/O 模組發生故障,因此任一控制器都可能啟動接管。只有當 I/O 模組發生故障的控制器(受損控制器)接管了正常的控制器時,才支援叢集和 HA I/O 模組熱插拔過程。
您可以輸入以下命令來驗證受損控制器是否成功接管了健康控制器 `storage failover show`命令。
如果您不確定哪個控制器的 I/O 模組出現故障,請聯絡 "NetApp支援" 。
-
儲存系統中的所有其他元件都必須正常運作;否則,請先聯絡, "NetApp支援"再繼續執行此程序。
步驟 2:準備儲存系統和 I/O 模組插槽 4
準備儲存系統和 I/O 模組插槽 4,以便可以安全地移除故障叢集和 HA I/O 模組:
-
請妥善接地。
-
拔掉故障集群和 HA I/O 模組的電纜。
確保標記電纜,以便稍後在此過程中將它們重新連接到相同的連接埠。
-
如果啟用了「支援」功能、請叫用下列消息來禁止自動建立個案AutoSupport AutoSupport :
system node autosupport invoke -node * -type all -message MAINT=<number of hours down>h
例如,以下AutoSupport訊息會抑制自動案例建立兩小時:
node2::> system node autosupport invoke -node * -type all -message MAINT=2h
-
停用自動交還:
-
從受損控制器的控制台輸入以下命令:
storage failover modify -node local -auto-giveback false
-
進入 `y`當您看到提示「您是否要停用自動回饋?」時
-
-
準備移除插槽 4 中的故障叢集和 HA 模組,方法是將其從服務中移除並關閉電源:
-
輸入以下命令:
system controller slot module remove -node impaired_node_name -slot slot_number
-
進入 `y`當您看到提示“您想繼續嗎?”
例如,以下命令準備移除節點 2(受損控制器)上插槽 4 中的模組,並顯示可以安全移除的訊息:
node2::> system controller slot module remove -node node2 -slot 4 Warning: IO_2X_100GBE_NVDA_NIC module in slot 4 of node node2 will be powered off for removal. Do you want to continue? {y|n}: y The module has been successfully removed from service and powered off. It can now be safely removed.
-
-
驗證發生故障的叢集以及插槽 4 中的 HA 模組是否已關閉:
system controller slot module show
輸出應該顯示 `powered-off`在插槽 4 發生故障的模組的狀態列中。
步驟 3:更換故障的叢集和 HA I/O 模組
使用等效的 I/O 模組更換插槽 4 中發生故障的叢集和 HA I/O 模組:
-
如果您尚未接地、請正確接地。
-
從受損的控制器中移除發生故障的叢集和 HA I/O 模組:
逆時針旋轉 I/O 模組指旋螺絲以鬆開。
使用左側的連接埠標籤卡榫和右側的翼形螺絲將 I/O 模組從控制器中拉出。
-
將替換叢集和 HA I/O 模組安裝到插槽 4 中:
-
將I/O模組與插槽邊緣對齊。
-
輕輕地將 I/O 模組完全推入插槽,確保 I/O 模組正確插入連接器。
您可以使用左側的卡榫和右側的翼形螺絲來推入 I/O 模組。
-
順時針旋轉指旋螺絲以旋緊。
-
-
連接集群和 HA I/O 模組。
步驟 4:使替換叢集和 HA I/O 模組聯機
將插槽 4 中的替換叢集和 HA I/O 模組聯機,驗證模組連接埠是否已成功初始化,驗證插槽 4 是否已開啟電源,然後驗證模組是否連線並被識別。
-
使替換叢集和 HA I/O 模組連線:
-
輸入以下命令:
system controller slot module insert -node impaired_node_name -slot slot_name
-
進入 `y`當您看到提示“您想繼續嗎?”
輸出應確認叢集和 HA I/O 模組已成功上線(啟動、初始化並投入使用)。
例如,以下命令使節點 2(受損控制器)上的插槽 4 聯機,並顯示該程序成功的訊息:
node2::> system controller slot module insert -node node2 -slot 4 Warning: IO_2X_100GBE_NVDA_NIC module in slot 4 of node node2 will be powered on and initialized. Do you want to continue? {y|n}: `y` The module has been successfully powered on, initialized and placed into service.
-
-
驗證叢集和 HA I/O 模組上的每個連接埠是否已成功初始化:
event log show -event *hotplug.init*
可能需要幾分鐘的時間才能完成所需的韌體更新和連接埠初始化。 輸出應顯示為群集和 HA I/O 模組上的每個連接埠記錄的 hotplug.init.success EMS 事件,其中包含 `hotplug.init.success:`在 `Event`柱子。
例如,以下輸出顯示叢集和 HA I/O 模組連接埠 e4b 和 e4a 的初始化成功:
node2::> event log show -event *hotplug.init* Time Node Severity Event ------------------- ---------------- ------------- --------------------------- 7/11/2025 16:04:06 node2 NOTICE hotplug.init.success: Initialization of ports "e4b" in slot 4 succeeded 7/11/2025 16:04:06 node2 NOTICE hotplug.init.success: Initialization of ports "e4a" in slot 4 succeeded 2 entries were displayed.
-
驗證 I/O 模組插槽 4 是否已通電並準備好運作:
system controller slot module show
輸出應顯示插槽 4 狀態為 `powered-on`因此可以為替換叢集和 HA I/O 模組的運作做好準備。
-
驗證替換叢集和 HA I/O 模組是否在線並被識別。
從受損控制器的控制台輸入命令:
system controller config show -node local -slot4
如果取代叢集和 HA I/O 模組成功連線並被識別,則輸出將顯示插槽 4 的 I/O 模組訊息,包括連接埠資訊。
例如,您應該會看到類似以下內容的輸出:
node2::> system controller config show -node local -slot 4 Node: node2 Sub- Device/ Slot slot Information ---- ---- ----------------------------- 4 - Dual 40G/100G Ethernet Controller CX6-DX e4a MAC Address: d0:39:ea:59:69:74 (auto-100g_cr4-fd-up) QSFP Vendor: CISCO-BIZLINK QSFP Part Number: L45593-D218-D10 QSFP Serial Number: LCC2807GJFM-B e4b MAC Address: d0:39:ea:59:69:75 (auto-100g_cr4-fd-up) QSFP Vendor: CISCO-BIZLINK QSFP Part Number: L45593-D218-D10 QSFP Serial Number: LCC2809G26F-A Device Type: CX6-DX PSID(NAP0000000027) Firmware Version: 22.44.1700 Part Number: 111-05341 Hardware Revision: 20 Serial Number: 032403001370
步驟 5:恢復儲存系統正常運作
透過將儲存交還給運作狀況良好的控制器、恢復自動交還以及重新啟用AutoSupport自動案例創建,將儲存系統恢復正常運作。
-
透過歸還存儲,使健康控制器(被接管的控制器)恢復正常運作:
storage failover giveback -ofnode healthy_node_name
-
從受損控制器(接管正常控制器的控制器)的控制台恢復自動交還:
storage failover modify -node local -auto-giveback true
-
如果啟用 AutoSupport 、請還原自動建立案例:
system node autosupport invoke -node * -type all -message MAINT=end
步驟6:將故障零件歸還給NetApp
如套件隨附的RMA指示所述、將故障零件退回NetApp。如 "零件退貨與更換"需詳細資訊、請參閱頁面。