熱插拔 I/O 模組 - AFF C80
如果 AFF C80 儲存系統中的乙太網路 I/O 模組發生故障,您可以熱插拔該模組,前提是您的儲存系統符合所有 ONTAP 版本要求。
要熱插拔 I/O 模組,請確保您的儲存系統運行的是 ONTAP 9.18.1 GA 或更高版本,準備好您的儲存系統和 I/O 模組,熱插拔故障模組,使替換模組聯機,將儲存系統恢復正常運行,然後將故障模組退回 NetApp。
-
更換故障的 I/O 模組之前,無需執行手動接管操作。
-
在熱插拔過程中,將命令套用至正確的控制器和 I/O 插槽:
-
受損控制器 是指您要更換 I/O 模組的控制器。
-
_健康控制器_是受損控制器的 HA 夥伴。
-
-
您可以開啟儲存系統位置(藍色)LED 指示燈,以便於快速定位受影響的儲存系統。使用 SSH 登入 BMC 並輸入 `system location-led on`命令。
此儲存系統包含三個位置 LED:一個位於操作員顯示面板上,另外兩個分別位於兩個控制器上。LED 會持續亮起 30 分鐘。
您可以輸入命令將其關閉
system location-led off。如果您不確定 LED 是否亮起或熄滅,可以輸入命令來檢查其狀態system location-led show。
步驟 1:確保儲存系統符合程序要求
若要使用此程序,您的儲存系統必須執行 ONTAP 9.18.1 GA 或更新版本,且您的儲存系統必須符合所有要求。
|
|
如果您的儲存系統運作的不是 ONTAP 9.18.1 GA 或更高版本,則無法使用此程序,您必須使用 "更換 I/O 模組程序"。 |
-
您正在對任意插槽中的乙太網路 I/O 模組進行熱插拔,該插槽可以包含用於叢集、HA 和用戶端的任意連接埠組合,並且需要使用功能相同的 I/O 模組。您無法變更 I/O 模組類型。
乙太網路 I/O 模組,其連接埠用於儲存或 MetroCluster 不支援熱插拔。
-
您的儲存系統(無交換器或有交換器叢集組態)可以有任何數量的節點,以供您的儲存系統支援。
-
叢集中的所有節點都必須執行相同的 ONTAP 版本(ONTAP 9.18.1GA 或更新版本),或執行相同 ONTAP 版本的不同修補程式層級。
如果叢集中的節點執行不同的 ONTAP 版本,則該叢集被視為混合版本叢集,不支援熱插拔 I/O 模組。
-
儲存系統中的控制器可能處於下列其中一種狀態:
-
兩個控制器都可以啟動並執行 I/O(提供資料)。
-
如果接管是由故障的 I/O 模組引起的,且節點在其他方面運作正常,則任一控制器都可以處於接管狀態。
在某些情況下,ONTAP 可以因為 I/O 模組故障而自動接管任一控制器。例如,如果故障的 I/O 模組包含所有叢集連接埠(該控制器上的所有叢集連結都中斷),ONTAP 會自動執行接管。
-
-
儲存系統中的所有其他元件都必須正常運作;否則,請先聯絡, "NetApp支援"再繼續執行此程序。
步驟 2:準備儲存系統和 I/O 模組插槽
準備好儲存系統和 I/O 模組插槽,以便安全地移除故障的 I/O 模組:
-
請妥善接地。
-
在電纜上貼上標籤以識別其來源,然後從目標 I/O 模組拔下所有電纜。
I/O 模組應該發生故障(連接埠應該處於鏈路關閉狀態);但是,如果鏈路仍然處於連接狀態,並且包含最後一個正常運作的叢集連接埠,則拔下纜線會觸發自動接管。
拔下纜線後請等待五分鐘,以確保任何接管或 LIF 容錯移轉完成後,再繼續執行此程序。
-
如果啟用了「支援」功能、請叫用下列消息來禁止自動建立個案AutoSupport AutoSupport :
system node autosupport invoke -node * -type all -message MAINT=<number of hours down>h例如,以下AutoSupport訊息會抑制自動案例建立兩小時:
node2::> system node autosupport invoke -node * -type all -message MAINT=2h -
如果合作夥伴節點已接管,則停用自動返還功能:
如果… 然後… 如果其中一方控制器自動接管了其合作夥伴控制器
停用自動交還:
-
在接管其合作夥伴的控制器主控台中輸入下列命令:
storage failover modify -node local -auto-giveback false -
進入 `y`當您看到提示「您是否要停用自動回饋?」時
兩個控制器均已啟動並運行 I/O (提供資料服務)
前往下一步。
-
-
準備移除故障的 I/O 模組,方法是將其從服務中移除並關閉電源:
-
輸入以下命令:
system controller slot module remove -node impaired_node_name -slot slot_number -
進入 `y`當您看到提示“您想繼續嗎?”
例如,以下命令準備移除節點 2(受損控制器)上插槽 7 中的故障模組,並顯示一則訊息,表示可以安全移除:
node2::> system controller slot module remove -node node2 -slot 7 Warning: IO_2X_100GBE_NVDA_NIC module in slot 7 of node node2 will be powered off for removal. Do you want to continue? {y|n}: y The module has been successfully removed from service and powered off. It can now be safely removed. -
-
確認故障的 I/O 模組已關閉電源:
system controller slot module show輸出結果應在故障模組及其插槽編號的
status`欄位中顯示 `powered-off。
步驟 3:更換故障的 I/O 模組
以同等規格的 I/O 模組取代故障的 I/O 模組。
-
如果您尚未接地、請正確接地。
-
向下轉動纜線管理托盤、方法是拉動纜線管理托盤內部的按鈕、然後向下旋轉。
-
從控制器模組中卸下 I/O 模組:
下圖展示如何拆卸水平和垂直 I/O 模組。通常情況下,您只需拆卸一個 I/O 模組。 
CAM 鎖定按鈕
-
按下 CAM LATCH 按鈕。
-
將 CAM 栓鎖儘量遠離模組。
-
將手指連入凸輪桿開口處、然後將模組拉出控制器模組、即可將模組從控制器模組中移除。
記錄 I/O 模組所在的插槽。
-
-
將I/O模組放在一邊。
-
將替換 I/O 模組安裝至目標插槽:
-
將I/O模組與插槽邊緣對齊。
-
將模組一路輕輕滑入控制器模組的插槽、然後將 CAM 栓鎖完全向上旋轉、將模組鎖定到位。
-
-
連接 I/O 模組纜線。
-
將纜線管理承載器旋轉至鎖定位置。
步驟 4:將替換的 I/O 模組上線
將替換的 I/O 模組上線、驗證 I/O 模組連接埠是否成功初始化、驗證插槽是否已開啟電源,然後驗證 I/O 模組是否已上線並被識別。
更換 I/O 模組後,連接埠恢復正常狀態,LIF 將恢復到已更換的 I/O 模組。
-
將替換的 I/O 模組上線:
-
輸入以下命令:
system controller slot module insert -node impaired_node_name -slot slot_number -
進入 `y`當您看到提示“您想繼續嗎?”
輸出結果應確認 I/O 模組已成功上線(已通電、已初始化、已投入使用)。
例如,以下命令將節點 2 (故障控制器)上的插槽 7 聯機,並顯示一則訊息,表示該程序已成功:
node2::> system controller slot module insert -node node2 -slot 7 Warning: IO_2X_100GBE_NVDA_NIC module in slot 7 of node node2 will be powered on and initialized. Do you want to continue? {y|n}: `y` The module has been successfully powered on, initialized and placed into service. -
-
驗證 I/O 模組上的每個連接埠是否已成功初始化:
-
從受損控制器的控制台輸入以下命令:
event log show -event *hotplug.init*任何所需的韌體更新和連接埠初始化可能需要幾分鐘的時間。 輸出應顯示一個或多個 hotplug.init.success EMS 事件,並在
Event`欄位中顯示 `hotplug.init.success:,表示 I/O 模組上的每個連接埠已成功初始化。例如,以下輸出顯示 I/O 連接埠 e7b 和 e7a 的初始化成功:
node2::> event log show -event *hotplug.init* Time Node Severity Event ------------------- ---------------- ------------- --------------------------- 7/11/2025 16:04:06 node2 NOTICE hotplug.init.success: Initialization of ports "e7b" in slot 7 succeeded 7/11/2025 16:04:06 node2 NOTICE hotplug.init.success: Initialization of ports "e7a" in slot 7 succeeded 2 entries were displayed.
-
如果連接埠初始化失敗、請檢閱 EMS 記錄以瞭解後續步驟。
-
-
確認 I/O 模組插槽已通電並準備好運作:
system controller slot module show輸出應顯示插槽狀態為
powered-on,因此 I/O 模組可以運作。 -
確認 I/O 模組已上線並已識別。
從受損控制器的控制台輸入命令:
system controller config show -node local -slot slot_number如果 I/O 模組成功上線並被識別,則輸出會顯示 I/O 模組資訊,包括插槽的連接埠資訊。
例如,對於插槽 7 中的 I/O 模組,您應該會看到類似以下的輸出:
node2::> system controller config show -node local -slot 7 Node: node2 Sub- Device/ Slot slot Information ---- ---- ----------------------------- 7 - Dual 40G/100G Ethernet Controller CX6-DX e7a MAC Address: d0:39:ea:59:69:74 (auto-100g_cr4-fd-up) QSFP Vendor: CISCO-BIZLINK QSFP Part Number: L45593-D218-D10 QSFP Serial Number: LCC2807GJFM-B e7b MAC Address: d0:39:ea:59:69:75 (auto-100g_cr4-fd-up) QSFP Vendor: CISCO-BIZLINK QSFP Part Number: L45593-D218-D10 QSFP Serial Number: LCC2809G26F-A Device Type: CX6-DX PSID(NAP0000000027) Firmware Version: 22.44.1700 Part Number: 111-05341 Hardware Revision: 20 Serial Number: 032403001370
步驟 5:恢復儲存系統正常運作
將儲存空間恢復到正常運作狀態,方法是:將儲存空間恢復給被接管的控制器(根據需要)、恢復自動恢復功能(根據需要)、驗證 LIF 是否在其主連接埠上,並重新啟用 AutoSupport 自動建立案例功能。
-
根據儲存系統執行的 ONTAP 版本和控制器狀態,視需要歸還儲存設備並還原被接管控制器的自動歸還功能:
如果… 然後… 如果其中一方控制器自動接管了其合作夥伴控制器
-
透過歸還儲存設備,使被接管的控制器恢復正常運作:
storage failover giveback -ofnode controller that was taken over_name -
從被接管的控制器主控台還原自動恢復:
storage failover modify -node local -auto-giveback true
兩個控制器均已啟動並運行 I/O (提供資料服務)
前往下一步。
-
-
驗證邏輯介面是否正在向其主節點和連接埠報告:
network interface show -is-home false如果有任何生命被列為假、請將其還原至其主連接埠:
network interface revert -vserver * -lif * -
如果啟用 AutoSupport 、請還原自動建立案例:
system node autosupport invoke -node * -type all -message MAINT=end
步驟6:將故障零件歸還給NetApp
如套件隨附的RMA指示所述、將故障零件退回NetApp。如 "零件退貨與更換"需詳細資訊、請參閱頁面。