Skip to main content
本繁體中文版使用機器翻譯,譯文僅供參考,若與英文版本牴觸,應以英文版本為準。

熱插拔 I/O 模組 - AFF C80

貢獻者 dougthomp

如果 AFF C80 儲存系統中的乙太網路 I/O 模組發生故障,您可以熱插拔該模組,前提是您的儲存系統符合所有 ONTAP 版本要求。

要熱插拔 I/O 模組,請確保您的儲存系統運行的是 ONTAP 9.18.1 GA 或更高版本,準備好您的儲存系統和 I/O 模組,熱插拔故障模組,使替換模組聯機,將儲存系統恢復正常運行,然後將故障模組退回 NetApp。

關於這項工作
  • 更換故障的 I/O 模組之前,無需執行手動接管操作。

  • 在熱插拔過程中,將命令套用至正確的控制器和 I/O 插槽:

    • 受損控制器 是指您要更換 I/O 模組的控制器。

    • _健康控制器_是受損控制器的 HA 夥伴。

  • 您可以開啟儲存系統位置(藍色)LED 指示燈,以便於快速定位受影響的儲存系統。使用 SSH 登入 BMC 並輸入 `system location-led on`命令。

    此儲存系統包含三個位置 LED:一個位於操作員顯示面板上,另外兩個分別位於兩個控制器上。LED 會持續亮起 30 分鐘。

    您可以輸入命令將其關閉 system location-led off。如果您不確定 LED 是否亮起或熄滅,可以輸入命令來檢查其狀態 system location-led show

步驟 1:確保儲存系統符合程序要求

若要使用此程序,您的儲存系統必須執行 ONTAP 9.18.1 GA 或更新版本,且您的儲存系統必須符合所有要求。

註 如果您的儲存系統運作的不是 ONTAP 9.18.1 GA 或更高版本,則無法使用此程序,您必須使用 "更換 I/O 模組程序"
  • 您正在對任意插槽中的乙太網路 I/O 模組進行熱插拔,該插槽可以包含用於叢集、HA 和用戶端的任意連接埠組合,並且需要使用功能相同的 I/O 模組。您無法變更 I/O 模組類型。

    乙太網路 I/O 模組,其連接埠用於儲存或 MetroCluster 不支援熱插拔。

  • 您的儲存系統(無交換器或有交換器叢集組態)可以有任何數量的節點,以供您的儲存系統支援。

  • 叢集中的所有節點都必須執行相同的 ONTAP 版本(ONTAP 9.18.1GA 或更新版本),或執行相同 ONTAP 版本的不同修補程式層級。

    如果叢集中的節點執行不同的 ONTAP 版本,則該叢集被視為混合版本叢集,不支援熱插拔 I/O 模組。

  • 儲存系統中的控制器可能處於下列其中一種狀態:

    • 兩個控制器都可以啟動並執行 I/O(提供資料)。

    • 如果接管是由故障的 I/O 模組引起的,且節點在其他方面運作正常,則任一控制器都可以處於接管狀態。

      在某些情況下,ONTAP 可以因為 I/O 模組故障而自動接管任一控制器。例如,如果故障的 I/O 模組包含所有叢集連接埠(該控制器上的所有叢集連結都中斷),ONTAP 會自動執行接管。

  • 儲存系統中的所有其他元件都必須正常運作;否則,請先聯絡, "NetApp支援"再繼續執行此程序。

步驟 2:準備儲存系統和 I/O 模組插槽

準備好儲存系統和 I/O 模組插槽,以便安全地移除故障的 I/O 模組:

步驟
  1. 請妥善接地。

  2. 在電纜上貼上標籤以識別其來源,然後從目標 I/O 模組拔下所有電纜。

    註

    I/O 模組應該發生故障(連接埠應該處於鏈路關閉狀態);但是,如果鏈路仍然處於連接狀態,並且包含最後一個正常運作的叢集連接埠,則拔下纜線會觸發自動接管。

    拔下纜線後請等待五分鐘,以確保任何接管或 LIF 容錯移轉完成後,再繼續執行此程序。

  3. 如果啟用了「支援」功能、請叫用下列消息來禁止自動建立個案AutoSupport AutoSupport :

    system node autosupport invoke -node * -type all -message MAINT=<number of hours down>h

    例如,以下AutoSupport訊息會抑制自動案例建立兩小時:

    node2::> system node autosupport invoke -node * -type all -message MAINT=2h

  4. 如果合作夥伴節點已接管,則停用自動返還功能:

    如果…​ 然後…​

    如果其中一方控制器自動接管了其合作夥伴控制器

    停用自動交還:

    1. 在接管其合作夥伴的控制器主控台中輸入下列命令:

      storage failover modify -node local -auto-giveback false

    2. 進入 `y`當您看到提示「您是否要停用自動回饋?」時

    兩個控制器均已啟動並運行 I/O (提供資料服務)

    前往下一步。

  5. 準備移除故障的 I/O 模組,方法是將其從服務中移除並關閉電源:

    1. 輸入以下命令:

      system controller slot module remove -node impaired_node_name -slot slot_number

    2. 進入 `y`當您看到提示“您想繼續嗎?”

      例如,以下命令準備移除節點 2(受損控制器)上插槽 7 中的故障模組,並顯示一則訊息,表示可以安全移除:

    node2::> system controller slot module remove -node node2 -slot 7
    
    Warning: IO_2X_100GBE_NVDA_NIC module in slot 7 of node node2 will be powered off for removal.
    
    Do you want to continue? {y|n}: y
    
    The module has been successfully removed from service and powered off. It can now be safely removed.
  6. 確認故障的 I/O 模組已關閉電源:

    system controller slot module show

    輸出結果應在故障模組及其插槽編號的 status`欄位中顯示 `powered-off

步驟 3:更換故障的 I/O 模組

以同等規格的 I/O 模組取代故障的 I/O 模組。

步驟
  1. 如果您尚未接地、請正確接地。

  2. 向下轉動纜線管理托盤、方法是拉動纜線管理托盤內部的按鈕、然後向下旋轉。

  3. 從控制器模組中卸下 I/O 模組:

    註 下圖展示如何拆卸水平和垂直 I/O 模組。通常情況下,您只需拆卸一個 I/O 模組。
    移除 I/O 模組

    編號 1

    CAM 鎖定按鈕

    1. 按下 CAM LATCH 按鈕。

    2. 將 CAM 栓鎖儘量遠離模組。

    3. 將手指連入凸輪桿開口處、然後將模組拉出控制器模組、即可將模組從控制器模組中移除。

      記錄 I/O 模組所在的插槽。

  4. 將I/O模組放在一邊。

  5. 將替換 I/O 模組安裝至目標插槽:

    1. 將I/O模組與插槽邊緣對齊。

    2. 將模組一路輕輕滑入控制器模組的插槽、然後將 CAM 栓鎖完全向上旋轉、將模組鎖定到位。

  6. 連接 I/O 模組纜線。

  7. 將纜線管理承載器旋轉至鎖定位置。

步驟 4:將替換的 I/O 模組上線

將替換的 I/O 模組上線、驗證 I/O 模組連接埠是否成功初始化、驗證插槽是否已開啟電源,然後驗證 I/O 模組是否已上線並被識別。

關於這項工作

更換 I/O 模組後,連接埠恢復正常狀態,LIF 將恢復到已更換的 I/O 模組。

步驟
  1. 將替換的 I/O 模組上線:

    1. 輸入以下命令:

      system controller slot module insert -node impaired_node_name -slot slot_number

    2. 進入 `y`當您看到提示“您想繼續嗎?”

      輸出結果應確認 I/O 模組已成功上線(已通電、已初始化、已投入使用)。

      例如,以下命令將節點 2 (故障控制器)上的插槽 7 聯機,並顯示一則訊息,表示該程序已成功:

    node2::> system controller slot module insert -node node2 -slot 7
    
    Warning: IO_2X_100GBE_NVDA_NIC module in slot 7 of node node2 will be powered on and initialized.
    
    Do you want to continue? {y|n}: `y`
    
    The module has been successfully powered on, initialized and placed into service.
  2. 驗證 I/O 模組上的每個連接埠是否已成功初始化:

    1. 從受損控制器的控制台輸入以下命令:

      event log show -event *hotplug.init*

      註 任何所需的韌體更新和連接埠初始化可能需要幾分鐘的時間。

      輸出應顯示一個或多個 hotplug.init.success EMS 事件,並在 Event`欄位中顯示 `hotplug.init.success:,表示 I/O 模組上的每個連接埠已成功初始化。

      例如,以下輸出顯示 I/O 連接埠 e7b 和 e7a 的初始化成功:

    node2::> event log show -event *hotplug.init*
    
    Time                Node             Severity      Event
    
    ------------------- ---------------- ------------- ---------------------------
    
    7/11/2025 16:04:06  node2      NOTICE        hotplug.init.success: Initialization of ports "e7b" in slot 7 succeeded
    
    7/11/2025 16:04:06  node2      NOTICE        hotplug.init.success: Initialization of ports "e7a" in slot 7 succeeded
    
    2 entries were displayed.
    1. 如果連接埠初始化失敗、請檢閱 EMS 記錄以瞭解後續步驟。

  3. 確認 I/O 模組插槽已通電並準備好運作:

    system controller slot module show

    輸出應顯示插槽狀態為 powered-on,因此 I/O 模組可以運作。

  4. 確認 I/O 模組已上線並已識別。

    從受損控制器的控制台輸入命令:

    system controller config show -node local -slot slot_number

    如果 I/O 模組成功上線並被識別,則輸出會顯示 I/O 模組資訊,包括插槽的連接埠資訊。

    例如,對於插槽 7 中的 I/O 模組,您應該會看到類似以下的輸出:

    node2::> system controller config show -node local -slot 7
    
    Node: node2
    Sub- Device/
    Slot slot Information
    ---- ---- -----------------------------
       7    - Dual 40G/100G Ethernet Controller CX6-DX
                      e7a MAC Address: d0:39:ea:59:69:74 (auto-100g_cr4-fd-up)
                              QSFP Vendor:        CISCO-BIZLINK
                              QSFP Part Number:   L45593-D218-D10
                              QSFP Serial Number: LCC2807GJFM-B
                      e7b MAC Address: d0:39:ea:59:69:75 (auto-100g_cr4-fd-up)
                              QSFP Vendor:        CISCO-BIZLINK
                              QSFP Part Number:   L45593-D218-D10
                              QSFP Serial Number: LCC2809G26F-A
                      Device Type:        CX6-DX PSID(NAP0000000027)
                      Firmware Version:   22.44.1700
                      Part Number:        111-05341
                      Hardware Revision:  20
                      Serial Number:      032403001370

步驟 5:恢復儲存系統正常運作

將儲存空間恢復到正常運作狀態,方法是:將儲存空間恢復給被接管的控制器(根據需要)、恢復自動恢復功能(根據需要)、驗證 LIF 是否在其主連接埠上,並重新啟用 AutoSupport 自動建立案例功能。

步驟
  1. 根據儲存系統執行的 ONTAP 版本和控制器狀態,視需要歸還儲存設備並還原被接管控制器的自動歸還功能:

    如果…​ 然後…​

    如果其中一方控制器自動接管了其合作夥伴控制器

    1. 透過歸還儲存設備,使被接管的控制器恢復正常運作:

      storage failover giveback -ofnode controller that was taken over_name

    2. 從被接管的控制器主控台還原自動恢復:

      storage failover modify -node local -auto-giveback true

    兩個控制器均已啟動並運行 I/O (提供資料服務)

    前往下一步。

  2. 驗證邏輯介面是否正在向其主節點和連接埠報告: network interface show -is-home false

    如果有任何生命被列為假、請將其還原至其主連接埠: network interface revert -vserver * -lif *

  3. 如果啟用 AutoSupport 、請還原自動建立案例:

    system node autosupport invoke -node * -type all -message MAINT=end

步驟6:將故障零件歸還給NetApp

如套件隨附的RMA指示所述、將故障零件退回NetApp。如 "零件退貨與更換"需詳細資訊、請參閱頁面。