Skip to main content
本繁體中文版使用機器翻譯,譯文僅供參考,若與英文版本牴觸,應以英文版本為準。

熱插拔用於叢集和 HA 流量的 I/O 模組 - AFF C30 和AFF C60

貢獻者 netapp-lisa

叢集和 HA I/O 模組支援叢集和高可用性互連。當模組發生故障且您的儲存系統符合特定要求時,您可以在AFF C30 或AFF C60 儲存系統中熱插拔該模組。

要熱插拔模組,您需要確保您的儲存系統符合程式要求,準備好插槽 4 中的儲存系統和 I/O 模組,將故障模組熱插拔為等效模組,使替換模組聯機,將儲存系統恢復正常運行,然後將故障模組傳回NetApp。

關於這項工作
  • 熱交換叢集和 HA I/O 模組意味著您不必執行手動接管;受損控制器(具有故障叢集和 HA I/O 模組的控制器)已自動接管健康的控制器。

    當受損控制器接管健康控制器時,不發生中斷而恢復的唯一方法就是熱插拔模組。

  • 熱插拔叢集和 HA I/O 模組時,將指令應用到正確的控制器至關重要:

    • _受損控制器_是您正在熱交換叢集和 HA I/O 模組的控制器,它是接管了健康控制器的控制器。

    • _健康控制器_是受損控制器的 HA 夥伴,也是被受損控制器接管的控制器。

  • 如有需要,您可以開啟儲存系統位置(藍色) LED ,以協助實際定位受影響的儲存系統。使用 SSH 登入 BMC ,然後輸入 `system location-led on`命令。

    儲存系統有三個位置 LED :一個在操作員顯示面板上,一個在每個控制器上。位置LED會持續亮起30分鐘。

    您可以輸入命令將其關閉 system location-led off。如果您不確定 LED 是否亮起或熄滅,可以輸入命令來檢查其狀態 system location-led show

步驟 1:確保儲存系統符合程序要求

若要使用此流程,請確保您的儲存系統符合所有要求。

註 如果您的儲存系統不符合所有要求,則必須使用"更換 I/O 模組程序"
  • 您的儲存系統必須運作ONTAP 9.17.1 或更高版本。

  • 發生故障的 I/O 模組必須是插槽 4 中的叢集和 HA I/O 模組,並且必須將其替換為等效的叢集和 HA I/O 模組。您無法變更 I/O 模組類型。

  • 您的儲存系統配置必須只有一個位於插槽 4 的叢集和 HA I/O 模組,而不是兩個叢集和 HA I/O 模組。

  • 您的儲存系統必須是雙節點(無交換器或有交換器)叢集配置。

  • 叢集和 HA I/O 模組發生故障的控制器(受損控制器)必須已接管正常的配對控制器。如果 I/O 模組發生故障,接管應該會自動進行。

    對於雙節點集群,儲存系統無法辨別哪個控制器的 I/O 模組發生故障,因此任一控制器都可能啟動接管。只有當 I/O 模組發生故障的控制器(受損控制器)接管了正常的控制器時,才支援叢集和 HA I/O 模組熱插拔過程。

    您可以輸入以下命令來驗證受損控制器是否成功接管了健康控制器 `storage failover show`命令。

    如果您不確定哪個控制器的 I/O 模組出現故障,請聯絡 "NetApp支援"

  • 儲存系統中的所有其他元件都必須正常運作;否則,請先聯絡, "NetApp支援"再繼續執行此程序。

步驟 2:準備儲存系統和 I/O 模組插槽 4

準備儲存系統和 I/O 模組插槽 4,以便可以安全地移除故障叢集和 HA I/O 模組:

步驟
  1. 請妥善接地。

  2. 拔掉故障集群和 HA I/O 模組的電纜。

    確保標記電纜,以便稍後在此過程中將它們重新連接到相同的連接埠。

  3. 如果啟用了「支援」功能、請叫用下列消息來禁止自動建立個案AutoSupport AutoSupport :

    system node autosupport invoke -node * -type all -message MAINT=<number of hours down>h

    例如,以下AutoSupport訊息會抑制自動案例建立兩小時:

    node2::> system node autosupport invoke -node * -type all -message MAINT=2h

  4. 停用自動交還:

    1. 從受損控制器的控制台輸入以下命令:

      storage failover modify -node local -auto-giveback false

    2. 進入 `y`當您看到提示「您是否要停用自動回饋?」時

  5. 準備移除插槽 4 中的故障叢集和 HA 模組,方法是將其從服務中移除並關閉電源:

    1. 輸入以下命令:

      system controller slot module remove -node impaired_node_name -slot slot_number

    2. 進入 `y`當您看到提示“您想繼續嗎?”

      例如,以下命令準備移除節點 2(受損控制器)上插槽 4 中的模組,並顯示可以安全移除的訊息:

    node2::> system controller slot module remove -node node2 -slot 4
    
    Warning: IO_2X_100GBE_NVDA_NIC module in slot 4 of node node2 will be powered off for removal.
    
    Do you want to continue? {y|n}: y
    
    The module has been successfully removed from service and powered off. It can now be safely removed.
  6. 驗證發生故障的叢集以及插槽 4 中的 HA 模組是否已關閉:

    system controller slot module show

    輸出應該顯示 `powered-off`在插槽 4 發生故障的模組的狀態列中。

步驟 3:更換故障的叢集和 HA I/O 模組

使用等效的 I/O 模組更換插槽 4 中發生故障的叢集和 HA I/O 模組:

步驟
  1. 如果您尚未接地、請正確接地。

  2. 從受損的控制器中移除發生故障的叢集和 HA I/O 模組:

    插槽 4 中的熱插拔群集和 HA I/O 模組
    編號 1

    逆時針旋轉 I/O 模組指旋螺絲以鬆開。

    編號 2

    使用左側的連接埠標籤卡榫和右側的翼形螺絲將 I/O 模組從控制器中拉出。

  3. 將替換叢集和 HA I/O 模組安裝到插槽 4 中:

    1. 將I/O模組與插槽邊緣對齊。

    2. 輕輕地將 I/O 模組完全推入插槽,確保 I/O 模組正確插入連接器。

      您可以使用左側的卡榫和右側的翼形螺絲來推入 I/O 模組。

    3. 順時針旋轉指旋螺絲以旋緊。

  4. 連接集群和 HA I/O 模組。

步驟 4:使替換叢集和 HA I/O 模組聯機

將插槽 4 中的替換叢集和 HA I/O 模組聯機,驗證模組連接埠是否已成功初始化,驗證插槽 4 是否已開啟電源,然後驗證模組是否連線並被識別。

步驟
  1. 使替換叢集和 HA I/O 模組連線:

    1. 輸入以下命令:

      system controller slot module insert -node impaired_node_name -slot slot_name

    2. 進入 `y`當您看到提示“您想繼續嗎?”

      輸出應確認叢集和 HA I/O 模組已成功上線(啟動、初始化並投入使用)。

      例如,以下命令使節點 2(受損控制器)上的插槽 4 聯機,並顯示該程序成功的訊息:

    node2::> system controller slot module insert -node node2 -slot 4
    
    Warning: IO_2X_100GBE_NVDA_NIC module in slot 4 of node node2 will be powered on and initialized.
    
    Do you want to continue? {y|n}: `y`
    
    The module has been successfully powered on, initialized and placed into service.
  2. 驗證叢集和 HA I/O 模組上的每個連接埠是否已成功初始化:

    event log show -event *hotplug.init*

    註 可能需要幾分鐘的時間才能完成所需的韌體更新和連接埠初始化。

    輸出應顯示為群集和 HA I/O 模組上的每個連接埠記錄的 hotplug.init.success EMS 事件,其中包含 `hotplug.init.success:`在 `Event`柱子。

    例如,以下輸出顯示叢集和 HA I/O 模組連接埠 e4b 和 e4a 的初始化成功:

    node2::> event log show -event *hotplug.init*
    
    Time                Node             Severity      Event
    
    ------------------- ---------------- ------------- ---------------------------
    
    7/11/2025 16:04:06  node2      NOTICE        hotplug.init.success: Initialization of ports "e4b" in slot 4 succeeded
    
    7/11/2025 16:04:06  node2      NOTICE        hotplug.init.success: Initialization of ports "e4a" in slot 4 succeeded
    
    2 entries were displayed.
  3. 驗證 I/O 模組插槽 4 是否已通電並準備好運作:

    system controller slot module show

    輸出應顯示插槽 4 狀態為 `powered-on`因此可以為替換叢集和 HA I/O 模組的運作做好準備。

  4. 驗證替換叢集和 HA I/O 模組是否在線並被識別。

    從受損控制器的控制台輸入命令:

    system controller config show -node local -slot4

    如果取代叢集和 HA I/O 模組成功連線並被識別,則輸出將顯示插槽 4 的 I/O 模組訊息,包括連接埠資訊。

    例如,您應該會看到類似以下內容的輸出:

    node2::> system controller config show -node local -slot 4
    
    Node: node2
    Sub- Device/
    Slot slot Information
    ---- ---- -----------------------------
       4    - Dual 40G/100G Ethernet Controller CX6-DX
                      e4a MAC Address: d0:39:ea:59:69:74 (auto-100g_cr4-fd-up)
                              QSFP Vendor:        CISCO-BIZLINK
                              QSFP Part Number:   L45593-D218-D10
                              QSFP Serial Number: LCC2807GJFM-B
                      e4b MAC Address: d0:39:ea:59:69:75 (auto-100g_cr4-fd-up)
                              QSFP Vendor:        CISCO-BIZLINK
                              QSFP Part Number:   L45593-D218-D10
                              QSFP Serial Number: LCC2809G26F-A
                      Device Type:        CX6-DX PSID(NAP0000000027)
                      Firmware Version:   22.44.1700
                      Part Number:        111-05341
                      Hardware Revision:  20
                      Serial Number:      032403001370

步驟 5:恢復儲存系統正常運作

透過將儲存交還給運作狀況良好的控制器、恢復自動交還以及重新啟用AutoSupport自動案例創建,將儲存系統恢復正常運作。

步驟
  1. 透過歸還存儲,使健康控制器(被接管的控制器)恢復正常運作:

    storage failover giveback -ofnode healthy_node_name

  2. 從受損控制器(接管正常控制器的控制器)的控制台恢復自動交還:

    storage failover modify -node local -auto-giveback true

  3. 如果啟用 AutoSupport 、請還原自動建立案例:

    system node autosupport invoke -node * -type all -message MAINT=end

步驟6:將故障零件歸還給NetApp

如套件隨附的RMA指示所述、將故障零件退回NetApp。如 "零件退貨與更換"需詳細資訊、請參閱頁面。