简体中文版经机器翻译而成，仅供参考。如与英语版出现任何冲突，应以英语版为准。

热插拔用于集群和 HA 流量的 I/O 模块 - FAS50

08/08/2025 贡献者

PDF

集群和 HA I/O 模块支持集群和高可用性互连。当模块发生故障且您的存储系统满足特定要求时，您可以在 FAS50 存储系统中热插拔该模块。

要热插拔模块，您需要确保您的存储系统满足程序要求，准备好插槽 4 中的存储系统和 I/O 模块，将故障模块热插拔为等效模块，使替换模块联机，将存储系统恢复正常运行，然后将故障模块返回给NetApp。

关于此任务

热交换集群和 HA I/O 模块意味着您不必执行手动接管；受损控制器（具有故障集群和 HA I/O 模块的控制器）已自动接管健康的控制器。

当受损控制器接管健康控制器时，不发生中断而恢复的唯一方法就是热插拔模块。
热插拔集群和 HA I/O 模块时，将命令应用到正确的控制器至关重要：
- _受损控制器_是您正在热交换集群和 HA I/O 模块的控制器，它是接管了健康控制器的控制器。
- _健康控制器_是受损控制器的 HA 伙伴，也是被受损控制器接管的控制器。
如果需要、您可以打开存储系统位置(蓝色) LED、以帮助您以物理方式定位受影响的存储系统。使用SSH登录到BMC并输入 `system location-led on`命令。

存储系统具有三个定位LED：操作员显示面板上一个、每个控制器上一个。Location LEDs remain illuminated for 30 minutes.

您可以输入命令将其关闭 system location-led off。如果您不确定LED是亮起还是熄灭、可以输入命令来检查其状态 system location-led show。

步骤 1：确保存储系统满足程序要求

要使用此过程，请确保您的存储系统满足所有要求。

如果您的存储系统不满足所有要求，则必须使用"更换 I/O 模块程序"。

您的存储系统必须运行ONTAP 9.17.1 或更高版本。
发生故障的 I/O 模块必须是插槽 4 中的集群和 HA I/O 模块，并且必须将其替换为等效的集群和 HA I/O 模块。您无法更改 I/O 模块类型。
您的存储系统配置必须仅有一个位于插槽 4 中的集群和 HA I/O 模块，而不是两个集群和 HA I/O 模块。
您的存储系统必须是双节点（无交换机或有交换机）集群配置。
集群和 HA I/O 模块发生故障的控制器（受损控制器）必须已接管正常的配对控制器。如果 I/O 模块发生故障，接管应该会自动进行。

对于双节点集群，存储系统无法辨别哪个控制器的 I/O 模块发生故障，因此任一控制器都可能启动接管。仅当 I/O 模块发生故障的控制器（受损控制器）接管了正常的控制器时，才支持集群和 HA I/O 模块热插拔过程。

您可以通过输入以下命令来验证受损控制器是否成功接管了健康控制器 `storage failover show`命令。

如果您不确定哪个控制器的 I/O 模块出现故障，请联系 "NetApp 支持" 。
存储系统中的所有其他组件都必须正常运行；如果未正常运行、请先联系、 "NetApp 支持"然后再继续此过程。

步骤 2：准备存储系统和 I/O 模块插槽 4

准备存储系统和 I/O 模块插槽 4，以便可以安全地移除故障集群和 HA I/O 模块：

步骤

正确接地。
拔掉故障集群和 HA I/O 模块的电缆。

确保标记电缆，以便稍后在此过程中将它们重新连接到相同的端口。
如果启用了AutoSupport 、则通过调用AutoSupport 消息禁止自动创建案例：

system node autosupport invoke -node * -type all -message MAINT=<number of hours down>h

例如，以下AutoSupport消息会抑制自动案例创建两小时：

node2::> system node autosupport invoke -node * -type all -message MAINT=2h
禁用自动交还：
1. 从受损控制器的控制台输入以下命令：
  
  storage failover modify -node local -auto-giveback false
2. 进入 `y`当您看到提示“您是否要禁用自动回馈？”时
准备移除插槽 4 中的故障集群和 HA 模块，方法是将其从服务中移除并关闭电源：
1. 输入以下命令：
  
  system controller slot module remove -node impaired_node_name -slot slot_number
2. 进入 `y`当您看到提示“您想继续吗？”
  
  例如，以下命令准备移除节点 2（受损控制器）上插槽 4 中的模块，并显示可以安全移除的消息：
```
node2::> system controller slot module remove -node node2 -slot 4

Warning: IO_2X_100GBE_NVDA_NIC module in slot 4 of node node2 will be powered off for removal.

Do you want to continue? {y|n}: y

The module has been successfully removed from service and powered off. It can now be safely removed.
```
验证发生故障的集群以及插槽 4 中的 HA 模块是否已关闭：

system controller slot module show

输出应该显示 `powered-off`在插槽 4 中发生故障的模块的状态列中。

步骤 3：更换发生故障的集群和 HA I/O 模块

使用等效的 I/O 模块更换插槽 4 中发生故障的集群和 HA I/O 模块：

步骤

如果您尚未接地，请正确接地。
从受损的控制器中移除发生故障的集群和 HA I/O 模块：

逆时针旋转I/O模块指旋螺钉以拧松。

使用左侧的端口标签卡舌和右侧的翼形螺钉将 I/O 模块从控制器中拉出。
将替换集群和 HA I/O 模块安装到插槽 4 中：
1. 将 I/O 模块与插槽边缘对齐。
2. 轻轻地将 I/O 模块完全推入插槽，确保 I/O 模块正确插入连接器。
  
  您可以使用左侧的卡舌和右侧的翼形螺钉来推入 I/O 模块。
3. 顺时针旋转翼形螺钉以拧紧。
连接集群和 HA I/O 模块。

步骤 4：使替换集群和 HA I/O 模块联机

将插槽 4 中的替换集群和 HA I/O 模块联机，验证模块端口是否已成功初始化，验证插槽 4 是否已打开电源，然后验证模块是否联机并被识别。

步骤

使替换集群和 HA I/O 模块联机：
1. 输入以下命令：
  
  system controller slot module insert -node impaired_node_name -slot slot_name
2. 进入 `y`当您看到提示“您想继续吗？”
  
  输出应确认集群和 HA I/O 模块已成功上线（启动、初始化并投入使用）。
  
  例如，以下命令使节点 2（受损控制器）上的插槽 4 联机，并显示该过程成功的消息：
```
node2::> system controller slot module insert -node node2 -slot 4

Warning: IO_2X_100GBE_NVDA_NIC module in slot 4 of node node2 will be powered on and initialized.

Do you want to continue? {y|n}: `y`

The module has been successfully powered on, initialized and placed into service.
```

验证集群和 HA I/O 模块上的每个端口是否已成功初始化：

event log show -event *hotplug.init*

可能需要几分钟的时间才能完成所需的固件更新和端口初始化。

输出应显示为集群和 HA I/O 模块上的每个端口记录的 hotplug.init.success EMS 事件，其中包含 `hotplug.init.success:`在 `Event`柱子。

例如，以下输出显示集群和 HA I/O 模块端口 e4b 和 e4a 的初始化成功：

node2::> event log show -event *hotplug.init*

Time                Node             Severity      Event

------------------- ---------------- ------------- ---------------------------

7/11/2025 16:04:06  node2      NOTICE        hotplug.init.success: Initialization of ports "e4b" in slot 4 succeeded

7/11/2025 16:04:06  node2      NOTICE        hotplug.init.success: Initialization of ports "e4a" in slot 4 succeeded

2 entries were displayed.

验证 I/O 模块插槽 4 是否已通电并准备好运行：

system controller slot module show

输出应显示插槽 4 状态为 `powered-on`因此可以为替换集群和 HA I/O 模块的运行做好准备。

验证替换集群和 HA I/O 模块是否在线并被识别。

从受损控制器的控制台输入命令：

system controller config show -node local -slot4

如果替换集群和 HA I/O 模块成功联机并被识别，则输出将显示插槽 4 的 I/O 模块信息，包括端口信息。

例如，您应该看到类似以下内容的输出：

node2::> system controller config show -node local -slot 4

Node: node2
Sub- Device/
Slot slot Information
---- ---- -----------------------------
   4    - Dual 40G/100G Ethernet Controller CX6-DX
                  e4a MAC Address: d0:39:ea:59:69:74 (auto-100g_cr4-fd-up)
                          QSFP Vendor:        CISCO-BIZLINK
                          QSFP Part Number:   L45593-D218-D10
                          QSFP Serial Number: LCC2807GJFM-B
                  e4b MAC Address: d0:39:ea:59:69:75 (auto-100g_cr4-fd-up)
                          QSFP Vendor:        CISCO-BIZLINK
                          QSFP Part Number:   L45593-D218-D10
                          QSFP Serial Number: LCC2809G26F-A
                  Device Type:        CX6-DX PSID(NAP0000000027)
                  Firmware Version:   22.44.1700
                  Part Number:        111-05341
                  Hardware Revision:  20
                  Serial Number:      032403001370

步骤 5：恢复存储系统正常运行

通过将存储交还给运行状况良好的控制器、恢复自动交还以及重新启用AutoSupport自动案例创建，将存储系统恢复正常运行。

步骤

通过归还存储，使健康控制器（被接管的控制器）恢复正常运行：

storage failover giveback -ofnode healthy_node_name
从受损控制器（接管正常控制器的控制器）的控制台恢复自动交还：

storage failover modify -node local -auto-giveback true
如果启用了AutoSupport、则还原自动创建案例：

system node autosupport invoke -node * -type all -message MAINT=end

第 6 步：将故障部件退回 NetApp

按照套件随附的 RMA 说明将故障部件退回 NetApp 。 "部件退回和更换"有关详细信息、请参见页面。