Skip to main content
简体中文版经机器翻译而成,仅供参考。如与英语版出现任何冲突,应以英语版为准。

更换PCIe卡- AFF C800

贡献者 Copilot dougthomp

当AFF C800系统中的 I/O 模块发生故障、需要升级以支持更高的性能或附加功能时,请更换或添加该 I/O 模块。更换过程包括关闭控制器、更换故障的 I/O 模块、重新启动控制器,以及将故障部件退回NetApp。

开始之前
  • 您必须备有NetApp的新部件或替换部件。

  • 确保存储系统中的所有其他组件均正常运行;否则、请联系技术支持。

  • 您可以将此操作步骤与系统支持的所有 ONTAP 版本结合使用。

  • 系统中的所有其他组件必须正常运行;否则,您必须联系技术支持。

第 1 步:关闭受损控制器

关闭或接管受损控制器。

要关闭受损控制器,您必须确定控制器的状态,并在必要时接管控制器,以便运行正常的控制器继续从受损控制器存储提供数据。

关于此任务
  • 如果您使用的是SAN系统,则必须已检查受损控制器SCSI刀片的事件消息 cluster kernel-service show。 `cluster kernel-service show`命令(在priv高级模式下)可显示该节点的节点名称"仲裁状态"、该节点的可用性状态以及该节点的运行状态。

    每个 SCSI 刀片式服务器进程应与集群中的其他节点保持仲裁关系。在继续更换之前,必须先解决所有问题。

  • If you have a cluster with more than two nodes, it must be in quorum.如果集群未达到仲裁或运行状况良好的控制器在资格和运行状况方面显示false、则必须在关闭受损控制器之前更正问题描述 ;请参见 "将节点与集群同步"

步骤
  1. 如果启用了AutoSupport 、则通过调用AutoSupport 消息禁止自动创建案例:

    system node autosupport invoke -node * -type all -message MAINT=<# of hours>h

    以下AutoSupport 消息禁止自动创建案例两小时:

    cluster1:> system node autosupport invoke -node * -type all -message MAINT=2h

  2. 禁用自动交还:

    1. 从健康控制器的控制台输入以下命令:

      storage failover modify -node impaired_node_name -auto-giveback false

    2. 进入 `y`当您看到提示“您是否要禁用自动回馈?”时

  3. 将受损控制器显示为 LOADER 提示符:

    如果受损控制器显示 …​ 那么 …​

    LOADER 提示符

    转至下一步。

    正在等待交还

    按 Ctrl-C ,然后在出现提示时回答 y

    系统提示符或密码提示符

    从运行正常的控制器接管或暂停受损控制器:

    storage failover takeover -ofnode impaired_node_name -halt true

    -halt true参数将进入Loader提示符。

第 2 步:卸下控制器模块

在更换控制器模块或更换控制器模块内的组件时,您必须从机箱中卸下控制器模块。

步骤
  1. 如果您尚未接地,请正确接地。

  2. 使用拇指推动每个驱动器、直至感觉到强制停止、以确保机箱中的所有驱动器都牢固地固定在中板上。

    视频 - 确认驾驶员座椅
    将驱动器安装到位
  3. 根据系统状态检查控制器驱动器:

    1. 在运行正常的控制器上,检查是否存在任何处于降级状态、故障状态或两者兼有的状态:

      storage aggregate show -raidstatus !*normal*
      • 如果命令返回 `There are no entries matching your query.`继续进入下一个子步骤,检查是否存在缺失的驱动器。

      • 如果该命令返回任何其他结果,请从两个控制器收集AutoSupport数据,并联系NetApp支持部门以获取进一步帮助。

        system node autosupport invoke -node * -type all -message '<message_name>'
    2. 检查文件系统或备用驱动器是否存在缺失驱动器问题:

      event log show -severity * -node * -message-name *disk.missing*
      • 如果命令返回 `There are no entries matching your query.`继续进入下一步

      • 如果该命令返回任何其他结果,请从两个控制器收集AutoSupport数据,并联系NetApp支持部门以获取进一步帮助。

        system node autosupport invoke -node * -type all -message '<message_name>'
  4. 移除电源线固定器,然后从电源上拔下电源线。

  5. 松开线缆管理装置上的魔术贴绑带。从控制器模块上拔下系统电缆和 SFP/QSFP 模块(如果需要)。记下每根电缆的位置。

    将缆线留在缆线管理设备中,以便在重新安装缆线管理设备时,缆线排列有序。

  6. 将缆线管理设备从控制器模块中取出并放在一旁。

  7. 向下按两个锁定闩锁,然后同时向下旋转两个闩锁。

    此控制器模块会从机箱中略微移出。

    Removing the controller module

    标注编号1

    锁定闩锁

    标注编号2

    锁定销

  8. 将控制器模块滑出机箱、然后将其放在平稳的表面上。

    托住控制器模块的底部,将其从机箱中滑出。

步骤 3:更换 PCIe 卡

更换 PCIe 卡时,请先移除目标转接卡上 PCIe 卡端口的线缆和所有 QSFP 和 SFP,然后从控制器模块上移除转接卡,移除并更换 PCIe 卡,再将转接卡和所有 QSFP 和 SFP 重新安装到端口上,最后重新连接端口线缆。

步骤
  1. 确定要更换的卡是来自提升板 1 ,还是来自提升板 2 或 3 。

    • 如果要更换提升板 1 中的 100GbE PCIe 卡,请执行步骤 2 - 3 和步骤 6 - 7 。

    • 如果要从提升板 2 或 3 更换 PCIe 卡,请执行步骤 4 至 7 。

  2. 从控制器模块中卸下提升板 1 :

    1. 卸下可能位于 PCIe 卡中的 QSFP 模块。

    2. 将提升板左侧的提升板锁定闩锁向上旋转并朝风扇模块方向旋转。

      此竖板会从控制器模块中略微升高。

    3. 抬起竖板,将其移向风扇,使竖板上的金属片边缘脱离控制器模块的边缘,将其从控制器模块中提出,然后将其放在平稳的平面上。

      更换Riser卡1中的PCI卡

    标注编号1

    通风管

    标注编号2

    提升板锁定闩锁

    标注编号3

    卡锁定支架

    标注编号4

    提升板 1 (左提升板),插槽 1 中装有 100GbE PCIe 卡。

  3. 从提升板 1 中卸下 PCIe 卡:

    1. 转动提升板,以便可以访问 PCIe 卡。

    2. 按下 PCIe 提升板侧面的锁定支架,然后将其旋转到打开位置。

    3. 从提升板中卸下 PCIe 卡。

  4. 从控制器模块中卸下 PCIe 提升板:

    1. 卸下 PCIe 卡中可能存在的所有 SFP 或 QSFP 模块。

    2. 将提升板左侧的提升板锁定闩锁向上旋转并朝风扇模块方向旋转。

      此竖板会从控制器模块中略微升高。

    3. 抬起竖板,将其移向风扇,使竖板上的金属片边缘脱离控制器模块的边缘,将其从控制器模块中提出,然后将其放在平稳的平面上。

      更换中间和右侧Riser卡中的PCI卡2至5

    标注编号1

    通风管

    标注编号2

    提升板 2 (中间提升板)或 3 (右侧提升板)锁定闩锁

    标注编号3

    卡锁定支架

    标注编号4

    提升板 2 或 3 上的侧面板

    标注编号5

    提升板 2 或 3 中的 PCIe 卡

  5. 从提升板中卸下 PCIe 卡:

    1. 转动提升板,以便可以访问 PCIe 卡。

    2. 按下 PCIe 提升板侧面的锁定支架,然后将其旋转到打开位置。

    3. 将侧面板从竖板上摆动。

    4. 从提升板中卸下 PCIe 卡。

  6. 将 PCIe 卡安装到提升板中的同一插槽中:

    1. 将卡与提升板中的卡插槽对齐,然后将其垂直滑入提升板中的插槽。

      备注 确保此卡完全,正对着提升板插槽。
    2. 对于提升板 2 或 3 ,请合上侧面板。

    3. 将锁定闩锁旋转到位,直到其卡入到位。

  7. 将此提升板安装到控制器模块中:

    1. 将竖板的边缘与控制器模块金属板的下侧对齐。

    2. 沿着控制器模块中的插脚引导此提升板,然后将此提升板降低到控制器模块中。

    3. 向下转动锁定闩锁并将其卡入锁定位置。

      锁定后,锁定闩锁将与提升板顶部平齐,而提升板恰好位于控制器模块中。

    4. 重新插入从 PCIe 卡中卸下的所有 SFP 模块。

第 4 步:重新安装控制器模块

重新安装控制器模块并重新启动。

步骤
  1. 将控制器模块的末端与机箱中的开口对齐,然后将控制器模块轻轻推入系统的一半。

    备注 请勿将控制器模块完全插入机箱中,除非系统指示您这样做。
  2. 根据需要重新对系统进行布线。

    如果您已卸下介质转换器( QSFP 或 SFP ),请记得在使用光缆时重新安装它们。

  3. 完成控制器模块的重新安装:

    1. 将控制器模块牢牢推入机箱,直到它与中板相距并完全就位。

      控制器模块完全就位后,锁定闩锁会上升。

    备注 将控制器模块滑入机箱时,请勿用力过大,以免损坏连接器。
    1. 向上旋转锁定闩锁,使其倾斜,以清除锁定销,然后将其降低到锁定位置。

    2. 将电源线插入电源、重新安装电源线锁环、然后将电源连接到电源。

      电源恢复后、控制器模块将立即启动。Be prepared to interrupt the boot process.

    3. 如果尚未重新安装缆线管理设备,请重新安装该设备。

  4. 通过交还存储使受损控制器恢复正常运行:

    storage failover giveback -ofnode impaired_node_name(英文)

  5. 如果已禁用自动交还、请重新启用它:

    storage failover modify -node local -auto-giveback true(英文)

  6. 如果启用了AutoSupport、则还原/取消禁止自动创建案例:

    system node autosupport invoke -node * -type all -message MAINT=END(英文)

第 5 步:将故障部件退回 NetApp

按照套件随附的 RMA 说明将故障部件退回 NetApp 。 "部件退回和更换"有关详细信息、请参见页面。