클러스터 및 HA 트래픽에 사용되는 I/O 모듈 핫스왑 - AFF A20, AFF A30 및 AFF A50
클러스터 및 HA I/O 모듈은 클러스터링 및 고가용성을 위한 상호 연결을 지원합니다. 모듈에 장애가 발생하고 스토리지 시스템이 특정 요구 사항을 충족하는 경우, AFF A20, AFF A30 또는 AFF A50 스토리지 시스템에서 모듈을 핫스왑할 수 있습니다.
모듈을 핫스왑하려면 스토리지 시스템이 절차 요구 사항을 충족하는지 확인하고, 슬롯 4에서 스토리지 시스템과 I/O 모듈을 준비하고, 오류가 발생한 모듈을 동등한 모듈로 핫스왑하고, 교체 모듈을 온라인 상태로 전환하고, 스토리지 시스템을 정상 작동 상태로 복원한 다음, 오류가 발생한 모듈을 NetApp 으로 반환합니다.
-
클러스터와 HA I/O 모듈을 핫스왑하면 수동 인수를 수행할 필요가 없습니다. 손상된 컨트롤러(오류가 발생한 클러스터와 HA I/O 모듈이 있는 컨트롤러)가 자동으로 정상적인 컨트롤러를 인수합니다.
손상된 컨트롤러가 정상적인 컨트롤러를 대신하게 되면 중단 없이 복구할 수 있는 유일한 방법은 모듈을 핫스왑하는 것입니다.
-
클러스터와 HA I/O 모듈을 핫스왑할 때 올바른 컨트롤러에 명령을 적용하는 것이 중요합니다.
-
_손상된 컨트롤러_는 클러스터와 HA I/O 모듈을 핫스왑하는 컨트롤러이며, 정상적인 컨트롤러를 인수한 컨트롤러입니다.
-
_건강한 컨트롤러_는 손상된 컨트롤러의 HA 파트너이며 손상된 컨트롤러가 해당 컨트롤러를 인수한 것입니다.
-
-
필요한 경우 스토리지 시스템 위치 상태 표시등(파란색)을 켜서 영향을 받는 스토리지 시스템을 물리적으로 찾을 수 있습니다. SSH를 사용하여 BMC에 로그인하고 명령을 입력합니다
system location-led on
.스토리지 시스템에는 조작자 디스플레이 패널에 1개, 각 컨트롤러에 하나씩 3개의 위치 LED가 있습니다. 위치 LED가 30분 동안 켜져 있습니다.
명령을 입력하여 이러한 기능을 해제할 수
system location-led off
있습니다. LED가 켜져 있는지 또는 꺼져 있는지 확실하지 않은 경우 명령을 입력하여 LED의 상태를 확인할 수system location-led show
있습니다.
1단계: 스토리지 시스템이 절차 요구 사항을 충족하는지 확인하십시오.
이 절차를 사용하려면 스토리지 시스템이 모든 요구 사항을 충족하는지 확인하세요.
|
귀하의 저장 시스템이 모든 요구 사항을 충족하지 못하는 경우 다음을 사용해야 합니다."I/O 모듈 교체 절차" . |
-
스토리지 시스템은 ONTAP 9.17.1 이상을 실행해야 합니다.
-
오류가 발생한 I/O 모듈은 슬롯 4의 클러스터 및 HA I/O 모듈이어야 하며, 동등한 클러스터 및 HA I/O 모듈로 교체해야 합니다. I/O 모듈 유형은 변경할 수 없습니다.
-
스토리지 시스템 구성에는 슬롯 4에 클러스터와 HA I/O 모듈이 하나만 있어야 하며, 클러스터와 HA I/O 모듈이 두 개가 있어서는 안 됩니다.
-
스토리지 시스템은 2노드(스위치리스 또는 스위치드) 클러스터 구성이어야 합니다.
-
장애가 발생한 클러스터와 HA I/O 모듈이 있는 컨트롤러(장애가 발생한 컨트롤러)는 이미 정상 파트너 컨트롤러의 작업을 인수했어야 합니다. I/O 모듈에 장애가 발생하면 자동으로 인수가 이루어졌어야 합니다.
2노드 클러스터의 경우, 스토리지 시스템은 어떤 컨트롤러에 장애가 발생한 I/O 모듈이 있는지 식별할 수 없으므로, 두 컨트롤러 중 하나가 인수를 시작할 수 있습니다. 클러스터 및 HA I/O 모듈 핫 스왑 절차는 장애가 발생한 I/O 모듈이 있는 컨트롤러(장애가 발생한 컨트롤러)가 정상 컨트롤러를 인수한 경우에만 지원됩니다.
손상된 컨트롤러가 건강한 컨트롤러를 성공적으로 인수했는지 확인하려면 다음을 입력하세요.
storage failover show
명령.실패한 I/O 모듈이 어느 컨트롤러에 있는지 확실하지 않은 경우 문의하세요. "NetApp 지원" .
-
스토리지 시스템의 다른 모든 구성 요소가 올바르게 작동해야 합니다. 그렇지 않은 경우 이 절차를 계속하기 전에 에 문의하십시오 "NetApp 지원".
2단계: 스토리지 시스템 및 I/O 모듈 슬롯 4 준비
실패한 클러스터와 HA I/O 모듈을 안전하게 제거할 수 있도록 스토리지 시스템과 I/O 모듈 슬롯 4를 준비합니다.
-
적절하게 접지합니다.
-
실패한 클러스터와 HA I/O 모듈에서 케이블을 분리합니다.
나중에 이 과정에서 케이블을 같은 포트에 다시 연결할 수 있도록 케이블에 라벨을 붙이세요.
-
AutoSupport가 활성화된 경우 AutoSupport 메시지를 호출하여 자동 케이스 생성을 억제합니다.
system node autosupport invoke -node * -type all -message MAINT=<number of hours down>h
예를 들어, 다음 AutoSupport 메시지는 2시간 동안 자동 케이스 생성을 억제합니다.
node2::> system node autosupport invoke -node * -type all -message MAINT=2h
-
자동 환불 비활성화:
-
손상된 컨트롤러의 콘솔에서 다음 명령을 입력하세요.
storage failover modify -node local -auto-giveback false
-
입력하다
y
_자동 환불을 비활성화하시겠습니까?_라는 메시지가 표시되면
-
-
슬롯 4에 있는 실패한 클러스터와 HA 모듈을 서비스에서 제거하고 전원을 꺼서 제거할 준비를 합니다.
-
다음 명령을 입력하세요:
system controller slot module remove -node impaired_node_name -slot slot_number
-
입력하다
y
_계속하시겠습니까?_라는 메시지가 표시되면예를 들어, 다음 명령은 노드 2(손상된 컨트롤러)의 슬롯 4에 있는 모듈을 제거할 준비를 하고, 제거해도 안전하다는 메시지를 표시합니다.
node2::> system controller slot module remove -node node2 -slot 4 Warning: IO_2X_100GBE_NVDA_NIC module in slot 4 of node node2 will be powered off for removal. Do you want to continue? {y|n}: y The module has been successfully removed from service and powered off. It can now be safely removed.
-
-
슬롯 4의 실패한 클러스터와 HA 모듈의 전원이 꺼져 있는지 확인하세요.
system controller slot module show
출력은 다음과 같아야 합니다.
powered-off
슬롯 4의 실패한 모듈에 대한 상태 열에 있습니다.
3단계: 실패한 클러스터 및 HA I/O 모듈 교체
슬롯 4의 실패한 클러스터와 HA I/O 모듈을 동등한 I/O 모듈로 교체합니다.
-
아직 접지되지 않은 경우 올바르게 접지하십시오.
-
손상된 컨트롤러에서 실패한 클러스터와 HA I/O 모듈을 제거합니다.
I/O 모듈 손잡이 나사를 시계 반대 방향으로 돌려 풉니다.
왼쪽의 포트 라벨 탭과 오른쪽의 엄지 나사를 사용하여 컨트롤러에서 I/O 모듈을 빼냅니다.
-
교체 클러스터와 HA I/O 모듈을 슬롯 4에 설치합니다.
-
입출력 모듈을 슬롯의 가장자리에 맞춥니다.
-
I/O 모듈을 슬롯 안으로 조심스럽게 밀어 넣고 I/O 모듈이 커넥터에 제대로 끼워졌는지 확인하세요.
왼쪽의 탭과 오른쪽의 엄지나사를 사용하여 I/O 모듈을 밀어 넣을 수 있습니다.
-
나비나사를 시계 방향으로 돌려 조입니다.
-
-
클러스터와 HA I/O 모듈에 케이블을 연결합니다.
4단계: 교체 클러스터와 HA I/O 모듈을 온라인으로 전환
교체용 클러스터와 슬롯 4의 HA I/O 모듈을 온라인으로 전환하고, 모듈 포트가 성공적으로 초기화되었는지 확인하고, 슬롯 4의 전원이 켜져 있는지 확인한 다음, 모듈이 온라인 상태이고 인식되는지 확인합니다.
-
교체 클러스터와 HA I/O 모듈을 온라인으로 전환합니다.
-
다음 명령을 입력하세요:
system controller slot module insert -node impaired_node_name -slot slot_name
-
입력하다
y
_계속하시겠습니까?_라는 메시지가 표시되면출력에서는 클러스터와 HA I/O 모듈이 성공적으로 온라인 상태가 되었는지(전원이 켜지고, 초기화되고, 서비스에 들어갔는지) 확인해야 합니다.
예를 들어, 다음 명령은 노드 2(손상된 컨트롤러)의 슬롯 4를 온라인으로 전환하고 프로세스가 성공했다는 메시지를 표시합니다.
node2::> system controller slot module insert -node node2 -slot 4 Warning: IO_2X_100GBE_NVDA_NIC module in slot 4 of node node2 will be powered on and initialized. Do you want to continue? {y|n}: `y` The module has been successfully powered on, initialized and placed into service.
-
-
클러스터와 HA I/O 모듈의 각 포트가 성공적으로 초기화되었는지 확인하세요.
event log show -event *hotplug.init*
필요한 펌웨어 업데이트와 포트 초기화가 완료되기까지 몇 분이 걸릴 수 있습니다. 출력에는 클러스터 및 HA I/O 모듈의 각 포트에 대해 기록된 hotplug.init.success EMS 이벤트가 표시되어야 합니다.
hotplug.init.success:
에서Event
열.예를 들어, 다음 출력은 클러스터 및 HA I/O 모듈 포트 e4b 및 e4a에 대한 초기화가 성공했음을 보여줍니다.
node2::> event log show -event *hotplug.init* Time Node Severity Event ------------------- ---------------- ------------- --------------------------- 7/11/2025 16:04:06 node2 NOTICE hotplug.init.success: Initialization of ports "e4b" in slot 4 succeeded 7/11/2025 16:04:06 node2 NOTICE hotplug.init.success: Initialization of ports "e4a" in slot 4 succeeded 2 entries were displayed.
-
I/O 모듈 슬롯 4가 전원이 켜져 있고 작동할 준비가 되었는지 확인하세요.
system controller slot module show
출력에는 슬롯 4 상태가 다음과 같이 표시되어야 합니다.
powered-on
따라서 교체 클러스터와 HA I/O 모듈을 작동할 준비가 되었습니다. -
교체 클러스터와 HA I/O 모듈이 온라인이고 인식되는지 확인합니다.
손상된 컨트롤러의 콘솔에서 명령을 입력하세요:
system controller config show -node local -slot4
교체 클러스터와 HA I/O 모듈이 성공적으로 온라인 상태가 되고 인식되면 슬롯 4에 대한 포트 정보를 포함한 I/O 모듈 정보가 출력에 표시됩니다.
예를 들어, 다음과 비슷한 출력이 표시됩니다.
node2::> system controller config show -node local -slot 4 Node: node2 Sub- Device/ Slot slot Information ---- ---- ----------------------------- 4 - Dual 40G/100G Ethernet Controller CX6-DX e4a MAC Address: d0:39:ea:59:69:74 (auto-100g_cr4-fd-up) QSFP Vendor: CISCO-BIZLINK QSFP Part Number: L45593-D218-D10 QSFP Serial Number: LCC2807GJFM-B e4b MAC Address: d0:39:ea:59:69:75 (auto-100g_cr4-fd-up) QSFP Vendor: CISCO-BIZLINK QSFP Part Number: L45593-D218-D10 QSFP Serial Number: LCC2809G26F-A Device Type: CX6-DX PSID(NAP0000000027) Firmware Version: 22.44.1700 Part Number: 111-05341 Hardware Revision: 20 Serial Number: 032403001370
5단계: 스토리지 시스템을 정상 작동 상태로 복원합니다.
정상적인 컨트롤러에 스토리지를 반환하고, 자동 반환을 복원하고, AutoSupport 자동 케이스 생성을 다시 활성화하여 스토리지 시스템을 정상 작동 상태로 복구합니다.
-
건강한 컨트롤러(인수된 컨트롤러)를 저장장치를 반환하여 정상 작동 상태로 되돌립니다.
storage failover giveback -ofnode healthy_node_name
-
손상된 컨트롤러(건강한 컨트롤러를 인수한 컨트롤러)의 콘솔에서 자동 반환을 복원합니다.
storage failover modify -node local -auto-giveback true
-
AutoSupport가 활성화된 경우 자동 케이스 생성을 복원합니다.
system node autosupport invoke -node * -type all -message MAINT=end
6단계: 장애가 발생한 부품을 NetApp에 반환
키트와 함께 제공된 RMA 지침에 설명된 대로 오류가 발생한 부품을 NetApp에 반환합니다. "부품 반환 및 교체"자세한 내용은 페이지를 참조하십시오.