ONTAP 8.5를 지원하는 RHEL용 NVMe-oF 호스트 구성
기여자
지원 가능성
NVMe over Fabrics 또는 NVMe-oF(NVMe/FC 및 기타 전송 포함)는 ANA(비대칭 네임스페이스 액세스)가 포함된 RHEL 8.5에서 지원됩니다. ANA는 NVMe-oF 환경에 해당하는 ALUA로, 현재 in-kernel NVMe Multipath로 구현되고 있습니다. RHEL 8.5 및 ONTAP에서 타겟으로 ANA를 사용하는 커널 내 NVMe 다중 경로를 사용하여 NVMe-oF를 활성화하는 방법에 대한 자세한 내용은 여기 에 설명되어 있습니다.
|
이 문서에 제공된 구성 설정을 사용하여 에 연결된 클라우드 클라이언트를 구성할 수 있습니다 "Cloud Volumes ONTAP" 및 "ONTAP용 Amazon FSx". |
피처
-
RHEL 8.5에는 NVMe/FC 외에도 NVMe/TCP(기술 미리 보기 기능) 지원이 포함되어 있습니다. 네이티브 NVMe-CLI 패키지의 NetApp 플러그인은 NVMe/FC 및 NVMe/TCP 네임스페이스 모두에 대한 ONTAP 세부 정보를 표시할 수 있습니다.
알려진 제한 사항
-
RHEL 8.5의 경우, in-kernel NVMe multipath가 기본적으로 비활성화되어 있습니다. 따라서 수동으로 활성화해야 합니다.
-
RHEL 8.5의 NVMe/TCP는 미해결 문제로 인해 기술 미리보기 기능으로 유지됩니다. 을 참조하십시오 "RHEL 8.5 릴리스 정보" 를 참조하십시오.
구성 요구 사항
을 참조하십시오 "NetApp 상호 운용성 매트릭스" 지원되는 구성에 대한 정확한 세부 정보
In-kernel NVMe Multipath를 활성화합니다
-
서버에 RHEL 8.5 GA를 설치합니다. 설치가 완료되면 지정된 RHEL 8.5 GA 커널을 실행 중인지 확인합니다. 를 참조하십시오 "NetApp 상호 운용성 매트릭스" 를 참조하십시오.
예:
# uname -r 4.18.0-348.el8.x86_64
-
"NVMe-CLI" 패키지를 설치합니다.
예:
# rpm -qa|grep nvme-cli nvme-cli-1.14-3.el8.x86_64
-
인커널 NVMe 다중 경로 지원:
# grubby --args=nvme_core.multipath=Y --update-kernel /boot/vmlinuz-4.18.0-348.el8.x86_64
-
호스트에서 '/etc/NVMe/hostnqn’의 호스트 NQN 문자열을 확인하고 ONTAP 배열의 해당 하위 시스템에 대한 호스트 NQN 문자열과 일치하는지 확인합니다. 예:
# cat /etc/nvme/hostnqn nqn.2014-08.org.nvmexpress:uuid:9ed5b327-b9fc-4cf5-97b3-1b5d986345d1 ::> vserver nvme subsystem host show -vserver vs_fcnvme_141 Vserver Subsystem Host NQN ----------- --------------- ---------------------------------------------------------- vs_fcnvme_14 nvme_141_1 nqn.2014-08.org.nvmexpress:uuid:9ed5b327-b9fc-4cf5-97b3-1b5d986345d1
호스트 NQN 문자열이 일치하지 않으면 "vserver modify" 명령을 사용하여 해당 ONTAP NVMe 하위 시스템의 호스트 NQN 문자열을 호스트에서 호스트 NQN 문자열 '/etc/NVMe/hostnqn’과 일치하도록 업데이트해야 합니다. -
호스트를 재부팅합니다.
동일한 호스트에서 NVMe 및 SCSI가 공존하는 트래픽을 모두 실행하려는 경우 ONTAP 네임스페이스에는 인커널 NVMe 다중 경로, ONTAP LUN에는 dm-multipath를 각각 사용하는 것이 좋습니다. 즉, dm-multipath가 이러한 네임스페이스 장치를 변경하지 못하도록 ONTAP 네임스페이스를 dm-multipath에서 제외해야 합니다. 이렇게 하려면 enable_Foreign 설정을 '/etc/multipath.conf' 파일에 추가합니다.
# cat /etc/multipath.conf defaults { enable_foreign NONE }
-
새 설정을 적용하려면 'stemctl restart multipathd' 명령을 실행하여 multipathd 데몬을 다시 시작합니다.
NVMe/FC 구성
Broadcom/Emulex
-
지원되는 어댑터를 사용하고 있는지 확인합니다. 를 참조하십시오 "NetApp 상호 운용성 매트릭스" 를 참조하십시오.
# cat /sys/class/scsi_host/host*/modelname LPe32002-M2 LPe32002-M2 # cat /sys/class/scsi_host/host*/modeldesc Emulex LightPulse LPe32002-M2 2-Port 32Gb Fibre Channel Adapter Emulex LightPulse LPe32002-M2 2-Port 32Gb Fibre Channel Adapter
-
권장 Broadcom lpfc 펌웨어 및 받은 편지함 드라이버를 사용하고 있는지 확인합니다. 를 참조하십시오 "NetApp 상호 운용성 매트릭스" 지원되는 어댑터 드라이버 및 펌웨어 버전의 최신 목록을 확인하십시오.
# cat /sys/class/scsi_host/host*/fwrev 12.8.351.47, sli-4:2:c 12.8.351.47, sli-4:2:c # cat /sys/module/lpfc/version 0:12.8.0.10
-
lpfc_enable_fc4_type이 3으로 설정되어 있는지 확인한다
# cat /sys/module/lpfc/parameters/lpfc_enable_fc4_type 3
-
이니시에이터 포트가 가동 및 실행 중이며 타겟 LIF를 볼 수 있는지 확인합니다.
# cat /sys/class/fc_host/host*/port_name 0x100000109b1c1204 0x100000109b1c1205 # cat /sys/class/fc_host/host*/port_state Online Online # cat /sys/class/scsi_host/host*/nvme_info NVME Initiator Enabled XRI Dist lpfc0 Total 6144 IO 5894 ELS 250 NVME LPORT lpfc0 WWPN x100000109b1c1204 WWNN x200000109b1c1204 DID x011d00 ONLINE NVME RPORT WWPN x203800a098dfdd91 WWNN x203700a098dfdd91 DID x010c07 TARGET DISCSRVC ONLINE NVME RPORT WWPN x203900a098dfdd91 WWNN x203700a098dfdd91 DID x011507 TARGET DISCSRVC ONLINE NVME Statistics LS: Xmt 0000000f78 Cmpl 0000000f78 Abort 00000000 LS XMIT: Err 00000000 CMPL: xb 00000000 Err 00000000 Total FCP Cmpl 000000002fe29bba Issue 000000002fe29bc4 OutIO 000000000000000a abort 00001bc7 noxri 00000000 nondlp 00000000 qdepth 00000000 wqerr 00000000 err 00000000 FCP CMPL: xb 00001e15 Err 0000d906 NVME Initiator Enabled XRI Dist lpfc1 Total 6144 IO 5894 ELS 250 NVME LPORT lpfc1 WWPN x100000109b1c1205 WWNN x200000109b1c1205 DID x011900 ONLINE NVME RPORT WWPN x203d00a098dfdd91 WWNN x203700a098dfdd91 DID x010007 TARGET DISCSRVC ONLINE NVME RPORT WWPN x203a00a098dfdd91 WWNN x203700a098dfdd91 DID x012a07 TARGET DISCSRVC ONLINE NVME Statistics LS: Xmt 0000000fa8 Cmpl 0000000fa8 Abort 00000000 LS XMIT: Err 00000000 CMPL: xb 00000000 Err 00000000 Total FCP Cmpl 000000002e14f170 Issue 000000002e14f17a OutIO 000000000000000a abort 000016bb noxri 00000000 nondlp 00000000 qdepth 00000000 wqerr 00000000 err 00000000 FCP CMPL: xb 00001f50 Err 0000d9f8
1MB I/O 크기 활성화(옵션)
ONTAP는 컨트롤러 식별 데이터에 8의 MDTS(MAX Data 전송 크기)를 보고합니다. 즉, 최대 I/O 요청 크기는 최대 1MB여야 합니다. 그러나 Broadcom NVMe/FC 호스트에 대해 크기 1MB의 입출력 요청을 발급하려면 lpfc 매개 변수 "lpfc_sg_seg_cnt"를 기본값 64에서 최대 256까지 범프해야 합니다. 다음 지침에 따라 수행합니다.
-
해당 'modprobe lpfc.conf' 파일에 값 256을 추가합니다.
# cat /etc/modprobe.d/lpfc.conf options lpfc lpfc_sg_seg_cnt=256
-
dracut -f 명령을 실행하고 호스트를 재부팅합니다.
-
재부팅 후 해당 'ysfs' 값을 확인하여 위 설정이 적용되었는지 확인한다.
# cat /sys/module/lpfc/parameters/lpfc_sg_seg_cnt 256
이제 Broadcom FC-NVMe 호스트는 ONTAP 네임스페이스 장치에서 최대 1MB I/O 요청을 보낼 수 있습니다.
Marvell/QLogic
RHEL 8.5 GA 커널에 포함된 기본 받은 편지함 "qla2xxx" 드라이버에는 ONTAP 지원에 필수적인 최신 업스트림 픽스가 포함되어 있습니다.
-
다음 명령을 사용하여 지원되는 어댑터 드라이버 및 펌웨어 버전을 실행 중인지 확인합니다.
# cat /sys/class/fc_host/host*/symbolic_name QLE2742 FW:v9.06.02 DVR:v10.02.00.106-k QLE2742 FW:v9.06.02 DVR:v10.02.00.106-k
-
Marvell 어댑터가 다음 명령을 사용하여 NVMe/FC 이니시에이터로 작동할 수 있도록 하는 "ql2xnvmeenable"이 설정되어 있는지 확인합니다.
# cat /sys/module/qla2xxx/parameters/ql2xnvmeenable 1
NVMe/TCP를 구성합니다
NVMe/FC와 달리 NVMe/TCP에는 자동 연결 기능이 없습니다. Linux NVMe/TCP 호스트에는 다음과 같은 두 가지 주요 제한 사항이 있습니다.
-
* 경로 복구 후 자동 재연결 불가 * NVMe/TCP는 경로 다운 후 10분 동안 기본 'Ctrl-Loss-TMO' 타이머 이후에 복구된 경로에 자동으로 다시 연결할 수 없습니다.
-
* 호스트 부팅 중 자동 연결 없음 * 호스트 부팅 중에 NVMe/TCP도 자동으로 연결할 수 없습니다.
시간 초과를 방지하려면 페일오버 이벤트에 대한 재시도 기간을 최소 30분으로 설정해야 합니다. Ctrl_Loss_TMO 타이머 값을 증가시켜 재시도 기간을 늘릴 수 있습니다. 다음은 세부 정보입니다.
-
이니시에이터 포트가 지원되는 NVMe/TCP LIF에서 검색 로그 페이지 데이터를 가져올 수 있는지 확인합니다.
# nvme discover -t tcp -w 192.168.1.8 -a 192.168.1.51 Discovery Log Number of Records 10, Generation counter 119 =====Discovery Log Entry 0====== trtype: tcp adrfam: ipv4 subtype: nvme subsystem treq: not specified portid: 0 trsvcid: 4420 subnqn: nqn.1992-08.com.netapp:sn.56e362e9bb4f11ebbaded039ea165abc:subsystem.nvme_118_tcp_1 traddr: 192.168.2.56 sectype: none =====Discovery Log Entry 1====== trtype: tcp adrfam: ipv4 subtype: nvme subsystem treq: not specified portid: 1 trsvcid: 4420 subnqn: nqn.1992-08.com.netapp:sn.56e362e9bb4f11ebbaded039ea165abc:subsystem.nvme_118_tcp_1 traddr: 192.168.1.51 sectype: none =====Discovery Log Entry 2====== trtype: tcp adrfam: ipv4 subtype: nvme subsystem treq: not specified portid: 0 trsvcid: 4420 subnqn: nqn.1992-08.com.netapp:sn.56e362e9bb4f11ebbaded039ea165abc:subsystem.nvme_118_tcp_2 traddr: 192.168.2.56 sectype: none ...
-
다른 NVMe/TCP 이니시에이터-타겟 LIF combos가 검색 로그 페이지 데이터를 성공적으로 가져올 수 있는지 확인합니다. 예를 들면 다음과 같습니다.
# nvme discover -t tcp -w 192.168.1.8 -a 192.168.1.51 # nvme discover -t tcp -w 192.168.1.8 -a 192.168.1.52 # nvme discover -t tcp -w 192.168.2.9 -a 192.168.2.56 # nvme discover -t tcp -w 192.168.2.9 -a 192.168.2.57
-
를 실행합니다
nvme connect-all
노드를 통해 지원되는 모든 NVMe/TCP 이니시에이터-타겟 LIF에 대해 명령을 실행합니다. 를 더 길게 설정하십시오ctrl_loss_tmo
타이머 재시도 기간(예: 에서 설정할 수 있는 30분-l 1800
) 연결 중 - 경로 손실이 발생할 경우 더 오랜 시간 재시도합니다. 예를 들면 다음과 같습니다.# nvme connect-all -t tcp -w 192.168.1.8 -a 192.168.1.51 -l 1800 # nvme connect-all -t tcp -w 192.168.1.8 -a 192.168.1.52 -l 1800 # nvme connect-all -t tcp -w 192.168.2.9 -a 192.168.2.56 -l 1800 # nvme connect-all -t tcp -w 192.168.2.9 -a 192.168.2.57 -l 1800
NVMe-oF를 검증합니다
-
다음을 확인하여 In-kernel NVMe multipath가 실제로 활성화되어 있는지 확인합니다.
# cat /sys/module/nvme_core/parameters/multipath Y
-
각 ONTAP 네임스페이스에 대한 적절한 NVMe-oF 설정(예: "NetApp ONTAP Controller"로 설정된 모델 및 "라운드 로빈"으로 설정된 로드 밸런싱 지정값이 호스트에 올바르게 반영되는지 확인하십시오.
# cat /sys/class/nvme-subsystem/nvme-subsys*/model NetApp ONTAP Controller NetApp ONTAP Controller # cat /sys/class/nvme-subsystem/nvme-subsys*/iopolicy round-robin round-robin
-
ONTAP 네임스페이스가 호스트에 제대로 반영되는지 확인합니다. 예를 들면 다음과 같습니다.
# nvme list Node SN Model Namespace ------------ --------------------- --------------------------------- /dev/nvme0n1 814vWBNRwf9HAAAAAAAB NetApp ONTAP Controller 1 Usage Format FW Rev ------------------- ----------- -------- 85.90 GB / 85.90 GB 4 KiB + 0 B FFFFFFFF
-
각 경로의 컨트롤러 상태가 라이브이고 적절한 ANA 상태인지 확인합니다. 예를 들면 다음과 같습니다.
# nvme list-subsys /dev/nvme0n1 nvme-subsys0 - NQN=nqn.1992-08.com.netapp:sn.5f5f2c4aa73b11e9967e00a098df41bd:subsystem.nvme_141_1 \ +- nvme0 fc traddr=nn-0x203700a098dfdd91:pn-0x203800a098dfdd91 host_traddr=nn-0x200000109b1c1204:pn-0x100000109b1c1204 live inaccessible +- nvme1 fc traddr=nn-0x203700a098dfdd91:pn-0x203900a098dfdd91 host_traddr=nn-0x200000109b1c1204:pn-0x100000109b1c1204 live inaccessible +- nvme2 fc traddr=nn-0x203700a098dfdd91:pn-0x203a00a098dfdd91 host_traddr=nn-0x200000109b1c1205:pn-0x100000109b1c1205 live optimized +- nvme3 fc traddr=nn-0x203700a098dfdd91:pn-0x203d00a098dfdd91 host_traddr=nn-0x200000109b1c1205:pn-0x100000109b1c1205 live optimized
-
NetApp 플러그인에 각 ONTAP 네임스페이스 장치에 대한 올바른 값이 표시되는지 확인합니다. 예를 들면, 다음과 같습니다.
# nvme netapp ontapdevices -o column Device Vserver Namespace Path --------- ------- -------------------------------------------------- /dev/nvme0n1 vs_fcnvme_141 vol/fcnvme_141_vol_1_1_0/fcnvme_141_ns NSID UUID Size ---- ------------------------------ ------ 1 72b887b1-5fb6-47b8-be0b-33326e2542e2 85.90GB # nvme netapp ontapdevices -o json { "ONTAPdevices" : [ { "Device" : "/dev/nvme0n1", "Vserver" : "vs_fcnvme_141", "Namespace_Path" : "/vol/fcnvme_141_vol_1_1_0/fcnvme_141_ns", "NSID" : 1, "UUID" : "72b887b1-5fb6-47b8-be0b-33326e2542e2", "Size" : "85.90GB", "LBA_Data_Size" : 4096, "Namespace_Size" : 20971520 } ] }
문제 해결
NVMe/FC 오류에 대한 문제 해결을 시작하기 전에 IMT 사양을 준수하는 구성을 실행하고 있는지 확인한 후 다음 단계를 수행하여 호스트 측 문제를 디버깅하십시오.
lpfc Verbose 로깅
-
"lpfc_log_verbose" 드라이버 설정을 다음 값 중 한 값으로 설정하여 NVMe/FC 이벤트를 기록할 수 있습니다.
#define LOG_NVME 0x00100000 /* NVME general events. */ #define LOG_NVME_DISC 0x00200000 /* NVME Discovery/Connect events. */ #define LOG_NVME_ABTS 0x00400000 /* NVME ABTS events. */ #define LOG_NVME_IOERR 0x00800000 /* NVME IO Error events. */
-
이러한 값을 설정한 후 dracut -f 명령을 실행하여 initramfs를 다시 생성하고 호스트를 재부팅합니다.
-
재부팅 후 설정을 확인합니다.
# cat /etc/modprobe.d/lpfc.conf options lpfc lpfc_log_verbose=0xf00083 # cat /sys/module/lpfc/parameters/lpfc_log_verbose 15728771
qla2xxx Verbose 로깅
lpfc 드라이버에 대한 NVMe/FC에 대한 유사한 특정 qla2xxx 로깅이 없습니다. 따라서 다음 단계를 사용하여 일반 qla2xxx 로깅 수준을 설정할 수 있습니다.
-
해당 modprobe qla2xxx conf 파일에 "ql2xextended_error_logging=0x1e400000" 값을 추가합니다.
-
dracut -f 명령을 실행하여 initramfs를 재생성한 다음 호스트를 재부팅합니다.
-
재부팅 후 상세 로깅이 다음과 같이 적용되었는지 확인합니다.
# cat /etc/modprobe.d/qla2xxx.conf options qla2xxx ql2xnvmeenable=1 ql2xextended_error_logging=0x1e400000 # cat /sys/module/qla2xxx/parameters/ql2xextended_error_logging 507510784
일반적인 NVMe-CLI 오류 및 해결 방법
다음 표에는 NVMe 검색, NVMe 연결 또는 NVMe 연결 모든 작업 중에 "NVMe-CLI"로 표시되는 오류와 해결 방법이 나와 있습니다.
NVMe-CLI에 표시되는 오류 | 가능한 원인 | 해결 방법 |
---|---|---|
'/dev/NVMe-fabric에 쓸 수 없음: 잘못된 인수. |
구문이 잘못되었습니다 |
위의 NVMe 명령에 올바른 구문을 사용하고 있는지 확인하십시오. |
'/dev/NVMe-fabric에 쓰지 못함: 해당 파일 또는 디렉토리가 없습니다. |
여러 가지 문제로 인해 이 문제가 발생할 수 있습니다. 일반적인 원인 중 하나는 NVMe 명령에 잘못된 인수를 전달하는 것입니다. |
|
가져올 검색 로그 항목이 없습니다 |
일반적으로 '/etc/NVMe/hostnqn' 문자열이 NetApp 어레이의 해당 하위 시스템에 추가되지 않았거나 잘못된 "hostnqn" 문자열이 해당 하위 시스템에 추가된 경우 표시됩니다. |
정확한 '/etc/NVMe/hostnqn' 문자열이 NetApp 어레이의 해당 하위 시스템에 추가되었는지 확인합니다('vserver NVMe subsystem host show' 명령을 통해 확인). |
'/dev/NVMe-fabric에 쓸 수 없습니다: 작업이 이미 진행 중입니다. |
컨트롤러 연결 또는 지정된 작업이 이미 생성되었거나 생성 중인 경우 표시됩니다. 이 문제는 위에 설치된 자동 연결 스크립트의 일부로 발생할 수 있습니다. |
없음. "NVMe 검색"을 위해 잠시 후에 이 명령을 실행해 보십시오. NVMe CONNECT와 CONNECT-ALL의 경우 NVMe list 명령을 실행하여 네임스페이스 디바이스가 이미 생성되어 호스트에 표시되는지 확인합니다. |
기술 지원 문의 시기
여전히 문제가 발생하는 경우 다음 파일 및 명령 출력을 수집하고 기술 지원 부서에 문의하여 추가 분류를 요청하십시오.
cat /sys/class/scsi_host/host*/nvme_info /var/log/messages dmesg nvme discover output as in: nvme discover --transport=fc --traddr=nn-0x200a00a098c80f09:pn-0x200b00a098c80f09 --host-traddr=nn-0x20000090fae0ec9d:pn-0x10000090fae0ec9d nvme list nvme list-subsys /dev/nvmeXnY