NVMe-of-Host-Konfiguration für RHEL 8.5 mit ONTAP
Beitragende
Instandhaltung
NVMe over Fabrics oder NVMe-of (einschließlich NVMe/FC und andere Transportstoffe) werden mit RHEL 8.5 mit ANA (Asymmetric Namespace Access) unterstützt. ANA ist das ALUA-Äquivalent in der NVMe-of Umgebung und ist derzeit mit NVMe Multipath im Kernel implementiert. Die Details zur Aktivierung von NVMe-of mit in-Kernel NVMe Multipath unter Verwendung von ANA auf RHEL 8.5 und ONTAP als Ziel wurden hier dokumentiert.
|
Sie können die in diesem Dokument angegebenen Konfigurationseinstellungen verwenden, um die mit verbundenen Cloud-Clients zu konfigurieren "Cloud Volumes ONTAP" Und "Amazon FSX für ONTAP". |
Funktionen
-
RHEL 8.5 unterstützt zusätzlich zu NVMe/FC NVMe/TCP (als Technology Preview Feature). Das NetApp Plug-in im nativen nvme-cli-Paket zeigt ONTAP-Details sowohl für NVMe/FC als auch für NVMe/TCP-Namespaces an.
Bekannte Einschränkungen
-
Bei RHEL 8.5 bleibt NVMe Multipath in-Kernel standardmäßig deaktiviert. Deshalb müssen Sie sie manuell aktivieren.
-
NVMe/TCP auf RHEL 8.5 ist nach wie vor eine Technologie-Vorschau-Funktion, da offene Probleme auftreten. Siehe "RHEL 8.5 – Versionshinweise" Entsprechende Details.
Konfigurationsanforderungen
Siehe "NetApp Interoperabilitätsmatrix" Finden Sie genaue Details zu unterstützten Konfigurationen.
Aktivieren Sie NVMe Multipath im Kernel
-
Installieren Sie RHEL 8.5 GA auf dem Server. Überprüfen Sie nach Abschluss der Installation, ob Sie den angegebenen RHEL 8.5 GA-Kernel ausführen. Siehe "NetApp Interoperabilitätsmatrix" Erhalten Sie auf der aktuellen Liste der unterstützten Versionen.
Beispiel:
# uname -r 4.18.0-348.el8.x86_64
-
Installieren Sie den
nvme-cli
Paket:Beispiel:
# rpm -qa|grep nvme-cli nvme-cli-1.14-3.el8.x86_64
-
Unterstützung für NVMe Multipath im Kernel:
# grubby --args=nvme_core.multipath=Y --update-kernel /boot/vmlinuz-4.18.0-348.el8.x86_64
-
Überprüfen Sie auf dem Host die NQN-Zeichenfolge des Hosts bei
/etc/nvme/hostnqn
Und überprüfen Sie, ob es mit der NQN-Zeichenfolge des Hosts für das entsprechende Subsystem auf dem ONTAP-Array übereinstimmt. Beispiel:# cat /etc/nvme/hostnqn nqn.2014-08.org.nvmexpress:uuid:9ed5b327-b9fc-4cf5-97b3-1b5d986345d1 ::> vserver nvme subsystem host show -vserver vs_fcnvme_141 Vserver Subsystem Host NQN ----------- --------------- ---------------------------------------------------------- vs_fcnvme_14 nvme_141_1 nqn.2014-08.org.nvmexpress:uuid:9ed5b327-b9fc-4cf5-97b3-1b5d986345d1
Wenn die Host-NQN-Strings nicht übereinstimmen, sollten Sie den verwenden vserver modify
Befehl zum Aktualisieren der NQN-Zeichenfolge des Hosts auf dem entsprechenden ONTAP-NVMe-Subsystem, um die NQN-Zeichenfolge des Hosts zu entsprechen/etc/nvme/hostnqn
Auf dem Host. -
Starten Sie den Host neu.
Wenn Sie beabsichtigen, sowohl NVMe- als auch SCSI-Datenverkehr auf demselben Host auszuführen, wird die Verwendung von NVMe Multipath im Kernel für ONTAP-Namespaces und dm-Multipath für ONTAP-LUNs empfohlen. Das bedeutet, dass die ONTAP-Namespaces von dm-Multipath ausgeschlossen werden sollten, um zu verhindern, dass dm-Multipath diese Namespace-Geräte beanspruchen kann. Dies kann durch Hinzufügen der Einstellung enable_foreign zum erfolgen
/etc/multipath.conf
Datei:# cat /etc/multipath.conf defaults { enable_foreign NONE }
-
Starten Sie den Multipathd-Daemon neu, indem Sie ein ausführen
systemctl restart multipathd
Befehl, damit die neue Einstellung wirksam wird.
Konfiguration von NVMe/FC
Broadcom/Emulex
-
Vergewissern Sie sich, dass Sie den unterstützten Adapter verwenden. Siehe "NetApp Interoperabilitätsmatrix" Erhalten Sie in der aktuellen Liste der unterstützten Adapter.
# cat /sys/class/scsi_host/host*/modelname LPe32002-M2 LPe32002-M2 # cat /sys/class/scsi_host/host*/modeldesc Emulex LightPulse LPe32002-M2 2-Port 32Gb Fibre Channel Adapter Emulex LightPulse LPe32002-M2 2-Port 32Gb Fibre Channel Adapter
-
Überprüfen Sie, ob Sie die empfohlene Broadcom lpfc-Firmware und den Posteingangstreiber verwenden. Siehe "NetApp Interoperabilitätsmatrix" Aktuelle Liste der unterstützten Adaptertreiber- und Firmware-Versionen.
# cat /sys/class/scsi_host/host*/fwrev 12.8.351.47, sli-4:2:c 12.8.351.47, sli-4:2:c # cat /sys/module/lpfc/version 0:12.8.0.10
-
Verifizieren Sie das
lpfc_enable_fc4_type
Ist auf 3 eingestellt# cat /sys/module/lpfc/parameters/lpfc_enable_fc4_type 3
-
Überprüfen Sie, ob die Initiator-Ports aktiv sind und ausgeführt werden, und dass Sie die Ziel-LIFs sehen können.
# cat /sys/class/fc_host/host*/port_name 0x100000109b1c1204 0x100000109b1c1205 # cat /sys/class/fc_host/host*/port_state Online Online # cat /sys/class/scsi_host/host*/nvme_info NVME Initiator Enabled XRI Dist lpfc0 Total 6144 IO 5894 ELS 250 NVME LPORT lpfc0 WWPN x100000109b1c1204 WWNN x200000109b1c1204 DID x011d00 ONLINE NVME RPORT WWPN x203800a098dfdd91 WWNN x203700a098dfdd91 DID x010c07 TARGET DISCSRVC ONLINE NVME RPORT WWPN x203900a098dfdd91 WWNN x203700a098dfdd91 DID x011507 TARGET DISCSRVC ONLINE NVME Statistics LS: Xmt 0000000f78 Cmpl 0000000f78 Abort 00000000 LS XMIT: Err 00000000 CMPL: xb 00000000 Err 00000000 Total FCP Cmpl 000000002fe29bba Issue 000000002fe29bc4 OutIO 000000000000000a abort 00001bc7 noxri 00000000 nondlp 00000000 qdepth 00000000 wqerr 00000000 err 00000000 FCP CMPL: xb 00001e15 Err 0000d906 NVME Initiator Enabled XRI Dist lpfc1 Total 6144 IO 5894 ELS 250 NVME LPORT lpfc1 WWPN x100000109b1c1205 WWNN x200000109b1c1205 DID x011900 ONLINE NVME RPORT WWPN x203d00a098dfdd91 WWNN x203700a098dfdd91 DID x010007 TARGET DISCSRVC ONLINE NVME RPORT WWPN x203a00a098dfdd91 WWNN x203700a098dfdd91 DID x012a07 TARGET DISCSRVC ONLINE NVME Statistics LS: Xmt 0000000fa8 Cmpl 0000000fa8 Abort 00000000 LS XMIT: Err 00000000 CMPL: xb 00000000 Err 00000000 Total FCP Cmpl 000000002e14f170 Issue 000000002e14f17a OutIO 000000000000000a abort 000016bb noxri 00000000 nondlp 00000000 qdepth 00000000 wqerr 00000000 err 00000000 FCP CMPL: xb 00001f50 Err 0000d9f8
1 MB I/O-Größe aktivieren (optional)
ONTAP meldet in den Identify Controller-Daten ein MDTS (MAX Data Transfer Size) von 8, was bedeutet, dass die maximale E/A-Anforderungsgröße bis zu 1 MB betragen sollte. Um jedoch I/O-Anforderungen mit einer Größe von 1 MB für den Broadcom NVMe/FC-Host zu geben, wird der lpfc-Parameter verwendet lpfc_sg_seg_cnt
Sollte auch bis zu 256 vom Standardwert 64 angestoßen werden. Befolgen Sie dazu die folgenden Anweisungen:
-
Fügen Sie den Wert hinzu
256
In den jeweiligen Bereichen einmodprobe lpfc.conf
Datei:# cat /etc/modprobe.d/lpfc.conf options lpfc lpfc_sg_seg_cnt=256
-
A ausführen
dracut -f
Führen Sie einen Befehl aus, und starten Sie den Host neu. -
Überprüfen Sie nach dem Neustart, ob die oben genannte Einstellung angewendet wurde, indem Sie die entsprechende Option prüfen
sysfs
Wert:# cat /sys/module/lpfc/parameters/lpfc_sg_seg_cnt 256
Jetzt sollte der Broadcom FC-NVMe-Host bis zu 1 MB I/O-Anfragen an den ONTAP Namespace-Geräten senden können.
Marvell/QLogic
Im nativen Posteingang qla2xxx
Der im RHEL 8.5 GA Kernel enthaltene Treiber verfügt über die neuesten Upstream-Fixes, die für die ONTAP-Unterstützung von entscheidender Bedeutung sind.
-
Überprüfen Sie, ob Sie den unterstützten Adaptertreiber und die unterstützte Firmware-Version mit dem folgenden Befehl ausführen:
# cat /sys/class/fc_host/host*/symbolic_name QLE2742 FW:v9.06.02 DVR:v10.02.00.106-k QLE2742 FW:v9.06.02 DVR:v10.02.00.106-k
-
Verifizieren
ql2xnvmeenable
Ist gesetzt, sodass der Marvell-Adapter unter Verwendung des folgenden Befehls als NVMe/FC-Initiator fungieren kann:# cat /sys/module/qla2xxx/parameters/ql2xnvmeenable 1
Konfiguration von NVMe/TCP
Im Gegensatz zu NVMe/FC verfügt NVMe/TCP über keine automatische Verbindungsfunktion. Es gibt zwei wesentliche Einschränkungen für den Linux NVMe/TCP-Host:
-
Kein automatischer erneuten Verbindungsaufbau nach der Wiederherstellung von Pfaden NVMe/TCP kann nicht automatisch eine Verbindung zu einem Pfad herstellen, der über den Standard hinaus wiederhergestellt ist
ctrl-loss-tmo
Timer von 10 Minuten nach einem Pfad nach unten. -
Beim Host-Bootup kann keine automatische Verbindung hergestellt werden NVMe/TCP kann auch beim Host-Bootup nicht automatisch eine Verbindung herstellen.
Sie sollten den Wiederholungszeitraum für Failover-Ereignisse auf mindestens 30 Minuten einstellen, um Zeitüberschreitungen zu vermeiden. Sie können den Wiederholungszeitraum erhöhen, indem Sie den Wert des Ctrl_Loss_tmo-Timers erhöhen. Im Folgenden sind die Details aufgeführt:
-
Überprüfen Sie, ob der Initiator-Port die Daten der Erkennungsprotokollseiten in den unterstützten NVMe/TCP LIFs abrufen kann:
# nvme discover -t tcp -w 192.168.1.8 -a 192.168.1.51 Discovery Log Number of Records 10, Generation counter 119 =====Discovery Log Entry 0====== trtype: tcp adrfam: ipv4 subtype: nvme subsystem treq: not specified portid: 0 trsvcid: 4420 subnqn: nqn.1992-08.com.netapp:sn.56e362e9bb4f11ebbaded039ea165abc:subsystem.nvme_118_tcp_1 traddr: 192.168.2.56 sectype: none =====Discovery Log Entry 1====== trtype: tcp adrfam: ipv4 subtype: nvme subsystem treq: not specified portid: 1 trsvcid: 4420 subnqn: nqn.1992-08.com.netapp:sn.56e362e9bb4f11ebbaded039ea165abc:subsystem.nvme_118_tcp_1 traddr: 192.168.1.51 sectype: none =====Discovery Log Entry 2====== trtype: tcp adrfam: ipv4 subtype: nvme subsystem treq: not specified portid: 0 trsvcid: 4420 subnqn: nqn.1992-08.com.netapp:sn.56e362e9bb4f11ebbaded039ea165abc:subsystem.nvme_118_tcp_2 traddr: 192.168.2.56 sectype: none ...
-
Überprüfen Sie, ob andere LIF-Kombos des NVMe/TCP-Initiators erfolgreich die Daten der Erkennungsprotokoll-Seite abrufen können. Beispiel:
# nvme discover -t tcp -w 192.168.1.8 -a 192.168.1.51 # nvme discover -t tcp -w 192.168.1.8 -a 192.168.1.52 # nvme discover -t tcp -w 192.168.2.9 -a 192.168.2.56 # nvme discover -t tcp -w 192.168.2.9 -a 192.168.2.57
-
Führen Sie die aus
nvme connect-all
Befehl über alle unterstützten NVMe/TCP-Initiator-Ziel-LIFs über die Nodes hinweg Stellen Sie einen längeren Zeitraum einctrl_loss_tmo
Zeitschaltuhr-Wiederholungszeitraum (z. B. 30 Minuten, die über eingestellt werden kann-l 1800
) Während des connect-all so, dass es für einen längeren Zeitraum im Falle eines Pfadverlusts wiederholt. Beispiel:# nvme connect-all -t tcp -w 192.168.1.8 -a 192.168.1.51 -l 1800 # nvme connect-all -t tcp -w 192.168.1.8 -a 192.168.1.52 -l 1800 # nvme connect-all -t tcp -w 192.168.2.9 -a 192.168.2.56 -l 1800 # nvme connect-all -t tcp -w 192.168.2.9 -a 192.168.2.57 -l 1800
NVMe-of validieren
-
Überprüfung des NVMe Multipath im Kernel durch Prüfung:
# cat /sys/module/nvme_core/parameters/multipath Y
-
Vergewissern Sie sich, dass die entsprechenden NVMe-of Einstellungen (z. B.
model
Auf einstellenNetApp ONTAP Controller
Undload balancing iopolicy
Auf einstellenround-robin
) Für die jeweiligen ONTAP-Namespaces richtig reflektieren auf dem Host:# cat /sys/class/nvme-subsystem/nvme-subsys*/model NetApp ONTAP Controller NetApp ONTAP Controller # cat /sys/class/nvme-subsystem/nvme-subsys*/iopolicy round-robin round-robin
-
Vergewissern Sie sich, dass die ONTAP-Namespaces auf dem Host ordnungsgemäß reflektieren. Beispiel:
# nvme list Node SN Model Namespace ------------ --------------------- --------------------------------- /dev/nvme0n1 814vWBNRwf9HAAAAAAAB NetApp ONTAP Controller 1 Usage Format FW Rev ------------------- ----------- -------- 85.90 GB / 85.90 GB 4 KiB + 0 B FFFFFFFF
-
Überprüfen Sie, ob der Controller-Status jedes Pfads aktiv ist und den korrekten ANA-Status aufweist. Beispiel:
# nvme list-subsys /dev/nvme0n1 nvme-subsys0 - NQN=nqn.1992-08.com.netapp:sn.5f5f2c4aa73b11e9967e00a098df41bd:subsystem.nvme_141_1 \ +- nvme0 fc traddr=nn-0x203700a098dfdd91:pn-0x203800a098dfdd91 host_traddr=nn-0x200000109b1c1204:pn-0x100000109b1c1204 live inaccessible +- nvme1 fc traddr=nn-0x203700a098dfdd91:pn-0x203900a098dfdd91 host_traddr=nn-0x200000109b1c1204:pn-0x100000109b1c1204 live inaccessible +- nvme2 fc traddr=nn-0x203700a098dfdd91:pn-0x203a00a098dfdd91 host_traddr=nn-0x200000109b1c1205:pn-0x100000109b1c1205 live optimized +- nvme3 fc traddr=nn-0x203700a098dfdd91:pn-0x203d00a098dfdd91 host_traddr=nn-0x200000109b1c1205:pn-0x100000109b1c1205 live optimized
-
Überprüfen Sie, ob das NetApp Plug-in die richtigen Werte für jedes ONTAP Namespace-Gerät anzeigt. Beispiel:
# nvme netapp ontapdevices -o column Device Vserver Namespace Path --------- ------- -------------------------------------------------- /dev/nvme0n1 vs_fcnvme_141 vol/fcnvme_141_vol_1_1_0/fcnvme_141_ns NSID UUID Size ---- ------------------------------ ------ 1 72b887b1-5fb6-47b8-be0b-33326e2542e2 85.90GB # nvme netapp ontapdevices -o json { "ONTAPdevices" : [ { "Device" : "/dev/nvme0n1", "Vserver" : "vs_fcnvme_141", "Namespace_Path" : "/vol/fcnvme_141_vol_1_1_0/fcnvme_141_ns", "NSID" : 1, "UUID" : "72b887b1-5fb6-47b8-be0b-33326e2542e2", "Size" : "85.90GB", "LBA_Data_Size" : 4096, "Namespace_Size" : 20971520 } ] }
Fehlerbehebung
Bevor Sie mit der Fehlerbehebung bei NVMe/FC-Fehlern beginnen, stellen Sie sicher, dass Sie eine Konfiguration ausführen, die den IMT-Spezifikationen entspricht, und fahren Sie dann mit den nächsten Schritten fort, um Probleme auf der Host-Seite zu beheben.
LPFC Verbose Logging
-
Sie können die einstellen
lpfc_log_verbose
Treibereinstellung auf einen der folgenden Werte, um NVMe/FC-Ereignisse zu protokollieren:#define LOG_NVME 0x00100000 /* NVME general events. */ #define LOG_NVME_DISC 0x00200000 /* NVME Discovery/Connect events. */ #define LOG_NVME_ABTS 0x00400000 /* NVME ABTS events. */ #define LOG_NVME_IOERR 0x00800000 /* NVME IO Error events. */
-
Nachdem Sie einen dieser Werte festgelegt haben, führen Sie aus
dracut-f
Befehl zum Neuerstellen desinitramfs
Und starten Sie den Host neu. -
Überprüfen Sie nach dem Neubooten die Einstellungen:
# cat /etc/modprobe.d/lpfc.conf options lpfc lpfc_log_verbose=0xf00083 # cat /sys/module/lpfc/parameters/lpfc_log_verbose 15728771
Qla2xxx Verbose Logging
Es gibt keinen ähnlichen spezifischen qla2xxx Logging für NVMe/FC wie für lpfc Treiber. Daher können Sie den allgemeinen Qla2xxx-Protokollierungslevel mit den folgenden Schritten einstellen:
-
Fügen Sie den hinzu
ql2xextended_error_logging=0x1e400000
Wert zum entsprechendenmodprobe qla2xxx conf
Datei: -
Erstellen Sie den neu
initramfs
Durch Ausführendracut -f
Befehl und starten Sie dann den Host neu. -
Vergewissern Sie sich nach dem Neubooten, dass die ausführliche Protokollierung wie folgt angewendet wurde:
# cat /etc/modprobe.d/qla2xxx.conf options qla2xxx ql2xnvmeenable=1 ql2xextended_error_logging=0x1e400000 # cat /sys/module/qla2xxx/parameters/ql2xextended_error_logging 507510784
Gängige nvme-cli-Fehler und Behelfslösungen
Die von angezeigten Fehler nvme-cli
Während der NVMe-Erkennung werden nvme Connect oder nvme-Connect-alle Vorgänge sowie die Problemumgehungen in der folgenden Tabelle aufgeführt:
Fehleranzeige von nvme-cli |
Wahrscheinliche Ursache | Behelfslösung |
---|---|---|
|
Falsche Syntax |
Stellen Sie sicher, dass Sie die korrekte Syntax für die oben genannten nvme-Befehle verwenden. |
|
Dies kann durch mehrere Probleme ausgelöst werden. Das Übergeben falscher Argumente an die nvme-Befehle ist eine der häufigsten Ursachen. |
|
|
Allgemein gesehen ob das |
Stellen Sie genau sicher |
|
Zeigt an, ob bereits Controller-Zuordnungen oder angegebene Operation erstellt wurden oder gerade erstellt wird. Dies könnte im Rahmen der oben installierten Skripts zur automatischen Verbindung geschehen. |
Keine. Für |
Wann wenden Sie sich an den technischen Support
Wenn Sie immer noch Probleme haben, sammeln Sie die folgenden Dateien und Befehlsausgaben, und wenden Sie sich an den technischen Support, um eine weitere Bewertung zu erhalten:
cat /sys/class/scsi_host/host*/nvme_info /var/log/messages dmesg nvme discover output as in: nvme discover --transport=fc --traddr=nn-0x200a00a098c80f09:pn-0x200b00a098c80f09 --host-traddr=nn-0x20000090fae0ec9d:pn-0x10000090fae0ec9d nvme list nvme list-subsys /dev/nvmeXnY