Lösungstechnologie
Diese Lösung wurde mit einem NetApp AFF A800 System, zwei DGX-1-Servern und zwei Cisco Nexus 3232C 100-GbE-Switches implementiert. Jeder DGX-1-Server ist über vier 100-GbE-Verbindungen mit den Nexus-Switches verbunden. Letztere werden mittels RDMA (Remote Direct Memory Access) over Converged Ethernet (RoCE) für die Kommunikation zwischen GPUs eingesetzt. Über diese Links erfolgt auch die herkömmliche IP-Kommunikation für den NFS-Storage-Zugriff. Jeder Storage-Controller ist über vier 100-GbE-Links mit den Netzwerk-Switches verbunden. Die folgende Abbildung zeigt die in diesem technischen Bericht verwendete ONTAP AI Lösungsarchitektur für alle Testszenarien.
In dieser Lösung verwendete Hardware
Diese Lösung wurde mit der ONTAP AI Referenzarchitektur zwei DGX-1-Nodes und einem AFF A800 Storage-System validiert. "NVA-1121"Weitere Informationen zur in dieser Validierung verwendeten Infrastruktur finden Sie unter.
In der folgenden Tabelle werden die Hardwarekomponenten aufgeführt, die für die Implementierung der getesteten Lösung erforderlich sind.
Trennt | Menge |
---|---|
DGX-1-Systeme |
2 |
AFF A800 |
1 |
Switches der Nexus 3232C-Serie |
2 |
Softwareanforderungen
Diese Lösung wurde mit einer grundlegenden Kubernetes-Implementierung validiert, bei der der Run:AI Operator installiert ist. Kubernetes wurde mit dem implementiert "NVIDIA DeepOps" Deployment Engine: Hier werden alle erforderlichen Komponenten für eine produktionsbereite Umgebung implementiert. DeepOps wird automatisch implementiert "NetApp Trident" Zur persistenten Storage-Integration in die Umgebung k8s wurden StandardStorage-Klassen erstellt, sodass Container Storage aus dem AFF A800 Storage-System nutzen können. Weitere Informationen zu Trident mit Kubernetes zu ONTAP AI finden Sie unter "TR-4798".
In der folgenden Tabelle werden die Softwarekomponenten aufgeführt, die für die Implementierung der Lösung erforderlich sind.
Software | Version oder sonstige Informationen |
---|---|
NetApp ONTAP Datenmanagement-Software |
9,6p4 |
Cisco NX-OS Switch-Firmware |
7.0(3)I6(1) |
NVIDIA DGX-BETRIEBSSYSTEM |
4.0.4 – Ubuntu 18.04 LTS |
Kubernetes-Version |
1.17 |
Trident Version |
20.04.0 |
Ausführen:AI-CLI |
V2.1.13 |
Run:AI Orchestration Kubernetes Operator Version |
1.0.39 |
Docker-Container-Plattform |
18.06.1-ce [e68fc7a] |
Weitere Software-Anforderungen für Run:AI finden Sie unter "Run:AI-GPU-Cluster-Voraussetzungen".