Skip to main content
NetApp Solutions
Die deutsche Sprachversion wurde als Serviceleistung für Sie durch maschinelle Übersetzung erstellt. Bei eventuellen Unstimmigkeiten hat die englische Sprachversion Vorrang.

Lösungstechnologie

Beitragende

Diese Lösung wurde mit einem NetApp AFF A800 System, zwei DGX-1-Servern und zwei Cisco Nexus 3232C 100-GbE-Switches implementiert. Jeder DGX-1-Server ist über vier 100-GbE-Verbindungen mit den Nexus-Switches verbunden. Letztere werden mittels RDMA (Remote Direct Memory Access) over Converged Ethernet (RoCE) für die Kommunikation zwischen GPUs eingesetzt. Über diese Links erfolgt auch die herkömmliche IP-Kommunikation für den NFS-Storage-Zugriff. Jeder Storage-Controller ist über vier 100-GbE-Links mit den Netzwerk-Switches verbunden. Die folgende Abbildung zeigt die in diesem technischen Bericht verwendete ONTAP AI Lösungsarchitektur für alle Testszenarien.

Fehler: Fehlendes Grafikbild

In dieser Lösung verwendete Hardware

Diese Lösung wurde mit der ONTAP AI Referenzarchitektur zwei DGX-1-Nodes und einem AFF A800 Storage-System validiert. Siehe "NVA-1121" Weitere Informationen zur in dieser Validierung verwendeten Infrastruktur

In der folgenden Tabelle werden die Hardwarekomponenten aufgeführt, die für die Implementierung der getesteten Lösung erforderlich sind.

Trennt Menge

DGX-1-Systeme

2

AFF A800

1

Switches der Nexus 3232C-Serie

2

Softwareanforderungen

Diese Lösung wurde mit einer grundlegenden Kubernetes-Implementierung validiert, bei der der Run:AI Operator installiert ist. Kubernetes wurde mit dem implementiert "NVIDIA DeepOps" Deployment Engine: Hier werden alle erforderlichen Komponenten für eine produktionsbereite Umgebung implementiert. DeepOps wird automatisch implementiert "NetApp Trident" Zur persistenten Storage-Integration in die Umgebung k8s wurden StandardStorage-Klassen erstellt, sodass Container Storage aus dem AFF A800 Storage-System nutzen können. Weitere Informationen zu Trident mit Kubernetes zu ONTAP AI finden Sie unter "TR-4798".

In der folgenden Tabelle werden die Softwarekomponenten aufgeführt, die für die Implementierung der Lösung erforderlich sind.

Software Version oder sonstige Informationen

NetApp ONTAP Datenmanagement-Software

9,6p4

Cisco NX-OS Switch-Firmware

7.0(3)I6(1)

NVIDIA DGX-BETRIEBSSYSTEM

4.0.4 – Ubuntu 18.04 LTS

Kubernetes-Version

1.17

Trident Version

20.04.0

Ausführen:AI-CLI

V2.1.13

Run:AI Orchestration Kubernetes Operator Version

1.0.39

Docker-Container-Plattform

18.06.1-ce [e68fc7a]

Weitere Software-Anforderungen für Run:AI finden Sie unter "Run:AI-GPU-Cluster-Voraussetzungen".