NVIDIA DGX SuperPOD mit NetApp – Designleitfaden
Diese NetApp Verified Architecture beschreibt das Design des NVIDIA DGX SuperPOD mit NetApp® BeeGFS® Bausteinen. Bei dieser Lösung handelt es sich um eine Full-Stack-Datacenter-Plattform, die auf einem dedizierten Abnahme-Cluster bei NVIDIA validiert ist.
Amine Bennani, Christian Whiteside, David Arnette und Sathish Thyagarajan, NetApp
Zusammenfassung
Angesichts der sich schnell entwickelnden technologischen Landschaft von heute revolutioniert KI die Nutzererfahrung und fördert Innovationen in allen Branchen. Gleichzeitig stellt sie IT-Abteilungen jedoch vor erhebliche Herausforderungen. Sie stehen unter dem Druck, High-Performance-Computing-Lösungen (HPC) einzusetzen, die die hohen Anforderungen von KI-Workloads bewältigen müssen. Unternehmen wollen das Potenzial von KI nutzen. Daher ist die Dringlichkeit einer leicht zu implementierenden, zu skalierenden und zu managenden Lösung dringend notwendig.
NVIDIA DGX SuperPOD ist eine KI-Datacenter-Infrastrukturplattform, die als sofort einsatzbereite Lösung für die IT bereitgestellt wird, um die komplexesten KI-Workloads moderner Unternehmen zu unterstützen. Der Kern jedes Deep-Learning-Modells (DL) sind große Datenvolumen, die eine Storage-Lösung mit hohem Durchsatz benötigen, die diese Daten effizient bereitstellen und bereitstellen kann. Die NetApp BeeGFS-Lösung bestehend aus NetApp EF600 Storage-Arrays mit dem parallelen Filesystem BeeGFS ermöglicht dem NVIDIA DGX SuperPOD, den vollen Funktionsumfang zu nutzen. Die NetApp BeeGFS Lösung wurde von NVIDIA validiert, um sie in die SuperPOD-Architektur zu integrieren und zu skalieren. Dadurch wird die Implementierung und das Management von KI-Datacentern vereinfacht und gleichzeitig eine nahezu unbegrenzte Skalierbarkeit für Performance und Kapazität erzielt.
Lösungsüberblick
Die NetApp BeeGFS-Lösung basiert auf den hochperformanten NetApp EF600 NVMe-Storage-Systemen und dem skalierbaren parallelen Filesystem BeeGFS und bietet eine robuste und effiziente Storage-Grundlage für anspruchsvolle KI-Workloads. Die gemeinsam genutzte Festplattenarchitektur sorgt für eine hohe Verfügbarkeit und stellt auch bei Systemherausforderungen eine konsistente Performance und Zugriffsmöglichkeit sicher. Diese Lösung bietet eine skalierbare und flexible Architektur, die an verschiedenste Storage-Anforderungen angepasst werden kann. Kunden können einfach ihre Storage-Performance und -Kapazität durch die Integration zusätzlicher Storage-Bausteine zur Verarbeitung selbst anspruchsvollster Workloads erhöhen.
Lösungstechnologie
-
NVIDIA DGX SuperPOD nutzt DGX H100- und H200-Systeme mit einem validierten, extern angeschlossenen Shared Storage:
-
Jede DGX SuperPOD Scalable Unit (SU) besteht aus 32 DGX-Systemen und kann KI-Performance mit 640 Petaflops bei FP8-Präzision erzielen. NetApp empfiehlt, die NetApp BeeGFS Storage-Lösung mit mindestens 2 Bausteinen für eine einzelne DGX-SuperPOD-Konfiguration zu dimensionieren.
-
Eine allgemeine Sicht auf die Lösung
-
NetApp BeeGFS-Bausteine bestehen aus zwei NetApp EF600 Arrays und zwei x86-Servern:
-
Mit NetApp EF600 All-Flash-Arrays als Grundlage für NVIDIA DGX SuperPOD erhalten Kunden eine zuverlässige Storage-Grundlage, unterstützt durch eine Uptime von 99,9999 %.
-
Die Filesystem-Schicht zwischen dem NetApp EF600 und den NVIDIA DGX-Systemen ist das parallele Filesystem BeeGFS. BeeGFS wurde vom Fraunhofer-Institut für Algorithmen und Wissenschaftliches Rechnen SCAI entworfen, um Probleme im Zusammenhang mit parallelen Legacy-Filesystemen zu beheben. Das Endergebnis war ein Filesystem mit einer modernen Benutzerraumarchitektur, das jetzt von ThinkParQ entwickelt und bereitgestellt und in vielen Supercomputing-Umgebungen eingesetzt wird.
-
Die NetApp Unterstützung für BeeGFS sorgt dafür, dass die hervorragende Supportabteilung von NetApp auf die Kundenanforderungen an Performance und Uptime abgestimmt ist. Kunden erhalten Zugriff auf erstklassige Support-Ressourcen, frühzeitigen Zugriff auf BeeGFS-Versionen und Zugriff auf ausgewählte BeeGFS Enterprise-Funktionen wie Kontingente und Hochverfügbarkeit.
-
-
Die Kombination aus NVIDIA SuperPOD Sus und NetApp BeeGFS-Bausteinen stellt eine agile KI-Lösung dar, bei der Computing- oder Storage-Ressourcen einfach und nahtlos skaliert werden können.
NetApp BeeGFS-Baustein
Zusammenfassung Des Anwendungsfalls
Diese Lösung trifft auf folgende Anwendungsfälle zu:
-
Künstliche Intelligenz (KI), einschließlich Machine Learning (ML), Deep Learning (DL), Natural Language Processing (NLP), Natural Language Understanding (NLU) und Generative AI (GenAI).
-
Mittelgroßes bis großes KI-Training
-
Computer Vision-, sprach-, Audio- und Sprachmodelle
-
HPC einschließlich Anwendungen, die durch Message Passing Interface (MPI) und andere verteilte Computertechniken beschleunigt werden
-
Merkmale der Applikations-Workloads:
-
Lesen oder Schreiben auf Dateien mit einer Größe von mehr als 1 GB
-
Lesen oder Schreiben in dieselbe Datei durch mehrere Clients (10s, 100s und 1000s)
-
-
Datensätze von mehreren Terabyte oder mehr Petabyte
-
Umgebungen, die einen einzelnen Storage Namespace benötigen, der für eine Mischung aus großen und kleinen Dateien optimiert werden kann
Technologieanforderungen Erfüllt
In diesem Abschnitt werden die Technologieanforderungen für die NVIDIA DGX SuperPOD mit NetApp Lösung behandelt.
Hardwareanforderungen
In Tabelle 1 sind die Hardwarekomponenten aufgeführt, die für die Implementierung der Lösung für eine einzelne SU erforderlich sind. Das Sizing der Lösung beginnt mit 32 NVIDIA DGX-H100-Systemen und zwei oder drei NetApp BeeGFS-Bausteinen.
Ein einzelner NetApp BeeGFS-Baustein besteht aus zwei NetApp EF600 Arrays und zwei x86-Servern. Wenn die Implementierung größer wird, können Kunden weitere Bausteine hinzufügen. Weitere Informationen finden Sie im "NVIDIA DGX H100 SuperPOD Referenzarchitektur" Und "NVA-1164-DESIGN: BeeGFS auf NetApp NVA Design".
Trennt | Menge |
---|---|
NVIDIA DGX H100 oder H200 |
32 |
NVIDIA Quantum QM9700-Switches |
8 Blatt, 4 Wirbelsäule |
NetApp BeeGFS-Bausteine |
3 |
Softwareanforderungen
In Tabelle 2 sind die Softwarekomponenten aufgeführt, die für die Implementierung der Lösung erforderlich sind. Je nach den Anforderungen des Kunden können die in einer konkreten Implementierung dieser Lösung verwendeten Softwarekomponenten abweichen.
Software |
---|
NVIDIA DGX Software-Stack |
NVIDIA Base Command Manager |
Paralleles Filesystem ThinkParQ BeeGFS |
Verifizierung der Lösung
NVIDIA DGX SuperPOD mit NetApp wurde mithilfe von NetApp BeeGFS-Bausteinen in einem dedizierten Abnahme-Cluster bei NVIDIA validiert. Die Abnahmekriterien basierten auf einer Reihe von Applikations-, Performance- und Stresstests, die von NVIDIA durchgeführt wurden. Weitere Informationen finden Sie im "NVIDIA DGX SuperPOD: NetApp EF600 und BeeGFS Referenzarchitektur".
Schlussfolgerung
NetApp und NVIDIA arbeiten seit langem zusammen und bieten ein gemeinsames Portfolio mit KI-Lösungen an. NVIDIA DGX SuperPOD mit dem NetApp EF600 All-Flash-Array ist eine bewährte, validierte Lösung, auf die Kunden sich verlassen können. Diese vollständig integrierte und sofort einsatzbereite Architektur minimiert die Risiken bei der Implementierung und ebnet allen den Weg zum Erfolg mit KI-Lösungen.
Wo Sie weitere Informationen finden
Sehen Sie sich die folgenden Dokumente und/oder Websites an, um mehr über die in diesem Dokument beschriebenen Informationen zu erfahren: