NVIDIA DGX SuperPOD con NetApp - Guida alla progettazione
Questa architettura verificata NetApp descrive la progettazione di NVIDIA DGX SuperPOD con i building block NetApp® BeeGFS®. Questa soluzione è una piattaforma di data center full-stack validata in un cluster di accettazione dedicato di NVIDIA.
Amine Bennani, Christian Whiteside, David Arnette e Satish Thyagarajan, NetApp
Sintesi
Nel panorama tecnologico odierno in rapida evoluzione, l'ai sta rivoluzionando le esperienze dei consumatori e promuovendo l'innovazione in tutti i settori. Tuttavia, presenta anche sfide significative per i reparti IT, che sono sotto pressione per implementare soluzioni di high-performance computing (HPC) in grado di gestire le intense richieste dei carichi di lavoro ai. Con la corsa delle organizzazioni per sfruttare il potere dell'ai, cresce l'urgenza di una soluzione semplice da implementare, scalare e gestire.
NVIDIA DGX SuperPOD è una piattaforma infrastrutturale per data center ai fornita come soluzione pronta all'uso per L'IT, che supporta i workload ai più complessi che devono affrontare le aziende moderne. Al centro di qualsiasi accurato modello di deep learning (DL) vi sono grandi volumi di dati, che richiedono una soluzione storage ad alto throughput in grado di servire e servire in modo efficiente questi dati. La soluzione NetApp BeeGFS, composta da storage array NetApp EF600 con il file system parallelo BeeGFS, consente a NVIDIA DGX SuperPOD di sfruttare tutte le sue funzionalità. La soluzione NetApp BeeGFS è stata validata da NVIDIA per integrarsi e scalare con l'architettura SuperPOD. Il risultato è un'implementazione e una gestione del data center ai semplificate e una scalabilità virtualmente illimitata per performance e capacità.
Panoramica della soluzione
La soluzione NetApp BeeGFS, basata sui sistemi di storage NetApp EF600 NVMe dalle performance elevate e sul file system parallelo BeeGFS scalabile, offre una base storage solida ed efficiente per gli esigenti workload ai. La sua architettura a disco condiviso garantisce un'elevata disponibilità, mantenendo prestazioni e accessibilità costanti, anche di fronte alle sfide dei sistemi. Questa soluzione fornisce un'architettura flessibile e scalabile che può essere personalizzata per soddisfare varie esigenze di storage. I clienti possono espandere con facilità le performance e la capacità dello storage integrando building block di storage aggiuntivi per gestire anche i carichi di lavoro più impegnativi.
Tecnologia della soluzione
-
NVIDIA DGX SuperPOD sfrutta i sistemi DGX H100 e H200 con uno storage condiviso validato e collegato esternamente:
-
Ogni unità scalabile DGX SuperPOD (su) è composta da 32 sistemi DGX e offre 640 petabyte di performance ai con una precisione FP8/3. NetApp consiglia di dimensionare la soluzione di storage BeeGFS NetApp con almeno 2 building block per una singola configurazione DGX SuperPOD.
-
Una visione di alto livello della soluzione
-
I building block di NetApp BeeGFS sono costituiti da due array NetApp EF600 e due server x86:
-
Con gli array all-flash NetApp EF600 alla base di NVIDIA DGX SuperPOD, i clienti ottengono una base storage affidabile supportata da sei 9s di uptime.
-
Il livello del file system tra i sistemi NetApp EF600 e NVIDIA DGX è il file system parallelo BeeGFS. BeeGFS è stato creato dal Fraunhofer Center for High-Performance Computing in Germania per risolvere i punti critici dei file system paralleli legacy. Il risultato è un file system con una moderna architettura dello spazio utente, ora sviluppata e fornita da ThinkParQ e utilizzata da molti ambienti di supercomputing.
-
Il supporto di NetApp per BeeGFS allinea l'eccellente organizzazione di supporto di NetApp con i requisiti dei clienti in termini di performance e uptime. I clienti possono accedere a risorse di supporto di livello superiore, all'accesso anticipato alle release di BeeGFS e a funzioni aziendali di BeeGFS selezionate, come l'applicazione delle quote e l'alta disponibilità (ha).
-
-
La combinazione dei building block NVIDIA SuperPOD SUS e NetApp BeeGFS offre una soluzione ai agile in cui si scala in modo semplice e perfetto le risorse di calcolo o storage.
Building block BeeGFS di NetApp
Riepilogo dei casi d'utilizzo
Questa soluzione si applica ai seguenti casi di utilizzo:
-
Intelligenza artificiale (ai) che include machine learning (ML), deep learning (DL), elaborazione del linguaggio naturale (NLP), comprensione del linguaggio naturale (NLU) e ai generativa (Genai).
-
Formazione ai su media e grande scala
-
Computer vision, voce, audio e modelli linguistici
-
HPC include applicazioni accelerate tramite l'interfaccia di trasmissione messaggi (MPI) e altre tecniche di elaborazione distribuita
-
Workload delle applicazioni caratterizzati da:
-
Lettura o scrittura su file di dimensioni superiori a 1 GB
-
Lettura o scrittura sullo stesso file da parte di più client (10, 100 e 1000)
-
-
Set di dati da più terabyte o petabyte
-
Ambienti che richiedono un unico spazio dei nomi di storage ottimizzabile per una combinazione di file di grandi e piccole dimensioni
Requisiti tecnologici
Questa sezione descrive i requisiti tecnologici della soluzione NVIDIA DGX SuperPOD con NetApp.
Requisiti hardware
La tabella 1 riportata di seguito elenca i componenti hardware necessari per implementare la soluzione per una singola su. Il dimensionamento della soluzione inizia con 32 sistemi NVIDIA DGX H100 e due o tre building block NetApp BeeGFS.
Un singolo building block BeeGFS di NetApp è composto da due array NetApp EF600 e due server x86. I clienti possono aggiungere building block aggiuntivi con l'aumento delle dimensioni dell'implementazione. Per ulteriori informazioni, consultare "Architettura di riferimento NVIDIA DGX H100 SuperPOD" e. "NVA-1164-DESIGN: BeeGFS su NetApp NVA Design".
Hardware | Quantità |
---|---|
NVIDIA DGX H100 o H200 |
32 |
Switch NVIDIA Quantum QM9700 |
8 foglia, 4 colonna vertebrale |
Blocchi di costruzione BeeGFS NetApp |
3 |
Requisiti software
La tabella 2 riportata di seguito elenca i componenti software necessari per implementare la soluzione. I componenti software utilizzati in una particolare implementazione della soluzione possono variare in base ai requisiti del cliente.
Software |
---|
Stack software NVIDIA DGX |
NVIDIA base Command Manager |
File system parallelo ThinkParQ BeeGFS |
Verifica della soluzione
NVIDIA DGX SuperPOD con NetApp è stato validato in un cluster di accettazione dedicato presso NVIDIA utilizzando i building block NetApp BeeGFS. I criteri di accettazione si basano su una serie di test applicativi, prestazionali e di stress eseguiti da NVIDIA. Per ulteriori informazioni, consultare "NVIDIA DGX SuperPOD: Architettura di riferimento NetApp EF600 e BeeGFS".
Conclusione
NetApp e NVIDIA hanno una lunga storia di collaborazione per fornire un portfolio di soluzioni ai sul mercato. NVIDIA DGX SuperPOD con l'array all-flash NetApp EF600 è una soluzione comprovata e validata che i clienti possono implementare in tutta sicurezza. Questa architettura completamente integrata e pronta all'uso elimina i rischi legati all'implementazione e aiuta chiunque a vincere la corsa alla leadership dell'ai.
Dove trovare ulteriori informazioni
Per ulteriori informazioni sulle informazioni descritte in questo documento, consultare i seguenti documenti e/o siti Web: