NVA-1173 NetApp FlexPod con sistemi NVIDIA DGX H100 - architettura della soluzione
Questa sezione si concentra sull'architettura per l'FlexPod di NetApp con sistemi NVIDIA DGX.
NetApp FlexPod con sistemi DGX
Questa architettura di riferimento sfrutta fabric separati per l'interconnessione del cluster di calcolo e l'accesso allo storage, con connettività InfiniBand (IB) a 400GB GB/s tra nodi di calcolo. Il disegno qui sotto mostra la topologia della soluzione globale di NetApp FlexPod con sistemi DGX H100.
Topologia soluzione AIpod NetApp
Progettazione di rete
In questa configurazione il cluster fabric di elaborazione utilizza una coppia di switch IB da QM9700 400GB GB/s, connessi insieme per high Availability. Ogni sistema DGX H100 è collegato agli switch utilizzando otto connessioni, con porte con numero pari collegate a uno switch e porte con numero dispari collegate all'altro switch.
Per l'accesso al sistema di storage, la gestione in banda e l'accesso client, viene utilizzata una coppia di switch Ethernet SN4600. Gli switch sono collegati con collegamenti inter-switch e configurati con più VLAN per isolare i vari tipi di traffico. Il routing L3 di base è abilitato tra VLAN specifiche per consentire percorsi multipli tra interfacce client e storage sullo stesso switch e tra switch per garantire una disponibilità elevata. Per implementazioni di dimensioni maggiori, la rete Ethernet può essere estesa a una configurazione leaf-spine aggiungendo ulteriori coppie di switch per gli switch spine e altre schede, se necessario.
Oltre all'interconnessione di elaborazione e alle reti Ethernet ad alta velocità, tutti i dispositivi fisici sono collegati anche a uno o più switch Ethernet SN2201 per la gestione fuori banda. Consultare la "dettagli di implementazione" pagina per ulteriori informazioni sulla configurazione di rete.
Panoramica dell'accesso allo storage per i sistemi DGX H100
Ogni sistema DGX H100 viene fornito con due adattatori ConnectX-7 a due porte per il traffico di gestione e storage e, per questa soluzione, entrambe le porte su ogni scheda sono collegate allo stesso switch. Una porta di ogni scheda viene quindi configurata in un legame LACP MLAG con una porta collegata a ogni switch, e VLAN per la gestione in banda, l'accesso client e l'accesso di storage a livello utente sono ospitate su questo legame.
L'altra porta su ciascuna scheda viene utilizzata per la connettività ai sistemi di storage AFF A90 e può essere utilizzata in diverse configurazioni a seconda dei requisiti del carico di lavoro. Per le configurazioni che utilizzano NFS su RDMA per supportare l'archiviazione NVIDIA Magnum io GPUDirect, le porte vengono utilizzate singolarmente con indirizzi IP in VLAN separate. Per le distribuzioni che non richiedono RDMA, le interfacce di storage possono anche essere configurate con il bonding LACP in modo da offrire elevata disponibilità e larghezza di banda aggiuntiva. Con o senza RDMA, i client possono montare il sistema di storage utilizzando NFS v4,1 pNFS e Session trunking per consentire l'accesso parallelo a tutti i nodi di storage nel cluster. Consultare la "dettagli di implementazione" pagina per ulteriori informazioni sulla configurazione del client.
Per ulteriori informazioni sulla connettività del sistema DGX H100, fare riferimento alla "Documentazione NVIDIA BasePOD".
Progettazione del sistema storage
Ogni sistema storage AFF A90 è connesso usando sei porte 200 GbE da ciascun controller. Quattro porte da ciascun controller sono utilizzate per l'accesso ai dati dei carichi di lavoro dai sistemi DGX e due porte da ciascun controller sono configurate come un gruppo di interfacce LACP per supportare l'accesso dai server di piani di gestione per gli artefatti di gestione del cluster e le home directory dell'utente. L'accesso ai dati dal sistema storage viene fornito tramite NFS, con una Storage Virtual Machine (SVM) dedicata all'accesso ai workload e una SVM separata dedicata agli utilizzi della gestione del cluster.
La SVM di gestione richiede un singolo LIF, ospitato nei gruppi di interfacce a 2 porte configurati su ciascun controller. Nella SVM di gestione viene eseguito il provisioning di altri volumi FlexGroup per alloggiare elementi legati alla gestione del cluster, come le immagini dei nodi del cluster, i dati storici del monitoraggio del sistema e le home directory degli utenti finali. Il disegno qui sotto mostra la configurazione logica del sistema di archiviazione.
Configurazione logica cluster di archiviazione NetApp A90
Server piani di gestione
Questa architettura di riferimento include anche cinque server basati su CPU per gli utilizzi dei piani di gestione. Due di questi sistemi sono utilizzati come nodi principali per NVIDIA base Command Manager per l'implementazione e la gestione del cluster. Gli altri tre sistemi sono utilizzati per fornire servizi cluster aggiuntivi come nodi master Kubernetes o nodi di login per implementazioni che utilizzano Slurm per la pianificazione dei processi. Le implementazioni che utilizzano Kubernetes possono sfruttare il driver NetApp Trident CSI per fornire provisioning automatizzato e servizi dati con storage persistente per i carichi di lavoro di gestione e ai sul sistema storage AFF A900.
Ciascun server è fisicamente collegato sia agli switch IB che agli switch Ethernet per consentire l'implementazione e la gestione del cluster e configurato con mount NFS al sistema storage tramite la SVM di gestione per lo storage degli artefatti di gestione dei cluster, come descritto in precedenza.