La versione in lingua italiana fornita proviene da una traduzione automatica. Per eventuali incoerenze, fare riferimento alla versione in lingua inglese.

NVA-1173 NetApp FlexPod con sistemi DGX NVIDIA - convalida della soluzione e linee guida al dimensionamento

11/14/2024 Collaboratori

PDF

Questa sezione è incentrata sulla convalida della soluzione e sulle linee guida sul dimensionamento per l'FlexPod di NetApp con sistemi NVIDIA DGX.

Convalida della soluzione

La configurazione dello storage in questa soluzione è stata convalidata utilizzando una serie di carichi di lavoro sintetici utilizzando il tool open-source FIO. Questi test includono modelli di i/o in lettura e scrittura ideati per simulare il carico di lavoro dello storage generato dai sistemi DGX che eseguono lavori di training di deep learning. La configurazione dello storage è stata convalidata utilizzando un cluster di server CPU a 2 socket che eseguono contemporaneamente i carichi di lavoro FIO per simulare un cluster di sistemi DGX. Ciascun client è stato configurato con la stessa configurazione di rete descritta in precedenza, con l'aggiunta dei seguenti dettagli.

Per questa convalida sono state utilizzate le seguenti opzioni di montaggio:

vers=4,1

Abilita pNFS per l'accesso parallelo a più nodi storage

proto=rdma

Consente di impostare il protocollo di trasferimento su RDMA anziché sul TCP predefinito

porta=20049

Specificare la porta corretta per il servizio NFS RDMA

max_connect=16

Abilita il trunking di sessione NFS per aggregare la larghezza di banda delle porte di storage

write=desideroso

migliora le prestazioni di scrittura delle scritture bufferizzate

rsize=262144,wsize=262144

Imposta le dimensioni di trasferimento i/o su 256k

Inoltre, i client sono stati configurati con un valore NFS max_session_slot pari a 1024. Quando la soluzione è stata collaudata con NFS su RDMA, le porte di storage network sono state configurate con un legame attivo/passivo. Per questa convalida sono stati utilizzati i seguenti parametri di legame:

mode=backup attivo

imposta il legame in modalità attiva/passiva

primary (primario) = <interface name>

le interfacce primarie per tutti i client sono state distribuite tra gli switch

intervallo-monitor-mii=100

specifica l'intervallo di monitoraggio di 100ms

fail-over-mac-policy=attivo

Specifica che l'indirizzo MAC del collegamento attivo è il MAC del collegamento. Ciò è necessario per il corretto funzionamento di RDMA sull'interfaccia collegata.

Il sistema storage è stato configurato come descritto con due coppie ha A900 (4 controller) con due shelf di dischi NS224 da 24 1,9TB dischi NVMe collegati a ciascuna coppia ha. Come indicato nella sezione "architettura", la capacità dello storage di tutti i controller è stata combinata con un volume FlexGroup, distribuendo i dati di tutti i client in tutti i controller del cluster.

Guida al dimensionamento del sistema storage

NetApp ha completato con successo la certificazione DGX BasePOD, e le due coppie ha A90 testate possono supportare facilmente un cluster di sedici sistemi DGX H100. Per implementazioni più estese con requisiti di performance dello storage più elevati, è possibile aggiungere sistemi AFF al cluster NetApp ONTAP fino a 12 coppie ha (24 nodi) in un singolo cluster. Utilizzando la tecnologia FlexGroup descritta in questa soluzione, un cluster a 24 nodi può offrire oltre 79 PB e un throughput fino a 552 Gbps in un singolo namespace. Altri sistemi storage NetApp come AFF A400, A250 e C800 offrono performance e/o capacità superiori per implementazioni più piccole a prezzi inferiori. Poiché ONTAP 9 supporta cluster di modelli misti, i clienti possono partire con un impatto iniziale minore e aggiungere al cluster più sistemi storage o più grandi man mano che crescono i requisiti di capacità e performance. La tabella seguente mostra una stima approssimativa del numero di GPU A100 e H100 supportate su ciascun modello AFF.

Guida al dimensionamento del sistema storage NetApp

Figura che mostra la finestra di dialogo input/output o rappresenta il contenuto scritto

NVA-1173 NetApp FlexPod con sistemi DGX NVIDIA - convalida della soluzione e linee guida al dimensionamento

Creating your file...

Convalida della soluzione

Guida al dimensionamento del sistema storage