Skip to main content
NetApp artificial intelligence solutions
La versione in lingua italiana fornita proviene da una traduzione automatica. Per eventuali incoerenze, fare riferimento alla versione in lingua inglese.

TR-4810: NetApp AFF A400 con Lenovo ThinkSystem SR670 V2 per la formazione di modelli AI e ML

Sathish Thyagarajan, David Arnette, NetApp Mircea Troaca, Lenovo

Questa soluzione presenta un'architettura cluster di fascia media che utilizza storage NetApp e server Lenovo ottimizzati per carichi di lavoro di intelligenza artificiale (AI). È pensato per le piccole e medie imprese, per le quali la maggior parte dei processi di elaborazione avviene su un singolo nodo (con una o più GPU) o è distribuita su pochi nodi di elaborazione. Questa soluzione si adatta alla maggior parte delle attività quotidiane di formazione sull'intelligenza artificiale svolte da molte aziende.

Questo documento riguarda i test e la convalida di una configurazione di elaborazione e storage composta da server Lenovo SR670V2 a otto GPU, un sistema di storage NetApp AFF A400 di fascia media e uno switch di interconnessione da 100 GbE. Per misurare le prestazioni, abbiamo utilizzato ResNet50 con il set di dati ImageNet, una dimensione del batch di 408, mezza precisione, CUDA e cuDNN. Questa architettura fornisce una soluzione efficiente e conveniente per le piccole e medie imprese che stanno appena avviando iniziative di intelligenza artificiale e che richiedono le funzionalità di livello aziendale dell'archiviazione dati connessa al cloud NetApp ONTAP .

Pubblico di destinazione

Il presente documento è destinato ai seguenti destinatari:

  • Data scientist, data engineer, data administrator e sviluppatori di sistemi di intelligenza artificiale

  • Architetti aziendali che progettano soluzioni per lo sviluppo di modelli di intelligenza artificiale

  • Data scientist e data engineer che cercano modi efficienti per raggiungere gli obiettivi di sviluppo di deep learning (DL) e machine learning (ML)

  • Leader aziendali e decisori OT/IT che desiderano raggiungere il time-to-market più rapido possibile per le iniziative di intelligenza artificiale

Architettura della soluzione

Questa soluzione con server Lenovo ThinkSystem e NetApp ONTAP con storage AFF è progettata per gestire l'addestramento dell'intelligenza artificiale su grandi set di dati utilizzando la potenza di elaborazione delle GPU insieme alle CPU tradizionali. Questa convalida dimostra elevate prestazioni e una gestione ottimale dei dati con un'architettura scalabile che utilizza uno, due o quattro server Lenovo SR670 V2 insieme a un singolo sistema di storage NetApp AFF A400 . La figura seguente fornisce una panoramica architettonica.

Questa immagine mostra uno switch Ethernet circondato dal server di gestione, quattro SR670 V2 con otto GPU ciascuno e un sistema di storage NetApp ONTAP .

Questa soluzione NetApp e Lenovo offre i seguenti vantaggi chiave:

  • Prestazioni altamente efficienti e convenienti durante l'esecuzione di più attività di formazione in parallelo

  • Prestazioni scalabili basate su diversi numeri di server Lenovo e diversi modelli di controller di storage NetApp

  • Protezione dati robusta per soddisfare obiettivi di punto di ripristino (RPO) e obiettivi di tempo di ripristino (RTO) bassi senza perdita di dati

  • Gestione ottimizzata dei dati con snapshot e cloni per semplificare i flussi di lavoro di sviluppo