Skip to main content
NetApp Solutions
La version française est une traduction automatique. La version anglaise prévaut sur la française en cas de divergence.

NVIDIA DGX SuperPOD avec NetApp - Guide de conception

Contributeurs

Cette architecture vérifiée NetApp décrit la conception du système NVIDIA DGX SuperPOD avec les éléments de base NetApp® BeeGFS®. Cette solution est une plateforme de data Center de pile complète validée sur un cluster dédié de NVIDIA.

200 200

Amine Bennani, Christian Whiteside, David Arnette et Sathyish Thyagarajan, NetApp

Synthèse

Dans le monde technologique qui évolue rapidement, l'IA révolutionne les expériences client et favorise l'innovation dans tous les secteurs. Mais elle présente aussi des défis de taille pour les départements IT qui sont soumis à d'importantes pressions pour déployer des solutions de calcul haute performance (HPC) capables de gérer les demandes intenses de charges de travail d'IA. Alors que les entreprises sont dans la course à exploiter la puissance de l'IA, l'urgence d'une solution facile à déployer, à faire évoluer et à gérer se développe.

NVIDIA DGX SuperPOD est une plateforme d'infrastructure de data Center d'IA fournie en tant que solution clé en main pour prendre en charge les workloads d'IA les plus complexes auxquels les entreprises modernes sont confrontées. Un modèle de deep learning (DL) précis se base sur de grands volumes de données. Une solution de stockage haut débit doit donc être capable de transmettre et de rétablir efficacement le service de ces données. La solution NetApp BeeGFS, composée de baies de stockage NetApp EF600 et du système de fichiers parallèle BeeGFS, permet à NVIDIA DGX SuperPOD d'exploiter tout son potentiel. La solution NetApp BeeGFS a été validée par NVIDIA pour s'intégrer et évoluer avec l'architecture SuperPOD. Résultat : un déploiement et une gestion simplifiés du data Center d'IA, avec une évolutivité pratiquement illimitée pour la performance et la capacité.

Présentation de la solution

La solution NetApp BeeGFS, optimisée par les systèmes de stockage NVMe EF600 haute performance de NetApp et le système de fichiers parallèles évolutif BeeGFS, offre un socle de stockage robuste et efficace pour les workloads d'IA exigeants. Son architecture de disque partagé assure une haute disponibilité tout en garantissant des performances et une accessibilité cohérentes, même en cas de défis système. Cette solution offre une architecture évolutive et flexible, que vous pouvez personnaliser pour répondre à divers besoins en stockage. Les clients peuvent facilement étendre les performances et la capacité de stockage en intégrant des éléments de base de stockage supplémentaires pour gérer les charges de travail les plus exigeantes.

Technologie de la solution

  • NVIDIA DGX SuperPOD exploite les systèmes DGX H100 et H200 avec un système de stockage partagé connecté en externe validé :

    • Chaque unité évolutive DGX SuperPOD est composée de 32 systèmes DGX et peut traiter 640 pétaflops de performances d'IA avec une précision du FP8. NetApp recommande de dimensionner la solution de stockage NetApp BeeGFS avec au moins 2 éléments de base pour une configuration DGX SuperPOD unique.

Une vue de haut niveau de la solution

Figure présentant une vue d'ensemble générale de la solution NetApp BeeGFS avec un système NVIDIA DGX SuperPOD.

  • Les éléments de base NetApp BeeGFS comprennent deux baies NetApp EF600 et deux serveurs x86 :

    • Avec les baies 100 % Flash NetApp EF600 comme base de NVIDIA DGX SuperPOD, les clients bénéficient d'une base de stockage fiable avec une disponibilité de 99,9999 %.

    • La couche du système de fichiers entre la baie NetApp EF600 et le système NVIDIA DGX est le système de fichiers parallèles BeeGFS. BeeGFS a été créé en Allemagne par le Centre de calcul haute performance de Fraunhofer afin de résoudre les difficultés liées aux anciens systèmes de fichiers parallèles. Il en résulte un système de fichiers avec une architecture moderne de l'espace utilisateur, désormais développé et fourni par ThinkParQ et utilisé par de nombreux environnements de supercalculateur.

    • Le support NetApp pour BeeGFS permet de répondre à l'excellent service de support de NetApp selon les besoins des clients en matière de performance et de disponibilité. Vous bénéficiez de ressources de support supérieures, d'un accès anticipé aux versions de BeeGFS et de l'accès à certaines fonctionnalités d'entreprise BeeGFS, telles que l'application de quotas et la haute disponibilité (HA).

  • La combinaison des unités d'unités d'unités d'unités d'unités d'intelligence artificielle NVIDIA SuperPOD et des éléments de base NetApp BeeGFS fournit une solution d'IA agile permettant une évolutivité facile et transparente du calcul ou du stockage.

Élément de base NetApp BeeGFS

Figure illustrant un élément de base NetApp BeeGFS

Récapitulatif des cas d'utilisation

Cette solution s'applique aux cas d'utilisation suivants :

  • Intelligence artificielle (IA) incluant le machine learning (ML), le deep learning (DL), le traitement du langage naturel (TLN), la compréhension du langage naturel (NLU) et l'IA générative (GenAI).

  • Entraînement d'IA à grande échelle

  • Modèles de vision par ordinateur, de discours, d'audio et de langage

  • Le calcul intensif, y compris les applications accélérées par l'interface MPI (message Passing interface) et d'autres techniques de calcul distribué

  • Charges de travail applicatives caractérisées par ce qui suit :

    • Lecture ou écriture dans des fichiers supérieurs à 1 Go

    • Lecture ou écriture dans le même fichier par plusieurs clients (dizaines, centaines et milliers)

  • Jeux de données de plusieurs téraoctets ou plusieurs pétaoctets

  • Les environnements qui ont besoin d'un seul espace de noms de stockage peuvent être optimisables pour un mélange de fichiers volumineux et de petits fichiers

Exigences technologiques

Cette section aborde les exigences technologiques de la solution NVIDIA DGX SuperPOD avec NetApp.

Configuration matérielle requise

Le tableau 1 ci-dessous répertorie les composants matériels nécessaires à la mise en œuvre de la solution pour un seul terminal radio. Le dimensionnement de la solution commence avec 32 systèmes NVIDIA DGX H100 et deux ou trois éléments de base NetApp BeeGFS.
Un élément de base NetApp BeeGFS est constitué de deux baies NetApp EF600 et de deux serveurs x86. Les clients peuvent ajouter des éléments de base supplémentaires à mesure que la taille du déploiement augmente. Pour plus d'informations, reportez-vous à la section "Architecture de référence NVIDIA DGX H100 SuperPOD" et "NVA-1164-DESIGN : BeeGFS sur NetApp NVA Design".

Sous-jacent Quantité

NVIDIA DGX H100 ou H200

32

Commutateurs NVIDIA Quantum QM9700

8 lames, 4 rachis

Éléments de base NetApp BeeGFS

3

Configuration logicielle requise

Le tableau 2 ci-dessous répertorie les composants logiciels requis pour implémenter la solution. Ils peuvent varier selon la mise en œuvre de la solution et les besoins du client.

Logiciel

Pile logicielle NVIDIA DGX

Gestionnaire de commande de base NVIDIA

Système de fichiers parallèles BeeGFS de ThinkParQ

Vérification de la solution

NVIDIA DGX SuperPOD avec NetApp a été validé sur un cluster d'acceptation dédié chez NVIDIA à l'aide des éléments de base NetApp BeeGFS. Les critères d'acceptation étaient basés sur une série de tests d'application, de performances et d'effort réalisés par NVIDIA. Pour plus d'informations, reportez-vous à la section "NVIDIA DGX SuperPOD : architecture de référence NetApp EF600 et BeeGFS".

Conclusion

NetApp et NVIDIA partagent une longue histoire de collaboration pour proposer une gamme de solutions d'IA sur le marché. Associé à la baie 100 % Flash NetApp EF600, NVIDIA DGX SuperPOD constitue une solution reconnue et validée que les clients peuvent déployer en toute confiance. Cette architecture clé en main entièrement intégrée élimine les risques liés au déploiement et met tous sur la voie de la réussite sur le marché de l'IA.

Où trouver des informations complémentaires

Pour en savoir plus sur les informations données dans ce livre blanc, consultez ces documents et/ou sites web :