NVIDIA DGX SuperPOD con NetApp: Guía de diseño
Esta arquitectura verificada de NetApp describe el diseño del NVIDIA DGX SuperPOD con elementos básicos NetApp® BeeGFS®. Esta solución es una plataforma de centro de datos de pila completa validada en un clúster de aceptación dedicado de NVIDIA.
Amina Bennani, Christian Whiteside, David Arnette y Sathish Thyagarajan, NetApp
Resumen ejecutivo
La IA está revolucionando las experiencias de los consumidores y impulsando la innovación en todos los sectores, en el panorama tecnológico actual que evoluciona a gran velocidad. No obstante, también presenta retos a los departamentos DE TECNOLOGÍA, que están sometidos a presión de poner en marcha soluciones de computación de alto rendimiento (HPC) capaces de manejar las exigentes demandas de las cargas de trabajo de la IA. A medida que las organizaciones compiten por aprovechar la potencia de la IA, crece la urgencia de encontrar una solución fácil de poner en marcha, escalar y gestionar.
DGX SuperPOD de NVIDIA es una plataforma de infraestructura de centro de datos de IA que se ofrece como solución lista para usar para QUE LOS DEPARTAMENTOS DE tecnología den soporte a las cargas de trabajo de IA más complejas que enfrentan las empresas actuales. En el centro de cualquier modelo de aprendizaje profundo (DL) preciso se encuentran grandes volúmenes de datos, por lo que se requiere una solución de almacenamiento de alto rendimiento que pueda servir y volver a servir estos datos de forma eficiente. La solución BeeGFS de NetApp, que consiste en cabinas de almacenamiento EF600 de NetApp con el sistema de archivos paralelo BeeGFS, permite a DGX SuperPOD de NVIDIA aprovechar toda su capacidad. La solución BeeGFS de NetApp ha sido validada por NVIDIA para integrarse y escalar con la arquitectura SuperPOD. Esto se traduce en una puesta en marcha y gestión simplificadas del centro de datos de IA y en una escalabilidad prácticamente ilimitada del rendimiento y la capacidad.
Descripción general de la solución
La solución BeeGFS de NetApp, impulsada por los sistemas de almacenamiento NVMe EF600 de NetApp de alto rendimiento y el sistema de archivos paralelo BeeGFS escalable, ofrece una base de almacenamiento robusta y eficiente para cargas de trabajo de IA exigentes. Su arquitectura de discos compartidos garantiza una alta disponibilidad, manteniendo un rendimiento y una accesibilidad uniformes, incluso cuando se presentan desafíos del sistema. Esta solución proporciona una arquitectura escalable y flexible que puede personalizarse para satisfacer diversos requisitos de almacenamiento. Los clientes pueden expandir fácilmente el rendimiento y la capacidad de su almacenamiento integrando elementos básicos de almacenamiento adicionales para gestionar incluso las cargas de trabajo más exigentes.
Tecnología de soluciones
-
DGX SuperPOD de NVIDIA aprovecha los sistemas DGX H100 y H200 con un almacenamiento compartido validado externamente:
-
Cada unidad escalable (SU) de DGX SuperPOD consta de 32 sistemas DGX y es capaz de 640 petaflops de rendimiento de IA con precisión de FP8 PB. NetApp recomienda ajustar el tamaño de la solución de almacenamiento BeeGFS de NetApp con al menos 2 elementos básicos para una única configuración de DGX SuperPOD.
-
Una vista de alto nivel de la solución
-
Los elementos básicos de BeeGFS de NetApp constan de dos cabinas EF600 de NetApp y dos servidores x86:
-
Con las cabinas all-flash EF600 de NetApp como base de NVIDIA DGX SuperPOD, los clientes obtienen una base de almacenamiento fiable respaldada por un tiempo de actividad de seis 9s ms.
-
La capa del sistema de archivos entre NetApp EF600 y los sistemas NVIDIA DGX es el sistema de archivos paralelo BeeGFS. BeeGFS fue creado en el Centro Fraunhofer de Computación de Alto Rendimiento en Alemania para dar solución a los puntos débiles de los sistemas de archivos paralelos heredados. El resultado es un sistema de archivos con una arquitectura moderna de espacio del usuario que ahora desarrolla y distribuye ThinkParQ, y al que recurren muchos entornos de supercomputación.
-
El soporte de NetApp para BeeGFS alinea la excelente organización de soporte de NetApp con los requisitos de rendimiento y tiempo de actividad del cliente. Los clientes obtienen acceso a recursos de soporte superiores, acceso previo a lanzamientos de BeeGFS y acceso a funciones empresariales selectas de BeeGFS, como el cumplimiento de cuotas y alta disponibilidad.
-
-
La combinación de los elementos básicos NVIDIA SuperPOD SUS y BeeGFS de NetApp proporciona una solución de IA ágil en la que la computación o el almacenamiento se pueden escalar de forma fácil y fluida.
NetApp BeeGFS Building Block
Resumen de casos de uso
Esta solución se aplica a los siguientes casos de uso:
-
Inteligencia artificial (IA) incluido el aprendizaje automático (ML), el aprendizaje profundo (DL), el procesamiento del lenguaje natural (NLP), el conocimiento del lenguaje natural (NLU) y la IA generativa (GenAI).
-
Formación de IA a escala media y grande
-
Modelos de visión computarizada, habla, audio y lenguaje
-
HPC que incluye aplicaciones aceleradas mediante la interfaz de paso de mensajes (MPI) y otras técnicas informáticas distribuidas
-
Cargas de trabajo de aplicaciones que se caracterizan por las siguientes características:
-
Leer o escribir en archivos de más de 1 GB
-
Leyendo o escribiendo en el mismo archivo por varios clientes (10s, 100s y 1000s).
-
-
Conjuntos de datos de varios terabytes o varios petabytes
-
Entornos que requieren un único espacio de nombres de almacenamiento optimizable para una combinación de archivos grandes y pequeños
Requisitos tecnológicos
En esta sección se tratan los requisitos tecnológicos de la solución NVIDIA DGX SuperPOD con NetApp.
Requisitos de hardware
La tabla 1 que aparece a continuación enumera los componentes de hardware necesarios para implementar la solución para una única SU. El ajuste de tamaño de la solución comienza con 32 sistemas NVIDIA DGX H100 y dos o tres elementos básicos BeeGFS de NetApp.
Un único elemento básico BeeGFS de NetApp consta de dos cabinas EF600 de NetApp y dos servidores x86. Los clientes pueden agregar elementos básicos adicionales a medida que aumenta el tamaño de la puesta en marcha. Para obtener más información, consulte "Arquitectura de referencia NVIDIA DGX H100 SuperPOD" y.. "NVA-1164-DESIGN: BeeGFS en diseño NVA de NetApp".
Hardware subyacente | Cantidad |
---|---|
NVIDIA DGX H100 o H200 |
32 |
Switches NVIDIA Quantum QM9700 |
8 hoja, 4 espina |
Elementos básicos BeeGFS de NetApp |
3 |
Requisitos de software
En la tabla 2 que aparece a continuación se enumeran los componentes de software necesarios para implementar la solución. Los componentes que se usan en cualquier implementación particular de la solución pueden variar en función de las necesidades del cliente.
De NetApp |
---|
Pila de software NVIDIA DGX |
Administrador de comandos base de NVIDIA |
Sistema de archivos paralelo BeeGFS de ThinkParQ |
Verificación de la solución
NVIDIA DGX SuperPOD con NetApp ha sido validado en un clúster de aceptación dedicado de NVIDIA empleando los elementos básicos BeeGFS de NetApp. Los criterios de aceptación se basaron en una serie de pruebas de aplicación, rendimiento y estrés realizadas por NVIDIA. Para obtener más información, consulte "NVIDIA DGX SuperPOD: Arquitectura de referencia de NetApp EF600 y BeeGFS".
Conclusión
NetApp y NVIDIA llevan mucho tiempo colaborando para ofrecer una cartera de soluciones de inteligencia artificial al mercado. NVIDIA DGX SuperPOD con la cabina all-flash EF600 de NetApp es una solución demostrada y validada que los clientes pueden poner en marcha con total confianza. Su arquitectura, totalmente integrada y lista para usar, acaba con los riesgos de la puesta en marcha y permite que cualquiera pueda ganar terreno en el liderazgo de la IA.
Dónde encontrar información adicional
Si quiere más información sobre el contenido de este documento, consulte los siguientes documentos o sitios web: