Se proporciona el idioma español mediante traducción automática para su comodidad. En caso de alguna inconsistencia, el inglés precede al español.

NVIDIA DGX SuperPOD con NetApp: Guía de diseño

09/24/2024 Colaboradores

PDF

Esta arquitectura verificada de NetApp describe el diseño del NVIDIA DGX SuperPOD con elementos básicos NetApp® BeeGFS®. Esta solución es una plataforma de centro de datos de pila completa validada en un clúster de aceptación dedicado de NVIDIA.

200.200

Amina Bennani, Christian Whiteside, David Arnette y Sathish Thyagarajan, NetApp

Resumen ejecutivo

La IA está revolucionando las experiencias de los consumidores y impulsando la innovación en todos los sectores, en el panorama tecnológico actual que evoluciona a gran velocidad. No obstante, también presenta retos a los departamentos DE TECNOLOGÍA, que están sometidos a presión de poner en marcha soluciones de computación de alto rendimiento (HPC) capaces de manejar las exigentes demandas de las cargas de trabajo de la IA. A medida que las organizaciones compiten por aprovechar la potencia de la IA, crece la urgencia de encontrar una solución fácil de poner en marcha, escalar y gestionar.

DGX SuperPOD de NVIDIA es una plataforma de infraestructura de centro de datos de IA que se ofrece como solución lista para usar para QUE LOS DEPARTAMENTOS DE tecnología den soporte a las cargas de trabajo de IA más complejas que enfrentan las empresas actuales. En el centro de cualquier modelo de aprendizaje profundo (DL) preciso se encuentran grandes volúmenes de datos, por lo que se requiere una solución de almacenamiento de alto rendimiento que pueda servir y volver a servir estos datos de forma eficiente. La solución BeeGFS de NetApp, que consiste en cabinas de almacenamiento EF600 de NetApp con el sistema de archivos paralelo BeeGFS, permite a DGX SuperPOD de NVIDIA aprovechar toda su capacidad. La solución BeeGFS de NetApp ha sido validada por NVIDIA para integrarse y escalar con la arquitectura SuperPOD. Esto se traduce en una puesta en marcha y gestión simplificadas del centro de datos de IA y en una escalabilidad prácticamente ilimitada del rendimiento y la capacidad.

Descripción general de la solución

La solución BeeGFS de NetApp, impulsada por los sistemas de almacenamiento NVMe EF600 de NetApp de alto rendimiento y el sistema de archivos paralelo BeeGFS escalable, ofrece una base de almacenamiento robusta y eficiente para cargas de trabajo de IA exigentes. Su arquitectura de discos compartidos garantiza una alta disponibilidad, manteniendo un rendimiento y una accesibilidad uniformes, incluso cuando se presentan desafíos del sistema. Esta solución proporciona una arquitectura escalable y flexible que puede personalizarse para satisfacer diversos requisitos de almacenamiento. Los clientes pueden expandir fácilmente el rendimiento y la capacidad de su almacenamiento integrando elementos básicos de almacenamiento adicionales para gestionar incluso las cargas de trabajo más exigentes.

Tecnología de soluciones

DGX SuperPOD de NVIDIA aprovecha los sistemas DGX H100 y H200 con un almacenamiento compartido validado externamente:
- Cada unidad escalable (SU) de DGX SuperPOD consta de 32 sistemas DGX y es capaz de 640 petaflops de rendimiento de IA con precisión de FP8 PB. NetApp recomienda ajustar el tamaño de la solución de almacenamiento BeeGFS de NetApp con al menos 2 elementos básicos para una única configuración de DGX SuperPOD.

Una vista de alto nivel de la solución

Figura en la que se muestra una descripción general de la solución BeeGFS de NetApp con un DGX SuperPOD de NVIDIA.

Los elementos básicos de BeeGFS de NetApp constan de dos cabinas EF600 de NetApp y dos servidores x86:
- Con las cabinas all-flash EF600 de NetApp como base de NVIDIA DGX SuperPOD, los clientes obtienen una base de almacenamiento fiable respaldada por un tiempo de actividad de seis 9s ms.
- La capa del sistema de archivos entre NetApp EF600 y los sistemas NVIDIA DGX es el sistema de archivos paralelo BeeGFS. BeeGFS fue creado en el Centro Fraunhofer de Computación de Alto Rendimiento en Alemania para dar solución a los puntos débiles de los sistemas de archivos paralelos heredados. El resultado es un sistema de archivos con una arquitectura moderna de espacio del usuario que ahora desarrolla y distribuye ThinkParQ, y al que recurren muchos entornos de supercomputación.
- El soporte de NetApp para BeeGFS alinea la excelente organización de soporte de NetApp con los requisitos de rendimiento y tiempo de actividad del cliente. Los clientes obtienen acceso a recursos de soporte superiores, acceso previo a lanzamientos de BeeGFS y acceso a funciones empresariales selectas de BeeGFS, como el cumplimiento de cuotas y alta disponibilidad.
La combinación de los elementos básicos NVIDIA SuperPOD SUS y BeeGFS de NetApp proporciona una solución de IA ágil en la que la computación o el almacenamiento se pueden escalar de forma fácil y fluida.

NetApp BeeGFS Building Block

Figura en la que se muestra un único elemento básico BeeGFS de NetApp.

Resumen de casos de uso

Esta solución se aplica a los siguientes casos de uso:

Inteligencia artificial (IA) incluido el aprendizaje automático (ML), el aprendizaje profundo (DL), el procesamiento del lenguaje natural (NLP), el conocimiento del lenguaje natural (NLU) y la IA generativa (GenAI).
Formación de IA a escala media y grande
Modelos de visión computarizada, habla, audio y lenguaje
HPC que incluye aplicaciones aceleradas mediante la interfaz de paso de mensajes (MPI) y otras técnicas informáticas distribuidas
Cargas de trabajo de aplicaciones que se caracterizan por las siguientes características:
- Leer o escribir en archivos de más de 1 GB
- Leyendo o escribiendo en el mismo archivo por varios clientes (10s, 100s y 1000s).
Conjuntos de datos de varios terabytes o varios petabytes
Entornos que requieren un único espacio de nombres de almacenamiento optimizable para una combinación de archivos grandes y pequeños

Requisitos tecnológicos

En esta sección se tratan los requisitos tecnológicos de la solución NVIDIA DGX SuperPOD con NetApp.

Requisitos de hardware

La tabla 1 que aparece a continuación enumera los componentes de hardware necesarios para implementar la solución para una única SU. El ajuste de tamaño de la solución comienza con 32 sistemas NVIDIA DGX H100 y dos o tres elementos básicos BeeGFS de NetApp.
Un único elemento básico BeeGFS de NetApp consta de dos cabinas EF600 de NetApp y dos servidores x86. Los clientes pueden agregar elementos básicos adicionales a medida que aumenta el tamaño de la puesta en marcha. Para obtener más información, consulte "Arquitectura de referencia NVIDIA DGX H100 SuperPOD" y.. "NVA-1164-DESIGN: BeeGFS en diseño NVA de NetApp".

Hardware subyacente	Cantidad
NVIDIA DGX H100 o H200	32
Switches NVIDIA Quantum QM9700	8 hoja, 4 espina
Elementos básicos BeeGFS de NetApp	3

Hardware subyacente

Cantidad

NVIDIA DGX H100 o H200

Switches NVIDIA Quantum QM9700

8 hoja, 4 espina

Elementos básicos BeeGFS de NetApp

Requisitos de software

En la tabla 2 que aparece a continuación se enumeran los componentes de software necesarios para implementar la solución. Los componentes que se usan en cualquier implementación particular de la solución pueden variar en función de las necesidades del cliente.

De NetApp
Pila de software NVIDIA DGX
Administrador de comandos base de NVIDIA
Sistema de archivos paralelo BeeGFS de ThinkParQ

De NetApp

Pila de software NVIDIA DGX

Administrador de comandos base de NVIDIA

Sistema de archivos paralelo BeeGFS de ThinkParQ

Verificación de la solución

NVIDIA DGX SuperPOD con NetApp ha sido validado en un clúster de aceptación dedicado de NVIDIA empleando los elementos básicos BeeGFS de NetApp. Los criterios de aceptación se basaron en una serie de pruebas de aplicación, rendimiento y estrés realizadas por NVIDIA. Para obtener más información, consulte "NVIDIA DGX SuperPOD: Arquitectura de referencia de NetApp EF600 y BeeGFS".

Conclusión

NetApp y NVIDIA llevan mucho tiempo colaborando para ofrecer una cartera de soluciones de inteligencia artificial al mercado. NVIDIA DGX SuperPOD con la cabina all-flash EF600 de NetApp es una solución demostrada y validada que los clientes pueden poner en marcha con total confianza. Su arquitectura, totalmente integrada y lista para usar, acaba con los riesgos de la puesta en marcha y permite que cualquiera pueda ganar terreno en el liderazgo de la IA.

Dónde encontrar información adicional

Si quiere más información sobre el contenido de este documento, consulte los siguientes documentos o sitios web: