NVA-1173 AIPod de NetApp con sistemas DGX H100 de NVIDIA: Arquitectura de la solución
Esta sección se centra en la arquitectura del AIPod de NetApp con sistemas NVIDIA DGX.
AIPod de NetApp con sistemas DGX
Esta arquitectura de referencia aprovecha las estructuras separadas para la interconexión en clústeres de computación y el acceso al almacenamiento, con una conectividad InfiniBand (IB) de 400GB Gb/s entre los nodos de computación. El siguiente dibujo muestra la topología general de la solución de NetApp AIPod con sistemas DGX H100.
Topología de la solución AIpod de NetApp
Diseño de red
En esta configuración, la estructura de clústeres de computación utiliza un par de switches IB de QM9700 400GB Gb/s, que se conectan entre sí para lograr una alta disponibilidad. Cada sistema DGX H100 está conectado a los switches mediante ocho conexiones, con puertos números pares conectados a un switch y puertos con número impar conectados al otro switch.
Para el acceso al sistema de almacenamiento, la gestión en banda y el acceso de clientes, se utiliza un par de switches Ethernet SN4600 Gb. Los switches están conectados con enlaces entre switches y se configuran con varias VLAN para aislar los distintos tipos de tráfico. El enrutamiento L3 básico está habilitado entre VLAN específicas para permitir varias rutas entre las interfaces de cliente y de almacenamiento en el mismo switch, así como entre switches para alta disponibilidad. Para implementaciones mayores, la red Ethernet se puede expandir a una configuración hoja-espina añadiendo pares de switches adicionales para los switches espina y hojas adicionales según sea necesario.
Además de la interconexión informática y las redes Ethernet de alta velocidad, todos los dispositivos físicos también están conectados a uno o más switches Ethernet de SN2201 Gb para la gestión fuera de banda. Consulte la "detalles de la implementación" página para obtener más información sobre la configuración de red.
Información general de acceso a almacenamiento para los sistemas DGX H100
Cada sistema DGX H100 está aprovisionado con dos adaptadores ConnectX-7 de doble puerto para el tráfico de gestión y almacenamiento. Para esta solución, ambos puertos de cada tarjeta están conectados al mismo switch. Después, un puerto de cada tarjeta se configura en un vínculo LACP MLAG con un puerto conectado a cada switch, y las VLAN para la gestión en banda, el acceso de clientes y el acceso al almacenamiento en el nivel de usuario se alojan en este vínculo.
El otro puerto de cada tarjeta se utiliza para la conectividad con los sistemas de almacenamiento AFF A90 y se puede utilizar en varias configuraciones según los requisitos de la carga de trabajo. Para configuraciones que utilizan NFS a través de RDMA para admitir el almacenamiento Magnum IO GPUDirect de NVIDIA, los puertos se utilizan individualmente con direcciones IP en VLAN independientes. Para las puestas en marcha que no requieren RDMA, las interfaces de almacenamiento también se pueden configurar mediante enlaces LACP para ofrecer una alta disponibilidad y ancho de banda adicional. Con o sin RDMA, los clientes pueden montar el sistema de almacenamiento mediante pNFS v4,1 y Trunking de sesiones para permitir el acceso en paralelo a todos los nodos de almacenamiento del clúster. Consulte "detalles de la implementación"la página para obtener más información sobre la configuración del cliente.
Si quiere más información sobre la conectividad del sistema DGX H100, consulte "Documentación de NVIDIA BasePOD"la .
Diseño del sistema de almacenamiento
Cada sistema de almacenamiento de AFF A90 está conectado mediante seis puertos de 200 GbE desde cada controladora. Cuatro puertos de cada controladora se utilizan para el acceso a los datos de carga de trabajo desde los sistemas DGX, y dos puertos de cada controladora están configurados como un grupo de interfaces LACP para admitir el acceso desde los servidores del plano de gestión para los artefactos de gestión de clústeres y los directorios iniciales de usuario. Todos los accesos a datos desde el sistema de almacenamiento se realizan mediante NFS, con una máquina virtual de almacenamiento (SVM) dedicada al acceso a las cargas de trabajo de IA y una SVM independiente dedicada a los usos de gestión del clúster.
La SVM de gestión solo requiere un solo LIF, que está alojado en los grupos de interfaz de 2 puertos configurados en cada controladora. Otros volúmenes FlexGroup se aprovisionan en la SVM de gestión con el fin de albergar artefactos de gestión del clúster, como imágenes de nodos de clúster, datos históricos de supervisión del sistema y directorios iniciales de usuarios finales. El siguiente dibujo muestra la configuración lógica del sistema de almacenamiento.
Configuración lógica del clúster de almacenamiento de NetApp A90
Servidores del plano de gestión
Esta arquitectura de referencia también incluye cinco servidores basados en CPU para los usos del plano de gestión. Dos de estos sistemas se usan como nodos principales de NVIDIA Base Command Manager para la puesta en marcha y la gestión del clúster. Los otros tres sistemas se utilizan para proporcionar servicios de clúster adicionales, como los nodos maestros de Kubernetes o los nodos de inicio de sesión para las implementaciones que utilizan Slurm para la programación de tareas. Las puestas en marcha que utilizan Kubernetes pueden aprovechar el controlador CSI de NetApp Trident para proporcionar aprovisionamiento y servicios de datos automatizados con almacenamiento persistente tanto para las cargas de trabajo de gestión como para las de IA en el sistema de almacenamiento de AFF A900.
Cada servidor está conectado físicamente a los switches IB y Ethernet para permitir la puesta en marcha y gestión de clústeres. Además, está configurado con montajes NFS en el sistema de almacenamiento a través de la SVM de gestión para almacenamiento de artefactos de gestión de clústeres, tal como se ha descrito anteriormente.