Skip to main content
NetApp artificial intelligence solutions
Se proporciona el idioma español mediante traducción automática para su comodidad. En caso de alguna inconsistencia, el inglés precede al español.

Configuración de prueba

Colaboradores kevin-hoke

Esta sección describe las configuraciones probadas, la infraestructura de red, el servidor SR670 V2 y los detalles de aprovisionamiento de almacenamiento de NetApp .

Arquitectura de la solución

Para esta validación utilizamos los componentes de la solución enumerados en la siguiente tabla.

Componentes de la solución Detalles

Servidores Lenovo ThinkSystem

  • Dos servidores SR670 V2, cada uno con ocho tarjetas GPU NVIDIA A100 de 80 GB

  • Cada servidor contiene 2 CPU Intel Xeon Platinum 8360Y (28 núcleos físicos) y 1 TB de RAM

Linux (Ubuntu – 20.04 con CUDA 11.8)

Sistema de almacenamiento NetApp AFF (par HA)

  • Software NetApp ONTAP 9.10.1

  • 24 SSD de 960 GB

  • Protocolo NFS

  • 1 grupo de interfaz (ifgrp) por controlador, con cuatro direcciones IP lógicas para puntos de montaje

En esta validación, utilizamos ResNet v2.0 con la base ImageNet establecida según lo especificado por MLPerf v2.0. El conjunto de datos se almacena en un sistema de almacenamiento NetApp AFF con el protocolo NFS. Los SR670 se conectaron al sistema de almacenamiento NetApp AFF A400 a través de un conmutador 100 GbE.

ImageNet es un conjunto de datos de imágenes utilizado con frecuencia. Contiene casi 1,3 millones de imágenes para un tamaño total de 144 GB. El tamaño promedio de la imagen es 108 KB.

La siguiente figura muestra la topología de red de la configuración probada.

Este gráfico muestra la capa de cómputo, un Lenovo ThinkSystem SR670 V2, la capa de red, un conmutador Ethernet Lenovo, y la capa de almacenamiento, un controlador de almacenamiento NetApp AFF A400 .  Todas las conexiones de red están incluidas.

Controlador de almacenamiento

La siguiente tabla enumera la configuración de almacenamiento.

Controladora Agregar Volumen de FlexGroup Tamaño del agregado Tamaño del volumen Punto de montaje del sistema operativo

Controller1

Aggr1

/a400-100g

9,9 TB

19 TB

/a400-100g

Controller2

Aggr2

/a400-100g

9,9 TB

/a400-100g

Nota La carpeta /a400-100g contiene el conjunto de datos utilizado para la validación de ResNet.