Skip to main content
NetApp Solutions
Se proporciona el idioma español mediante traducción automática para su comodidad. En caso de alguna inconsistencia, el inglés precede al español.

Se obtiene un uso elevado del clúster

Colaboradores

En esta sección, emulamos un escenario realista en el que cuatro equipos de ciencia de datos envían sus propias cargas de trabajo para demostrar la solución de orquestación Run:AI que logra un uso elevado del clúster mientras mantiene la priorización y el equilibrio de los recursos de la GPU. Empezamos utilizando la prueba de rendimiento ResNet-50 descrita en el apartado "RESNET-50 con resumen de la prueba de rendimiento de conjunto de datos ImageNET":

$ runai submit netapp1 -i netapp/tensorflow-tf1-py3:20.01.0 --local-image --large-shm  -v /mnt:/mnt -v /tmp:/tmp --command python --args "/netapp/scripts/run.py" --args "--dataset_dir=/mnt/mount_0/dataset/imagenet/imagenet_original/" --args "--num_mounts=2"  --args "--dgx_version=dgx1" --args "--num_devices=1" -g 1

Ejecutamos el mismo benchmark ResNet-50 que en "NVA-1121". Utilizamos el indicador --local-image para contenedores que no residen en el repositorio de Docker público. Montamos los directorios /mnt y /tmp en el nodo DGX-1 del host en /mnt y /tmp en el contenedor, respectivamente. El conjunto de datos está en NetApp AFFA800 con el dataset_dir argumento apuntando al directorio. Ambos --num_devices=1 y -g 1 significan que asignamos una GPU para este trabajo. El primero es un argumento para run.py el script, mientras que el segundo es un indicador para el runai submit comando.

La siguiente figura muestra un panel de información general del sistema con un uso del 97 % de la GPU y las dieciséis GPU disponibles asignadas. Puede ver fácilmente cuántas GPU se asignan a cada equipo en el gráfico de barras GPU/proyecto. El panel trabajos en ejecución muestra los nombres de los trabajos en ejecución actuales, el proyecto, el usuario, el tipo, el nodo, Las GPU consumidas, tiempo de ejecución, progreso y detalles de uso. Se muestra una lista de las cargas de trabajo que están en cola con el tiempo de espera en trabajos pendientes. Finalmente, el recuadro Nodes ofrece cifras de GPU y utilización de nodos DGX-1 individuales en el clúster.

Figura que muestra el cuadro de diálogo de entrada/salida o que representa el contenido escrito