Se obtiene un uso elevado del clúster
-
PDF de este sitio de documentos
- Inteligencia artificial
- Cloud público e híbrido
-
Virtualización
- Virtualización con VMware
-
Contenedores
- Red Hat OpenShift con NetApp
Recopilación de documentos PDF independientes
Creating your file...
En esta sección, emulamos un escenario realista en el que cuatro equipos de ciencia de datos envían sus propias cargas de trabajo para demostrar la solución de orquestación Run:AI que logra un uso elevado del clúster mientras mantiene la priorización y el equilibrio de los recursos de la GPU. Empezamos utilizando la prueba de rendimiento ResNet-50 descrita en el apartado "RESNET-50 con resumen de la prueba de rendimiento de conjunto de datos ImageNET":
$ runai submit netapp1 -i netapp/tensorflow-tf1-py3:20.01.0 --local-image --large-shm -v /mnt:/mnt -v /tmp:/tmp --command python --args "/netapp/scripts/run.py" --args "--dataset_dir=/mnt/mount_0/dataset/imagenet/imagenet_original/" --args "--num_mounts=2" --args "--dgx_version=dgx1" --args "--num_devices=1" -g 1
Ejecutamos la misma prueba de rendimiento ResNet-50 como en la "NVA-1121". Usamos la bandera --local-image
para contenedores que no residen en el repositorio de docker público. Montamos los directorios /mnt
y.. /tmp
En el nodo DGX-1 del host a. /mnt
y.. /tmp
al contenedor, respectivamente. El conjunto de datos se encuentra en NetApp AFFA800 con el dataset_dir
argumento que apunta al directorio. Ambas --num_devices=1
y.. -g 1
Significa que asignamos una GPU para este trabajo. El primero es un argumento para el run.py
script, mientras que el último es un indicador para el runai submit
comando.
La siguiente figura muestra un panel de información general del sistema con un uso del 97 % de la GPU y las dieciséis GPU disponibles asignadas. Puede ver fácilmente cuántas GPU se asignan a cada equipo en el gráfico de barras GPU/proyecto. El panel trabajos en ejecución muestra los nombres de los trabajos en ejecución actuales, el proyecto, el usuario, el tipo, el nodo, Las GPU consumidas, tiempo de ejecución, progreso y detalles de uso. Se muestra una lista de las cargas de trabajo que están en cola con el tiempo de espera en trabajos pendientes. Finalmente, el recuadro Nodes ofrece cifras de GPU y utilización de nodos DGX-1 individuales en el clúster.