Skip to main content
NetApp Solutions
La version française est une traduction automatique. La version anglaise prévaut sur la française en cas de divergence.

Optimiser l'utilisation des clusters

Contributeurs

Dans cette section, nous émulons un scénario réaliste dans lequel quatre équipes de data science soumettent leurs propres charges de travail pour présenter la solution d'orchestration Run:ai qui optimise l'utilisation des clusters, tout en maintenant les niveaux de priorité et l'équilibrage des ressources GPU. Nous commençons par le banc d'essai ResNet-50 décrit dans la section "RESNET-50 avec résumé du banc d'essai ImageNet sur le dataset":

$ runai submit netapp1 -i netapp/tensorflow-tf1-py3:20.01.0 --local-image --large-shm  -v /mnt:/mnt -v /tmp:/tmp --command python --args "/netapp/scripts/run.py" --args "--dataset_dir=/mnt/mount_0/dataset/imagenet/imagenet_original/" --args "--num_mounts=2"  --args "--dgx_version=dgx1" --args "--num_devices=1" -g 1

Nous avons exécuté le même banc d'essai ResNet-50 que dans "NVA-1121". Nous avons utilisé le drapeau --local-image pour les conteneurs qui ne résident pas dans le référentiel docker public. Nous avons monté les répertoires /mnt et /tmp Sur le nœud hôte DGX-1 vers /mnt et /tmp vers le conteneur, respectivement. Le dataset est disponible dans le système NetApp AFFA800 avec le dataset_dir argument pointant vers le répertoire. Les deux --num_devices=1 et -g 1 Cela signifie que nous allouez un GPU pour ce travail. Le premier est un argument pour le run.py script, tandis que ce dernier est un indicateur pour le runai submit commande.

La figure ci-dessous montre un tableau de bord de présentation du système avec un taux d'utilisation des GPU de 97 % et les seize GPU disponibles alloués. Vous pouvez consulter le nombre de GPU alloués à chaque équipe dans le graphique à barres projet/GPU. Le volet travaux en cours affiche les noms des travaux en cours d'exécution, le projet, l'utilisateur, le type, le nœud, GPU utilisés, temps d'exécution, progression et informations d'utilisation. Une liste des charges de travail en file d'attente avec leur temps d'attente est affichée dans tâches en attente. Enfin, la zone nœuds fournit les nombres de GPU et l'utilisation de nœuds DGX-1 individuels dans le cluster.

Erreur : image graphique manquante