La version française est une traduction automatique. La version anglaise prévaut sur la française en cas de divergence.

Optimiser l'utilisation des clusters

09/23/2024 Contributeurs

Dans cette section, nous émulons un scénario réaliste dans lequel quatre équipes de data science soumettent leurs propres charges de travail pour présenter la solution d'orchestration Run:ai qui optimise l'utilisation des clusters, tout en maintenant les niveaux de priorité et l'équilibrage des ressources GPU. Nous commençons par le banc d'essai ResNet-50 décrit dans la section "RESNET-50 avec résumé du banc d'essai ImageNet sur le dataset":

$ runai submit netapp1 -i netapp/tensorflow-tf1-py3:20.01.0 --local-image --large-shm  -v /mnt:/mnt -v /tmp:/tmp --command python --args "/netapp/scripts/run.py" --args "--dataset_dir=/mnt/mount_0/dataset/imagenet/imagenet_original/" --args "--num_mounts=2"  --args "--dgx_version=dgx1" --args "--num_devices=1" -g 1

Nous avons exécuté le même banc d'essai ResNet-50 que dans "NVA-1121". nous avons utilisé l'indicateur --local-image pour les conteneurs qui ne résident pas dans le référentiel docker public. Nous avons monté les répertoires /mnt et /tmp sur le nœud DGX-1 hôte vers /mnt et /tmp vers le conteneur, respectivement. L'ensemble de données se trouve à NetApp AFFA800 avec dataset_dir l'argument pointant vers le répertoire. --num_devices=1`Les deux et `-g 1 signifient que nous allouons un GPU pour cette tâche. Le premier est un argument pour le run.py script, tandis que le second est un indicateur pour la runai submit commande.

La figure ci-dessous montre un tableau de bord de présentation du système avec un taux d'utilisation des GPU de 97 % et les seize GPU disponibles alloués. Vous pouvez consulter le nombre de GPU alloués à chaque équipe dans le graphique à barres projet/GPU. Le volet travaux en cours affiche les noms des travaux en cours d'exécution, le projet, l'utilisateur, le type, le nœud, GPU utilisés, temps d'exécution, progression et informations d'utilisation. Une liste des charges de travail en file d'attente avec leur temps d'attente est affichée dans tâches en attente. Enfin, la zone nœuds fournit les nombres de GPU et l'utilisation de nœuds DGX-1 individuels dans le cluster.

Figure montrant la boîte de dialogue entrée/sortie ou représentant le contenu écrit

Optimiser l'utilisation des clusters

Creating your file...