Skip to main content
NetApp Solutions
La version française est une traduction automatique. La version anglaise prévaut sur la française en cas de divergence.

Exécution :tableaux de bord et vues d'IA

Contributeurs

Une fois l'installation de Run:ai sur votre cluster Kubernetes et la configuration correcte des conteneurs, vous voyez les tableaux de bord et les vues suivants sur "https://app.run.ai" dans votre navigateur, comme illustré dans la figure suivante.

Erreur : image graphique manquante

Le cluster fournit au total 16 GPU par deux nœuds DGX-1. Vous pouvez voir le nombre de nœuds, le nombre total de GPU disponibles, les GPU alloués avec des charges de travail, le nombre total de tâches en cours d'exécution, les tâches en attente et les GPU alloués inactifs. Sur le côté droit, le diagramme à barres affiche les GPU par projet, qui récapitule la manière dont les différentes équipes utilisent les ressources du cluster. Au milieu se trouve la liste des travaux en cours d'exécution avec des détails sur le travail, y compris le nom du travail, le projet, l'utilisateur, le type de travail, Le nœud sur lequel chaque travail est exécuté, le nombre de GPU alloués pour ce travail, la durée d'exécution actuelle du travail, la progression du travail en pourcentage et l'utilisation du GPU pour ce travail. Notez que le cluster est sous-utilisé (taux d'utilisation des GPU à 23 %) car seules trois tâches en cours d'exécution sont soumises par une seule équipe (team-a).

Dans la section suivante, nous allons voir comment créer plusieurs équipes dans l'onglet projets et allouer des GPU à chaque équipe pour optimiser l'utilisation du cluster et gérer les ressources lorsqu'il y a de nombreux utilisateurs par cluster. Les scénarios de test reproduisent les environnements d'entreprise dans lesquels la mémoire et les ressources GPU sont partagées entre les charges de travail d'entraînement, d'inférence et interactives.