Une utilisation élevée des clusters grâce à une allocation GPU sur-quota
Dans cette section et dans les sections "Équité de l'allocation des ressources de base", et "Équité excessive", Nous avons conçu des scénarios de test avancés pour démontrer les capacités d'orchestration Run:ai pour une gestion de charges de travail complexe, une planification préventive automatique et un provisionnement GPU sur-quota. Nous avons ainsi pu atteindre une utilisation élevée des ressources en cluster et optimiser la productivité de nos équipes de data Scientists dans un environnement ONTAP d'IA.
Pour ces trois sections, définissez les projets et quotas suivants :
Projet | Quota |
---|---|
équipe a |
4 |
équipe-b |
2 |
equipe-c |
2 |
équipe-d |
8 |
En outre, nous utilisons les conteneurs suivants pour ces trois sections :
-
Ordinateur portable Jupyter :
jupyter/base-notebook
-
Run:ai quickstart :
gcr.io/run-ai-demo/quickstart
Nous avons défini les objectifs suivants dans ce scénario de test :
-
Présenter la simplicité du provisionnement des ressources et le mode d'abstraction des ressources des utilisateurs
-
Montrer comment les utilisateurs peuvent facilement provisionner des fractions d'un GPU et d'un nombre entier de GPU
-
Montrer comment le système élimine les goulots d'étranglement de calcul en permettant aux équipes ou aux utilisateurs de dépasser leur quota de ressources en cas de GPU gratuits dans le cluster
-
Montrez comment éliminer les goulots d'étranglement dans les pipelines de données avec la solution NetApp lors de l'exécution de tâches de calcul intensives, telles que le conteneur NetApp
-
Montre comment plusieurs types de conteneurs sont exécutés à l'aide du système
-
Ordinateur portable Jupyter
-
Exécutez :conteneur d'IA
-
-
Affiche une utilisation élevée lorsque le cluster est plein
Pour plus de détails sur la séquence de commande réelle exécutée pendant le test, reportez-vous à la section "Détails des tests pour la section 4.8".
Une fois les 13 workloads envoyés, vous voyez la liste des noms de conteneurs et des GPU alloués, comme illustré ci-dessous. Nous avons sept formations et six tâches interactives qui simulent quatre équipes de data science, chacune ayant ses propres modèles en cours de développement ou en cours d'exécution. Pour les travaux interactifs, les développeurs individuels utilisent Jupyter Notebooks pour écrire ou déboguer leur code. Il convient donc de provisionner des fractions GPU sans utiliser trop de ressources du cluster.
Les résultats de ce scénario de test montrent les éléments suivants :
-
Le cluster doit être complet : 16/16 GPU sont utilisés.
-
Forte utilisation du cluster.
-
Plus de tests que les GPU en raison de l'allocation fractionnaire.
-
team-d
n'utilise pas tous leurs quotas ; par conséquent,team-b
etteam-c
Peuvent exploiter des GPU supplémentaires pour leurs expérimentations, ce qui permet d'accélérer l'innovation.