Projekte für Data Science-Teams erstellen und GPUs zuweisen
Forscher können Workloads über Run:AI CLI, Kubeflow oder ähnliche Prozesse senden. Um die Ressourcenzuweisung zu optimieren und Priorisierungen zu erstellen, führt Run:AI das Projektkonzept ein. Projekte sind Quoteneinheiten, die einen Projektnamen mit GPU-Zuweisung und -Einstellungen verknüpfen. Mehrere Data-Science-Teams können auf einfache und bequeme Weise gemanagt werden.
Ein Forscher, der einen Workload einreicht, muss ein Projekt mit einer Workload-Anforderung verknüpfen. Der Scheduler:AI vergleicht die Anforderung mit den aktuellen Zuweisungen und dem Projekt und bestimmt, ob der Workload Ressourcen zugewiesen werden kann oder ob er sich im ausstehenden Status befindet.
Als Systemadministrator können Sie auf der Registerkarte Run:AI Projects die folgenden Parameter einstellen:
-
Modellprojekte. ein Projekt pro Benutzer festlegen, ein Projekt pro Benutzerteam festlegen und ein Projekt für ein echtes organisatorisches Projekt festlegen.
-
Projektquoten. jedes Projekt ist mit einer Quote von GPUs verknüpft, die für dieses Projekt gleichzeitig zugewiesen werden können. Dies ist eine garantierte Quote, da Forscher, die dieses Projekt nutzen, garantiert sind, diese Anzahl von GPUs zu erhalten, egal wie der Status im Cluster ist. In der Regel sollte die Summe der Projektzuweisung der Anzahl der GPUs im Cluster entsprechen. Darüber hinaus kann ein Benutzer dieses Projekts eine Überkontingente erhalten. Solange GPUs nicht verwendet werden, kann ein Forscher, der dieses Projekt verwendet, mehr GPUs erhalten. Wir führen Testszenarien mit Überquoten und fairer Erwägungen ein "Erreichen einer hohen Cluster-Auslastung mit GPU-Zuweisung über ein Kontingent", "Gerechtigkeit Bei Der Grundlegenden Ressourcenzuweisung", und "Gerechtigkeit Wegen Zu Viel Quoten".
-
Erstellen Sie ein neues Projekt, aktualisieren Sie ein vorhandenes Projekt und löschen Sie ein vorhandenes Projekt.
-
Anzahl der Aufträge, die auf bestimmten Knotengruppen ausgeführt werden sollen. Sie können bestimmte Projekte nur auf bestimmten Knoten ausführen. Dies ist nützlich, wenn das Projektteam spezielle Hardware benötigt, zum Beispiel mit genügend Arbeitsspeicher. Alternativ kann ein Projektteam Eigentümer bestimmter Hardware sein, die mit einem speziellen Budget erworben wurde, oder wenn Unternehmen direkte Build- oder interaktive Workloads für die Arbeit an schwächerer Hardware und das direkte Training oder unbeaufsichtigte Arbeitslasten auf schnellere Nodes benötigen. Informationen zu Befehlen zum Gruppieren von Knoten und zum Festlegen der Affinität für ein bestimmtes Projekt finden Sie im "Ausführen:KI-Dokumentation".
-
Beschränken Sie die Dauer von interaktiven Jobs. Forscher vergessen häufig, interaktive Jobs zu schließen. Dies könnte zu einer Verschwendung von Ressourcen führen. Einige Organisationen ziehen es vor, die Dauer von interaktiven Jobs zu begrenzen und automatisch zu schließen.
Die folgende Abbildung zeigt die Ansicht „Projekte“ mit vier erstellten Teams. Jedem Team wird eine unterschiedliche Anzahl von GPUs zugewiesen, die verschiedenen Workloads Rechnung tragen. Die Gesamtzahl der GPUs entspricht der Gesamtzahl der verfügbaren GPUs in einem Cluster, der aus zwei DGX-1 besteht.