Skip to main content
NetApp Solutions
Die deutsche Sprachversion wurde als Serviceleistung für Sie durch maschinelle Übersetzung erstellt. Bei eventuellen Unstimmigkeiten hat die englische Sprachversion Vorrang.

Erreichen einer hohen Cluster-Auslastung mit GPU-Zuweisung über ein Kontingent

Beitragende

In diesem Abschnitt und in den Abschnitten "Gerechtigkeit Bei Der Grundlegenden Ressourcenzuweisung", und "Gerechtigkeit Wegen Zu Viel Quoten", Wir haben erweiterte Testszenarien entwickelt, um die Funktionen der Run:KI-Orchestrierung für komplexes Workload-Management, automatisches präventiv Planen und GPU-Bereitstellung über Kontingente zu demonstrieren. Ziel war es, eine hohe Cluster-Ressourcen-Auslastung zu erzielen und die Produktivität des Data Science-Teams der Enterprise-Klasse in einer ONTAP KI-Umgebung zu optimieren.

Legen Sie für diese drei Abschnitte die folgenden Projekte und Quoten fest:

Projekt Kontingente

Team A

4

Team b

2

Team c

2

Team d

8

Zusätzlich werden für diese drei Abschnitte folgende Container verwendet:

  • Jupyter Notebook: jupyter/base-notebook

  • Run:AI quickstart: gcr.io/run-ai-demo/quickstart

Für dieses Testszenario setzen wir folgende Ziele:

  • Zeigen Sie die Einfachheit der Ressourcenbereitstellung und wie Ressourcen von Benutzern abstrahiert werden

  • Zeigen Sie, wie Benutzer Fraktionen einer GPU und einer ganzen Zahl von GPUs einfach bereitstellen können

  • Zeigen Sie, wie das System Compute-Engpässe beseitigt, indem es Teams oder Benutzern ermöglicht, ihre Ressourcenkontingente zu überziehen, wenn es kostenlose GPUs im Cluster gibt

  • Zeigen Sie, wie Engpässe bei der Datenpipeline mithilfe der NetApp Lösung bei rechenintensiven Aufgaben wie dem NetApp Container beseitigt werden

  • Darstellung der Ausführung mehrerer Container mithilfe des Systems

    • Jupyter Notebook

    • Run:AI Container

  • Zeigt eine hohe Auslastung an, wenn das Cluster voll ist

Einzelheiten zur tatsächlichen Befehlsfolge, die während des Tests ausgeführt wurde, finden Sie unter "Testdetails für Abschnitt 4.8".

Wenn alle 13 Workloads übermittelt werden, wird eine Liste der zugewiesenen Containernamen und -GPUs angezeigt, wie in der folgenden Abbildung dargestellt. Wir haben sieben Trainings- und sechs interaktive Jobs und simulieren dabei vier Data-Science-Teams, die jeweils über eigene Modelle im Einsatz oder in der Entwicklung verfügen. Bei interaktiven Jobs verwenden einzelne Entwickler Jupyter Notebooks, um ihren Code zu schreiben oder zu debuggen. Dadurch eignet es sich, GPU-Fraktionen ohne zu viele Cluster-Ressourcen bereitzustellen.

Die Abbildung zeigt den Input/Output-Dialog oder die Darstellung des schriftlichen Inhalts

Die Ergebnisse dieses Testszenarios zeigen Folgendes:

  • Der Cluster sollte voll sein: Es werden 16/16 GPUs verwendet.

  • Hohe Cluster-Auslastung.

  • Mehr Experimente als GPUs aufgrund der fraktionalen Zuweisung:

  • team-d Nutzt nicht die gesamte Quote; daher team-b Und team-c Da die Experimente mit zusätzlichen GPUs durchgeführt werden können, werden Innovationen schneller beschleunigt.