La versione in lingua italiana fornita proviene da una traduzione automatica. Per eventuali incoerenze, fare riferimento alla versione in lingua inglese.

Elevato utilizzo del cluster con allocazione della GPU con quota eccessiva

09/23/2024 Collaboratori

PDF

In questa sezione e nelle sezioni "Equità nell'allocazione delle risorse di base", e. "Equità nell'overquota", Abbiamo ideato scenari di test avanzati per dimostrare le funzionalità di orchestrazione Run:ai per la gestione di workload complessi, la pianificazione preventiva automatica e il provisioning di GPU con overquota. Lo abbiamo fatto per ottenere un elevato utilizzo delle risorse del cluster e ottimizzare la produttività del team di data science di livello Enterprise in un ambiente ai ONTAP.

Per queste tre sezioni, impostare i seguenti progetti e quote:

Progetto	Quota
squadra a.	4
team-b	2
team-c	2
team-d	8

Inoltre, per queste tre sezioni vengono utilizzati i seguenti container:

Notebook Jupyter: jupyter/base-notebook
Run:Avvio rapido ai: gcr.io/run-ai-demo/quickstart

Per questo scenario di test sono stati stabiliti i seguenti obiettivi:

Mostra la semplicità del provisioning delle risorse e il modo in cui le risorse vengono estratte dagli utenti
Mostrare come gli utenti possono eseguire facilmente il provisioning di frazioni di GPU e numero intero di GPU
Mostra come il sistema elimina i colli di bottiglia di calcolo consentendo a team o utenti di superare la quota di risorse se nel cluster sono presenti GPU gratuite
Mostra come vengono eliminati i colli di bottiglia della pipeline di dati utilizzando la soluzione NetApp durante l'esecuzione di processi a elaborazione intensiva, come il container NetApp
Mostrare come vengono eseguiti diversi tipi di container utilizzando il sistema
- Notebook Jupyter
- Container Run:ai
Mostra un utilizzo elevato quando il cluster è pieno

Per informazioni dettagliate sulla sequenza di comandi effettiva eseguita durante il test, vedere "Dettagli sui test per la Sezione 4.8".

Una volta inviati tutti i 13 carichi di lavoro, è possibile visualizzare un elenco di nomi di container e GPU allocati, come mostrato nella figura seguente. Disponiamo di sette corsi di formazione e sei lavori interattivi, che simulano quattro team di data science, ciascuno con i propri modelli in esecuzione o in fase di sviluppo. Per i lavori interattivi, i singoli sviluppatori utilizzano Jupyter Notebooks per scrivere o eseguire il debug del codice. Pertanto, è adatto per eseguire il provisioning delle frazioni GPU senza utilizzare troppe risorse del cluster.

Figura che mostra la finestra di dialogo input/output o rappresenta il contenuto scritto

I risultati di questo scenario di test mostrano quanto segue:

Il cluster deve essere pieno: Vengono utilizzate 16/16 GPU.
Elevato utilizzo del cluster.
Più esperimenti rispetto alle GPU a causa dell'allocazione frazionale.
team-d non utilizza tutta la quota; pertanto, team-b e. team-c Possibilità di utilizzare GPU aggiuntive per i propri esperimenti, con conseguente riduzione dei tempi di innovazione.

Elevato utilizzo del cluster con allocazione della GPU con quota eccessiva

Creating your file...