本繁體中文版使用機器翻譯,譯文僅供參考,若與英文版本牴觸,應以英文版本為準。
實現高叢集使用率
貢獻者
建議變更
在本節中、我們模擬一個實際案例、其中四個資料科學團隊各自提交自己的工作負載、以展示Run:AI協調解決方案、在維持優先順序和平衡GPU資源的同時、達到高叢集使用率。我們首先使用一節中所述的ResNet-50基準測試 "ResNet-50搭配ImageNet資料集基準測試摘要":
$ runai submit netapp1 -i netapp/tensorflow-tf1-py3:20.01.0 --local-image --large-shm -v /mnt:/mnt -v /tmp:/tmp --command python --args "/netapp/scripts/run.py" --args "--dataset_dir=/mnt/mount_0/dataset/imagenet/imagenet_original/" --args "--num_mounts=2" --args "--dgx_version=dgx1" --args "--num_devices=1" -g 1
我們執行的 ResNet-50 基準與中 "NVA-1121."的相同。我們使用的旗標 --local-image`是未位於公共泊塢視窗儲存庫中的容器。我們 `/mnt
/tmp
/mnt
/tmp`分別將目錄和主機 DGX-1 節點安裝到容器和容器上。資料集位於 NetApp AFFA800 、 `dataset_dir`引數指向目錄。兩者都 `--num_devices=1
`-g 1`表示我們為此工作分配一個 GPU 。前者是 `run.py`指令碼的引數、後者則是 `runai submit`命令的旗標。
下圖顯示系統總覽儀表板、其中GPU使用率達97%、並已配置全部16個可用GPU。您可以在GPU /專案長條圖中輕鬆查看每個團隊分配的GPU數量。「執行中工作」窗格會顯示目前執行中的工作名稱、專案、使用者、類型、節點、 GPU使用量、執行時間、進度和使用率詳細資料。佇列中的工作負載與其等待時間清單、會顯示在「擱置工作」中。最後、節點方塊會針對叢集中的個別DGX-1節點、提供GPU數量和使用率。