简体中文版经机器翻译而成,仅供参考。如与英语版出现任何冲突,应以英语版为准。
实现高集群利用率
贡献者
建议更改
在本节中,我们模拟了一个实际场景,其中四个数据科学团队各自提交自己的工作负载,以展示 Run : AI Orchestration 解决方案,它可以在保持 GPU 资源优先级和平衡的同时实现高集群利用率。我们首先使用一节中所述的 RESNET-50 基准测试 "使用 ImageNet 数据集的 RESNET-50 基准测试摘要":
$ runai submit netapp1 -i netapp/tensorflow-tf1-py3:20.01.0 --local-image --large-shm -v /mnt:/mnt -v /tmp:/tmp --command python --args "/netapp/scripts/run.py" --args "--dataset_dir=/mnt/mount_0/dataset/imagenet/imagenet_original/" --args "--num_mounts=2" --args "--dgx_version=dgx1" --args "--num_devices=1" -g 1
我们运行的是与中相同的resnet-50基准测试 "NVA-1121"。我们 --local-image`对不驻留在公共Docker存储库中的容器使用了标志。我们会将 `/mnt
/tmp`主机DGX-1节点上的目录和 `/mnt
`/tmp`分别挂载到容器和容器中。数据集位于NetApp AFA800上、 `dataset_dir`参数指向目录。 `--num_devices=1`和都 `-g 1`意味着我们为此作业分配一个GPU。前者是 `run.py`脚本的参数、而后者是 `runai submit`命令的标志。
下图显示了一个系统概述信息板,其中 GPU 利用率为 97% ,所有十六个可用 GPU 均已分配。您可以在 GPU/ 项目条形图中轻松查看为每个团队分配的 GPU 数量。" 正在运行的作业 " 窗格显示当前正在运行的作业名称,项目,用户,类型,节点, GPU 已用,运行时间,进度和利用率详细信息。队列中的工作负载列表及其等待时间显示在 "Pending" 作业中。最后,节点框将提供集群中各个 DGX-1 节点的 GPU 编号和利用率。