简体中文版经机器翻译而成,仅供参考。如与英语版出现任何冲突,应以英语版为准。

基本资源分配公平

提供者 kevin-hoke

在本节中,我们会显示,当 team-d 请求更多 GPU (它们低于其配额)时,系统会暂停 team-bteam-c 的工作负载,并以公平的方式将其移至待定状态。

有关提交作业,使用的容器映像以及执行的命令序列等详细信息,请参见一节 "第 4.9 节的测试详细信息"

下图显示了由于自动负载平衡和预先计划而产生的集群利用率,每个组分配的 GPU 以及待处理作业。我们可以观察到,当所有团队工作负载请求的 GPU 总数超过集群中可用的 GPU 总数时, Run : AI 的内部公平算法会分别为 team-bteam-c 暂停一个作业,因为它们已达到项目配额。这样可以提供整体较高的集群利用率,而数据科学团队仍在管理员设置的资源限制下工作。

错误:缺少图形映像

此测试场景的结果显示以下内容:

  • * 自动负载平衡。 * 系统会自动平衡 GPU 的配额,使每个团队现在都在使用其配额。暂停的工作负载属于超过其配额的团队。

  • * 公平共享暂停。 * 系统会选择停止超过配额的一个组的工作负载,然后停止另一个组的工作负载。Run : AI 具有内部公平算法。