Skip to main content
NetApp Solutions
本繁體中文版使用機器翻譯,譯文僅供參考,若與英文版本牴觸,應以英文版本為準。

過度配額的公平性

貢獻者

在本節中、我們將展開多個團隊提交工作負載並超過其配額的案例。如此一來、我們就能示範Run:AI的公平演算法如何根據預設配額的比率來配置叢集資源。

本測試案例的目標:

  • 當多個團隊要求GPU超出配額時、顯示佇列機制。

  • 示範系統如何根據配額之間的比率、在多個超出配額的團隊之間分配公平的叢集共用區、讓具有較大配額的團隊獲得較大的備用容量份額。

結束時 "基本資源配置公平性"有兩個工作負載排入佇列:一個用於「team b」、一個用於「team c」。在本節中、我們會排入其他工作負載的佇列。

如需工作提交、使用的容器映像及執行命令順序等詳細資料、請參閱 "第4.10節的測試詳細資料"

當所有工作都根據區段提交時 "第4.10節的測試詳細資料"、系統儀表板會顯示 team-ateam-b`和 `team-c 所有 GPU 的數量都超過其預設配額。 team-a 與預設的軟配額(四個)相比、 GPU 的佔用量增加四個 GPU 、而 team-bteam-c 每個 GPU 所佔用的 GPU 數量比軟配額(兩個)多兩個。分配的配額過多GPU比例等於預設配額的比例。這是因為當多個團隊要求更多GPU、超過配額時、系統會使用預設配額作為優先順序的參考資料、並據此進行資源配置。當企業資料科學團隊積極參與AI模式的開發與正式作業時、這種自動負載平衡可提供公平性和優先順序。

osrunai 影像 10.

此測試案例的結果顯示下列項目:

  • 系統開始將其他團隊的工作負載取消佇列。

  • 根據公平演算法決定取消佇列的順序、例如「team-b」和「team-c」獲得相同數量的配額GPU(因為配額相似)、 而A組的配額比B組和C組的配額高出兩倍、因此獲得兩倍的GPU數量。

  • 所有分配都會自動完成。

因此、系統應穩定在下列狀態:

專案 已分配的GPU 留言

團隊A

8/4.

超過配額的四個GPU。空佇列。

團隊b

4/2.

超過配額的兩個GPU。一個工作負載已排入佇列。

團隊

4/2.

超過配額的兩個GPU。一個工作負載已排入佇列。

團隊

0/8.

完全不使用GPU、沒有排入佇列的工作負載。

下圖顯示各區段的「執行:AI分析」儀表板中、隨著時間推移、每個專案的GPU配置 "透過過度配額GPU配置、實現高叢集使用率""基本資源配置公平性""過度配額的公平性"。圖中的每一行都會指出任何時間為特定資料科學團隊配置的GPU數量。我們可以看到、系統會根據提交的工作負載動態配置GPU。如此一來、當叢集中有可用的GPU時、團隊就能跳過配額、然後根據公平原則預先部署工作、最後才會達到四個團隊的穩定狀態。

osrunai 影像 11.