使用案例總覽與問題陳述
資料集與資料集版本通常位於資料湖中、例如NetApp StorageGRID 以物件為基礎的儲存設備、可降低成本及提供其他營運優勢。資料科學家會將這些資料集拉出、並以多個步驟來進行設計、以準備好使用特定模型進行訓練、通常會在過程中建立多個版本。下一步、資料科學家必須挑選最佳化的運算資源(GPU、高階CPU執行個體、內部部署叢集等)來執行模型。下圖說明ML運算環境中資料集的鄰近度不足。
然而、多項訓練實驗必須在不同的運算環境中平行執行、每項都需要從資料湖下載資料集、這是一項昂貴且耗時的程序。無法保證資料集與運算環境的距離(尤其是混合雲)。此外、在同一個資料集上執行自己實驗的其他團隊成員、也必須經歷同樣艱鉅的程序。除了明顯緩慢的資料存取速度之外、還有難以追蹤資料集版本、資料集共用、協同作業和可重複性等挑戰。
客戶需求
客戶的需求可能會有所不同、以便在有效率地使用資源的情況下執行高效能ML;例如、客戶可能需要下列項目:
-
從執行訓練模式的每個運算執行個體快速存取資料集、而不會產生昂貴的下載和資料存取複雜度
-
在雲端或內部部署中使用任何運算執行個體(GPU或CPU)、而不需擔心資料集的位置
-
在同一個資料集上同時執行多項訓練實驗、並使用不同的運算資源、而不會產生不必要的延遲和資料延遲、進而提升效率和生產力
-
將運算執行個體成本降至最低
-
利用工具來記錄資料集、其資料類型、版本及其他中繼資料詳細資料、藉此改善可重複性
-
增強共享與協同作業、讓團隊中的任何授權成員都能存取資料集並執行實驗
若要使用NetApp ONTAP 支援資料集快取管理軟體來實作資料集快取、客戶必須執行下列工作:
-
設定和設定最接近運算資源的NFS儲存設備。
-
判斷要快取的資料集和版本。
-
監控已認可給快取資料集的總記憶體、以及可用於其他快取認可的NFS儲存容量(例如快取管理)。
-
如果資料集在某段時間內未使用、則會在快取中逾時。預設值為一天、其他組態選項則可供使用。