本繁體中文版使用機器翻譯,譯文僅供參考,若與英文版本牴觸,應以英文版本為準。
結論
貢獻者
建議變更
NetApp與RUN:AI合作建立本技術報告、以展示Azure NetApp Files 與眾不同的功能、搭配RUN:AI平台、簡化AI工作負載的協調作業。本技術報告提供參考架構、可簡化資料管線和工作負載協調的流程、以利分散式通道偵測訓練。
最後、關於大規模分散式訓練(尤其是公有雲環境)、資源協調與儲存元件是解決方案的關鍵部分。確保資料管理不會阻礙多個GPU處理、因此能達到GPU週期的最佳使用率。如此一來、系統就能以最具成本效益的方式進行大規模的分散式訓練。
NetApp所提供的Data Fabric可讓資料科學家和資料工程師在內部部署和雲端之間建立連線、以取得同步資料、而無需執行任何手動介入、克服了這項挑戰。換句話說、資料架構可順暢地管理分散在多個位置的AI工作流程。此外、它也能將資料帶離運算近、並在需要時隨時隨地執行分析、訓練和驗證、進而提升隨需資料的可用度。這項功能不僅能實現資料整合、也能保護和保護整個資料傳輸途徑。