本繁體中文版使用機器翻譯,譯文僅供參考,若與英文版本牴觸,應以英文版本為準。

TR-4810:ONTAP 適用於AI和ML模型訓練工作負載的NetApp支援和Lenovo ThinkSystem SR670

貢獻者

NetApp Miroslav Hodak、聯想的Karthithkeyan Nagalingam

TR-4810說明具成本效益的入門級運算與儲存架構、可在NetApp儲存控制器和Lenovo ThinkSystem伺服器上部署GPU型人工智慧(AI)訓練課程。此設定是專為中小團隊設計的共享資源、可同時執行多項訓練工作。

TR-4810提供業界標準MLPerf基準測試的效能資料、評估V100 GPU上TensorFlow的映像分類訓練。為了測量效能、我們將ResNet50與ImageNet資料集搭配使用、批次大小為512、半精準度、CUDA和CUDNN。我們使用四GPU SR670伺服器和入門級NetApp儲存系統來執行這項分析。結果顯示、在這裡測試的多個使用案例中、效能都非常有效率:共享、多使用者、多工作業案例、個別工作最多可擴充至四部伺服器。大規模的橫向擴充工作效率較低、但仍可行