日本語は機械翻訳による参考訳です。内容に矛盾や不一致があった場合には、英語の内容が優先されます。

TR-4810:『NetApp ONTAP and Lenovo ThinkSystem SR670 for AI and ML Model Training Workloads』

寄稿者

Karthikeyan Nagalingam、NetApp Miroslav Hodak、Lenovo

TR-4810は、コスト効率に優れたエントリレベルのコンピューティングおよびストレージアーキテクチャを説明し、ネットアップのストレージコントローラとLenovo ThinkSystemサーバにGPUベースの人工知能(AI)トレーニングを導入します。このセットアップは、複数のトレーニングジョブを並行して実行する小規模から中規模のチーム向けの共有リソースとして設計されています。

TR-4810は、V100 GPU上のTensorFlowでのイメージ分類トレーニングを評価する業界標準のMLPerfベンチマークのパフォーマンスデータを提供します。パフォーマンスを測定するために、ResNet50をImageNetデータセット、バッチサイズ512、ハーフ精度、CUDA、cuDNNで使用しました。この分析は、4台のGPU SR670サーバとエントリレベルのネットアップストレージシステムを使用して実施しました。このテストでは、共有、マルチユーザ、マルチジョブの各ケースでテストした複数のユースケースで、パフォーマンスの効率が非常に優れており、個 々 のジョブで最大4台のサーバを拡張できます。大規模なスケールアウトジョブは効率が低下していましたが、まだ実行可能です