TR-4810: AIおよびMLモデルトレーニング向けNetApp AFF A400とLenovo ThinkSystem SR670 V2
Sathish Thyagarajan、David Arnette、 NetApp Mircea Troaca、Lenovo
このソリューションは、人工知能 (AI) ワークロード向けに最適化されたNetAppストレージと Lenovo サーバーを使用したミッドレンジ クラスター アーキテクチャを提供します。これは、ほとんどのコンピューティング ジョブが単一ノード (単一またはマルチ GPU) であるか、少数のコンピューティング ノードに分散されている中小企業を対象としています。このソリューションは、多くの企業の日常的な AI トレーニング ジョブのほとんどに適合します。
このドキュメントでは、8 つの GPU を搭載した Lenovo SR670V2 サーバー、ミッドレンジのNetApp AFF A400ストレージ システム、および 100GbE 相互接続スイッチで構成されるコンピューティングおよびストレージ構成のテストと検証について説明します。パフォーマンスを測定するために、ImageNet データセット、バッチ サイズ 408、半精度、CUDA、cuDNN を使用した ResNet50 を使用しました。このアーキテクチャは、 NetApp ONTAPクラウド接続データ ストレージのエンタープライズ グレードの機能を必要とする AI イニシアチブを開始したばかりの中小規模の組織に、効率的でコスト効率の高いソリューションを提供します。
対象
このドキュメントは次の読者を対象としています。
-
データサイエンティスト、データエンジニア、データ管理者、AIシステムの開発者
-
AIモデル開発のためのソリューションを設計するエンタープライズアーキテクト
-
ディープラーニング(DL)と機械学習(ML)の開発目標を達成するための効率的な方法を探しているデータサイエンティストとデータエンジニア
-
AIイニシアチブの市場投入までの時間を最短にしたいと考えているビジネスリーダーとOT/IT意思決定者
ソリューションアーキテクチャ
Lenovo ThinkSystem サーバーとAFFストレージを備えたNetApp ONTAPを使用したこのソリューションは、従来の CPU に加えて GPU の処理能力を使用して、大規模なデータセットでの AI トレーニングを処理するように設計されています。この検証では、1 台、2 台、または 4 台の Lenovo SR670 V2 サーバーと単一のNetApp AFF A400ストレージ システムを組み合わせたスケールアウト アーキテクチャにより、高いパフォーマンスと最適なデータ管理が実現されることが実証されています。次の図は、アーキテクチャの概要を示しています。
このNetAppと Lenovo のソリューションは、主に次の利点を提供します。
-
複数のトレーニングジョブを並行して実行する場合の非常に効率的でコスト効率の高いパフォーマンス
-
異なる数のLenovoサーバーと異なるモデルのNetAppストレージコントローラーに基づいてスケーラブルなパフォーマンスを実現します。
-
データ損失なしで低いリカバリポイント目標 (RPO) とリカバリ時間目標 (RTO) を満たす堅牢なデータ保護
-
スナップショットとクローンによる最適化されたデータ管理により開発ワークフローを効率化