TR-4810:『NetApp AFF A400 with Lenovo ThinkSystem SR670 V2 for AI and ML Model Training』
Sathish Thyagarajan、David Arnette、NetApp Mircea Troaca、Lenovo
この解決策 は、ネットアップストレージと、人工知能(AI)ワークロード向けに最適化されたLenovoサーバを使用したミッドレンジのクラスタアーキテクチャを提供します。これは、ほとんどのコンピューティングジョブがシングルノード(シングルまたはマルチGPU)であるか、少数のコンピューティングノードに分散される、中小企業を対象としています。この解決策 は、多くの企業で日 々 行われているAIトレーニングの業務に対応しています。
本ドキュメントでは、8台のGPU Lenovo SR670V2サーバ、ミッドレンジのNetApp AFF A400ストレージシステム、100GbEインターコネクトスイッチで構成されるコンピューティングとストレージの構成のテストと検証について説明します。パフォーマンスを測定するために、ResNet50をImageNetデータセットで使用し、バッチサイズを408、ハーフ精度、CUDA、cuDNNにしました。このアーキテクチャは、NetApp ONTAP クラウド対応データストレージのエンタープライズクラスの機能を必要とするAIイニシアチブから始めた中堅企業のお客様に、効率性と対費用効果に優れた解決策 を提供します。
対象読者
本ドキュメントは、次のような方を対象としています。
-
データサイエンティスト、データエンジニア、データ管理者、AIシステムの開発者
-
AIモデルの開発のためのソリューションを設計するエンタープライズアーキテクト
-
ディープラーニング(DL)と機械学習(ML)の開発目標を達成するための効率的な方法を探しているデータサイエンティストとデータエンジニア
-
AI導入の市場投入までの時間を最短に短縮したいと考えているビジネスリーダーや、OT / ITの意思決定者
解決策アーキテクチャ
Lenovo ThinkSystemサーバを搭載したこの解決策 と、AFF ストレージを搭載したNetApp ONTAP は、GPUの処理能力と従来のCPUを組み合わせて、大規模なデータセットでAIトレーニングを処理するように設計されています。この検証では、1台のNetApp AFF A400ストレージシステムに加え、Lenovo SR670 V2サーバを1台、2台、または4台使用するスケールアウトアーキテクチャにより、パフォーマンスの向上と最適なデータ管理を実現します。次の図に、アーキテクチャの概要を示します。
このネットアップと Lenovo 解決策は、主に次のようなメリットをもたらします。
-
複数のトレーニングジョブを並行して実行する場合、効率性とコスト効率に優れたパフォーマンスを実現します
-
Lenovoのサーバの数や、ネットアップストレージコントローラのさまざまなモデルに基づく拡張性に優れたパフォーマンス
-
堅牢なデータ保護により、データ損失ゼロで目標復旧時点(RPO)と目標復旧時間(RTO)を達成
-
Snapshotとクローンを使用してデータ管理を最適化し、開発ワークフローを合理化