NVA-1173 NVIDIA DGXシステムを使用したNetApp AIPod -ソリューションの検証とサイジングに関するガイダンス
このセクションでは、NVIDIA DGXシステムを使用したNetApp AIPodに関する解決策の検証とサイジングのガイダンスについて説明します。
解決策の検証
この解決策のストレージ構成は、オープンソースツールfioを使用した一連の統合ワークロードを使用して検証されました。テストには、ディープラーニングトレーニングジョブを実行するDGXシステムで生成されるストレージワークロードをシミュレートするI/Oパターンの読み取りと書き込みが含まれます。ストレージ構成は、FIOワークロードを同時に実行する2ソケットCPUサーバのクラスタを使用して検証され、DGXシステムのクラスタをシミュレートしました。各クライアントは、前述したのと同じネットワーク構成で設定され、次の詳細が追加されました。
この検証に使用したマウントオプションは次のとおりです。
バージョン= 4.1 |
pNFSで複数のストレージノードへの並列アクセスを実現 |
PROTO = RDMA |
転送プロトコルをデフォルトのTCPではなくRDMAに設定する |
ポート= 20049 |
RDMA NFSサービスの正しいポートを指定してください |
max_connect = 16 |
ストレージポートの帯域幅を集約するためのNFSセッショントランキングを有効にする |
書き込み= Eager |
バッファ書き込みの書き込みパフォーマンスが向上 |
rsize=262144 、 wsize=262144 |
I/O転送サイズを256Kに設定します。 |
さらに、クライアントにはNFS max_session_slots値1024を設定しました。解決策では、RDMA経由のNFSを使用してテストしたため、ストレージネットワークポートにはアクティブ/パッシブボンドを設定しました。この検証では、次のボンドパラメータを使用しました。
モード=アクティブ/バックアップ |
ボンディングをアクティブ/パッシブモードに設定します。 |
プライマリ=<interface name> |
すべてのクライアントのプライマリインターフェイスがスイッチ全体に分散されている |
mii-monitor-interval=100 |
100 msの監視間隔を指定します。 |
fail-over-mac-policy=active |
アクティブリンクのMACアドレスがボンドのMACであることを指定します。これは、ボンディングされたインターフェイス上でRDMAが適切に動作するために必要です。 |
2つのA900 HAペア(4台のコントローラ)と1.9TB NVMeディスクドライブを24本搭載したNS224ディスクシェルフをそれぞれのHAペアに接続して、説明のとおりにストレージシステムを構成しました。アーキテクチャのセクションで説明したように、すべてのコントローラのストレージ容量をFlexGroupボリュームを使用して結合し、すべてのクライアントのデータをクラスタ内のすべてのコントローラに分散しました。
ストレージシステムのサイジングに関するガイダンス
NetAppはDGX BasePOD認定を取得しました。テスト済みの2つのA90 HAペアは、16台のDGX H100システムのクラスタを簡単にサポートできます。ストレージパフォーマンス要件の高い大規模な環境では、AFFシステムをNetApp ONTAPクラスタに追加し、1つのクラスタに最大12のHAペア(24ノード)を追加できます。このソリューションで説明するFlexGroupテクノロジを使用すると、24ノードクラスタで79PBを超える容量と最大552Gbpsのスループットを単一のネームスペースで実現できます。AFF A400、A250、C800などの他のNetAppストレージシステムは、低パフォーマンスまたは大容量のオプションを提供し、小規模な導入に低コストで対応します。ONTAP 9は混在モデルのクラスタをサポートしているため、最初は小規模な設置面積から始めて、容量やパフォーマンスの要件が増大したときに、クラスタにストレージシステムを追加したり、大容量のストレージシステムを追加したりすることができます。次の表に、各AFFモデルでサポートされるA100およびH100 GPUの概算数を示します。
_ NetAppストレージシステムのサイジングガイダンス_