Skip to main content
日本語は機械翻訳による参考訳です。内容に矛盾や不一致があった場合には、英語の内容が優先されます。

NVA-1173 NVIDIA DGXシステムを使用したNetApp AIPod -ソリューションの検証とサイジングに関するガイダンス

共同作成者

このセクションでは、NVIDIA DGXシステムを使用したNetApp AIPodに関する解決策の検証とサイジングのガイダンスについて説明します。

解決策の検証

この解決策のストレージ構成は、オープンソースツールfioを使用した一連の統合ワークロードを使用して検証されました。テストには、ディープラーニングトレーニングジョブを実行するDGXシステムで生成されるストレージワークロードをシミュレートするI/Oパターンの読み取りと書き込みが含まれます。ストレージ構成は、FIOワークロードを同時に実行する2ソケットCPUサーバのクラスタを使用して検証され、DGXシステムのクラスタをシミュレートしました。各クライアントは、前述したのと同じネットワーク構成で設定され、次の詳細が追加されました。

この検証に使用したマウントオプションは次のとおりです。

バージョン= 4.1

pNFSで複数のストレージノードへの並列アクセスを実現

PROTO = RDMA

転送プロトコルをデフォルトのTCPではなくRDMAに設定する

ポート= 20049

RDMA NFSサービスの正しいポートを指定してください

max_connect = 16

ストレージポートの帯域幅を集約するためのNFSセッショントランキングを有効にする

書き込み= Eager

バッファ書き込みの書き込みパフォーマンスが向上

rsize=262144 、 wsize=262144

I/O転送サイズを256Kに設定します。

さらに、クライアントにはNFS max_session_slots値1024を設定しました。解決策では、RDMA経由のNFSを使用してテストしたため、ストレージネットワークポートにはアクティブ/パッシブボンドを設定しました。この検証では、次のボンドパラメータを使用しました。

モード=アクティブ/バックアップ

ボンディングをアクティブ/パッシブモードに設定します。

プライマリ=<interface name>

すべてのクライアントのプライマリインターフェイスがスイッチ全体に分散されている

mii-monitor-interval=100

100 msの監視間隔を指定します。

fail-over-mac-policy=active

アクティブリンクのMACアドレスがボンドのMACであることを指定します。これは、ボンディングされたインターフェイス上でRDMAが適切に動作するために必要です。

2つのA900 HAペア(4台のコントローラ)と1.9TB NVMeディスクドライブを24本搭載したNS224ディスクシェルフをそれぞれのHAペアに接続して、説明のとおりにストレージシステムを構成しました。アーキテクチャのセクションで説明したように、すべてのコントローラのストレージ容量をFlexGroupボリュームを使用して結合し、すべてのクライアントのデータをクラスタ内のすべてのコントローラに分散しました。

ストレージシステムのサイジングに関するガイダンス

NetAppはDGX BasePOD認定を取得しました。テスト済みの2つのA90 HAペアは、16台のDGX H100システムのクラスタを簡単にサポートできます。ストレージパフォーマンス要件の高い大規模な環境では、AFFシステムをNetApp ONTAPクラスタに追加し、1つのクラスタに最大12のHAペア(24ノード)を追加できます。このソリューションで説明するFlexGroupテクノロジを使用すると、24ノードクラスタで79PBを超える容量と最大552Gbpsのスループットを単一のネームスペースで実現できます。AFF A400、A250、C800などの他のNetAppストレージシステムは、低パフォーマンスまたは大容量のオプションを提供し、小規模な導入に低コストで対応します。ONTAP 9は混在モデルのクラスタをサポートしているため、最初は小規模な設置面積から始めて、容量やパフォーマンスの要件が増大したときに、クラスタにストレージシステムを追加したり、大容量のストレージシステムを追加したりすることができます。次の表に、各AFFモデルでサポートされるA100およびH100 GPUの概算数を示します。

_ NetAppストレージシステムのサイジングガイダンス_

入力/出力ダイアログを示す図、または書き込まれた内容を表す図