日本語は機械翻訳による参考訳です。内容に矛盾や不一致があった場合には、英語の内容が優先されます。

NVA-1173 NetApp AIPodとNVIDIA DGX H100システム-ソリューションアーキテクチャ

12/09/2024 共同作成者

このセクションでは、NVIDIA DGXシステムを搭載したNetApp AIPodのアーキテクチャに焦点を当てます。

DGXシステムを使用したNetApp AIPod

このリファレンスアーキテクチャでは、コンピューティングノード間の400GB/秒InfiniBand（IB）接続で、コンピューティングクラスタインターコネクトとストレージアクセスに別々のファブリックを利用します。次の図は、DGX H100システムを搭載したNetApp AIPodの全体的な解決策トポロジを示しています。

NetApp AIPOD解決策トポロジ_

入力/出力ダイアログを示す図、または書き込まれた内容を表す図

ネットワーク設計

この構成では、コンピューティングクラスタファブリックでQM9700 400Gb/秒IBスイッチのペアを使用します。これらのスイッチは相互に接続されて高可用性が確保されます。各DGX H100システムは、8つの接続を使用してスイッチに接続されます。一方のスイッチには偶数番のポートが接続され、もう一方のスイッチには奇数番のポートが接続されます。

ストレージシステムへのアクセス、インバンド管理、およびクライアントアクセスには、SN4600イーサネットスイッチのペアを使用します。スイッチはスイッチ間リンクで接続され、さまざまなトラフィックタイプを分離するために複数のVLANで設定されます。特定のVLAN間で基本的なL3ルーティングを有効にすると、同じスイッチ上のクライアントインターフェイスとストレージインターフェイス間、およびスイッチ間で複数のパスを有効にしてハイアベイラビリティを実現できます。大規模な展開では、スパインスイッチ用にスイッチペアを追加し、必要に応じてリーフを追加することで、イーサネットネットワークをリーフスパイン構成に拡張できます。

コンピューティングインターコネクトと高速イーサネットネットワークに加えて、すべての物理デバイスを1つ以上のSN2201イーサネットスイッチに接続し、アウトオブバンド管理を行います。"導入の詳細"ネットワーク設定の詳細については、ページを参照してください。

DGX H100システムのストレージアクセスの概要

各DGX H100システムには、管理トラフィックとストレージトラフィック用に2つのデュアルポートConnectX-7アダプタがプロビジョニングされます。この解決策では、各カードの両方のポートが同じスイッチに接続されます。各カードの1つのポートがLACP MLAGボンドに構成され、各スイッチに1つのポートが接続されます。このボンドでは、インバンド管理、クライアントアクセス、およびユーザレベルのストレージアクセス用のVLANがホストされます。

各カードのもう一方のポートはAFF A90ストレージシステムへの接続に使用され、ワークロードの要件に応じて複数の構成で使用できます。NVIDIA Magnum IO GPUDirect StorageをサポートするためにNFS over RDMAを使用する構成では、ポートを個別のVLAN内のIPアドレスで個別に使用します。RDMAを必要としない環境では、ストレージインターフェイスをLACPボンディングで設定して、高可用性と追加の帯域幅を実現することもできます。クライアントは、RDMAを使用するかどうかに関係なく、NFS v4.1 pNFSおよびセッショントランキングを使用してストレージシステムをマウントし、クラスタ内のすべてのストレージノードに並列アクセスできるようにします。"導入の詳細"クライアント設定の詳細については、ページを参照してください。

DGX H100システムの接続の詳細については、を参照してください"NVIDIA BasePODドキュメント"。

ストレージシステムの設計

各AFF A90ストレージシステムは、各コントローラの6つの200GbEポートを使用して接続されます。各コントローラの4つのポートがDGXシステムからのワークロードデータアクセスに使用され、各コントローラの2つのポートがLACPインターフェイスグループとして構成され、クラスタ管理アーティファクトとユーザホームディレクトリ用の管理プレーンサーバからのアクセスをサポートします。ストレージシステムからのすべてのデータアクセスはNFS経由で提供されます。AIワークロードアクセス専用のStorage Virtual Machine（SVM）と、クラスタ管理専用の別のSVMがあります。

管理SVMに必要なLIFは1つだけです。このLIFは、各コントローラで設定された2ポートインターフェイスグループでホストされます。他のFlexGroupは、クラスタノードのイメージ、システム監視履歴データ、エンドユーザのホームディレクトリなど、クラスタ管理アーティファクトを格納するために管理SVM上にプロビジョニングされます。次の図は、ストレージシステムの論理構成を示しています。

NetApp A90ストレージクラスタの論理構成

入力/出力ダイアログを示す図、または書き込まれた内容を表す図

管理プレーンサーバ

このリファレンスアーキテクチャには、管理プレーン用に5台のCPUベースのサーバも含まれています。このうちの2つのシステムは、クラスタの導入と管理のためのNVIDIA Base Command Managerのヘッドノードとして使用されます。他の3つのシステムは、ジョブのスケジューリングにSlurmを利用する導入環境向けに、Kubernetesマスターノードやログインノードなどの追加のクラスタサービスを提供するために使用されます。Kubernetesを利用した導入では、NetApp Trident CSIドライバを活用して、AFF A900ストレージシステム上の管理ワークロードとAIワークロードの両方に永続的ストレージを使用した自動プロビジョニングとデータサービスを提供できます。

各サーバは、クラスタの導入と管理を可能にするためにIBスイッチとイーサネットスイッチの両方に物理的に接続されます。また、前述したクラスタ管理アーティファクトの保存用に、管理SVMを介したストレージシステムへのNFSマウントが設定されます。