日本語は機械翻訳による参考訳です。内容に矛盾や不一致があった場合には、英語の内容が優先されます。

ソリューションテクノロジ

02/03/2025 共同作成者

この解決策は、 1 台の NetApp AFF A800 システム、 2 台の DGX-1 サーバ、 2 台の Cisco Nexus 3232C 100GbE スイッチで実装されました。DGX-1 サーバはそれぞれ 4 本の 100GbE 接続で Nexus スイッチに接続されます。この接続は、 Converged Ethernet （ RoCE ）を介したリモートダイレクトメモリアクセス（ RDMA ）を使用する GPU 間通信に使用されます。NFS ストレージアクセス用の従来の IP 通信も、これらのリンクで行われます。各ストレージコントローラは、 4 つの 100GbE リンクを使用してネットワークスイッチに接続されています。次の図に、このテクニカルレポートですべてのテストシナリオに使用した ONTAP AI 解決策アーキテクチャを示します。

入力/出力ダイアログを示す図、または書き込まれた内容を表す図

この解決策で使用されているハードウェア

この解決策は、 ONTAP AI リファレンスアーキテクチャ DGX 1 ノードと AFF A800 ストレージシステム 1 台を使用して検証されました。 "NVA-1121"この検証で使用したインフラの詳細については、を参照してください。

次の表に、テストで解決策を実装するために必要なハードウェアコンポーネントを示します。

ハードウェア	数量
DGX-1システム	2
AFF A800用	1
Nexus 3232C スイッチ	2

ソフトウェア要件

この解決策は、 Run ： AI オペレータがインストールされた基本的な Kubernetes 環境で検証されました。KubernetesはDeployment Engineを使用して導入され、本番環境に必要なすべてのコンポーネントが導入されました "NVIDIA DeepOps のことです"。Kubernetes環境との永続的ストレージ統合のためにDeepOpsが自動的に導入され "NetApp Trident"、コンテナがAFF A800ストレージシステムのストレージを利用するようにデフォルトのストレージクラスが作成されました。ONTAP AIでのTrident with Kubernetesの詳細については、を参照してください "TR-4798"。

次の表に、テストで解決策を実装するために必要なソフトウェアコンポーネントを示します。

ソフトウェア	バージョンまたはその他の情報
NetApp ONTAP データ管理ソフトウェア	9.6p4
Cisco NX-OS スイッチのファームウェア	7.0（3）I6（1）
NVIDIA DGX OS	4.0.4 - Ubuntu 18.04 LTS
Kubernetes のバージョン	1.17
Trident のバージョン	20.04.0
AI CLI を実行	v2.1.13
実行： AI Orchestration Kubernetes Operator バージョン	1.0.39
Docker コンテナプラットフォーム	18.06.1-CE [e68fc7a]

ソフトウェア

バージョンまたはその他の情報

NetApp ONTAP データ管理ソフトウェア

9.6p4

Cisco NX-OS スイッチのファームウェア

7.0（3）I6（1）

NVIDIA DGX OS

4.0.4 - Ubuntu 18.04 LTS

Kubernetes のバージョン

1.17

Trident のバージョン

20.04.0

AI CLI を実行

v2.1.13

実行： AI Orchestration Kubernetes Operator バージョン

1.0.39

Docker コンテナプラットフォーム

18.06.1-CE [e68fc7a]

Run：AIのその他のソフトウェア要件については、を参照してください "AI GPU クラスタの前提条件を実行します"。

ソリューションテクノロジ

Creating your file...

この解決策で使用されているハードウェア

ソフトウェア要件