Skip to main content
日本語は機械翻訳による参考訳です。内容に矛盾や不一致があった場合には、英語の内容が優先されます。

解決策テクノロジ

共同作成者

この解決策は、 1 台の NetApp AFF A800 システム、 2 台の DGX-1 サーバ、 2 台の Cisco Nexus 3232C 100GbE スイッチで実装されました。DGX-1 サーバはそれぞれ 4 本の 100GbE 接続で Nexus スイッチに接続されます。この接続は、 Converged Ethernet ( RoCE )を介したリモートダイレクトメモリアクセス( RDMA )を使用する GPU 間通信に使用されます。NFS ストレージアクセス用の従来の IP 通信も、これらのリンクで行われます。各ストレージコントローラは、 4 つの 100GbE リンクを使用してネットワークスイッチに接続されています。次の図に、このテクニカルレポートですべてのテストシナリオに使用した ONTAP AI 解決策アーキテクチャを示します。

入力/出力ダイアログを示す図、または書き込まれた内容を表す図

この解決策で使用されているハードウェア

この解決策は、 ONTAP AI リファレンスアーキテクチャ DGX 1 ノードと AFF A800 ストレージシステム 1 台を使用して検証されました。 "NVA-1121."この検証で使用したインフラの詳細については、を参照してください。

次の表に、テストで解決策を実装するために必要なハードウェアコンポーネントを示します。

ハードウェア 数量

DGX-1 システム

2.

AFF A800

1.

Nexus 3232C スイッチ

2.

ソフトウェア要件

この解決策は、 Run : AI オペレータがインストールされた基本的な Kubernetes 環境で検証されました。Kubernetes はを使用して導入されました "NVIDIA DeepOps のことです" 導入エンジン:本番環境に必要なすべてのコンポーネントを導入します。DeepOps は自動的に導入されます "NetApp Trident" Kubernetes 環境との永続的なストレージ統合のために、デフォルトのストレージクラスが作成されました。これにより、コンテナは AFF A800 ストレージシステムのストレージを活用できます。Trident と ONTAP AI の Kubernetes の詳細については、を参照してください "TR-4798"

次の表に、テストで解決策を実装するために必要なソフトウェアコンポーネントを示します。

ソフトウェア バージョンまたはその他の情報

NetApp ONTAP データ管理ソフトウェア

9.6p4

Cisco NX-OS スイッチのファームウェア

7.0 ( 3 ) I6 ( 1 )

NVIDIA DGX OS

4.0.4 - Ubuntu 18.04 LTS

Kubernetes のバージョン

1.17

Trident のバージョン

20.04.0

AI CLI を実行

v2.1.13

実行: AI Orchestration Kubernetes Operator バージョン

1.0.39

Docker コンテナプラットフォーム

18.06.1-CE [e68fc7a]

実行に必要なその他のソフトウェア要件: AI は、から入手できます "AI GPU クラスタの前提条件を実行します"