解決策テクノロジ
この解決策は、 1 台の NetApp AFF A800 システム、 2 台の DGX-1 サーバ、 2 台の Cisco Nexus 3232C 100GbE スイッチで実装されました。DGX-1 サーバはそれぞれ 4 本の 100GbE 接続で Nexus スイッチに接続されます。この接続は、 Converged Ethernet ( RoCE )を介したリモートダイレクトメモリアクセス( RDMA )を使用する GPU 間通信に使用されます。NFS ストレージアクセス用の従来の IP 通信も、これらのリンクで行われます。各ストレージコントローラは、 4 つの 100GbE リンクを使用してネットワークスイッチに接続されています。次の図に、このテクニカルレポートですべてのテストシナリオに使用した ONTAP AI 解決策アーキテクチャを示します。
この解決策で使用されているハードウェア
この解決策は、 ONTAP AI リファレンスアーキテクチャ DGX 1 ノードと AFF A800 ストレージシステム 1 台を使用して検証されました。 "NVA-1121."この検証で使用したインフラの詳細については、を参照してください。
次の表に、テストで解決策を実装するために必要なハードウェアコンポーネントを示します。
ハードウェア | 数量 |
---|---|
DGX-1 システム |
2. |
AFF A800 |
1. |
Nexus 3232C スイッチ |
2. |
ソフトウェア要件
この解決策は、 Run : AI オペレータがインストールされた基本的な Kubernetes 環境で検証されました。Kubernetes はを使用して導入されました "NVIDIA DeepOps のことです" 導入エンジン:本番環境に必要なすべてのコンポーネントを導入します。DeepOps は自動的に導入されます "NetApp Trident" Kubernetes 環境との永続的なストレージ統合のために、デフォルトのストレージクラスが作成されました。これにより、コンテナは AFF A800 ストレージシステムのストレージを活用できます。Trident と ONTAP AI の Kubernetes の詳細については、を参照してください "TR-4798"。
次の表に、テストで解決策を実装するために必要なソフトウェアコンポーネントを示します。
ソフトウェア | バージョンまたはその他の情報 |
---|---|
NetApp ONTAP データ管理ソフトウェア |
9.6p4 |
Cisco NX-OS スイッチのファームウェア |
7.0 ( 3 ) I6 ( 1 ) |
NVIDIA DGX OS |
4.0.4 - Ubuntu 18.04 LTS |
Kubernetes のバージョン |
1.17 |
Trident のバージョン |
20.04.0 |
AI CLI を実行 |
v2.1.13 |
実行: AI Orchestration Kubernetes Operator バージョン |
1.0.39 |
Docker コンテナプラットフォーム |
18.06.1-CE [e68fc7a] |
実行に必要なその他のソフトウェア要件: AI は、から入手できます "AI GPU クラスタの前提条件を実行します"。