ソリューションテクノロジ
この解決策は、 1 台の NetApp AFF A800 システム、 2 台の DGX-1 サーバ、 2 台の Cisco Nexus 3232C 100GbE スイッチで実装されました。DGX-1 サーバはそれぞれ 4 本の 100GbE 接続で Nexus スイッチに接続されます。この接続は、 Converged Ethernet ( RoCE )を介したリモートダイレクトメモリアクセス( RDMA )を使用する GPU 間通信に使用されます。NFS ストレージアクセス用の従来の IP 通信も、これらのリンクで行われます。各ストレージコントローラは、 4 つの 100GbE リンクを使用してネットワークスイッチに接続されています。次の図に、このテクニカルレポートですべてのテストシナリオに使用した ONTAP AI 解決策アーキテクチャを示します。
この解決策で使用されているハードウェア
この解決策は、 ONTAP AI リファレンスアーキテクチャ DGX 1 ノードと AFF A800 ストレージシステム 1 台を使用して検証されました。 "NVA-1121"この検証で使用したインフラの詳細については、を参照してください。
次の表に、テストで解決策を実装するために必要なハードウェアコンポーネントを示します。
ハードウェア | 数量 |
---|---|
DGX-1システム |
2 |
AFF A800用 |
1 |
Nexus 3232C スイッチ |
2 |
ソフトウェア要件
この解決策は、 Run : AI オペレータがインストールされた基本的な Kubernetes 環境で検証されました。KubernetesはDeployment Engineを使用して導入され、本番環境に必要なすべてのコンポーネントが導入されました "NVIDIA DeepOps のことです"。Kubernetes環境との永続的ストレージ統合のためにDeepOpsが自動的に導入され "NetApp Trident"、コンテナがAFF A800ストレージシステムのストレージを利用するようにデフォルトのストレージクラスが作成されました。ONTAP AIでのTrident with Kubernetesの詳細については、を参照してください "TR-4798"。
次の表に、テストで解決策を実装するために必要なソフトウェアコンポーネントを示します。
ソフトウェア | バージョンまたはその他の情報 |
---|---|
NetApp ONTAP データ管理ソフトウェア |
9.6p4 |
Cisco NX-OS スイッチのファームウェア |
7.0(3)I6(1) |
NVIDIA DGX OS |
4.0.4 - Ubuntu 18.04 LTS |
Kubernetes のバージョン |
1.17 |
Trident のバージョン |
20.04.0 |
AI CLI を実行 |
v2.1.13 |
実行: AI Orchestration Kubernetes Operator バージョン |
1.0.39 |
Docker コンテナプラットフォーム |
18.06.1-CE [e68fc7a] |
Run:AIのその他のソフトウェア要件については、を参照してください "AI GPU クラスタの前提条件を実行します"。