Skip to main content
NetApp Solutions
O português é fornecido por meio de tradução automática para sua conveniência. O inglês precede o português em caso de inconsistências.

Tecnologia de solução

Colaboradores

Essa solução foi implementada com um sistema NetApp AFF A800, dois servidores DGX-1 e dois switches Cisco Nexus 3232C 100GbE. Cada servidor DGX-1 é conetado aos switches Nexus com quatro conexões 100GbE que são usadas para comunicações entre GPU usando o acesso remoto à memória direta (RDMA) por meio de Ethernet convergente (RoCE). As comunicações IP tradicionais para acesso ao storage NFS também ocorrem nesses links. Cada controlador de armazenamento é conetado aos switches de rede usando quatro links 100GbE. A figura a seguir mostra a arquitetura da solução de IA da ONTAP usada neste relatório técnico para todos os cenários de teste.

Figura que mostra a caixa de diálogo de entrada/saída ou que representa o conteúdo escrito

Hardware usado nesta solução

Essa solução foi validada usando a arquitetura de referência do ONTAP AI, dois nós do DGX-1 e um sistema de storage da AFF A800. Consulte "NVA-1121" para obter mais detalhes sobre a infraestrutura utilizada nesta validação.

A tabela a seguir lista os componentes de hardware necessários para implementar a solução conforme testado.

Hardware Quantidade

Sistemas DGX-1

2

AFF A800

1

Switches Nexus 3232C

2

Requisitos de software

Essa solução foi validada usando uma implantação básica do Kubernetes com o operador Run:AI instalado. O Kubernetes foi implantado usando o "NVIDIA DeepOps" mecanismo de implantação, que implanta todos os componentes necessários para um ambiente pronto para produção. O DeepOps implantado automaticamente "NetApp Trident" para integração de storage persistente com o ambiente k8s, e as classes de storage padrão foram criadas para que os contêineres utilizem o storage do sistema de storage AFF A800. Para obter mais informações sobre o Trident com Kubernetes no ONTAP AI, "TR-4798" consulte .

A tabela a seguir lista os componentes de software necessários para implementar a solução conforme testado.

Software Versão ou outras informações

Software de gerenciamento de dados NetApp ONTAP

9.6p4

Firmware do switch Cisco NX-os

7,0 (3)I6 (1)

NVIDIA DGX os

4.0.4 - Ubuntu 18,04 LTS

Versão do Kubernetes

1,17

Versão Trident

20.04.0

Executar: Ai CLI

v2.1.13

Execute:versão do operador do Kubernetes de orquestração AI

1.0.39

Plataforma de contêiner do Docker

18.06.1-ce [e68fc7a]

Os requisitos de software adicionais para Run:AI podem ser encontrados em "Pré-requisitos do cluster de GPU da AI".