TR-4810: NetApp AFF A400 com Lenovo ThinkSystem SR670 V2 para AI e ML modelo de treinamento
Sathish Thyagarajan, David Arnette, NetApp Mircea Troaca, Lenovo
Essa solução apresenta uma arquitetura de cluster de médio porte usando o storage NetApp e os servidores Lenovo otimizados para workloads de inteligência artificial (AI). Ele destina-se a empresas de pequeno e médio porte para as quais a maioria das tarefas de computação é de nó único (único ou multi-GPU) ou distribuída em alguns nós computacionais. Essa solução está alinhada à maioria dos trabalhos de treinamento de AI diários para muitas empresas.
Este documento abrange o teste e a validação de uma configuração de computação e armazenamento que consiste em servidores Lenovo SR670V2 de oito GPU, um sistema de armazenamento NetApp AFF A400 de médio alcance e switch de interconexão 100GbE. Para medir o desempenho, utilizou-se o ResNet50 com o conjunto de dados IMAGEnet, um tamanho de lote de 408, meia precisão, CUDA e cuDNN. Essa arquitetura oferece uma solução eficiente e econômica para organizações de pequeno e médio porte que estão começando com iniciativas de AI que exigem os recursos de nível empresarial do storage de dados conectado à nuvem da NetApp ONTAP.
Público-alvo
Este documento destina-se aos seguintes públicos:
-
Cientistas de dados, engenheiros de dados, administradores de dados e desenvolvedores de sistemas de AI
-
Arquitetos empresariais que projetam soluções para o desenvolvimento de modelos de IA
-
Cientistas de dados e engenheiros de dados que buscam maneiras eficientes de alcançar metas de desenvolvimento de deep learning (DL) e aprendizado de máquina (ML)
-
Líderes de negócios e tomadores de decisão de OT/TI que desejam alcançar o tempo de comercialização mais rápido possível para iniciativas de IA
Arquitetura da solução
Essa solução com os servidores Lenovo ThinkSystem e o NetApp ONTAP com armazenamento AFF foi projetada para lidar com treinamento de IA em grandes conjuntos de dados usando o poder de processamento de GPUs juntamente com CPUs tradicionais. Essa validação demonstra alto desempenho e gerenciamento de dados ideal com uma arquitetura de escalabilidade horizontal que usa um, dois ou quatro servidores Lenovo SR670 V2 juntamente com um único sistema de storage NetApp AFF A400. A figura a seguir fornece uma visão geral da arquitetura.
Esta solução NetApp e Lenovo oferece os seguintes principais benefícios:
-
Desempenho altamente eficiente e econômico ao executar vários trabalhos de treinamento em paralelo
-
Desempenho escalável baseado em diferentes números de servidores Lenovo e diferentes modelos de controladores de armazenamento NetApp
-
Proteção de dados robusta para atender aos objetivos de ponto de restauração (RPOs) e de tempo de recuperação (RTOs) sem perda de dados
-
Gerenciamento de dados otimizado com snapshots e clones para otimizar os workflows de desenvolvimento