Skip to main content
NetApp Solutions
O português é fornecido por meio de tradução automática para sua conveniência. O inglês precede o português em caso de inconsistências.

Exemplo de caso de uso - TensorFlow Training Job

Colaboradores

Esta seção descreve as tarefas que precisam ser executadas para executar um trabalho de treinamento do TensorFlow em um ambiente empresarial de IA da NVIDIA.

Pré-requisitos

Antes de executar as etapas descritas nesta seção, assumimos que você já criou um modelo de VM Guest seguindo as instruções descritas na "Configuração" página.

Criar VM convidada a partir do modelo

Primeiro, você deve criar uma nova VM convidada a partir do modelo que você criou na seção anterior. Para criar uma nova VM convidada a partir do modelo, inicie sessão no VMware vSphere, clique no nome do modelo, escolha 'Nova VM a partir deste modelo…​' e, em seguida, siga o assistente.

Figura que mostra a caixa de diálogo de entrada/saída ou que representa o conteúdo escrito

Criar e montar volume de dados

Em seguida, crie um novo volume de dados para armazenar seu conjunto de dados de treinamento. Você pode criar rapidamente um novo volume de dados usando o Toolkit DataOps do NetApp. O comando exemplo que se segue mostra a criação de um volume chamado 'imagenet' com uma capacidade de 2 TB.

$ netapp_dataops_cli.py create vol -n imagenet -s 2TB

Antes de preencher o volume de dados com dados, você deve montá-lo na VM convidada. Você pode montar rapidamente um volume de dados usando o Toolkit DataOps do NetApp. O comando de exemplo que se segue mostra o tom do volume que foi criado na etapa anterior.

$ sudo -E netapp_dataops_cli.py mount vol -n imagenet -m ~/imagenet

Preencher volume de dados

Após o novo volume ter sido provisionado e montado, o conjunto de dados de treinamento pode ser recuperado da localização de origem e colocado no novo volume. Isso geralmente envolverá a extração de dados de um data Lake S3 ou Hadoop e, às vezes, envolverá a ajuda de um engenheiro de dados.

Execute o trabalho de formação do TensorFlow

Agora, você está pronto para executar seu trabalho de treinamento TensorFlow. Para executar seu trabalho de treinamento do TensorFlow, execute as seguintes tarefas.

  1. Puxe a imagem do contentor NVIDIA NGC Enterprise TensorFlow.

    $ sudo docker pull nvcr.io/nvaie/tensorflow-2-1:22.05-tf1-nvaie-2.1-py3
  2. Inicie uma instância do contentor TensorFlow da NVIDIA. Use a opção '-v' para anexar o volume de dados ao recipiente.

    $ sudo docker run --gpus all -v ~/imagenet:/imagenet -it --rm nvcr.io/nvaie/tensorflow-2-1:22.05-tf1-nvaie-2.1-py3
  3. Execute seu programa de treinamento TensorFlow dentro do recipiente. O comando exemplo que se segue mostra a execução de um exemplo de programa de treinamento ResNet-50 incluído na imagem do contentor.

    $ python ./nvidia-examples/cnn/resnet.py --layers 50 -b 64 -i 200 -u batch --precision fp16 --data_dir /imagenet/data