O português é fornecido por meio de tradução automática para sua conveniência. O inglês precede o português em caso de inconsistências.

TR-4904: Treinamento distribuído no Azure - Previsão de taxa de cliques

10/21/2024 Colaboradores

PDFs

Rick Huang, Verron Martina, Muneer Ahmad, NetApp

O trabalho de um cientista de dados deve ser focado no treinamento e ajuste de modelos de aprendizado de máquina (ML) e inteligência artificial (IA). No entanto, de acordo com uma pesquisa do Google, os cientistas de dados gastam aproximadamente 80% do tempo descobrindo como fazer com que seus modelos funcionem com aplicações empresariais e sejam executados em escala.

Para gerenciar projetos completos de AI/ML, é necessário um entendimento mais amplo dos componentes empresariais. Embora o DevOps tenha assumido a definição, a integração e a implantação, esses tipos de componentes, as operações DE ML têm como alvo um fluxo semelhante que inclui projetos de AI/ML. Para ter uma ideia do que um pipeline de AI/ML completo toca na empresa, consulte a seguinte lista de componentes necessários:

Armazenamento
Rede
Bancos de dados
Sistemas de arquivos
Contêineres
Pipeline de integração contínua e implantação contínua (CI/CD)
Ambiente de desenvolvimento integrado (IDE)
Segurança
Políticas de acesso a dados
Hardware
Nuvem
Virtualização
Ferramentas e bibliotecas de ciência de dados

Público-alvo

O mundo da ciência de dados aborda várias disciplinas em TI e negócios:

O cientista de dados precisa da flexibilidade para usar suas ferramentas e bibliotecas de escolha.
O engenheiro de dados precisa saber como os dados fluem e onde residem.
Um engenheiro de DevOps precisa de ferramentas para integrar novas aplicações de AI/ML aos pipelines de CI/CD.
Os administradores e arquitetos de nuvem precisam ser capazes de configurar e gerenciar recursos do Azure.
Os usuários empresariais querem ter acesso a aplicativos de IA/ML.

Neste relatório técnico, descrevemos como o Azure NetApp Files, a IA DO RAPIDS, a Dask e o Azure ajudam cada uma dessas funções a agregar valor aos negócios.

Visão geral da solução

Essa solução segue o ciclo de vida de uma aplicação de AI/ML. Começamos com o trabalho de cientistas de dados para definir as diferentes etapas necessárias para preparar dados e treinar modelos. Ao aproveitar O RAPIDS no Dask, realizamos treinamento distribuído em todo o cluster AKS (Serviço Kubernetes do Azure) para reduzir drasticamente o tempo de treinamento quando comparado à abordagem convencional do Python scikit-learn. Para completar o ciclo completo, integramos o pipeline com o Azure NetApp Files.

O Azure NetApp Files oferece várias categorias de performance. Os clientes podem começar com uma categoria padrão, fazer escalabilidade horizontal e fazer escalabilidade vertical para uma categoria de alta performance sem interrupções, sem movimentação de dados. Essa funcionalidade permite que os cientistas de dados treinem modelos em escala sem problemas de performance, evitando silos de dados no cluster, como mostra a figura abaixo.

Figura que mostra a caixa de diálogo de entrada/saída ou que representa o conteúdo escrito

TR-4904: Treinamento distribuído no Azure - Previsão de taxa de cliques

Creating your file...

Público-alvo

Visão geral da solução