TR-4904: Treinamento distribuído no Azure - Previsão de taxa de cliques
Rick Huang, Verron Martina, Muneer Ahmad, NetApp
O trabalho de um cientista de dados deve ser focado no treinamento e ajuste de modelos de aprendizado de máquina (ML) e inteligência artificial (IA). No entanto, de acordo com uma pesquisa do Google, os cientistas de dados gastam aproximadamente 80% do tempo descobrindo como fazer com que seus modelos funcionem com aplicações empresariais e sejam executados em escala.
Para gerenciar projetos completos de AI/ML, é necessário um entendimento mais amplo dos componentes empresariais. Embora o DevOps tenha assumido a definição, a integração e a implantação, esses tipos de componentes, as operações DE ML têm como alvo um fluxo semelhante que inclui projetos de AI/ML. Para ter uma ideia do que um pipeline de AI/ML completo toca na empresa, consulte a seguinte lista de componentes necessários:
-
Armazenamento
-
Rede
-
Bancos de dados
-
Sistemas de arquivos
-
Contêineres
-
Pipeline de integração contínua e implantação contínua (CI/CD)
-
Ambiente de desenvolvimento integrado (IDE)
-
Segurança
-
Políticas de acesso a dados
-
Hardware
-
Nuvem
-
Virtualização
-
Ferramentas e bibliotecas de ciência de dados
Público-alvo
O mundo da ciência de dados aborda várias disciplinas em TI e negócios:
-
O cientista de dados precisa da flexibilidade para usar suas ferramentas e bibliotecas de escolha.
-
O engenheiro de dados precisa saber como os dados fluem e onde residem.
-
Um engenheiro de DevOps precisa de ferramentas para integrar novas aplicações de AI/ML aos pipelines de CI/CD.
-
Os administradores e arquitetos de nuvem precisam ser capazes de configurar e gerenciar recursos do Azure.
-
Os usuários empresariais querem ter acesso a aplicativos de IA/ML.
Neste relatório técnico, descrevemos como o Azure NetApp Files, a IA DO RAPIDS, a Dask e o Azure ajudam cada uma dessas funções a agregar valor aos negócios.
Visão geral da solução
Essa solução segue o ciclo de vida de uma aplicação de AI/ML. Começamos com o trabalho de cientistas de dados para definir as diferentes etapas necessárias para preparar dados e treinar modelos. Ao aproveitar O RAPIDS no Dask, realizamos treinamento distribuído em todo o cluster AKS (Serviço Kubernetes do Azure) para reduzir drasticamente o tempo de treinamento quando comparado à abordagem convencional do Python scikit-learn. Para completar o ciclo completo, integramos o pipeline com o Azure NetApp Files.
O Azure NetApp Files oferece várias categorias de performance. Os clientes podem começar com uma categoria padrão, fazer escalabilidade horizontal e fazer escalabilidade vertical para uma categoria de alta performance sem interrupções, sem movimentação de dados. Essa funcionalidade permite que os cientistas de dados treinem modelos em escala sem problemas de performance, evitando silos de dados no cluster, como mostra a figura abaixo.