Skip to main content
NetApp Solutions
O português é fornecido por meio de tradução automática para sua conveniência. O inglês precede o português em caso de inconsistências.

Bibliotecas para Data Processing e treinamento de modelos

Colaboradores

A tabela a seguir lista as bibliotecas e frameworks que foram usadas para construir essa tarefa. Todos esses componentes foram totalmente integrados aos controles de segurança e acesso baseados em função do Azure.

Bibliotecas/framework Descrição

Dask cuML

Para QUE O ML funcione na GPU, o "Biblioteca cuML" fornece acesso ao pacote RAPIDS cuML com o Dask. O RAPIDS cuML implementa algoritmos DE ML populares, incluindo clustering, redução de dimensionalidade e abordagens de regressão, com implementações baseadas em GPU de alto desempenho, oferecendo velocidades de até 100xx em abordagens baseadas em CPU.

Dask cuDF

O cuDF inclui várias outras funções que suportam extração acelerada por GPU, transformação, carga (ETL), como subconfiguração de dados, transformações, codificação one-hot e muito mais. A equipe RAPIDS mantém um "dask-cudf biblioteca" que inclui métodos auxiliares para usar Dask e cuDF.

Scikit Aprenda

O Scikit-learn fornece dezenas de algoritmos e modelos integrados de aprendizado de máquina, chamados estimadores. Cada um "estimador" pode ser ajustado a alguns dados usando "ajuste" seu método.

Foram utilizados dois cadernos para construir os pipelines ML para comparação; um é a abordagem convencional PANDAS scikit-learn, e o outro é distribuído treinamento com RAPIDS e Dark. Cada notebook pode ser testado individualmente para ver o desempenho em termos de tempo e escala. Cobrimos cada caderno individualmente para demonstrar os benefícios do treinamento distribuído usando RAPIDS e Dask.