Skip to main content
NetApp Solutions
La version française est une traduction automatique. La version anglaise prévaut sur la française en cas de divergence.

Bibliothèques de traitement de données et d'entraînement des modèles

Contributeurs

Le tableau suivant répertorie les bibliothèques et les structures utilisées pour créer cette tâche. Tous ces composants ont été entièrement intégrés aux contrôles d'accès et de sécurité basés sur les rôles d'Azure.

Bibliothèques/structures Description

DMASK cuML

Pour QUE LE ML fonctionne sur le GPU, le "Bibliothèque cuML" Donne accès au forfait RAPIDS cuML avec Dask. RAPIDS cuML implémente des algorithmes DE ML courants, notamment la mise en cluster, la réduction de la dimensionnalité et les approches de régression, avec des implémentations basées sur GPU haute performance, offrant des vitesses jusqu'à 100 fois supérieures aux approches basées sur les processeurs.

DASK cuDF

CuDF inclut diverses autres fonctions prenant en charge l'extraction accélérée par GPU, la transformation, la charge (ETL), telles que la sous-définition de données, les transformations, l'encodage à chaud unique, etc. L'équipe DE RAPIDS a "bibliothèque dask-cudf" Cela inclut des méthodes d'aide pour utiliser DASK et cuDF.

Apprendre Scikit

Scikit-Learn fournit des dizaines d'algorithmes et de modèles d'apprentissage machine intégrés, appelés estimateurs. Chacun "estimateur" peut être installé sur certaines données à l'aide de son "ajustement" méthode.

Nous avons utilisé deux ordinateurs portables pour construire les pipelines DE ML à des fins de comparaison. L'une est l'approche classique Pandas scikit d'apprentissage et l'autre, une formation distribuée à RAPIDS et DASK. Chaque ordinateur portable peut être testé individuellement pour connaître les performances en termes de temps et d'échelle. Nous recouvrons chaque ordinateur portable individuellement pour démontrer les avantages de la formation distribuée à L'aide DE RAPIDS et DASK.