La version française est une traduction automatique. La version anglaise prévaut sur la française en cas de divergence.

Tr-4810 : workloads d’entraînement des modèles d’IA et DE ML NetApp ONTAP et Lenovo ThinkSystem SR670

Contributeurs

Karthikeyan Nagalingam, NetApp Miroslav Hodak, Lenovo

Le rapport TR-4810 présente une architecture de stockage et de calcul économique d’entrée de gamme, permettant de déployer un entraînement basé sur des processeurs graphiques sur des contrôleurs de stockage NetApp et des serveurs Lenovo ThinkSystem. La configuration est conçue comme une ressource partagée pour les petites et moyennes équipes qui exécutent plusieurs tâches de formation en parallèle.

Tr-4810 fournit des données de performance pour le banc d’essai MLPerf standard évaluant l’entraînement de la classification des images avec TensorFlow sur les GPU V100. Pour mesurer les performances, nous avons utilisé ResNet50 avec le dataset ImageNet, une taille de batchs de 512, une demi-précision, CUDA et cuDNN. Nous avons réalisé cette analyse en utilisant quatre processeurs graphiques SR670 et un système de stockage NetApp d’entrée de gamme. Les résultats montrent des performances très efficaces dans les différents cas d’utilisation testés ici―partagé, multi-utilisateurs, multi-tâches, avec des tâches individuelles qui peuvent évoluer jusqu’à quatre serveurs. Les emplois à grande échelle étaient moins efficaces, mais demeurent possibles