Skip to main content
NetApp Solutions
La version française est une traduction automatique. La version anglaise prévaut sur la française en cas de divergence.

Présentation de la solution

Contributeurs

Cette section présente la solution Run:ai pour ONTAP ai.

NetApp ONTAP ai et la solution ai Control plane

L'architecture NetApp ONTAP ai, développée et vérifiée par NetApp et NVIDIA, est optimisée par les systèmes NVIDIA DGX et les systèmes de stockage NetApp connectés au cloud. Et présente plusieurs avantages pour les SERVICES IT :

  • Simplifie la conception

  • Évolutivité indépendante des ressources de calcul et de stockage

  • Possibilité de faire évoluer de manière fluide une infrastructure initiale de petite taille

  • Propose plusieurs options de stockage pour répondre à des exigences variées de coûts et de performance

NetApp ONTAP ai intègre étroitement les systèmes DGX et de stockage NetApp AFF A800 avec une connectivité réseau optimale. Les systèmes NetApp ONTAP ai et DGX simplifient les déploiements d'IA en éliminant la complexité et les approximations. Les clients peuvent commencer avec un déploiement de petite taille, puis évoluer sans interruption d'activité, tout en gérant intelligemment leurs données de la périphérie au cœur, et jusqu'au cloud, et inversement.

NetApp ai Control plane est une solution complète d'IA, DE MACHINE LEARNING et de deep learning (DL) et de gestion des tests pour les data Scientists et les ingénieurs de données. Alors que les entreprises ont de plus en plus recours à l'IA, elles sont confrontées à de nombreux défis, notamment l'évolutivité des workloads et la disponibilité des données. NetApp ai Control plane répond à ces challenges grâce à des fonctionnalités telles que le clonage rapide d'un namespace de données comme Git repo. Il définit et met en œuvre des workflows d'entraînement d'IA qui incluent la création quasi instantanée de données et de références de modèles pour la traçabilité et la gestion des versions. NetApp ai Control plane vous permet de répliquer de manière transparente des données entre plusieurs sites et régions, et de provisionner rapidement des espaces de travail Jupyter Notebook avec un accès à des datasets volumineux.

Exécutez :plateforme d'IA pour l'orchestration des workloads d'IA

Run :l'IA a conçu la première plateforme mondiale d'orchestration et de virtualisation pour les infrastructures d'IA. En retirant les charges de travail du matériel sous-jacent, Run:ai crée un pool partagé de ressources GPU qui peut être provisionné de manière dynamique. Il est ainsi possible d'orchestrer efficacement les workloads d'IA et d'optimiser l'utilisation des GPU. Les data Scientists peuvent utiliser de façon transparente des quantités massives de puissance GPU pour améliorer et accélérer leurs recherches. Les équipes IT conservent un contrôle inter-site centralisé et une visibilité en temps réel sur le provisionnement des ressources, la mise en file d'attente et l'utilisation. La plateforme Run:IA repose sur Kubernetes, pour une intégration simple avec les workflows IT et de data science.

La plateforme Run:ai offre plusieurs avantages :

  • Accélération du temps vers l'innovation en utilisant le pool de ressources Run:ai, la mise en file d'attente et les mécanismes de priorisation avec un système de stockage NetApp, les chercheurs ne sont plus aux problèmes de gestion de l'infrastructure et peuvent se concentrer exclusivement sur la science des données. Exécution :les clients qui possèdent des solutions d'IA et NetApp augmentent la productivité en exécutant autant de workloads que nécessaire, sans goulot d'étranglement au niveau du calcul ou du pipeline de données.

  • Productivité accrue de l'équipe. les algorithmes Run:ai Equiéquité garantissent que tous les utilisateurs et équipes obtiennent leur juste part de ressources. Les stratégies relatives aux projets prioritaires peuvent être prédéfinies et la plateforme permet une allocation dynamique des ressources d'un utilisateur ou d'une équipe à l'autre, ce qui permet aux utilisateurs d'accéder rapidement aux ressources GPU convoitées.

  • Amélioration de l'utilisation des GPU. le planificateur Run:ai permet aux utilisateurs d'utiliser facilement des GPU fractionnaires, des GPU entiers et plusieurs nœuds de GPU pour l'entraînement distribué sur Kubernetes. De cette façon, les workloads d'IA s'exécutent en fonction de vos besoins, pas de la capacité. Les équipes de data science sont en mesure d'exécuter davantage d'expériences d'IA sur la même infrastructure.