La version française est une traduction automatique. La version anglaise prévaut sur la française en cas de divergence.

Présentation de la technologie

11/14/2024 Contributeurs

Cette section se concentre sur la présentation de la technologie pour les opérations MLOps OpenSource avec NetApp.

L'intelligence artificielle

L'IA est une discipline scientifique informatique dans laquelle les ordinateurs sont entraînés pour imiter les fonctions cognitives de l'esprit humain. Les développeurs d'IA entraînent des ordinateurs pour apprendre et résoudre les problèmes de manière similaire, voire supérieure, à celle des humains. L'apprentissage profond et l'apprentissage machine sont des sous-domaines de l'IA. Les entreprises adoptent de plus en plus l'IA, LE ML et le DL pour répondre à leurs besoins stratégiques. Voici quelques exemples :

Analyser d'importants volumes de données pour obtenir des informations stratégiques inexistantes
Interagir directement avec les clients à l'aide du traitement du langage naturel
Automatisation de divers processus et fonctions métier

Les workloads d'entraînement et d'inférence d'IA modernes requièrent des fonctionnalités de calcul parallèle. Par conséquent, les GPU sont de plus en plus utilisés pour exécuter les opérations d'IA, car les capacités de traitement parallèle des GPU sont largement supérieures à celles des processeurs génériques.

Conteneurs

Les conteneurs sont des instances isolées de l'espace utilisateur qui s'exécutent sur un noyau de système d'exploitation hôte partagé. Les conteneurs se généraaffichent de plus en plus rapidement. Les conteneurs offrent bon nombre des avantages de la boxe applicative offerts par les machines virtuelles. Cependant, les couches de l'hyperviseur et du système d'exploitation invité sur lesquelles reposent les machines virtuelles ont été éliminées, les conteneurs sont beaucoup plus légers. La figure suivante montre une visualisation des machines virtuelles par rapport aux conteneurs.

Les conteneurs permettent également de packaging efficace des dépendances entre applications, des durées d'exécution, etc., directement avec une application. Le format de conditionnement de conteneurs le plus utilisé est le container Docker. Une application conteneurisée dans le format de conteneur Docker peut être exécutée sur n'importe quel ordinateur capable d'exécuter des conteneurs Docker. Cela est vrai même si les dépendances de l’application ne sont pas présentes sur la machine car toutes les dépendances sont conditionnées dans le conteneur lui-même. Pour plus d'informations, consultez la "Site Web de Docker".

Figure montrant la boîte de dialogue entrée/sortie ou représentant le contenu écrit

Kubernetes

Kubernetes est une plateforme open source d'orchestration de conteneurs distribuée, conçue à l'origine par Google, et désormais gérée par Cloud Native Computing Foundation (CNCF). Kubernetes permet d'automatiser le déploiement, la gestion et l'évolutivité des fonctions pour les applications conteneurisées. Depuis quelques années, Kubernetes devient la plateforme dominante d'orchestration de conteneurs. Pour plus d'informations, consultez la "Site Web de Kubernetes".

NetApp Trident

"Trident" Consommez et gérez les ressources de stockage sur toutes les plateformes de stockage NetApp les plus populaires, dans le cloud public ou sur site, notamment ONTAP (AFF, FAS, Select, Cloud, Amazon FSX ONTAP), le service Azure NetApp Files et Google Cloud NetApp volumes. Trident est un orchestrateur de stockage dynamique conforme à la norme Container Storage interface (CSI) qui s'intègre de façon native à Kubernetes.

Kit NetApp DataOps

Le "Kit NetApp DataOps" est un outil Python qui simplifie la gestion des espaces de travail de développement/formation et des serveurs d'inférence pris en charge par un stockage NetApp haute performance et scale-out. Les fonctionnalités principales comprennent :

Provisionnez rapidement de nouveaux espaces de travail de grande capacité grâce à un stockage NetApp haute performance et scale-out.
Clonez quasi instantanément des espaces de travail de grande capacité afin de permettre l'expérimentation ou l'itération rapide.
Sauvegardez de manière quasi instantanée des copies Snapshot d'espaces de travail haute capacité pour la sauvegarde et/ou la traçabilité/la référence.
Provisionnement, clonage et snapshot quasi instantanés des volumes de données haute capacité haute performance.

Débit d'air Apache

Apache Airflow est une plateforme de gestion des flux de production open source qui permet de créer des programmes, de planifier et de surveiller des flux de travail d'entreprise complexes. Il est souvent utilisé pour automatiser les workflows ETL et de pipeline de traitement de données, mais ne se limite pas à ces types de flux de travail. Le projet de flux d'air a été lancé par Airbnb mais est depuis devenu très populaire dans l'industrie et est maintenant sous les auspices de la Apache Software Foundation. Le flux d'air est écrit en Python, les flux de production du flux d'air sont créés via des scripts Python, et le flux d'air est conçu selon le principe de « configuration as code ». De nombreux utilisateurs de flux d'air utilisent désormais Kubernetes.

Graphes acycliques dirigés (DAG)

Dans le flux d'air, les flux de travail sont appelés graphiques acycliques dirigés (DAG). Les GDAs sont constitués de tâches exécutées dans l'ordre, en parallèle ou une combinaison des deux, en fonction de la définition DAG. Le planificateur de flux d'air exécute des tâches individuelles sur un ensemble de travailleurs, en respectant les dépendances au niveau des tâches spécifiées dans la définition DAG. Les DAG sont définis et créés par le biais de scripts Python.

Ordinateur portable Jupyter

Jupyter Notebooks sont des documents de type wiki qui contiennent du code en direct ainsi que du texte descriptif. Les ordinateurs portables Jupyter sont largement utilisés dans la communauté de l'IA et DU ML afin de documenter, de stocker et de partager des projets d'IA et DE ML. Pour plus d'informations sur Jupyter Notebooks, visitez le "Site Web de Jupyter".

Jupyter Notebook Server

Un serveur Jupyter Notebook Server est une application Web open source qui permet aux utilisateurs de créer des ordinateurs Jupyter Notebooks.

JupyterHub

JupyterHub est une application multi-utilisateurs qui permet à un utilisateur individuel de provisionner et d'accéder à son propre serveur Jupyter Notebook. Pour plus d'informations sur JupyterHub, visitez le "Site Web JupyterHub".

MLflow

MLflow est une plateforme open source populaire de gestion du cycle de vie d'IA. Les principales fonctionnalités de MLflow incluent le suivi des expériences d'IA/ML et un référentiel de modèle d'IA/ML. Pour plus d'informations sur MLflow, consultez le "Site Web de MLflow".

Kubeflow

Kubeflow est un kit d'IA et DE ML open source pour Kubernetes qui a été développé à l'origine par Google. Le projet Kubeflow permet de déployer des workflows d'IA et DE ML sur Kubernetes de façon simple, portable et évolutive. Kubeflow s'affranchit des complexités de Kubernetes, ce qui permet aux data Scientists de se concentrer sur ce qu'ils connaissent le mieux ― data science. Voir la figure suivante pour une visualisation. Kubeflow est une bonne option open source pour les entreprises qui préfèrent une plateforme MLOps tout-en-un. Pour plus d'informations, consultez la "Site web Kubeflow".

Kubeflow pipelines

Kubeflow pipelines est un composant clé de Kubeflow. Kubeflow pipelines est une plateforme et une norme pour définir et déployer des workflows d'IA et DE ML portables et évolutifs. Pour plus d'informations, reportez-vous à la section "Documentation officielle Kubeflow".

Ordinateurs portables Kubeflow

Kubeflow simplifie le provisionnement et le déploiement de Jupyter Notebooks Servers sur Kubernetes. Pour plus d'informations sur Jupyter Notebooks dans le cadre de Kubeflow, reportez-vous au "Documentation officielle Kubeflow".

Katib

Katib est un projet natif Kubernetes pour le machine learning automatisé (AutoML). Katib prend en charge le réglage des hyperparamètres, l'arrêt précoce et la recherche d'architecture neurale (NAS). Katib est un projet indépendant des frameworks de machine learning (ML). Il peut ajuster les hyperparamètres des applications écrits dans n'importe quel langage du choix de l'utilisateur et prendre en charge de manière native de nombreux frameworks de ML, tels que TensorFlow, MXNet, PyTorch, XGBoost, et autres. Katib prend en charge de nombreux algorithmes AutoML, tels que l'optimisation bayésienne, les estimateurs de l'arbre de Parzen, la recherche aléatoire, la stratégie d'évolution de la matrice de Covariance, l'hyperbande, la recherche efficace d'architecture neurale, la recherche d'architecture différentiable et bien d'autres encore. Pour plus d'informations sur les ordinateurs portables Jupyter dans le contexte de Kubeflow, consultez le "Documentation officielle Kubeflow".

NetApp ONTAP

ONTAP 9, la dernière génération de logiciel de gestion du stockage de NetApp, permet aux entreprises de moderniser l'infrastructure et de passer à un data Center prêt pour le cloud. Avec des capacités de gestion des données à la pointe du secteur, ONTAP permet de gérer et de protéger les données avec un seul ensemble d'outils, quel que soit leur emplacement. Vous pouvez aussi déplacer vos données librement partout où elles sont nécessaires : la périphérie, le cœur ou le cloud. ONTAP 9 comprend de nombreuses fonctionnalités qui simplifient la gestion des données, accélèrent et protègent les données stratégiques, et permettent d'utiliser des fonctionnalités d'infrastructure nouvelle génération dans toutes les architectures de cloud hybride.

Gestion simplifiée

La gestion des données est cruciale pour les opérations IT et les data Scientists, de sorte que les ressources appropriées sont utilisées pour les applications d'IA et pour l'entraînement des datasets d'IA/DE ML. Les informations supplémentaires suivantes sur les technologies NetApp ne sont pas incluses dans cette validation, mais elles peuvent être pertinentes en fonction de votre déploiement.

Le logiciel de gestion des données ONTAP comprend les fonctionnalités suivantes pour rationaliser et simplifier les opérations et réduire le coût total d'exploitation :

Compaction des données à la volée et déduplication étendue La compaction des données réduit le gaspillage d'espace à l'intérieur des blocs de stockage, et la déduplication augmente considérablement la capacité effective. Cela s'applique aux données stockées localement et à leur placement dans le cloud.
Qualité de service (AQoS) minimale, maximale et adaptative. Les contrôles granulaires de la qualité de service (QoS) permettent de maintenir les niveaux de performance des applications stratégiques dans des environnements hautement partagés.
NetApp FabricPool Tiering automatique des données inactives vers des options de stockage de cloud public et privé, notamment Amazon Web Services (AWS), Azure et la solution de stockage NetApp StorageGRID. Pour plus d'informations sur FabricPool, voir "Tr-4598 : meilleures pratiques de FabricPool".

Accélération et protection des données

ONTAP offre des niveaux supérieurs de performances et de protection des données et étend ces fonctionnalités aux méthodes suivantes :

Des performances élevées et une faible latence. ONTAP offre le débit le plus élevé possible à la latence la plus faible possible.
Protection des données. ONTAP fournit des fonctionnalités de protection des données intégrées avec une gestion commune sur toutes les plateformes.
NetApp Volume Encryption (NVE). ONTAP offre un chiffrement natif au niveau du volume avec un support de gestion des clés interne et externe.
Colocation et authentification multifacteur. ONTAP permet le partage des ressources d'infrastructure avec les plus hauts niveaux de sécurité.

Une infrastructure pérenne

ONTAP permet de répondre aux besoins métier en constante évolution grâce aux fonctionnalités suivantes :

Évolutivité transparente et opérations non disruptives. ONTAP prend en charge l'ajout non disruptif de capacité aux contrôleurs et l'évolution scale-out des clusters. Les clients peuvent effectuer la mise à niveau vers les technologies les plus récentes sans migration des données ni panne coûteuse.
Connexion cloud. ONTAP est le logiciel de gestion de stockage le plus connecté au cloud, avec des options de stockage Software-defined et les instances cloud natives dans tous les clouds publics.
Intégration avec les applications émergentes ONTAP propose des services de données d'entreprise pour les plateformes et applications nouvelle génération, telles que les véhicules autonomes, les Smart cities et Industry 4.0, en utilisant la même infrastructure prenant en charge les applications d'entreprise existantes.

Copies NetApp Snapshot

Une copie NetApp Snapshot est une image ponctuelle en lecture seule d'un volume. La consommation d'espace de stockage de l'image est minime et l'impact sur les performances est négligeable, car elle enregistre uniquement les modifications apportées aux fichiers depuis la dernière copie Snapshot, comme illustré dans la figure ci-dessous.

Les copies Snapshot doivent optimiser leur efficacité par rapport à la technologie de virtualisation de base du stockage ONTAP, WAFL (Write Anywhere File Layout). Tout comme une base de données, WAFL utilise des métadonnées pour désigner des blocs de données réels sur le disque. Contrairement à une base de données, WAFL ne remplace pas les blocs existants. Il écrit les données mises à jour sur un nouveau bloc et modifie les métadonnées. C'est parce que ONTAP référence les métadonnées lorsqu'il crée une copie Snapshot, plutôt que de copier des blocs de données, ces copies sont si efficaces. Vous éliminez ainsi les temps de recherche engendrés par d'autres systèmes pour localiser les blocs à copier, et par ailleurs le coût d'une copie.

Vous pouvez utiliser une copie Snapshot pour restaurer des fichiers ou des LUN individuels, ou pour restaurer l'ensemble du contenu d'un volume. ONTAP compare les informations du pointeur de la copie Snapshot aux données d'un disque pour reconstruire l'objet manquant ou endommagé, sans temps d'indisponibilité ni coûts de performance significatifs.

Figure montrant la boîte de dialogue entrée/sortie ou représentant le contenu écrit

Technologie NetApp FlexClone

La technologie NetApp FlexClone référence les métadonnées Snapshot pour créer des copies inscriptibles instantanées d'un volume. Les copies partagent les blocs de données avec leurs parents. Aucun stockage n'est utilisé, sauf pour les métadonnées, jusqu'à ce que les modifications soient écrites sur la copie, comme illustré dans la figure ci-dessous. Là où les copies classiques peuvent prendre des minutes, voire des heures, pour créer des copies, FlexClone vous permet de copier même les jeux de données les plus volumineux quasi instantanément. C'est pourquoi il est idéal si vous avez besoin de plusieurs copies de jeux de données identiques (un espace de travail de développement, par exemple) ou de copies temporaires d'un jeu de données (afin de tester une application par rapport à un jeu de données de production).

Figure montrant la boîte de dialogue entrée/sortie ou représentant le contenu écrit

Technologie de réplication des données NetApp SnapMirror

Le logiciel NetApp SnapMirror est une solution de réplication unifiée économique et facile à utiliser dans l'environnement Data Fabric. Il réplique les données à haute vitesse sur un WAN ou un LAN. Elle vous assure haute disponibilité et une réplication rapide des données pour les applications de tous types, y compris les applications stratégiques dans les environnements classiques et virtuels. En répliquant vos données sur un ou plusieurs systèmes de stockage NetApp, puis en les mettant régulièrement à jour, vous disposez de données actualisées et accessibles dès que vous en avez besoin. Aucun serveur de réplication externe n'est requis. Voir la figure suivante pour un exemple d'architecture exploitant la technologie SnapMirror.

Le logiciel SnapMirror valorise l'efficacité du stockage NetApp ONTAP en n'envoyant que les blocs modifiés sur le réseau. Il utilise également la compression réseau intégrée pour accélérer le transfert de données et réduire l'utilisation de la bande passante jusqu'à 70 %. Avec la technologie SnapMirror, vous pouvez exploiter un flux de données de réplication fine pour créer un référentiel unique qui administre les copies du miroir actif et les copies instantanées antérieures, réduisant ainsi le trafic du réseau jusqu'à 50 %.

Copie et synchronisation NetApp BlueXP

"Copie et synchronisation BlueXP" Est un service NetApp permettant une synchronisation sûre et rapide des données. Qu'il s'agisse de transférer des fichiers entre des partages de fichiers NFS ou SMB sur site, NetApp StorageGRID, NetApp ONTAP S3, Google Cloud NetApp volumes, Azure NetApp Files, AWS S3, AWS EFS, Azure Blob, Google Cloud Storage ou IBM Cloud Object Storage, BlueXP Copy and Sync transfère les fichiers là où vous en avez besoin rapidement et en toute sécurité.

Une fois vos données transférées, elles peuvent être utilisées à la source et à la cible. BlueXP Copy and Sync peut synchroniser des données à la demande lorsqu'une mise à jour est déclenchée ou lorsque les données sont synchronisées en continu sur la base d'un calendrier prédéfini. Quoi qu'il en soit, la copie et la synchronisation BlueXP ne déplacent que les données modifiées, ce qui réduit le temps et l'argent consacrés à la réplication des données.

BlueXP Copy and Sync est un outil SaaS extrêmement simple à configurer et à utiliser. Les transferts de données déclenchés par la copie et la synchronisation BlueXP sont effectués par les courtiers de données. Les courtiers de données BlueXP Copy and Sync peuvent être déployés dans AWS, Azure, Google Cloud Platform ou sur site.

NetApp XCP

"NetApp XCP" Est un logiciel basé sur client pour les migrations de données et les informations exploitables sur le système de fichiers any-to-NetApp et NetApp-to-NetApp. XCP a été conçu pour évoluer et atteindre des performances maximales en exploitant toutes les ressources système disponibles pour gérer des datasets à grand volume et des migrations haute performance. XCP vous aide à obtenir une visibilité complète sur le système de fichiers avec la possibilité de générer des rapports.

NetApp ONTAP FlexGroup volumes

Un dataset d'entraînement peut être un ensemble de milliards de fichiers. Les fichiers peuvent inclure du texte, de l'audio, de la vidéo et d'autres formes de données non structurées qui doivent être stockées et traitées pour être lues en parallèle. Le système de stockage doit stocker un grand nombre de petits fichiers et doit lire ces fichiers en parallèle pour les E/S séquentielles et aléatoires

Un volume FlexGroup est un namespace unique qui comprend plusieurs volumes de membres constitutifs, comme illustré dans la figure suivante. Du point de vue de l'administrateur de stockage, un volume FlexGroup est géré et agit comme un volume NetApp FlexVol. Les fichiers du volume FlexGroup sont alloués aux volumes de membres individuels,et non répartis entre les volumes ou les nœuds. Ils présentent de nombreux atouts :

Les volumes FlexGroup fournissent une capacité de plusieurs pétaoctets et une faible latence prévisible pour les charges de travail comportant un grand nombre de métadonnées.
Ils prennent en charge jusqu'à 400 milliards de fichiers dans le même namespace.
Ils prennent en charge les opérations parallélisées dans les charges de travail NAS sur les processeurs, les nœuds, les agrégats et les volumes FlexVol constitutifs.

Figure montrant la boîte de dialogue entrée/sortie ou représentant le contenu écrit

Présentation de la technologie

Creating your file...

L'intelligence artificielle

Conteneurs

Kubernetes

NetApp Trident

Kit NetApp DataOps

Débit d'air Apache

Graphes acycliques dirigés (DAG)

Ordinateur portable Jupyter

Jupyter Notebook Server

JupyterHub

MLflow

Kubeflow

Kubeflow pipelines

Ordinateurs portables Kubeflow

Katib

NetApp ONTAP

Gestion simplifiée

Accélération et protection des données

Une infrastructure pérenne

Copies NetApp Snapshot

Technologie NetApp FlexClone

Technologie de réplication des données NetApp SnapMirror

Copie et synchronisation NetApp BlueXP

NetApp XCP

NetApp ONTAP FlexGroup volumes