Découvrez AI Data Engine
La NetApp AI Data Engine (AIDE) est une plateforme d'entreprise conçue pour accélérer et simplifier le traitement des données, la gestion et la gouvernance des données pilotées par l'IA. AIDE peut aider à transformer de grandes quantités de données non structurées en ensembles de données structurés et prêts pour l'IA. Elle est conçue pour répondre aux exigences des charges de travail modernes de machine learning (ML) et d'intelligence artificielle générative (GenAI), prenant en charge à la fois les opérations informatiques traditionnelles et les nouveaux rôles axés sur l'IA.
AIDE relève les défis de l'IA
AIDE est conçu pour aider les organisations à gérer les données pour les charges de travail d'IA et offre les capacités clés suivantes :
-
Gestion centralisée des métadonnées : AIDE collecte et catalogue les métadonnées des volumes ONTAP, permettant ainsi de rechercher, de classer et d’appliquer des politiques de gouvernance aux ensembles de données.
-
Traitement automatisé des données : AIDE prend en charge la création de pipelines de données pour les charges de travail d’IA et de ML, y compris la possibilité de générer des vector embeddings pour la recherche sémantique (avec les licences appropriées).
-
Isolation des données et contrôle d'accès : AIDE applique des contrôles d'accès et une isolation de base des données pour plusieurs équipes ou projets.
-
Intégration avec les outils NetApp : AIDE fonctionne avec ONTAP System Manager pour l’administration du stockage et fournit une interface dédiée (AI Data Engine Console) permettant aux ingénieurs et scientifiques des données de gérer les collectes de données et les flux de travail.
Caractéristiques de conception de haut niveau
Les caractéristiques de conception suivantes définissent la manière dont AI Data Engine est construit pour répondre aux besoins des charges de travail d'IA :
-
Services basés sur des microservices : Utilise Kubernetes pour orchestrer des services modulaires et résilients pour le catalogage des métadonnées, la recherche vectorielle et la gestion de l'infrastructure.
-
Sécurité de niveau entreprise : Met en œuvre le chiffrement, le contrôle d'accès basé sur les rôles (RBAC) et l’audit de toutes les données et métadonnées.
-
Accès aux données multi-protocoles : Prend en charge NFS et SMB pour une ingestion et une récupération flexibles des données.
-
Pipelines de données automatisées : Suit les modifications de données, crée des embeddings et gère les bases de données vectorielles pour les applications d’IA.
Comment les données circulent dans AIDE
Comprendre comment les données circulent dans AIDE aide à illustrer la valeur de la plateforme pour les équipes d'AI/ML :
-
Ingestion des données : Les fichiers sont stockés dans des volumes ONTAP à l’aide des protocoles standard (NFS et SMB). Les données peuvent résider sur le stockage local AIDE (le cluster AFX au sein de votre déploiement AIDE) ou sur des clusters ONTAP distants. Les données provenant des clusters distants sont synchronisées avec le cluster AFX local à l’aide d’ONTAP SnapMirror, de sorte que toutes les données traitées par AIDE sont finalement stockées et accessibles localement.
|
|
Les compartiments S3 ne sont pas pris en charge comme sources de données pour les espaces de travail ou la collecte de données. |
-
Création d'espaces de travail : Les administrateurs de stockage définissent des espaces de travail dans ONTAP System Manager, regroupant les volumes ONTAP associés pour des projets, des équipes ou des flux de travail spécifiques. Les autorisations d'accès et les politiques de gouvernance sont attribuées au niveau de l'espace de travail.
-
Extraction des métadonnées : AIDE analyse automatiquement les fichiers et les objets dans les espaces de travail, extrait les métadonnées (type de fichier, taille, horodatages, attributs personnalisés) et les stocke dans un catalogue centralisé. Cela se produit en continu à mesure que les données changent.
-
Classification et gouvernance : Les classificateurs analysent les données à la recherche d’informations sensibles (PII, données financières) ou de types de documents (juridiques, RH). Les politiques de Data Guardrails appliquent automatiquement la rédaction ou les restrictions d’accès.
-
Création de collecte de données : Les ingénieurs et les scientifiques des données utilisent l'AI Data Engine Console pour interroger le catalogue de métadonnées, filtrer les résultats et assembler des collectes de données organisées pour des tâches d’IA spécifiques.
-
Vectorisation : Pour les collections nécessitant une recherche sémantique, AIDE génère des embeddings à l’aide de modèles d’IA sélectionnés. Les vecteurs sont stockés dans la base de données de vecteurs pour une récupération haute performance.
-
Consommation d'IA/ML : Les applications accèdent aux données par de multiples voies :
-
Accès direct aux fichiers/objets à l'aide de NFS ou SMB
-
Requêtes de recherche sémantique sur la base de données vectorielle
-
Points d'accès RAG qui combinent la récupération de données avec l'intégration de modèles GenAI
-
Accès à l'API REST pour les flux de travail programmatiques
-
Ce flux de travail automatisé et basé sur des politiques réduit le temps et les efforts manuels nécessaires à la préparation des données pour l'IA, permettant aux équipes de se concentrer sur le développement de modèles et les insights plutôt que sur la manipulation des données.