FAQ pour NetApp AI Data Engine
Cette FAQ couvre les questions courantes concernant NetApp AI Data Engine (AIDE), y compris son architecture, son déploiement, les types d'utilisateurs, ses fonctionnalités techniques, son intégration et ses licences.
Principes de base d'AIDE
NetApp AI Data Engine (AIDE) est un service de données d’IA intégré au stockage qui couvre l’intégralité du cycle de vie de l’IA, de la découverte et la préparation des données brutes à la fourniture de points d’accès pour alimenter l’IA générative (GenAI), la génération augmentée par la recherche (RAG), l’IA agentique et les fabriques d’IA. AIDE automatise la synchronisation et la détection des modifications, offrant une vue unifiée et actualisée des données sélectionnées pour la découverte et la curation des données.
AIDE s'intègre directement aux systèmes de stockage NetApp ONTAP pour créer une vue globale et structurée de l'ensemble du patrimoine de données NetApp avec détection automatisée des modifications et synchronisation. AIDE offre une vectorisation en temps réel avec compression et déduplication, des garde-fous pilotés par des politiques et une intégration avec des outils d'IA.
Utilisateurs et rôles
Les principaux utilisateurs d'AIDE incluent :
-
ONTAP storage administrators : Gèrent l’infrastructure, les besoins de stockage spécifiques à l’IA, la sécurité et la conformité.
-
Ingénieurs de données : Gèrent le déplacement, la préparation et l’intégration des données entre les environnements.
-
Scientifiques des données: Préparez et transformez les données pertinentes pour la consommation par l’IA.
Exigences et déploiement
AIDE propose deux options de déploiement :
-
NetApp déploiement de nœuds de calcul de données (DCN) : AIDE s'exécute sur des nœuds de calcul de données fournis par NetApp avec des ressources GPU intégrées, offrant toutes les capacités d'AIDE, y compris les métadonnées, la vectorisation et les points de terminaison RAG.
-
AIDE logiciel sur serveurs tiers : AIDE logiciel s’exécute sur des serveurs RHEL 9.7 fournis par le client, utilisant du matériel tiers pris en charge. Un déploiement de base de Metadata Engine fournit des capacités de catalogage et de découverte des métadonnées, mais n’inclut pas les fonctionnalités dépendantes du GPU.
NetApp DCN nécessite des systèmes AFX (comprenant un contrôleur AFX, un tiroir disque et un commutateur réseau) et trois nœuds de calcul de données NetApp. Au moins quatre nœuds de contrôleur AFX sont nécessaires pour garantir une haute disponibilité et des performances.
Le déploiement du logiciel AIDE avec la fonctionnalité de base de Metadata Engine sur des serveurs tiers nécessite :
-
Trois serveurs acquis par le client auprès de fournisseurs agréés
-
RHEL 9.7 LTS installé sur tous les serveurs
-
Système de stockage AFX exécutant ONTAP 9.18.1 ou version ultérieure pour le stockage persistant
AIDE 1.0.0 prend en charge Metadata Engine de base sur des serveurs tiers utilisant du matériel fourni par le client. Les fonctionnalités complètes d'AIDE avec les fonctions GPU nécessitent du matériel NetApp DCN.
Exactement trois NetApp DCN sont requis.
Le système d'exploitation dépend de votre type de déploiement :
-
NetApp DCN : pile logicielle fournie et gérée par NetApp
-
Logiciel AIDE avec la fonctionnalité de base Metadata Engine sur des serveurs tiers : Red Hat Enterprise Linux (RHEL) 9.7 LTS, installé et géré par le client
Non. AIDE nécessite AFX pour son déploiement. AIDE utilise "Trident" pour consommer les volumes AFX pour le stockage interne (volumes persistants). Le cluster AFX fournissant le stockage à AIDE peut être apparié avec un système ou cluster ONTAP 9. Il utilise l'appairage de clusters et SnapMirror pour synchroniser les données du cluster ONTAP distant vers le système AFX.
Gestion et interfaces
AIDE Console est une interface de gestion distincte qui s'exécute sur NetApp DCN. Vous utilisez AIDE Console pour gérer les services AIDE, tels que Data Guardrails et Data Curator. Vous pouvez également utiliser ONTAP System Manager pour surveiller le cluster AIDE.
Fonctionnalités et capacités
AIDE propose quatre fonctionnalités principales, dont la disponibilité dépend de votre type de déploiement :
-
Génère automatiquement une vue structurée, à jour et interactive de vos données.
-
Fonctionne avec les données stockées sur ONTAP.
-
Permet aux spécialistes des données de collaborer avec les administrateurs de stockage pour trouver et comprendre des données.
-
Les API interrogent les métadonnées pour fournir des fonctionnalités tout en réduisant la charge de trafic NFS sur les systèmes de stockage.
-
La capacité d'extraction et de catalogage des métadonnées est conçue spécifiquement pour AIDE et fonctionne en continu, en tirant parti des capacités d'ONTAP telles que les snapshots.
-
Maintient automatiquement la fraîcheur des données lorsque les données sources changent, sans intervention manuelle.
-
Les administrateurs définissent l'intervalle d'actualisation des données en jours ou en heures.
-
Fournit une mobilité des données incrémentielle et une synchronisation sur l'ensemble des données afin d'éliminer les copies redondantes des données d'IA.
-
Identifie et protège automatiquement les données sensibles tout au long du cycle de vie de l'IA. Elle est accessible via la AIDE Console.
-
Analyse, classe et catégorise les données en continu.
-
Identifie les données sensibles (telles que les PII) et les risques.
-
Facilite la création de politiques pour le traitement automatique des données sensibles, conformément aux normes de l'entreprise et aux réglementations.
-
L'application intégrale des politiques (masquage automatique et restriction d'accès) nécessite des capacités de vectorisation disponibles uniquement dans les déploiements NetApp DCN.
-
Le logiciel AIDE avec la fonctionnalité de base Metadata Engine sur des serveurs tiers prend en charge l'étiquetage des métadonnées basé sur un classificateur, mais pas l'application des Data Guardrails.
-
Permet aux data scientists de rechercher des données pertinentes dans le stockage.
-
Crée des collections de données organisées avec des données existant sur des volumes AFX.
-
Génère des représentations vectorielles au niveau du stockage pour réduire la taille des données et augmenter les performances.
-
Fournit un point de terminaison de récupération pour les applications d'IA avec recherche sémantique vectorielle et réordonnancement.
|
|
Le logiciel AIDE avec la fonctionnalité de base Metadata Engine sur des serveurs tiers inclut les capacités Metadata Engine et Data Sync. Data Guardrails et Data Curator nécessitent des ressources GPU disponibles dans les déploiements NetApp DCN. |
Le logiciel AIDE sur des serveurs tiers offre des fonctionnalités axées sur les métadonnées :
Disponible avec le logiciel AIDE doté de la fonctionnalité de base Metadata Engine sur des serveurs tiers :
-
Création et gestion d'espaces de travail
-
Extraction et catalogage automatisés des métadonnées
-
Recherche et filtrage des métadonnées via les API REST
-
Synchronisation des données pour une actualisation automatisée des données
-
fonctionnalité d’exportation des métadonnées
Non disponible avec le logiciel AIDE doté de la fonctionnalité de base Metadata Engine sur les serveurs tiers :
-
Services dépendants du GPU (vectorisation, OCR, enrichissement)
-
Collections de données et plongements vectoriels
-
Points d'accès RAG pour la recherche sémantique
-
Application de la politique de garde-fous au moment de la récupération
Intégration et interopérabilité
AIDE peut se connecter à plusieurs clusters ONTAP en utilisant SnapMirror et le peering de clusters, permettant une visibilité centralisée des métadonnées.
AIDE stocke les métadonnées sur le cluster AFX connecté à l'aide d'un volume persistant fourni par AFX. Les nœuds de calcul utilisent le stockage local pour leurs opérations internes.
Non. AIDE Metadata Engine catalogue les métadonnées du système de fichiers et fournit des API pour interroger ces métadonnées cataloguées.
AIDE prend en charge les volumes ONTAP (locaux ou distants) comme sources de données. Les clusters ONTAP distants doivent exécuter ONTAP 9 et être connectés via l'appairage de cluster et SnapMirror.
Les compartiments ONTAP S3 et les objets StorageGRID ne sont pas pris en charge comme sources de données dans AIDE 9.18.1.
AIDE prend en charge un large éventail de types de fichiers, notamment PDF, DOCX, PPTX, TXT et les fichiers image avec des capacités OCR.
AIDE ne prend en charge que les données en anglais.
AIDE fournit un point de terminaison d'API RAG accessible par appels d'API directs ou via un serveur Model Context Protocol (MCP). Cela prend en charge l'intégration avec les frameworks et outils d'IA agentique.
Licence
La licence AIDE dépend de votre type de déploiement et des fonctionnalités requises :
NetApp DCN déploiements :
-
Data Guardrails et Data Curator nécessitent la licence de services premium AIDE
-
Les fonctionnalités Metadata Engine et Data Sync sont incluses avec la licence ONTAP One (incluse avec tous les systèmes AFX)
AIDE logiciel avec Metadata Engine fonctionnalité de base sur des serveurs tiers :
-
La licence ONTAP One donne droit aux fonctionnalités Metadata Engine et Data Sync
-
Data Guardrails et Data Curator ne sont pas disponibles pour les déploiements de la fonctionnalité de base de Metadata Engine sur des serveurs tiers