Démarrage rapide Data-to-RAG pour AI Data Engine
Passez d’un système AI Data Engine (AIDE) nouvellement déployé à un point de terminaison retrieval-augmented generation (RAG) opérationnel grâce à ce flux de travail. Comprenez comment les administrateurs de stockage, les ingénieurs de données et les data scientists collaborent à l’aide de ONTAP System Manager et AIDE Console.
-
Vous avez installé et ajouté des nœuds de calcul de données (DCN) au cluster ONTAP.
-
Vous avez installé et licencié AI Data Engine software pour la vectorisation et les garde-fous.
-
Vous avez configuré "OpenID Connect (OIDC)" et attribué des rôles aux fonctions d'administrateur, d'ingénieur de données et de scientifique des données.
Définir le périmètre et la gouvernance des donnéesEn tant qu'administrateur de stockage ou administrateur de sécurité, vous souhaitez préparer l'environnement dans AIDE Console et ONTAP System Manager :
-
"Créez un ou plusieurs espaces de travail" à partir de sources de données locales et distantes.
-
"Configurer les classificateurs et les politiques de guardrail" dans AIDE Console.
-
"Attribuer l'accès aux espaces de travail aux data engineers et data scientists".
Explorer les métadonnées de l'espace de travailEn tant qu'ingénieur des données ou data scientist, vous souhaitez explorer les métadonnées de l'espace de travail à l'aide de AI Data Engine Console :
-
"Explorer les métadonnées de l'espace de travail" pour comprendre le contenu disponible.
-
Définissez un ou plusieurs sous-ensembles logiques de données qui devraient alimenter RAG (par exemple, des articles de support, des manuels de produits ou des notes cliniques anonymisées).
Créer et publier une collecte de donnéesEn tant qu'ingénieur des données ou data scientist, vous souhaitez transformer le sous-ensemble choisi en une collection prête pour RAG :
-
"Créer une collecte de données" à partir de l'espace de travail en utilisant les filtres sélectionnés.
-
"Publier la collecte de données" et surveillez l’indexation jusqu’à ce qu’elle atteigne l’état
Ready. -
Copiez l'URI du point de terminaison de récupération pour la collection choisie et fournissez-la aux data scientists ou aux développeurs d'applications.
-
"Afficher l'état de la collecte de données et l'encombrement du vecteur" au besoin.