Skip to main content
La version française est une traduction automatique. La version anglaise prévaut sur la française en cas de divergence.

Découvrez comment les ingénieurs des données et les scientifiques des données d'AI Data Engine travaillent avec les composants d'AIDE

Contributeurs netapp-dbagwell

En tant qu'ingénieur des données ou data scientist, vous utilisez la AI Data Engine Console pour explorer les espaces de travail auxquels vous avez obtenu l'accès, créer et gérer des data collections, effectuer des recherches sémantiques et intégrer des retrieval endpoints dans les workflows d'AI/ML.

Les ingénieurs de données transforment les données brutes en jeux de données prêts pour l'IA en créant des collections, en configurant des pipelines d'intégration et en contrôlant quels utilisateurs peuvent accéder aux collections publiées. Les data scientists se concentrent sur l'exploitation de jeux de données organisés pour l'analyse, l'entraînement de modèles et les applications GenAI, sans gérer le contrôle d'accès ni l'infrastructure.

Accès des utilisateurs aux composants

Composant Niveau d'accès Flux de travail de l'ingénieur de données Flux de travail du data scientist

AI Data Engine Console

Gérer (créer, modifier, supprimer)

La AI Data Engine Console est votre interface principale pour les tâches quotidiennes, notamment la découverte des données, la gestion de la collecte, la configuration des pipelines et la publication des points de terminaison RAG ou de récupération, pour les espaces de travail auxquels vous êtes autorisé à accéder.

La AI Data Engine Console est votre interface principale pour l'exploration des données, l'affinage et le versionnage des collections dans les espaces de travail auxquels vous avez accès, ainsi que pour la connexion des ensembles de données organisés et des points de terminaison de récupération aux flux de travail d'analyse, de modélisation et de GenAI.

API REST ONTAP

Gérer (créer, modifier, supprimer)

Vous utilisez l'API REST pour automatiser les opérations du cycle de vie des collections, déclencher et surveiller les pipelines d'intégration d'embedding, et intégrer par programmation les flux de données avec des outils externes.

Vous utilisez l'API REST pour accéder par programmation aux collections de données, exécuter des requêtes de recherche vectorielle et intégrer des points de terminaison de récupération dans des applications AI/ML et des frameworks agentiques.

Espaces de travail

Afficher/utiliser (lecture seule)

Vous explorez vos espaces de travail assignés pour identifier et comprendre les sources de données disponibles avant de créer des collections.

Vous parcourez vos espaces de travail attribués pour localiser les fichiers et objets pertinents pour des tâches de recherche ou de modélisation spécifiques.

Collecte de données

Gérer (créer, modifier, supprimer)

Vous créez des collections de données en sélectionnant et en filtrant les données sources à l'aide de balises, de classifications et d'autres attributs, et vous gérez l'intégralité du cycle de vie de la collection, de la création et du versionnage jusqu'à la publication en tant que points de terminaison RAG pour une utilisation par l'IA. Vous gérez également quels data scientists et autres utilisateurs peuvent accéder à chaque collection.

Vous créez, sélectionnez, annotez, versionnez et affinez des collections de données dans les espaces de travail auxquels vous avez accès. Vous utilisez ces collections comme base pour la recherche sémantique et les workflows GenAI.

Catalogue de métadonnées

Requête/utilisation (consommation pour les workflows)

Vous utilisez le catalogue de métadonnées pour évaluer et sélectionner les sources de données à ingérer, en exécutant des requêtes pour localiser les fichiers pertinents et confirmer qu'ils répondent aux exigences des collections que vous constituez dans vos espaces de travail attribués.

Vous recherchez et filtrez les métadonnées dans les espaces de travail auxquels vous avez accès pour localiser les fichiers et objets nécessaires à l'analyse ou à l'entraînement du modèle, en vous appuyant sur la structure du catalogue qui a été construite et maintenue par les ingénieurs de données.

base de données vectorielle

  • Gérer les embeddings/recherche (data engineer)

  • Utiliser/rechercher (data scientist)

Vous déclenchez les pipelines d'intégration, surveillez l'état de la vectorisation, configurez les paramètres de segmentation et d'intégration, et exposez des points de terminaison de récupération basés sur la recherche vectorielle. Les applications et agents interrogent ensuite ces points de terminaison via l'API pour la recherche sémantique et les workflows RAG.

Vous exécutez des requêtes de recherche sémantique sur des embeddings générés par des pipelines gérés par des data engineers et intégrez les résultats de récupération dans des workflows GenAI ou RAG pour des réponses de modèles tenant compte du contexte. Vous ne configurez pas le découpage, les embeddings ou les paramètres du pipeline.

Classificateurs

Utiliser (consommer des données classifiées)

Vous utilisez les résultats de la classification pour annoter et étiqueter les données sources lors de la préparation de la collecte, garantissant que le contenu entrant dans vos pipelines est correctement étiqueté pour les workflows d'IA en aval.

Vous consommez des données pré-classées pour garantir que seul un contenu conforme et pertinent est utilisé dans votre analyse et votre modélisation.