Skip to main content
La version française est une traduction automatique. La version anglaise prévaut sur la française en cas de divergence.

Créer une base de connaissances GenAI

Contributeurs netapp-mwallis

Une fois que vous avez déployé l'infrastructure d'IA et identifié les sources de données à intégrer dans votre base de connaissances à partir de vos datastores FSX pour ONTAP, vous êtes prêt à créer la base de connaissances à l'aide d'une usine de workloads. Dans le cadre de cette étape, vous définirez également les caractéristiques de l'IA et vous pourrez amorces de discussion.

Avant de continuer, assurez-vous que votre environnement est conforme aux "de formation"bases de connaissances for.

Description de la tâche

Les bases de connaissances ont deux modalités d'intégration de données : mode public et mode entreprise.

Mode public

Une base de connaissances peut être utilisée sans intégrer les sources de données de votre organisation. Dans ce cas, une application intégrée à la base de connaissances ne fournira que des résultats provenant d'informations accessibles au public sur Internet. Il s'agit d'une intégration de mode public.

Mode entreprise

Dans la plupart des cas, vous voudrez intégrer les sources de données de votre organisation dans la base de connaissances. Il s'agit d'une intégration Enterprise mode car elle fournit des connaissances de votre entreprise.

Les sources de données de votre entreprise peuvent contenir des informations personnelles identifiables (PII). Pour sauvegarder ces informations sensibles, vous pouvez activer data guardrails lors de la création et de la configuration de bases de connaissances. Les rails de données, optimisés par la classification BlueXP , identifient et masquent les PII, ce qui les rend inaccessibles et irrécupérables.

Remarque L'usine de workloads BlueXP  pour GenAI ne masque pas les informations personnelles sensibles (SPII). Pour plus d'informations sur ce type de données, reportez-vous à la section"types de données personnelles sensibles".
Remarque Les rails de protection des données peuvent être activés ou désactivés à tout moment. Si vous activez les rails de contrôle des données, l'usine de workloads analyse l'ensemble de la base de connaissances à partir de zéro, ce qui entraîne un coût.

Créer et configurer la base de connaissances

La base de connaissances définit des caractéristiques telles que les modèles d'IA de Bedrock et le format d'intégration que vous souhaitez utiliser pour créer votre base de connaissances.

Étapes
  1. Connectez-vous à l'usine de la charge de travail à l'aide de l'un des "expériences de la console".

  2. Dans la mosaïque workloads d'IA, sélectionnez déployer et gérer.

  3. Dans l'onglet bases de connaissances et connecteurs, sélectionnez la liste déroulante Créer un nouveau et choisissez base de connaissances GenAI NetApp pour Bedrock.

  4. Sur la page définir la base de connaissances, configurez les paramètres de la base de connaissances :

    1. Nom : saisissez le nom que vous souhaitez utiliser pour la base de connaissances.

    2. Description : saisissez une description détaillée de la base de connaissances.

    3. Modèle d'intégration: Le modèle d'intégration définit la façon dont vos données seront converties en embeddings vectoriels pour la base de connaissances. L'usine de charges de travail prend en charge les modèles suivants :

      • Codes Titan G1 - texte

      • Texte d'intégration Titan v2

      • Embedding multimodal G1 Titan

      • Intégrer l'anglais

      • Intégrer multilingue

        Notez que vous devez avoir déjà activé le modèle d'incorporation à partir d'Amazon Bedrock.

    4. Modèle Chat: Choisissez parmi divers modèles de chat qui sont intégrés dans Amazon Bedrock. Notez que vous devez avoir déjà activé le modèle de chat à partir d'Amazon Bedrock.

    5. Reclassement : activez ou désactivez le reclassement, ce qui peut améliorer la pertinence et la qualité des résultats de recherche. Choisissez un modèle de chat standard ou un modèle de reclassement spécialisé pour le reclassement. Les options de reclassement ne s'affichent que si elles sont disponibles dans votre région.

    6. Data guardrails: Choisissez si vous voulez activer ou désactiver les Data guardrails. "Découvrez les Data rambardes optimisées par la classification BlueXP ".

      Les conditions préalables suivantes doivent être remplies pour activer les rails de données.

      • Un compte de service est requis pour communiquer avec la classification BlueXP . Vous devez avoir le rôle Organization admin sur votre compte de location BlueXP  pour la création du compte de service. Un membre ayant le rôle d'administrateur d'organisation peut effectuer toutes les actions dans BlueXP . "Découvrez comment ajouter un rôle à un membre dans BlueXP "

      • Le moteur ai doit avoir accès au "Terminal de l'API BlueXP ".

      • Vous devez effectuer les opérations suivantes comme décrit dans "Documentation sur les classifications BlueXP":

        1. Créer un connecteur BlueXP

        2. Assurez-vous que votre environnement peut répondre aux conditions préalables

        3. Déployez la classification BlueXP

    Remarque La fonction Data guardrails n'est pas prise en charge lors de l'acquisition de fichiers de données structurés tels que CSV, JSON, JSONP ou parquet.
  5. Amorces de conversation : indiquez si vous souhaitez fournir jusqu'à quatre invites de démarrage de conversation qui s'affichent aux utilisateurs qui interagissent avec un chatbot utilisant cette base de connaissances. Nous vous recommandons d'activer ce paramètre.

    Si vous activez les amorces de conversation, le mode automatique est sélectionné par défaut. Le « mode manuel » ne peut être activé qu'après avoir ajouté des sources de données à votre base de connaissances. "Apprenez à modifier les paramètres de la base de connaissances".

  6. FSX for ONTAP file system : lorsque vous définissez une nouvelle base de connaissances, Workload Factory crée un nouveau volume Amazon FSX for NetApp ONTAP pour le stocker. Choisissez un nom de système de fichiers et un SVM existants (également appelés VM de stockage) dans lesquels le nouveau volume sera créé.

  7. Snapshot policy : choisissez une snapshot policy dans la liste des stratégies existantes définies dans l'inventaire de stockage d'usine des charges de travail. Les instantanés récurrents de la base de connaissances seront automatiquement créés à une fréquence basée sur la stratégie de snapshots que vous sélectionnez.

  8. Seau S3 : si les résultats de la requête du chatbot contiennent des données structurées, GenAI peut stocker les résultats dans un compartiment S3. Pour utiliser cette fonctionnalité, activez le paramètre Activer le compartiment S3 et choisissez un compartiment S3 associé à votre compte dans la liste. Lorsque ces résultats sont stockés dans un bucket S3, vous pouvez les télécharger à l’aide du lien de téléchargement dans la session de chat.

    Si la règle de snapshot dont vous avez besoin n'existe pas, vous pouvez "création d'une règle de snapshots" la faire sur la machine virtuelle de stockage qui contient le volume.

  9. Sélectionnez Créer la base de connaissances pour ajouter la base de connaissances à GenAI.

    Un indicateur de progression s'affiche pendant la création de la base de connaissances.

    Une fois la base de connaissances créée, vous avez la possibilité d'ajouter une source de données à votre nouvelle base de connaissances ou de mettre fin au processus sans ajouter de source de données. Nous vous recommandons de sélectionner Ajouter une source de données et d'ajouter une ou plusieurs sources de données maintenant.

Ajoutez des sources de données à la base de connaissances

Vous pouvez ajouter une ou plusieurs sources de données pour remplir la base de connaissances avec les données de votre organisation.

Description de la tâche

Le nombre maximum de sources de données prises en charge est de 10.

Étapes
  1. Après avoir sélectionné Ajouter une source de données, sélectionnez le type de source de données que vous souhaitez ajouter :

    • Ajouter un système de fichiers FSx pour ONTAP (utiliser les fichiers d'un volume FSx pour ONTAP existant)

    • Ajouter un système de fichiers (utiliser des fichiers provenant d'un partage SMB ou NFS générique)

Ajouter un système de fichiers FSx pour ONTAP
  1. Sélectionnez un système de fichiers : sélectionnez le système de fichiers FSX pour ONTAP dans lequel résident vos fichiers source de données et sélectionnez Suivant.

  2. Sélectionnez un volume : sélectionnez le volume sur lequel vos fichiers de source de données résident et sélectionnez Suivant.

    Lorsque vous sélectionnez des fichiers stockés à l'aide du protocole SMB, vous devez entrer les informations Active Directory, notamment le domaine, l'adresse IP, le nom d'utilisateur et le mot de passe.

  3. Sélectionnez une source de données : sélectionnez l'emplacement de la source de données en fonction de l'emplacement d'enregistrement des fichiers. Il peut s'agir d'un volume entier, ou simplement d'un dossier ou d'un sous-dossier spécifique dans le volume, et sélectionnez Suivant.

  4. Configurations : configurez la façon dont la source de données ingère les informations de vos fichiers et les fichiers qu'elle inclut dans les analyses :

    • Définir la source de données : dans la section Stratégie de partage, définissez la façon dont le moteur GenAI divise le contenu de la source de données en blocs lorsque la source de données est intégrée à une base de connaissances. Vous pouvez choisir l'une des stratégies suivantes :

      • Chunking à plusieurs phrases : organise les informations de votre source de données en blocs définis par des phrases. Vous pouvez choisir combien de phrases composent chaque morceau (jusqu'à 100).

      • Chunking basé sur le chevauchement : organise les informations de votre source de données en blocs définis par des caractères qui peuvent chevaucher des blocs voisins. Vous pouvez choisir la taille de chaque bloc en caractères et la quantité de chaque bloc qui chevauche les blocs adjacents. Vous pouvez configurer une taille de bloc comprise entre 50 et 3000 caractères et un pourcentage de chevauchement compris entre 1 et 99 %.

        Remarque Le choix d'un pourcentage de chevauchement élevé peut considérablement augmenter les besoins de stockage avec seulement de légères améliorations de la précision de récupération.
    • Filtrage de fichiers : configurez les fichiers inclus dans les analyses :

      • Dans la section prise en charge des types de fichiers, choisissez soit d'inclure tous les types de fichiers, soit de sélectionner des types de fichiers individuels à inclure dans les analyses de sources de données.

        Si vous incluez des images ou des fichiers PDF, l'usine de workloads BlueXP  pour GenAI analyse le texte dans les images (y compris les images dans les documents PDF) et le coût est plus élevé.

      Lors de l'inclusion de données texte à partir d'images, GenAI ne peut pas masquer les informations à caractère personnel (PII) de l'image car les données texte numérisées sont envoyées de votre environnement vers AWS. Cependant, une fois les données stockées, toutes les PII sont masquées dans la base de données GenAI.

    Remarque Votre choix d'inclure des fichiers image dans les analyses est lié au modèle de chat de la base de connaissances. Si vous incluez des fichiers image dans les numérisations, le modèle de chat doit prendre en charge les images. Si des types de fichiers d'image sont sélectionnés ici, vous ne pouvez pas passer de la base de connaissances à un modèle de chat qui ne prend pas en charge les fichiers d'image.
    • Dans la section filtre de temps de modification de fichier, choisissez d'activer ou de désactiver l'inclusion de fichiers en fonction de leur heure de modification. Si vous activez le filtrage de l'heure de modification, sélectionnez une plage de dates dans la liste.

      Remarque Si vous incluez des fichiers basés sur une plage de dates de modification, dès que la plage de dates n'est pas satisfaite (les fichiers n'ont pas été modifiés dans la plage de dates spécifiée), les fichiers seront exclus de l'analyse périodique et la source de données n'inclura pas ces fichiers.
  5. Dans la section permission Aware, disponible uniquement lorsque la source de données que vous avez sélectionnée se trouve sur un volume qui utilise le protocole SMB, vous pouvez activer ou désactiver les réponses sensibles aux autorisations :

    • Activé : les utilisateurs du chatbot qui accèdent à cette base de connaissances n'obtiennent que les réponses aux requêtes des sources de données auxquelles ils ont accès.

    • Désactivé : les utilisateurs du chatbot recevront des réponses en utilisant le contenu de toutes les sources de données intégrées.

  6. Sélectionnez Ajouter pour ajouter cette source de données à votre base de connaissances.

Ajouter un système de fichiers NFS générique
  1. Sélectionnez un système de fichiers : saisissez l'adresse IP ou le nom de domaine complet de l'hôte du système de fichiers où résident vos fichiers source de données, choisissez le protocole NFS pour le partage réseau et sélectionnez Suivant.

  2. Sélectionnez une source de données : sélectionnez l'emplacement de la source de données en fonction de l'emplacement d'enregistrement des fichiers. Il peut s'agir d'un volume entier, ou simplement d'un dossier ou d'un sous-dossier spécifique dans le volume, et sélectionnez Suivant.

    Remarque Dans certains cas, vous devrez peut-être saisir manuellement le nom de l'exportation NFS et sélectionner « Récupérer les répertoires » pour afficher les répertoires disponibles. Vous pouvez sélectionner l'exportation dans son intégralité ou seulement certains dossiers.
  3. Configurations : configurez la façon dont la source de données ingère les informations de vos fichiers et les fichiers qu'elle inclut dans les analyses :

    • Définir la source de données : dans la section Stratégie de partage, définissez la façon dont le moteur GenAI divise le contenu de la source de données en blocs lorsque la source de données est intégrée à une base de connaissances. Vous pouvez choisir l'une des stratégies suivantes :

      • Chunking à plusieurs phrases : organise les informations de votre source de données en blocs définis par des phrases. Vous pouvez choisir combien de phrases composent chaque morceau (jusqu'à 100).

      • Chunking basé sur le chevauchement : organise les informations de votre source de données en blocs définis par des caractères qui peuvent chevaucher des blocs voisins. Vous pouvez choisir la taille de chaque bloc en caractères et la quantité de chaque bloc qui chevauche les blocs adjacents. Vous pouvez configurer une taille de bloc comprise entre 50 et 3000 caractères et un pourcentage de chevauchement compris entre 1 et 99 %.

        Remarque Le choix d'un pourcentage de chevauchement élevé peut considérablement augmenter les besoins de stockage avec seulement de légères améliorations de la précision de récupération.
    • Filtrage de fichiers : configurez les fichiers inclus dans les analyses :

      • Dans la section prise en charge des types de fichiers, choisissez soit d'inclure tous les types de fichiers, soit de sélectionner des types de fichiers individuels à inclure dans les analyses de sources de données.

        Si vous incluez des images ou des fichiers PDF, l'usine de workloads BlueXP  pour GenAI analyse le texte dans les images (y compris les images dans les documents PDF) et le coût est plus élevé.

      Lors de l'inclusion de données texte à partir d'images, GenAI ne peut pas masquer les informations à caractère personnel (PII) de l'image car les données texte numérisées sont envoyées de votre environnement vers AWS. Cependant, une fois les données stockées, toutes les PII sont masquées dans la base de données GenAI.

    Remarque Votre choix d'inclure des fichiers image dans les analyses est lié au modèle de chat de la base de connaissances. Si vous incluez des fichiers image dans les numérisations, le modèle de chat doit prendre en charge les images. Si des types de fichiers d'image sont sélectionnés ici, vous ne pouvez pas passer de la base de connaissances à un modèle de chat qui ne prend pas en charge les fichiers d'image.
    • Dans la section filtre de temps de modification de fichier, choisissez d'activer ou de désactiver l'inclusion de fichiers en fonction de leur heure de modification. Si vous activez le filtrage de l'heure de modification, sélectionnez une plage de dates dans la liste.

      Remarque Si vous incluez des fichiers basés sur une plage de dates de modification, dès que la plage de dates n'est pas satisfaite (les fichiers n'ont pas été modifiés dans la plage de dates spécifiée), les fichiers seront exclus de l'analyse périodique et la source de données n'inclura pas ces fichiers.
  4. Sélectionnez Ajouter une source de données pour ajouter cette source de données à votre base de connaissances.

Ajouter un système de fichiers SMB générique
  1. Sélectionnez le système de fichiers:

    1. Saisissez l'adresse IP ou le nom de domaine complet de l'hôte du système de fichiers où résident vos fichiers source de données.

    2. Choisissez le protocole SMB pour le partage réseau.

    3. Saisissez les informations Active Directory, qui incluent le domaine, l’adresse IP, le nom d’utilisateur et le mot de passe.

    4. Sélectionnez Suivant.

  2. Sélectionnez une source de données : sélectionnez l'emplacement de la source de données en fonction de l'emplacement d'enregistrement des fichiers. Il peut s'agir d'un volume entier, ou simplement d'un dossier ou d'un sous-dossier spécifique dans le volume, et sélectionnez Suivant.

    Remarque Dans certains cas, vous devrez peut-être saisir manuellement le nom du partage SMB et sélectionner « Récupérer les répertoires » pour afficher les répertoires disponibles. Vous pouvez sélectionner le partage entier ou seulement certains dossiers.
  3. Configurations : configurez la façon dont la source de données ingère les informations de vos fichiers et les fichiers qu'elle inclut dans les analyses :

    • Définir la source de données : dans la section Stratégie de partage, définissez la façon dont le moteur GenAI divise le contenu de la source de données en blocs lorsque la source de données est intégrée à une base de connaissances. Vous pouvez choisir l'une des stratégies suivantes :

      • Chunking à plusieurs phrases : organise les informations de votre source de données en blocs définis par des phrases. Vous pouvez choisir combien de phrases composent chaque morceau (jusqu'à 100).

      • Chunking basé sur le chevauchement : organise les informations de votre source de données en blocs définis par des caractères qui peuvent chevaucher des blocs voisins. Vous pouvez choisir la taille de chaque bloc en caractères et la quantité de chaque bloc qui chevauche les blocs adjacents. Vous pouvez configurer une taille de bloc comprise entre 50 et 3000 caractères et un pourcentage de chevauchement compris entre 1 et 99 %.

        Remarque Le choix d'un pourcentage de chevauchement élevé peut considérablement augmenter les besoins de stockage avec seulement de légères améliorations de la précision de récupération.
    • Conscient des autorisations : Activer ou désactiver les réponses conscientes des autorisations :

      • Activé : les utilisateurs du chatbot qui accèdent à cette base de connaissances n'obtiennent que les réponses aux requêtes des sources de données auxquelles ils ont accès.

      • Désactivé : les utilisateurs du chatbot recevront des réponses en utilisant le contenu de toutes les sources de données intégrées.

    • Filtrage de fichiers : configurez les fichiers inclus dans les analyses :

      • Dans la section prise en charge des types de fichiers, choisissez soit d'inclure tous les types de fichiers, soit de sélectionner des types de fichiers individuels à inclure dans les analyses de sources de données.

        Si vous incluez des images ou des fichiers PDF, l'usine de workloads BlueXP  pour GenAI analyse le texte dans les images (y compris les images dans les documents PDF) et le coût est plus élevé.

      Lors de l'inclusion de données texte à partir d'images, GenAI ne peut pas masquer les informations à caractère personnel (PII) de l'image car les données texte numérisées sont envoyées de votre environnement vers AWS. Cependant, une fois les données stockées, toutes les PII sont masquées dans la base de données GenAI.

    Remarque Votre choix d'inclure des fichiers image dans les analyses est lié au modèle de chat de la base de connaissances. Si vous incluez des fichiers image dans les numérisations, le modèle de chat doit prendre en charge les images. Si des types de fichiers d'image sont sélectionnés ici, vous ne pouvez pas passer de la base de connaissances à un modèle de chat qui ne prend pas en charge les fichiers d'image.
    • Dans la section filtre de temps de modification de fichier, choisissez d'activer ou de désactiver l'inclusion de fichiers en fonction de leur heure de modification. Si vous activez le filtrage de l'heure de modification, sélectionnez une plage de dates dans la liste.

      Remarque Si vous incluez des fichiers basés sur une plage de dates de modification, dès que la plage de dates n'est pas satisfaite (les fichiers n'ont pas été modifiés dans la plage de dates spécifiée), les fichiers seront exclus de l'analyse périodique et la source de données n'inclura pas ces fichiers.
  4. Sélectionnez Ajouter une source de données pour ajouter cette source de données à votre base de connaissances.

Résultat

La source de données commence à être intégrée à votre base de connaissances. L'état passe de « intégration » à « intégrée » lorsque la source de données est complètement intégrée.

Après avoir ajouté une seule source de données à la base de connaissances, vous pouvez la tester localement dans la fenêtre du simulateur de chatbot et apporter les modifications requises avant de rendre le chatbot disponible pour vos utilisateurs. Vous pouvez également suivre les mêmes étapes pour ajouter des sources de données supplémentaires à la base de connaissances.