Skip to main content
La version française est une traduction automatique. La version anglaise prévaut sur la française en cas de divergence.

Identifier les sources de données à ajouter à une base de connaissances ou à un connecteur

Contributeurs netapp-mwallis

Identifiez ou créez les documents (sources de données) qui résident dans votre système de fichiers FSX pour ONTAP que vous intégrerez dans votre base de connaissances. Ces sources de données permettent à la base de connaissances de fournir des réponses précises et personnalisées aux questions des utilisateurs en fonction des données pertinentes pour votre entreprise.

Nombre maximum de sources de données

Le nombre maximum de sources de données prises en charge est de 10.

Emplacement des sources de données

Les sources de données peuvent être stockées dans un seul volume, ou dans un dossier au sein d'un volume, sur un partage SMB ou une exportation NFS sur un système de fichiers Amazon FSX pour NetApp ONTAP. Les sources de données peuvent également être stockées dans des volumes Amazon FSX pour NetApp ONTAP dans une relation de protection des données NetApp SnapMirror.

Vous ne pouvez pas sélectionner des documents individuels au sein d'un volume ou d'un dossier. Par conséquent, vous devez vous assurer que chaque volume ou dossier contenant des sources de données ne contient pas de documents externes qui ne doivent pas être intégrés à votre base de connaissances.

Vous pouvez ajouter plusieurs sources de données dans chaque base de connaissances, mais elles doivent résider sur des systèmes de fichiers FSX pour ONTAP accessibles depuis votre compte AWS.

La taille de fichier maximale pour chaque source de données est de 50 Mo.

Protocoles pris en charge

Les bases de connaissances prennent en charge les données de volumes qui utilisent des protocoles NFS ou SMB/CIFS. Lorsque vous sélectionnez des fichiers stockés à l'aide du protocole SMB, vous devez entrer les informations Active Directory afin que la base de connaissances puisse accéder aux fichiers de ces volumes. Ceci inclut le domaine Active Directory, l'adresse IP, le nom d'utilisateur et le mot de passe.

Lorsque vous stockez votre source de données sur un partage (fichier ou répertoire) accessible via SMB, les données sont uniquement accessibles aux utilisateurs ou groupes de chatbot qui disposent des autorisations d'accès à ce partage. Lorsque cette « fonctionnalité de reconnaissance des autorisations » est activée, le système d'IA compare le courrier électronique de l'utilisateur dans auth0 aux utilisateurs autorisés à afficher ou utiliser les fichiers sur le partage SMB. Le chatbot fournira des réponses en fonction des autorisations utilisateur pour les fichiers intégrés.

Par exemple, si vous avez intégré 10 fichiers (sources de données) dans votre base de connaissances et que 2 fichiers sont des fichiers de ressources humaines qui contiennent des informations restreintes, seuls les utilisateurs de chatbot qui sont authentifiés pour accéder à ces 2 fichiers recevront des réponses du chatbot qui incluent des données de ces fichiers.

Formats de fichiers de source de données pris en charge

Les formats de fichiers de source de données suivants sont actuellement pris en charge par les bases de connaissances GenAI de l'usine de workloads.

Format de fichier Extension

Apache Parquet[1]

.parquet

Valeurs séparées par des virgules filefootnote:clause de non-responsabilité[]

.csv

Format d'échange graphique

.gif

JPEG

.jpg or.jpeg

JSON et JSONPFootnote:Disclaimer[]

.json

Démarque

.md

Microsoft Word

.doc ou .docx

Texte brut

.txt

Format de document portable

.pdf

Carte graphique réseau portable

.png

Image WebP

.webp


1. la fonctionnalité Data guardrails n'est pas prise en charge lors de l'acquisition de fichiers de données structurés dans des bases de connaissances.