Skip to main content
日本語は機械翻訳による参考訳です。内容に矛盾や不一致があった場合には、英語の内容が優先されます。

ナレッジベースまたはコネクタに追加するデータソースを特定する

共同作成者 netapp-mwallis

ナレッジベースに統合するFSx for ONTAPファイルシステムにあるドキュメント(データソース)を特定または作成します。これらのデータソースを使用すると、組織に関連するデータに基づいて、ナレッジベースでユーザクエリに対する正確でパーソナライズされた回答を提供できます。

データソースの最大数

サポートされるデータソースの最大数は10です。

データソースの場所

データソースは、単一のボリュームに格納することも、ボリューム内のフォルダに格納することも、Amazon FSx for NetApp ONTAPファイルシステム上のSMB共有やNFSエクスポートに格納することもできます。また、NetApp SnapMirrorデータ保護関係にあるAmazon FSx for NetApp ONTAPボリュームにデータソースを保存することもできます。

ボリュームまたはフォルダ内の個 々 のドキュメントを選択することはできません。したがって、データソースを含む各ボリュームまたはフォルダに、ナレッジベースと統合すべきではない無関係なドキュメントが含まれていないことを確認する必要があります。

各ナレッジベースには複数のデータソースを追加できますが、それらはすべてAWSアカウントからアクセス可能なFSx for ONTAPファイルシステム上にある必要があります。

各データソースの最大ファイルサイズは50MBです。

サポートされるプロトコル

ナレッジベースでは、NFSプロトコルまたはSMB / CIFSプロトコルを使用するボリュームのデータがサポートされます。SMBプロトコルを使用して保存されているファイルを選択する場合は、Active Directory情報を入力して、ナレッジベースがこれらのボリューム上のファイルにアクセスできるようにする必要があります。これには、Active Directoryドメイン、IPアドレス、ユーザ名、パスワードが含まれます。

SMB経由でアクセスされる共有(ファイルまたはディレクトリ)にデータソースを格納する場合、その共有にアクセスする権限を持つチャットボットのユーザまたはグループのみがデータにアクセスできます。この「権限認識機能」が有効になっている場合、AIシステムはAuth0内のユーザのEメールを、SMB共有上のファイルの表示または使用を許可されているユーザと比較します。チャットボットは、埋め込まれたファイルのユーザー権限に基づいて回答を提供します。

たとえば、10個のファイル(データソース)をナレッジベースに統合し、そのうちの2つが制限された情報を含む人事ファイルである場合、これら2つのファイルへのアクセスを認証されたチャットボットユーザーのみが、それらのファイルからのデータを含むチャットボットから応答を受け取ります。

サポートされるデータソースファイル形式

Workload Factory生成AIナレッジベースで現在サポートされているデータソースファイル形式は次のとおりです。

ファイル形式 エクステンション

Apache Parquet[1]

寄木細工

カンマ区切り値file[disclaimer]

.csv

グラフィック交換フォーマット

.gif

JPEG

.jpg or.jpeg

JSONおよびJSONP[1]

.json

マークダウン

.md

Microsoft Word

.docまたは.docx

プレーンテキスト

.txt

ポータブルドキュメントフォーマット

.pdf

ポータブルネットワークグラフィックス

.png

WebP画像

.webp


1. 構造化データファイルをナレッジベースに取り込む場合、データガードレール機能はサポートされていません。