ナレッジベースまたはコネクタに追加するデータソースを特定する
ナレッジベースに統合するFSx for ONTAPファイルシステムにあるドキュメント(データソース)を特定または作成します。これらのデータソースを使用すると、組織に関連するデータに基づいて、ナレッジベースでユーザクエリに対する正確でパーソナライズされた回答を提供できます。
データソースの最大数
サポートされるデータソースの最大数は10です。
データソースの場所
データソースは、単一のボリュームに格納することも、ボリューム内のフォルダに格納することも、Amazon FSx for NetApp ONTAPファイルシステム上のSMB共有やNFSエクスポートに格納することもできます。また、NetApp SnapMirrorデータ保護関係にあるAmazon FSx for NetApp ONTAPボリュームにデータソースを保存することもできます。
ボリュームまたはフォルダ内の個 々 のドキュメントを選択することはできません。したがって、データソースを含む各ボリュームまたはフォルダに、ナレッジベースと統合すべきではない無関係なドキュメントが含まれていないことを確認する必要があります。
各ナレッジベースには複数のデータソースを追加できますが、それらはすべてAWSアカウントからアクセス可能なFSx for ONTAPファイルシステム上にある必要があります。
各データソースの最大ファイルサイズは50MBです。
サポートされるプロトコル
ナレッジベースでは、NFSプロトコルまたはSMB / CIFSプロトコルを使用するボリュームのデータがサポートされます。SMBプロトコルを使用して保存されているファイルを選択する場合は、Active Directory情報を入力して、ナレッジベースがこれらのボリューム上のファイルにアクセスできるようにする必要があります。これには、Active Directoryドメイン、IPアドレス、ユーザ名、パスワードが含まれます。
SMB経由でアクセスされる共有(ファイルまたはディレクトリ)にデータソースを格納する場合、その共有にアクセスする権限を持つチャットボットのユーザまたはグループのみがデータにアクセスできます。この「権限認識機能」が有効になっている場合、AIシステムはAuth0内のユーザのEメールを、SMB共有上のファイルの表示または使用を許可されているユーザと比較します。チャットボットは、埋め込まれたファイルのユーザー権限に基づいて回答を提供します。
たとえば、10個のファイル(データソース)をナレッジベースに統合し、そのうちの2つが制限された情報を含む人事ファイルである場合、これら2つのファイルへのアクセスを認証されたチャットボットユーザーのみが、それらのファイルからのデータを含むチャットボットから応答を受け取ります。
サポートされるデータソースファイル形式
Workload Factory生成AIナレッジベースで現在サポートされているデータソースファイル形式は次のとおりです。
ファイル形式 | エクステンション |
---|---|
Apache Parquet[1] |
寄木細工 |
カンマ区切り値file[disclaimer] |
.csv |
グラフィック交換フォーマット |
.gif |
JPEG |
.jpg or.jpeg |
JSONおよびJSONP[1] |
.json |
マークダウン |
.md |
Microsoft Word |
.docまたは.docx |
プレーンテキスト |
.txt |
ポータブルドキュメントフォーマット |
|
ポータブルネットワークグラフィックス |
.png |
WebP画像 |
.webp |