識別要新增至知識庫或連接器的資料來源
識別或建立位於您的 FSX for ONTAP 檔案系統上的文件(資料來源)、這些文件將整合到您的知識庫中。這些資料來源可讓知識庫根據與組織相關的資料、為使用者查詢提供準確且個人化的答案。
資料來源的最大數量
支援的資料來源數量上限為 10 個。
資料來源的位置
資料來源可以儲存在單一磁碟區中、或儲存在磁碟區內的資料夾中、儲存在適用於 NetApp ONTAP 檔案系統的 Amazon FSX 上的 SMB 共用區或 NFS 匯出區中。資料來源也可以儲存在 Amazon FSX 上、以供 NetApp SnapMirror 資料保護關係中的 NetApp ONTAP 磁碟區使用。
您無法在磁碟區或資料夾中選取個別文件、因此您應確保包含資料來源的每個磁碟區或資料夾中、都不包含不應與知識庫整合的額外文件。
您可以將多個資料來源新增至每個知識庫、但這些資料來源都必須位於可從 AWS 帳戶存取的 ONTAP 檔案系統的 FSX 上。
每個資料來源的檔案大小上限為 50 MB 。
支援的傳輸協定
知識庫可支援使用 NFS 或 SMB/CIFS 通訊協定之磁碟區的資料。選取使用 SMB 傳輸協定儲存的檔案時、您必須輸入 Active Directory 資訊、知識庫才能存取這些磁碟區上的檔案。其中包括 Active Directory 網域、 IP 位址、使用者名稱和密碼。
在透過 SMB 存取的共用(檔案或目錄)上儲存資料來源時、資料只能由具有存取該共用權限的聊天機器人使用者或群組存取。啟用此「權限感知功能」時、 AI 系統會將驗證 0 中的使用者電子郵件與允許檢視或使用 SMB 共用上檔案的使用者進行比較。chatbot 將根據內嵌檔案的使用者權限提供答案。
例如、如果您將 10 個檔案(資料來源)整合到知識庫、其中 2 個檔案是包含受限資訊的人力資源檔案、則只有通過驗證以存取這 2 個檔案的聊天機器人程式使用者、才會收到來自聊天機器人程式的回應、其中包含來自這些檔案的資料。
支援的資料來源檔案格式
工作負載工廠 GenAI 知識庫目前支援下列資料來源檔案格式。
檔案格式 | 擴充 |
---|---|
Apache Parquetfed腳 註:免責聲明 [ 將結構化資料檔案擷取至知識庫時,不支援資料 guardrails 功能。 ] |
硬地板 |
以逗號分隔的值檔案說明:免責聲明 [] |
.csv |
圖形交換格式 |
.gif |
JPEG |
.jpg or.jpeg |
JSON 與 JSONP 註腳:免責聲明 [] |
json |
請下標 |
.md |
Microsoft Word |
.doc 或 .docx |
純文字 |
.txt |
可攜式文件格式 |
|
可攜式網路圖形 |
.png- |
WebP 映像 |
webp |