确定要添加到知识库或连接器的数据源
确定或创建FSx for ONTAP文件系统上要集成到知识库中的文档(数据源)。通过这些数据源、知识库可以根据与您的组织相关的数据为用户查询提供准确且个性化的答案。
数据源的最大数量
支持的最大数据源数为10。
数据源的位置
数据源可以存储在Amazon FSx for NetApp ONTAP文件系统上的SMB共享或NFS导出上的单个卷或卷内的文件夹中。数据源还可以存储在NetApp SnapMirror数据保护关系中适用于NetApp ONTAP的Amazon FSx卷上。
您不能选择卷或文件夹中的单个文档、因此、应确保包含数据源的每个卷或文件夹不包含不应与知识库集成的无关文档。
您可以将多个数据源添加到每个知识库中、但这些数据源都需要驻留在可从AWS帐户访问的适用于ONTAP文件系统的FSx上。
每个数据源的最大文件大小为50 MB。
支持的协议
知识库支持使用NFS或SMB/CCIFS协议的卷中的数据。选择使用SMB协议存储的文件时、您需要输入Active Directory信息、以便知识库可以访问这些卷上的文件。这包括Active Directory域、IP地址、用户名和密码。
将数据源存储在通过SMB访问的共享(文件或目录)上时、只有有权访问该共享的聊天机器人用户或组才能访问该数据。启用此"权限感知功能"后、AI系统会将auth0中的用户电子邮件与允许查看或使用SMB共享上文件的用户进行比较。聊天机器人将根据用户对嵌入文件的权限提供答案。
例如、如果您已将10个文件(数据源)集成到知识库中、其中2个文件是包含受限信息的人力资源文件、则只有经过身份验证可以访问这2个文件的聊天机器人用户才会收到来自包含这些文件中数据的聊天机器人的响应。
支持的数据源文件格式
工作负载工厂的GenAI知识库目前支持以下数据源文件格式。
文件格式 | 扩展 |
---|---|
Apache Parquet脚 注:免责声明[将结构化数据文件纳入知识库时不支持数据防护功能。] |
镶木地板 |
逗号分隔值文件注释:免责声明[] |
.csv |
图形交换格式 |
gif |
JPEG |
.jpg or.jpeg |
JSON和JSON脚注:免责声明[] |
.json |
降价 |
.MD |
Microsoft Word |
doc或.docx |
纯文本 |
.txt |
可移植文档格式 |
|
便携式网络图形 |
png |
WebP映像 |
.webp |