创建GenAI知识库
在您部署了AI基础架构并从FSx for ONTAP数据存储库中确定了要集成到知识库中的数据源之后、您便可以使用工作负载工厂构建知识库了。在此步骤中、您还将定义AI特征并创建对话开场白。
在继续操作之前、请确保您的环境符合"要求"知识库的要求。
知识库有两种数据集成方式-_public mode/和_Enterprise mode/。
- 公共模式
-
无需集成企业的数据源、即可使用知识库。在这种情况下、与知识库集成的应用程序将仅提供互联网上公开提供的信息的结果。这称为_public mode_integration。
- 企业模式
-
在大多数情况下、您需要将组织中的数据源集成到知识库中。这种方式称为_Enterprise mode_integration、因为它可以提供企业的知识。
您组织的数据源可能包含个人身份信息(个人身份信息、个人身份信息)。为了保护此敏感信息的安全、您可以在创建和配置知识库时启用_data护栏_。由BlueXP 分类提供支持的数据防护栏可识别和屏蔽可识别身份信息、使其无法访问和检索。
"了解BlueXP分类"(英文)
适用于GenAI的BlueXP 工作负载工厂不会屏蔽敏感的个人信息(SPii)。有关此类数据的详细信息、请参见"敏感个人数据的类型"。 可以随时启用或禁用数据防护。如果您要切换数据防护、工作负载工厂会从头开始扫描整个知识库、这会产生成本。
创建并配置知识库
知识库定义了一些特征、例如、要用来创建知识库的基础AI模型和嵌入格式。
-
使用其中一个登录到工作负载工厂"控制台体验"。
-
在AI Workloads (AI工作负载)磁贴中、选择*部署和管理*。
-
从“知识库和连接器”选项卡中,选择*Create New*下拉列表,然后选择NetApp GenAI Knowledge base for based*。
-
在Define Knowledge Base页面上、配置知识库设置:
-
Name:输入要用于知识库的名称。
-
Description:输入知识库的详细说明。
-
嵌入模型:嵌入模型定义了如何将数据转换为知识库的矢量嵌入。工作负载出厂支持以下型号:
-
T人 嵌入G1 -文本
-
T人 嵌入文本v2
-
第1代多模态嵌入
-
嵌入英语
-
嵌入多语言
请注意、您必须已启用Amazon Brock中的嵌入模型。
-
-
聊天模式:从Amazon Brock中集成的各种聊天模式中进行选择。请注意、您必须已启用Amazon Brock中的聊天模式。
-
重新排名:启用或禁用重新排名功能,此功能可以提高查询结果的相关性和质量。您可以选择标准聊天模型或专用的重新排名模型进行重新排名。只有您所在地区支持的重新排名模型选项才会显示。
-
数据防护:选择是启用还是禁用数据防护。"了解由BlueXP 分类提供支持的数据防护"(英文)
要启用数据防护、必须满足以下前提条件。
-
要与BlueXP 分类进行通信、需要使用服务帐户。要创建服务帐户、您必须在BlueXP 租户帐户上具有_Organization admin_角色。具有组织管理员角色的成员可以完成BlueXP 中的所有操作。"了解如何在BlueXP 中向成员添加角色"
-
AI引擎必须能够访问"BlueXP API端点"。
-
您需要执行中所述的以下操作"BlueXP分类文档":
-
创建BlueXP Connector
-
确保您的环境满足前提条件
-
部署BlueXP分类
-
在导出CSV、JSON、JSONP或Parquet等结构化数据文件时、不支持数据防护功能。 -
-
对话开场白:选择是否要提供最多四个对话开场提示、这些提示将显示给与使用此知识库的聊天机器人进行交互的用户。建议您启用此设置。
如果您激活了启动对话器、则默认情况下会选中"自动模式"。只有在将数据源添加到知识库后、才能启用"手动模式"。"了解如何修改知识库设置"(英文)
-
FSx for ONTAP文件系统:定义新的知识库时,工作负载工厂会创建一个新的Amazon FSx for NetApp ONTAP卷来存储它。选择现有文件系统名称以及要创建新卷的SVM (也称为Storage VM)。
-
Snapshot policy:从工作负载出厂存储清单中定义的现有策略列表中选择一个Snapshot策略。系统将根据您选择的快照策略、以一定频率自动创建知识库的重复快照。
如果不存在所需的快照策略、则可以 "创建快照策略"在包含此卷的Storage VM上执行此操作。
-
-
选择*创建知识库*将知识库添加到GenAI中。
创建知识库时、将显示进度指示器。
创建知识库后、您可以选择向新知识库添加数据源、也可以选择结束此过程而不添加数据源。建议您选择*添加数据源*,然后立即添加一个或多个数据源。
向知识库添加数据源
您可以添加一个或多个数据源、以便使用组织的数据填充知识库。
支持的最大数据源数为10。
-
选择*添加数据源*后,将显示*选择文件系统*页。
-
选择文件系统:选择数据源文件所在的FSx for ONTAP文件系统,然后选择*下一步*。
-
选择卷:选择数据源文件所在的卷,然后选择*下一步*。
选择使用SMB协议存储的文件时、您需要输入Active Directory信息、其中包括域、IP地址、用户名和密码。
-
选择数据源:根据文件的保存位置选择数据源位置。该卷可以是整个卷,也可以是卷中的特定文件夹或子文件夹,然后选择*Next*。
-
配置:配置数据源如何从文件中获取信息,以及它包含在扫描中的文件:
-
定义数据源:在*Chunking string*部分中,定义在数据源与知识库集成时,GenAI引擎如何将数据源内容拆分成块。您可以选择以下策略之一:
-
多句拆分:将数据源中的信息组织为句子定义的区块。您可以选择每个区块包含多少个句子(最多100个)。
-
基于重叠的区块:将数据源中的信息组织为字符定义的区块,这些区块可以重叠相邻区块。您可以选择每个区块的字符大小、以及每个区块与相邻区块重叠的程度。您可以将区块大小配置为50到3000个字符、并将重叠百分比配置为1到99%。
选择较高的重叠百分比会显著增加存储需求、但检索准确性只会稍有提高。
-
-
文件过滤:配置扫描中包含的文件:
-
在*文件类型支持*部分,选择包括所有类型的文件,或选择要包含在数据源扫描中的单个文件类型。
如果您包含图像或PDF文件、BlueXP Workload Factory for GenAI将解析图像中的文本(包括PDF文档中的图像)、这将导致成本增加。
如果包含图像中的文本数据、则在将扫描的文本数据从您的环境发送到AWS时、GenAI无法屏蔽图像中的个人身份信息(个人身份信息、(PI))。但是、一旦存储数据、所有的数据都会在GenAI数据库中屏蔽。
-
您选择将图像文件包括在扫描中与知识库聊天模式相关。如果扫描中包含图像文件、则聊天模式必须支持图像。如果在此处选择了图像文件类型、则无法将知识库切换到不支持图像文件的聊天模式。 -
在*文件修改时间过滤器*部分,选择根据修改时间启用或禁用包含文件。如果启用了修改时间筛选、请从列表中选择一个日期范围。
如果您包含基于修改日期范围的文件、则只要不满足日期范围(这些文件在您指定的日期范围内未被修改)、这些文件就会从定期扫描中排除、并且数据源不会包含这些文件。
-
-
在*权限感知*部分(仅当您选择的数据源位于使用SMB协议的卷上时才可用)中、您可以启用或禁用权限感知响应:
-
已启用:访问此知识库的聊天机器人用户只会从他们有权访问的数据源获得查询响应。
-
已禁用:聊天机器人用户将使用所有集成数据源的内容接收响应。
-
-
选择*Add*将此数据源添加到您的知识库中。
数据源开始嵌入到您的知识库中。当数据源完全嵌入时、状态将从"嵌入"更改为"嵌入"。
向知识库添加单个数据源后、您可以在本地的聊天机器人模拟器窗口中对其进行测试、并进行任何必要的更改、然后再将此聊天机器人提供给用户。您也可以按照相同的步骤向知识库添加其他数据源。