Skip to main content
简体中文版经机器翻译而成,仅供参考。如与英语版出现任何冲突,应以英语版为准。

创建GenAI知识库

贡献者 netapp-mwallis

部署 AI 基础架构并确定将从 FSx for ONTAP数据存储集成到知识库中的数据源后,您就可以使用 Workload Factory 构建知识库了。作为此步骤的一部分,您还将定义 AI 特性并创建对话开场白。

在继续操作之前、请确保您的环境符合"要求"知识库的要求。

关于此任务

知识库有两种数据集成方式-_public mode/和_Enterprise mode/。

公共模式

无需集成企业的数据源、即可使用知识库。在这种情况下、与知识库集成的应用程序将仅提供互联网上公开提供的信息的结果。这称为_public mode_integration。

企业模式

在大多数情况下、您需要将组织中的数据源集成到知识库中。这种方式称为_Enterprise mode_integration、因为它可以提供企业的知识。

您组织的数据源可能包含个人身份信息 (PII)。为了保护这些敏感信息,您可以在创建和配置知识库时启用_数据护栏_。由NetApp数据分类提供支持的数据护栏可识别和屏蔽 PII,使其无法访问和恢复。

备注 NetApp Workload Factory for GenAI 不会屏蔽敏感的个人信息 (SPii)。参考"敏感个人数据的类型"有关此类数据的更多信息。
备注 数据护栏可以随时启用或禁用。如果您切换数据护栏启用,Workload Factory 将从头开始扫描整个知识库,这会产生成本。

创建并配置知识库

知识库定义了一些特征、例如、要用来创建知识库的基础AI模型和嵌入格式。

步骤
  1. 使用以下方式之一登录 Workload Factory"控制台体验"

  2. 在AI Workloads (AI工作负载)磁贴中、选择*部署和管理*。

  3. 从知识库和连接器菜单中,选择*新建*下拉菜单并选择* NetApp GenAI 知识库 for Bedrock*。

  4. 在创建NetApp GenAI 知识库页面上,配置知识库设置:

知识库详细信息
  1. Name:输入要用于知识库的名称。

  2. Description:输入知识库的详细说明。

  3. Bedrock:选择您的 AWS 账户可使用 Amazon Bedrock 的区域。

摄入
  1. 嵌入模型

    • 选择一个嵌入模型用于知识库。嵌入模型定义如何将数据转换为知识库的向量嵌入。 Workload Factory 支持以下模型:

    • T人 嵌入G1 -文本

    • T人 嵌入文本v2

    • 第1代多模态嵌入

    • 嵌入英语

    • 嵌入多语言

      请注意、您必须已启用Amazon Brock中的嵌入模型。

    • 如果适用,请选择与所选嵌入模型的配置相匹配的推理类型。

  2. 数据护栏:选择是否要启用或禁用数据护栏。"了解由NetApp数据分类提供支持的数据护栏"

    要启用数据防护、必须满足以下前提条件。

    备注 在导出CSV、JSON、JSONP或Parquet等结构化数据文件时、不支持数据防护功能。
聊天和检索设置
  1. 聊天模型

    • 从 Amazon Bedrock 中集成的各种聊天模型中进行选择。请注意,您必须已经启用来自 Amazon Bedrock 的聊天模型。

    • 如果适用,请选择与所选模型的配置相匹配的推理类型。

  2. 聊天设置

    • 为聊天机器人选择一个温度来配置响应的随机性和创造性。较低的温度会导致更可预测的响应,而较高的温度会导致更加多样化的响应。

    • 选择最大响应长度来配置响应的详细程度。响应长度越长,使用的响应令牌就越多,并且会产生更高的成本。

  3. 思考模式:启用思考模式后,聊天机器人将花费更多时间来处理查询,并且结果通常会更准确。当您启用思考模式时,您可以控制在生成结果时使用多少个推理标记。使用更多的推理标记可以得到更准确的响应,但可能会产生更高的成本。

  4. 重新排名:启用或禁用重新排名,这可以提高查询结果的相关性和质量。选择标准聊天模型或专门的重新排名模型用于重新排名。仅当您所在地区可用时才会显示 Reranker 模型选项。选择与所选模型的配置相匹配的推理类型。

  5. 对话开场白:选择是否要提供最多四个对话开场提示、这些提示将显示给与使用此知识库的聊天机器人进行交互的用户。建议您启用此设置。

    如果您激活了启动对话器、则默认情况下会选中"自动模式"。只有在将数据源添加到知识库后、才能启用"手动模式"。"了解如何修改知识库设置"(英文)

存储定义
  1. FSx for ONTAP文件系统:当您定义新的知识库时,Workload Factory 会创建一个新的Amazon FSx for NetApp ONTAP卷来存储它。选择将在其中创建新卷的现有文件系统名称和 SVM(也称为存储 VM)。

  2. 快照策略:从 Workload Factory 存储清单中定义的现有策略列表中选择一个快照策略。知识库的定期快照将根据您选择的快照策略以一定频率自动创建。

  3. S3 存储桶:如果聊天机器人查询结果包含结构化数据,GenAI 可以将结果存储在 S3 存储桶中。要使用此功能,请启用*激活 S3 存储桶*设置并从列表中选择与您的帐户关联的 S3 存储桶。当这些结果存储在 S3 存储桶中时,您可以使用聊天会话中的下载链接下载它们。

    如果不存在所需的快照策略、则可以 "创建快照策略"在包含此卷的Storage VM上执行此操作。

  4. 选择*创建知识库*将知识库添加到GenAI中。

    创建知识库时、将显示进度指示器。

    创建知识库后、您可以选择向新知识库添加数据源、也可以选择结束此过程而不添加数据源。建议您选择*添加数据源*,然后立即添加一个或多个数据源。

向知识库添加数据源

您可以添加一个或多个数据源、以便使用组织的数据填充知识库。

关于此任务

支持的最大数据源数为10。

步骤
  1. 选择*添加数据源*后,选择要添加的数据源类型:

    • 添加 FSx for ONTAP 文件系统(使用现有 FSx for ONTAP 卷中的文件)

    • 添加文件系统(使用来自通用 SMB 或 NFS 共享的文件)

添加 FSx for ONTAP 文件系统
  1. 选择文件系统:选择数据源文件所在的FSx for ONTAP文件系统,然后选择*下一步*。

  2. 选择卷:选择数据源文件所在的卷,然后选择*下一步*。

    选择使用SMB协议存储的文件时、您需要输入Active Directory信息、其中包括域、IP地址、用户名和密码。

  3. 选择数据源:根据文件的保存位置选择数据源位置。该卷可以是整个卷,也可以是卷中的特定文件夹或子文件夹,然后选择*Next*。

  4. 配置:配置数据源如何从文件中获取信息,以及它包含在扫描中的文件:

    • 定义数据源:在*Chunking string*部分中,定义在数据源与知识库集成时,GenAI引擎如何将数据源内容拆分成块。您可以选择以下策略之一:

      • 多句拆分:将数据源中的信息组织为句子定义的区块。您可以选择每个区块包含多少个句子(最多100个)。

      • 基于重叠的区块:将数据源中的信息组织为字符定义的区块,这些区块可以重叠相邻区块。您可以选择每个区块的字符大小、以及每个区块与相邻区块重叠的程度。您可以将区块大小配置为50到3000个字符、并将重叠百分比配置为1到99%。

        备注 选择较高的重叠百分比会显著增加存储需求、但检索准确性只会稍有提高。
    • 文件过滤:配置扫描中包含的文件:

      • 在*文件类型支持*部分,选择包括所有类型的文件,或选择要包含在数据源扫描中的单个文件类型。

        如果您包含图像或 PDF 文件, NetApp Workload Factory for GenAI 会解析图像中的文本(包括 PDF 文档中的图像),这会产生更高的成本。

      如果包含图像中的文本数据、则在将扫描的文本数据从您的环境发送到AWS时、GenAI无法屏蔽图像中的个人身份信息(个人身份信息、(PI))。但是、一旦存储数据、所有的数据都会在GenAI数据库中屏蔽。

    备注 您选择将图像文件包括在扫描中与知识库聊天模式相关。如果扫描中包含图像文件、则聊天模式必须支持图像。如果在此处选择了图像文件类型、则无法将知识库切换到不支持图像文件的聊天模式。
    • 在*文件修改时间过滤器*部分,选择根据修改时间启用或禁用包含文件。如果启用了修改时间筛选、请从列表中选择一个日期范围。

      备注 如果您包含基于修改日期范围的文件、则只要不满足日期范围(这些文件在您指定的日期范围内未被修改)、这些文件就会从定期扫描中排除、并且数据源不会包含这些文件。
  5. 在*权限感知*部分(仅当您选择的数据源位于使用SMB协议的卷上时才可用)中、您可以启用或禁用权限感知响应:

    • 已启用:访问此知识库的聊天机器人用户只会从他们有权访问的数据源获得查询响应。

    • 已禁用:聊天机器人用户将使用所有集成数据源的内容接收响应。

  6. 选择*Add*将此数据源添加到您的知识库中。

添加通用 NFS 文件系统
  1. 选择文件系统:输入数据源文件所在的文件系统主机的 IP 地址或 FQDN,选择网络共享的 NFS 协议,然后选择*下一步*。

  2. 选择数据源:根据文件的保存位置选择数据源位置。该卷可以是整个卷,也可以是卷中的特定文件夹或子文件夹,然后选择*Next*。

    备注 在某些情况下,您可能需要手动输入 NFS 导出名称,然后选择“检索目录”以显示可用目录。您可以选择整个导出,或仅选择导出中的特定文件夹。
  3. 配置:配置数据源如何从文件中获取信息,以及它包含在扫描中的文件:

    • 定义数据源:在*Chunking string*部分中,定义在数据源与知识库集成时,GenAI引擎如何将数据源内容拆分成块。您可以选择以下策略之一:

      • 多句拆分:将数据源中的信息组织为句子定义的区块。您可以选择每个区块包含多少个句子(最多100个)。

      • 基于重叠的区块:将数据源中的信息组织为字符定义的区块,这些区块可以重叠相邻区块。您可以选择每个区块的字符大小、以及每个区块与相邻区块重叠的程度。您可以将区块大小配置为50到3000个字符、并将重叠百分比配置为1到99%。

        备注 选择较高的重叠百分比会显著增加存储需求、但检索准确性只会稍有提高。
    • 文件过滤:配置扫描中包含的文件:

      • 在*文件类型支持*部分,选择包括所有类型的文件,或选择要包含在数据源扫描中的单个文件类型。

        如果您包含图像或 PDF 文件, NetApp Workload Factory for GenAI 会解析图像中的文本(包括 PDF 文档中的图像),这会产生更高的成本。

      如果包含图像中的文本数据、则在将扫描的文本数据从您的环境发送到AWS时、GenAI无法屏蔽图像中的个人身份信息(个人身份信息、(PI))。但是、一旦存储数据、所有的数据都会在GenAI数据库中屏蔽。

    备注 您选择将图像文件包括在扫描中与知识库聊天模式相关。如果扫描中包含图像文件、则聊天模式必须支持图像。如果在此处选择了图像文件类型、则无法将知识库切换到不支持图像文件的聊天模式。
    • 在*文件修改时间过滤器*部分,选择根据修改时间启用或禁用包含文件。如果启用了修改时间筛选、请从列表中选择一个日期范围。

      备注 如果您包含基于修改日期范围的文件、则只要不满足日期范围(这些文件在您指定的日期范围内未被修改)、这些文件就会从定期扫描中排除、并且数据源不会包含这些文件。
  4. 选择*添加数据源*将此数据源添加到您的知识库。

添加通用 SMB 文件系统
  1. 选择文件系统

    1. 输入数据源文件所在的文件系统主机的 IP 地址或 FQDN。

    2. 为网络共享选择 SMB 协议。

    3. 输入 Active Directory 信息,包括域、IP 地址、用户名和密码。

    4. 选择 * 下一步 * 。

  2. 选择数据源:根据文件的保存位置选择数据源位置。该卷可以是整个卷,也可以是卷中的特定文件夹或子文件夹,然后选择*Next*。

    备注 在某些情况下,您可能需要手动输入 SMB 共享名称,然后选择“检索目录”以显示可用目录。您可以选择整个共享,或仅选择共享中的特定文件夹。
  3. 配置:配置数据源如何从文件中获取信息,以及它包含在扫描中的文件:

    • 定义数据源:在*Chunking string*部分中,定义在数据源与知识库集成时,GenAI引擎如何将数据源内容拆分成块。您可以选择以下策略之一:

      • 多句拆分:将数据源中的信息组织为句子定义的区块。您可以选择每个区块包含多少个句子(最多100个)。

      • 基于重叠的区块:将数据源中的信息组织为字符定义的区块,这些区块可以重叠相邻区块。您可以选择每个区块的字符大小、以及每个区块与相邻区块重叠的程度。您可以将区块大小配置为50到3000个字符、并将重叠百分比配置为1到99%。

        备注 选择较高的重叠百分比会显著增加存储需求、但检索准确性只会稍有提高。
    • 权限感知:启用或禁用权限感知响应:

      • 已启用:访问此知识库的聊天机器人用户只会从他们有权访问的数据源获得查询响应。

      • 已禁用:聊天机器人用户将使用所有集成数据源的内容接收响应。

    • 文件过滤:配置扫描中包含的文件:

      • 在*文件类型支持*部分,选择包括所有类型的文件,或选择要包含在数据源扫描中的单个文件类型。

        如果您包含图像或 PDF 文件, NetApp Workload Factory for GenAI 会解析图像中的文本(包括 PDF 文档中的图像),这会产生更高的成本。

      如果包含图像中的文本数据、则在将扫描的文本数据从您的环境发送到AWS时、GenAI无法屏蔽图像中的个人身份信息(个人身份信息、(PI))。但是、一旦存储数据、所有的数据都会在GenAI数据库中屏蔽。

    备注 您选择将图像文件包括在扫描中与知识库聊天模式相关。如果扫描中包含图像文件、则聊天模式必须支持图像。如果在此处选择了图像文件类型、则无法将知识库切换到不支持图像文件的聊天模式。
    • 在*文件修改时间过滤器*部分,选择根据修改时间启用或禁用包含文件。如果启用了修改时间筛选、请从列表中选择一个日期范围。

      备注 如果您包含基于修改日期范围的文件、则只要不满足日期范围(这些文件在您指定的日期范围内未被修改)、这些文件就会从定期扫描中排除、并且数据源不会包含这些文件。
  4. 选择*添加数据源*将此数据源添加到您的知识库。

结果

数据源开始嵌入到您的知识库中。当数据源完全嵌入时、状态将从"嵌入"更改为"嵌入"。

向知识库添加单个数据源后、您可以在本地的聊天机器人模拟器窗口中对其进行测试、并进行任何必要的更改、然后再将此聊天机器人提供给用户。您也可以按照相同的步骤向知识库添加其他数据源。