管理Amazon Q Business连接器
为Amazon Q Business创建连接器之后、您可以查看连接器详细信息、修改连接器、集成其他数据源或删除连接器。
查看有关连接器的信息
您可以查看有关连接器设置和集成的数据源的信息。
-
使用其中一个登录到工作负载工厂"控制台体验"。
-
从工作负载出厂导航菜单中、选择*AI*。
-
选择要查看的连接器。
-
要查看连接器详细信息,请选择,然后选择
Manage connector。
此页面显示已发布状态、数据源的嵌入状态、嵌入模式、所有嵌入数据源的列表等。
如果要进行任何更改,可使用*Actions*菜单来管理连接器。
编辑连接器
您可以通过更改某些设置来更新连接器、也可以添加或删除数据源。
每次在连接器中添加、修改或删除数据源时、GenAI都需要将数据源信息发送到Amazon Q Business、以便对其重新编制索引。同步是增量操作、因此Amazon Q Business仅处理FSx for ONTAP卷中自上次同步以来添加、修改或删除的对象。
-
使用其中一个登录到工作负载工厂"控制台体验"。
-
从"Knowledge Bases & Connectors (知识库和连接器)"清单页面中、选择要更新的连接器。
-
选择
并选择*Manage connector*。
此页面显示已发布状态、数据源的嵌入状态、嵌入模式、所有嵌入数据源的列表等。
-
选择*Actions*菜单,然后选择*Edit connector*。
-
在"Edit connector"页面中、您可以更改连接器名称、说明、嵌入模型、数据防护栏启用以及用于包含该连接器的卷的快照策略。
每次数据源扫描(包括嵌入)都会带来成本。如果在创建连接器后启用数据防护、则会再次扫描数据源并产生成本。 -
进行更改后选择*保存*。
向连接器添加其他数据源
您可以在连接器中嵌入其他数据源、以使用其他组织数据填充该数据源。
-
使用其中一个登录到工作负载工厂"控制台体验"。
-
从"Knowledge Bases & Connectors (知识库和连接器)"清单页面中、选择要添加数据源的连接器。
-
选择,然后选择
添加数据源。
-
选择要添加的数据源类型:
-
添加 FSx for ONTAP 文件系统(使用现有 FSx for ONTAP 卷中的文件)
-
添加文件系统(使用来自通用 SMB 或 NFS 共享的文件)
-
-
选择文件系统:选择数据源文件所在的FSx for ONTAP文件系统,然后选择*下一步*。
-
选择卷:选择数据源文件所在的卷,然后选择*下一步*。
选择使用SMB协议存储的文件时、您需要输入Active Directory信息、其中包括域、IP地址、用户名和密码。
-
选择数据源:根据文件的保存位置选择数据源位置。该卷可以是整个卷,也可以是卷中的特定文件夹或子文件夹,然后选择*Next*。
-
配置:配置数据源如何从文件中获取信息,以及它包含在扫描中的文件:
-
定义数据源:在*Chunking string*部分中,定义在数据源与知识库集成时,GenAI引擎如何将数据源内容拆分成块。您可以选择以下策略之一:
-
多句拆分:将数据源中的信息组织为句子定义的区块。您可以选择每个区块包含多少个句子(最多100个)。
-
基于重叠的区块:将数据源中的信息组织为字符定义的区块,这些区块可以重叠相邻区块。您可以选择每个区块的字符大小、以及每个区块与相邻区块重叠的程度。您可以将区块大小配置为50到3000个字符、并将重叠百分比配置为1到99%。
选择较高的重叠百分比会显著增加存储需求、但检索准确性只会稍有提高。
-
-
文件过滤:配置扫描中包含的文件:
-
在*文件类型支持*部分,选择包括所有类型的文件,或选择要包含在数据源扫描中的单个文件类型。
如果您包含图像或PDF文件、BlueXP Workload Factory for GenAI将解析图像中的文本(包括PDF文档中的图像)、这将导致成本增加。
如果包含图像中的文本数据、则在将扫描的文本数据从您的环境发送到AWS时、GenAI无法屏蔽图像中的个人身份信息(个人身份信息、(PI))。但是、一旦存储数据、所有的数据都会在GenAI数据库中屏蔽。
-
您选择将图像文件包括在扫描中与知识库聊天模式相关。如果扫描中包含图像文件、则聊天模式必须支持图像。如果在此处选择了图像文件类型、则无法将知识库切换到不支持图像文件的聊天模式。 -
在*文件修改时间过滤器*部分,选择根据修改时间启用或禁用包含文件。如果启用了修改时间筛选、请从列表中选择一个日期范围。
如果您包含基于修改日期范围的文件、则只要不满足日期范围(这些文件在您指定的日期范围内未被修改)、这些文件就会从定期扫描中排除、并且数据源不会包含这些文件。
-
-
在*权限感知*部分(仅当您选择的数据源位于使用SMB协议的卷上时才可用)中、您可以启用或禁用权限感知响应:
-
已启用:访问此知识库的聊天机器人用户只会从他们有权访问的数据源获得查询响应。
-
已禁用:聊天机器人用户将使用所有集成数据源的内容接收响应。
-
-
选择*Add*将此数据源添加到您的知识库中。
-
选择文件系统:输入数据源文件所在的文件系统主机的 IP 地址或 FQDN,选择网络共享的 NFS 协议,然后选择*下一步*。
-
选择数据源:根据文件的保存位置选择数据源位置。该卷可以是整个卷,也可以是卷中的特定文件夹或子文件夹,然后选择*Next*。
在某些情况下,您可能需要手动输入 NFS 导出名称,然后选择“检索目录”以显示可用目录。您可以选择整个导出,或仅选择导出中的特定文件夹。 -
配置:配置数据源如何从文件中获取信息,以及它包含在扫描中的文件:
-
定义数据源:在*Chunking string*部分中,定义在数据源与知识库集成时,GenAI引擎如何将数据源内容拆分成块。您可以选择以下策略之一:
-
多句拆分:将数据源中的信息组织为句子定义的区块。您可以选择每个区块包含多少个句子(最多100个)。
-
基于重叠的区块:将数据源中的信息组织为字符定义的区块,这些区块可以重叠相邻区块。您可以选择每个区块的字符大小、以及每个区块与相邻区块重叠的程度。您可以将区块大小配置为50到3000个字符、并将重叠百分比配置为1到99%。
选择较高的重叠百分比会显著增加存储需求、但检索准确性只会稍有提高。
-
-
文件过滤:配置扫描中包含的文件:
-
在*文件类型支持*部分,选择包括所有类型的文件,或选择要包含在数据源扫描中的单个文件类型。
如果您包含图像或PDF文件、BlueXP Workload Factory for GenAI将解析图像中的文本(包括PDF文档中的图像)、这将导致成本增加。
如果包含图像中的文本数据、则在将扫描的文本数据从您的环境发送到AWS时、GenAI无法屏蔽图像中的个人身份信息(个人身份信息、(PI))。但是、一旦存储数据、所有的数据都会在GenAI数据库中屏蔽。
-
您选择将图像文件包括在扫描中与知识库聊天模式相关。如果扫描中包含图像文件、则聊天模式必须支持图像。如果在此处选择了图像文件类型、则无法将知识库切换到不支持图像文件的聊天模式。 -
在*文件修改时间过滤器*部分,选择根据修改时间启用或禁用包含文件。如果启用了修改时间筛选、请从列表中选择一个日期范围。
如果您包含基于修改日期范围的文件、则只要不满足日期范围(这些文件在您指定的日期范围内未被修改)、这些文件就会从定期扫描中排除、并且数据源不会包含这些文件。
-
-
选择*添加数据源*将此数据源添加到您的知识库。
-
选择文件系统:
-
输入数据源文件所在的文件系统主机的 IP 地址或 FQDN。
-
为网络共享选择 SMB 协议。
-
输入 Active Directory 信息,包括域、IP 地址、用户名和密码。
-
选择 * 下一步 * 。
-
-
选择数据源:根据文件的保存位置选择数据源位置。该卷可以是整个卷,也可以是卷中的特定文件夹或子文件夹,然后选择*Next*。
在某些情况下,您可能需要手动输入 SMB 共享名称,然后选择“检索目录”以显示可用目录。您可以选择整个共享,或仅选择共享中的特定文件夹。 -
配置:配置数据源如何从文件中获取信息,以及它包含在扫描中的文件:
-
定义数据源:在*Chunking string*部分中,定义在数据源与知识库集成时,GenAI引擎如何将数据源内容拆分成块。您可以选择以下策略之一:
-
多句拆分:将数据源中的信息组织为句子定义的区块。您可以选择每个区块包含多少个句子(最多100个)。
-
基于重叠的区块:将数据源中的信息组织为字符定义的区块,这些区块可以重叠相邻区块。您可以选择每个区块的字符大小、以及每个区块与相邻区块重叠的程度。您可以将区块大小配置为50到3000个字符、并将重叠百分比配置为1到99%。
选择较高的重叠百分比会显著增加存储需求、但检索准确性只会稍有提高。
-
-
权限感知:启用或禁用权限感知响应:
-
已启用:访问此知识库的聊天机器人用户只会从他们有权访问的数据源获得查询响应。
-
已禁用:聊天机器人用户将使用所有集成数据源的内容接收响应。
-
-
文件过滤:配置扫描中包含的文件:
-
在*文件类型支持*部分,选择包括所有类型的文件,或选择要包含在数据源扫描中的单个文件类型。
如果您包含图像或PDF文件、BlueXP Workload Factory for GenAI将解析图像中的文本(包括PDF文档中的图像)、这将导致成本增加。
如果包含图像中的文本数据、则在将扫描的文本数据从您的环境发送到AWS时、GenAI无法屏蔽图像中的个人身份信息(个人身份信息、(PI))。但是、一旦存储数据、所有的数据都会在GenAI数据库中屏蔽。
-
您选择将图像文件包括在扫描中与知识库聊天模式相关。如果扫描中包含图像文件、则聊天模式必须支持图像。如果在此处选择了图像文件类型、则无法将知识库切换到不支持图像文件的聊天模式。 -
在*文件修改时间过滤器*部分,选择根据修改时间启用或禁用包含文件。如果启用了修改时间筛选、请从列表中选择一个日期范围。
如果您包含基于修改日期范围的文件、则只要不满足日期范围(这些文件在您指定的日期范围内未被修改)、这些文件就会从定期扫描中排除、并且数据源不会包含这些文件。
-
-
选择*添加数据源*将此数据源添加到您的知识库。
数据源集成到连接器中。
将数据源与连接器同步
数据源每天自动与关联连接器同步一次、以便任何数据源更改都反映在Amazon Q Business中。如果您对任何数据源进行了更改、并且希望立即同步(扫描)数据、则可以执行按需同步。
同步是增量操作、因此Amazon Q Business仅处理数据源中自上次同步以来添加、修改或删除的对象。
-
使用其中一个登录到工作负载工厂"控制台体验"。
-
从"Knowledge Bases & Connectors (知识库和连接器)"选项卡中、选择要同步的连接器。
-
选择
并选择*Manage connector*。
-
选择*Actions*菜单,然后选择*Scan Now (立即扫描)*。
您将看到一条消息、指示正在扫描数据源、扫描完成后、您将看到最后一条消息。
此连接器将与所连接的数据源同步、Amazon Q Business将开始使用您的数据源中的最新信息。
暂停或恢复计划的同步
如果要暂停或恢复数据源的下次同步(扫描)、您可以随时执行此操作。如果要更改数据源、并且不希望在更改窗口期间进行同步、则可能需要暂停下一次计划同步。
-
使用其中一个登录到工作负载工厂"控制台体验"。
-
从连接器清单页面中、选择要暂停或恢复扫描的连接器。
-
选择
并选择*Manage connector*。
-
选择*Actions*菜单,然后选择*Scan > Pause Scheduled scan-或*Scan > Resume Scheduled scan-。
您将看到一条消息、指出下一个计划扫描已暂停或恢复。
删除连接器
如果您不再需要连接器、可以将其删除。删除连接器后、该连接器将从工作负载出厂时删除、并且包含该连接器的卷也将被删除。删除连接器是不可逆的。
删除连接器时,还应解除连接器与与其关联的任何代理的关联,以完全删除与连接器关联的所有资源。
-
使用其中一个登录到工作负载工厂"控制台体验"。
-
从"Knowledge Bases & Connectors (知识库和连接器)"清单页面中、选择要删除的连接器。
-
选择
并选择*Manage connector*。
-
选择*Actions*菜单,然后选择*Delete connector*。
-
在删除连接器对话框中,确认要将其删除,然后选择*Delete*。
此连接器将从工作负载出厂时删除、并且其关联卷也将被删除。