管理 GenAI 知識庫
建立知識庫之後、您可以檢視知識庫詳細資料、修改知識庫、整合其他資料來源、或刪除知識庫。
檢視知識庫的相關資訊
您可以檢視有關知識庫設定和整合資料來源的資訊。
-
使用其中一項登入工作負載工廠"主控台體驗"。
-
從工作負載原廠導覽功能表中,選取 * AI * 。
-
選取您要檢視的知識庫。
如果已定義、目前正在使用的對話啟動器會顯示在右窗格中。
-
若要檢視知識庫詳細資料、請選取
並選取 * 管理知識庫 * 。
此頁面會顯示發佈的狀態、資料來源的內嵌狀態、內嵌模式、所有內嵌資料來源的清單等等。
「 * 動作 * 」功能表可讓您在需要進行任何變更時、管理知識庫。
編輯知識庫
您可以變更某些設定來更新知識庫、也可以新增或移除資料來源。
每次您從知識庫新增、修改或移除資料來源時、都必須同步資料來源、以便將其重新索引至知識庫。同步是漸進式的、因此 Amazon bedrock 只會處理您的 FSX for ONTAP Volume 中自上次同步以來已新增、修改或刪除的物件。
-
使用其中一項登入工作負載工廠"主控台體驗"。
-
從「知識庫」清查頁面中、選取您要更新的知識庫。
-
選取
並選取 * 管理知識庫 * 。
此頁面會顯示發佈的狀態、資料來源的內嵌狀態、內嵌模式、所有內嵌資料來源的清單等等。
-
選取 * 動作 * 功能表、然後選取 * 編輯知識庫 * 。
-
在編輯知識庫頁面中,您可以變更知識庫名稱、描述、嵌入模型、聊天模型、功能啟用,選擇是自動或手動建立對話啟動器,以及包含知識庫的磁碟區所使用的快照策略。
如果您使用「手動」模式來啟動對話、也可以在此變更對話的開始者。
每次知識庫掃描、包括內嵌、成本。如果在建立知識庫之後啟用資料 guardrails 、則會再次掃描知識庫並產生成本。同樣地,如果您變更聊天模式, GenAI 也會重新掃描相關的資料來源(產生成本)。 -
變更後請選擇 * 儲存 * 。
利用快照保護知識庫
您可以拍攝及還原知識庫磁碟區的快照、以保護知識庫資料。您可以隨時從快照還原至舊版知識庫。
快照可以比備份更快、更有效率地儲存、並可讓您使用不同的保護原則來保護每個知識庫。以下是一些快照可能有用的案例:
-
意外資料遺失或毀損
-
從錯誤的資料擷取到知識庫中恢復
-
測試不同的資料來源或分塊策略、並在測試完成時快速還原
拍攝知識庫磁碟區的快照
您可以手動擷取知識庫磁碟區的快照、以儲存知識庫的狀態。
-
使用其中一項登入工作負載工廠"主控台體驗"。
-
從「知識庫」清查頁面中、選取您要保護的知識庫。
-
選取
並選取 * 管理知識庫 * 。
此頁面會顯示發佈的狀態、資料來源的內嵌狀態、內嵌模式、所有內嵌資料來源的清單等等。
-
選取 * 動作 * 功能表、然後選取 * 快照 > 建立新的快照 * 。
-
(可選)選擇 * 定義快照名稱 * 並輸入快照的自定義名稱。
定義自訂名稱可協助您在未來需要還原快照時,更有效地判斷快照的內容。
-
選擇* Create (建立)。
隨即建立知識庫的快照。
還原知識庫磁碟區的快照
您可以隨時還原知識庫磁碟區的手動或排程快照。
|
如果儲存在磁碟區上的資料庫毀損或已刪除、則無法使用泛用 AI 工作負載 UI 還原快照。因應措施是、您可以使用託管磁碟區的 ONTAP 叢集上的來還原快照 "CLI ONTAP"。 |
-
使用其中一項登入工作負載工廠"主控台體驗"。
-
從「知識庫」清查頁面中、選取您要還原的知識庫。
-
選取
並選取 * 管理知識庫 * 。
此頁面會顯示發佈的狀態、資料來源的內嵌狀態、內嵌模式、所有內嵌資料來源的清單等等。
-
選取 * 「動作」 * 功能表、然後選取 * 「快照」 > 「還原快照」 * 。
快照選擇對話方塊隨即出現、您可以在其中查看已為此知識庫建立的快照清單。
-
(可選)如果希望在恢復快照後繼續排程和目前執行的資料來源掃描、請取消選取 * 「恢復快照後暫停執行和排程掃描」選項。
此選項預設為啟用、可確保在知識庫處於部分還原狀態時不會進行掃描、或掃描不會以舊資料更新新還原的知識庫。
-
從清單中選取您要還原的快照。
-
選擇*還原*。
複製知識庫
您可以從知識庫快照建立新的知識庫。如果原始知識庫毀損或遺失,這項功能就很實用。
-
使用其中一項登入工作負載工廠"主控台體驗"。
-
從「知識庫」清查頁面中、選取您要還原的知識庫。
-
選取
並選取 * 管理知識庫 * 。
此頁面會顯示發佈的狀態、資料來源的內嵌狀態、內嵌模式、所有內嵌資料來源的清單等等。
-
選取 * 動作 * 功能表,然後選取 * 快照 > 複製知識庫 * 。
此時將出現 Clone (克隆)對話框。
-
或者,如果您想要在複製快照之後繼續排程及目前執行的資料來源掃描,請取消選取 * 在複製快照後暫停執行和排程掃描 * 選項。
此選項預設為啟用、可確保在知識庫處於部分還原狀態時不會進行掃描、或掃描不會以舊資料更新新還原的知識庫。
-
從清單中選取您要複製的快照。
-
選擇*繼續*。
-
輸入新知識庫的名稱。
-
為新知識庫選擇檔案系統 SVM 和 Volume 名稱。
-
選擇* Clone(克隆)*。
將其他資料來源新增至知識庫
您可以在知識庫中內嵌其他資料來源、以便將其他組織資料填入其中。
-
使用其中一項登入工作負載工廠"主控台體驗"。
-
從「知識庫」清查頁面中、選取您要新增資料來源的知識庫。
-
選取
並選取 * 新增資料來源 * 。
-
選擇要新增的資料來源類型:
-
新增 FSx for ONTAP 檔案系統(使用現有 FSx for ONTAP 磁碟區中的檔案)
-
新增檔案系統(使用來自通用 SMB 或 NFS 共享的檔案)
-
-
* 選取檔案系統 * :選取資料來源檔案所在的 ONTAP 檔案系統的 FSX ,然後選取 * 下一步 * 。
-
* 選取磁碟區 * :選取資料來源檔案所在的磁碟區、然後選取 * 下一步 * 。
選取使用 SMB 傳輸協定儲存的檔案時、您需要輸入 Active Directory 資訊、其中包括網域、 IP 位址、使用者名稱和密碼。
-
* 選取資料來源 * :根據您儲存檔案的位置選取資料來源位置。這可以是整個磁碟區、或只是磁碟區中的特定資料夾或子資料夾、然後選取 * 下一步 * 。
-
* 組態 * :設定資料來源如何從檔案中擷取資訊,以及其包含在掃描中的檔案:
-
* 定義資料來源 * :在 * 區塊策略 * 區段中,定義當資料來源與知識庫整合時, GenAI 引擎如何將資料來源內容分割成區塊。您可以選擇下列其中一個策略:
-
* 多重句子區塊 * :將資料來源中的資訊組織成句子定義的區塊。您可以選擇每個區塊中包含多少句話(最多 100 句)。
-
* 重疊區塊 * :將資料來源中的資訊組織成字元定義區塊、以重疊鄰近區塊。您可以選擇每個區塊的字元大小、以及每個區塊與相鄰區塊重疊的量。您可以設定 50 到 3000 個字元之間的區塊大小、以及介於 1 到 99% 之間的重疊百分比。
選擇高重疊百分比可大幅增加儲存需求、只需稍微改善擷取準確度。
-
-
* 檔案篩選 * :設定掃描中包含哪些檔案:
-
在「 * 檔案類型支援 * 」區段中,選擇要包含所有類型的檔案,或選擇要包含在資料來源掃描中的個別檔案類型。
如果您包含影像或 PDF 檔案,則 GenAI 的 BlueXP 工作負載工廠會剖析影像中的文字(包括 PDF 文件中的影像),這會產生較高的成本。
當包含影像的文字資料時,當掃描的文字資料從您的環境傳送至 AWS 時, GenAI 無法從影像中遮罩個人識別資訊( PII )。然而,一旦儲存資料, GenAI 資料庫就會隱藏所有 PII 。
-
您選擇在掃描中包含影像檔案,與知識庫聊天模式有關。如果您在掃描中包含影像檔案,則聊天模式必須支援影像。如果在此選取映像檔案類型,您就無法將知識庫切換至不支援映像檔案的聊天模式。 -
在 * 檔案修改時間篩選器 * 區段中,選擇根據檔案的修改時間來啟用或停用檔案的包含。如果啟用修改時間篩選,請從清單中選取日期範圍。
如果您根據修改日期範圍來包含檔案,只要日期範圍不滿足(檔案尚未在您指定的日期範圍內修改),檔案就會排除在定期掃描之外,而且資料來源也不會包含這些檔案。
-
-
在 * 權限感知 * 區段中,只有當您選取的資料來源位於使用 SMB 通訊協定的磁碟區上時,才能使用此區段,您可以啟用或停用權限感知回應:
-
* 已啟用 * :存取此知識庫的聊天機器人程式使用者只能從其存取的資料來源取得查詢回應。
-
* 停用 * :聊天機器人程式的使用者將會使用所有整合式資料來源的內容接收回應。
-
-
選取 * 新增 * 將此資料來源新增至您的知識庫。
-
選擇檔案系統:輸入資料來源檔案所在的檔案系統主機的 IP 位址或 FQDN,選擇網路共用的 NFS 協議,然後選擇*下一步*。
-
* 選取資料來源 * :根據您儲存檔案的位置選取資料來源位置。這可以是整個磁碟區、或只是磁碟區中的特定資料夾或子資料夾、然後選取 * 下一步 * 。
在某些情況下,您可能需要手動輸入 NFS 匯出名稱,然後選擇「擷取目錄」以顯示可用目錄。您可以選擇整個匯出,或僅選擇匯出中的特定資料夾。 -
* 組態 * :設定資料來源如何從檔案中擷取資訊,以及其包含在掃描中的檔案:
-
* 定義資料來源 * :在 * 區塊策略 * 區段中,定義當資料來源與知識庫整合時, GenAI 引擎如何將資料來源內容分割成區塊。您可以選擇下列其中一個策略:
-
* 多重句子區塊 * :將資料來源中的資訊組織成句子定義的區塊。您可以選擇每個區塊中包含多少句話(最多 100 句)。
-
* 重疊區塊 * :將資料來源中的資訊組織成字元定義區塊、以重疊鄰近區塊。您可以選擇每個區塊的字元大小、以及每個區塊與相鄰區塊重疊的量。您可以設定 50 到 3000 個字元之間的區塊大小、以及介於 1 到 99% 之間的重疊百分比。
選擇高重疊百分比可大幅增加儲存需求、只需稍微改善擷取準確度。
-
-
* 檔案篩選 * :設定掃描中包含哪些檔案:
-
在「 * 檔案類型支援 * 」區段中,選擇要包含所有類型的檔案,或選擇要包含在資料來源掃描中的個別檔案類型。
如果您包含影像或 PDF 檔案,則 GenAI 的 BlueXP 工作負載工廠會剖析影像中的文字(包括 PDF 文件中的影像),這會產生較高的成本。
當包含影像的文字資料時,當掃描的文字資料從您的環境傳送至 AWS 時, GenAI 無法從影像中遮罩個人識別資訊( PII )。然而,一旦儲存資料, GenAI 資料庫就會隱藏所有 PII 。
-
您選擇在掃描中包含影像檔案,與知識庫聊天模式有關。如果您在掃描中包含影像檔案,則聊天模式必須支援影像。如果在此選取映像檔案類型,您就無法將知識庫切換至不支援映像檔案的聊天模式。 -
在 * 檔案修改時間篩選器 * 區段中,選擇根據檔案的修改時間來啟用或停用檔案的包含。如果啟用修改時間篩選,請從清單中選取日期範圍。
如果您根據修改日期範圍來包含檔案,只要日期範圍不滿足(檔案尚未在您指定的日期範圍內修改),檔案就會排除在定期掃描之外,而且資料來源也不會包含這些檔案。
-
-
選擇*新增資料來源*將此資料來源新增至您的知識庫。
-
選擇檔案系統:
-
輸入資料來源檔案所在的檔案系統主機的 IP 位址或 FQDN。
-
為網路共享選擇 SMB 協定。
-
輸入 Active Directory 訊息,包括網域、IP 位址、使用者名稱和密碼。
-
選擇*下一步*。
-
-
* 選取資料來源 * :根據您儲存檔案的位置選取資料來源位置。這可以是整個磁碟區、或只是磁碟區中的特定資料夾或子資料夾、然後選取 * 下一步 * 。
在某些情況下,您可能需要手動輸入 SMB 共享名稱,然後選擇「檢索目錄」以顯示可用目錄。您可以選擇整個共享,或僅選擇共享中的特定資料夾。 -
* 組態 * :設定資料來源如何從檔案中擷取資訊,以及其包含在掃描中的檔案:
-
* 定義資料來源 * :在 * 區塊策略 * 區段中,定義當資料來源與知識庫整合時, GenAI 引擎如何將資料來源內容分割成區塊。您可以選擇下列其中一個策略:
-
* 多重句子區塊 * :將資料來源中的資訊組織成句子定義的區塊。您可以選擇每個區塊中包含多少句話(最多 100 句)。
-
* 重疊區塊 * :將資料來源中的資訊組織成字元定義區塊、以重疊鄰近區塊。您可以選擇每個區塊的字元大小、以及每個區塊與相鄰區塊重疊的量。您可以設定 50 到 3000 個字元之間的區塊大小、以及介於 1 到 99% 之間的重疊百分比。
選擇高重疊百分比可大幅增加儲存需求、只需稍微改善擷取準確度。
-
-
權限感知:啟用或停用權限感知回應:
-
* 已啟用 * :存取此知識庫的聊天機器人程式使用者只能從其存取的資料來源取得查詢回應。
-
* 停用 * :聊天機器人程式的使用者將會使用所有整合式資料來源的內容接收回應。
-
-
* 檔案篩選 * :設定掃描中包含哪些檔案:
-
在「 * 檔案類型支援 * 」區段中,選擇要包含所有類型的檔案,或選擇要包含在資料來源掃描中的個別檔案類型。
如果您包含影像或 PDF 檔案,則 GenAI 的 BlueXP 工作負載工廠會剖析影像中的文字(包括 PDF 文件中的影像),這會產生較高的成本。
當包含影像的文字資料時,當掃描的文字資料從您的環境傳送至 AWS 時, GenAI 無法從影像中遮罩個人識別資訊( PII )。然而,一旦儲存資料, GenAI 資料庫就會隱藏所有 PII 。
-
您選擇在掃描中包含影像檔案,與知識庫聊天模式有關。如果您在掃描中包含影像檔案,則聊天模式必須支援影像。如果在此選取映像檔案類型,您就無法將知識庫切換至不支援映像檔案的聊天模式。 -
在 * 檔案修改時間篩選器 * 區段中,選擇根據檔案的修改時間來啟用或停用檔案的包含。如果啟用修改時間篩選,請從清單中選取日期範圍。
如果您根據修改日期範圍來包含檔案,只要日期範圍不滿足(檔案尚未在您指定的日期範圍內修改),檔案就會排除在定期掃描之外,而且資料來源也不會包含這些檔案。
-
-
選擇*新增資料來源*將此資料來源新增至您的知識庫。
資料來源已整合至您的知識庫。
將資料來源與知識庫同步
資料來源會每天自動與相關知識庫同步一次、以便在聊天機器人程式中反映任何資料來源變更。如果您變更任何資料來源、而且想要立即同步處理資料、您可以執行隨需同步。
同步是漸進式的、所以 Amazon bedrock 只會處理資料來源中自上次同步以來已新增、修改或刪除的物件。
-
使用其中一項登入工作負載工廠"主控台體驗"。
-
從「知識庫」清查頁面中、選取您要同步的知識庫。
-
選取
並選取 * 管理知識庫 * 。
-
選取 * 動作 * 功能表、然後選取 * 立即掃描 * 。
您會看到一則訊息、指出正在掃描資料來源、以及掃描完成後的最後一則訊息。
知識庫會與附加的資料來源同步、任何作用中的聊天機器人程式都會從您的資料來源開始使用最新資訊。
暫停或繼續排程的同步處理
如果您想要暫停或恢復資料來源的下一次同步(掃描),您可以隨時進行。如果您要變更資料來源,而不想在變更期間進行同步處理,則可能需要暫停下一次排程的同步處理。
-
使用其中一項登入工作負載工廠"主控台體驗"。
-
從「知識庫與連接器」標籤中,選取您要暫停或恢復掃描的知識庫。
-
選取
並選取 * 管理知識庫 * 。
-
選取 * 動作 * 功能表,然後選取 * 掃描 > 暫停排程掃描 * 或 * 掃描 > 恢復排程掃描 * 。
您會看到訊息,表示下一次排程掃描已暫停或恢復。
建立知識庫之前、請先評估聊天模式
您可以在建立知識庫之前評估可用的基礎聊天模型、以便查看哪些模型最適合您的實作。由於各 AWS 地區的機型支援不盡相同、請參閱 "此 AWS 文件頁面" 、確認您可以在計畫部署知識庫的地區使用哪些機型。
|
只有在知識庫庫存頁面中沒有知識庫時、才能使用此功能。 |
-
使用其中一項登入工作負載工廠"主控台體驗"。
-
您可以在「知識庫」的庫存頁面上、選擇交談模式的選項、就在交談機器人的頁面右側。
-
從清單中選取聊天模式、然後在提示區域中輸入一組問題、以查看聊天機器人如何回應。
-
請嘗試多種模式、看看哪種模式最適合您的實作。
建立知識庫時、請使用該聊天模式。
解除發佈您的知識庫
當您發佈知識庫以將其與某個 chatbot 應用程式整合之後、如果您想要停用 chatbot 應用程式來存取知識庫、就可以將其解除發佈。
解除發佈知識庫會停止任何聊天應用程式的運作。可存取知識庫的唯一 API 端點會停用。
-
使用其中一項登入工作負載工廠"主控台體驗"。
-
從「知識庫」清查頁面中、選取您要解除發佈的知識庫。
-
選取
並選取 * 管理知識庫 * 。
此頁面會顯示發佈的狀態、資料來源的內嵌狀態、內嵌模式、以及所有內嵌資料來源的清單。
-
選取 * 動作 * 功能表、然後選取 * 解除發佈 * 。
知識庫已停用、無法再由 chatbot 應用程式存取。
刪除知識庫
如果您不再需要知識庫、可以將其刪除。當您刪除知識庫時,知識庫會從工作負載原廠移除,並刪除內含知識庫的磁碟區。任何使用知識庫的應用程式或聊天機器人程式都將停止運作。刪除知識庫是不可還原的。
刪除知識庫時、您也應該解除知識庫與任何與其相關的代理程式的關聯、以便完全刪除與知識庫相關的所有資源。
-
使用其中一項登入工作負載工廠"主控台體驗"。
-
從「知識庫」清查頁面中、選取您要刪除的知識庫。
-
選取
並選取 * 管理知識庫 * 。
-
選取 * 動作 * 功能表、然後選取 * 刪除知識庫 * 。
-
在刪除知識庫對話方塊中、確認您要刪除它、然後選取 * 刪除 * 。
知識庫會從工作負載工廠移除,並刪除其相關的磁碟區。