Skip to main content
本繁體中文版使用機器翻譯,譯文僅供參考,若與英文版本牴觸,應以英文版本為準。

建立 GenAI 知識庫

貢獻者 netapp-mwallis

在您部署 AI 基礎架構,並從適用於 ONTAP 資料存放區的 FSX 中找出要整合到知識庫的資料來源之後,您就可以使用工作負載工廠來建置知識庫。在本步驟中、您也將定義 AI 特性、並建立對話前人。

請確保您的環境符合 "需求"for 知識庫,然後再繼續。

關於這項工作

知識庫有兩種資料整合模式: _ 公開模式 _ 和 _ 企業模式 _ 。

公共模式

您可以使用知識庫、而無需整合組織的資料來源。在這種情況下、與知識庫整合的應用程式只會提供來自網際網路上公開資訊的結果。這稱為 _public 模式 _ 整合。

企業模式

在大多數情況下、您會想要將組織的資料來源整合到知識庫中。這稱為 _ 企業模式 _ 整合、因為它能提供企業的知識。

貴組織的資料來源可能包含個人識別資訊( PII )。為了保護這項敏感資訊、您可以在建立和設定知識庫時啟用 _data guardardrails 。由 BlueXP  分類技術支援的資料欄可識別及遮罩 PII 、使其無法存取且無法擷取。

註 GenAI 的 BlueXP  工作負載工廠不會遮罩敏感的個人資訊( SPii )。如需此類型資料的詳細資訊,請參閱"敏感個人資料的類型"
註 資料欄可隨時啟用或停用。如果您切換資料防護功能,工作負載工廠會從頭開始掃描整個知識庫,這會產生成本。

建立及設定知識庫

知識庫定義了您想要用來建立知識庫的特性、例如基礎 AI 模型和內嵌格式。

步驟
  1. 使用其中一項登入工作負載工廠"主控台體驗"

  2. 在 AI 工作負載方塊中、選取 * 部署與管理 * 。

  3. 從「知識庫與連接器」標籤中,選取「 * 建立新 * 」下拉式清單,然後選擇 * NetApp GenAI 知識庫作為基礎 * 。

  4. 在「定義知識庫」頁面上、設定知識庫設定:

    1. * 名稱 * :輸入您要用於知識庫的名稱。

    2. * 說明 * :輸入知識庫的詳細說明。

    3. * 內嵌模型 * :內嵌模型定義如何將資料轉換成知識庫的向量內嵌。工作負載工廠支援下列機型:

      • Titan 嵌入式 G1 - 文字

      • Titan 內嵌文字 v2

      • Titan Multic形式 嵌入式 G1

      • 內嵌英文

      • 內嵌多國語言

        請注意、您必須已啟用 Amazon bedrock 的內嵌模型。

    4. * 聊天模式 * :從 Amazon bedrock 整合的各種聊天模式中選擇。請注意、您必須已啟用 Amazon Bedrock 的聊天模式。

    5. 重新排名:啟用或停用重新排名功能,此功能可提高查詢結果的相關性和品質。您可以選擇標準聊天模型或專用的重新排名模型進行重新排名。只有您所在地區支援的重新排名模型選項才會顯示。

    6. * 資料欄 * :選擇是否要啟用或停用資料欄。"瞭解採用 BlueXP  分類技術的資料欄"

      必須符合下列先決條件,才能啟用資料欄。

      • 必須有服務帳戶才能與 BlueXP  分類通訊。您必須在 BlueXP  租賃帳戶上擁有 _ 組織管理員 _ 角色、才能建立服務帳戶。擁有組織管理員角色的成員可以在 BlueXP  中完成所有動作。"瞭解如何在 BlueXP  中新增角色至成員"

      • AI 引擎必須能夠存取"BlueXP  API 端點"

      • 您需要執行下列步驟、如所述"BlueXP 分類文件"

        1. 建立 BlueXP Connector

        2. 確保您的環境符合先決條件

        3. 部署 BlueXP 分類

      註 擷取 CSV , JSON , JSONP 或 Parquet 等結構化資料檔案時,不支援資料欄功能。
    7. * 對話開場白 * :選擇是否要提供最多四個對話啟動器提示、讓與使用此知識庫的聊天機器人程式互動的使用者看到。建議您啟用此設定。

      如果您啟動交談啟動器、預設會選取「自動模式」。只有在您將資料來源新增至知識庫之後、才能啟用「手動模式」。"瞭解如何修改知識庫設定"

    8. * 適用於 ONTAP 檔案系統 * 的 FSX :當您定義新的知識庫時,工作負載工廠會為 NetApp ONTAP Volume 建立新的 Amazon FSX 以儲存它。選擇要在其中建立新磁碟區的現有檔案系統名稱和 SVM (也稱為儲存 VM )。

    9. * Snapshot 原則 * :從工作負載原廠儲存設備庫存中定義的現有原則清單中選擇快照原則。知識庫的週期性快照將根據您選擇的快照原則、以頻率自動建立。

      如果您需要的快照原則不存在、您可以 "建立快照原則"在包含該 Volume 的儲存 VM 上執行。

  5. 選取 * 建立知識庫 * 、將知識庫新增至 GenAI 。

    建立知識庫時會出現進度指標。

    建立知識庫之後、您可以選擇將資料來源新增至新的知識庫、或在不新增資料來源的情況下結束程序。建議您選擇 * 新增資料來源 * 、然後立即新增一或多個資料來源。

將資料來源新增至知識庫

您可以新增一或多個資料來源、以便將組織的資料填入知識庫。

關於這項工作

支援的資料來源數量上限為 10 個。

步驟
  1. 選擇*新增資料來源*後,選擇要新增的資料來源類型:

    • 新增 FSx for ONTAP 檔案系統(使用現有 FSx for ONTAP 磁碟區中的檔案)

    • 新增檔案系統(使用來自通用 SMB 或 NFS 共享的檔案)

新增 FSx for ONTAP 檔案系統
  1. * 選取檔案系統 * :選取資料來源檔案所在的 ONTAP 檔案系統的 FSX ,然後選取 * 下一步 * 。

  2. * 選取磁碟區 * :選取資料來源檔案所在的磁碟區、然後選取 * 下一步 * 。

    選取使用 SMB 傳輸協定儲存的檔案時、您需要輸入 Active Directory 資訊、其中包括網域、 IP 位址、使用者名稱和密碼。

  3. * 選取資料來源 * :根據您儲存檔案的位置選取資料來源位置。這可以是整個磁碟區、或只是磁碟區中的特定資料夾或子資料夾、然後選取 * 下一步 * 。

  4. * 組態 * :設定資料來源如何從檔案中擷取資訊,以及其包含在掃描中的檔案:

    • * 定義資料來源 * :在 * 區塊策略 * 區段中,定義當資料來源與知識庫整合時, GenAI 引擎如何將資料來源內容分割成區塊。您可以選擇下列其中一個策略:

      • * 多重句子區塊 * :將資料來源中的資訊組織成句子定義的區塊。您可以選擇每個區塊中包含多少句話(最多 100 句)。

      • * 重疊區塊 * :將資料來源中的資訊組織成字元定義區塊、以重疊鄰近區塊。您可以選擇每個區塊的字元大小、以及每個區塊與相鄰區塊重疊的量。您可以設定 50 到 3000 個字元之間的區塊大小、以及介於 1 到 99% 之間的重疊百分比。

        註 選擇高重疊百分比可大幅增加儲存需求、只需稍微改善擷取準確度。
    • * 檔案篩選 * :設定掃描中包含哪些檔案:

      • 在「 * 檔案類型支援 * 」區段中,選擇要包含所有類型的檔案,或選擇要包含在資料來源掃描中的個別檔案類型。

        如果您包含影像或 PDF 檔案,則 GenAI 的 BlueXP  工作負載工廠會剖析影像中的文字(包括 PDF 文件中的影像),這會產生較高的成本。

      當包含影像的文字資料時,當掃描的文字資料從您的環境傳送至 AWS 時, GenAI 無法從影像中遮罩個人識別資訊( PII )。然而,一旦儲存資料, GenAI 資料庫就會隱藏所有 PII 。

    註 您選擇在掃描中包含影像檔案,與知識庫聊天模式有關。如果您在掃描中包含影像檔案,則聊天模式必須支援影像。如果在此選取映像檔案類型,您就無法將知識庫切換至不支援映像檔案的聊天模式。
    • 在 * 檔案修改時間篩選器 * 區段中,選擇根據檔案的修改時間來啟用或停用檔案的包含。如果啟用修改時間篩選,請從清單中選取日期範圍。

      註 如果您根據修改日期範圍來包含檔案,只要日期範圍不滿足(檔案尚未在您指定的日期範圍內修改),檔案就會排除在定期掃描之外,而且資料來源也不會包含這些檔案。
  5. 在 * 權限感知 * 區段中,只有當您選取的資料來源位於使用 SMB 通訊協定的磁碟區上時,才能使用此區段,您可以啟用或停用權限感知回應:

    • * 已啟用 * :存取此知識庫的聊天機器人程式使用者只能從其存取的資料來源取得查詢回應。

    • * 停用 * :聊天機器人程式的使用者將會使用所有整合式資料來源的內容接收回應。

  6. 選取 * 新增 * 將此資料來源新增至您的知識庫。

新增通用 NFS 檔案系統
  1. 選擇檔案系統:輸入資料來源檔案所在的檔案系統主機的 IP 位址或 FQDN,選擇網路共用的 NFS 協議,然後選擇*下一步*。

  2. * 選取資料來源 * :根據您儲存檔案的位置選取資料來源位置。這可以是整個磁碟區、或只是磁碟區中的特定資料夾或子資料夾、然後選取 * 下一步 * 。

    註 在某些情況下,您可能需要手動輸入 NFS 匯出名稱,然後選擇「擷取目錄」以顯示可用目錄。您可以選擇整個匯出,或僅選擇匯出中的特定資料夾。
  3. * 組態 * :設定資料來源如何從檔案中擷取資訊,以及其包含在掃描中的檔案:

    • * 定義資料來源 * :在 * 區塊策略 * 區段中,定義當資料來源與知識庫整合時, GenAI 引擎如何將資料來源內容分割成區塊。您可以選擇下列其中一個策略:

      • * 多重句子區塊 * :將資料來源中的資訊組織成句子定義的區塊。您可以選擇每個區塊中包含多少句話(最多 100 句)。

      • * 重疊區塊 * :將資料來源中的資訊組織成字元定義區塊、以重疊鄰近區塊。您可以選擇每個區塊的字元大小、以及每個區塊與相鄰區塊重疊的量。您可以設定 50 到 3000 個字元之間的區塊大小、以及介於 1 到 99% 之間的重疊百分比。

        註 選擇高重疊百分比可大幅增加儲存需求、只需稍微改善擷取準確度。
    • * 檔案篩選 * :設定掃描中包含哪些檔案:

      • 在「 * 檔案類型支援 * 」區段中,選擇要包含所有類型的檔案,或選擇要包含在資料來源掃描中的個別檔案類型。

        如果您包含影像或 PDF 檔案,則 GenAI 的 BlueXP  工作負載工廠會剖析影像中的文字(包括 PDF 文件中的影像),這會產生較高的成本。

      當包含影像的文字資料時,當掃描的文字資料從您的環境傳送至 AWS 時, GenAI 無法從影像中遮罩個人識別資訊( PII )。然而,一旦儲存資料, GenAI 資料庫就會隱藏所有 PII 。

    註 您選擇在掃描中包含影像檔案,與知識庫聊天模式有關。如果您在掃描中包含影像檔案,則聊天模式必須支援影像。如果在此選取映像檔案類型,您就無法將知識庫切換至不支援映像檔案的聊天模式。
    • 在 * 檔案修改時間篩選器 * 區段中,選擇根據檔案的修改時間來啟用或停用檔案的包含。如果啟用修改時間篩選,請從清單中選取日期範圍。

      註 如果您根據修改日期範圍來包含檔案,只要日期範圍不滿足(檔案尚未在您指定的日期範圍內修改),檔案就會排除在定期掃描之外,而且資料來源也不會包含這些檔案。
  4. 選擇*新增資料來源*將此資料來源新增至您的知識庫。

新增通用 SMB 檔案系統
  1. 選擇檔案系統

    1. 輸入資料來源檔案所在的檔案系統主機的 IP 位址或 FQDN。

    2. 為網路共享選擇 SMB 協定。

    3. 輸入 Active Directory 訊息,包括網域、IP 位址、使用者名稱和密碼。

    4. 選擇*下一步*。

  2. * 選取資料來源 * :根據您儲存檔案的位置選取資料來源位置。這可以是整個磁碟區、或只是磁碟區中的特定資料夾或子資料夾、然後選取 * 下一步 * 。

    註 在某些情況下,您可能需要手動輸入 SMB 共享名稱,然後選擇「檢索目錄」以顯示可用目錄。您可以選擇整個共享,或僅選擇共享中的特定資料夾。
  3. * 組態 * :設定資料來源如何從檔案中擷取資訊,以及其包含在掃描中的檔案:

    • * 定義資料來源 * :在 * 區塊策略 * 區段中,定義當資料來源與知識庫整合時, GenAI 引擎如何將資料來源內容分割成區塊。您可以選擇下列其中一個策略:

      • * 多重句子區塊 * :將資料來源中的資訊組織成句子定義的區塊。您可以選擇每個區塊中包含多少句話(最多 100 句)。

      • * 重疊區塊 * :將資料來源中的資訊組織成字元定義區塊、以重疊鄰近區塊。您可以選擇每個區塊的字元大小、以及每個區塊與相鄰區塊重疊的量。您可以設定 50 到 3000 個字元之間的區塊大小、以及介於 1 到 99% 之間的重疊百分比。

        註 選擇高重疊百分比可大幅增加儲存需求、只需稍微改善擷取準確度。
    • 權限感知:啟用或停用權限感知回應:

      • * 已啟用 * :存取此知識庫的聊天機器人程式使用者只能從其存取的資料來源取得查詢回應。

      • * 停用 * :聊天機器人程式的使用者將會使用所有整合式資料來源的內容接收回應。

    • * 檔案篩選 * :設定掃描中包含哪些檔案:

      • 在「 * 檔案類型支援 * 」區段中,選擇要包含所有類型的檔案,或選擇要包含在資料來源掃描中的個別檔案類型。

        如果您包含影像或 PDF 檔案,則 GenAI 的 BlueXP  工作負載工廠會剖析影像中的文字(包括 PDF 文件中的影像),這會產生較高的成本。

      當包含影像的文字資料時,當掃描的文字資料從您的環境傳送至 AWS 時, GenAI 無法從影像中遮罩個人識別資訊( PII )。然而,一旦儲存資料, GenAI 資料庫就會隱藏所有 PII 。

    註 您選擇在掃描中包含影像檔案,與知識庫聊天模式有關。如果您在掃描中包含影像檔案,則聊天模式必須支援影像。如果在此選取映像檔案類型,您就無法將知識庫切換至不支援映像檔案的聊天模式。
    • 在 * 檔案修改時間篩選器 * 區段中,選擇根據檔案的修改時間來啟用或停用檔案的包含。如果啟用修改時間篩選,請從清單中選取日期範圍。

      註 如果您根據修改日期範圍來包含檔案,只要日期範圍不滿足(檔案尚未在您指定的日期範圍內修改),檔案就會排除在定期掃描之外,而且資料來源也不會包含這些檔案。
  4. 選擇*新增資料來源*將此資料來源新增至您的知識庫。

結果

資料來源開始內嵌到您的知識庫中。資料來源完全內嵌時、狀態會從「內嵌」變更為「內嵌」。

將單一資料來源新增至知識庫之後、您可以在聊天機器人程式模擬器視窗中進行本機測試、並在將聊天機器人程式提供給使用者之前進行任何必要的變更。您也可以依照相同步驟、將其他資料來源新增至知識庫。