Skip to main content
日本語は機械翻訳による参考訳です。内容に矛盾や不一致があった場合には、英語の内容が優先されます。

生成AIナレッジベースの作成

共同作成者 netapp-mwallis

AIインフラを導入し、FSx for ONTAPデータストアからナレッジベースに統合するデータソースを特定したら、ワークロードファクトリを使用してナレッジベースを構築できます。このステップの一部として、AIの特性を定義し、会話のきっかけを作ります。

作業を進める前に、環境がナレッジベースのを満たしていることを確認し"要件"てください。

タスクの内容

ナレッジベースには、_パブリックモード_と_エンタープライズモード_という2つのデータ統合モダリティがあります。

パブリックモード

ナレッジベースは、組織のデータソースを統合しなくても使用できます。この場合、ナレッジベースに統合されたアプリケーションは、インターネット上で公開されている情報からのみ結果を提供します。これは_public mode_integrationと呼ばれます。

Enterpriseモード

ほとんどの場合、組織のデータソースをナレッジベースに統合する必要があります。これは、エンタープライズからの知識を提供するため、_Enterprise mode_integrationと呼ばれます。

組織のデータソースには、個人識別情報(PII)が含まれている場合があります。この機密情報を保護するために、ナレッジベースの作成および構成時に_data guardrails_を有効にすることができます。BlueXP  分類を利用したデータガードレールは、PIIを識別してマスクし、アクセスできず、取り出すことができないようにします。

メモ BlueXP  Workload Factory for生成AIでは、機密性の高い個人情報(SPii)はマスクされません。このタイプのデータの詳細については、を参照してください"機密性の高い個人データのタイプ"
メモ データガードレールはいつでも有効または無効にできます。データガードレールの有効化を切り替えると、Workload Factoryはナレッジベース全体をゼロからスキャンするため、コストがかかります。

ナレッジベースの作成と設定

ナレッジベースは、ナレッジベースの作成に使用するBedrock AIモデルや埋め込み形式などの特性を定義します。

手順
  1. いずれかを使用してワークロードファクトリにログインし"コンソールエクスペリエンス"ます。

  2. [AI Workloads]タイルで、*[Deploy & manage]*を選択します。

  3. [ナレッジベースとコネクタ]タブで、[新規作成]*ドロップダウンを選択し、 NetApp Bedrock用 生成AIナレッジベース*を選択します。

  4. [ナレッジベースの定義]ページで、ナレッジベースの設定を行います。

    1. 名前:ナレッジベースに使用する名前を入力します。

    2. 説明:ナレッジベースの詳細な説明を入力します。

    3. 埋め込みモデル:埋め込みモデルは、データがナレッジベースのベクトル埋め込みに変換される方法を定義します。Workload Factoryは次のモデルをサポートします。

      • Titan埋め込みG1 -テキスト

      • Titan埋め込みテキストv2

      • Titan Multimodal Embedding G1

      • 英語を埋め込む

      • 多言語を埋め込む

        Amazon Bedrockから埋め込みモデルを有効にしておく必要があります。

    4. チャットモデル: Amazon Bedrockに統合されているさまざまなチャットモデルから選択します。Amazon Bedrockからチャットモデルを有効にしておく必要があります。

    5. リランキング: リランキングを有効または無効にします。リランキングは、クエリ結果の関連性と品質を向上させるのに役立ちます。リランキングに使用する標準チャットモデルまたは専用のリランカーモデルを選択してください。リランカーモデルのオプションは、お住まいの地域で利用可能な場合のみ表示されます。

    6. データガードレール:データガードレールを有効にするか無効にするかを選択します。"BlueXP  分類を活用したデータガードレールの詳細"です。

      データガードレールを有効にするには、次の前提条件を満たす必要があります。

      メモ CSV、JSON、JSONP、Parquetなどの構造化データファイルを取り込む場合、データガードレール機能はサポートされません。
    7. 会話の開始:このナレッジベースを使用するチャットボットと対話するユーザーに表示される会話の開始プロンプトを最大4つ指定するかどうかを選択します。この設定を有効にすることをお勧めします。

      会話開始機能を有効にすると、デフォルトで「自動モード」が選択されます。「手動モード」は、ナレッジベースにデータソースを追加した後にのみ有効にできます。"ナレッジベースの設定を変更する方法について説明します。"です。

    8. * FSx for ONTAPファイルシステム*:新しいナレッジベースを定義すると、Workload factoryによって新しいAmazon FSx for NetApp ONTAPボリュームが作成されて格納されます。新しいボリュームを作成する既存のファイルシステム名とSVM(Storage VM)を選択します。

    9. * Snapshotポリシー*:ワークロード工場のストレージインベントリに定義されている既存のポリシーのリストからSnapshotポリシーを選択します。ナレッジベースの定期的なスナップショットは、選択したスナップショットポリシーに基づいて頻度で自動的に作成されます。

      必要なSnapshotポリシーが存在しない場合は "Snapshot ポリシーを作成します"、ボリュームを含むStorage VM上で実行できます。

  5. [ナレッジベースの作成]*を選択して、ナレッジベースをGenAIに追加します。

    ナレッジベースの作成中は、進行状況インジケータが表示されます。

    ナレッジベースを作成したら、新しいナレッジベースにデータソースを追加するか、データソースを追加せずにプロセスを終了するかを選択できます。[データソースの追加]*を選択し、ここで1つ以上のデータソースを追加することをお勧めします。

ナレッジベースへのデータソースの追加

1つまたは複数のデータソースを追加して、組織のデータをナレッジベースに入力できます。

タスクの内容

サポートされるデータソースの最大数は10です。

手順
  1. データ ソースの追加 を選択した後、追加するデータ ソースの種類を選択します。

    • FSx for ONTAP ファイルシステムを追加する (既存の FSx for ONTAP ボリュームのファイルを使用)

    • ファイルシステムを追加する(一般的な SMB または NFS 共有のファイルを使用)

FSx for ONTAP ファイルシステムを追加する
  1. ファイルシステムを選択:データソースファイルが存在するFSx for ONTAPファイルシステムを選択し、* Next *を選択します。

  2. ボリュームを選択:データソースファイルが格納されているボリュームを選択し、*[次へ]*を選択します。

    SMBプロトコルを使用して保存されているファイルを選択する場合は、ドメイン、IPアドレス、ユーザ名、パスワードなどのActive Directory情報を入力する必要があります。

  3. データソースを選択:ファイルを保存した場所に基づいてデータソースの場所を選択します。これは、ボリューム全体、またはボリューム内の特定のフォルダまたはサブフォルダにすることができ、* Next *を選択します。

  4. 設定:データソースがファイルから情報を取り込む方法と、スキャンに含めるファイルを設定します。

    • データソースの定義:*チャンク戦略*セクションで、データソースがナレッジベースと統合されている場合に、生成AIエンジンがデータソースのコンテンツをチャンクに分割する方法を定義します。次のいずれかの方法を選択できます。

      • Multi-sentence chunking:データソースの情報をセンテンス定義のチャンクに編成します。各チャンクを構成する文の数を選択できます(最大100 )。

      • オーバーラップベースのチャンク:データソースからの情報を文字定義のチャンクに編成し、隣接するチャンクとオーバーラップすることができます。各チャンクのサイズを文字単位で選択し、各チャンクが隣接するチャンクとどの程度重なるかを選択できます。チャンクサイズは50~3000文字、オーバーラップパーセンテージは1~99%の範囲で設定できます。

        メモ オーバーラップ率を高く設定すると、取得精度がわずかに向上するだけで、ストレージ要件が大幅に増加します。
    • ファイルフィルタリング:スキャンに含めるファイルを設定します。

      • [ファイルタイプのサポート]セクションで、すべてのタイプのファイルを含めるか、データソーススキャンに含めるファイルタイプを個別に選択します。

        画像またはPDFファイルを含めると、BlueXP  Workload Factory for生成AIは画像内のテキスト(PDFドキュメント内の画像を含む)を解析するため、コストが高くなります。

      画像のテキストデータを含めると、スキャンされたテキストデータが環境からAWSに送信されるため、生成AIは画像の個人識別情報(PII)をマスクできません。ただし、データが保存されると、すべてのPIIは 生成AIデータベースでマスクされます。

    メモ 画像ファイルをスキャンに含めるかどうかは、ナレッジベースチャットモデルに関連しています。画像ファイルをスキャンに含める場合は、チャットモデルで画像がサポートされている必要があります。ここで画像ファイルタイプが選択されている場合、画像ファイルをサポートしていないチャットモデルにナレッジベースを切り替えることはできません。
    • [ファイル変更時刻フィルタ]*セクションで、ファイルの変更時刻に基づいてファイルを含めるかどうかを選択します。変更時刻のフィルタリングを有効にする場合は、リストから日付範囲を選択します。

      メモ 変更日の範囲に基づいてファイルをインクルードした場合、日付範囲が満たされない(指定した日付範囲内でファイルが変更されていない)とすぐに、ファイルは定期スキャンから除外され、データソースにはこれらのファイルは含まれません。
  5. 権限対応*セクション(選択したデータソースがSMBプロトコルを使用するボリューム上にある場合にのみ表示)で、権限対応の応答を有効または無効にできます。

    • 有効:このナレッジベースにアクセスするチャットボットのユーザーは、アクセス権を持つデータソースからのクエリに対する応答のみを取得します。

    • 無効:チャットボットのユーザーは、統合されたすべてのデータソースからコンテンツを使用して応答を受信します。

  6. [追加]*を選択して、このデータソースをナレッジベースに追加します。

汎用NFSファイルシステムを追加する
  1. ファイル システムを選択: データ ソース ファイルが存在するファイル システム ホストの IP アドレスまたは FQDN を入力し、ネットワーク共有の NFS プロトコルを選択して、次へ を選択します。

  2. データソースを選択:ファイルを保存した場所に基づいてデータソースの場所を選択します。これは、ボリューム全体、またはボリューム内の特定のフォルダまたはサブフォルダにすることができ、* Next *を選択します。

    メモ 場合によっては、NFSエクスポート名を手動で入力し、「ディレクトリを取得」を選択して利用可能なディレクトリを表示する必要があります。エクスポート全体を選択するか、エクスポートから特定のフォルダのみを選択するかを選択できます。
  3. 設定:データソースがファイルから情報を取り込む方法と、スキャンに含めるファイルを設定します。

    • データソースの定義:*チャンク戦略*セクションで、データソースがナレッジベースと統合されている場合に、生成AIエンジンがデータソースのコンテンツをチャンクに分割する方法を定義します。次のいずれかの方法を選択できます。

      • Multi-sentence chunking:データソースの情報をセンテンス定義のチャンクに編成します。各チャンクを構成する文の数を選択できます(最大100 )。

      • オーバーラップベースのチャンク:データソースからの情報を文字定義のチャンクに編成し、隣接するチャンクとオーバーラップすることができます。各チャンクのサイズを文字単位で選択し、各チャンクが隣接するチャンクとどの程度重なるかを選択できます。チャンクサイズは50~3000文字、オーバーラップパーセンテージは1~99%の範囲で設定できます。

        メモ オーバーラップ率を高く設定すると、取得精度がわずかに向上するだけで、ストレージ要件が大幅に増加します。
    • ファイルフィルタリング:スキャンに含めるファイルを設定します。

      • [ファイルタイプのサポート]セクションで、すべてのタイプのファイルを含めるか、データソーススキャンに含めるファイルタイプを個別に選択します。

        画像またはPDFファイルを含めると、BlueXP  Workload Factory for生成AIは画像内のテキスト(PDFドキュメント内の画像を含む)を解析するため、コストが高くなります。

      画像のテキストデータを含めると、スキャンされたテキストデータが環境からAWSに送信されるため、生成AIは画像の個人識別情報(PII)をマスクできません。ただし、データが保存されると、すべてのPIIは 生成AIデータベースでマスクされます。

    メモ 画像ファイルをスキャンに含めるかどうかは、ナレッジベースチャットモデルに関連しています。画像ファイルをスキャンに含める場合は、チャットモデルで画像がサポートされている必要があります。ここで画像ファイルタイプが選択されている場合、画像ファイルをサポートしていないチャットモデルにナレッジベースを切り替えることはできません。
    • [ファイル変更時刻フィルタ]*セクションで、ファイルの変更時刻に基づいてファイルを含めるかどうかを選択します。変更時刻のフィルタリングを有効にする場合は、リストから日付範囲を選択します。

      メモ 変更日の範囲に基づいてファイルをインクルードした場合、日付範囲が満たされない(指定した日付範囲内でファイルが変更されていない)とすぐに、ファイルは定期スキャンから除外され、データソースにはこれらのファイルは含まれません。
  4. このデータ ソースをナレッジ ベースに追加するには、[データ ソースの追加] を選択します。

汎用SMBファイルシステムを追加する
  1. ファイルシステムを選択:

    1. データ ソース ファイルが存在するファイル システム ホストの IP アドレスまたは FQDN を入力します。

    2. ネットワーク共有の SMB プロトコルを選択します。

    3. ドメイン、IP アドレス、ユーザー名、パスワードを含む Active Directory 情報を入力します。

    4. 「 * 次へ * 」を選択します。

  2. データソースを選択:ファイルを保存した場所に基づいてデータソースの場所を選択します。これは、ボリューム全体、またはボリューム内の特定のフォルダまたはサブフォルダにすることができ、* Next *を選択します。

    メモ 場合によっては、SMB共有名を手動で入力し、「ディレクトリの取得」を選択して利用可能なディレクトリを表示する必要があります。共有全体を選択するか、共有内の特定のフォルダのみを選択するかを選択できます。
  3. 設定:データソースがファイルから情報を取り込む方法と、スキャンに含めるファイルを設定します。

    • データソースの定義:*チャンク戦略*セクションで、データソースがナレッジベースと統合されている場合に、生成AIエンジンがデータソースのコンテンツをチャンクに分割する方法を定義します。次のいずれかの方法を選択できます。

      • Multi-sentence chunking:データソースの情報をセンテンス定義のチャンクに編成します。各チャンクを構成する文の数を選択できます(最大100 )。

      • オーバーラップベースのチャンク:データソースからの情報を文字定義のチャンクに編成し、隣接するチャンクとオーバーラップすることができます。各チャンクのサイズを文字単位で選択し、各チャンクが隣接するチャンクとどの程度重なるかを選択できます。チャンクサイズは50~3000文字、オーバーラップパーセンテージは1~99%の範囲で設定できます。

        メモ オーバーラップ率を高く設定すると、取得精度がわずかに向上するだけで、ストレージ要件が大幅に増加します。
    • 権限認識: 権限認識応答を有効または無効にします。

      • 有効:このナレッジベースにアクセスするチャットボットのユーザーは、アクセス権を持つデータソースからのクエリに対する応答のみを取得します。

      • 無効:チャットボットのユーザーは、統合されたすべてのデータソースからコンテンツを使用して応答を受信します。

    • ファイルフィルタリング:スキャンに含めるファイルを設定します。

      • [ファイルタイプのサポート]セクションで、すべてのタイプのファイルを含めるか、データソーススキャンに含めるファイルタイプを個別に選択します。

        画像またはPDFファイルを含めると、BlueXP  Workload Factory for生成AIは画像内のテキスト(PDFドキュメント内の画像を含む)を解析するため、コストが高くなります。

      画像のテキストデータを含めると、スキャンされたテキストデータが環境からAWSに送信されるため、生成AIは画像の個人識別情報(PII)をマスクできません。ただし、データが保存されると、すべてのPIIは 生成AIデータベースでマスクされます。

    メモ 画像ファイルをスキャンに含めるかどうかは、ナレッジベースチャットモデルに関連しています。画像ファイルをスキャンに含める場合は、チャットモデルで画像がサポートされている必要があります。ここで画像ファイルタイプが選択されている場合、画像ファイルをサポートしていないチャットモデルにナレッジベースを切り替えることはできません。
    • [ファイル変更時刻フィルタ]*セクションで、ファイルの変更時刻に基づいてファイルを含めるかどうかを選択します。変更時刻のフィルタリングを有効にする場合は、リストから日付範囲を選択します。

      メモ 変更日の範囲に基づいてファイルをインクルードした場合、日付範囲が満たされない(指定した日付範囲内でファイルが変更されていない)とすぐに、ファイルは定期スキャンから除外され、データソースにはこれらのファイルは含まれません。
  4. このデータ ソースをナレッジ ベースに追加するには、[データ ソースの追加] を選択します。

結果

データソースがナレッジベースに埋め込まれ始めます。データソースが完全に埋め込まれると、ステータスが「埋め込み」から「埋め込み」に変わります。

単一のデータソースをナレッジベースに追加したら、チャットボットシミュレータウィンドウでローカルにテストし、必要な変更を加えてから、ユーザーがチャットボットを使用できるようにします。同じ手順に従って、ナレッジベースにデータソースを追加することもできます。