生成AIナレッジベースの作成
AIインフラを導入し、FSx for ONTAPデータストアからナレッジベースに統合するデータソースを特定したら、ワークロードファクトリを使用してナレッジベースを構築できます。このステップの一部として、AIの特性を定義し、会話のきっかけを作ります。
作業を進める前に、環境がナレッジベースのを満たしていることを確認し"要件"てください。
ナレッジベースには、_パブリックモード_と_エンタープライズモード_という2つのデータ統合モダリティがあります。
- パブリックモード
-
ナレッジベースは、組織のデータソースを統合しなくても使用できます。この場合、ナレッジベースに統合されたアプリケーションは、インターネット上で公開されている情報からのみ結果を提供します。これは_public mode_integrationと呼ばれます。
- Enterpriseモード
-
ほとんどの場合、組織のデータソースをナレッジベースに統合する必要があります。これは、エンタープライズからの知識を提供するため、_Enterprise mode_integrationと呼ばれます。
組織のデータソースには、個人識別情報(PII)が含まれている場合があります。この機密情報を保護するために、ナレッジベースの作成および構成時に_data guardrails_を有効にすることができます。BlueXP 分類を利用したデータガードレールは、PIIを識別してマスクし、アクセスできず、取り出すことができないようにします。
BlueXP Workload Factory for生成AIでは、機密性の高い個人情報(SPii)はマスクされません。このタイプのデータの詳細については、を参照してください"機密性の高い個人データのタイプ"。 データガードレールはいつでも有効または無効にできます。データガードレールの有効化を切り替えると、Workload Factoryはナレッジベース全体をゼロからスキャンするため、コストがかかります。
ナレッジベースの作成と設定
ナレッジベースは、ナレッジベースの作成に使用するBedrock AIモデルや埋め込み形式などの特性を定義します。
-
いずれかを使用してワークロードファクトリにログインし"コンソールエクスペリエンス"ます。
-
[AI Workloads]タイルで、*[Deploy & manage]*を選択します。
-
[ナレッジベースとコネクタ]タブで、[新規作成]*ドロップダウンを選択し、 NetApp Bedrock用 生成AIナレッジベース*を選択します。
-
[ナレッジベースの定義]ページで、ナレッジベースの設定を行います。
-
名前:ナレッジベースに使用する名前を入力します。
-
説明:ナレッジベースの詳細な説明を入力します。
-
埋め込みモデル:埋め込みモデルは、データがナレッジベースのベクトル埋め込みに変換される方法を定義します。Workload Factoryは次のモデルをサポートします。
-
Titan埋め込みG1 -テキスト
-
Titan埋め込みテキストv2
-
Titan Multimodal Embedding G1
-
英語を埋め込む
-
多言語を埋め込む
Amazon Bedrockから埋め込みモデルを有効にしておく必要があります。
-
-
チャットモデル: Amazon Bedrockに統合されているさまざまなチャットモデルから選択します。Amazon Bedrockからチャットモデルを有効にしておく必要があります。
-
データガードレール:データガードレールを有効にするか無効にするかを選択します。"BlueXP 分類を活用したデータガードレールの詳細"です。
データガードレールを有効にするには、次の前提条件を満たす必要があります。
-
BlueXP 分類と通信するには、サービスアカウントが必要です。サービスアカウントを作成するには、BlueXP テナンシーアカウントで_Organization admin_roleが必要です。組織管理者ロールを持つメンバーは、BlueXP ですべてのアクションを実行できます。"BlueXP でメンバーにロールを追加する方法を確認する"
-
AIエンジンがにアクセスできる必要があります"BlueXP APIエンドポイント"。
-
で説明されているように、次の手順を実行する必要があり"BlueXPの分類に関するドキュメント"ます。
-
BlueXPコネクタの作成
-
環境が前提条件を満たしていることを確認する
-
BlueXP分類を導入します
-
CSV、JSON、JSONP、Parquetなどの構造化データファイルを取り込む場合、データガードレール機能はサポートされません。 -
-
会話の開始:このナレッジベースを使用するチャットボットと対話するユーザーに表示される会話の開始プロンプトを最大4つ指定するかどうかを選択します。この設定を有効にすることをお勧めします。
会話開始機能を有効にすると、デフォルトで「自動モード」が選択されます。「手動モード」は、ナレッジベースにデータソースを追加した後にのみ有効にできます。"ナレッジベースの設定を変更する方法について説明します。"です。
-
* FSx for ONTAPファイルシステム*:新しいナレッジベースを定義すると、Workload factoryによって新しいAmazon FSx for NetApp ONTAPボリュームが作成されて格納されます。新しいボリュームを作成する既存のファイルシステム名とSVM(Storage VM)を選択します。
-
* Snapshotポリシー*:ワークロード工場のストレージインベントリに定義されている既存のポリシーのリストからSnapshotポリシーを選択します。ナレッジベースの定期的なスナップショットは、選択したスナップショットポリシーに基づいて頻度で自動的に作成されます。
必要なSnapshotポリシーが存在しない場合は "Snapshot ポリシーを作成します"、ボリュームを含むStorage VM上で実行できます。
-
-
[ナレッジベースの作成]*を選択して、ナレッジベースをGenAIに追加します。
ナレッジベースの作成中は、進行状況インジケータが表示されます。
ナレッジベースを作成したら、新しいナレッジベースにデータソースを追加するか、データソースを追加せずにプロセスを終了するかを選択できます。[データソースの追加]*を選択し、ここで1つ以上のデータソースを追加することをお勧めします。
ナレッジベースへのデータソースの追加
1つまたは複数のデータソースを追加して、組織のデータをナレッジベースに入力できます。
サポートされるデータソースの最大数は10です。
-
を選択すると、[ファイルシステムの選択]*ページが表示されます。
-
ファイルシステムを選択:データソースファイルが存在するFSx for ONTAPファイルシステムを選択し、* Next *を選択します。
-
ボリュームを選択:データソースファイルが格納されているボリュームを選択し、*[次へ]*を選択します。
SMBプロトコルを使用して保存されているファイルを選択する場合は、ドメイン、IPアドレス、ユーザ名、パスワードなどのActive Directory情報を入力する必要があります。
-
データソースを選択:ファイルを保存した場所に基づいてデータソースの場所を選択します。これは、ボリューム全体、またはボリューム内の特定のフォルダまたはサブフォルダにすることができ、* Next *を選択します。
-
設定:データソースがファイルから情報を取り込む方法と、スキャンに含めるファイルを設定します。
-
データソースの定義:*チャンク戦略*セクションで、データソースがナレッジベースと統合されている場合に、生成AIエンジンがデータソースのコンテンツをチャンクに分割する方法を定義します。次のいずれかの方法を選択できます。
-
Multi-sentence chunking:データソースの情報をセンテンス定義のチャンクに編成します。各チャンクを構成する文の数を選択できます(最大100 )。
-
オーバーラップベースのチャンク:データソースからの情報を文字定義のチャンクに編成し、隣接するチャンクとオーバーラップすることができます。各チャンクのサイズを文字単位で選択し、各チャンクが隣接するチャンクとどの程度重なるかを選択できます。チャンクサイズは50~3000文字、オーバーラップパーセンテージは1~99%の範囲で設定できます。
オーバーラップ率を高く設定すると、取得精度がわずかに向上するだけで、ストレージ要件が大幅に増加します。
-
-
ファイルフィルタリング:スキャンに含めるファイルを設定します。
-
[ファイルタイプのサポート]セクションで、すべてのタイプのファイルを含めるか、データソーススキャンに含めるファイルタイプを個別に選択します。
画像またはPDFファイルを含めると、BlueXP Workload Factory for生成AIは画像内のテキスト(PDFドキュメント内の画像を含む)を解析するため、コストが高くなります。
画像のテキストデータを含めると、スキャンされたテキストデータが環境からAWSに送信されるため、生成AIは画像の個人識別情報(PII)をマスクできません。ただし、データが保存されると、すべてのPIIは 生成AIデータベースでマスクされます。
-
画像ファイルをスキャンに含めるかどうかは、ナレッジベースチャットモデルに関連しています。画像ファイルをスキャンに含める場合は、チャットモデルで画像がサポートされている必要があります。ここで画像ファイルタイプが選択されている場合、画像ファイルをサポートしていないチャットモデルにナレッジベースを切り替えることはできません。 -
[ファイル変更時刻フィルタ]*セクションで、ファイルの変更時刻に基づいてファイルを含めるかどうかを選択します。変更時刻のフィルタリングを有効にする場合は、リストから日付範囲を選択します。
変更日の範囲に基づいてファイルをインクルードした場合、日付範囲が満たされない(指定した日付範囲内でファイルが変更されていない)とすぐに、ファイルは定期スキャンから除外され、データソースにはこれらのファイルは含まれません。
-
-
権限対応*セクション(選択したデータソースがSMBプロトコルを使用するボリューム上にある場合にのみ表示)で、権限対応の応答を有効または無効にできます。
-
有効:このナレッジベースにアクセスするチャットボットのユーザーは、アクセス権を持つデータソースからのクエリに対する応答のみを取得します。
-
無効:チャットボットのユーザーは、統合されたすべてのデータソースからコンテンツを使用して応答を受信します。
-
-
[追加]*を選択して、このデータソースをナレッジベースに追加します。
データソースがナレッジベースに埋め込まれ始めます。データソースが完全に埋め込まれると、ステータスが「埋め込み」から「埋め込み」に変わります。
単一のデータソースをナレッジベースに追加したら、チャットボットシミュレータウィンドウでローカルにテストし、必要な変更を加えてから、ユーザーがチャットボットを使用できるようにします。同じ手順に従って、ナレッジベースにデータソースを追加することもできます。