生成AIナレッジベースの管理
ナレッジベースを作成したら、ナレッジベースの詳細の表示、ナレッジベースの変更、追加のデータソースの統合、ナレッジベースの削除を行うことができます。
ナレッジベースに関する情報を表示する
ナレッジベースと統合されているデータソースの設定に関する情報を表示できます。
-
いずれかを使用してワークロードファクトリにログインし"コンソールエクスペリエンス"ます。
-
ワークロード工場出荷時のナビゲーションメニューで、* AI *を選択します。
-
表示するナレッジベースを選択します。
定義されている場合は、現在使用されているカンバセーションスタータが右側のペインに表示されます。
-
ナレッジベースの詳細を表示するには、を選択し
て*[ナレッジベースの管理]*を選択します。
このページには、パブリッシュされたステータス、データソースの埋め込みステータス、埋め込みモード、すべての埋め込みデータソースのリストなどが表示されます。
[アクション]メニューを使用すると、変更を加える場合にナレッジベースを管理できます。
ナレッジベースの編集
一部の設定を変更してナレッジベースを更新したり、データソースを追加または削除したりできます。
ナレッジベースにデータソースを追加、変更、または削除するたびに、データソースを同期してナレッジベースに再インデックス化する必要があります。同期は差分で行われるため、Amazon Bedrockは前回の同期後に追加、変更、または削除されたFSx for ONTAPボリューム内のオブジェクトのみを処理します。
-
いずれかを使用してワークロードファクトリにログインし"コンソールエクスペリエンス"ます。
-
ナレッジベースインベントリページで、更新するナレッジベースを選択します。
-
を選択し
、*[ナレッジベースの管理]*を選択します。
このページには、パブリッシュされたステータス、データソースの埋め込みステータス、埋め込みモード、すべての埋め込みデータソースのリストなどが表示されます。
-
メニューを選択し、[ナレッジベースの編集]*を選択します。
-
[ナレッジベースの編集]ページでは、ナレッジベースの名前、説明、埋め込みモデル、チャットモデル、データガードレールの有効化、会話スターターを自動的に作成するか手動で作成するかを選択し、ナレッジベースを含むボリュームに使用するスナップショットポリシーを変更できます。
会話の開始に手動モードを使用している場合は、ここでも会話の開始を変更できます。
埋め込み、コストを含むすべてのナレッジベーススキャン。ナレッジベースの作成後にデータガードレールを有効にすると、ナレッジベースは再度スキャンされ、コストがかかります。同様に、チャットモデルを変更すると、生成AIは関連するデータソースを再スキャンします(コストが発生します)。 -
変更が完了したら、*[保存]*を選択します。
スナップショットでナレッジベースを保護
ナレッジベースボリュームのスナップショットを作成および復元することで、ナレッジベースデータを保護できます。スナップショットから復元して、ナレッジベースの以前のバージョンにいつでも戻すことができます。
スナップショットは、バックアップよりも高速でストレージ効率に優れており、異なる保護ポリシーを使用して各ナレッジベースを保護できます。スナップショットが役立つシナリオには、次のようなものがあります。
-
偶発的なデータ損失や破損
-
ナレッジベースに取り込まれた不正なデータからのリカバリ
-
さまざまなデータソースまたはチャンク戦略をテストし、テストが完了したら迅速にリバートする
ナレッジベースボリュームのスナップショットの作成
ナレッジベースボリュームのスナップショットを手動で作成することで、ナレッジベースの状態を保存できます。
-
いずれかを使用してワークロードファクトリにログインし"コンソールエクスペリエンス"ます。
-
ナレッジベースインベントリページで、保護するナレッジベースを選択します。
-
を選択し
、*[ナレッジベースの管理]*を選択します。
このページには、パブリッシュされたステータス、データソースの埋め込みステータス、埋め込みモード、すべての埋め込みデータソースのリストなどが表示されます。
-
メニューを選択し、[Snapshot]>[Create new snapshot]*を選択します。
-
必要に応じて、*[Define snapshot name]*を選択し、Snapshotのカスタム名を入力します。
カスタム名を定義すると、将来スナップショットをリストアする必要がある場合に、スナップショットの内容をより正確に判断するのに役立ちます。
-
「 * Create * 」を選択します。
ナレッジベースのスナップショットが作成されます。
ナレッジベースボリュームのスナップショットのリストア
ナレッジベースボリュームの手動またはスケジュールされたスナップショットは、いつでもリストアできます。
|
ボリュームに格納されているデータベースが破損しているか削除されている場合は、Generative AI Workloads UIを使用してSnapshotをリストアすることはできません。対処方法として、ボリュームがホストされているONTAPクラスタでを使用してSnapshotをリストアし "ONTAP CLI"ます。 |
-
いずれかを使用してワークロードファクトリにログインし"コンソールエクスペリエンス"ます。
-
ナレッジベースインベントリページで、復元するナレッジベースを選択します。
-
を選択し
、*[ナレッジベースの管理]*を選択します。
このページには、パブリッシュされたステータス、データソースの埋め込みステータス、埋め込みモード、すべての埋め込みデータソースのリストなどが表示されます。
-
メニューを選択し、[スナップショット]>[スナップショットのリストア]*を選択します。
スナップショット選択ダイアログが表示され、このナレッジベース用に作成されたスナップショットのリストが表示されます。
-
(オプション)Snapshotのリストア後にスケジュール済みおよび現在実行中のデータソーススキャンを続行する場合は、*[Pause running and scheduled scans after restoring the snapshot]*オプションの選択を解除します。
このオプションはデフォルトで有効になっており、ナレッジベースが部分的に復元された状態のときにスキャンが実行されないようにしたり、新しく復元されたナレッジベースが古いデータで更新されないようにします。
-
リストアするSnapshotをリストから選択します。
-
[* Restore] を選択します。
ナレッジベースの複製
ナレッジベーススナップショットから新しいナレッジベースを作成できます。これは、元のナレッジベースが破損したり失われたりした場合に便利です。
-
いずれかを使用してワークロードファクトリにログインし"コンソールエクスペリエンス"ます。
-
ナレッジベースインベントリページで、復元するナレッジベースを選択します。
-
を選択し
、*[ナレッジベースの管理]*を選択します。
このページには、パブリッシュされたステータス、データソースの埋め込みステータス、埋め込みモード、すべての埋め込みデータソースのリストなどが表示されます。
-
メニューを選択し、[スナップショット]>[ナレッジベースのクローニング]*を選択します。
クローンダイアログが表示されます。
-
必要に応じて、Snapshotのクローニング後にスケジュール済みおよび現在実行中のデータソーススキャンを続行する場合は、*[Pause running and scheduled scans after cloning the snapshot]*オプションの選択を解除します。
このオプションはデフォルトで有効になっており、ナレッジベースが部分的に復元された状態のときにスキャンが実行されないようにしたり、新しく復元されたナレッジベースが古いデータで更新されないようにします。
-
クローニングするSnapshotをリストから選択します。
-
「 * Continue * 」を選択します。
-
新しいナレッジベースの名前を入力します。
-
新しいナレッジベースのファイルシステムSVMとボリューム名を選択します。
-
「 * Clone * 」を選択します。
ナレッジベースへのデータソースの追加
追加のデータソースをナレッジベースに埋め込んで、追加の組織データをナレッジベースに取り込むことができます。
-
いずれかを使用してワークロードファクトリにログインし"コンソールエクスペリエンス"ます。
-
[ナレッジベース]インベントリページで、データソースを追加するナレッジベースを選択します。
-
を選択
し、*[Add data source]*を選択します。
-
ファイルシステムを選択:データソースファイルが存在するFSx for ONTAPファイルシステムを選択し、* Next *を選択します。
-
ボリュームを選択:データソースファイルが格納されているボリュームを選択し、*[次へ]*を選択します。
SMBプロトコルを使用して保存されているファイルを選択する場合は、ドメイン、IPアドレス、ユーザ名、パスワードなどのActive Directory情報を入力する必要があります。
-
データソースを選択:ファイルを保存した場所に基づいてデータソースの場所を選択します。これは、ボリューム全体、またはボリューム内の特定のフォルダまたはサブフォルダにすることができ、* Next *を選択します。
-
設定:データソースがファイルから情報を取り込む方法と、スキャンに含めるファイルを設定します。
-
データソースの定義:*チャンク戦略*セクションで、データソースがナレッジベースと統合されている場合に、生成AIエンジンがデータソースのコンテンツをチャンクに分割する方法を定義します。次のいずれかの方法を選択できます。
-
Multi-sentence chunking:データソースの情報をセンテンス定義のチャンクに編成します。各チャンクを構成する文の数を選択できます(最大100 )。
-
オーバーラップベースのチャンク:データソースからの情報を文字定義のチャンクに編成し、隣接するチャンクとオーバーラップすることができます。各チャンクのサイズを文字単位で選択し、各チャンクが隣接するチャンクとどの程度重なるかを選択できます。チャンクサイズは50~3000文字、オーバーラップパーセンテージは1~99%の範囲で設定できます。
オーバーラップ率を高く設定すると、取得精度がわずかに向上するだけで、ストレージ要件が大幅に増加します。
-
-
ファイルフィルタリング:スキャンに含めるファイルを設定します。
-
[ファイルタイプのサポート]セクションで、すべてのタイプのファイルを含めるか、データソーススキャンに含めるファイルタイプを個別に選択します。
画像またはPDFファイルを含めると、BlueXP Workload Factory for生成AIは画像内のテキスト(PDFドキュメント内の画像を含む)を解析するため、コストが高くなります。
画像のテキストデータを含めると、スキャンされたテキストデータが環境からAWSに送信されるため、生成AIは画像の個人識別情報(PII)をマスクできません。ただし、データが保存されると、すべてのPIIは 生成AIデータベースでマスクされます。
-
画像ファイルをスキャンに含めるかどうかは、ナレッジベースチャットモデルに関連しています。画像ファイルをスキャンに含める場合は、チャットモデルで画像がサポートされている必要があります。ここで画像ファイルタイプが選択されている場合、画像ファイルをサポートしていないチャットモデルにナレッジベースを切り替えることはできません。 -
[ファイル変更時刻フィルタ]*セクションで、ファイルの変更時刻に基づいてファイルを含めるかどうかを選択します。変更時刻のフィルタリングを有効にする場合は、リストから日付範囲を選択します。
変更日の範囲に基づいてファイルをインクルードした場合、日付範囲が満たされない(指定した日付範囲内でファイルが変更されていない)とすぐに、ファイルは定期スキャンから除外され、データソースにはこれらのファイルは含まれません。
-
-
権限対応*セクション(選択したデータソースがSMBプロトコルを使用するボリューム上にある場合にのみ表示)で、権限対応の応答を有効または無効にできます。
-
有効:このナレッジベースにアクセスするチャットボットのユーザーは、アクセス権を持つデータソースからのクエリに対する応答のみを取得します。
-
無効:チャットボットのユーザーは、統合されたすべてのデータソースからコンテンツを使用して応答を受信します。
-
-
[追加]*を選択して、このデータソースをナレッジベースに追加します。
データソースはナレッジベースに統合されます。
データソースとナレッジベースを同期する
データソースは関連付けられたナレッジベースと1日に1回自動的に同期されるため、データソースの変更がチャットボットに反映されます。いずれかのデータソースに変更を加え、データをすぐに同期する場合は、オンデマンド同期を実行できます。
同期は増分処理であるため、Amazon Bedrockは前回の同期以降に追加、変更、または削除されたデータソース内のオブジェクトのみを処理します。
-
いずれかを使用してワークロードファクトリにログインし"コンソールエクスペリエンス"ます。
-
ナレッジベースインベントリページで、同期するナレッジベースを選択します。
-
を選択し
、*[ナレッジベースの管理]*を選択します。
-
メニューを選択し、[今すぐスキャン]*を選択します。
データソースがスキャンされていることを示すメッセージが表示され、スキャンが完了すると最終的なメッセージが表示されます。
ナレッジベースは添付されたデータソースと同期され、アクティブなチャットボットはデータソースからの最新情報を使用し始めます。
スケジュールされた同期を一時停止または再開する
データソースの次の同期(スキャン)を一時停止または再開する場合は、いつでも実行できます。データソースに変更を加え、変更ウィンドウ中に同期を行わないようにする場合は、次のスケジュールされた同期を一時停止しなければならないことがあります。
-
いずれかを使用してワークロードファクトリにログインし"コンソールエクスペリエンス"ます。
-
[ナレッジベースとコネクタ]タブで、スキャンを一時停止または再開するナレッジベースを選択します。
-
を選択し
、*[ナレッジベースの管理]*を選択します。
-
[Actions]メニューを選択し、[Scan]>[Pause scheduled scan]*または[Scan]>[Resume scheduled scan]*を選択します。
次のスケジュールされたスキャンが一時停止または再開されたことを示すメッセージが表示されます。
ナレッジベースを作成する前にチャットモデルを評価する
ナレッジベースを作成する前に、利用可能な基本チャットモデルを評価して、実装に最適なモデルを確認できます。サポートされるモデルはAWSのリージョンによって異なるため、ナレッジベースを導入するリージョンで使用できるモデルを確認するには、を参照し "AWSのドキュメントページ" てください。
|
この機能は、ナレッジベースが作成されていない場合(ナレッジベースインベントリページにナレッジベースが存在しない場合)にのみ使用できます。 |
-
いずれかを使用してワークロードファクトリにログインし"コンソールエクスペリエンス"ます。
-
ナレッジベースのインベントリページから、チャットボットのページの右側にチャットモデルを選択するオプションが表示されます。
-
リストからチャットモデルを選択し、プロンプト領域に質問のセットを入力して、チャットボットがどのように応答するかを確認します。
-
複数のモデルを試して、実装に最適なモデルを確認してください。
ナレッジベースを作成するときは、そのチャットモデルを使用します。
ナレッジベースの非公開
ナレッジベースを公開してチャットボットアプリケーションと統合できるようにした後、チャットボットアプリケーションからナレッジベースへのアクセスを無効にする場合は、ナレッジベースを非公開にすることができます。
ナレッジベースを非公開にすると、チャットアプリケーションの動作が停止します。ナレッジベースにアクセスできた一意のAPIエンドポイントが無効になります。
-
いずれかを使用してワークロードファクトリにログインし"コンソールエクスペリエンス"ます。
-
[ナレッジベース]インベントリページで、非公開にするナレッジベースを選択します。
-
を選択し
、*[ナレッジベースの管理]*を選択します。
このページには、パブリッシュされたステータス、データソースの埋め込みステータス、埋め込みモード、およびすべての埋め込みデータソースのリストが表示されます。
-
[アクション(Actions)]メニューを選択し、*[パブリッシュ解除(Unpublish)]*を選択
ナレッジベースが無効になり、チャットボットアプリケーションからアクセスできなくなります。
ナレッジベースの削除
ナレッジベースが不要になった場合は、ナレッジベースを削除できます。ナレッジベースを削除すると、そのナレッジベースはワークロードファクトリから削除され、ナレッジベースを含むボリュームが削除されます。ナレッジベースを使用しているアプリケーションやチャットボットはすべて機能しなくなります。ナレッジベースの削除は元に戻すことはできません。
ナレッジベースを削除する場合は、ナレッジベースに関連付けられているすべてのリソースを完全に削除するために、ナレッジベースと関連付けられているエージェントの関連付けも解除する必要があります。
-
いずれかを使用してワークロードファクトリにログインし"コンソールエクスペリエンス"ます。
-
ナレッジベースインベントリページで、削除するナレッジベースを選択します。
-
を選択し
、*[ナレッジベースの管理]*を選択します。
-
[アクション]メニューを選択し、*[ナレッジベースの削除]*を選択します。
-
[ナレッジベースの削除]ダイアログで、削除することを確認し、*[削除]*を選択します。
ナレッジベースがワークロードファクトリから削除され、関連付けられているボリュームが削除されます。