日本語は機械翻訳による参考訳です。内容に矛盾や不一致があった場合には、英語の内容が優先されます。

生成AIナレッジベースの管理

10/06/2025 共同作成者

PDF

ナレッジベースを作成したら、ナレッジベースの詳細の表示、ナレッジベースの変更、追加のデータソースの統合、ナレッジベースの削除を行うことができます。

ナレッジベースに関する情報を表示する

ナレッジベースと統合されているデータソースの設定に関する情報を表示できます。

手順

次のいずれかを使用してWorkload Factoryにログインします。"コンソールエクスペリエンス" 。
[AI Workloads]タイルで、*[Deploy & manage]*を選択します。
表示するナレッジベースを選択します。

定義されている場合は、現在使用されているカンバセーションスタータが右側のペインに表示されます。
ナレッジベースの詳細を表示するには、を選択して*［ナレッジベースの管理］*を選択します。

このページには、パブリッシュされたステータス、データソースの埋め込みステータス、埋め込みモード、すべての埋め込みデータソースのリストなどが表示されます。

[アクション]メニューを使用すると、変更を加える場合にナレッジベースを管理できます。

ナレッジベースの編集

一部の設定を変更してナレッジベースを更新したり、データソースを追加または削除したりできます。

ナレッジベースにデータソースを追加、変更、または削除するたびに、データソースを同期してナレッジベースに再インデックス化する必要があります。同期は差分で行われるため、Amazon Bedrockは前回の同期後に追加、変更、または削除されたFSx for ONTAPボリューム内のオブジェクトのみを処理します。

手順

次のいずれかを使用してWorkload Factoryにログインします。"コンソールエクスペリエンス" 。
[AI Workloads]タイルで、*[Deploy & manage]*を選択します。
ナレッジベースインベントリページで、更新するナレッジベースを選択します。
を選択し、*[ナレッジベースの管理]*を選択します。

このページには、パブリッシュされたステータス、データソースの埋め込みステータス、埋め込みモード、すべての埋め込みデータソースのリストなどが表示されます。
メニューを選択し、[ナレッジベースの編集]*を選択します。

[ナレッジベースの編集] ページでは、ナレッジベースの名前、説明、埋め込みモデル、チャットモデル、機能の有効化を変更したり、会話の開始点を自動で作成するか手動で作成するかを選択したり、ナレッジベースを含むボリュームに使用するスナップショットポリシーを選択したりできます。

会話の開始に手動モードを使用している場合は、ここでも会話の開始を変更できます。

埋め込み、コストを含むすべてのナレッジベーススキャン。ナレッジベースの作成後にデータガードレールを有効にすると、ナレッジベースは再度スキャンされ、コストがかかります。同様に、チャットモデルを変更すると、生成AIは関連するデータソースを再スキャンします(コストが発生します)。

変更が完了したら、*[保存]*を選択します。

スナップショットでナレッジベースを保護

ナレッジベースボリュームのスナップショットを作成および復元することで、ナレッジベースデータを保護できます。スナップショットから復元して、ナレッジベースの以前のバージョンにいつでも戻すことができます。

スナップショットは、バックアップよりも高速でストレージ効率に優れており、異なる保護ポリシーを使用して各ナレッジベースを保護できます。スナップショットが役立つシナリオには、次のようなものがあります。

偶発的なデータ損失や破損
ナレッジベースに取り込まれた不正なデータからのリカバリ
さまざまなデータソースまたはチャンク戦略をテストし、テストが完了したら迅速にリバートする

ナレッジベースボリュームのスナップショットの作成

ナレッジベースボリュームのスナップショットを手動で作成することで、ナレッジベースの状態を保存できます。

手順

次のいずれかを使用してWorkload Factoryにログインします。"コンソールエクスペリエンス" 。
[AI Workloads]タイルで、*[Deploy & manage]*を選択します。
ナレッジベースインベントリページで、保護するナレッジベースを選択します。
を選択し、*[ナレッジベースの管理]*を選択します。

このページには、パブリッシュされたステータス、データソースの埋め込みステータス、埋め込みモード、すべての埋め込みデータソースのリストなどが表示されます。
メニューを選択し、[Snapshot]>[Create new snapshot]*を選択します。
必要に応じて、*[Define snapshot name]*を選択し、Snapshotのカスタム名を入力します。

カスタム名を定義すると、将来スナップショットをリストアする必要がある場合に、スナップショットの内容をより正確に判断するのに役立ちます。
「 * Create * 」を選択します。

ナレッジベースのスナップショットが作成されます。

ナレッジベースボリュームのスナップショットのリストア

ナレッジベースボリュームの手動またはスケジュールされたスナップショットは、いつでもリストアできます。

ボリュームに格納されているデータベースが破損しているか削除されている場合は、Generative AI Workloads UIを使用してSnapshotをリストアすることはできません。対処方法として、ボリュームがホストされているONTAPクラスタでを使用してSnapshotをリストアし "ONTAP CLI"ます。

手順

次のいずれかを使用してWorkload Factoryにログインします。"コンソールエクスペリエンス" 。
[AI Workloads]タイルで、*[Deploy & manage]*を選択します。
ナレッジベースインベントリページで、復元するナレッジベースを選択します。
を選択し、*[ナレッジベースの管理]*を選択します。

このページには、パブリッシュされたステータス、データソースの埋め込みステータス、埋め込みモード、すべての埋め込みデータソースのリストなどが表示されます。
メニューを選択し、[スナップショット]>[スナップショットのリストア]*を選択します。

スナップショット選択ダイアログが表示され、このナレッジベース用に作成されたスナップショットのリストが表示されます。
（オプション）Snapshotのリストア後にスケジュール済みおよび現在実行中のデータソーススキャンを続行する場合は、*[Pause running and scheduled scans after restoring the snapshot]*オプションの選択を解除します。

このオプションはデフォルトで有効になっており、ナレッジベースが部分的に復元された状態のときにスキャンが実行されないようにしたり、新しく復元されたナレッジベースが古いデータで更新されないようにします。
リストアするSnapshotをリストから選択します。
[* Restore] を選択します。

ナレッジベースの複製

ナレッジベーススナップショットから新しいナレッジベースを作成できます。これは、元のナレッジベースが破損したり失われたりした場合に便利です。

手順

次のいずれかを使用してWorkload Factoryにログインします。"コンソールエクスペリエンス" 。
[AI Workloads]タイルで、*[Deploy & manage]*を選択します。
ナレッジベースインベントリページで、復元するナレッジベースを選択します。
を選択し、*[ナレッジベースの管理]*を選択します。

このページには、パブリッシュされたステータス、データソースの埋め込みステータス、埋め込みモード、すべての埋め込みデータソースのリストなどが表示されます。
メニューを選択し、[スナップショット]>[ナレッジベースのクローニング]*を選択します。

クローンダイアログが表示されます。
必要に応じて、Snapshotのクローニング後にスケジュール済みおよび現在実行中のデータソーススキャンを続行する場合は、*[Pause running and scheduled scans after cloning the snapshot]*オプションの選択を解除します。

このオプションはデフォルトで有効になっており、ナレッジベースが部分的に復元された状態のときにスキャンが実行されないようにしたり、新しく復元されたナレッジベースが古いデータで更新されないようにします。
クローニングするSnapshotをリストから選択します。
「 * Continue * 」を選択します。
新しいナレッジベースの名前を入力します。
新しいナレッジベースのファイルシステムSVMとボリューム名を選択します。
「 * Clone * 」を選択します。

ナレッジベースへのデータソースの追加

追加のデータソースをナレッジベースに埋め込んで、追加の組織データをナレッジベースに取り込むことができます。

手順

次のいずれかを使用してWorkload Factoryにログインします。"コンソールエクスペリエンス" 。
[AI Workloads]タイルで、*[Deploy & manage]*を選択します。
[ナレッジベース]インベントリページで、データソースを追加するナレッジベースを選択します。
を選択し、*[Add data source]*を選択します。
追加するデータソースの種類を選択します。
- FSx for ONTAP ファイルシステムを追加する (既存の FSx for ONTAP ボリュームのファイルを使用)
- ファイルシステムを追加する（一般的な SMB または NFS 共有のファイルを使用）

FSx for ONTAP ファイルシステムを追加する

ファイルシステムを選択：データソースファイルが存在するFSx for ONTAPファイルシステムを選択し、* Next *を選択します。
ボリュームを選択：データソースファイルが格納されているボリュームを選択し、*[次へ]*を選択します。

SMBプロトコルを使用して保存されているファイルを選択する場合は、ドメイン、IPアドレス、ユーザ名、パスワードなどのActive Directory情報を入力する必要があります。
データソースを選択：ファイルを保存した場所に基づいてデータソースの場所を選択します。これは、ボリューム全体、またはボリューム内の特定のフォルダまたはサブフォルダにすることができ、* Next *を選択します。

設定:データソースがファイルから情報を取り込む方法と、スキャンに含めるファイルを設定します。

データソースの定義：*チャンク戦略*セクションで、データソースがナレッジベースと統合されている場合に、生成AIエンジンがデータソースのコンテンツをチャンクに分割する方法を定義します。次のいずれかの方法を選択できます。
- Multi-sentence chunking:データソースの情報をセンテンス定義のチャンクに編成します。各チャンクを構成する文の数を選択できます(最大100 )。
- オーバーラップベースのチャンク:データソースからの情報を文字定義のチャンクに編成し、隣接するチャンクとオーバーラップすることができます。各チャンクのサイズを文字単位で選択し、各チャンクが隣接するチャンクとどの程度重なるかを選択できます。チャンクサイズは50～3000文字、オーバーラップパーセンテージは1～99%の範囲で設定できます。
  
  オーバーラップ率を高く設定すると、取得精度がわずかに向上するだけで、ストレージ要件が大幅に増加します。
ファイルフィルタリング:スキャンに含めるファイルを設定します。
- [ファイルタイプのサポート]セクションで、すべてのタイプのファイルを含めるか、データソーススキャンに含めるファイルタイプを個別に選択します。
  
  画像または PDF ファイルを含めると、 NetApp Workload Factory for GenAI は画像内のテキスト (PDF ドキュメント内の画像を含む) を解析するため、コストが高くなります。
画像のテキストデータを含めると、スキャンされたテキストデータが環境からAWSに送信されるため、生成AIは画像の個人識別情報(PII)をマスクできません。ただし、データが保存されると、すべてのPIIは生成AIデータベースでマスクされます。

画像ファイルをスキャンに含めるかどうかは、ナレッジベースチャットモデルに関連しています。画像ファイルをスキャンに含める場合は、チャットモデルで画像がサポートされている必要があります。ここで画像ファイルタイプが選択されている場合、画像ファイルをサポートしていないチャットモデルにナレッジベースを切り替えることはできません。

[ファイル変更時刻フィルタ]*セクションで、ファイルの変更時刻に基づいてファイルを含めるかどうかを選択します。変更時刻のフィルタリングを有効にする場合は、リストから日付範囲を選択します。

変更日の範囲に基づいてファイルをインクルードした場合、日付範囲が満たされない（指定した日付範囲内でファイルが変更されていない）とすぐに、ファイルは定期スキャンから除外され、データソースにはこれらのファイルは含まれません。

権限対応*セクション（選択したデータソースがSMBプロトコルを使用するボリューム上にある場合にのみ表示）で、権限対応の応答を有効または無効にできます。
- 有効:このナレッジベースにアクセスするチャットボットのユーザーは、アクセス権を持つデータソースからのクエリに対する応答のみを取得します。
- 無効:チャットボットのユーザーは、統合されたすべてのデータソースからコンテンツを使用して応答を受信します。
[追加]*を選択して、このデータソースをナレッジベースに追加します。

汎用NFSファイルシステムを追加する

ファイルシステムを選択: データソースファイルが存在するファイルシステムホストの IP アドレスまたは FQDN を入力し、ネットワーク共有の NFS プロトコルを選択して、次へを選択します。

データソースを選択：ファイルを保存した場所に基づいてデータソースの場所を選択します。これは、ボリューム全体、またはボリューム内の特定のフォルダまたはサブフォルダにすることができ、* Next *を選択します。

場合によっては、NFSエクスポート名を手動で入力し、「ディレクトリを取得」を選択して利用可能なディレクトリを表示する必要があります。エクスポート全体を選択するか、エクスポートから特定のフォルダのみを選択するかを選択できます。

設定:データソースがファイルから情報を取り込む方法と、スキャンに含めるファイルを設定します。

データソースの定義：*チャンク戦略*セクションで、データソースがナレッジベースと統合されている場合に、生成AIエンジンがデータソースのコンテンツをチャンクに分割する方法を定義します。次のいずれかの方法を選択できます。
- Multi-sentence chunking:データソースの情報をセンテンス定義のチャンクに編成します。各チャンクを構成する文の数を選択できます(最大100 )。
- オーバーラップベースのチャンク:データソースからの情報を文字定義のチャンクに編成し、隣接するチャンクとオーバーラップすることができます。各チャンクのサイズを文字単位で選択し、各チャンクが隣接するチャンクとどの程度重なるかを選択できます。チャンクサイズは50～3000文字、オーバーラップパーセンテージは1～99%の範囲で設定できます。
  
  オーバーラップ率を高く設定すると、取得精度がわずかに向上するだけで、ストレージ要件が大幅に増加します。
ファイルフィルタリング:スキャンに含めるファイルを設定します。
- [ファイルタイプのサポート]セクションで、すべてのタイプのファイルを含めるか、データソーススキャンに含めるファイルタイプを個別に選択します。
  
  画像または PDF ファイルを含めると、 NetApp Workload Factory for GenAI は画像内のテキスト (PDF ドキュメント内の画像を含む) を解析するため、コストが高くなります。
画像のテキストデータを含めると、スキャンされたテキストデータが環境からAWSに送信されるため、生成AIは画像の個人識別情報(PII)をマスクできません。ただし、データが保存されると、すべてのPIIは生成AIデータベースでマスクされます。

このデータソースをナレッジベースに追加するには、[データソースの追加] を選択します。

汎用SMBファイルシステムを追加する

ファイルシステムを選択:
1. データソースファイルが存在するファイルシステムホストの IP アドレスまたは FQDN を入力します。
2. ネットワーク共有の SMB プロトコルを選択します。
3. ドメイン、IP アドレス、ユーザー名、パスワードを含む Active Directory 情報を入力します。
4. 「 * 次へ * 」を選択します。

場合によっては、SMB共有名を手動で入力し、「ディレクトリの取得」を選択して利用可能なディレクトリを表示する必要があります。共有全体を選択するか、共有内の特定のフォルダのみを選択するかを選択できます。

設定:データソースがファイルから情報を取り込む方法と、スキャンに含めるファイルを設定します。

データソースの定義：*チャンク戦略*セクションで、データソースがナレッジベースと統合されている場合に、生成AIエンジンがデータソースのコンテンツをチャンクに分割する方法を定義します。次のいずれかの方法を選択できます。
- Multi-sentence chunking:データソースの情報をセンテンス定義のチャンクに編成します。各チャンクを構成する文の数を選択できます(最大100 )。
- オーバーラップベースのチャンク:データソースからの情報を文字定義のチャンクに編成し、隣接するチャンクとオーバーラップすることができます。各チャンクのサイズを文字単位で選択し、各チャンクが隣接するチャンクとどの程度重なるかを選択できます。チャンクサイズは50～3000文字、オーバーラップパーセンテージは1～99%の範囲で設定できます。
  
  オーバーラップ率を高く設定すると、取得精度がわずかに向上するだけで、ストレージ要件が大幅に増加します。
権限認識: 権限認識応答を有効または無効にします。
- 有効:このナレッジベースにアクセスするチャットボットのユーザーは、アクセス権を持つデータソースからのクエリに対する応答のみを取得します。
- 無効:チャットボットのユーザーは、統合されたすべてのデータソースからコンテンツを使用して応答を受信します。
ファイルフィルタリング:スキャンに含めるファイルを設定します。
- [ファイルタイプのサポート]セクションで、すべてのタイプのファイルを含めるか、データソーススキャンに含めるファイルタイプを個別に選択します。
  
  画像または PDF ファイルを含めると、 NetApp Workload Factory for GenAI は画像内のテキスト (PDF ドキュメント内の画像を含む) を解析するため、コストが高くなります。
画像のテキストデータを含めると、スキャンされたテキストデータが環境からAWSに送信されるため、生成AIは画像の個人識別情報(PII)をマスクできません。ただし、データが保存されると、すべてのPIIは生成AIデータベースでマスクされます。

このデータソースをナレッジベースに追加するには、[データソースの追加] を選択します。

結果

データソースはナレッジベースに統合されます。

データソースとナレッジベースを同期する

データソースは関連付けられたナレッジベースと1日に1回自動的に同期されるため、データソースの変更がチャットボットに反映されます。いずれかのデータソースに変更を加え、データをすぐに同期する場合は、オンデマンド同期を実行できます。

同期は増分処理であるため、Amazon Bedrockは前回の同期以降に追加、変更、または削除されたデータソース内のオブジェクトのみを処理します。

手順

次のいずれかを使用してWorkload Factoryにログインします。"コンソールエクスペリエンス" 。
[AI Workloads]タイルで、*[Deploy & manage]*を選択します。
ナレッジベースインベントリページで、同期するナレッジベースを選択します。
を選択し、*[ナレッジベースの管理]*を選択します。
メニューを選択し、[今すぐスキャン]*を選択します。

データソースがスキャンされていることを示すメッセージが表示され、スキャンが完了すると最終的なメッセージが表示されます。

結果

ナレッジベースは添付されたデータソースと同期され、アクティブなチャットボットはデータソースからの最新情報を使用し始めます。

スケジュールされた同期を一時停止または再開する

データソースの次の同期（スキャン）を一時停止または再開する場合は、いつでも実行できます。データソースに変更を加え、変更ウィンドウ中に同期を行わないようにする場合は、次のスケジュールされた同期を一時停止しなければならないことがあります。

手順

次のいずれかを使用してWorkload Factoryにログインします。"コンソールエクスペリエンス" 。
[AI Workloads]タイルで、*[Deploy & manage]*を選択します。
「ナレッジベースとコネクタ」メニューから、スキャンを一時停止または再開するナレッジベースを選択します。
を選択し、*[ナレッジベースの管理]*を選択します。
[Actions]メニューを選択し、[Scan]>[Pause scheduled scan]*または[Scan]>[Resume scheduled scan]*を選択します。

次のスケジュールされたスキャンが一時停止または再開されたことを示すメッセージが表示されます。

ナレッジベースを作成する前にチャットモデルを評価する

ナレッジベースを作成する前に、利用可能な基本チャットモデルを評価して、実装に最適なモデルを確認できます。サポートされるモデルはAWSのリージョンによって異なるため、ナレッジベースを導入するリージョンで使用できるモデルを確認するには、を参照し "AWSのドキュメントページ" てください。

この機能は、ナレッジベースが作成されていない場合（ナレッジベースインベントリページにナレッジベースが存在しない場合）にのみ使用できます。

手順

次のいずれかを使用してWorkload Factoryにログインします。"コンソールエクスペリエンス" 。
[AI Workloads]タイルで、*[Deploy & manage]*を選択します。
ナレッジベースのインベントリページから、チャットボットのページの右側にチャットモデルを選択するオプションが表示されます。
リストからチャットモデルを選択し、プロンプト領域に質問のセットを入力して、チャットボットがどのように応答するかを確認します。
複数のモデルを試して、実装に最適なモデルを確認してください。

結果

ナレッジベースを作成するときは、そのチャットモデルを使用します。

ナレッジベースの非公開

ナレッジベースを公開してチャットボットアプリケーションと統合できるようにした後、チャットボットアプリケーションからナレッジベースへのアクセスを無効にする場合は、ナレッジベースを非公開にすることができます。

ナレッジベースを非公開にすると、チャットアプリケーションの動作が停止します。ナレッジベースにアクセスできた一意のAPIエンドポイントが無効になります。

手順

次のいずれかを使用してWorkload Factoryにログインします。"コンソールエクスペリエンス" 。
[AI Workloads]タイルで、*[Deploy & manage]*を選択します。
[ナレッジベース]インベントリページで、非公開にするナレッジベースを選択します。
を選択し、*[ナレッジベースの管理]*を選択します。

このページには、パブリッシュされたステータス、データソースの埋め込みステータス、埋め込みモード、およびすべての埋め込みデータソースのリストが表示されます。
[アクション（Actions）]メニューを選択し、*[パブリッシュ解除（Unpublish）]*を選択

結果

ナレッジベースが無効になり、チャットボットアプリケーションからアクセスできなくなります。

ナレッジベースの削除

ナレッジベースが不要になった場合は、削除できます。ナレッジベースを削除すると、そのナレッジベースは Workload Factory から削除され、そのナレッジベースを含むボリュームも削除されます。ナレッジベースを使用しているアプリケーションやチャットボットはすべて動作を停止します。ナレッジベースの削除は元に戻せません。

ナレッジベースを削除する場合は、ナレッジベースに関連付けられているすべてのリソースを完全に削除するために、ナレッジベースと関連付けられているエージェントの関連付けも解除する必要があります。

手順

次のいずれかを使用してWorkload Factoryにログインします。"コンソールエクスペリエンス" 。
[AI Workloads]タイルで、*[Deploy & manage]*を選択します。
ナレッジベースインベントリページで、削除するナレッジベースを選択します。
を選択し、*[ナレッジベースの管理]*を選択します。
[アクション]メニューを選択し、*[ナレッジベースの削除]*を選択します。
[ナレッジベースの削除]ダイアログで、削除することを確認し、*[削除]*を選択します。

結果

ナレッジベースは Workload Factory から削除され、それに関連付けられたボリュームも削除されます。

生成AIナレッジベースの管理

Creating your file...

ナレッジベースに関する情報を表示する

ナレッジベースの編集

スナップショットでナレッジベースを保護

ナレッジベースボリュームのスナップショットの作成

ナレッジベースボリュームのスナップショットのリストア

ナレッジベースの複製

ナレッジベースへのデータソースの追加

データソースとナレッジベースを同期する

スケジュールされた同期を一時停止または再開する

ナレッジベースを作成する前にチャットモデルを評価する

ナレッジベースの非公開

ナレッジベースの削除