Amazon Q Business Connectorの管理
Amazon Q Business用のコネクタを作成したら、コネクタの詳細の表示、コネクタの変更、追加データソースの統合、コネクタの削除を行うことができます。
コネクタに関する情報を表示する
コネクタと統合されているデータソースの設定に関する情報を表示できます。
-
いずれかを使用してワークロードファクトリにログインし"コンソールエクスペリエンス"ます。
-
ワークロード工場出荷時のナビゲーションメニューで、* AI *を選択します。
-
表示するコネクタを選択します。
-
コネクターの詳細を表示するには、を選択し
て*コネクターの管理*を選択します。
このページには、パブリッシュされたステータス、データソースの埋め込みステータス、埋め込みモード、すべての埋め込みデータソースのリストなどが表示されます。
[アクション(Actions)]*メニューを使用すると、変更を加える場合にコネクターを管理できます。
コネクタの編集
一部の設定を変更してコネクタを更新したり、データソースを追加または削除したりできます。
コネクタからデータソースを追加、変更、または削除するたびに、生成AIはデータソース情報をAmazon Q Businessに送信してインデックスを再作成する必要があります。同期は増分処理であるため、Amazon Q Businessは前回の同期後に追加、変更、または削除されたFSx for ONTAPボリューム内のオブジェクトのみを処理します。
-
いずれかを使用してワークロードファクトリにログインし"コンソールエクスペリエンス"ます。
-
[ナレッジベースとコネクタ]インベントリページで、更新するコネクタを選択します。
-
を選択し
、*コネクターの管理*を選択します。
このページには、パブリッシュされたステータス、データソースの埋め込みステータス、埋め込みモード、すべての埋め込みデータソースのリストなどが表示されます。
-
[アクション]メニューを選択し、*[コネクタの編集]*を選択します。
-
[Edit Connector]ページでは、コネクタの名前、説明、埋め込みモデル、データガードレールの有効化、およびコネクタを含むボリュームで使用されるSnapshotポリシーを変更できます。
埋め込みを含むすべてのデータソーススキャンにはコストがかかります。コネクタの作成後にデータガードレールを有効にすると、データソースが再度スキャンされ、コストが発生します。 -
変更を行ったら、*[保存]*を選択します。
コネクタへの追加データソースの追加
追加データソースをコネクタに埋め込んで、追加の組織データをコネクタに取り込むことができます。
-
いずれかを使用してワークロードファクトリにログインし"コンソールエクスペリエンス"ます。
-
[ナレッジベースとコネクタ]インベントリページで、データソースを追加するコネクタを選択します。
-
を選択
し、*[Add data source]*を選択します。
-
追加するデータ ソースの種類を選択します。
-
FSx for ONTAP ファイルシステムを追加する (既存の FSx for ONTAP ボリュームのファイルを使用)
-
ファイルシステムを追加する(一般的な SMB または NFS 共有のファイルを使用)
-
-
ファイルシステムを選択:データソースファイルが存在するFSx for ONTAPファイルシステムを選択し、* Next *を選択します。
-
ボリュームを選択:データソースファイルが格納されているボリュームを選択し、*[次へ]*を選択します。
SMBプロトコルを使用して保存されているファイルを選択する場合は、ドメイン、IPアドレス、ユーザ名、パスワードなどのActive Directory情報を入力する必要があります。
-
データソースを選択:ファイルを保存した場所に基づいてデータソースの場所を選択します。これは、ボリューム全体、またはボリューム内の特定のフォルダまたはサブフォルダにすることができ、* Next *を選択します。
-
設定:データソースがファイルから情報を取り込む方法と、スキャンに含めるファイルを設定します。
-
データソースの定義:*チャンク戦略*セクションで、データソースがナレッジベースと統合されている場合に、生成AIエンジンがデータソースのコンテンツをチャンクに分割する方法を定義します。次のいずれかの方法を選択できます。
-
Multi-sentence chunking:データソースの情報をセンテンス定義のチャンクに編成します。各チャンクを構成する文の数を選択できます(最大100 )。
-
オーバーラップベースのチャンク:データソースからの情報を文字定義のチャンクに編成し、隣接するチャンクとオーバーラップすることができます。各チャンクのサイズを文字単位で選択し、各チャンクが隣接するチャンクとどの程度重なるかを選択できます。チャンクサイズは50~3000文字、オーバーラップパーセンテージは1~99%の範囲で設定できます。
オーバーラップ率を高く設定すると、取得精度がわずかに向上するだけで、ストレージ要件が大幅に増加します。
-
-
ファイルフィルタリング:スキャンに含めるファイルを設定します。
-
[ファイルタイプのサポート]セクションで、すべてのタイプのファイルを含めるか、データソーススキャンに含めるファイルタイプを個別に選択します。
画像またはPDFファイルを含めると、BlueXP Workload Factory for生成AIは画像内のテキスト(PDFドキュメント内の画像を含む)を解析するため、コストが高くなります。
画像のテキストデータを含めると、スキャンされたテキストデータが環境からAWSに送信されるため、生成AIは画像の個人識別情報(PII)をマスクできません。ただし、データが保存されると、すべてのPIIは 生成AIデータベースでマスクされます。
-
画像ファイルをスキャンに含めるかどうかは、ナレッジベースチャットモデルに関連しています。画像ファイルをスキャンに含める場合は、チャットモデルで画像がサポートされている必要があります。ここで画像ファイルタイプが選択されている場合、画像ファイルをサポートしていないチャットモデルにナレッジベースを切り替えることはできません。 -
[ファイル変更時刻フィルタ]*セクションで、ファイルの変更時刻に基づいてファイルを含めるかどうかを選択します。変更時刻のフィルタリングを有効にする場合は、リストから日付範囲を選択します。
変更日の範囲に基づいてファイルをインクルードした場合、日付範囲が満たされない(指定した日付範囲内でファイルが変更されていない)とすぐに、ファイルは定期スキャンから除外され、データソースにはこれらのファイルは含まれません。
-
-
権限対応*セクション(選択したデータソースがSMBプロトコルを使用するボリューム上にある場合にのみ表示)で、権限対応の応答を有効または無効にできます。
-
有効:このナレッジベースにアクセスするチャットボットのユーザーは、アクセス権を持つデータソースからのクエリに対する応答のみを取得します。
-
無効:チャットボットのユーザーは、統合されたすべてのデータソースからコンテンツを使用して応答を受信します。
-
-
[追加]*を選択して、このデータソースをナレッジベースに追加します。
-
ファイル システムを選択: データ ソース ファイルが存在するファイル システム ホストの IP アドレスまたは FQDN を入力し、ネットワーク共有の NFS プロトコルを選択して、次へ を選択します。
-
データソースを選択:ファイルを保存した場所に基づいてデータソースの場所を選択します。これは、ボリューム全体、またはボリューム内の特定のフォルダまたはサブフォルダにすることができ、* Next *を選択します。
場合によっては、NFSエクスポート名を手動で入力し、「ディレクトリを取得」を選択して利用可能なディレクトリを表示する必要があります。エクスポート全体を選択するか、エクスポートから特定のフォルダのみを選択するかを選択できます。 -
設定:データソースがファイルから情報を取り込む方法と、スキャンに含めるファイルを設定します。
-
データソースの定義:*チャンク戦略*セクションで、データソースがナレッジベースと統合されている場合に、生成AIエンジンがデータソースのコンテンツをチャンクに分割する方法を定義します。次のいずれかの方法を選択できます。
-
Multi-sentence chunking:データソースの情報をセンテンス定義のチャンクに編成します。各チャンクを構成する文の数を選択できます(最大100 )。
-
オーバーラップベースのチャンク:データソースからの情報を文字定義のチャンクに編成し、隣接するチャンクとオーバーラップすることができます。各チャンクのサイズを文字単位で選択し、各チャンクが隣接するチャンクとどの程度重なるかを選択できます。チャンクサイズは50~3000文字、オーバーラップパーセンテージは1~99%の範囲で設定できます。
オーバーラップ率を高く設定すると、取得精度がわずかに向上するだけで、ストレージ要件が大幅に増加します。
-
-
ファイルフィルタリング:スキャンに含めるファイルを設定します。
-
[ファイルタイプのサポート]セクションで、すべてのタイプのファイルを含めるか、データソーススキャンに含めるファイルタイプを個別に選択します。
画像またはPDFファイルを含めると、BlueXP Workload Factory for生成AIは画像内のテキスト(PDFドキュメント内の画像を含む)を解析するため、コストが高くなります。
画像のテキストデータを含めると、スキャンされたテキストデータが環境からAWSに送信されるため、生成AIは画像の個人識別情報(PII)をマスクできません。ただし、データが保存されると、すべてのPIIは 生成AIデータベースでマスクされます。
-
画像ファイルをスキャンに含めるかどうかは、ナレッジベースチャットモデルに関連しています。画像ファイルをスキャンに含める場合は、チャットモデルで画像がサポートされている必要があります。ここで画像ファイルタイプが選択されている場合、画像ファイルをサポートしていないチャットモデルにナレッジベースを切り替えることはできません。 -
[ファイル変更時刻フィルタ]*セクションで、ファイルの変更時刻に基づいてファイルを含めるかどうかを選択します。変更時刻のフィルタリングを有効にする場合は、リストから日付範囲を選択します。
変更日の範囲に基づいてファイルをインクルードした場合、日付範囲が満たされない(指定した日付範囲内でファイルが変更されていない)とすぐに、ファイルは定期スキャンから除外され、データソースにはこれらのファイルは含まれません。
-
-
このデータ ソースをナレッジ ベースに追加するには、[データ ソースの追加] を選択します。
-
ファイルシステムを選択:
-
データ ソース ファイルが存在するファイル システム ホストの IP アドレスまたは FQDN を入力します。
-
ネットワーク共有の SMB プロトコルを選択します。
-
ドメイン、IP アドレス、ユーザー名、パスワードを含む Active Directory 情報を入力します。
-
「 * 次へ * 」を選択します。
-
-
データソースを選択:ファイルを保存した場所に基づいてデータソースの場所を選択します。これは、ボリューム全体、またはボリューム内の特定のフォルダまたはサブフォルダにすることができ、* Next *を選択します。
場合によっては、SMB共有名を手動で入力し、「ディレクトリの取得」を選択して利用可能なディレクトリを表示する必要があります。共有全体を選択するか、共有内の特定のフォルダのみを選択するかを選択できます。 -
設定:データソースがファイルから情報を取り込む方法と、スキャンに含めるファイルを設定します。
-
データソースの定義:*チャンク戦略*セクションで、データソースがナレッジベースと統合されている場合に、生成AIエンジンがデータソースのコンテンツをチャンクに分割する方法を定義します。次のいずれかの方法を選択できます。
-
Multi-sentence chunking:データソースの情報をセンテンス定義のチャンクに編成します。各チャンクを構成する文の数を選択できます(最大100 )。
-
オーバーラップベースのチャンク:データソースからの情報を文字定義のチャンクに編成し、隣接するチャンクとオーバーラップすることができます。各チャンクのサイズを文字単位で選択し、各チャンクが隣接するチャンクとどの程度重なるかを選択できます。チャンクサイズは50~3000文字、オーバーラップパーセンテージは1~99%の範囲で設定できます。
オーバーラップ率を高く設定すると、取得精度がわずかに向上するだけで、ストレージ要件が大幅に増加します。
-
-
権限認識: 権限認識応答を有効または無効にします。
-
有効:このナレッジベースにアクセスするチャットボットのユーザーは、アクセス権を持つデータソースからのクエリに対する応答のみを取得します。
-
無効:チャットボットのユーザーは、統合されたすべてのデータソースからコンテンツを使用して応答を受信します。
-
-
ファイルフィルタリング:スキャンに含めるファイルを設定します。
-
[ファイルタイプのサポート]セクションで、すべてのタイプのファイルを含めるか、データソーススキャンに含めるファイルタイプを個別に選択します。
画像またはPDFファイルを含めると、BlueXP Workload Factory for生成AIは画像内のテキスト(PDFドキュメント内の画像を含む)を解析するため、コストが高くなります。
画像のテキストデータを含めると、スキャンされたテキストデータが環境からAWSに送信されるため、生成AIは画像の個人識別情報(PII)をマスクできません。ただし、データが保存されると、すべてのPIIは 生成AIデータベースでマスクされます。
-
画像ファイルをスキャンに含めるかどうかは、ナレッジベースチャットモデルに関連しています。画像ファイルをスキャンに含める場合は、チャットモデルで画像がサポートされている必要があります。ここで画像ファイルタイプが選択されている場合、画像ファイルをサポートしていないチャットモデルにナレッジベースを切り替えることはできません。 -
[ファイル変更時刻フィルタ]*セクションで、ファイルの変更時刻に基づいてファイルを含めるかどうかを選択します。変更時刻のフィルタリングを有効にする場合は、リストから日付範囲を選択します。
変更日の範囲に基づいてファイルをインクルードした場合、日付範囲が満たされない(指定した日付範囲内でファイルが変更されていない)とすぐに、ファイルは定期スキャンから除外され、データソースにはこれらのファイルは含まれません。
-
-
このデータ ソースをナレッジ ベースに追加するには、[データ ソースの追加] を選択します。
データソースがコネクタに統合されます。
データソースをコネクタと同期する
データソースは関連付けられているコネクタと1日に1回自動的に同期されるため、データソースの変更がAmazon Q Businessに反映されます。いずれかのデータソースに変更を加え、データをすぐに同期(スキャン)する場合は、オンデマンド同期を実行できます。
同期は増分処理であるため、Amazon Q Businessは前回の同期以降に追加、変更、または削除されたデータソース内のオブジェクトのみを処理します。
-
いずれかを使用してワークロードファクトリにログインし"コンソールエクスペリエンス"ます。
-
[ナレッジベースとコネクタ]タブで、同期するコネクタを選択します。
-
を選択し
、*コネクターの管理*を選択します。
-
メニューを選択し、[今すぐスキャン]*を選択します。
データソースがスキャンされていることを示すメッセージが表示され、スキャンが完了すると最終的なメッセージが表示されます。
コネクタは接続されているデータソースと同期され、Amazon Q Businessはデータソースからの最新情報を使用し始めます。
スケジュールされた同期を一時停止または再開する
データソースの次の同期(スキャン)を一時停止または再開する場合は、いつでも実行できます。データソースに変更を加え、変更ウィンドウ中に同期を行わないようにする場合は、次のスケジュールされた同期を一時停止しなければならないことがあります。
-
いずれかを使用してワークロードファクトリにログインし"コンソールエクスペリエンス"ます。
-
[Connector]インベントリページで、スキャンを一時停止または再開するコネクタを選択します。
-
を選択し
、*コネクターの管理*を選択します。
-
[Actions]メニューを選択し、[Scan]>[Pause scheduled scan]*または[Scan]>[Resume scheduled scan]*を選択します。
次のスケジュールされたスキャンが一時停止または再開されたことを示すメッセージが表示されます。
コネクタの削除
コネクタが不要になった場合は、削除できます。コネクタを削除すると、そのコネクタはワークロードファクトリから削除され、コネクタを含むボリュームが削除されます。コネクタの削除は元に戻せません。
コネクタを削除する場合は、コネクタに関連付けられているすべてのエージェントからコネクタの関連付けを解除して、コネクタに関連付けられているすべてのリソースを完全に削除する必要があります。
-
いずれかを使用してワークロードファクトリにログインし"コンソールエクスペリエンス"ます。
-
[ナレッジベースとコネクタ]インベントリページで、削除するコネクタを選択します。
-
を選択し
、*コネクターの管理*を選択します。
-
[アクション(Actions)]メニューを選択し、[コネクタの削除(Delete Connector)]を選択します。
-
[コネクタの削除(Delete Connector)]ダイアログで、削除することを確認し、*[削除(Delete)]*を選択します。
コネクタがワークロードファクトリから削除され、関連付けられているボリュームが削除されます。