GenAI 기술 자료를 만듭니다
AI 인프라를 구축하고 FSx for ONTAP 데이터 저장소의 기술 자료에 통합할 데이터 소스를 식별한 후에는 워크로드 팩토리를 사용하여 기술 자료를 구축할 준비가 된 것입니다. 이 단계의 일환으로 AI 특성을 정의하고 대화를 시작하는 방안을 마련합니다.
계속하기 전에 귀사의 환경이 기술 자료에 대한 을 충족하는지 "요구 사항"확인하십시오.
Knowledge Base에는 두 가지 데이터 통합 Modality(_public mode_와_Enterprise mode_가 있습니다.
- 공개 모드
-
조직의 데이터 원본을 통합하지 않고도 기술 문서를 사용할 수 있습니다. 이 경우 기술 문서에 통합된 응용 프로그램은 인터넷에 공개된 정보의 결과만 제공합니다. 이를 _public mode_integration 이라고 합니다.
- 엔터프라이즈 모드
-
대부분의 경우 조직의 데이터 원본을 기술 자료에 통합할 수 있습니다. 이를 엔터프라이즈 모드_통합이라고 하며, 이는 기업으로부터 지식을 제공하기 때문입니다.
조직의 데이터 원본에는 PII(개인 식별 정보)가 포함될 수 있습니다. 이러한 중요한 정보를 보호하기 위해 기술 자료를 만들고 구성할 때 _data guardrails_를 활성화할 수 있습니다. BlueXP 분류를 기반으로 하는 데이터 가드레일은 PII를 식별하고 마스킹하므로 액세스 및 복구가 불가능합니다.
GenAI용 BlueXP 워크로드 공장은 민감한 개인 정보를 마스킹하지 않습니다(SPii). 이 데이터 유형에 대한 자세한 내용은 을 "중요한 개인 데이터의 유형"참조하십시오. 데이터 가드레일은 언제든지 활성화 또는 비활성화할 수 있습니다. 데이터 가드레일 사용을 전환하면 워크로드 공장에서 전체 기술 자료를 처음부터 검사하여 비용이 발생합니다.
기술 문서를 만들고 구성합니다
기술 자료에서는 지식 기반을 생성하는 데 사용할 Bedrock AI 모델 및 내장 형식과 같은 특성을 정의합니다.
-
중 하나를 사용하여 워크로드 팩토리에 "콘솔 환경"로그인합니다.
-
AI 워크로드 타일에서 * 배포 및 관리 * 를 선택합니다.
-
Knowledge Base & Connectors 탭에서 * Create New * 드롭다운을 선택하고 * Bedrock용 * NetApp GenAI Knowledge Base * 를 선택합니다.
-
기술 문서 정의 페이지에서 기술 문서 설정을 구성합니다.
-
* 이름 *: 기술 문서에 사용할 이름을 입력하십시오.
-
Description: 기술 문서에 대한 자세한 설명을 입력합니다.
-
* 포함 모델 * : 포함 모델은 귀하의 데이터가 기술 자료를 위한 벡터 임베딩으로 변환되는 방법을 정의합니다. 워크로드 팩토리에서는 다음 모델을 지원합니다.
-
Titan Embeddings G1 - 텍스트
-
Titan Embedding Text v2
-
타이탄 다중 모드 포함 G1
-
영어 포함
-
다국어 포함
아마존 Bedrock에서 임베딩 모델을 이미 활성화했어야 합니다.
-
-
* 채팅 모델 * : 아마존 Bedrock에 통합된 다양한 채팅 모델 중에서 선택하십시오. 아마존 Bedrock에서 채팅 모델을 이미 활성화했어야 합니다.
-
재순위: 쿼리 결과의 관련성과 품질을 향상시킬 수 있는 재순위 기능을 활성화 또는 비활성화합니다. 재순위 기능에 사용할 표준 채팅 모델 또는 특수 재순위 모델을 선택하세요. 재순위 모델 옵션은 해당 지역에서 사용 가능한 경우에만 표시됩니다.
-
* 데이터 가드레일 * : 데이터 가드레일을 활성화 또는 비활성화할지 선택합니다. "BlueXP 분류를 기반으로 하는 데이터 가드레일에 대해 알아보십시오"..
데이터 가드레일을 사용하려면 다음 사전 요구 사항을 충족해야 합니다.
-
BlueXP 분류와 통신하려면 서비스 계정이 필요합니다. 서비스 계정을 생성하려면 BlueXP Tenancy 계정에 _Organization admin_역할이 있어야 합니다. 조직 관리자 역할을 가진 구성원은 BlueXP 의 모든 작업을 완료할 수 있습니다. "BlueXP 에서 구성원에 역할을 추가하는 방법에 대해 알아봅니다"
-
AI 엔진이 에 액세스할 수 있어야 "BlueXP API 끝점입니다"합니다.
-
에 설명된 대로 다음을 수행해야 "BlueXP 분류 문서"합니다.
-
BlueXP Connector를 생성합니다
-
환경이 사전 요구 사항을 충족할 수 있는지 확인합니다
-
BlueXP 분류를 배포합니다
-
CSV, JSON, JSONP 또는 Parquet과 같은 구조화된 데이터 파일을 수집할 때는 데이터 가드레일 기능이 지원되지 않습니다. -
-
* Conversation Starters *: 이 기술 자료를 사용하는 챗봇과 상호 작용하는 사용자에게 표시되는 최대 4개의 대화 시작 프롬프트를 제공할지 여부를 선택합니다. 이 설정을 사용하는 것이 좋습니다.
대화 시작점을 활성화하면 기본적으로 "자동 모드"가 선택됩니다. "수동 모드"는 기술 문서에 데이터 원본을 추가한 후에만 활성화할 수 있습니다. "기술 문서 설정을 수정하는 방법에 대해 알아봅니다"..
-
* FSx for ONTAP 파일 시스템 *: 새로운 기술 자료를 정의하면 워크로드 공장에서 이를 저장할 새로운 Amazon FSx for NetApp ONTAP 볼륨을 생성합니다. 새 볼륨을 생성할 기존 파일 시스템 이름과 SVM(스토리지 VM이라고도 함)을 선택합니다.
-
* Snapshot policy *: 워크로드 공장 저장소 인벤토리에 정의된 기존 정책 목록에서 스냅샷 정책을 선택합니다. 선택한 스냅샷 정책에 따라 기술 자료의 반복적인 스냅샷이 자동으로 생성됩니다.
필요한 스냅샷 정책이 없는 경우 "스냅샷 정책을 생성합니다" 볼륨이 포함된 스토리지 VM에서 수행할 수 있습니다.
-
-
GenAI에 기술 문서를 추가하려면 * 기술 문서 만들기 * 를 선택하십시오.
기술 문서가 작성되는 동안 진행률 표시기가 나타납니다.
기술 문서를 만든 후에는 데이터 원본을 새 기술 문서에 추가하거나 데이터 원본을 추가하지 않고 프로세스를 종료할 수 있습니다. 지금 * 데이터 원본 추가 * 를 선택하고 하나 이상의 데이터 원본을 추가하는 것이 좋습니다.
기술 문서에 데이터 원본을 추가합니다
하나 이상의 데이터 원본을 추가하여 조직의 데이터로 기술 문서를 채울 수 있습니다.
지원되는 최대 데이터 원본 수는 10개입니다.
-
*데이터 소스 추가*를 선택한 후 추가하려는 데이터 소스 유형을 선택합니다.
-
ONTAP 파일 시스템용 FSx 추가(기존 ONTAP 볼륨용 FSx의 파일 사용)
-
파일 시스템 추가(일반 SMB 또는 NFS 공유의 파일 사용)
-
-
* 파일 시스템 선택 *: 데이터 소스 파일이 있는 FSx for ONTAP 파일 시스템을 선택하고 * 다음 * 을 선택합니다.
-
* 볼륨 선택 *: 데이터 원본 파일이 있는 볼륨을 선택하고 * 다음 * 을 선택합니다.
SMB 프로토콜을 사용하여 저장된 파일을 선택할 때 도메인, IP 주소, 사용자 이름 및 암호를 포함한 Active Directory 정보를 입력해야 합니다.
-
* 데이터 소스 선택 *: 파일을 저장한 위치를 기준으로 데이터 소스 위치를 선택합니다. 전체 볼륨일 수도 있고 볼륨의 특정 폴더 또는 하위 폴더일 수도 있고 * 다음 * 을 선택합니다.
-
* 구성 *: 데이터 소스가 파일에서 정보를 수집하는 방법과 검색에 포함할 파일을 구성합니다.
-
* 데이터 소스 정의 *: * 청크 전략 * 섹션에서 데이터 소스가 기술 문서에 통합될 때 GenAI 엔진이 데이터 소스 컨텐츠를 청크로 분할하는 방법을 정의합니다. 다음 전략 중 하나를 선택할 수 있습니다.
-
* 다중 문장 청킹 *: 데이터 소스의 정보를 문장 정의 청크로 정리합니다. 각 청크를 구성하는 문장의 수(최대 100개)를 선택할 수 있습니다.
-
* 오버랩 기반 청크 *: 데이터 소스의 정보를 인접 청크와 겹칠 수 있는 문자 정의 청크로 구성합니다. 각 청크의 크기를 문자 단위로 선택하고 각 청크가 인접한 청크와 겹치는 정도를 선택할 수 있습니다. 청크 크기는 50자에서 3000자 사이이고 겹치는 비율은 1 ~ 99%로 구성할 수 있습니다.
높은 중복 비율을 선택하면 검색 정확도가 약간 개선되어 저장소 요구 사항이 크게 증가할 수 있습니다.
-
-
* 파일 필터링 *: 검색에 포함할 파일을 구성합니다.
-
파일 형식 지원 * 섹션에서 모든 파일 형식을 포함하거나 데이터 원본 검색에 포함할 개별 파일 형식을 선택합니다.
이미지 또는 PDF 파일을 포함하는 경우 GenAI용 BlueXP 워크로드 공장에서 이미지(PDF 문서의 이미지 포함)의 텍스트를 구문 분석하므로 비용이 더 많이 듭니다.
이미지의 텍스트 데이터를 포함할 경우, 스캔된 텍스트 데이터가 사용자 환경에서 AWS로 전송되기 때문에 GenAI는 이미지에서 PII(개인 식별 정보)를 마스킹할 수 없습니다. 그러나 데이터가 저장되면 모든 PII가 GenAI 데이터베이스에 마스킹됩니다.
-
이미지 파일을 스캔에 포함할지 여부는 기술 자료 채팅 모델과 관련이 있습니다. 스캔에 이미지 파일을 포함할 경우 채팅 모델은 이미지를 지원해야 합니다. 여기에서 이미지 파일 형식을 선택하면 기술 문서를 이미지 파일을 지원하지 않는 채팅 모델로 전환할 수 없습니다. -
파일 수정 시간 필터 * 섹션에서 수정 시간에 따라 파일 포함을 활성화 또는 비활성화하도록 선택합니다. 수정 시간 필터링을 사용하는 경우 목록에서 날짜 범위를 선택합니다.
수정 날짜 범위를 기준으로 파일을 포함하는 경우 날짜 범위가 충족되지 않으면(지정한 날짜 범위 내에서 파일이 수정되지 않음) 파일이 정기 검색에서 제외되고 데이터 원본에 이러한 파일이 포함되지 않습니다.
-
-
선택한 데이터 원본이 SMB 프로토콜을 사용하는 볼륨에 있을 때만 사용할 수 있는 * 권한 인식 * 섹션에서 권한 인식 응답을 활성화하거나 비활성화할 수 있습니다.
-
사용: 이 기술 자료에 액세스하는 챗봇 사용자는 액세스 권한이 있는 데이터 원본에서 쿼리에 대한 응답만 받습니다.
-
* 사용 안 함 * : 챗봇 사용자는 모든 통합 데이터 소스의 콘텐츠를 사용하여 응답을 받습니다.
-
-
이 데이터 소스를 기술 문서에 추가하려면 * 추가 * 를 선택하십시오.
-
파일 시스템 선택: 데이터 소스 파일이 있는 파일 시스템 호스트의 IP 주소 또는 FQDN을 입력하고, 네트워크 공유에 대한 NFS 프로토콜을 선택하고 *다음*을 선택합니다.
-
* 데이터 소스 선택 *: 파일을 저장한 위치를 기준으로 데이터 소스 위치를 선택합니다. 전체 볼륨일 수도 있고 볼륨의 특정 폴더 또는 하위 폴더일 수도 있고 * 다음 * 을 선택합니다.
경우에 따라 NFS 내보내기 이름을 직접 입력하고 *디렉터리 검색*을 선택하여 사용 가능한 디렉터리를 표시해야 할 수도 있습니다. 내보내기 전체 또는 내보내기에서 특정 폴더만 선택할 수 있습니다. -
* 구성 *: 데이터 소스가 파일에서 정보를 수집하는 방법과 검색에 포함할 파일을 구성합니다.
-
* 데이터 소스 정의 *: * 청크 전략 * 섹션에서 데이터 소스가 기술 문서에 통합될 때 GenAI 엔진이 데이터 소스 컨텐츠를 청크로 분할하는 방법을 정의합니다. 다음 전략 중 하나를 선택할 수 있습니다.
-
* 다중 문장 청킹 *: 데이터 소스의 정보를 문장 정의 청크로 정리합니다. 각 청크를 구성하는 문장의 수(최대 100개)를 선택할 수 있습니다.
-
* 오버랩 기반 청크 *: 데이터 소스의 정보를 인접 청크와 겹칠 수 있는 문자 정의 청크로 구성합니다. 각 청크의 크기를 문자 단위로 선택하고 각 청크가 인접한 청크와 겹치는 정도를 선택할 수 있습니다. 청크 크기는 50자에서 3000자 사이이고 겹치는 비율은 1 ~ 99%로 구성할 수 있습니다.
높은 중복 비율을 선택하면 검색 정확도가 약간 개선되어 저장소 요구 사항이 크게 증가할 수 있습니다.
-
-
* 파일 필터링 *: 검색에 포함할 파일을 구성합니다.
-
파일 형식 지원 * 섹션에서 모든 파일 형식을 포함하거나 데이터 원본 검색에 포함할 개별 파일 형식을 선택합니다.
이미지 또는 PDF 파일을 포함하는 경우 GenAI용 BlueXP 워크로드 공장에서 이미지(PDF 문서의 이미지 포함)의 텍스트를 구문 분석하므로 비용이 더 많이 듭니다.
이미지의 텍스트 데이터를 포함할 경우, 스캔된 텍스트 데이터가 사용자 환경에서 AWS로 전송되기 때문에 GenAI는 이미지에서 PII(개인 식별 정보)를 마스킹할 수 없습니다. 그러나 데이터가 저장되면 모든 PII가 GenAI 데이터베이스에 마스킹됩니다.
-
이미지 파일을 스캔에 포함할지 여부는 기술 자료 채팅 모델과 관련이 있습니다. 스캔에 이미지 파일을 포함할 경우 채팅 모델은 이미지를 지원해야 합니다. 여기에서 이미지 파일 형식을 선택하면 기술 문서를 이미지 파일을 지원하지 않는 채팅 모델로 전환할 수 없습니다. -
파일 수정 시간 필터 * 섹션에서 수정 시간에 따라 파일 포함을 활성화 또는 비활성화하도록 선택합니다. 수정 시간 필터링을 사용하는 경우 목록에서 날짜 범위를 선택합니다.
수정 날짜 범위를 기준으로 파일을 포함하는 경우 날짜 범위가 충족되지 않으면(지정한 날짜 범위 내에서 파일이 수정되지 않음) 파일이 정기 검색에서 제외되고 데이터 원본에 이러한 파일이 포함되지 않습니다.
-
-
*데이터 소스 추가*를 선택하여 이 데이터 소스를 지식 기반에 추가하세요.
-
파일 시스템 선택:
-
데이터 소스 파일이 있는 파일 시스템 호스트의 IP 주소나 FQDN을 입력하세요.
-
네트워크 공유에 SMB 프로토콜을 선택합니다.
-
도메인, IP 주소, 사용자 이름, 비밀번호 등 Active Directory 정보를 입력합니다.
-
다음 * 을 선택합니다.
-
-
* 데이터 소스 선택 *: 파일을 저장한 위치를 기준으로 데이터 소스 위치를 선택합니다. 전체 볼륨일 수도 있고 볼륨의 특정 폴더 또는 하위 폴더일 수도 있고 * 다음 * 을 선택합니다.
경우에 따라 SMB 공유 이름을 직접 입력하고 *디렉터리 검색*을 선택하여 사용 가능한 디렉터리를 표시해야 할 수도 있습니다. 전체 공유를 선택하거나 공유에서 특정 폴더만 선택할 수 있습니다. -
* 구성 *: 데이터 소스가 파일에서 정보를 수집하는 방법과 검색에 포함할 파일을 구성합니다.
-
* 데이터 소스 정의 *: * 청크 전략 * 섹션에서 데이터 소스가 기술 문서에 통합될 때 GenAI 엔진이 데이터 소스 컨텐츠를 청크로 분할하는 방법을 정의합니다. 다음 전략 중 하나를 선택할 수 있습니다.
-
* 다중 문장 청킹 *: 데이터 소스의 정보를 문장 정의 청크로 정리합니다. 각 청크를 구성하는 문장의 수(최대 100개)를 선택할 수 있습니다.
-
* 오버랩 기반 청크 *: 데이터 소스의 정보를 인접 청크와 겹칠 수 있는 문자 정의 청크로 구성합니다. 각 청크의 크기를 문자 단위로 선택하고 각 청크가 인접한 청크와 겹치는 정도를 선택할 수 있습니다. 청크 크기는 50자에서 3000자 사이이고 겹치는 비율은 1 ~ 99%로 구성할 수 있습니다.
높은 중복 비율을 선택하면 검색 정확도가 약간 개선되어 저장소 요구 사항이 크게 증가할 수 있습니다.
-
-
권한 인식: 권한 인식 응답을 활성화하거나 비활성화합니다.
-
사용: 이 기술 자료에 액세스하는 챗봇 사용자는 액세스 권한이 있는 데이터 원본에서 쿼리에 대한 응답만 받습니다.
-
* 사용 안 함 * : 챗봇 사용자는 모든 통합 데이터 소스의 콘텐츠를 사용하여 응답을 받습니다.
-
-
* 파일 필터링 *: 검색에 포함할 파일을 구성합니다.
-
파일 형식 지원 * 섹션에서 모든 파일 형식을 포함하거나 데이터 원본 검색에 포함할 개별 파일 형식을 선택합니다.
이미지 또는 PDF 파일을 포함하는 경우 GenAI용 BlueXP 워크로드 공장에서 이미지(PDF 문서의 이미지 포함)의 텍스트를 구문 분석하므로 비용이 더 많이 듭니다.
이미지의 텍스트 데이터를 포함할 경우, 스캔된 텍스트 데이터가 사용자 환경에서 AWS로 전송되기 때문에 GenAI는 이미지에서 PII(개인 식별 정보)를 마스킹할 수 없습니다. 그러나 데이터가 저장되면 모든 PII가 GenAI 데이터베이스에 마스킹됩니다.
-
이미지 파일을 스캔에 포함할지 여부는 기술 자료 채팅 모델과 관련이 있습니다. 스캔에 이미지 파일을 포함할 경우 채팅 모델은 이미지를 지원해야 합니다. 여기에서 이미지 파일 형식을 선택하면 기술 문서를 이미지 파일을 지원하지 않는 채팅 모델로 전환할 수 없습니다. -
파일 수정 시간 필터 * 섹션에서 수정 시간에 따라 파일 포함을 활성화 또는 비활성화하도록 선택합니다. 수정 시간 필터링을 사용하는 경우 목록에서 날짜 범위를 선택합니다.
수정 날짜 범위를 기준으로 파일을 포함하는 경우 날짜 범위가 충족되지 않으면(지정한 날짜 범위 내에서 파일이 수정되지 않음) 파일이 정기 검색에서 제외되고 데이터 원본에 이러한 파일이 포함되지 않습니다.
-
-
*데이터 소스 추가*를 선택하여 이 데이터 소스를 지식 기반에 추가하세요.
데이터 원본이 기술 문서에 포함되기 시작합니다. 데이터 원본이 완전히 포함되면 상태가 "포함"에서 "포함"으로 변경됩니다.
기술 자료에 단일 데이터 소스를 추가한 후 챗봇 시뮬레이터 창에서 로컬로 테스트하고 필요에 따라 변경한 후 사용자가 챗봇을 사용할 수 있도록 할 수 있습니다. 또한 동일한 단계에 따라 기술 문서에 데이터 원본을 추가할 수도 있습니다.