AI Data Engine Console에서 데이터 수집 생성
데이터 컬렉션은 AI Data Engine(AIDE)의 핵심 RAG 구성 요소입니다. 데이터 엔지니어 또는 데이터 과학자는 컬렉션에 포함될 파일을 정의하고, 임베딩 및 인덱싱 옵션을 구성하고, 애플리케이션이 검색 엔드포인트를 통해 쿼리할 수 있도록 컬렉션을 게시합니다.
모든 데이터 수집 작업은 AI Data Engine Console에서 수행합니다.
-
AI Data Engine Console에서 data engineer 또는 data scientist 권한이 필요합니다(
https://<cluster_management_ip>/console. -
메타데이터가 추출되어
Ready상태인 워크스페이스에 대한 액세스 권한이 하나 이상 있습니다. -
워크스페이스 메타데이터를 탐색하고 의미 있는 데이터 하위 집합을 정의하는 쿼리 또는 필터를 식별했습니다.
-
AI Data Engine software 라이센스가 설치되어 있고 추론 기능이 활성화되어 있습니다.
워크스페이스 메타데이터에서 데이터 수집 생성
-
*Data Curator > Workspaces*로 이동하여 대상 데이터가 포함된 작업 공간을 선택합니다.
-
*데이터 수집 추가*를 선택합니다.
-
새 데이터 수집 생성 페이지에서 다음을 수행합니다.
-
컬렉션의 이름과 설명을 입력하세요(예:
Support_KB_RAG_EN). -
컬렉션을 다음과 같이 할지 선택하세요:
-
동적: 사용자가 정의한 필터링 기준에 따라 새 파일이 자동으로 식별되어 데이터 수집에 추가됩니다. 이 작업은 작업 공간 새로 고침 중에 수행됩니다.
-
정적: 컬렉션에 포함할 파일을 직접 선택할 수 있습니다. 데이터 수집이
draft상태일 때는 파일을 편집할 수 있습니다. 데이터 수집이Published상태로 전환된 후에는 편집할 수 없습니다.
-
-
-
소스 하위 집합을 지정하십시오.
-
키워드와 필터(파일 유형, 타임스탬프 및 기타 속성)를 사용하여 포함할 관련 파일을 찾으십시오.
파일 이름을 선택하면 해당 파일의 내용을 미리 볼 수 있는 창이 열립니다.
-
-
이 파일을 데이터 수집에 추가합니다.
-
컬렉션을 완료하려면 *저장*을 선택합니다.
데이터 수집 범위를 정의하고 필요한 파일을 추가했습니다. AIDE는 수집을 게시할 때 임베딩을 생성하고 벡터 인덱스를 구축합니다.
|
|
하나의 "모든 것" 컬렉션 대신 사용 사례별 또는 도메인별로 작고 집중된 컬렉션을 만드세요. 이렇게 하면 검색 관련성과 관리 용이성이 향상됩니다. |
데이터 수집 게시
RAG 검색 엔드포인트를 통해 AI 애플리케이션에서 쿼리할 수 있도록 데이터 수집을 게시합니다. 게시하면 선택한 파일에서 벡터 임베딩이 생성되고 의미 검색을 위해 인덱싱됩니다. 컬렉션이 Ready 상태에 도달하면 데이터 과학자는 해당 엔드포인트를 노트북, 파이프라인 및 AI 애플리케이션에 통합하여 검색 증강 생성(RAG) 및 검색을 수행할 수 있습니다.
|
|
대규모 컬렉션의 경우 리소스 경합을 최소화하기 위해 초기 게시 및 주요 재게시를 사용량이 적은 시간대에 예약하는 것을 고려하십시오. |
-
*Data Curator > Data collections*로 이동하여 데이터 수집에 대한 옵션 메뉴(
)를 선택합니다. -
*게시*를 선택합니다.
-
기본 최적화 구성 또는 사용자 지정 최적화 구성을 선택합니다.
-
데이터 변환을 시작하려면 *Publish*를 선택하세요.
-
AIDE Console에서 상태 업데이트를 위해 컬렉션 세부 정보 보기(Data Curator > 데이터 컬렉션)를 엽니다.
수집은 Ready 상태에 도달하여 다운스트림 애플리케이션 및 데이터 과학자가 사용할 수 있습니다.
*Data Curator > 데이터 수집*에서 *URI 복사*를 선택하면 API를 사용하여 데이터 수집에 액세스하는 데 필요한 정보를 얻을 수 있습니다.
데이터 수집 업데이트 또는 삭제
시간이 지남에 따라 데이터 수집을 수정하거나 더 이상 사용하지 않아야 할 수도 있습니다. 수집을 수정하려면 필터를 조정하여 파일을 추가하거나 제거하고, 임베딩 설정을 변경하거나, 수집 설명을 업데이트할 수 있습니다. 수집을 삭제하면 영구적으로 제거되며 해당 검색 엔드포인트를 더 이상 사용할 수 없게 됩니다.
데이터 수집 업데이트
데이터 수집이 draft 상태일 때 업데이트할 수 있습니다.
-
*Data Curator > 데이터 컬렉션*으로 이동합니다.
-
수정할 컬렉션을 선택하세요.
-
*편집*을 선택합니다.
-
다음 중 원하는 것을 조정하십시오.
-
이름 및 설명
-
필터(경로, 파일 유형, 분류 태그).
-
임베딩 및 청킹 설정
-
-
변경 사항을 저장합니다.
-
새로운 정의와 임베딩이 적용되도록 컬렉션을 다시 게시하세요.
새로운 인덱싱 작업이 업데이트된 구성으로 실행되며, 완료되면 컬렉션은 Ready 상태로 돌아갑니다.
컬렉션 삭제
컬렉션 삭제는 영구적입니다. 삭제하기 전에 운영 중인 애플리케이션이 해당 컬렉션의 검색 엔드포인트에 더 이상 의존하지 않는지 확인하십시오.
-
*Data Curator > 데이터 컬렉션*으로 이동한 다음 컬렉션의 옵션 메뉴(
)를 선택합니다. -
*삭제*를 선택합니다.
-
삭제를 확인하세요.
컬렉션 정의 및 해당 임베딩이 AI Data Engine에서 제거됩니다. 컬렉션이 제거된 후 이전 검색 엔드포인트를 쿼리하려는 애플리케이션은 실패합니다.