AI Data Engine에서 데이터 컬렉션 보기
데이터 엔지니어 또는 데이터 과학자가 워크스페이스에서 데이터 컬렉션을 생성하고 게시한 후에는 해당 컬렉션의 상태, 크기 및 AI Data Engine 클러스터에 미치는 영향에 대한 가시성이 필요합니다.
스토리지 관리자, 데이터 엔지니어 또는 데이터 과학자라면 ONTAP System Manager와 AI Data Engine Console에서 데이터 수집을 볼 수 있습니다.
-
데이터 수집을 보려면 ONTAP System Manager에서 스토리지 관리자 권한 또는 AI Data Engine Console (`\https://<cluster_management_ip>/console`에서 data engineer 또는 data scientist 권한이 필요합니다.
-
메타데이터가 성공적으로 추출된 작업 공간이 하나 이상 존재합니다.
-
데이터 엔지니어 또는 데이터 과학자가 AI Data Engine Console에서 하나 이상의 데이터 수집을 생성하고 게시했습니다.
-
AI Data Engine software 라이센스가 설치되고 추론 기능이 활성화되어 벡터화 및 검색 엔드포인트가 활성 상태입니다.
클러스터 전체 데이터 수집 보기
스토리지 관리자의 경우 ONTAP System Manager는 데이터 수집 및 해당 풋프린트에 대한 클러스터 전체 보기를 제공하지만 관리자가 이를 생성하거나 수정할 수는 없습니다.
-
System Manager에서 *Data Engine > 데이터 수집*으로 이동합니다.
-
페이지 상단의 재고 요약을 검토하십시오.
-
상태별 데이터 수집 총 수
-
모든 컬렉션에서 벡터 데이터베이스가 사용하는 총 공간
-
전체 클러스터 용량의 백분율로 표시되는 벡터 공간
-
-
개별 데이터 수집을 선택하고 검토하십시오.
-
컬렉션 이름 및 설명
-
UUID
-
연결된 작업 영역
-
상태
-
컬렉션 크기
-
작성자
-
마지막 새로 고침 시간
-
이제 클러스터의 모든 데이터 수집과 해당 스토리지 영향에 대한 개괄적인 정보를 확인할 수 있습니다. 이 정보를 활용하여 크기가 크거나, 오래된 데이터이거나, 준비되지 않은 상태에 있는 수집을 식별하십시오.
개별 데이터 수집이 활발하게 업데이트되고 있는지, 그리고 오류가 RAG 사용을 차단하고 있는지 여부도 확인할 수 있습니다.
수집 관련 작업 및 이벤트 모니터링
스토리지 관리자는 클러스터 전체의 활동 페이지와 작업 공간 세부 정보에서 컬렉션을 구축하고 업데이트하는 작업을 모니터링할 수 있습니다.
-
System Manager에서 *Data Engine > Activity*로 이동합니다.
-
Events 탭에서:
-
유형(예: workspace, 데이터 수집) 또는 심각도별로 필터링합니다.
-
데이터 수집과 관련된 이벤트(예: "Data collection publish failed")를 펼치면 자세한 내용을 볼 수 있습니다.
-
-
Jobs 탭에서:
-
데이터 수집 인덱싱 및 게시 작업에 초점을 맞추도록 필터링합니다.
-
각 작업에 대해 미리보기를 열어 다음 내용을 확인하세요.
-
진행률.
-
시작 및 종료 시간.
-
보고된 오류 메시지 또는 경고
-
-
-
선택적으로 영향을 받는 작업 공간(Data Engine > Workspaces)으로 돌아가서 Activity 탭을 열어 해당 작업 공간에만 범위가 지정된 이벤트 및 작업을 확인합니다.
데이터 수집의 수명 주기를 추적하고, 중단되거나 실패한 작업을 식별하고, 데이터 엔지니어, 데이터 과학자 또는 지원 담당자에게 전달할 컨텍스트 정보를 수집할 수 있습니다.
|
|
데이터 수집이 장기간 Publishing 상태로 유지될 경우, 오류를 가정하기 전에 활동 페이지에서 해당 장기 실행 작업이 있는지 확인하십시오.
|
AIDE Console에서 데이터 수집 보기
데이터 엔지니어와 데이터 과학자는 일반적으로 데이터 컬렉션이 생성되고 게시되는 AIDE Console에서 직접 데이터 컬렉션을 모니터링합니다.
-
데이터 엔지니어 또는 데이터 과학자로 AI Data Engine Console에 로그인합니다.
-
*Data Collections*로 이동하여 원하는 데이터 수집을 선택합니다.
-
각 컬렉션별로:
-
상태를 확인하세요((
Draft,Publishing,Ready또는Failed). -
데이터 수집 이름을 선택하여 정의 세부 정보(필터, 포함된 파일 유형, 분류자 옵션, 임베딩 설정)를 검토합니다.
-
마지막 게시 또는 업데이트의 타임스탬프를 확인합니다.
-
-
필요한 경우 작업 세부 정보 또는 로그(사용 가능한 경우)를 열어 오류 또는 미완료 실행의 원인을 파악하십시오.
데이터 엔지니어와 데이터 과학자는 스토리지 관리자의 개입 없이 수집 정의를 반복하고 상태 및 상태를 모니터링하면서 다시 게시할 수 있습니다.