Skip to main content
AI Data Engine
본 한국어 번역은 사용자 편의를 위해 제공되는 기계 번역입니다. 영어 버전과 한국어 버전이 서로 어긋나는 경우에는 언제나 영어 버전이 우선합니다.

AI Data Engine에서 데이터 컬렉션 보기

기여자 netapp-dbagwell

데이터 엔지니어 또는 데이터 과학자가 워크스페이스에서 데이터 컬렉션을 생성하고 게시한 후에는 해당 컬렉션의 상태, 크기 및 AI Data Engine 클러스터에 미치는 영향에 대한 가시성이 필요합니다.

스토리지 관리자, 데이터 엔지니어 또는 데이터 과학자라면 ONTAP System Manager와 AI Data Engine Console에서 데이터 수집을 볼 수 있습니다.

시작하기 전에
  • 데이터 수집을 보려면 ONTAP System Manager에서 스토리지 관리자 권한 또는 AI Data Engine Console (`\https://<cluster_management_ip>/console`에서 data engineer 또는 data scientist 권한이 필요합니다.

  • 메타데이터가 성공적으로 추출된 작업 공간이 하나 이상 존재합니다.

  • 데이터 엔지니어 또는 데이터 과학자가 AI Data Engine Console에서 하나 이상의 데이터 수집을 생성하고 게시했습니다.

  • AI Data Engine software 라이센스가 설치되고 추론 기능이 활성화되어 벡터화 및 검색 엔드포인트가 활성 상태입니다.

클러스터 전체 데이터 수집 보기

스토리지 관리자의 경우 ONTAP System Manager는 데이터 수집 및 해당 풋프린트에 대한 클러스터 전체 보기를 제공하지만 관리자가 이를 생성하거나 수정할 수는 없습니다.

단계
  1. System Manager에서 *Data Engine > 데이터 수집*으로 이동합니다.

  2. 페이지 상단의 재고 요약을 검토하십시오.

    • 상태별 데이터 수집 총 수

    • 모든 컬렉션에서 벡터 데이터베이스가 사용하는 총 공간

    • 전체 클러스터 용량의 백분율로 표시되는 벡터 공간

  3. 개별 데이터 수집을 선택하고 검토하십시오.

    • 컬렉션 이름 및 설명

    • UUID

    • 연결된 작업 영역

    • 상태

    • 컬렉션 크기

    • 작성자

    • 마지막 새로 고침 시간

결과

이제 클러스터의 모든 데이터 수집과 해당 스토리지 영향에 대한 개괄적인 정보를 확인할 수 있습니다. 이 정보를 활용하여 크기가 크거나, 오래된 데이터이거나, 준비되지 않은 상태에 있는 수집을 식별하십시오.

개별 데이터 수집이 활발하게 업데이트되고 있는지, 그리고 오류가 RAG 사용을 차단하고 있는지 여부도 확인할 수 있습니다.

수집 관련 작업 및 이벤트 모니터링

스토리지 관리자는 클러스터 전체의 활동 페이지와 작업 공간 세부 정보에서 컬렉션을 구축하고 업데이트하는 작업을 모니터링할 수 있습니다.

단계
  1. System Manager에서 *Data Engine > Activity*로 이동합니다.

  2. Events 탭에서:

    1. 유형(예: workspace, 데이터 수집) 또는 심각도별로 필터링합니다.

    2. 데이터 수집과 관련된 이벤트(예: "Data collection publish failed")를 펼치면 자세한 내용을 볼 수 있습니다.

  3. Jobs 탭에서:

    1. 데이터 수집 인덱싱 및 게시 작업에 초점을 맞추도록 필터링합니다.

    2. 각 작업에 대해 미리보기를 열어 다음 내용을 확인하세요.

      • 진행률.

      • 시작 및 종료 시간.

      • 보고된 오류 메시지 또는 경고

  4. 선택적으로 영향을 받는 작업 공간(Data Engine > Workspaces)으로 돌아가서 Activity 탭을 열어 해당 작업 공간에만 범위가 지정된 이벤트 및 작업을 확인합니다.

결과

데이터 수집의 수명 주기를 추적하고, 중단되거나 실패한 작업을 식별하고, 데이터 엔지니어, 데이터 과학자 또는 지원 담당자에게 전달할 컨텍스트 정보를 수집할 수 있습니다.

팁 데이터 수집이 장기간 Publishing 상태로 유지될 경우, 오류를 가정하기 전에 활동 페이지에서 해당 장기 실행 작업이 있는지 확인하십시오.

AIDE Console에서 데이터 수집 보기

데이터 엔지니어와 데이터 과학자는 일반적으로 데이터 컬렉션이 생성되고 게시되는 AIDE Console에서 직접 데이터 컬렉션을 모니터링합니다.

단계
  1. 데이터 엔지니어 또는 데이터 과학자로 AI Data Engine Console에 로그인합니다.

  2. *Data Collections*로 이동하여 원하는 데이터 수집을 선택합니다.

  3. 각 컬렉션별로:

    1. 상태를 확인하세요((Draft, Publishing, Ready 또는 Failed).

    2. 데이터 수집 이름을 선택하여 정의 세부 정보(필터, 포함된 파일 유형, 분류자 옵션, 임베딩 설정)를 검토합니다.

    3. 마지막 게시 또는 업데이트의 타임스탬프를 확인합니다.

  4. 필요한 경우 작업 세부 정보 또는 로그(사용 가능한 경우)를 열어 오류 또는 미완료 실행의 원인을 파악하십시오.

결과

데이터 엔지니어와 데이터 과학자는 스토리지 관리자의 개입 없이 수집 정의를 반복하고 상태 및 상태를 모니터링하면서 다시 게시할 수 있습니다.