Skip to main content
AI Data Engine
본 한국어 번역은 사용자 편의를 위해 제공되는 기계 번역입니다. 영어 버전과 한국어 버전이 서로 어긋나는 경우에는 언제나 영어 버전이 우선합니다.

AI Data Engine 데이터 엔지니어와 데이터 과학자가 AIDE 구성 요소를 활용하는 방법을 알아보세요.

기여자 netapp-dbagwell

데이터 엔지니어 또는 데이터 과학자는 AI Data Engine Console을 사용하여 액세스 권한이 부여된 작업 공간을 탐색하고, 데이터 컬렉션을 생성 및 관리하고, 의미론적 검색을 수행하고, 검색 엔드포인트를 AI/ML 워크플로에 통합할 수 있습니다.

데이터 엔지니어는 컬렉션 구축, 임베딩 파이프라인 구성, 게시된 컬렉션에 액세스할 수 있는 사용자 제어 등을 통해 원시 데이터를 AI 지원 데이터 세트로 변환하는 데 집중합니다. 데이터 과학자는 액세스 제어나 인프라를 관리하지 않고 분석, 모델 교육 및 GenAI 애플리케이션을 위해 큐레이팅된 데이터 세트를 활용하는 데 집중합니다.

데이터 사용자 구성 요소 액세스

구성 요소 액세스 수준 데이터 엔지니어 워크플로우 데이터 과학자 워크플로우

AI Data Engine Console

관리(생성, 편집, 삭제)

AI Data Engine Console은 사용자가 액세스 권한을 가진 워크스페이스에 대해 데이터 검색, 컬렉션 관리, 파이프라인 구성, RAG 또는 검색 엔드포인트 게시 등 일상적인 작업을 위한 기본 인터페이스입니다.

AI Data Engine Console은 액세스 가능한 작업 공간 내에서 데이터 탐색, 컬렉션 정제 및 버전 관리, 그리고 선별된 데이터 세트와 검색 엔드포인트를 분석, 모델링 및 GenAI 워크플로에 연결하는 데 사용되는 기본 인터페이스입니다.

ONTAP REST API

관리(생성, 편집, 삭제)

REST API를 사용하여 수집 라이프사이클 작업을 자동화하고, 임베딩 파이프라인을 트리거 및 모니터링하고, 데이터 워크플로를 외부 도구와 프로그래밍 방식으로 통합할 수 있습니다.

REST API를 사용하여 프로그래밍 방식으로 데이터 컬렉션에 액세스하고, 벡터 검색 쿼리를 실행하고, 검색 엔드포인트를 AI/ML 애플리케이션 및 에이전트 프레임워크에 통합할 수 있습니다.

작업 공간

보기/사용(읽기 전용)

컬렉션을 구축하기 전에 할당된 작업 공간을 탐색하여 사용 가능한 데이터 소스를 식별하고 이해합니다.

할당된 작업 공간을 검색하여 특정 연구 또는 모델링 작업과 관련된 파일 및 객체를 찾습니다.

데이터 수집

관리(생성, 편집, 삭제)

태그, 분류 및 기타 속성을 사용하여 소스 데이터를 선택하고 필터링함으로써 데이터 컬렉션을 구축하고, 생성 및 버전 관리부터 AI 사용을 위한 RAG 엔드포인트로 게시하는 것까지 전체 컬렉션 수명 주기를 관리합니다. 또한 각 컬렉션에 액세스할 수 있는 데이터 과학자 및 기타 사용자를 관리합니다.

접근 권한이 부여된 작업 공간 내에서 데이터 컬렉션을 생성, 선택, 주석 달기, 버전 관리 및 개선할 수 있습니다. 이러한 컬렉션은 의미 검색 및 GenAI 워크플로의 기반으로 사용됩니다.

메타데이터 카탈로그

쿼리/사용(워크플로우에 사용)

메타데이터 카탈로그를 사용하여 수집할 데이터 소스를 평가하고 선택하고, 쿼리를 실행하여 관련 파일을 찾고 할당된 작업 공간 내에서 구축 중인 컬렉션의 요구 사항을 충족하는지 확인합니다.

데이터 엔지니어가 구축하고 유지 관리하는 카탈로그 구조를 활용하여 액세스 가능한 작업 공간 전체에서 메타데이터를 검색하고 필터링하여 분석 또는 모델 학습에 필요한 파일과 객체를 찾습니다.

벡터 데이터베이스

  • 임베딩/검색 관리(데이터 엔지니어)

  • 사용/검색(데이터 과학자)

임베딩 파이프라인을 트리거하고, 벡터화 상태를 모니터링하고, 청킹 및 임베딩 매개변수를 구성하고, 벡터 검색을 기반으로 하는 검색 엔드포인트를 노출합니다. 그런 다음 애플리케이션과 에이전트는 의미 체계 검색 및 RAG 워크플로를 위해 API를 통해 이러한 엔드포인트를 쿼리합니다.

데이터 엔지니어가 관리하는 파이프라인에서 생성된 임베딩에 대해 의미 체계 검색 쿼리를 실행하고 검색 결과를 GenAI 또는 RAG 워크플로에 통합하여 컨텍스트 인식 모델 응답을 생성합니다. 청킹, 임베딩 또는 파이프라인 매개변수는 구성하지 않습니다.

분류기

사용(분류된 데이터 소비)

데이터 수집 준비 단계에서 분류 결과를 사용하여 소스 데이터에 주석을 달고 태그를 지정함으로써 파이프라인에 입력되는 콘텐츠가 다운스트림 AI 워크플로에 맞게 올바르게 레이블링되도록 합니다.

사전 분류된 데이터를 활용하여 분석 및 모델링에 규정을 준수하고 관련성 있는 콘텐츠만 사용되도록 합니다.