Skip to main content
AI Data Engine
본 한국어 번역은 사용자 편의를 위해 제공되는 기계 번역입니다. 영어 버전과 한국어 버전이 서로 어긋나는 경우에는 언제나 영어 버전이 우선합니다.

AI Data Engine 구성 요소 및 역할 기반 상호 작용

기여자 netapp-dbagwell

AI Data Engine(AIDE)은 AI 워크로드를 위한 포괄적인 데이터 관리 및 처리 플랫폼을 제공하기 위해 함께 작동하는 여러 핵심 구성 요소로 이루어져 있습니다. 이러한 구성 요소에는 작업 공간, 데이터 컬렉션, 벡터 데이터베이스, 가드레일, 메타데이터 카탈로그, 검색 엔드포인트 및 분류기가 포함됩니다. 각 구성 요소는 효율적인 데이터 검색, 큐레이션, 거버넌스 및 AI/ML 애플리케이션과의 통합을 가능하게 하는 데 있어 특정 역할을 수행합니다.

각 AIDE 사용자는 자신의 역할에 따라 AIDE 구성 요소와 서로 다른 방식으로 상호 작용합니다.

스토리지 및 데이터 중심 사용자 역할

AIDE는 기존 ONTAP 시스템 관리 역할을 계속 지원하는 동시에 새로운 사용자 역할을 도입합니다.

스토리지 사용자

  • 스토리지 관리자: AFX 및 AIDE 클러스터 설정, 네트워킹, 스토리지 프로비저닝 및 사용자 액세스를 관리합니다.

데이터 사용자

  • 데이터 엔지니어: AI/ML 파이프라인을 구축 및 최적화하고, 데이터 수집을 관리하며, AI 모델을 통합합니다.

  • 데이터 과학자: 데이터 세트를 발굴, 선별 및 분석하고, 데이터 컬렉션을 생성하며, GenAI 애플리케이션을 위한 검색 엔드포인트를 활용합니다.

역할(RBAC 이름) 설명

스토리지 관리자 (admin)

AFX 및 AIDE 클러스터 설정, 네트워킹, 스토리지 프로비저닝 및 사용자 액세스를 관리합니다. 사용자에게 RBAC 역할을 할당하여 AIDE 인터페이스 및 기능에 대한 액세스 수준을 결정합니다. 이 관리자 역할은 ONTAP System Manager 및 AI Data Engine Console을 사용하여 전체 관리 액세스 권한을 갖습니다.

데이터 엔지니어 (data-engineer)

AI/ML 파이프라인을 구축 및 최적화하고, 데이터 수집을 관리하며, AI 모델을 통합합니다. 이 역할은 데이터 엔지니어링 워크플로우를 위해 AI Data Engine Console에 액세스할 수 있습니다.

데이터 과학자 (data-scientist)

GenAI 애플리케이션을 위해 데이터 세트를 검색, 선별 및 분석하고, 데이터 컬렉션을 생성하며, 검색 엔드포인트를 활용합니다. 이 역할은 데이터 과학 워크플로우를 위한 AI Data Engine Console에 액세스할 수 있습니다.

AIDE 시스템 구성 요소

각 AIDE 사용자(스토리지 관리자, 데이터 엔지니어 및 데이터 과학자)는 자신의 역할에 따라 AIDE 구성 요소와 상호 작용합니다.

작업 공간

워크스페이스는 클러스터 내에서 데이터를 논리적으로 분할한 영역으로, 특정 프로젝트, 팀 또는 워크플로에 대한 볼륨을 그룹화합니다. 워크스페이스는 AIDE에서 데이터 가시성, 액세스 및 거버넌스의 범위를 정의합니다.

메타데이터 카탈로그

로컬 클러스터 전체의 모든 파일 및 객체에 대한 메타데이터 레코드를 저장하는 중앙 집중식 확장 가능 데이터베이스로, ONTAP SnapMirror 또는 클러스터 피어링을 사용하여 원격 ONTAP 클러스터에서 동기화된 데이터도 포함합니다. 이를 통해 풍부하고 상호 작용적인 검색 및 필터링 기능을 사용할 수 있습니다.

분류기

분류기는 특정 유형의 민감한 데이터(예: PII, 금융, 의료)를 찾기 위해 파일을 스캔하고 태그를 지정하거나 문서 유형(예: 법률, HR, 영업)별로 문서를 분류하는 도구(기본 제공 또는 사용자 지정)입니다.

데이터 수집

데이터 수집은 사용자가 지정한 쿼리를 기반으로 GenAI 워크플로에서 사용하기 위해 워크스페이스에서 선별된 관련 파일 또는 객체 그룹입니다. 데이터 수집의 파일 콘텐츠는 게시 후 GenAI 애플리케이션용 API를 통해 의미론적 검색에 사용할 수 있습니다.

벡터 데이터베이스

벡터 데이터베이스는 데이터 컬렉션에서 생성된 임베딩을 저장하여 AI 및 GenAI 애플리케이션을 위한 고성능 의미 검색 및 검색을 지원합니다.

가드레일

가드레일은 AI 데이터 라이프사이클 전반에 걸쳐 데이터 거버넌스, 분류 및 보호(예: 편집 또는 액세스 제한)를 시행하는 정책 기반 메커니즘입니다.

검색 엔드포인트(RAG 엔드포인트)

검색 엔드포인트(때때로 검색 증강 생성 또는 "RAG" 엔드포인트라고도 함)는 AI 및 GenAI 애플리케이션이 선별된 컬렉션과 벡터 데이터베이스에서 관련 데이터, 컨텍스트 또는 임베딩에 액세스할 수 있도록 하는 보안 API입니다.

RAG 엔드포인트는 의미 검색 및 생성형 AI 모델의 상황 인식 응답과 같은 고급 AI 워크플로를 지원하도록 설계되었습니다. AI 애플리케이션을 검색 엔드포인트에 연결하면 AIDE에서 관리하는 선별된 AI 지원 데이터 세트에 대한 실시간 액세스를 제공하여 모델 정확도와 관련성을 향상시킬 수 있습니다.