AI Data Engine에 대해 알아보십시오
NetApp AI Data Engine(AIDE)은 AI 기반 데이터 처리, 관리 및 거버넌스를 가속화하고 간소화하도록 설계된 엔터프라이즈급 플랫폼입니다. AIDE는 대량의 비정형 데이터를 AI에 바로 활용 가능한 정형 데이터 세트로 변환하는 데 도움을 줄 수 있습니다. 최신 머신러닝(ML) 및 생성형 AI(GenAI) 워크로드의 요구 사항을 충족하도록 설계되었으며, 기존 IT 운영과 새로운 AI 중심 역할을 모두 지원합니다.
AIDE는 AI 관련 과제를 해결합니다
AIDE는 조직이 AI 워크로드에 필요한 데이터를 관리할 수 있도록 설계되었으며 다음과 같은 주요 기능을 제공합니다.
-
중앙 집중식 메타데이터 관리: AIDE는 ONTAP 볼륨에서 메타데이터를 수집하고 카탈로그화하여 데이터 세트를 검색, 분류하고 거버넌스 정책을 적용할 수 있도록 합니다.
-
자동화된 데이터 처리: AIDE는 AI 및 ML 워크로드용 데이터 파이프라인 생성을 지원하며, 적절한 라이선스가 있는 경우 의미 검색을 위한 벡터 임베딩 생성 기능도 포함합니다.
-
데이터 격리 및 액세스 제어: AIDE는 여러 팀 또는 프로젝트에 대한 액세스 제어 및 기본 데이터 격리를 시행합니다.
-
NetApp 도구와의 통합: AIDE는 스토리지 관리를 위해 ONTAP System Manager와 함께 작동하며 데이터 엔지니어와 과학자가 데이터 수집 및 워크플로우를 관리할 수 있도록 전용 인터페이스(AI Data Engine Console)를 제공합니다.
고수준 설계 특성
다음과 같은 설계 특징은 AI Data Engine이 AI 워크로드의 요구 사항을 충족하도록 구축된 방식을 정의합니다.
-
마이크로서비스 기반 서비스: Kubernetes를 사용하여 메타데이터 카탈로그 작성, 벡터 검색 및 인프라 관리를 위한 모듈식의 복원력 있는 서비스를 오케스트레이션합니다.
-
엔터프라이즈급 보안: 모든 데이터 및 메타데이터에 대해 암호화, 역할 기반 액세스 제어(RBAC) 및 감사를 구현합니다.
-
다중 프로토콜 데이터 액세스: 유연한 데이터 수집 및 검색을 위해 NFS 및 SMB를 지원합니다.
-
자동화된 데이터 파이프라인: 데이터 변경 사항을 추적하고, 임베딩을 생성하며, AI 애플리케이션을 위한 벡터 데이터베이스를 관리합니다.
AIDE를 통한 데이터 흐름
AIDE를 통해 데이터가 어떻게 흐르는지 이해하면 AI/ML 팀에게 플랫폼이 얼마나 유용한지 알 수 있습니다.
-
데이터 수집: 파일은 표준 프로토콜(NFS 및 SMB)을 사용하여 ONTAP 볼륨에 저장됩니다. 데이터는 로컬 AIDE 스토리지(AIDE 배포 내의 AFX 클러스터) 또는 원격 ONTAP 클러스터에 저장될 수 있습니다. 원격 클러스터의 데이터는 ONTAP SnapMirror를 사용하여 로컬 AFX 클러스터에 동기화되므로 AIDE에서 처리하는 모든 데이터는 최종적으로 로컬에 저장되고 액세스됩니다.
|
|
S3 버킷은 워크스페이스 또는 데이터 수집의 데이터 소스로 지원되지 않습니다. |
-
워크스페이스 생성: 스토리지 관리자는 ONTAP System Manager에서 워크스페이스를 정의하여 특정 프로젝트, 팀 또는 워크플로에 따라 관련 ONTAP 볼륨을 그룹화합니다. 액세스 권한 및 거버넌스 정책은 워크스페이스 수준에서 할당됩니다.
-
메타데이터 추출: AIDE는 작업 공간의 파일과 개체를 자동으로 스캔하여 메타데이터(파일 유형, 크기, 타임스탬프, 사용자 지정 속성)를 추출하고 중앙 집중식 카탈로그에 저장합니다. 데이터가 변경될 때마다 이 작업이 지속적으로 수행됩니다.
-
분류 및 거버넌스: 분류자는 민감한 정보(PII, 금융 데이터) 또는 문서 유형(법률, HR)에 대한 데이터를 스캔합니다. Data Guardrails 정책은 자동으로 삭제 또는 액세스 제한을 시행합니다.
-
데이터 수집 생성: 데이터 엔지니어와 데이터 과학자는 AI Data Engine Console을 사용하여 메타데이터 카탈로그를 쿼리하고, 결과를 필터링하고, 특정 AI 작업을 위한 선별된 데이터 수집을 구성합니다.
-
벡터화: 의미 검색이 필요한 컬렉션의 경우, AIDE는 선택된 AI 모델을 사용하여 임베딩을 생성합니다. 벡터는 고성능 검색을 위해 벡터 데이터베이스에 저장됩니다.
-
AI/ML 소비: 애플리케이션은 여러 경로를 통해 데이터에 액세스합니다.
-
NFS 또는 SMB를 사용한 직접 파일/오브젝트 액세스
-
벡터 데이터베이스에 대한 의미 검색 쿼리
-
데이터 검색과 GenAI 모델 통합을 결합한 RAG 엔드포인트
-
프로그래밍 방식 워크플로우를 위한 REST API 액세스
-
이 자동화된 정책 기반 워크플로는 AI용 데이터 준비에 필요한 시간과 수작업을 줄여주므로, 팀은 데이터 랭글링보다는 모델 개발과 인사이트에 집중할 수 있습니다.