Skip to main content
AI Data Engine
본 한국어 번역은 사용자 편의를 위해 제공되는 기계 번역입니다. 영어 버전과 한국어 버전이 서로 어긋나는 경우에는 언제나 영어 버전이 우선합니다.

AI Data Engine에 대해 알아보십시오

기여자 netapp-dbagwell

NetApp AI Data Engine(AIDE)은 AI 기반 데이터 처리, 관리 및 거버넌스를 가속화하고 간소화하도록 설계된 엔터프라이즈급 플랫폼입니다. AIDE는 대량의 비정형 데이터를 AI에 바로 활용 가능한 정형 데이터 세트로 변환하는 데 도움을 줄 수 있습니다. 최신 머신러닝(ML) 및 생성형 AI(GenAI) 워크로드의 요구 사항을 충족하도록 설계되었으며, 기존 IT 운영과 새로운 AI 중심 역할을 모두 지원합니다.

AIDE는 AI 관련 과제를 해결합니다

AIDE는 조직이 AI 워크로드에 필요한 데이터를 관리할 수 있도록 설계되었으며 다음과 같은 주요 기능을 제공합니다.

  • 중앙 집중식 메타데이터 관리: AIDE는 ONTAP 볼륨에서 메타데이터를 수집하고 카탈로그화하여 데이터 세트를 검색, 분류하고 거버넌스 정책을 적용할 수 있도록 합니다.

  • 자동화된 데이터 처리: AIDE는 AI 및 ML 워크로드용 데이터 파이프라인 생성을 지원하며, 적절한 라이선스가 있는 경우 의미 검색을 위한 벡터 임베딩 생성 기능도 포함합니다.

  • 데이터 격리 및 액세스 제어: AIDE는 여러 팀 또는 프로젝트에 대한 액세스 제어 및 기본 데이터 격리를 시행합니다.

  • NetApp 도구와의 통합: AIDE는 스토리지 관리를 위해 ONTAP System Manager와 함께 작동하며 데이터 엔지니어와 과학자가 데이터 수집 및 워크플로우를 관리할 수 있도록 전용 인터페이스(AI Data Engine Console)를 제공합니다.

고수준 설계 특성

다음과 같은 설계 특징은 AI Data Engine이 AI 워크로드의 요구 사항을 충족하도록 구축된 방식을 정의합니다.

  • 마이크로서비스 기반 서비스: Kubernetes를 사용하여 메타데이터 카탈로그 작성, 벡터 검색 및 인프라 관리를 위한 모듈식의 복원력 있는 서비스를 오케스트레이션합니다.

  • 엔터프라이즈급 보안: 모든 데이터 및 메타데이터에 대해 암호화, 역할 기반 액세스 제어(RBAC) 및 감사를 구현합니다.

  • 다중 프로토콜 데이터 액세스: 유연한 데이터 수집 및 검색을 위해 NFS 및 SMB를 지원합니다.

  • 자동화된 데이터 파이프라인: 데이터 변경 사항을 추적하고, 임베딩을 생성하며, AI 애플리케이션을 위한 벡터 데이터베이스를 관리합니다.

AIDE를 통한 데이터 흐름

AIDE를 통해 데이터가 어떻게 흐르는지 이해하면 AI/ML 팀에게 플랫폼이 얼마나 유용한지 알 수 있습니다.

  1. 데이터 수집: 파일은 표준 프로토콜(NFS 및 SMB)을 사용하여 ONTAP 볼륨에 저장됩니다. 데이터는 로컬 AIDE 스토리지(AIDE 배포 내의 AFX 클러스터) 또는 원격 ONTAP 클러스터에 저장될 수 있습니다. 원격 클러스터의 데이터는 ONTAP SnapMirror를 사용하여 로컬 AFX 클러스터에 동기화되므로 AIDE에서 처리하는 모든 데이터는 최종적으로 로컬에 저장되고 액세스됩니다.

참고 S3 버킷은 워크스페이스 또는 데이터 수집의 데이터 소스로 지원되지 않습니다.
  1. 워크스페이스 생성: 스토리지 관리자는 ONTAP System Manager에서 워크스페이스를 정의하여 특정 프로젝트, 팀 또는 워크플로에 따라 관련 ONTAP 볼륨을 그룹화합니다. 액세스 권한 및 거버넌스 정책은 워크스페이스 수준에서 할당됩니다.

  2. 메타데이터 추출: AIDE는 작업 공간의 파일과 개체를 자동으로 스캔하여 메타데이터(파일 유형, 크기, 타임스탬프, 사용자 지정 속성)를 추출하고 중앙 집중식 카탈로그에 저장합니다. 데이터가 변경될 때마다 이 작업이 지속적으로 수행됩니다.

  3. 분류 및 거버넌스: 분류자는 민감한 정보(PII, 금융 데이터) 또는 문서 유형(법률, HR)에 대한 데이터를 스캔합니다. Data Guardrails 정책은 자동으로 삭제 또는 액세스 제한을 시행합니다.

  4. 데이터 수집 생성: 데이터 엔지니어와 데이터 과학자는 AI Data Engine Console을 사용하여 메타데이터 카탈로그를 쿼리하고, 결과를 필터링하고, 특정 AI 작업을 위한 선별된 데이터 수집을 구성합니다.

  5. 벡터화: 의미 검색이 필요한 컬렉션의 경우, AIDE는 선택된 AI 모델을 사용하여 임베딩을 생성합니다. 벡터는 고성능 검색을 위해 벡터 데이터베이스에 저장됩니다.

  6. AI/ML 소비: 애플리케이션은 여러 경로를 통해 데이터에 액세스합니다.

    • NFS 또는 SMB를 사용한 직접 파일/오브젝트 액세스

    • 벡터 데이터베이스에 대한 의미 검색 쿼리

    • 데이터 검색과 GenAI 모델 통합을 결합한 RAG 엔드포인트

    • 프로그래밍 방식 워크플로우를 위한 REST API 액세스

이 자동화된 정책 기반 워크플로는 AI용 데이터 준비에 필요한 시간과 수작업을 줄여주므로, 팀은 데이터 랭글링보다는 모델 개발과 인사이트에 집중할 수 있습니다.