솔루션 개요
이 섹션에서는 ONTAP AI용 실행:AI 솔루션에 대한 솔루션 개요를 제공합니다.
NetApp ONTAP AI 및 AI 제어 플레인
NetApp과 NVIDIA가 개발 및 검증한 NetApp ONTAP AI 아키텍처는 NVIDIA DGX 시스템과 NetApp 클라우드 연결형 스토리지 시스템을 기반으로 합니다. 이 참조 아키텍처는 IT 조직이 다음과 같은 이점을 얻을 수 있도록 해 줍니다.
-
설계 복잡성 제거
-
컴퓨팅과 스토리지의 독립적인 확장 지원
-
고객이 작은 규모로 시작한 후 원활하게 확장할 수 있도록 지원
-
다양한 성능 및 비용 요소에 부합하는 폭넓은 스토리지 옵션을 제공합니다
NetApp ONTAP AI는 DGX 시스템과 NetApp AFF A800 스토리지 시스템을 최첨단 네트워킹과 긴밀하게 통합합니다. NetApp ONTAP AI 및 DGX 시스템은 설계 복잡성과 추측을 제거함으로써 AI 배포를 단순화합니다. 고객은 작은 규모로 시작한 후 에지에서 코어 및 클라우드까지 포괄하여 데이터를 지능적으로 관리하면서 중단 없이 시스템을 확장할 수 있습니다.
NetApp AI Control Plane은 데이터 과학자 및 데이터 엔지니어를 위한 전체 스택 AI, ML 및 딥 러닝(DL) 데이터 및 실험 관리 솔루션입니다. 조직이 AI를 더 많이 사용함에 따라 워크로드 확장성 및 데이터 가용성을 비롯한 여러 과제에 직면하게 됩니다. NetApp AI Control Plane은 Git repo와 마찬가지로 데이터 네임스페이스를 신속하게 클론 복제하여 추적 및 버전 관리를 위한 데이터 및 모델 기준을 거의 즉각적으로 생성하는 AI 교육 워크플로우를 정의 및 구현하는 등의 기능을 통해 이러한 문제를 해결합니다. NetApp AI Control Plane을 사용하면 사이트 및 지역 간에 데이터를 원활하게 복제하고 대규모 데이터 세트에 액세스할 수 있는 Jupyter Notebook 작업 공간을 신속하게 프로비저닝할 수 있습니다.
실행: AI 워크로드 오케스트레이션에 AI 플랫폼 사용
실행: AI는 AI 인프라를 위한 세계 최초의 오케스트레이션 및 가상화 플랫폼을 구축했습니다. 실행: AI는 기본 하드웨어에서 워크로드를 추상화하여 동적으로 프로비저닝할 수 있는 GPU 리소스 공유 풀을 만들어 AI 워크로드를 효율적으로 조정하고 GPU를 최적화된 상태로 사용할 수 있도록 지원합니다. 데이터 과학자는 대용량 GPU 전력을 원활하게 소비하여 연구 결과를 개선하고 가속화하는 동시에, IT 팀이 리소스 프로비저닝, 대기 및 활용률에 대한 중앙 집중식 교차 사이트 제어 및 실시간 가시성을 유지할 수 있습니다. 실행: AI 플랫폼은 Kubernetes를 기반으로 구축되므로 기존 IT 및 데이터 과학 워크플로우와의 간편한 통합이 가능합니다.
Run:AI 플랫폼은 다음과 같은 이점을 제공합니다.
-
* 혁신을 위한 더 빠른 시간. * Run을 사용하면 AI 리소스 풀링, 큐 처리 및 우선순위 지정 메커니즘을 NetApp 스토리지 시스템과 함께 사용하여 연구원들은 인프라 관리 문제와 관련된 문제를 해결할 수 있으며 데이터 과학에만 집중할 수 있습니다. 실행: AI 및 NetApp 고객은 컴퓨팅 또는 데이터 파이프라인 병목 현상 없이 필요한 만큼 워크로드를 실행하여 생산성을 향상할 수 있습니다.
-
* 팀 생산성 향상. * 실행: AI 공정성 알고리즘은 모든 사용자와 팀이 적절한 리소스 공유를 확보할 수 있도록 보장합니다. 우선 순위 프로젝트와 관련된 정책을 미리 설정할 수 있으며, 플랫폼을 통해 사용자 또는 팀 간에 리소스를 동적으로 할당할 수 있으므로 사용자가 원하는 GPU 리소스에 적시에 액세스할 수 있습니다.
-
* GPU 사용률이 개선되었습니다. * 실행: AI 스케줄러를 사용하면 Kubernetes에서 분산된 훈련을 위해 소수점 GPU, 정수 GPU 및 여러 GPU 노드를 쉽게 사용할 수 있습니다. 이런 식으로 AI 워크로드는 용량이 아닌 사용자의 요구사항을 기반으로 실행됩니다. 데이터 과학 팀은 동일한 인프라에서 더 많은 AI 실험을 실행할 수 있습니다.