솔루션 개요
이 섹션에서는 기존의 데이터 과학 파이프라인과 그 단점을 검토합니다. 또한, 제안된 데이터 세트 캐싱 솔루션의 아키텍처도 제공합니다.
기존의 데이터 과학 파이프라인 및 결점
ML 모델 개발 및 배포의 일반적인 시퀀스에는 다음을 포함하는 반복 단계가 포함됩니다.
-
데이터 수집 중
-
데이터 사전 처리(여러 버전의 데이터 세트 생성)
-
하이퍼파라미터 최적화, 다른 모델 등과 관련된 여러 실험 실행
-
구축
-
Monitoringcnvrg.io는 연구부터 배포에 이르는 모든 작업을 자동화하는 포괄적인 플랫폼을 개발했습니다. 다음 그림에서는 파이프라인과 관련된 대시보드 스크린샷의 작은 샘플을 보여 줍니다.
퍼블릭 저장소 및 프라이빗 데이터에서 여러 데이터 세트를 재생하는 것이 일반적입니다. 또한 각 데이터 세트에는 데이터 세트 정리 또는 기능 엔지니어링으로 인해 여러 버전이 있을 수 있습니다. 다음 그림과 같이 팀에서 공동 작업 및 일관성 도구를 사용할 수 있도록 데이터 세트 허브와 버전 허브를 제공하는 대시보드가 필요합니다.
파이프라인의 다음 단계에서는 각각 데이터 세트 및 특정 컴퓨팅 인스턴스와 관련된 교육 모델의 여러 병렬 인스턴스가 필요합니다. 특정 컴퓨팅 인스턴스를 사용하여 특정 실험으로 데이터 세트를 바인딩하는 것은 쉽지 않습니다. AWS(Amazon Web Services)의 GPU 인스턴스에서 일부 실험을 수행하는 동시에, DGX-1 또는 DGX-2 온프레미스 인스턴스에서 다른 실험을 수행할 수 있기 때문입니다. GCP의 CPU 서버에서 다른 실험을 실행할 수도 있지만 데이터 세트 위치가 교육을 수행하는 컴퓨팅 리소스 가까이에 있지 않습니다. 데이터 세트 스토리지에서 컴퓨팅 인스턴스까지 지연 시간이 짧은 10GbE 또는 더 많은 연결이 끊어지려면 어느 정도의 근접성이 있어야 합니다.
데이터 과학자는 훈련을 수행하고 실험을 실행하는 컴퓨팅 인스턴스에 데이터 세트를 다운로드하는 것이 일반적입니다. 그러나 이 접근 방식에는 몇 가지 잠재적 문제가 있습니다.
-
데이터 과학자가 데이터 세트를 컴퓨팅 인스턴스로 다운로드할 때 통합 컴퓨팅 스토리지가 고성능을 보장하는 것은 아닙니다(고성능 시스템의 예로는 ONTAP AFF A800 NVMe 솔루션이 있음).
-
다운로드한 데이터 세트가 하나의 컴퓨팅 노드에 상주하면 NetApp ONTAP 고성능 분산 스토리지와 달리 여러 노드에서 분산 모델을 실행하면 스토리지 병목 현상이 발생할 수 있습니다.
-
대기열 충돌 또는 우선순위 때문에 훈련 실험의 다음 반복을 다른 컴퓨팅 인스턴스에서 수행할 수 있으며, 데이터 세트에서 컴퓨팅 위치까지의 거리가 크게 멀어지거나
-
동일한 컴퓨팅 클러스터에서 교육 실험을 실행하는 다른 팀 구성원은 이 데이터 세트를 공유할 수 없으며, 각 팀원이 임의의 위치에서 데이터 세트의 (값비싼) 다운로드를 수행합니다.
-
후속 훈련 작업에 동일한 데이터 세트의 다른 데이터 세트 또는 버전이 필요한 경우 데이터 과학자는 training.NetApp 및 cnvrg.io를 수행하는 컴퓨팅 인스턴스에 데이터 세트의 (값비싼) 다운로드를 다시 수행해야 합니다. 그 결과, 이러한 장애 요소를 제거하는 새로운 데이터 세트 캐싱 솔루션이 만들어졌습니다. 이 솔루션은 ONTAP 고성능 스토리지 시스템에서 핫 데이터 세트를 캐싱하여 ML 파이프라인의 실행을 가속합니다. ONTAP NFS를 사용하면 NetApp에서 제공하는 Data Fabric(예: AFF A800)에서 데이터 세트를 한 번만 캐싱할 수 있으며, 이 데이터는 컴퓨팅과 함께 배치됩니다. NetApp ONTAP NFS 고속 스토리지가 여러 ML 컴퓨팅 노드를 지원할 수 있으므로 교육 모델의 성능이 최적화되어 비용 절감, 생산성 및 운영 효율성이 조직에 제공됩니다.
솔루션 아키텍처
다음 그림과 같이 NetApp 및 cnvrg.io의 이 솔루션은 데이터 세트 캐싱을 제공합니다. 데이터 세트 캐싱을 사용하면 데이터 과학자가 원하는 데이터 세트 또는 데이터 세트 버전을 선택하여 ML 컴퓨팅 클러스터 근처에 있는 ONTAP NFS 캐시로 이동할 수 있습니다. 이제 데이터 과학자는 지연 또는 다운로드를 유발하지 않고 여러 실험을 실행할 수 있습니다. 또한 모든 공동 작업 엔지니어는 데이터 레이크에서 추가로 다운로드할 필요 없이 연결된 컴퓨팅 클러스터(노드를 선택할 수 있는 자유로이)에서 동일한 데이터 세트를 사용할 수 있습니다. 데이터 과학자는 모든 데이터 세트 및 버전을 추적 및 모니터링하고 캐시된 데이터 세트를 확인하는 대시보드를 제공합니다.
cnvrg.io 플랫폼은 특정 시간 동안 사용되지 않은 오래된 데이터 세트를 자동으로 감지하여 캐시에서 데이터를 제거하므로 자주 사용하는 데이터 세트에 대해 사용 가능한 NFS 캐시 공간을 유지합니다. ONTAP의 데이터 세트 캐싱은 클라우드와 사내에서 이루어지므로 최대한의 유연성을 제공하는 것이 중요합니다.