NetApp 사용한 오픈 소스 MLOps
Mike Oglesby, NetApp Sufian Ahmad, NetApp Rick Huang, NetApp Mohan Acharya, NetApp
다양한 산업 분야의 모든 규모의 회사와 조직은 실제 문제를 해결하고, 혁신적인 제품과 서비스를 제공하며, 점점 경쟁이 치열해지는 시장에서 우위를 점하기 위해 인공지능(AI)에 눈을 돌리고 있습니다. 많은 조직이 업계의 빠른 혁신 속도에 발맞추기 위해 오픈소스 MLOps 도구를 선택하고 있습니다. 이러한 오픈소스 도구는 고급 기능과 최첨단 기능을 제공하지만, 데이터 가용성과 데이터 보안을 고려하지 않는 경우가 많습니다. 안타깝게도 이는 고도로 숙련된 데이터 과학자들이 데이터에 액세스하거나 기본적인 데이터 관련 작업이 완료될 때까지 기다리는 데 상당한 시간을 소비해야 한다는 것을 의미합니다. 인기 있는 오픈소스 MLOps 도구를 NetApp 의 지능형 데이터 인프라와 결합하면 조직은 데이터 파이프라인을 가속화할 수 있으며, 이를 통해 AI 이니셔티브도 가속화됩니다. 데이터가 보호되고 보안되는 것을 보장하는 동시에 데이터에서 가치를 창출할 수 있습니다. 이 솔루션은 이러한 과제를 해결하기 위해 NetApp 데이터 관리 기능과 여러 가지 인기 있는 오픈 소스 도구 및 프레임워크를 결합하는 방법을 보여줍니다.
다음 목록은 이 솔루션을 통해 구현되는 몇 가지 주요 기능을 강조합니다.
-
사용자는 고성능, 확장형 NetApp 스토리지를 기반으로 새로운 대용량 데이터 볼륨과 개발 작업 공간을 빠르게 프로비저닝할 수 있습니다.
-
사용자는 대용량 데이터 볼륨과 개발 작업 공간을 거의 즉각적으로 복제하여 실험이나 빠른 반복을 수행할 수 있습니다.
-
사용자는 대용량 데이터 볼륨과 개발 작업 공간의 스냅샷을 거의 즉시 저장하여 백업 및/또는 추적/기준 설정을 수행할 수 있습니다.
일반적인 MLOps 워크플로는 일반적으로 다음과 같은 형태를 갖는 개발 작업 공간을 통합합니다."주피터 노트북" ; 실험 추적; 자동화된 교육 파이프라인; 데이터 파이프라인; 추론/배포. 이 솔루션은 워크플로의 다양한 측면을 해결하기 위해 독립적으로 또는 함께 사용할 수 있는 여러 가지 도구와 프레임워크를 강조합니다. 또한 NetApp 데이터 관리 기능과 각 도구의 페어링을 보여드립니다. 이 솔루션은 조직이 자사의 사용 사례와 요구 사항에 맞춰 맞춤형 MLOps 워크플로를 구성할 수 있는 기본 요소를 제공하기 위해 고안되었습니다.
이 솔루션에는 다음과 같은 도구/프레임워크가 포함되어 있습니다.
다음 목록은 이러한 도구를 독립적으로 또는 결합하여 배포하는 일반적인 패턴을 설명합니다.
-
JupyterHub, MLflow 및 Apache Airflow를 함께 배포 - JupyterHub"주피터 노트북" 실험 추적을 위한 MLflow, 자동화된 학습 및 데이터 파이프라인을 위한 Apache Airflow.
-
Kubeflow와 Apache Airflow를 함께 배포 - Kubeflow for"주피터 노트북" , 실험 추적, 자동화된 교육 파이프라인 및 추론, 데이터 파이프라인을 위한 Apache Airflow.
-
Kubeflow를 올인원 MLOps 플랫폼 솔루션으로 배포"주피터 노트북" , 실험 추적, 자동화된 학습 및 데이터 파이프라인, 추론.