TR-4904: Azure에서 제공되는 분산 교육 - 클릭 비율 예측
Rick Huang, Verron Martina, Muneer Ahmad, NetApp
데이터 과학자의 작업은 머신 러닝(ML) 및 인공 지능(AI) 모델의 훈련 및 튜닝에 중점을 두어야 합니다. 그러나 구글의 조사에 따르면, 데이터 과학자들은 약 80%의 시간을 들여 모델을 엔터프라이즈 애플리케이션과 연동하고 대규모로 실행하는 방법을 찾아내고 있습니다.
엔드 투 엔드 AI/ML 프로젝트를 관리하려면 엔터프라이즈 구성 요소를 더 잘 이해해야 합니다. DevOps가 정의, 통합 및 구축을 인수했지만, 이러한 유형의 구성요소는 AI/ML 프로젝트를 포함하는 유사한 흐름을 타겟으로 합니다. 엔터프라이즈에서 엔드 투 엔드 AI/ML 파이프라인이 어떤 영향을 받는지 알아보려면 다음 필수 구성요소 목록을 참조하십시오.
-
스토리지
-
네트워킹
-
데이터베이스를 지원합니다
-
파일 시스템
-
컨테이너
-
CI/CD(Continuous Integration and Continuous Deployment) 파이프라인
-
IDE(통합 개발 환경)
-
보안
-
데이터 액세스 정책
-
하드웨어
-
클라우드
-
포함되었습니다
-
데이터 과학 도구 세트 및 라이브러리
대상
데이터 과학의 세계는 IT와 비즈니스의 여러 분야를 아우릅니다.
-
데이터 과학자는 자신이 선택한 도구와 라이브러리를 사용할 수 있는 유연성이 필요합니다.
-
데이터 엔지니어는 데이터 흐름과 데이터 위치를 알아야 합니다.
-
DevOps 엔지니어는 새로운 AI/ML 애플리케이션을 CI/CD 파이프라인에 통합하는 툴을 필요로 합니다.
-
클라우드 관리자와 설계자는 Azure 리소스를 설정하고 관리할 수 있어야 합니다.
-
비즈니스 사용자는 AI/ML 애플리케이션에 액세스할 수 있기를 원합니다.
이 기술 보고서에서는 Azure NetApp Files, RAPIDS AI, DASK, Azure가 이러한 각 역할이 비즈니스에 어떤 가치를 제공하는지 설명합니다.
솔루션 개요
이 솔루션은 AI/ML 애플리케이션의 라이프사이클 뒤에 있습니다. 먼저 데이터 과학자의 작업을 통해 데이터를 준비하고 모델을 교육하는 데 필요한 다양한 단계를 정의합니다. DASK에서 RAPIDS를 활용하여 Azure Kubernetes Service(AKS) 클러스터 전반에 걸쳐 분산 교육을 수행하여 기존 Python 좌식 키트 학습 접근법과 비교하여 교육 시간을 크게 줄였습니다. 전체 주기를 완료하기 위해 Azure NetApp Files과 파이프라인을 통합합니다.
Azure NetApp Files는 다양한 성능 계층을 제공합니다. 고객은 표준 계층으로 시작하여 데이터를 이동하지 않고도 고성능 계층으로 스케일아웃 및 스케일업할 수 있습니다. 이 기능을 통해 데이터 과학자는 성능 문제 없이 규모에 맞게 모델을 교육할 수 있으므로 아래 그림과 같이 클러스터 전체에서 데이터 사일로를 피할 수 있습니다.