Skip to main content
NetApp Solutions
본 한국어 번역은 사용자 편의를 위해 제공되는 기계 번역입니다. 영어 버전과 한국어 버전이 서로 어긋나는 경우에는 언제나 영어 버전이 우선합니다.

사용 사례 개요 및 문제 설명

기여자

데이터 세트 및 데이터 세트 버전은 일반적으로 비용을 줄이고 기타 운영 이점을 제공하는 NetApp StorageGRID 오브젝트 기반 스토리지와 같은 데이터 레이크에 있습니다. 데이터 과학자는 이러한 데이터 세트를 가져와 다양한 단계로 엔지니어링하여 특정 모델을 사용하여 교육 준비를 합니다. 종종 여러 버전을 만들어냅니다. 다음 단계로 데이터 과학자는 모델을 실행하기 위해 최적화된 컴퓨팅 리소스(GPU, 하이엔드 CPU 인스턴스, 온프레미스 클러스터 등)를 선택해야 합니다. 다음 그림에서는 ML 컴퓨팅 환경에서 데이터 세트의 근접 위치 부족을 보여 줍니다.

입력/출력 대화 상자 또는 작성된 내용을 표시하는 그림

하지만 다양한 컴퓨팅 환경에서 여러 개의 교육 실험을 병렬로 실행해야 합니다. 각 환경에서는 데이터 레이크에서 데이터 세트를 다운로드해야 하며, 이 프로세스는 비용과 시간이 많이 소요됩니다. 데이터 세트와 컴퓨팅 환경(특히 하이브리드 클라우드의 경우)의 근접성이 보장되지는 않습니다. 또한 동일한 데이터 세트를 사용하여 자체 실험을 수행하는 다른 팀 구성원은 동일한 극한 용도의 프로세스를 거쳐야 합니다. 분명한 느린 데이터 액세스 외에도 데이터 세트 버전 추적, 데이터 세트 공유, 협업 및 재현성의 어려움 등의 문제가 있습니다.

고객 요구 사항

리소스를 효율적으로 사용하면서 고성능 ML 실행을 구현하기 위해 고객 요구사항이 달라질 수 있습니다. 예를 들어, 고객은 다음과 같은 요구사항을 충족해야 할 수 있습니다.

  • 많은 비용이 드는 다운로드 및 데이터 액세스 복잡성을 발생시키지 않으면서 교육 모델을 실행하는 각 컴퓨팅 인스턴스에서 데이터 세트에 빠르게 액세스할 수 있습니다

  • 데이터 세트의 위치에 관계없이 클라우드 또는 온프레미스에서 컴퓨팅 인스턴스(GPU 또는 CPU)를 사용합니다

  • 불필요한 지연 시간 및 데이터 지연 시간 없이 동일한 데이터 세트에서 여러 컴퓨팅 리소스와 동시에 여러 교육 실험을 실행하여 효율성 및 생산성 향상

  • 컴퓨팅 인스턴스 비용 최소화

  • 데이터 세트, 계열, 버전 및 기타 메타데이터 세부 정보를 기록할 수 있는 도구를 통해 재현성이 향상되었습니다

  • 공유 및 협업이 향상되어 권한이 있는 팀원 중 한 명이 데이터 세트에 액세스하여 실험을 실행할 수 있습니다

NetApp ONTAP 데이터 관리 소프트웨어를 사용하여 데이터 세트 캐싱을 구축하려면 다음과 같은 작업을 수행해야 합니다.

  • 컴퓨팅 리소스에 가장 가까운 NFS 스토리지를 구성하고 설정합니다.

  • 캐시할 데이터 세트 및 버전을 결정합니다.

  • 캐시된 데이터 세트에 커밋된 총 메모리 용량과 추가 캐시 커밋에 사용할 수 있는 NFS 스토리지 용량(예: 캐시 관리)을 모니터링합니다.

  • 특정 시간에 사용하지 않은 데이터 세트가 캐시에서 노후화되었습니다. 기본값은 1일입니다. 다른 구성 옵션을 사용할 수 있습니다.