Skip to main content
NetApp artificial intelligence solutions
본 한국어 번역은 사용자 편의를 위해 제공되는 기계 번역입니다. 영어 버전과 한국어 버전이 서로 어긋나는 경우에는 언제나 영어 버전이 우선합니다.

예제 워크플로 - Kubeflow와 NetApp DataOps 툴킷을 사용하여 이미지 인식 모델 학습

이 섹션에서는 Kubeflow와 NetApp DataOps Toolkit을 사용하여 이미지 인식을 위한 신경망을 훈련하고 배포하는 데 필요한 단계를 설명합니다. 이는 NetApp 스토리지를 통합한 교육 작업을 보여주는 예시로 사용됩니다.

필수 조건

Kubeflow 파이프라인 내의 학습 및 테스트 단계에 사용할 필수 구성을 포함하는 Dockerfile을 만듭니다. 다음은 Dockerfile의 예입니다.

FROM pytorch/pytorch:latest
RUN pip install torchvision numpy scikit-learn matplotlib tensorboard
WORKDIR /app
COPY . /app
COPY train_mnist.py /app/train_mnist.py
CMD ["python", "train_mnist.py"]

요구 사항에 따라 프로그램을 실행하는 데 필요한 모든 라이브러리와 패키지를 설치하세요. 머신 러닝 모델을 학습하기 전에 이미 작동하는 Kubeflow 배포가 있다고 가정합니다.

PyTorch와 Kubeflow 파이프라인을 사용하여 MNIST 데이터에서 소규모 NN 학습

우리는 MNIST 데이터로 훈련된 작은 신경망의 예를 사용합니다. MNIST 데이터 세트는 0~9까지의 숫자로 쓰인 손으로 쓴 이미지로 구성되어 있습니다. 이미지 크기는 28x28픽셀입니다. 데이터 세트는 60,000개의 훈련 이미지와 10,000개의 검증 이미지로 나뉩니다. 이 실험에 사용된 신경망은 2계층 피드포워드 네트워크입니다. Kubeflow Pipelines를 사용하여 훈련이 실행됩니다. 문서를 참조하세요 "여기" 자세한 내용은. Kubeflow 파이프라인은 필수 구성 요소 섹션의 Docker 이미지를 통합합니다.

Kubeflow 파이프라인 실행 시각화

Tensorboard를 사용하여 결과 시각화

모델이 훈련되면 Tensorboard를 사용하여 결과를 시각화할 수 있습니다. "텐서보드" Kubeflow 대시보드의 기능으로 사용할 수 있습니다. 귀하의 작업에 맞는 사용자 정의 텐서보드를 만들 수 있습니다. 아래 예는 학습 정확도 대 에포크 수, 학습 손실 대 에포크 수의 플롯을 보여줍니다.

훈련 손실 및 정확도를 위한 텐서보드 그래프

Katib을 사용하여 하이퍼파라미터 실험

"카티브"Kubeflow 내의 도구로, 모델 하이퍼파라미터를 실험하는 데 사용할 수 있습니다. 실험을 만들려면 먼저 원하는 지표/목표를 정의하세요. 이는 일반적으로 테스트 정확도입니다. 지표가 정의되면, 조정하고 싶은 하이퍼 매개변수(최적화 도구/학습 속도/계층 수)를 선택합니다. Katib은 사용자 정의 값으로 하이퍼파라미터 스윕을 수행하여 원하는 지표를 만족하는 최적의 매개변수 조합을 찾습니다. UI의 각 섹션에서 이러한 매개변수를 정의할 수 있습니다. 또는 필요한 사양을 담은 YAML 파일을 정의할 수 있습니다. 아래는 Katib 실험의 그림입니다.

하이퍼파라미터가 포함된 Katib 실험 대시보드

성공적인 시험 점검

NetApp 스냅샷을 사용하여 추적을 위한 데이터 저장

모델 학습 중에 추적을 위해 학습 데이터 세트의 스냅샷을 저장하고 싶을 수도 있습니다. 이를 위해 아래와 같이 파이프라인에 스냅샷 단계를 추가할 수 있습니다. 스냅샷을 생성하려면 다음을 사용할 수 있습니다. "Kubernetes용 NetApp DataOps 툴킷" .

Kubeflow에서 스냅샷 파이프라인을 빌드하는 코드

를 참조하세요 "Kubeflow를 위한 NetApp DataOps Toolkit 예제" 자세한 내용은.