설계 고려 사항
이 섹션에서는 이 솔루션의 다양한 구성 요소에 대한 설계 고려 사항에 대해 설명합니다.
네트워크 및 컴퓨팅 설계
데이터 보안 제한에 따라 모든 데이터는 고객의 인프라 또는 보안 환경 내에 있어야 합니다.
스토리지 설계
NetApp DataOps 툴킷은 스토리지 시스템 관리를 위한 1차 서비스 역할을 합니다. DataOps Toolkit은 개발자, 데이터 과학자, DevOps 엔지니어 및 데이터 엔지니어가 새로운 데이터 볼륨의 거의 즉각적인 프로비저닝 또는 JupyterLab 작업 공간, 데이터 볼륨의 거의 즉각적인 클론 복제 또는 JupyterLab 작업 공간과 같은 다양한 데이터 관리 작업을 간단하게 수행할 수 있는 Python 라이브러리입니다. 추적 기능 또는 베이스라인 기능을 위한 데이터 볼륨 또는 JupyterLab 작업 공간의 거의 즉각적인 스냅샷 기능을 제공합니다. 이 Python 라이브러리는 명령줄 유틸리티 또는 모든 Python 프로그램 또는 Jupyter Notebook로 가져올 수 있는 기능 라이브러리 중 하나로 작동할 수 있습니다.
Riva 모범 사례
NVIDIA는 몇 가지 일반적인 기능을 제공합니다 "모범 데이터 사례" Riva 사용:
-
* 가능한 경우 무손실 오디오 형식을 사용합니다. * MP3와 같은 손실 코덱을 사용하면 품질이 저하될 수 있습니다.
-
* 교육 데이터를 보강합니다. * 오디오 교육 데이터에 배경 잡음을 추가하면 처음에는 정확도가 떨어되지만 견고성이 향상됩니다.
-
* 스크레핑된 텍스트를 사용할 경우 어휘 크기를 제한합니다. * 많은 온라인 출처에는 오타 또는 부수적인 대명사 및 일반적이지 않은 단어가 포함되어 있습니다. 이러한 언어를 제거하면 언어 모델이 개선될 수 있습니다.
-
* 가능한 경우 최소 16kHz의 샘플링 속도를 사용하십시오. * 그러나 리샘플링을 시도하지 마십시오. 리샘플링을 하면 오디오 품질이 저하됩니다.
이러한 모범 사례 외에도 고객은 파이프라인의 각 단계에 대해 정확한 레이블이 있는 대표적인 샘플 데이터 세트를 우선적으로 수집해야 합니다. 즉, 샘플 데이터 세트는 타겟 데이터 세트에 예시된 지정된 특성을 비율에 맞게 반영해야 합니다. 마찬가지로 데이터 세트의 주석 역시 데이터의 품질과 양을 모두 최대화하도록 정확도와 레이블 지정 속도를 조율할 책임이 있습니다. 예를 들어, 이 지원 센터 솔루션에는 오디오 파일, 텍스트 레이블 및 정서 레이블이 필요합니다. 이 솔루션의 순차적 특성은 파이프라인 시작 부분의 오류가 끝까지 전파된다는 것을 의미합니다 오디오 파일의 품질이 좋지 않으면 텍스트 사본과 정서 레이블도 함께 표시됩니다.
이 오류 전파는 이 데이터에 대한 교육을 받은 모델에도 비슷하게 적용됩니다. 감정의 예측이 100% 정확하지만 텍스트 음성 변환 모델이 제대로 작동하지 않는 경우, 최종 파이프라인은 초기 오디오-텍스트 사본으로 제한됩니다. 개발자는 각 모델의 성능을 개별적으로, 대규모 파이프라인의 구성 요소로 고려하는 것이 중요합니다. 이 경우 최종 목표는 감정을 정확하게 예측할 수 있는 파이프라인을 개발하는 것입니다. 따라서 파이프라인을 평가하는 전반적인 지표는 음성-텍스트 전사가 직접적으로 영향을 미치는 정서 정확도입니다.
NetApp DataOps 툴킷은 즉각적인 데이터 클론 복제 기술을 사용하여 데이터 품질 점검 파이프라인을 보완합니다. 레이블이 지정된 각 파일을 평가하고 기존의 레이블 파일과 비교해야 합니다. 이러한 품질 검사를 다양한 데이터 스토리지 시스템에 분산하면 이러한 검사가 빠르고 효율적으로 실행됩니다.