검증 결과
이전 섹션에서 언급한 바와 같이, 두 개 이상의 기계 학습 모델이 순서대로 실행될 때마다 오류가 파이프라인 전체에 전파됩니다. 이 솔루션을 위해, 이 회사의 주식 리스크 수준을 측정하는 데 있어 가장 중요한 요소는 문장의 감정입니다. 파이프라인에 필수적인 스피치-텍스트 모델은 정서를 예측할 수 있는 전처리부 역할을 합니다. 진짜 중요한 것은 근거 있는 진실과 예측된 문장 사이의 감정의 차이이다. 이는 WER(Error Rate)의 프록시 역할을 합니다. 음성-텍스트 정확도는 중요하지만 WER은 최종 파이프라인 메트릭에 직접 사용되지 않습니다.
PIPELINE_SENTIMENT_METRIC = MEAN(DIFF(GT_sentiment, ASR_sentiment))
이러한 정서 메트릭은 각 문장의 F1 점수, 리콜 및 정밀도에 대해 계산할 수 있습니다. 그런 다음 결과를 집계하여 각 메트릭의 신뢰 간격과 함께 혼란 매트릭스 내에 표시할 수 있습니다.
전송 학습 기능을 사용하면 적은 데이터 요구사항, 교육 시간 및 비용으로 모델 성능을 향상할 수 있습니다. 또한 세부 조정된 모델을 기준 버전과 비교하여 전송 학습이 페어링되지 않고 성능을 향상시키도록 해야 합니다. 다시 말해, 세부 조정된 모델은 사전 교육 모델보다 지원 센터 데이터의 성능이 더 우수해야 합니다.
파이프라인 평가
테스트 케이스 | 세부 정보 |
---|---|
테스트 번호 |
파이프라인 정서 지표 |
테스트 필수 구성 요소 |
음성-텍스트 및 정서 분석 모델을 위해 미세 조정된 모델 |
예상 결과 |
미세 조정된 모델의 정서 측정 기준은 원래 사전 교육 모델보다 성능이 뛰어납니다. |
파이프라인 정서 지표
-
기준 모델의 정서 메트릭을 계산합니다.
-
미세 조정된 모델의 정서 메트릭을 계산합니다.
-
이러한 메트릭 간의 차이를 계산합니다.
-
모든 문장에 걸친 평균 차이입니다.