検証結果
前のセクションで説明したように、 2 つ以上の機械学習モデルが順番に実行されている場合は常に、エラーがパイプライン全体に伝播されます。この解決策では、企業の株価リスクレベルを測定する上で最も重要な要因は、文章の感情です。音声対テキストモデルは、パイプラインに不可欠ですが、感情を予測する前に前処理単位として機能します。実際に重要なのは、基本的な真実文と予測された文の感情の違いです。これは、ワードエラーレート( WER )のプロキシとして機能します。音声とテキストの正確さは重要ですが、 WER は最終的なパイプラインメトリックでは直接使用されません。
PIPELINE_SENTIMENT_METRIC = MEAN(DIFF(GT_sentiment, ASR_sentiment))
これらの感情指標は、 F1 スコア、リコール、各文章の精度について計算できます。結果は集約され、各メトリックの信頼間隔とともに混乱マトリックス内に表示されます。
転送学習を使用する利点は、データ要件、トレーニング時間、コストの数分の 1 でモデルのパフォーマンスが向上することです。また、微調整されたモデルをベースラインバージョンと比較して、転送学習がインペアリングではなくパフォーマンスを向上させるようにする必要があります。つまり、調整済みモデルの方が、サポートセンターのデータのパフォーマンスが事前トレーニング済みモデルよりも優れているはずです。
パイプラインの評価
テストケース | 詳細 |
---|---|
テスト番号 |
パイプラインのセンチメント指標 |
テストの前提条件 |
音声 / テキストおよび感情分析モデル向けに微調整されたモデル |
予想される結果 |
微調整されたモデルのセンチメント・メトリックは、元の事前トレーニング済みモデルよりも優れています。 |
パイプラインのセンチメント指標
-
ベースラインモデルのセンチメントメトリックを計算します。
-
微調整モデルのセンチメントメトリックを計算します。
-
これらの指標間の差異を計算します。
-
すべての文の違いを平均化します。