翻訳モデルを評価する

Gen AI Evaluation Service には、翻訳タスクにつき次の評価指標が用意されています。

MetricX と COMET は、翻訳タスク用にトレーニングされたポイントワイズのモデルベースの指標です。NMT、TranslationLLM、Gemini モデルの出力であるかどうかに関係なく、コンテンツの翻訳モデルの結果の品質と精度を評価できます。

また、Gemini をジャッジモデルとして使用し、MetricX、COMET、BLEU と組み合わせて、モデルの流暢性、一貫性、冗長性、テキスト品質を評価することもできます。

  • MetricX は Google が開発したエラーベースの指標で、翻訳の品質を表す 0~25 の浮動小数点スコアを予測します。MetricX は、参照ベースと参照なし(QE)の両方のメソッドとして使用できます。この指標を使用する場合、スコアが低いほどエラーが少ないことを意味するため、スコアが低いほど良いスコアとなります。

  • COMET は、0~1 のスコア(1 は完璧な翻訳)を提供する参照ベースの回帰アプローチを採用しています。

  • BLEU(Bilingual Evaluation Understudy)は、計算ベースの指標です。BLEU スコアは、候補テキストと参照テキストの類似度を表します。BLEU スコア値が 1 に近いほど、翻訳が参照テキストに近いことを示します。

BLEU スコアは、異なるコーパスや言語間での比較には推奨されません。たとえば、英語からドイツ語への BLEU スコアが 50 の場合に、日本語から英語への BLEU スコアが 50 の場合と比較することはできません。多くの翻訳の専門家は、人間の評価との相関が高く、エラーシナリオをより詳細に特定できるモデルベースの指標アプローチに移行しています。

翻訳モデルの評価を実行する方法については、翻訳モデルを評価するをご覧ください。