翻訳モデルを評価する
コレクションでコンテンツを整理
必要に応じて、コンテンツの保存と分類を行います。
Gen AI Evaluation Service には、翻訳タスクにつき次の評価指標が用意されています。
MetricX と COMET は、翻訳タスク用にトレーニングされたポイントワイズのモデルベースの指標です。NMT、TranslationLLM、Gemini モデルの出力であるかどうかに関係なく、コンテンツの翻訳モデルの結果の品質と精度を評価できます。
また、Gemini をジャッジモデルとして使用し、MetricX、COMET、BLEU と組み合わせて、モデルの流暢性、一貫性、冗長性、テキスト品質を評価することもできます。
MetricX は Google が開発したエラーベースの指標で、翻訳の品質を表す 0~25 の浮動小数点スコアを予測します。MetricX は、参照ベースと参照なし(QE)の両方のメソッドとして使用できます。この指標を使用する場合、スコアが低いほどエラーが少ないことを意味するため、スコアが低いほど良いスコアとなります。
COMET は、0~1 のスコア(1 は完璧な翻訳)を提供する参照ベースの回帰アプローチを採用しています。
BLEU(Bilingual Evaluation Understudy)は、計算ベースの指標です。BLEU スコアは、候補テキストと参照テキストの類似度を表します。BLEU スコア値が 1 に近いほど、翻訳が参照テキストに近いことを示します。
BLEU スコアは、異なるコーパスや言語間での比較には推奨されません。たとえば、英語からドイツ語への BLEU スコアが 50 の場合に、日本語から英語への BLEU スコアが 50 の場合と比較することはできません。多くの翻訳の専門家は、人間の評価との相関が高く、エラーシナリオをより詳細に特定できるモデルベースの指標アプローチに移行しています。
翻訳モデルの評価を実行する方法については、翻訳モデルを評価するをご覧ください。
特に記載のない限り、このページのコンテンツはクリエイティブ・コモンズの表示 4.0 ライセンスにより使用許諾されます。コードサンプルは Apache 2.0 ライセンスにより使用許諾されます。詳しくは、Google Developers サイトのポリシーをご覧ください。Java は Oracle および関連会社の登録商標です。
最終更新日 2025-07-16 UTC。
[[["わかりやすい","easyToUnderstand","thumb-up"],["問題の解決に役立った","solvedMyProblem","thumb-up"],["その他","otherUp","thumb-up"]],[["わかりにくい","hardToUnderstand","thumb-down"],["情報またはサンプルコードが不正確","incorrectInformationOrSampleCode","thumb-down"],["必要な情報 / サンプルがない","missingTheInformationSamplesINeed","thumb-down"],["翻訳に関する問題","translationIssue","thumb-down"],["その他","otherDown","thumb-down"]],["最終更新日 2025-07-16 UTC。"],[],[]]