评估翻译模型

Gen AI Evaluation Service 提供以下翻译任务评估指标:

MetricX 和 COMET 是基于模型的逐点指标,已针对翻译任务进行训练。您可以评估翻译模型对您内容的翻译结果的质量和准确性,无论这些结果是 NMT、TranslationLLM 还是 Gemini 模型的输出。

您还可以将 Gemini 用作评判模型,结合使用 MetricX、COMET 或 BLEU 来评估模型的流畅度、连贯性、详细程度和文本质量。

  • MetricX 是由 Google 开发的基于错误的指标,它会预测一个介于 0 到 25 之间的浮点得分,以表示翻译的质量。MetricX 既可作为基于参考文本的方法,也可作为无参考文本 (QE) 的方法。使用此指标时,得分越低越好,因为这意味着错误越少。

  • COMET 采用基于参考文本的回归方法,提供介于 0 到 1 之间的得分,其中 1 表示完美翻译。

  • BLEU(双语替换评测)是一种基于计算的指标。BLEU 得分表明了候选文本与参考文本的相似程度。BLEU 得分值越接近 1,说明译文越接近参考文本。

请注意,不建议将 BLEU 得分用于比较不同语料库和语言。例如,英语到德语的 BLEU 得分为 50,与日语到英语的 BLEU 得分为 50 是不可比的。许多翻译专家已转向基于模型的指标方法,这些方法与人工评分相关性更高,并且在识别错误场景方面更精细。

如需了解如何对翻译模型运行评估,请参阅评估翻译模型