Layanan evaluasi AI generatif menawarkan metrik evaluasi tugas terjemahan berikut:
MetricX dan COMET adalah metrik berbasis model pointwise yang telah dilatih untuk tugas terjemahan. Anda dapat mengevaluasi kualitas dan akurasi hasil model terjemahan untuk konten Anda, baik berupa output model NMT, TranslationLLM, atau Gemini.
Anda juga dapat menggunakan Gemini sebagai model penilai untuk mengevaluasi model Anda berdasarkan kelancaran, koherensi, kejelasan, dan kualitas teks bersama dengan MetricX, COMET, atau BLEU.
MetricX adalah metrik berbasis error yang dikembangkan oleh Google yang memprediksi skor floating point antara 0 dan 25 yang merepresentasikan kualitas terjemahan. MetricX tersedia sebagai metode berbasis rujukan dan tanpa rujukan (QE). Saat Anda menggunakan metrik ini, skor yang lebih rendah adalah skor yang lebih baik, karena berarti ada lebih sedikit error.
COMET menggunakan pendekatan regresi berbasis referensi yang memberikan skor mulai dari 0 hingga 1, dengan 1 menandakan terjemahan yang sempurna.
BLEU (Bilingual Evaluation Understudy) adalah metrik berbasis komputasi. Skor BLEU menunjukkan seberapa mirip teks kandidat dengan teks referensi. Nilai skor BLEU yang lebih dekat ke angka satu menunjukkan bahwa terjemahan lebih dekat dengan teks referensi.
Perhatikan bahwa skor BLEU tidak direkomendasikan untuk perbandingan di berbagai korpora dan bahasa. Misalnya, skor BLEU 50 untuk terjemahan dari bahasa Inggris ke bahasa Jerman tidak dapat dibandingkan dengan skor BLEU 50 untuk terjemahan dari bahasa Jepang ke bahasa Inggris. Banyak pakar terjemahan telah beralih ke pendekatan metrik berbasis model, yang memiliki korelasi lebih tinggi dengan rating manusia dan lebih terperinci dalam mengidentifikasi skenario kesalahan.
Untuk mempelajari cara menjalankan evaluasi untuk model terjemahan, lihat Mengevaluasi model terjemahan.