search

Found

info Aperçu

Colle une référence et une candidate pour calculer BLEU-2 (moyenne géométrique des précisions 1-gramme et 2-grammes) avec pénalité de brièveté.

📘 Mode d'emploi

  1. Collez dans le cadre de gauche le texte de référence considéré comme la traduction correcte
  2. Collez dans le cadre de droite le texte candidat (traduction automatique ou sortie de modèle)
  3. Lisez le score BLEU-2 avec le détail de p1, p2 et la pénalité de brièveté

Calculateur de score BLEU (bigrammes)

Considéré comme vérité de terrain. Cet outil prend en charge une seule référence.

Sortie de traduction automatique ou de modèle génératif, comparée à la référence.

Score BLEU-2
0.0000 (0.00%)
Pénalité de brièveté (BP)
1.0000 c/r = 0
p1 (précision 1-gramme)
0.0000
0 / 0
p2 (précision 2-grammes)
0.0000
0 / 0

Détail des jetons

Jetons de référence (r) 0
Jetons candidats (c) 0

※ BLEU-2 = BP · exp(0,5·ln p1 + 0,5·ln p2) ; BP = 1 si c ≥ r, sinon exp(1 − r/c).

※ Référence unique et limité aux bigrammes. Le résultat diffère du BLEU-4 multi-référence utilisé en recherche ; cet outil sert à comparer rapidement des brouillons.

Copié !
Article

Calculateur de score BLEU (bigrammes) | Évaluez une traduction face à une référence

Collez une référence et une candidate pour obtenir un score BLEU-2 fondé sur la précision des 1-grammes et 2-grammes, avec une pénalité de brièveté qui sanctionne les traductions plus courtes que la référence. Le lissage add-1 évite le zéro sur les phrases courtes.

💡 À propos de cet outil

Lorsque vous comparez plusieurs sorties de traduction automatique ou de modèle de langue et que vous voulez simplement savoir laquelle se rapproche le plus d'une référence, lancer une chaîne BLEU-4 complète est disproportionné. Pour une comparaison rapide, la précision jusqu'aux bigrammes suffit généralement.

Ce calculateur est la version légère, à référence unique et limitée aux bigrammes. Au fil de la saisie, il renvoie p1 (la fraction de mots qui correspondent), p2 (la fraction de paires de mots voisins qui correspondent), la pénalité de brièveté issue du rapport de longueurs et le BLEU-2 combiné, chacun affiché avec son numérateur et son dénominateur. Le segmenteur met en minuscules, découpe l'écriture latine selon les frontières de mots et traite chaque caractère CJK comme un jeton distinct ; les textes mêlant plusieurs langues ne le perturbent donc pas.

Comme un zéro dans p1 ou p2 réduirait toute la moyenne géométrique à zéro, l'évaluation de phrases courtes applique le lissage add-1 (de Laplace) — on ajoute 1 au numérateur et au dénominateur de toute précision nulle — pour éviter cette chute brutale. Une comparaison portant sur une seule phrase ne tombe ainsi pas directement à 0.

🧐 Questions fréquentes

En quoi le BLEU-2 diffère-t-il du BLEU-4 des publications ? Le BLEU-4 de recherche moyenne les précisions de 1 à 4 grammes et suppose souvent plusieurs références. Cet outil se limite aux 2-grammes et à une seule référence : les chiffres ne coïncideront donc pas. Il sert à comparer rapidement des brouillons, pas à publier des résultats.

Pourquoi mon score est-il plus bas que prévu ? Si la candidate est plus courte que la référence, la pénalité de brièveté passe sous 1 et fait baisser l'ensemble. Et si les paires de mots voisins ne s'alignent pas, p2 chute : avoir les bons mots mais le mauvais ordre pénalise toujours le score.

Quel score BLEU peut-on juger « bon » ? Le BLEU va de 0 à 1, et seule une correspondance exacte avec la référence atteint 1. Il n'existe pas de seuil universel de réussite ; la métrique sert à classer plusieurs candidates face à la même référence, pas à juger une sortie isolée.

Fonctionne-t-il avec le français et d'autres langues ? Oui. L'écriture latine est découpée par mots, donc le français est pris en charge directement ; les caractères CJK sont notés caractère par caractère. Notez que l'interprétation change selon le niveau de segmentation.

Que représentent les compteurs r et c ? r est le nombre de jetons de la référence et c celui de la candidate. Quand c est inférieur à r, la pénalité de brièveté s'applique ; quand c ≥ r, la pénalité vaut 1. Comparer les deux dans le détail montre si un score faible vient de la longueur ou de la précision.

📚 Pourquoi l'ordre des mots compte

La moyenne géométrique du BLEU est conçue pour qu'aucune précision ne domine seule : si p1 est élevée mais p2 faible, le résultat s'effondre, et inversement. Cela traduit une intuition linguistique utile : p1 mesure l'adéquation (avez-vous choisi les bons mots ?) tandis que p2 mesure la fluidité (les avez-vous enchaînés de façon plausible ?). C'est pourquoi une candidate au bon vocabulaire mais à la syntaxe brouillée obtient un p1 élevé et un p2 qui s'effondre. Observer les deux précisions séparément, comme les présente cet outil, renseigne davantage sur l'erreur que le seul score global combiné.