Calculateur de score BLEU (bigrammes) | Évaluez une traduction face à une référence
Collez une référence et une candidate pour obtenir un score BLEU-2 fondé sur la précision des 1-grammes et 2-grammes, avec une pénalité de brièveté qui sanctionne les traductions plus courtes que la référence. Le lissage add-1 évite le zéro sur les phrases courtes.
💡 À propos de cet outil
Lorsque vous comparez plusieurs sorties de traduction automatique ou de modèle de langue et que vous voulez simplement savoir laquelle se rapproche le plus d'une référence, lancer une chaîne BLEU-4 complète est disproportionné. Pour une comparaison rapide, la précision jusqu'aux bigrammes suffit généralement.
Ce calculateur est la version légère, à référence unique et limitée aux bigrammes. Au fil de la saisie, il renvoie p1 (la fraction de mots qui correspondent), p2 (la fraction de paires de mots voisins qui correspondent), la pénalité de brièveté issue du rapport de longueurs et le BLEU-2 combiné, chacun affiché avec son numérateur et son dénominateur. Le segmenteur met en minuscules, découpe l'écriture latine selon les frontières de mots et traite chaque caractère CJK comme un jeton distinct ; les textes mêlant plusieurs langues ne le perturbent donc pas.
Comme un zéro dans p1 ou p2 réduirait toute la moyenne géométrique à zéro, l'évaluation de phrases courtes applique le lissage add-1 (de Laplace) — on ajoute 1 au numérateur et au dénominateur de toute précision nulle — pour éviter cette chute brutale. Une comparaison portant sur une seule phrase ne tombe ainsi pas directement à 0.
🧐 Questions fréquentes
En quoi le BLEU-2 diffère-t-il du BLEU-4 des publications ? Le BLEU-4 de recherche moyenne les précisions de 1 à 4 grammes et suppose souvent plusieurs références. Cet outil se limite aux 2-grammes et à une seule référence : les chiffres ne coïncideront donc pas. Il sert à comparer rapidement des brouillons, pas à publier des résultats.
Pourquoi mon score est-il plus bas que prévu ? Si la candidate est plus courte que la référence, la pénalité de brièveté passe sous 1 et fait baisser l'ensemble. Et si les paires de mots voisins ne s'alignent pas, p2 chute : avoir les bons mots mais le mauvais ordre pénalise toujours le score.
Quel score BLEU peut-on juger « bon » ? Le BLEU va de 0 à 1, et seule une correspondance exacte avec la référence atteint 1. Il n'existe pas de seuil universel de réussite ; la métrique sert à classer plusieurs candidates face à la même référence, pas à juger une sortie isolée.
Fonctionne-t-il avec le français et d'autres langues ? Oui. L'écriture latine est découpée par mots, donc le français est pris en charge directement ; les caractères CJK sont notés caractère par caractère. Notez que l'interprétation change selon le niveau de segmentation.
Que représentent les compteurs r et c ? r est le nombre de jetons de la référence et c celui de la candidate. Quand c est inférieur à r, la pénalité de brièveté s'applique ; quand c ≥ r, la pénalité vaut 1. Comparer les deux dans le détail montre si un score faible vient de la longueur ou de la précision.
📚 Pourquoi l'ordre des mots compte
La moyenne géométrique du BLEU est conçue pour qu'aucune précision ne domine seule : si p1 est élevée mais p2 faible, le résultat s'effondre, et inversement. Cela traduit une intuition linguistique utile : p1 mesure l'adéquation (avez-vous choisi les bons mots ?) tandis que p2 mesure la fluidité (les avez-vous enchaînés de façon plausible ?). C'est pourquoi une candidate au bon vocabulaire mais à la syntaxe brouillée obtient un p1 élevé et un p2 qui s'effondre. Observer les deux précisions séparément, comme les présente cet outil, renseigne davantage sur l'erreur que le seul score global combiné.