search

Found

info Descripción

Calcula la puntuación BLEU-2 para un par de referencia y candidata, combinando precisión de 1-gramas y 2-gramas con penalización por brevedad.

📘 Cómo usar

  1. Pega en el cuadro izquierdo el texto de referencia que tomas como traducción correcta
  2. Pega en el cuadro derecho el texto candidato (traducción automática o salida de un modelo)
  3. Revisa la puntuación BLEU-2 junto al desglose de p1, p2 y la penalización por brevedad

Calculadora de puntuación BLEU (bigramas)

Se considera traducción correcta. Esta herramienta admite una única referencia.

Salida de traducción automática o de un modelo generativo, evaluada contra la referencia.

Puntuación BLEU-2
0.0000 (0.00%)
Penalización por brevedad (BP)
1.0000 c/r = 0
p1 (precisión de 1-gramas)
0.0000
0 / 0
p2 (precisión de 2-gramas)
0.0000
0 / 0

Desglose de tokens

Tokens de referencia (r) 0
Tokens candidatos (c) 0

※ BLEU-2 = BP · exp(0,5·ln p1 + 0,5·ln p2); BP = 1 si c ≥ r, o exp(1 − r/c) si c < r.

※ Referencia única y limitado a bigramas. El resultado difiere del BLEU-4 con varias referencias usado en investigación; sirve para comparar borradores rápidamente.

¡Copiado!
Article

Calculadora de puntuación BLEU (bigramas) | Evalúa una traducción frente a una referencia

Pega una referencia y una candidata para obtener una puntuación BLEU-2 a partir de la precisión de 1-gramas y 2-gramas, con una penalización por brevedad que castiga las traducciones más cortas que la referencia. El suavizado add-1 evita el cero en frases breves.

💡 Sobre esta herramienta

Cuando comparas varias salidas de traducción automática o de un modelo de lenguaje y solo quieres saber cuál se acerca más a una referencia, montar todo el cálculo BLEU-4 es excesivo. Para una comparación rápida, la precisión hasta bigramas suele bastar.

Esta calculadora es la versión ligera, de referencia única y limitada a bigramas. Mientras escribes devuelve p1 (la fracción de palabras coincidentes), p2 (la fracción de pares de palabras contiguas que coinciden), la penalización por brevedad derivada de la razón de longitudes y la BLEU-2 combinada, todo con su numerador y denominador a la vista. El tokenizador pasa a minúsculas, separa la escritura latina por límites de palabra y trata cada carácter CJK como un token, de modo que el texto mixto no lo rompe.

Cómo se construye la fórmula

Conviene entender la mecánica paso a paso. Primero se cuenta el solapamiento recortado de unigramas y bigramas: «recortado» significa que una palabra que aparece dos veces en la candidata pero una sola en la referencia solo suma una coincidencia. De ahí salen p1 y p2. Después, la media geométrica combina ambas precisiones con peso igual: BLEU-2 = exp(0,5·ln p1 + 0,5·ln p2). Por último, la penalización por brevedad multiplica el resultado: vale 1 si la candidata es igual o más larga que la referencia, y exp(1 − r/c) cuando es más corta. Como un cero en cualquier precisión anularía toda la media geométrica, el suavizado add-1 (de Laplace) suma 1 al numerador y al denominador de toda precisión que dé cero para mantener la puntuación viva en frases de una sola línea.

🧐 Preguntas frecuentes

¿En qué se diferencia BLEU-2 del BLEU-4 de los artículos? El BLEU-4 de investigación promedia precisiones de 1 a 4 gramas y suele asumir varias referencias. Esta herramienta se limita a 2 gramas y a una referencia, así que los números no coincidirán: está pensada para comparar borradores con rapidez, no para publicar.

¿Por qué mi puntuación es más baja de lo esperado? Si la candidata es más corta que la referencia, la penalización por brevedad cae por debajo de 1 y arrastra todo el resultado. Y si los pares de palabras contiguas no encajan, p2 baja: acertar las palabras pero no el orden sigue penalizando.

¿Qué puntuación BLEU se considera «buena»? BLEU va de 0 a 1, y solo una coincidencia exacta con la referencia llega a 1. No hay un umbral universal de aprobado; la métrica sirve para ordenar varias candidatas frente a la misma referencia, no para juzgar una salida aislada.

¿Funciona con textos en español o en otros idiomas? Sí. La escritura latina se divide por palabras, así que el español funciona directamente; los caracteres CJK se puntúan carácter a carácter. Recuerda que la interpretación cambia según el nivel de tokenización.

¿Qué representan los conteos r y c? r es el número de tokens de la referencia y c el de la candidata. Cuando c es menor que r se activa la penalización por brevedad; cuando c ≥ r la penalización vale 1. Comparar ambos en el desglose revela si una puntuación baja se debe a la longitud o a la precisión.

📚 Por qué el orden de las palabras importa

La media geométrica del BLEU está pensada para que ninguna precisión domine sola: si p1 es alta pero p2 es baja, el resultado se hunde, y al revés. Esto refleja una intuición lingüística útil para quien estudia la métrica: p1 mide la adecuación (¿elegiste las palabras correctas?) mientras que p2 mide la fluidez (¿las ordenaste de forma plausible?). Por eso una candidata con el vocabulario correcto pero la sintaxis revuelta puntúa alto en p1 y se desploma en p2. Observar ambas precisiones por separado, como las muestra esta herramienta, enseña más sobre el error que el número final combinado.