search

Found

info Visão geral

Calcula a pontuação BLEU-2 para um par de referência e candidata, combinando precisão de 1-grama e 2-gramas com penalidade de brevidade.

📘 Como usar

  1. Cole no quadro da esquerda o texto de referência tratado como tradução correta
  2. Cole no quadro da direita o texto candidato (tradução automática ou saída de um modelo)
  3. Confira a pontuação BLEU-2 com o detalhamento de p1, p2 e a penalidade de brevidade

Calculadora de pontuação BLEU (bigramas)

Tratado como tradução correta. Esta ferramenta aceita apenas uma referência.

Saída de tradução automática ou de modelo generativo, avaliada contra a referência.

Pontuação BLEU-2
0.0000 (0.00%)
Penalidade de brevidade (BP)
1.0000 c/r = 0
p1 (precisão de 1-grama)
0.0000
0 / 0
p2 (precisão de 2-gramas)
0.0000
0 / 0

Detalhamento dos tokens

Tokens de referência (r) 0
Tokens candidatos (c) 0

※ BLEU-2 = BP · exp(0,5·ln p1 + 0,5·ln p2); BP = 1 se c ≥ r, ou exp(1 − r/c) se c < r.

※ Referência única e limitado a bigramas. O resultado difere do BLEU-4 com várias referências usado em pesquisa; serve para comparar rascunhos rapidamente.

Copiado!
Article

Calculadora de pontuação BLEU (bigramas) | Avalie uma tradução frente a uma referência

Cole uma referência e uma candidata para obter uma pontuação BLEU-2 baseada na precisão de 1-grama e 2-gramas, com uma penalidade de brevidade que pune traduções mais curtas que a referência. A suavização add-1 evita o zero em frases curtas.

💡 Sobre esta ferramenta

Quando você compara várias saídas de tradução automática ou de um modelo de linguagem e só quer saber qual chega mais perto de uma referência, montar todo o cálculo do BLEU-4 é exagero. Para uma comparação rápida, a precisão até bigramas costuma bastar.

Esta calculadora é a versão leve, de referência única e limitada a bigramas. Enquanto você digita, ela retorna p1 (a fração de palavras que coincidem), p2 (a fração de pares de palavras vizinhas que coincidem), a penalidade de brevidade derivada da razão de comprimentos e a BLEU-2 combinada, cada uma exibida com seu numerador e denominador. O tokenizador converte para minúsculas, separa a escrita latina por limites de palavra e trata cada caractere CJK como um token, de modo que textos mistos não o quebram.

Como um zero em p1 ou p2 reduziria toda a média geométrica a zero, a avaliação de frases curtas aplica a suavização add-1 (de Laplace) — somando 1 ao numerador e ao denominador de qualquer precisão que dê zero — para evitar essa queda abrupta. Assim, comparar uma única frase não derruba a pontuação direto para 0.

🧐 Perguntas frequentes

Qual a diferença entre o BLEU-2 e o BLEU-4 dos artigos? O BLEU-4 de pesquisa faz a média das precisões de 1 a 4 gramas e costuma supor várias referências. Esta ferramenta se limita a 2 gramas e a uma referência, então os números não vão coincidir: ela serve para comparar rascunhos com rapidez, não para publicar.

Por que minha pontuação está mais baixa do que eu esperava? Se a candidata é mais curta que a referência, a penalidade de brevidade cai abaixo de 1 e puxa tudo para baixo. E se os pares de palavras vizinhas não se alinham, p2 cai: acertar as palavras mas errar a ordem continua penalizando.

Que pontuação BLEU é considerada "boa"? O BLEU vai de 0 a 1, e apenas uma correspondência exata com a referência chega a 1. Não há um limite universal de aprovação; a métrica serve para ordenar várias candidatas frente à mesma referência, não para julgar uma saída isolada.

Funciona com português e outros idiomas? Sim. A escrita latina é dividida por palavras, então o português funciona diretamente; os caracteres CJK são pontuados caractere a caractere. Lembre-se de que a interpretação muda conforme o nível de tokenização.

O que representam as contagens r e c? r é o número de tokens da referência e c o da candidata. Quando c é menor que r, a penalidade de brevidade entra em ação; quando c ≥ r, a penalidade vale 1. Comparar as duas no detalhamento revela se uma pontuação baixa vem do comprimento ou da precisão.

📚 Por que a ordem das palavras importa

A média geométrica do BLEU foi pensada para que nenhuma precisão domine sozinha: se p1 é alta mas p2 é baixa, o resultado afunda, e vice-versa. Isso reflete uma intuição linguística útil para quem estuda a métrica: p1 mede a adequação (você escolheu as palavras certas?), enquanto p2 mede a fluência (você as ordenou de forma plausível?). Por isso uma candidata com o vocabulário correto mas a sintaxe embaralhada pontua alto em p1 e desaba em p2. Observar as duas precisões separadamente, como esta ferramenta as apresenta, ensina mais sobre o erro do que o número final combinado.