Calculadora de pontuação BLEU (bigramas) | Avalie uma tradução frente a uma referência
Cole uma referência e uma candidata para obter uma pontuação BLEU-2 baseada na precisão de 1-grama e 2-gramas, com uma penalidade de brevidade que pune traduções mais curtas que a referência. A suavização add-1 evita o zero em frases curtas.
💡 Sobre esta ferramenta
Quando você compara várias saídas de tradução automática ou de um modelo de linguagem e só quer saber qual chega mais perto de uma referência, montar todo o cálculo do BLEU-4 é exagero. Para uma comparação rápida, a precisão até bigramas costuma bastar.
Esta calculadora é a versão leve, de referência única e limitada a bigramas. Enquanto você digita, ela retorna p1 (a fração de palavras que coincidem), p2 (a fração de pares de palavras vizinhas que coincidem), a penalidade de brevidade derivada da razão de comprimentos e a BLEU-2 combinada, cada uma exibida com seu numerador e denominador. O tokenizador converte para minúsculas, separa a escrita latina por limites de palavra e trata cada caractere CJK como um token, de modo que textos mistos não o quebram.
Como um zero em p1 ou p2 reduziria toda a média geométrica a zero, a avaliação de frases curtas aplica a suavização add-1 (de Laplace) — somando 1 ao numerador e ao denominador de qualquer precisão que dê zero — para evitar essa queda abrupta. Assim, comparar uma única frase não derruba a pontuação direto para 0.
🧐 Perguntas frequentes
Qual a diferença entre o BLEU-2 e o BLEU-4 dos artigos? O BLEU-4 de pesquisa faz a média das precisões de 1 a 4 gramas e costuma supor várias referências. Esta ferramenta se limita a 2 gramas e a uma referência, então os números não vão coincidir: ela serve para comparar rascunhos com rapidez, não para publicar.
Por que minha pontuação está mais baixa do que eu esperava? Se a candidata é mais curta que a referência, a penalidade de brevidade cai abaixo de 1 e puxa tudo para baixo. E se os pares de palavras vizinhas não se alinham, p2 cai: acertar as palavras mas errar a ordem continua penalizando.
Que pontuação BLEU é considerada "boa"? O BLEU vai de 0 a 1, e apenas uma correspondência exata com a referência chega a 1. Não há um limite universal de aprovação; a métrica serve para ordenar várias candidatas frente à mesma referência, não para julgar uma saída isolada.
Funciona com português e outros idiomas? Sim. A escrita latina é dividida por palavras, então o português funciona diretamente; os caracteres CJK são pontuados caractere a caractere. Lembre-se de que a interpretação muda conforme o nível de tokenização.
O que representam as contagens r e c? r é o número de tokens da referência e c o da candidata. Quando c é menor que r, a penalidade de brevidade entra em ação; quando c ≥ r, a penalidade vale 1. Comparar as duas no detalhamento revela se uma pontuação baixa vem do comprimento ou da precisão.
📚 Por que a ordem das palavras importa
A média geométrica do BLEU foi pensada para que nenhuma precisão domine sozinha: se p1 é alta mas p2 é baixa, o resultado afunda, e vice-versa. Isso reflete uma intuição linguística útil para quem estuda a métrica: p1 mede a adequação (você escolheu as palavras certas?), enquanto p2 mede a fluência (você as ordenou de forma plausível?). Por isso uma candidata com o vocabulário correto mas a sintaxe embaralhada pontua alto em p1 e desaba em p2. Observar as duas precisões separadamente, como esta ferramenta as apresenta, ensina mais sobre o erro do que o número final combinado.