BLEU スコア (bigram) 計算ツール|参照訳と候補訳を貼るだけで BLEU-2 を算出
参照テキストと候補テキストを貼り付けるだけで、1-gram と 2-gram の精度を重み付き幾何平均した BLEU-2 スコアと、短すぎる訳を罰する brevity penalty を表示します。add-1 smoothing でゼロ確率も回避します。
💡 このツールについて
機械翻訳や要約、LLM の出力を「どれだけ参照訳に近いか」で数値化したいとき、フルの BLEU-4 を毎回回すのは重い作業です。論文用ではなく、複数の下訳候補をその場で並べて「どれがマシか」を素早く判断したい場面では、bigram までで十分なことが多くあります。
このツールは単一参照・bigram 上限に絞った軽量版です。入力した瞬間に p1(単語一致の割合)、p2(隣り合う 2 語の一致割合)、長さの比から決まる brevity penalty、そしてそれらを合成した BLEU-2 を内訳付きで返します。トークナイザは大小文字を正規化し、日本語・中国語・韓国語などの CJK 文字は 1 文字単位、英語などのラテン文字は単語単位で分割するため、混在文でも破綻しません。
p1 や p2 がゼロになると幾何平均全体がゼロに潰れてしまうため、短文評価では add-1(Laplace)smoothing(ゼロになった精度の分子と分母の両方に 1 を足す手当て)でゼロを避けています。これにより、1 文だけの比較でもスコアが極端に 0 へ張り付くことを防ぎます。
🧐 よくある質問
BLEU-2 と論文の BLEU-4 はどう違いますか? BLEU-4 は 1-gram から 4-gram までの幾何平均で、複数参照を前提にします。このツールは 2-gram までと単一参照に絞っているため、同じ文でも数値は一致しません。下訳の差分を素早く比べる用途向けです。
スコアが思ったより低いのはなぜですか? 候補が参照より短いと brevity penalty が 1 未満になり、全体が押し下げられます。また 2 語の並び(bigram)が一致していないと p2 が下がります。語は合っていても語順が違うとスコアは伸びにくい設計です。
BLEU は何点あれば「良い訳」ですか? BLEU は 0〜1 の相対指標で、1 になるのは参照と完全一致のときだけです。絶対的な合格ラインはなく、同じ参照に対する複数候補の優劣比較に使うのが本来の使い方です。
日本語の文章でも使えますか? 使えます。CJK 文字は 1 文字を 1 トークンとして扱うため、分かち書きされていない日本語でも文字単位で突合します。ただし単語境界ベースの BLEU とは数値の解釈が変わる点に注意してください。
トークン数の r と c は何を表していますか? r は参照トークン数、c は候補トークン数です。c が r より小さいと brevity penalty が働き、c ≥ r なら penalty は 1 になります。内訳表示でこの 2 つを見比べると、スコアが下がった原因が長さ不足か精度不足かを切り分けられます。
📚 BLEU 誕生の背景
BLEU は 2002 年に IBM の研究者らが提案した、機械翻訳評価を自動化する草分け的な指標です。それまで人手で行っていた品質評価を n-gram の一致率に置き換えたことで、翻訳システムの改善サイクルを大きく速めました。一方で、語順や意味の等価性を完全には捉えられないという限界も早くから指摘され、後年は短文でスコアがゼロに潰れる問題への対処として、Chen と Cherry が 2014 年の WMT で smoothing 手法を体系的に比較した研究が広く参照されるようになりました。本ツールが採用しているゼロ回避は、この系譜にある実務的な手当てです。