メル尺度 ⇄ Hz 変換ツール|O'Shaughnessy 1987 公式で双方向変換
Hz とメル (mel) 尺度を双方向に変換するツール。O'Shaughnessy 1987 公式 mel = 2595·log10(1 + Hz/700) に基づき、可聴下限 20 Hz から上限 20 kHz まで 8 種の代表周波数に対応する mel 値を 1 画面で確認できる。
💡 このツールについて
MFCC 特徴抽出や音声認識のフィルタバンク設計では、線形な Hz 軸ではなく人間の聴覚に近いメル尺度上で周波数を等間隔に配置する。手計算で 2595·log10(1 + Hz/700) を毎回叩くのは面倒で、逆変換 Hz = 700·(10^(mel/2595) − 1) まで含めると電卓往復が増える。
このツールは Hz 欄とメル尺度欄を連動させ、片方に値を入れると他方が更新される。フィルタバンクの境界周波数を mel 等間隔で割り付けたいとき、各点の Hz を逆引きする作業がそのまま行える。右側の代表周波数表は、女声基本やシンバル高域など聴感上の目印となる 8 点を並べ、メル尺度が低域で大きく開き高域で詰まる対数的な性質を一目で掴めるようにしてある。
対象は、音声認識・MFCC 特徴量を設計する音声処理エンジニア、心理音響モデルを扱う研究者、フィルタバンクを配置する DSP 開発者。
🧐 よくある質問
Q. どのメル尺度公式を使っていますか?
O'Shaughnessy 1987 の mel = 2595·log10(1 + Hz/700) です。700 Hz をコーナー周波数とするこの式が音声処理で最も広く使われています。
Q. 逆変換 (mel から Hz) もできますか?
できます。メル尺度欄に値を入力すると Hz = 700·(10^(mel/2595) − 1) で対応する Hz が算出され、Hz 欄が更新されます。
Q. 0 Hz は何 mel になりますか?
0 mel です。式に Hz = 0 を代入すると log10(1) = 0 となり、原点が一致します。
Q. librosa や他ライブラリの mel 値と一致しますか? HTK 系 (O'Shaughnessy 2595/700) の実装とは一致します。librosa の既定は Slaney スケールで別式のため、低域で値がずれる点に注意してください。
Q. 代表周波数表の 8 点はどう選ばれていますか? 可聴下限 20 Hz、上限 20 kHz を両端に、女声基本・A4・母音高域・シンバル高域など聴感上の目印を中間に配置しています。
📚 メル尺度の由来
メル尺度は 1937 年に Stevens・Volkmann・Newman が、リスナーが「等しい高さの隔たり」と感じる音高を測る心理尺度として名付けた。人間は低い周波数ほどわずかな音高差を聞き分けられ、高域では鈍くなる — この非線形性を 1 つの軸に畳んだものがメル尺度である。
現在広く使われる 700 Hz コーナーの式は Makhoul と Cosell が 1976 年に示し、O'Shaughnessy が 1987 年の著書で定着させた。MFCC のフィルタバンクが低域で細く高域で太いのは、この聴覚特性を機械側に写し取った結果で、100 Hz と 200 Hz の差が 10000 Hz と 10100 Hz の差よりずっと大きく感じられる現象をそのまま反映している。