Conversor de Escala Mel ⇄ Hz | Conversión bidireccional con la fórmula O'Shaughnessy 1987
Convierte entre Hz y la escala psicoacústica mel en ambos sentidos. Se apoya en la fórmula O'Shaughnessy 1987 mel = 2595·log10(1 + Hz/700) y muestra los valores mel de ocho frecuencias de referencia, desde el límite audible de 20 Hz hasta el techo de 20 kHz, en una sola pantalla.
💡 Sobre esta herramienta
La escala mel existe porque el oído humano no percibe la frecuencia de forma lineal. Distinguimos cambios pequeños de tono mucho mejor en las frecuencias bajas que en las altas, y la escala mel pliega esa sensibilidad no lineal en un solo eje. Por eso, al diseñar un banco de filtros para extraer MFCC, las bandas se reparten a pasos iguales sobre el eje mel y no sobre el eje lineal de Hz.
Calcular 2595·log10(1 + Hz/700) a mano en cada borde resulta lento, y la inversa Hz = 700·(10^(mel/2595) − 1) duplica las idas y venidas con la calculadora. Esta herramienta enlaza el campo de Hz con el de mel: al editar uno, el otro se actualiza. Así puedes colocar los bordes del banco de filtros a pasos mel uniformes y leer directamente el Hz de cada paso. La tabla de referencia de la derecha reúne ocho puntos perceptivos (fundamental de voz femenina, brillo de platillos y más) para ver de un vistazo cómo el eje mel estira los graves y comprime los agudos.
Está pensada para ingenieros de procesamiento de voz que diseñan características MFCC, investigadores de modelos psicoacústicos y desarrolladores de DSP que sitúan bordes de bancos de filtros.
🧐 Preguntas Frecuentes
P. ¿Qué fórmula mel utiliza?
La forma O'Shaughnessy 1987 mel = 2595·log10(1 + Hz/700). Esta versión con esquina en 700 Hz es la más usada en procesamiento de voz.
P. ¿Convierte también de mel a Hz?
Sí. Escribe un valor en el campo mel y la inversa Hz = 700·(10^(mel/2595) − 1) rellena el campo de Hz.
P. ¿Cuánto vale 0 Hz en mel?
0 mel. Al sustituir Hz = 0 resulta log10(1) = 0, de modo que los orígenes coinciden.
P. ¿Coinciden los valores con librosa u otras librerías? Coinciden con las implementaciones tipo HTK (la forma O'Shaughnessy 2595/700). librosa usa por defecto la escala Slaney, con un mapeo distinto que diverge en los graves; conviene verificarlo antes de comparar.
P. ¿Cómo se eligieron los ocho puntos de referencia? Los límites audibles 20 Hz y 20 kHz fijan los extremos, con fundamental de voz femenina, A4, formante vocálico y brillo de platillos como hitos perceptivos intermedios.
📚 De dónde viene la escala mel
La escala mel fue nombrada en 1937 por Stevens, Volkmann y Newman como una medida del tono que los oyentes juzgan equiespaciado. Su raíz es perceptiva: la diferencia entre 100 Hz y 200 Hz se percibe mucho mayor que la que hay entre 10 000 Hz y 10 100 Hz, aunque ambas sean de 100 Hz.
La popular fórmula con esquina en 700 Hz llegó después: Makhoul y Cosell la publicaron en 1976 y el libro de O'Shaughnessy de 1987 la convirtió en estándar. Esa es la razón de que un banco de filtros MFCC use filtros estrechos en los graves y anchos en los agudos: la máquina imita al oído y concentra su resolución donde la audición humana es más fina.