Conversor de Escala Mel ⇄ Hz | Conversão bidirecional com a fórmula O'Shaughnessy 1987
Converta entre Hz e a escala psicoacústica mel nos dois sentidos. Baseado na fórmula O'Shaughnessy 1987 mel = 2595·log10(1 + Hz/700), o conversor mostra os valores mel de oito frequências de referência, do limite audível de 20 Hz ao teto de 20 kHz, em uma única tela.
💡 Sobre esta ferramenta
A escala mel existe porque o ouvido humano não percebe a frequência de forma linear. Distinguimos pequenas variações de altura muito melhor nas frequências baixas do que nas altas, e a escala mel dobra essa sensibilidade não linear em um único eixo. Por isso, ao projetar um banco de filtros para extrair MFCC, as bandas são distribuídas em passos iguais sobre o eixo mel, e não sobre o eixo linear de Hz.
Calcular 2595·log10(1 + Hz/700) à mão em cada borda é demorado, e a inversa Hz = 700·(10^(mel/2595) − 1) dobra o vaivém na calculadora. Esta ferramenta vincula o campo de Hz ao de mel: ao editar um, o outro é atualizado. Assim você posiciona as bordas do banco de filtros em passos mel uniformes e lê diretamente o Hz de cada passo. A tabela de referência à direita reúne oito pontos perceptivos (fundamental de voz feminina, brilho de pratos e outros) para mostrar de relance como o eixo mel estica os graves e comprime os agudos.
Destina-se a engenheiros de processamento de fala que projetam características MFCC, pesquisadores de modelos psicoacústicos e desenvolvedores de DSP que posicionam bordas de bancos de filtros.
🧐 Perguntas frequentes
P. Qual fórmula mel é utilizada?
A forma O'Shaughnessy 1987 mel = 2595·log10(1 + Hz/700). Essa versão com canto em 700 Hz é a mais usada em processamento de fala.
P. A conversão de mel para Hz também é possível?
Sim. Digite um valor no campo mel e a inversa Hz = 700·(10^(mel/2595) − 1) preenche o campo de Hz.
P. Quanto vale 0 Hz em mel?
0 mel. Substituindo Hz = 0, obtém-se log10(1) = 0, de modo que as origens coincidem.
P. Os valores coincidem com librosa ou outras bibliotecas? Coincidem com as implementações tipo HTK (a forma O'Shaughnessy 2595/700). A librosa usa por padrão a escala Slaney, com um mapeamento diferente que diverge nos graves; verifique antes de comparar.
P. Como os oito pontos de referência foram escolhidos? Os limites audíveis 20 Hz e 20 kHz fixam as extremidades, com fundamental de voz feminina, A4, formante vocálico e brilho de pratos como marcos perceptivos intermediários.
📚 De onde vem a escala mel
A escala mel foi nomeada em 1937 por Stevens, Volkmann e Newman como uma medida da altura que os ouvintes julgam igualmente espaçada. Sua raiz é perceptiva: a diferença entre 100 Hz e 200 Hz parece muito maior do que a que existe entre 10 000 Hz e 10 100 Hz, embora ambas sejam de 100 Hz.
A famosa fórmula com canto em 700 Hz veio depois: Makhoul e Cosell a publicaram em 1976, e o livro de O'Shaughnessy de 1987 a tornou padrão. É por isso que um banco de filtros MFCC usa filtros estreitos nos graves e largos nos agudos: a máquina imita o ouvido e concentra sua resolução onde a audição humana é mais apurada.