search

Found

info Aperçu

Convertissez entre Hz et l'échelle psychoacoustique mel de manière bidirectionnelle avec la formule O'Shaughnessy 1987 et 8 fréquences de référence.

📘 Mode d'emploi

  1. Saisissez la valeur à convertir dans le champ Fréquence (Hz)
  2. Lisez la valeur correspondante dans le champ lié Échelle mel
  3. Entrez une valeur dans le champ Échelle mel pour reconvertir en Hz

Convertisseur d'Échelle Mel ⇄ Hz

Hz
mel

※ Formule: mel = 2595 · log₁₀(1 + Hz / 700)

※ Hz = 700 · (10^(mel / 2595) − 1)

Cible Hz mel

※ Source : O'Shaughnessy 1987 (mel = 2595·log10(1 + Hz/700))

※ Usages : extraction MFCC, reconnaissance vocale, modèles psychoacoustiques, conception de bancs de filtres

Article

Convertisseur d'Échelle Mel ⇄ Hz | Conversion bidirectionnelle avec la formule O'Shaughnessy 1987

Convertissez entre Hz et l'échelle psychoacoustique mel dans les deux sens. Fondé sur la formule O'Shaughnessy 1987 mel = 2595·log10(1 + Hz/700), l'outil affiche les valeurs mel de huit fréquences de référence, du seuil audible de 20 Hz au plafond de 20 kHz, sur un seul écran.

💡 À propos de cet outil

Lorsque vous concevez un banc de filtres mel pour l'extraction de MFCC ou un frontal de reconnaissance vocale, vous placez les bornes de bande à pas réguliers sur l'axe mel plutôt que sur l'axe linéaire des Hz. Taper 2595·log10(1 + Hz/700) à la calculatrice pour chaque borne est fastidieux, et l'inverse Hz = 700·(10^(mel/2595) − 1) double les allers-retours.

Cet outil relie le champ Hz et le champ mel : modifier l'un met l'autre à jour. Pour répartir les bornes d'un banc de filtres à pas mel uniformes, vous lisez directement le Hz de chaque pas. Le tableau de référence à droite réunit huit repères perceptifs (fondamentale de voix féminine, brillance des cymbales et autres) pour saisir d'un coup d'œil le comportement logarithmique : l'axe mel étire le grave et comprime l'aigu.

Il s'adresse aux ingénieurs du traitement de la parole qui conçoivent des caractéristiques MFCC, aux chercheurs en modèles psychoacoustiques et aux développeurs DSP qui placent des bornes de bancs de filtres.

🧐 Questions fréquentes

Q. Quelle formule mel est utilisée ? La forme O'Shaughnessy 1987 mel = 2595·log10(1 + Hz/700). Cette version à coin de 700 Hz est la plus répandue en traitement de la parole.

Q. La conversion mel vers Hz est-elle possible ? Oui. Saisissez une valeur dans le champ mel et l'inverse Hz = 700·(10^(mel/2595) − 1) remplit le champ Hz.

Q. Combien vaut 0 Hz en mel ? 0 mel. En substituant Hz = 0, on obtient log10(1) = 0, donc les origines coïncident.

Q. Les valeurs correspondent-elles à librosa ou à d'autres bibliothèques ? Elles correspondent aux implémentations de type HTK (la forme O'Shaughnessy 2595/700). librosa utilise par défaut l'échelle Slaney, avec un mappage différent qui diverge dans le grave ; vérifiez avant de comparer.

Q. Comment les huit points de référence ont-ils été choisis ? Les bornes audibles 20 Hz et 20 kHz fixent les extrémités, avec fondamentale de voix féminine, A4, formant vocalique et brillance des cymbales comme repères perceptifs intermédiaires.

📚 Pourquoi l'échelle mel courbe l'axe des fréquences

L'oreille humaine distingue de petits écarts de hauteur bien mieux dans le grave que dans l'aigu. L'écart perçu entre 100 Hz et 200 Hz paraît bien plus grand que celui entre 10 000 Hz et 10 100 Hz, alors que tous deux valent 100 Hz. L'échelle mel replie cette sensibilité non linéaire sur un seul axe ; c'est ainsi que Stevens, Volkmann et Newman l'ont nommée en 1937, comme mesure d'une hauteur jugée également espacée.

La fameuse formule à coin de 700 Hz est venue plus tard : Makhoul et Cosell l'ont publiée en 1976, et l'ouvrage d'O'Shaughnessy de 1987 l'a imposée comme standard. Voilà pourquoi un banc de filtres MFCC emploie des filtres étroits dans le grave et larges dans l'aigu : la machine imite l'oreille et concentre sa résolution là où l'audition humaine est la plus fine.