L'échelle des mels est une échelle psychoacoustique de hauteurs des sons, au sens de leur repérage entre grave et aigu, dont l'unité est le mel.
Le mel est relié au hertz (Hz), l'unité de mesure du Système international pour les fréquences, par une relation basée sur des expériences basées sur l'audition humaine.
L'échelle a été proposée en 1937 par Stanley Smith Stevens, John Volkman et Edwin Newman, sur la base d'une expérience de psychologie expérimentale où cinq sujets devaient indiquer un son pur à la moitié de la hauteur d'un son pur de référence pour dix fréquences différentes, avec une sonie constante de 60 dB SPL.
Les auteurs concluent en outre que l'échelle est cohérente avec l'écart de fréquence nécessaire pour distinguer deux sons, à chaque fréquence, ce qui, d'après eux, implique que la hauteur et la sensibilité différentielle à la hauteur sont toutes deux des fonctions linéaires sur l'étendue de la membrane basilaire de l'oreille interne. Selon ce point de vue, quand l'auditeur recherche une hauteur à la moitié d'une autre, il ajuste le son pour trouver un point de résonance dans une zone à la moitié de la distance jusqu'à l'extrémité apicale de la membrane basilaire. La mesure de l'étendue subjective d'intervalles musicaux comme les octaves montre que ces intervalles grandissent quand la fréquence de leur point central augmente (sauf dans les deux octaves audibles supérieures)[1],[2].
L'échelle a été conçue de telle façon que 1 000 Hz correspondent à 1 000 mels et qu'un rapport constant de la valeur en mels soit perçu par les auditeurs comme une variation constante de hauteur musicale.
En effet, l'audition humaine ne perçoit pas le doublement de la fréquence d'un son pur (correspondant à un intervalle d'octave pour un son musical) comme une variation égale de hauteur à toutes les fréquences. L'échelle des mels est établie pour qu'un doublement de la valeur en mels soit perçu comme une variation de hauteur identique quelle que soit la fréquence de départ.
Si on prend comme écart de référence celui entre des sons purs de fréquences 300 Hz et 600 Hz, présentés successivement, pour reproduire cet écart à partir d'un son pur de fréquence 1 000 Hz, il faudra présenter un deuxième son pur de fréquence, non pas de 2 000 Hz, mais de 2 563 Hz environ.
La conversion de hertz en mels se fait à l'aide d'une des formules suivantes :
Les formules réciproques (pour passer de mels en hertz) sont donc :
L'échelle de mel a fait l'objet de critiques nombreuses et vigoureuses, d'une part parce qu'elle contredit les notions de la théorie de la musique, qui semblent fondées sur une expérience autrement vaste, et d'autre part, en raison de questions de méthode.
Les méthodes promues par Stevens et autres pour obtenir des échelles numériques basées sur les perceptions ont provoqué des débats d'ordre général sur le rapport entre ces constructions, d'une part, et les mesures physiques, d'autre part. D'autres auteurs ont fait remarquer qu'il était possible de construire, à partir de la faible quantité de données expérimentales présentées par les auteurs, un bon nombre d'autres échelles[3].
Stevens lui-même a rencontré des résultats contradictoires dans des expériences ultérieures, où l'on demandait aux sujets d'ajuster un son pur pour qu'il soit à égale distance entre deux autres. Il s'avère que les sujets ne trouvent pas les mêmes valeurs selon qu'on leur présente les sons dans l'ordre grave, puis aigu, ou l'ordre inverse[4].
Ces discussions ont abouti à l'établissement d'une quantité d'échelles différentes. Cependant, elles ne remettent pas en cause la constatation fondamentale de la recherche de Stevens, Volkmann et Newman, connue sous le nom de « dilatation des octaves » dans le registre aigu, qui est corroborée partiellement par certains aspects de la pratique musicale, notamment l'accord du piano. Quant à l'échelle proposée, comme « elle ne présente guère d'utilité pratique[5] », les polémiques ne pouvaient avoir de grandes conséquences.
La contradiction avec la tradition musicale s'atténue avec un modèle de l'audition humaine apparu plus tard, pour lequel la perception de la hauteur est la synthèse de deux systèmes perceptuels qui pourraient être physiologiquement distincts, la hauteur spectrale, basée sur la situation de l'origine de l'influx nerveux dans la membrane basilaire, situant la hauteur à un ou deux tiers d'octave près (selon les auteurs) sur une échelle allant du plus grave au plus aigu, et la hauteur fondamentale ou chroma, basée sur la corrélation entre des influx nerveux transmis par des voies différentes, déterminant précisément la place d'un son harmonique dans une octave, définie alors comme un doublement de fréquence, sans indiquer de quelle octave il s'agit[6].
D'autres auteurs font remarquer que les sons musicaux sont des sons complexes, comportant généralement toute une série de partiels harmoniques, ce qui donne à l'auditeur des indices suffisants pour situer ce qu'il écoute par rapport à un système musical, quelle que soit la perception qu'il pourrait avoir dans le contexte du laboratoire[7].