梅尔与赫兹的对应图
A440 Play ⓘ . 440 Hz = 549.64 mels
梅尔刻度 (又稱Mel尺度 ,英語:Mel scale )是一種基于頻率 定义的非線性刻度单位,表示人耳对音高 (pitch)等距變化的感官,由Stevens 、Volkman 和Newman于1937年命名。[ 1]
梅爾刻度與線性的頻率刻度赫茲(Hz)之間可以進行近似的數學換算。一个常用的将
f
{\displaystyle f}
赫兹转换为
m
{\displaystyle m}
梅尔的公式是:[ 2]
m
=
2595
log
10
(
1
+
f
700
)
{\displaystyle m=2595\log _{10}\left(1+{\frac {f}{700}}\right)}
梅尔刻度將1000Hz,且高于人耳听阈 值40分贝 的聲音信號,定為1000mel的参考点。在頻率500Hz以上时,随着频率的增加,人耳每感覺到等量的音高變化,所需要的頻率變化愈來愈大。这导致在赫茲刻度500Hz往上的四个八度 (一個八度即為兩倍的頻率),只对应梅尔刻度上的两个八度 。Mel 的名字来源于单词melody,表示这个刻度是基於音高比较而被創造的。
历史上,存在过各种各样的转换公式。[ 3] 在O'Shaugnessy的书中的常用公式选用不同的对数底可以有不同的表达式:
m
=
2595
log
10
(
1
+
f
700
)
=
1127
log
e
(
1
+
f
700
)
{\displaystyle m=2595\log _{10}\left(1+{\frac {f}{700}}\right)=1127\log _{e}\left(1+{\frac {f}{700}}\right)\ }
对应的逆变换公式是:
f
=
700
(
10
m
/
2595
−
1
)
=
700
(
e
m
/
1127
−
1
)
{\displaystyle f=700(10^{m/2595}-1)=700(e^{m/1127}-1)\ }
自从Steinberg于1937年出版的基于最小可覺差 音高的刻度曲线和表格[ 4]
后,还有许多其他曲线通过不同的实验方法和分析途径被提出,如Fletcher和Munson在1937年[ 5]
,Fletcher在1938年[ 6]
,Steven于1937年[ 1] 以及 Stevens 和 Volkmann于1940年[ 7]
分别给出的曲线。
在1949年,Koenig发表了一个基于独立的线性部分和对数部分的近似值,取1000Hz作为两个部分的分界点。[ 8]
Gunnar Fant于1949年发表了当前流行的线性\对数公式,但是有1000Hz的截止频率 (corner frequency)。[ 9]
Fant于1968年发表了该公式的另一种与对数的底数 的选择无关的形式:[ 10] [ 11]
m
=
1000
log
(
2
)
log
(
1
+
f
1000
)
{\displaystyle m={\frac {1000}{\log(2)}}\log \left(1+{\frac {f}{1000}}\right)\ }
1976年,Makhoul与Cosell发表了现在流行的版本,截止频率取为700Hz。[ 12]
Ganchev等人指出:"相比于Fant等人的1000Hz的公式,700Hz的公式能够在1000Hz以下更近似于Mel刻度,代价是超过1000Hz时误差更大。"[ 13] 但是当频率超过7kHz时,700Hz的版本表现的更好。
这些公式的数据由Beranek于1949年基于Stevens 和 Volkman的曲线被制作成表格:[ 14]
Beranek 等制表(1949),数据来源于Stevens 和 Volkman(1940)
Hz
20
160
394
670
1000
1420
1900
2450
3120
4000
5100
6600
9000
14000
mel
0
250
500
750
1000
1250
1500
1750
2000
2250
2500
2750
3000
3250
具有625Hz截断频率的公式由Lindsay和Norman于1977年在《Human information processing: An introduction to psychology》中提出,[ 15] 但在该书1972年第一版中该公式没有出现:
m
=
2410
log
10
(
1.6
×
10
−
3
f
+
1
)
{\displaystyle m=2410\log _{10}(1.6\times 10^{-3}f+1)}
大多数的公式能够保证1000 mel对应1000Hz。截断频率(break frequency),如700Hz、1000Hz或625Hz,是这些公式中唯一的自由参数。一些非MEL听觉频率尺度(auditory-frequency-scale)公式使用了相同的形式,但截断频率低得多,不一定能保障1000mel对应1000Hz,例如1990年Glasberg与Moore提出的ERB-rate 刻度使用的是228.8Hz[ 16] ,1990年Greenwood的“cochlear frequency–place map”则使用165.3Hz作为截断频率。[ 17]
Umesh等人对其他形式的梅尔刻度进行了研究。根据从这些曲线上计算的数据,他们指出,传统的含有对数区域和线性区域的公式,以及其他形式的公式,都不符合Stevens和Volkman的曲线:[ 18]
Umesh 等制表(1999),数据来源于Stevens 和 Volkman(1940)
Hz
40
161
200
404
693
867
1000
2022
3000
3393
4109
5526
6500
7743
12000
mel
43
257
300
514
771
928
1000
1542
2000
2142
2314
2600
2771
2914
3228
^ 1.0 1.1
Stevens, Stanley Smith; Volkman; John; & Newman, Edwin B. A scale for the measurement of the psychological magnitude pitch . Journal of the Acoustical Society of America. 1937, 8 (3): 185–190. (原始内容 存档于2013-04-14).
^ Douglas O'Shaughnessy. Speech communication: human and machine . Addison-Wesley. 1987: 150 [2013-04-26 ] . ISBN 978-0-201-16520-3 . (原始内容存档 于2015-03-19).
^
W. Dixon Ward. Musical Perception. Jerry V. Tobias (编). Foundations of Modern Auditory Theory 1 . Academic Press. 1970: 412. no one claims yet to have determined 'the' mel scale.
^
John C. Steinberg. Positions of stimulation in the cochlea by pure tones . Journal of the Acoustical Society of America. 1937, 8 (3): 176–180.
^
Harvey Fletcher and W. A. Munson. Relation Between Loudness and Masking . Journal of the Acoustical Society of America. 1937, 9 : 1–10.
^
Harvey Fletcher. Loudness, Masking and Their Relation to the Hearing Process and the Problem of Noise Measurement . Journal of the Acoustical Society of America. 1938, 9 (4): 275–293.
^
Stevens, S., and Volkmann, J. The Relation of Pitch to Frequency: A Revised Scale . American Journal of Psychology. 1940, 53 (3): 329–353.
^
W. Koenig. A new frequency scale for acoustic measurements. Bell Telephone Laboratory Record. 1949, 27 : 299–301.
^
Gunnar Fant (1949) "Analys av de svenska konsonantljuden : talets allmänna svängningsstruktur",
LM Ericsson protokoll H/P 1064
^ Fant, Gunnar. (1968). Analysis and synthesis of speech processes. In B. Malmberg (Ed.), Manual of phonetics (pp. 173-177). Amsterdam: North-Holland.
^ Jonathan Harrington and Steve Cassidy. Techniques in speech acoustics . Springer. 1999: 18 [2013-04-26 ] . ISBN 978-0-7923-5731-5 . (原始内容存档 于2015-03-19).
^ John Makhoul and Lynn Cosell, LPCW: An LPC vocoder with linear predictive spectral warping , ICASSP 1976 1 (IEEE), 1976, 1 : 466–469 [2013-04-26 ] , (原始内容存档 于2013-07-31)
^ T. Ganchev, N. Fakotakis, and G. Kokkinakis, Comparative evaluation of various MFCC implementations on the speaker verification task, , Proceedings of the SPECOM-2005, 2005: 191–194 [2013-04-26 ] , (原始内容存档 于2012-10-15)
^ Beranek, Leo L. (1949). Acoustic measurements . New York: McGraw-Hill.
^ Lindsay, Peter H.; & Norman, Donald A. (1977). Human information processing: An introduction to psychology (2nd ed.). New York: Academic Press.
^ B.C.J. Moore and B.R. Glasberg, "Suggested formulae for calculating auditory-filter bandwidths and excitation patterns" Journal of the Acoustical Society of America 74: 750-753, 1983.
^ Greenwood, D. D. (1990). A cochlear frequency–position function for several species—29 years later. The Journal of the Acoustical Society of America , 87, 2592–2605.
^
Umesh, S. and Cohen, L. and Nelson, D., Fitting the mel scale, Proc. ICASSP 1999 (IEEE), 1999: 217–220, ISBN 0-7803-5041-3