音質(おんしつ、英: sound quality)とは音や声の品質を表し、多くの場合電子機器などのオーディオ出力や音声出力の良し悪しの意味で用いられる。品質の内容はアプリケーションにより異なり、高音質のオーディオ機器では聴感上の原音への近さが、電話では明瞭度や了解度が重要になる。
音質は、人間が実際に音を聞いて判断する主観評価や、音の何らかの性質を測定して決める客観評価で定量化することができる。 音の物理的特性だけではなく人間の聴覚システムの特性が音質に大きな影響を与えるため、主観評価が音質評価の基本になるが、多くの評価者や専用の評価設備が必要で時間・コスト共に掛かり環境や評価者による評価のばらつきがあるため、音の物理的特性から主観評価値を推定する様々な客観品質評価法が研究されている。
音は以下の3つの側面があり[1]、音質はそれらの相互作用により決まる。
音質に関係する物理量として、古典的には以下のものがよく用いられている。
音質はこれらの物理量だけでは決まらない。 例えば、AACやMP3などのオーディオ圧縮方式で符号化された音は、聴感上全く感じないにもかかわらず、元の信号に対する物理的なSN比が非常に低いものがある[2]。これは圧縮の際に知覚の特性を利用し人間に聞こえにくいよう符号化の際の雑音や歪みを制御しているためである。 このようなシステムの音質は物理量のみでは評価できず、聴覚心理学的特性や対象となる音声や音楽の特性を反映した評価が必要になる。
音質を比較・管理するためには定量化する必要がある。定量化の方法として主観評価と客観評価がある。
音質を人間が実際に音を聞いて判断する方法が主観評価(subjective assessment)で、人間が感じる品質を聴覚心理実験によって直接測定する。音質は本来主観的なものであり [3]、 人間が直接判断するという点で音質評価の基本となる評価法である [4][3]。 主観評価法として、複数の評価者が品質を「非常に良い」~「非常に悪い」の5段階で評価し平均を求める平均オピニオン評点(mean opinion score、MOS)がよく使われる。
主観評価は品質を直接測定できるが、試験環境の違いや評価に使用する音源(音声、音楽)、評価者によって評価がばらつく欠点がある。
試験環境での周囲騒音や室内反響条件、周波数レスポンス、音圧レベルなどは同じ条件にする必要があり、例えば音圧レベルを大きくしただけでも人間の耳の特性(等ラウドネス曲線)のため低音が豊かに感じ[5]、全く同じ機器でも評価が上がることがある。
また、評価対象になる音の組み合わせや順序にも注意する必要があり、同じ音であっても評価試験で使用する他の音の質に悪いものが多ければ評価が高くなり、逆に他の音の質が全体的に高ければ評価は低くなる[4]。 音質の評価は使用する音の内容によっても影響を受け、評価に使用する音楽のジャンル(クラシック、ロック、ポップスなど)によって同じ環境でも評価が異なることはよく知られている[6]。
主観評価を適切に行うためには、以下のことに留意する必要がある。
主観評価は、十分な評価者数と専用の評価設備を用意することで人間の聴覚特性を反映した信頼性の高い評価結果を得ることができるが、多大な労力・時間と経費が必要になるという問題点がある。
客観評価(objective assessment)は、音のさまざまな物理的特徴から主観評価値を推定する手法で、入力となる信号から信号処理技術を用いて人間の聴感特性を考慮した特徴パラメータを抽出し、特定のアルゴリズムを用いて評価値を求める。客観評価は以下のような特徴を持つ[4]。
どの物理的特徴を用いどのようなアルゴリズムで判断するかは、評価対象としたい品質(明瞭度、音の自然さ、聴感上の雑音や歪みなど)に依存するため、客観評価の方法は対象となるアプリケーションごとに異なる。
以下に主観評価と客観評価の特徴をまとめる。
主観評価 | 客観評価 | |
---|---|---|
総合性・汎用性 | ○ | × |
コスト | × | ○ |
再現性 | × | ○ |
自動化 | × | ○ |
電子機器や通信機器などで扱う音は、大きく分けて電話などでの音声と、放送やオーディオ機器での音楽などのオーディオ信号とに分類できる。それぞれに対し国際標準化団体の国際電気通信連合(ITU)が以下のような主観品質評価法と客観品質評価法を勧告しており、音質の評価のために使われている。
規格番号 | 名称 |
---|---|
ITU-T P.800 | Methods for subjective determination of transmission quality |
ITU-T P.830 | Subjective performance assessment of telephone-band and wideband digital codecs |
規格番号 | 名称 |
---|---|
ITU-R BS.1284 | General methods for the subjective assessment of sound quality |
ITU-R BS.1116-1 | Methods for the subjective assessment of small impairments in audio system including multichannel sound systems |
ITU-R BS.1534 (MUSHRA) |
Method for the subjective assessment of intermediate quality levels of coding systems (MUSHRA) |
規格番号 | 名称 |
---|---|
ITU-T P.563 | Single-ended method for objective speech quality assessment in narrow-band telephony applications (no-reference algorithm) |
ITU-T P.861 (PSQM) |
Objective quality measurement of telephone-band (300-3400 Hz) speech codecs |
ITU-T P.862 (PESQ) |
Perceptual evaluation of speech quality (PESQ), an objective method for end-to-end speech quality assessment of narrow-band telephone networks and speech codecs |
規格番号 | 名称 |
---|---|
ITU-R BS.1387-1 (PEAQ) |
Method for objective measurements of perceived audio quality |
主観品質評価として最も一般的なものは平均オピニオン評点(MOS)で、音声の全般的な主観品質評価法として ITU-T勧告 P.800 で定義されている。複数の評価者が品質を「非常に良い(Excellent)」~「非常に悪い(Bad)」の5段階に評価し、全員の平均(MOS値)を求める。ITU-T勧告 P.800 には MOS 以外に DMOS、CMOS が定義されている [7]。
カテゴリ | 評点 |
---|---|
非常に良い(Excellent) | 5 |
良い(Good) | 4 |
普通(Fair) | 3 |
悪い(Poor) | 2 |
非常に悪い(Bad) | 1 |
カテゴリ | 評点 |
---|---|
劣化が全く認められない(Degradation is inaudible) | 5 |
劣化が認められるが気にならない(Degradation is audible but not annoying) | 4 |
劣化がわずかに気になる(Degradation is slightly annoying) | 3 |
劣化が気になる(Degradation is annoying) | 2 |
劣化が非常に気になる(Degradation is very annoying) | 1 |
カテゴリ | 評点 |
---|---|
非常に良い(Much Better) | 3 |
良い(Better) | 2 |
やや良い(Slightly Better) | 1 |
ほぼ同じ(About the Same) | 0 |
やや悪い(Slightly Worse) | -1 |
悪い(Worse) | -2 |
非常に悪い(Much Worse) | -3 |
電話を対象とする音声の評価法としては、受聴品質のみを対象とする受聴オピニオン評価法(listening-opinion test)と、遅延やエコーなども含めた会話での品質を対象とする会話オピニオン評価法(conversation-opinion test)とに分けることができる。いずれを評価する場合でも評価の流れは変わらない。
これ以外に、電話用のデジタル音声コーデックの主観評価値の具体的な測定方法として ITU-T勧告 P.830 が定義されている。
平均オピニオン評点はオーディオの場合も使われ、オーディオ品質の評価全般についての主観評価法として ITU-R勧告 BS.1284 で定義されている。これは同様の主観評価法 ITU-R勧告 BS.562-3 の改定版で、音声の場合と同様 MOS、DMOS、CMOS があり評価カテゴリも同じである。
評価対象となるパラメータとして以下のものが定義されている [8]。これらの属性はさらにいくつかの細かいサブパラメータに分類されている。
劣化が少ない高品質のオーディオシステムや多チャンネルシステム向けの主観評価法として ITU-R BS.1116-1 が定義されている。BS.1116-1 は DMOS と同様の5段階の評価カテゴリを用いて小数点以下1桁までの評点を決める。
カテゴリ | 評点 |
---|---|
わからない(Inaudible) | 5.0 |
わかるが気にならない(Audible but not annoying) | 4.0 |
やや気になる(Slightly annoying) | 3.0 |
気になる(Annoying) | 2.0 |
非常に気になる(Very annoying) | 1.0 |
試験は隠れ基準付き3刺激二重盲検法(double-blind triple-stimulus with hidden reference)で評価を行う。この方法は、リファレンス音(原音)と2つの評価対象音の合計3つの音を聴き比べ、2つの評価対象音の相対評価を行う。2つの評価対象音のどちらかにはランダムにリファレンス音(隠れ基準、hidden reference)が含まれ、必ず一方に 5.0 の評点を付ける。この方法は毎回3つの音を比較するため時間がかかるが、僅かな劣化でも検出できるため劣化が少ないシステムの評価に向いている[9]。
中品質のオーディオ圧縮システムの品質の主観評価法として ITU-R BS.1534 が定義されている。BS.1534 で定義されている評価方法は MUSHRA法(MUltiple Stimuli with Hidden Reference and Anchor)と呼ばれており、AAC、HE-AAC など様々なオーディオ用コーデックの評価・比較に使われている。
MUSHRA法では、一度にリファレンス音(原音)と複数の評価対象音、隠れ基準(リファレンス音)、隠れアンカー(最も劣化の大きな音)を提示でき、評価者が自由に切り替えて聞くことができる。リファレンス音以外の提示の順番はランダムに変わり、どれが隠れ基準/隠れアンカーかも分からない。評価は5段階の連続品質尺度を用い、平均オピニオン評点の「非常に良い(Excellent)」~「非常に悪い(Bad)」までの段階を 100 から 0 までの連続値で表す。
中品質から低品質の音を評価する場合、評価対象音とリファレンス音との差が大きくなるのに対し、異なった評価対象音の差は相対的に小さくなる。異なったコーデックの音を比較する場合など、BS.1116 のようリファレンス音との差のみで評価すると誤差が大きくなる可能性がある。MUSHRA法ではリファレンス音との比較だけでなく異なったコーデック音の間の比較も評価者が自由に行えるため、正しい評価が容易になる[10]。また、隠れアンカーにより劣化した音の聞こえ方が具体的に分かり、劣化を区別をしやすくなる[10]。隠れ基準(リファレンス音)が評価対象音に含まれるため、必ず1つの評価対象音は 100 の評点になる。
隠れアンカー(最も劣化の大きな音)として、原音(リファレンス音)に 3.5kHz のローパスフィルターを通し高音をカットした音を用いる。隠れアンカーは複数含まれてもよく、7kHz のローパスフィルターを通した音、雑音を加えた音、ステレオ感を無くした音などが使われる。
平均オピニオン評点に代表される主観品質評価法はコスト・時間が掛かるという欠点があり、主観評価と対応の良い音声の客観品質評価法は古くから研究されてきた。 最も基本的な評価方法として、元の音声信号と通信回線などを通過してきた信号とから信号対雑音比(signal-to-noise ratio、SNR)を求める方法と、短い時間単位で測定した信号対雑音比を長時間の音声区間で平均したセグメンタルSNR(SSNR)があり、単純なアルゴリズムで値が求まるため以前から使われてきた。求まる値は、音声波形を変えない特定のシステムでは主観評価と相関関係にあるが、複雑な音声符号化方式を使うもっと一般的なシステムでは主観評価値とかけ離れたものとなってしまう欠点がある。
また、人間がフォルマントなど周波数領域のパラメータで音声を認識していることを利用した、音声スペクトルの形状や形状を与えるパラメータによる歪みの評価も可能で、板倉-斎藤距離(Itakura-Saito distance)、LPCケプストラム距離(linear predictive coding cepstral distance)などを用いたものが提案されている。
これらをさらに発展させ人間の様々な聴覚心理学上の特性を考慮したパラメータを用いた受聴品質の客観評価方法として、ITU-T P.861(PSQM、perceptual speech quality measure)と、それの改良版であるITU-T P.862(PESQ、perceptual evaluation of speech quality)がある。
ITU-T P.862 で定義されている PESQ は電話などでの音声の受聴品質の客観評価を行うためのアルゴリズムで、その前身の PSQM を改良したものである。遅延やエコーなど会話品質での劣化要因は考慮されていない。 PESQ はリファレンス音声(原音)と評価対象音声とを入力とし、以下の2段階の処理により評価値を推定する。
ITU-T P.862 は 300-3400Hz の電話帯域の音声信号の評価を対象とする。同様のアルゴリズムを用い 7kHz の広帯域音声を対象とする勧告としてITU-T P.862.2 がある。
オーディオの客観品質評価法として古くから使われてきたのは信号対雑音比や歪率だが、現代のデジタル信号処理を使った様々なオーディオ圧縮コーデックでは有効な評価方法ではない[11]。そのため、音声の客観品質評価法と同様、オーディオでの新しい客観品質評価法が研究されている。ITU-R BS.1387-1 で定義されている PEAQ(perceived evaluation of audio quality)はその代表的なものである。
ITU-R BS.1387-1 で定義されている PEAQ はオーディオの客観評価を行うためのアルゴリズムである。デジタル放送やデジタル機器などで使用されているさまざまなビットレートのオーディオ圧縮コーデックの評価などを行うためのもので、それまでに提案されたいくつかのオーディオ客観品質評価法を研究して優れたところを1つにまとめたものである[11]。ただしこの方法は主観品質評価を補完するためのものであって、正式なリスニング試験の代わりになるものではない[11]。
PEAQ は、音声の客観品質評価法と同様、リファレンス音(原音)と評価対象音とを入力とし、以下の2段階の処理により評価値を推定する。
聴覚心理モデルとしては、FFTベースの耳モデルとフィルタバンクベースの耳モデルの2種類が定義されている。用途に応じ、FFTベースのみ、あるいはFFTベースとフィルタバンクベース両方のいずれかが使われる。
認知モデリングでは知覚モデリングの出力を用いて音質に関係するさまざまな聴感上のモデル変数値(16種類)が計算され、これらの値から人工ニューラルネットワークを用いて Objective Difference Grade(ODG、客観品質劣化度合)と呼ばれる最終的な劣化度合が計算される。 ODG は、BS.1116-1 のような主観品質評価法での評価値「わからない:評価値 5.0 」~「非常に気になる:評価値 1.0 」について、評価対象信号の主観的評価値からリファレンス信号の主観的評価値を引いた Subjective Difference Grade(SDG、主観劣化度合い)に対応するものである。SDG は以下の式で表される。
SDG 値は 0 ~ -4 までの値をとり、0 は劣化が分からず、-4 は劣化が非常に気になる状態を表す。