Rozdzielczość bitowa dźwięku

Rozdzielczość bitowa dźwięku, głębia bitowa dźwięku (ang. bit depth) – liczba bitów opisujących jedną próbkę dźwięku (tzn. liczbę odzwierciedlającą chwilową wartość sygnału). W uproszczeniu, zmiana głębi bitowej ma wpływ na poziom szumu kwantyzacji, a zatem również na stosunek sygnału do szumu (ang. signal-to-noise ratio, SNR) oraz zakres dynamiki dźwięku. Istnieją jednak techniki takie jak nadpróbkowanie, dithering i noise shaping, które oddziałują na powyższe efekty bez zmiany głębi bitowej. Rozdzielczość bitowa wpływa także na rozmiar pliku audio – im większa jest liczba bitów w próbce, tym większy jest rozmiar pliku.

Rozdzielczość bitowa dotyczy wyłącznie sygnału cyfrowego PCM (ang. Pulse-Code Modulation). Formaty ze stratną kompresją nie są z nią związane.

Przykładowe wartości głębi bitowej to 16 bitów na próbkę w płytach CD i do 24 bitów w płytach DVD i dyskach Blu-ray.

Zapis binarny w sygnale PCM

[edytuj | edytuj kod]
 Osobny artykuł: PCM.

Sygnał PCM jest sekwencją cyfrowych próbek dźwięku zawierających dane potrzebne do zrekonstruowania źródłowego sygnału analogowego. Każda próbka przedstawia amplitudę sygnału w konkretnym momencie, a próbki są równomiernie rozłożone w czasie. Amplituda to jedyna informacja zapisana w próbce, zwykle w formie liczby całkowitej lub zmiennoprzecinkowej, zakodowanej jako liczba binarna z konkretną ilością bitów, czyli rozdzielczością bitową.

Rozdzielczość bitowa a jakość dźwięku

[edytuj | edytuj kod]

Zapis w formie liczby całkowitej

[edytuj | edytuj kod]
Porównanie sygnału analogowego (czerwona linia) z wynikiem zapisu cyfrowego w rozdzielczości 4-bitowej

Rozdzielczość bitowa (wraz z częstotliwością próbkowania, liczbą kanałów itd.) ma znaczący wpływ na jakość dźwięku – przy jej wzroście dokładniejsze staje się odwzorowanie sygnału analogowego. Związane jest to z liczbą możliwych poziomów wartości dyskretnych – każdy poziom wartości musi mieć odrębną kombinację bitową, np. przy rozdzielczości 2-bitowej powstają 4 możliwe wartości dyskretne o następujących zapisach binarnych: 00, 01, 10, 11. Wobec tego liczba poziomów rośnie wykładniczo w stosunku do rozdzielczości bitowej[1][2].

Liczba poziomów wartości w zależności od rozdzielczości bitowej przy zapisie liczb całkowitych
Rozdzielczość bitowa Liczba poziomów wartości
2 22 = 4
4 24 = 16
8 28 = 256
12 212 = 4096
16 216 = 65536
24 224 = 16777216
32 232 = 4294967296

Zapis w formie liczby zmiennoprzecinkowej

[edytuj | edytuj kod]
Schemat zapisu zmiennoprzecinkowego IEEE-754 single

Wiele formatów plików dźwiękowych oraz cyfrowych stacji roboczych zapisuje wartości amplitudy w próbkach przy pomocy liczby zmiennoprzecinkowej[3]. Metoda ta jest stosowana np. przez format WAV i AIFF[4][5]. W przeciwieństwie do liczb całkowitych, przy których wzorem jest pojedyncza seria bitów, liczba zmiennoprzecinkowa powstaje z osobnych wzorów bitowych, których matematyczna relacja tworzy wartość amplitudy. Najbardziej powszechnie stosowanym standardem reprezentacji binarnej jest IEEE 754, który powstaje z relacji trzech sekcji: bit znaku S (ang. sign) określający czy liczba jest dodatnia, czy ujemna, wykładnik oraz mantysa[6]. Zapis liczby w standardzie IEEE 754 zajmuje 32 bity.

Kwantyzacja

[edytuj | edytuj kod]
 Osobny artykuł: Kwantyzacja (technika).
Przykład reprezentacji binarnej bajtu wynoszącego w systemie dziesiętnym 149, z podświetlonym najmniej znaczącym bitem.

Przy cyfrowym zapisie dźwięku w przetworniku analogowo cyfrowym dodatkowo powstaje szum kwantyzacji. Szum ten jest zwany również błędem zaokrąglenia kwantyzacji. Podczas konwersji ciągłego sygnału analogowego na postać cyfrową, każda wartość sygnału źródłowego jest przybliżana do najbliższej wartości dyskretnej. W związku z tym, przy poprawnej konwersji błąd jest rozłożony pomiędzy ±½ wartości najmniej znaczącego bitu (ang. least significant bit, LSB). Dzięki temu możliwe jest obliczenie stosunku sygnału do szumu (SNR) z następującego wzoru:

gdzie Q oznacza ilość bitów w rozdzielczości, a wynik wyrażony jest w decybelach[7].

24-bitowy dźwięk cyfrowy teoretycznie posiada SNR wynoszący ok. 144 dB, jednak technologia konwersji sygnału jest ograniczona do SNR o wartości ok. 123 dB[8][9] (21-bitowy ENOB, ang. effective number of bits) z powodu fizycznych ograniczeń w działaniu układu scalonego. Ponadto taki stosunek odpowiada zdolnościom ludzkiego układu słuchowego[10][11]. Choć 32-bitowe przetworniki istnieją, to odpowiadają one wyłącznie potrzebom marketingowym i nie przewyższają jakością 24-bitowych przetworników, dodatkowe bity są zerami lub wyłącznie generują szum[12].

Wpływ rozdzielczości bitowej na stosunek sygnału do szumu (przy zapisie w formie liczby całkowitej)[2]
Rozdzielczość bitowa Przybliżony stosunek sygnału do szumu
4 24,08 dB
8 48,16 dB
12 72,25 dB
16 96,33 dB
20 120,41 dB
24 144,49 dB
32 192,66 dB

Zakres dynamiki dźwięku

[edytuj | edytuj kod]
 Osobny artykuł: Zakres dynamiki dźwięku.

Zakres dynamiki dźwięku to różnica głośności między dźwiękiem najgłośniejszym a najcichszym, jaki dany sprzęt audio jest w stanie stworzyć, nagrać lub przetworzyć. Bez zastosowania ditheringu, zakres dynamiki dźwięku, zależy od poziomu szumu kwantyzacji. Przykładowo, zapis w formie liczby całkowitej w rozdzielczości 16-bitowej umożliwia uzyskać zakres dynamiki dźwięku wynoszący około 96 dB.

Wykorzystanie wyższych rozdzielczości bitowych podczas nagrań studyjnych pozwala na uzyskanie szerszego zakresu dynamiki dźwięku. Jeżeli sygnał nagrania audio ma mniejszy zakres dynamiki dźwięku niż zakres dozwolony przez wykorzystaną głębię bitową, to nagranie posiada tzw. headroom. Im wyższa rozdzielczość bitowa, tym większy headroom jest dostępny. Ten zabieg pozwala na redukcję przesterów przy dużych skokach wartości sygnału[13].

Przy właściwym zastosowaniu ditheringu, cyfrowe systemy audio są w stanie odtworzyć nagrania z niższą rozdzielczością bitowa, lecz wyższym zakresem dynamiki dźwięku niż zakres, na który teoretycznie pozwalałaby ta rozdzielczość z powodu szumu kwantyzacji[14][15].

Wykorzystanie technik takich jak oversampling i noise shaping może jeszcze bardziej poszerzyć zakres dynamiki dźwięku próbki dźwiękowej. Doprowadza to do zniwelowania błędu kwantyzacji do poziomu, który nie wpływa znacząco na odsłuch nagrania.

Zastosowanie rozdzielczości bitowej w formatach dźwięku

[edytuj | edytuj kod]

Poniższa tabela przedstawia jaka rozdzielczość bitowa jest wykorzystywana w popularnych formatach plików dźwiękowych[16].

Format dźwięku Rozdzielczość bitowa
CD 16
DVD 12, 16, 20 lub 24
mp3 16
AAC 8, 16
ATRAC 16
WMA od 8 do 24
OGG 16
wav od 8 do 32
AIFF od 8 do 32
PCM od 8 do 32
RIFF od 8 do 32

Wpływ rozdzielczości bitowej na rozmiar pliku

[edytuj | edytuj kod]

Rozmiar pliku zależy od rozdzielczości bitowej. W uproszczeniu, aby wyliczyć rozmiar pliku, można zastosować następujący wzór:

czas trwania dźwięku w sekundach × częstotliwość próbkowania w Hz × liczba kanałów × (rozdzielczość bitowa / 8) = rozmiar pliku w bajtach[17]

Zobacz też

[edytuj | edytuj kod]

Przypisy

[edytuj | edytuj kod]
  1. What does 12- or 16-bit resolution mean? | LabJack [online], labjack.com [dostęp 2018-02-03].
  2. a b Relationship of Data Word Size to Dynamic Range and Signal Quality in Digital Audio Processing Applications | Education | Analog Devices [online], www.analog.com [dostęp 2018-02-06] [zarchiwizowane z adresu 2018-02-06] (ang.).
  3. Reason Mixing Masterclass | [online], www.soundonsound.com [dostęp 2018-02-08] (ang.).
  4. Wave File Specifications [online], www-mmsp.ece.mcgill.ca [dostęp 2018-02-08].
  5. AIFF / AIFC Sound File Specifications [online], www-mmsp.ece.mcgill.ca [dostęp 2018-02-08].
  6. Floating Point (Real Numbers) [online], www.dspguide.com [dostęp 2018-02-08].
  7. Kester, Walt (2007) „Taking the mystery out of the Infamous Formula, „SNR = 6.02N + 1.76dB” and Why You Should Care”.
  8. Nwavguy, NwAvGuy: Noise & Dynamic Range [online], NwAvGuy, 6 września 2011 [dostęp 2018-02-08].
  9. PCM4222 124dB SNR Stereo Audio ADC with PCM/DSD and modulator outputs | TI.com [online], www.ti.com [dostęp 2018-02-08].
  10. Sensitivity of Human Ear [online], hyperphysics.phy-astr.gsu.edu [dostęp 2018-02-08].
  11. Dynamic_Range [online], www.sfu.ca [dostęp 2018-02-08] [zarchiwizowane z adresu 2018-04-23].
  12. The great audio myth: why you don’t need that 32-bit DAC, „Android Authority”, 19 stycznia 2016 [dostęp 2018-02-08] (ang.).
  13. Q. What exactly is ‘headroom’ and why is it important? [online], www.soundonsound.com [dostęp 2018-02-09] (ang.).
  14. Dithering Explained: What it is, When to Use It, and Why it’s Important, „Darkroom Mastering”, 25 lutego 2013 [dostęp 2018-02-09] (ang.).
  15. Dr. Ir. Stéphane Pigeon, Dynamic Range, Dithering and Noise Shaping [online], www.audiocheck.net [dostęp 2018-02-09] (ang.).
  16. Tabela formatów audio [online], www.fizykon.org [dostęp 2018-02-03].
  17. BBC Bitesize – GCSE Computer Science – Encoding audio and video – Revision 4 [online], www.bbc.co.uk [dostęp 2018-02-03] (ang.).