Rozdzielczość bitowa dźwięku, głębia bitowa dźwięku (ang. bit depth) – liczba bitów opisujących jedną próbkę dźwięku (tzn. liczbę odzwierciedlającą chwilową wartość sygnału). W uproszczeniu, zmiana głębi bitowej ma wpływ na poziom szumu kwantyzacji, a zatem również na stosunek sygnału do szumu (ang. signal-to-noise ratio, SNR) oraz zakres dynamiki dźwięku. Istnieją jednak techniki takie jak nadpróbkowanie, dithering i noise shaping, które oddziałują na powyższe efekty bez zmiany głębi bitowej. Rozdzielczość bitowa wpływa także na rozmiar pliku audio – im większa jest liczba bitów w próbce, tym większy jest rozmiar pliku.
Rozdzielczość bitowa dotyczy wyłącznie sygnału cyfrowego PCM (ang. Pulse-Code Modulation). Formaty ze stratną kompresją nie są z nią związane.
Przykładowe wartości głębi bitowej to 16 bitów na próbkę w płytach CD i do 24 bitów w płytach DVD i dyskach Blu-ray.
Sygnał PCM jest sekwencją cyfrowych próbek dźwięku zawierających dane potrzebne do zrekonstruowania źródłowego sygnału analogowego. Każda próbka przedstawia amplitudę sygnału w konkretnym momencie, a próbki są równomiernie rozłożone w czasie. Amplituda to jedyna informacja zapisana w próbce, zwykle w formie liczby całkowitej lub zmiennoprzecinkowej, zakodowanej jako liczba binarna z konkretną ilością bitów, czyli rozdzielczością bitową.
Rozdzielczość bitowa (wraz z częstotliwością próbkowania, liczbą kanałów itd.) ma znaczący wpływ na jakość dźwięku – przy jej wzroście dokładniejsze staje się odwzorowanie sygnału analogowego. Związane jest to z liczbą możliwych poziomów wartości dyskretnych – każdy poziom wartości musi mieć odrębną kombinację bitową, np. przy rozdzielczości 2-bitowej powstają 4 możliwe wartości dyskretne o następujących zapisach binarnych: 00, 01, 10, 11. Wobec tego liczba poziomów rośnie wykładniczo w stosunku do rozdzielczości bitowej[1][2].
Rozdzielczość bitowa | Liczba poziomów wartości |
---|---|
2 | 22 = 4 |
4 | 24 = 16 |
8 | 28 = 256 |
12 | 212 = 4096 |
16 | 216 = 65536 |
24 | 224 = 16777216 |
32 | 232 = 4294967296 |
Wiele formatów plików dźwiękowych oraz cyfrowych stacji roboczych zapisuje wartości amplitudy w próbkach przy pomocy liczby zmiennoprzecinkowej[3]. Metoda ta jest stosowana np. przez format WAV i AIFF[4][5]. W przeciwieństwie do liczb całkowitych, przy których wzorem jest pojedyncza seria bitów, liczba zmiennoprzecinkowa powstaje z osobnych wzorów bitowych, których matematyczna relacja tworzy wartość amplitudy. Najbardziej powszechnie stosowanym standardem reprezentacji binarnej jest IEEE 754, który powstaje z relacji trzech sekcji: bit znaku S (ang. sign) określający czy liczba jest dodatnia, czy ujemna, wykładnik oraz mantysa[6]. Zapis liczby w standardzie IEEE 754 zajmuje 32 bity.
Przy cyfrowym zapisie dźwięku w przetworniku analogowo cyfrowym dodatkowo powstaje szum kwantyzacji. Szum ten jest zwany również błędem zaokrąglenia kwantyzacji. Podczas konwersji ciągłego sygnału analogowego na postać cyfrową, każda wartość sygnału źródłowego jest przybliżana do najbliższej wartości dyskretnej. W związku z tym, przy poprawnej konwersji błąd jest rozłożony pomiędzy ±½ wartości najmniej znaczącego bitu (ang. least significant bit, LSB). Dzięki temu możliwe jest obliczenie stosunku sygnału do szumu (SNR) z następującego wzoru:
gdzie Q oznacza ilość bitów w rozdzielczości, a wynik wyrażony jest w decybelach[7].
24-bitowy dźwięk cyfrowy teoretycznie posiada SNR wynoszący ok. 144 dB, jednak technologia konwersji sygnału jest ograniczona do SNR o wartości ok. 123 dB[8][9] (21-bitowy ENOB, ang. effective number of bits) z powodu fizycznych ograniczeń w działaniu układu scalonego. Ponadto taki stosunek odpowiada zdolnościom ludzkiego układu słuchowego[10][11]. Choć 32-bitowe przetworniki istnieją, to odpowiadają one wyłącznie potrzebom marketingowym i nie przewyższają jakością 24-bitowych przetworników, dodatkowe bity są zerami lub wyłącznie generują szum[12].
Rozdzielczość bitowa | Przybliżony stosunek sygnału do szumu |
---|---|
4 | 24,08 dB |
8 | 48,16 dB |
12 | 72,25 dB |
16 | 96,33 dB |
20 | 120,41 dB |
24 | 144,49 dB |
32 | 192,66 dB |
Zakres dynamiki dźwięku to różnica głośności między dźwiękiem najgłośniejszym a najcichszym, jaki dany sprzęt audio jest w stanie stworzyć, nagrać lub przetworzyć. Bez zastosowania ditheringu, zakres dynamiki dźwięku, zależy od poziomu szumu kwantyzacji. Przykładowo, zapis w formie liczby całkowitej w rozdzielczości 16-bitowej umożliwia uzyskać zakres dynamiki dźwięku wynoszący około 96 dB.
Wykorzystanie wyższych rozdzielczości bitowych podczas nagrań studyjnych pozwala na uzyskanie szerszego zakresu dynamiki dźwięku. Jeżeli sygnał nagrania audio ma mniejszy zakres dynamiki dźwięku niż zakres dozwolony przez wykorzystaną głębię bitową, to nagranie posiada tzw. headroom. Im wyższa rozdzielczość bitowa, tym większy headroom jest dostępny. Ten zabieg pozwala na redukcję przesterów przy dużych skokach wartości sygnału[13].
Przy właściwym zastosowaniu ditheringu, cyfrowe systemy audio są w stanie odtworzyć nagrania z niższą rozdzielczością bitowa, lecz wyższym zakresem dynamiki dźwięku niż zakres, na który teoretycznie pozwalałaby ta rozdzielczość z powodu szumu kwantyzacji[14][15].
Wykorzystanie technik takich jak oversampling i noise shaping może jeszcze bardziej poszerzyć zakres dynamiki dźwięku próbki dźwiękowej. Doprowadza to do zniwelowania błędu kwantyzacji do poziomu, który nie wpływa znacząco na odsłuch nagrania.
Poniższa tabela przedstawia jaka rozdzielczość bitowa jest wykorzystywana w popularnych formatach plików dźwiękowych[16].
Format dźwięku | Rozdzielczość bitowa |
---|---|
CD | 16 |
DVD | 12, 16, 20 lub 24 |
mp3 | 16 |
AAC | 8, 16 |
ATRAC | 16 |
WMA | od 8 do 24 |
OGG | 16 |
wav | od 8 do 32 |
AIFF | od 8 do 32 |
PCM | od 8 do 32 |
RIFF | od 8 do 32 |
Rozmiar pliku zależy od rozdzielczości bitowej. W uproszczeniu, aby wyliczyć rozmiar pliku, można zastosować następujący wzór:
czas trwania dźwięku w sekundach × częstotliwość próbkowania w Hz × liczba kanałów × (rozdzielczość bitowa / 8) = rozmiar pliku w bajtach[17]