Em áudio digital usando modulação codificada de pulsos (PCM - Pulse Code Modulation), profundidade de bit é o número de bits de informação em cada amostra, que corresponde diretamente à resolução delas. Exemplos de profundidade de bit incluem CDs, que usam 16 bits por amostra, DVD de áudio e Bluray, que podem suportar até 24 bits por amostra.
A profundidade de bit afeta principalmente o nível de ruído de erros da quantização mais a proporção sinal-ruído (signal-to-noise ratio) e além do alcance dinâmico. Entretanto, técnicas como dithering, modelamento de ruído e sobreamostragem (oversampling) suavizam estes efeitos sem mudar a profundidade de bit. Ela também afeta o bit rate e o tamanho do arquivo de áudio.
Para um sinal modulado por código de pulsos (PCM), a profundidade de bit é a única referência significativa. Formatos não-PCM, como os comprimidos com perdas de dados, não têm profundidade de bit associada. Por exemplo, no formato MP3, a quantização é feita usando o domínio da frequência representando o sinal, não com base no domínio do tempo com profundidade de bits relevantes às amostras.
Um sinal PCM é uma sequência de amostras de áudio digital contendo os dados de informação necessários para a reconstrução do sinal analógico original. Cada amostra representa a amplitude do sinal em um ponto específico no tempo, e elas são uniformemente espaçadas nele. A amplitude é a única informação explícita armazenada na amostra, que é normalmente armazenada tanto em números inteiros ou em números com vírgula flutuante, codificada como um número binário com um número fixo de dígitos: a profundidade de bit ou resolução da amostra, que também se refere como tamanho de palavra (word length) ou word size.
A resolução indica o número de valores inteiros que podem representar o alcance (possibilidades) de valores analógicos. A resolução dos inteiros binários aumenta exponencialmente enquanto o tamanho de palavra aumenta. Adicionando um bit se dobra a resolução, adicionando dois, quadruplica, e assim em diante. O número de valores possíveis que podem ser representados por um inteiro, pode ser calculado usando 2n, onde n é a profundidade de bit. Enfim, um sistema de 16 bits tem uma resolução de 65.536 (216) valores possíveis [1]. Dados de áudio PCM são normalmente armazenados como números com sinal no formato complemento para dois.
Muitos formatos de arquivos de áudio e estações de trabalho de áudio digital (DAW) suportam formatos PCM com amostras representadas por números com vírgula flutuante [2][3][4][5]. Ambos os formatos WAV e o AIFF suportam representações em números com vírgula flutuante [6][7]. Diferentemente de números inteiros, um número com vírgula flutuante é composto de campos separados que matematicamente se relacionam para formar um número racional. O padrão mais comum é o IEEE 754 que é composto de três campos: um bit de sinal que representa se o número é positivo ou negativo, um expoente e um significando que é multiplicado pelo expoente. O significando é representado como uma fração binária de números com vírgula flutuante de base de dois pelo IEEE [8].
A profundidade de bit limita a relação sinal-ruído do sinal reconstruído a um nível máximo determinado pelo erro de quantização. A profundidade de bit não tem nenhum impacto na resposta em frequência, a qual é restringida pela amostragem de sinal.
O erro de quantização introduzido durante a conversão analógico-digital (A/D) é chamado de ruído de quantização. Não é possível uma representação perfeita de um sinal analógico para digital, pois entre zero e o valor máximo possível, um sinal analógico passa por todos os valores intermediários possíveis (que são infinitos), enquanto o sinal digital só pode assumir um número pré-determinado (finito) de valores[9]. O ruído de quantização é um erro de arredondamento entre o valor da voltagem de entrada analógico para o conversor e o valor digitalizado de saída. O ruído é não-linear e é dependente do sinal de entrada.
Em um conversor analógico-digital ideal, onde o erro de quantização é uniformemente distribuído entre do último bit significante (Least Significant Bit - LSB) e onde o sinal tem uma distribuição uniforme cobrindo todos os níveis de quantização, a relação sinal / ruído de quantização pode ser calculada usando:
Onde Q é o número de bits da quantização e o resultado é medido em decibéis (dB) [10].
Portanto, áudio digital de 16 bits encontrado em CDs tem uma relação máxima de sinal-ruído de 96 dB e sistemas profissionais de áudio digital de 24 bits, chegam até 144 dB. Assim em 2011, a tecnologia digital de conversão de áudio é limitada em um sinal-ruído de cerca de 123 dB [11][12][13] (efetivamente 21 bits) por causa das limitações no design de circuitos integrados. [nota 1] Ainda, isso aproxima a correspondência com a performance da audição humana [14][15]. Múltiplos conversores podem ser usados para cobrir diferentes alcances do mesmo sinal, sendo combinados juntos para gravar um amplo alcance dinâmico a longo prazo, enquanto ainda são limitados pelo alcance dinâmico de um único conversor no curto prazo, que é chamado "alcance dinâmico estendido" [16][17].
Relação Sinal-Ruído e resolução de profundidade de bits | |||
---|---|---|---|
Quantidade de bits |
Relação Sinal-Ruído |
Valores possíveis de inteiros por amostra |
Alcance por amostra na Base 10 com sinal |
4 | 24,08 dB | 16 | -8 a +7 |
8 | 48,16 dB | 256 | -128 a +127 |
11 | 66,22 dB | 2.048 | -1.024 a +1.023 |
12 | 72,24 dB | 4.096 | -2.048 a +2.047 |
16 | 96,33 dB | 65.536 | -32.768 a +32.767 |
18 | 108,37 dB | 262.144 | -131.072 a +131.071 |
20 | 120,41 dB | 1.048.576 | -524.288 a +524.287 |
24 | 144,49 dB | 16.777.216 | -8.388.608 a +8.388.607 |
32 | 192,66 dB | 4.294.967.296 | -2.147.483.648 a +2.147.483.647 |
48 | 288,99 dB | 281.474.976.710.656 | -140.737.488.355.328 a +140.737.488.355.327 |
64 | 385,32 dB | 18.446.744.073.709.551.616 | -9.223.372.036.854.775.808 a +9.223.372.036.854.775.807 |
A resolução das amostras com vírgula flutuante é menos direta que amostras com inteiros, porque valores racionais não são espaçados igualmente. Em representações com vírgula flutuante, o espaço entre dois valores adjacentes é em proporção ao valor. Isso aumenta significativamente a relação Sinal-Ruído em comparação com um sistema de inteiros porque a precisão de um sinal de alto nível irá ser o mesmo assim como a precisão de um sinal idêntico em um nível mais baixo.
A troca entre vírgula flutuante e inteiros é que o espaço entre valores racionais grandes é maior que o espaço entre inteiros grandes de uma mesma profundidade de bit. Arredondando uma vírgula flutuante grande resulta em um erro muito maior que arredondar uma vírgula flutuante pequena onde arredondar um número inteiro irá sempre resultar no mesmo nível de erro. Em outras palavras, inteiros têm arredondamento que é uniforme, sempre arredondando o último bit significante para 0 ou 1, e vírgula flutuante tem uma relação Sinal-Ruído que é uniforme, o nível de ruído da quantização é sempre uma certa proporção do nível de sinal[18]. Um ruído de fundo de vírgula flutuante irá aumentar na medida que o sinal aumenta e diminui assim que ele diminui, resultando em variação audível se a profundidade de bit é baixa o suficiente [19].
A maioria das operações de processamento em áudio digital envolvem requantização de amostras e portanto introduz erro de arredondamento adicional análogo ao erro de quantização original introduzido durante a conversão analógico-digital. Para evitar erros de arredondamento maiores que o erro implícito durante a conversão A/D, cálculos durante o processamento devem ser feitos com precisão maior que nas amostras de entrada [20].
Operações de processamento digital de sinais podem ser feitas em tanto com precisão de vírgula fixa ou vírgula flutuante. Em ambos os casos, a precisão de cada operação é determinada pela precisão das operações do hardware usado para realizar cada etapa do processamento e não da resolução dos dados de entrada. Por exemplo, em processadores x86, operações com vírgula flutuante são feitas com precisão simples ou precisão dupla e operações com vírgula fixa de resolução de 16, 32 ou 64 bit. Consequentemente, todos os processos feitos em hardware baseado da Intel irão ser feitos com estas limitações independente do formato fornecido.
Processadores digitais de sinal com vírgula fixa frequentemente suportam tamanho de palavra específica em função de suportar resolução de sinal específica. Por exemplo, o chip Motorola 56000 usa multiplicadores 24 bits e acumuladores 56 bits para realizar operações de multiplicação acumulativas em duas amostras de 24 bits sem transbordar ou truncar [21].
O ruído introduzido pelo erro de quantização, incluindo erros de arredondamento e perda de precisão introduzida durante o processamento do áudio, pode ser disfarçado adicionando uma pequena quantidade de ruído randômico, chamado "dither" [nota 2], para o sinal antes de ser quantizado. O Dithering adiciona este ruído randômico ao sinal para ser quantizado, que mascara os erros de quantização não-linear no final do processo, gerando muita pouca distorção, com um custo de se ter um ruído de fundo a mais, como um chiado muito sutil. Muitos masterizadores, antes de finalizar algum áudio para uma profundidade de bit mais baixa que a de trabalho (para adaptar ao formato que a mídia final suporta), adicionam algum tipo de ruído randômico que pode ser o ruído branco randômico, o ruído RPDF ou TPDF, que são ruídos com distribuição de probabilidade específica.
O Dither recomendado para áudio digital de 16 bit medido utilizando o padrão ITU-R 468, é de cerca de 66 dB abaixo do nível de alinhamento (que é normalmente 0 dBv), ou 84 dB abaixo na escala total digital,[nota 3] a qual é comparável com microfones e ruído de fundo, uma pequena consequência em áudio 16 bit.
Áudio digital em 24 bit não requer dithering, assim como o nível de ruído de um conversor digital é sempre mais alto do que o nível necessário de qualquer dither que pode ser aplicado. Áudio nesta quantidade de bits teoricamente pode codificar 144 dB de alcance dinâmico, mas baseado nos datasheets de fabricantes nenhum conversor A/D existente pode providenciar mais que ~125 dB [22].
Dither também pode ser usado para aumentar o alcance dinâmico efetivo. O alcance dinâmico percebido de áudio 16 bit pode ser de 120 dB ou mais com dither modulado, levando vantagem da resposta de frequência da audição humana [23][24].
Alcance dinâmico é a diferença entre o sinal mais alto e o mais baixo que um sistema pode gravar ou reproduzir. Sem dither, o alcance dinâmico correlata com ruído de fundo da quantização. Por exemplo, a resolução de 16 bits com inteiros permite um alcance dinâmico de 96 dB. Sem a aplicação apropriada do dither, sistemas digitais podem reproduzir sinais com níveis mais baixos do que sua resolução normalmente poderia permitir, estendendo o alcance dinâmico efetivo além do limite imposto pela resolução [25]. O uso de técnicas como sobreamostragem (oversampling) e modelamento de ruído podem estender o alcance dinâmico do áudio amostrado movimentando o erro de quantização para fora da banda de frequência de interesse.
Se o nível máximo do sinal é mais baixo do que o permitido pela profundidade de bit, a gravação tem headroom. Usando profundidade de bit maior durante a gravação de estúdio pode fazer o headroom livre enquanto mantém o mesmo alcance dinâmico. Isso reduz o risco de clipping sem aumentar os erros de quantização em baixos volumes.
Sobreamostragem é um método alternativo para aumentar o alcance dinâmico de áudio PCM sem mudar o número de bits por amostra [26]. Na sobreamostragem, as amostras de áudio são duplicadas ou mais para a taxa de amostragem desejada. Porque erros de quantização são assumidos para serem uniformemente distribuídos com frequência, muitos dos erros da quantização são deslocados para frequências ultrassônicas e podem ser removidas pelo conversor D/A durante a reprodução de mídia.
Para um aumento equivalente a n bits adicionais de resolução, um sinal deve ser sobreamostrado por
Por exemplo, um conversor D/A de 14 bits pode produzir áudio de 16 bits a 48 kHz se operado com sobreamostragem de 16×, ou 768 kHz. PCM sobreamostrado, entretanto, troca menos bits por amostra para mais amostras em função de obter a mesma resolução.
O alcance dinâmico também pode ser melhorado com sobreamostragem de reconstrução de sinal, sem sobreamostragem na origem. Considere sobreamostragem 16× de reconstrução: Cada amostra de reconstrução pode ser única em que para cada um dos pontos originais na amostra, 16 novos são inseridos, todos tendo sido calculados por um filtro de reconstrução digital. O mecanismo de aumentar efetivamente a profundidade de bit foi previamente discutido, que é, ruído de quantização não diminui, mas o espectro do ruído se espalha 16× da largura de banda do áudio.
Nota histórica: O padrão dos CDs foi desenvolvido pela colaboração entre a Sony e a Philips. O primeiro aparelho da Sony tinha um conversor D/A de 16 bits; e o primeiro da Philips tinha dois conversores D/A de 14 bits. Isso causou confusão no mercado e em meios profissionais. Anos depois, um dos jornais de engenharia comercial erroneamente fez uma nota histórica do conversor D/A de 14 bits no dispositivo da Philips que permitia 84 dB SNR, o escritor ou tinha desconhecimento das especificações do aparelho que indicava 4× de sobreamostragem ou desconhecimento da implicação. Isso foi corretamente notado que a Philips não tinha originalmente fornecido conversores D/A de 16 bits na época, mas o escritor não tinha conhecimento do poder do processamento digital de sinal para aumentar a SNR para 90 dB [27].
Profundidade de bit é uma propriedade fundamental de implementações de áudio digital. Dependendo dos requerimentos da aplicação e capacidade do equipamento, diferentes profundidades de bit são usadas para diferentes usos.
Applicação | Descrição | Formato(s) de áudio |
---|---|---|
CD de áudio[nota_abaixo 1] | Mídia digital | 16 bits LPCM |
DVD de áudio[28] | Mídia digital | 16, 20 e 24 bits LPCM[nota_abaixo 2] |
CD de super áudio[29] | Mídia digital | 1 bit Direct Stream Digital (PDM - Modulação por Densidade de Pulsos) |
Disco Blu-ray de Áudio[30] | Mídia digital | 16, 20 e 24 bits LPCM e outros[nota_abaixo 3] |
Fita DV de áudio[31] | Mídia digital | 12 e 16 bits PCM não comprimidos |
Setor de Normatização das Telecomunicações Recomendação G.711[32] | Padrão de compressão para telefonia | 8 bits PCM com compansão[nota_abaixo 4] |
NICAM-1, NICAM-2, e NICAM-3[33] | Padrões de compressão para radiodifusão | 10, 11 e 10 bits PCM respectivamente, com compansão[nota_abaixo 5] |
Ardour | Estação de trabalho digital criada por Paul Davis e comunidade da Ardour | 32 bits com vírgula flutuante[34] |
Pro Tools 11 | Estação de trabalho digital da Avid | Sessões de 16 e 24 bits ou 32 bits com vírgula flutuante e mixagem 64 bits com vírgula flutuante[35] |
Logic Pro X | Estação de trabalho digital da Apple | Projetos em 16 e 24 bits e mixagem em 32 ou 64 bits com vírgula flutuante[36] |
Ableton Live[37] | Estação de trabalho digital da Ableton | Profundidade de bit em 32 bits e somatória em 64 bits |
Reason 7 | Estação de trabalho da Propellerhead Software | E/S de 16, 20 e 24 bits, aritmética em 32 bits com vírgula flutuante, e somatória em 64 bits[38] |
REAPER 5 | Estação de trabalho digital da Cockos. | Renderização em 8, 16, 24 e 32 bits PCM, 32 e 64 bits com vírgula flutuante, IMA ADPCM 4 bits e 2 bits cADPCM Mixagem em 8, 16, 24 e 32 bits, 32 e 64 bits com vírgula flutuante |
GarageBand 2011 (Versão 6) | Estação de trabalho digital da Apple | Padrão em 16 bits com gravação de instrumentos reais em 24 bits[39] |
Audacity | Editor de áudio de código aberto | 16 e 24 bits LPCM e 32 bits com vírgula flutuante[40] |
FL Studio | Estação de trabalho digital da Image Line | 16 e 24 bits e 32 bits com vírgula flutuante (controlado pelo O.S.)[41] |
Profundidade de bit afeta o bit rate e o tamanho de arquivo. Bits são a unidade básica de dados usada em computação e comunicação digital. Bit rate refere-se à quantidade de dados, especificamente bits transmitidos ou recebidos por segundo. Em MP3 e outros formatos com compressão, bit rate descreve a quantidade de dados usados para codificar um sinal de áudio digital. Normalmente medido em kb/s [42]
So your 32-bit DAC is actually only ever going to be able to output at most 21-bits of useful data and the other bits will be masked by circuit noise.
all the '32 bit capable' DAC chips existent today have actual resolution less than 24 bit.
24 bit DACs often only manage approximately 16 bit performance and the very best reach 21 bit (ENOB) performance.
Dynamic Range (–60dB input, A-weighted): 124dB typical Dynamic Range (–60dB input, 20 kHz Bandwidth): 122dB typical
128dB SNR (‘A’-weighted mono @ 48 kHz) 123dB SNR (non-weighted stereo @ 48 kHz)
The dynamic range of human hearing is [approximately] 120 dB
The practical dynamic range could be said to be from the threshold of hearing to the threshold of pain [130 dB]
With use of shaped dither, which moves quantization noise energy into frequencies where it's harder to hear, the effective dynamic range of 16 bit audio reaches 120dB in practice, more than fifteen times deeper than the 96dB claim. 120dB is greater than the difference between a mosquito somewhere in the same room and a jackhammer a foot away.... or the difference between a deserted 'soundproof' room and a sound loud enough to cause hearing damage in seconds. 16 bits is enough to store all we can hear, and will be enough forever.
One of the great discoveries in PCM was that, by adding a small random noise (that we call dither) the truncation effect can disappear. Even more important was the realisation that there is a right sort of random noise to add, and that when the right dither is used, the resolution of the digital system becomes infinite.