La modulación por impulsos codificados (MIC o PCM por las siglas en inglés de Pulse Code Modulation) es un procedimiento de modulación utilizado para transformar una señal analógica en una secuencia de bits (señal digital), método inventado por el ingeniero británico Alec Reeves en 1937 y que es la forma estándar de audio digital en computadoras, discos compactos, telefonía digital y otras aplicaciones similares. En un flujo MIC la amplitud de una señal analógica es muestreada regularmente en intervalos uniformes, y cada muestra es cuantizada al valor más cercano dentro de un rango de pasos digitales.
La modulación lineal por impulsos codificados (MLIC o LPCM por las siglas en inglés de Linear Pulse Code Modulation) es un tipo específico de MIC en la cual los niveles de cuantificación digital son linealmente uniformes.[1] Esto contrasta con las codificaciones de MIC en las cuales los niveles de cuantificación varían como función de la amplitud de la señal muestreada como en los algoritmos de Ley A y Ley Mu. Aunque MIC es un término general, es a menudo usado para describir señales codificadas de manera lineal como en MLIC.
Los flujos de MIC tienen propiedades básicas que determinan su fidelidad a la señal analógica original: la frecuencia de muestreo, es decir, el número de veces por segundo que se tomen las muestras; y la profundidad de bit,[2] que determina el número de posibles valores digitales que puede tomar cada muestra.
En la historia de las comunicaciones eléctricas, la primera razón para muestrear una señal era poder intercalar muestras de diferentes orígenes telegráficos y enviarlas por un único cable. La multiplexación por división de tiempo (TDM) telegráfica fue lograda en 1858, por el inventor estadounidense Moses Gerrish Farmer para dos señales telegráficas que viajaban sobre un mismo par de conductores, para lo cual realizó una solicitud de patente que le fue concedida en 1875.[3] El ingeniero eléctrico Willard M. Miner, en 1903, usó un conmutador electromecánico para la multiplexación por tiempo de diversas señales telegráficas y también aplicó esta tecnología a la telefonía.[4] Obtuvo conversaciones inteligibles de canales muestreados a una tasa por encima de 3500 a 4300 Hz, pero el desempeño era insatisfactorio a menos de esta velocidad. Esto era TDM, pero con modulación por amplitud de pulsos en vez de MIC.
En 1920, el sistema de transmisión de imágenes fijas por cable Bartlane, llamado así por sus inventores los británicos Harry Guy Bartholomew y Maynard Leslie Deedes McFarlane,[5] utilizó la señalización telegráfica de caracteres perforados en una cinta de papel para enviar muestras de imágenes cuantificadas en 5 niveles de gris, número que se incrementó en 15 en 1929. La patente para este sistema fue solicitada en Gran Bretaña en 1921 y en Estados Unidos al año siguiente y, en este último país, fue concedida en 1927.[6] Las imágenes que podían ser transmitidas a través del Océano Atlántico, entre Estados Unidos y el Reino Unido,[7] en menos de tres horas, eran decodificadas en el receptor utilizando impresoras de telégrafo que tenían los tipos de letra adecuados. Pero la primera transmisión de una imagen fija que se considera digital, ocurrió en 1957 cuando Russell Kirsch procesó a través de la computadora SEAC (Standards Eastern Automatic Computer) del Instituto Nacional de Estándares y Tecnología de Estados Unidos, una imagen de su hijo de 3 meses de 176 X 176 píxeles. Esta tecnología, con sus mejoras, sería usada por la NASA en la década siguiente para la transmisión de imágenes usadas en teledetección.
El 30 de noviembre de 1926 se le concedió al inventor estadounidense Paul M. Rainey, de Western Electric, la patente de un sistema telegráfico de facsímil que transmitía su señal usando MIC de 5 bits, codificados por un convertidor análogo-digital optomecánico.[8] La máquina no llegó a producción masiva. El ingeniero británico Alec Reeves y el francés Edmond Maurice Deloraine, sin estar al tanto de este trabajo previo, concibieron el uso de MIC para las comunicaciones de voz en 1937, mientras trabajaban para la filial francesa de la empresa estadounidense International Standard Electric Corporation. La solicitud de patente explicó la teoría y sus ventajas, pero no ofreció usos prácticos. Reeves y Deloraine solicitaron una patente en Francia y en Estados Unidos en 1938, y esta última se les otorgó en 1941.[9] La primera transmisión de voz por técnicas digitales hizo uso del sistema de codificación y cifrado SIGSALY, utilizado para comunicaciones de alto nivel de las naciones aliadas durante la Segunda Guerra Mundial, en 1943. Ese año, los investigadores de Bell Labs que diseñaron SIGSALY se dieron cuenta de que el uso de MIC había sido ya propuesto por Alec Reeves. En 1949, la empresa Ferranti-Packard de Canadá construyó un sistema de radio con MIC que fue capaz de transmitir datos de radar digitalizados sobre largas distancias para el sistema DATAR de la marina canadiense.[10] La MIC en los años 1950 usaba, para codificar, un tubo de rayos catódicos con una malla perforada. Tal como en un osciloscopio, el haz era barrido horizontalmente a una tasa de muestreo determinada, mientras la deflexión vertical era controlada por la señal analógica de entrada, haciendo que el haz pasara a través de porciones altas o bajas de la malla. La malla interrumpía el haz, produciendo variaciones de corriente en código binario. Esta malla fue perforada para producir señales binarias en código Gray en lugar de usar el sistema binario natural.
Además de su uso en telecomunicaciones, el sistema MIC comenzó a ser usado para la grabación y producción musical. En 1967, ingenieros del laboratorio de investigación técnica de la NHK (Corporación Radiodifusora de Japón) desarrollaron un grabador MIC monaural de audio y, dos años después, habían desarrollado otro de dos canales que muestreaba el audio a 32 kHz de frecuencia y con resolución de 13 bits grabando las señales en un grabador de cinta de video de exploración helicoidal. Entre 1969 y 1971, la empresa japonesa Denon alquiló un grabador estéreo de NHK para realizar grabaciones experimentales que condujeron a las primeras grabaciones comerciales realizadas digitalmente: los álbumes "Something" del saxofonista de jazz estadounidense Steve Marcus y "The World of Stomu Yamash'ta" del músico y compositor japonés Stomu Yamashta, ambas producidas en 1971. Los resultados de estas grabaciones, hicieron que Denon diseñara sus propios equipos PCM basados en grabadores de video, de 8 canales de audio muestreados a 47,25 kHz con resolución de 13 bits. Inicialmente, crearon el modelo DN-023R para uso dentro de sus estudios de grabación en Tokio y en 1977, Denon desarrolló un sistema de grabación PCM mejorado y más pequeño, el DN-034R, como equipo móvil el cual fue llevado a estudios de Japón, Francia y Estados Unidos para realizar grabaciones comerciales.[11]
En el Reino Unido, la corporación británica BBC también experimentó el uso de la tecnología MIC con el desarrollo de un sistema de 13 canales de audio, realizado en 1972 para mejorar el audio de sus transmisiones televisivas. Este sistema siguió usándose hasta 10 años después.[11] Por su parte, ingenieros de la compañía también británica, hoy desaparecida, Decca Records también desarrollaron a mediados de la década de 1970, equipos digitales de grabación y postproducción de audio, para uso interno, basados en el grabador de video de la serie IVC800 de la empresa estadounidense International Video Corporation. Estos sistemas estuvieron en uso hasta noviembre de 1997, cuando Polygram Records, compradora de Decca Records, hizo cerrar el "Centro de Grabación Decca" y envió diez de esos equipos a su filial neerlandesa, para realizar transcripciones digitales de su material de archivo.[12][13][14] En Estados Unidos, la empresa Soundstream fundada en la Universidad de Utah en 1975 por Thomas G. Stockham, se convirtió en la primera en esa nación en producir grabaciones digitales de audio. El equipo de grabación, que se considera la primera estación de trabajo digital de audio,[11] fue desarrollado usando convertidores ADC y DAC, una unidad comercial de cinta magnética para instrumentación de la empresa Honeywell y una computadora DEC PDP-11/60 para el almacenamiento del audio. Para la grabación eran introducidas líneas de órdenes de texto en la computadora.[15] En 1978, la empresa 3M entró en la competencia de desarrollo de equipos MIC para grabación de audio con su sistema de 2 canales de audio, muestreados a 50 kHz a 16 bits por muestra. La grabación era almacenada en una cinta grabada a 45 pulgadas por segundo. El éxito del sistema 3M, hizo que la compañía produjera un grabador de 32 canales de audio. Soundstream cerró sus operaciones en 1983, al no poder competir con la empresa japonesa Sony Corporation que disminuyó la tasa de muestreo a 44,1 kHz.[15] Tampoco pudo competir la empresa 3M, ya que los sistemas de estas compañías no usaban, como los diseñados por Sony, grabadores de video para almacenar la música digitalizada, que eran más prácticos.
En Japón, Sony desarrolló su primer procesador digital de audio para uso casero, el modelo PCM-1 al cual siguió el modelo PCM-1600, presentado en marzo de 1978 y que usaba un grabador de video en formato U-Matic.[16] En la actualidad, con la introducción de la informática, los equipos MIC de grabación de audio ya no usan cintas sino los discos duros de computadora para grabar desde 1 hasta varios canales, usando hardware tal como tarjetas de sonido, micrófonos de alta calidad y consolas de mezcla junto con componentes de software comerciales o libres para la grabación, edición y masterización del audio. Sistemas como estos son los desarrollados por Creative Labs (Sound Blaster), Sony (Acid Pro), The Ardour Community (Ardour), Audacity Team (Audacity), Steinberg (Cubase), Adobe Systems (Audition) y Avid Technology (Pro Tools), entre otras organizaciones comunitarias y privadas.
En la Figura 1 una onda senoidal (en rojo) es muestreada y cuantificada en MIC. Se toman las muestras a intervalos de tiempo regulares, mostrados como líneas verticales de color gris. Para cada muestra, es elegido uno de los posibles valores (en el "eje y") mediante determinado algoritmo. Esto produce una representación totalmente discreta de la señal de entrada (puntos azules) que se puede codificar fácilmente como datos digitales para el almacenamiento o la manipulación posteriores. Para el ejemplo de onda sinusoidal a la derecha, se puede verificar que los valores cuantificados en los momentos de muestreo son 8, 9, 11, 13, 14, 15, 15, 15, 14, etc. La codificación de estos valores como números binarios podrían dar lugar al siguiente conjunto de nibbles o números de cuatro bits: 1000, 1001, 1011, 1101, 1110, 1111, 1111, 1111, 1110, etc. Estos valores digitales podrían entonces ser procesadas o analizadas por un procesador de señal digital adicional. Varios flujos MIC también pueden ser multiplexados en un flujo de datos agregados más grandes, generalmente para la transmisión de múltiples flujos sobre un único enlace físico. Una técnica usada para ello se denomina multiplexación por división de tiempo (TDM) y es ampliamente utilizada, sobre todo en los sistemas de telefonía pública moderna.
El proceso de MIC es comúnmente implementado en un solo circuito integrado generalmente conocido como convertidor de analógico a digital (ADC).
En la Figura 2 se muestra la disposición de los elementos que componen un sistema que utiliza la modulación por impulsos codificados. Por razones de simplificación, solo se representan los elementos para la transmisión de tres canales.
En la Figura 3 se muestran las formas de onda en distintos puntos del sistema anteriormente representado.
Es el proceso que consiste en tomar muestras (medidas) del valor de la señal, n veces por segundo, lo que representa n niveles de tensión en un segundo. Para un canal telefónico de voz, es suficiente tomar 8.000 muestras por segundo, es decir, una muestra cada 125 μs, ya que según el teorema de muestreo, al tomar muestras de una señal eléctrica con una frecuencia que sea el doble de la frecuencia máxima de la señal, dichas muestras contendrán toda la información necesaria para reconstruir la señal original. Como en este caso, la frecuencia de muestreo es de 8 kHz, sería posible transmitir hasta 4 kHz, suficientes por tanto para el canal telefónico de voz, donde la frecuencia más alta transmitida es de 3,4 kHz.
El tiempo de separación entre muestras (125 μs) podría ser destinado al muestreo de otros canales mediante el procedimiento de multiplexación por división de tiempo.
Es el proceso mediante el cual se asigna un determinado valor discreto a cada uno de los niveles de tensión obtenidos en el muestreo. En el muestreo de conversaciones telefónicas, como las muestras pueden tener un infinito número de valores en la gama de intensidad de la voz, gama que en un canal telefónico es de aproximadamente 60 dB. Con el fin de simplificar el proceso, lo que se hace es aproximar al valor más cercano de una serie de valores predeterminados.
En la codificación, a cada nivel de cuantificación se le asigna un código binario distinto. La forma de una onda sería la indicada como (f) en la Figura 3
En telefonía, la señal analógica vocal con un ancho de banda de 4 kHz se convierte en una señal digital de 64 kbps, cifra que se obtiene multiplicando la frecuencia de muestreo (2 x 4kHz) por 8 bits de los que consta cada muestra. Para transmitir varios canales de voz, se usa la transmisión plesiócrona, en la cual podrían intercalarse otras 29 señales adicionales, si se usa el formato de transmisión digital E1. Se transmiten, así, 32 x 64 kbps = 2048 kbps (30 canales para señales de voz, uno para señalización y otro para sincronismo).
Para recuperar la señal original a partir de los datos muestreados, un "demodulador" se aplica el procedimiento de modulación a la inversa. Después de cada período de muestreo, el demodulador lee el siguiente valor y desplaza la señal de salida al nuevo valor. Como resultado de estas transiciones, la señal tiene una cantidad significativa de energía de alta frecuencia causada por el Efecto Nyquist. Para eliminar estas frecuencias no deseadas y dejar la señal original, el demodulador pasa la señal a través de filtros analógicos que suprimen la energía fuera del rango de frecuencia esperado. El teorema de muestreo demuestra que los dispositivos MIC pueden operar sin introducir distorsiones dentro de sus bandas de frecuencia si proporcionan una frecuencia de muestreo que sea el doble de la señal de entrada.
Las señales obtenidas del proceso de demodulación se parecerán mucho a las originales (a), (b) y (c) de la Figura 2, si bien durante el proceso de cuantificación, debido al redondeo de las muestras a los valores cuánticos, se produce una distorsión conocida como ruido de cuantificación. En los sistemas normalizados, los intervalos de cuantificación han sido elegidos de tal forma que se minimiza al máximo esta distorsión, con lo cual las señales recuperadas son una imagen casi exacta de las originales. Dentro de la recuperación de la señal, ya no se asignan intervalos de cuantificación sino niveles, equivalentes al punto medio del intervalo de cuantificación en el que se encuentra la muestra normalizada.
La circuitería electrónica que participa en la producción de una señal analógica precisa a partir de los datos discretos es similar a la usada para generar la señal digital. A este circuito se le llama convertidor de digital a analógico.
Hay fuentes potenciales de deficiencias implícitas en cualquier sistema MIC:
En la MIC convencional, la señal analógica puede ser procesada (por ejemplo, por compresión de amplitud) antes de ser digitalizada. Una vez que la señal es digitalizada, la señal MIC es generalmente sometida a un procesamiento adicional (por ejemplo, la compresión de datos digital).
Algunas formas de MIC combinan el procesamiento de la señal con la codificación. Las versiones anteriores de estos sistemas aplicaban procesamiento en el dominio analógico como parte del proceso de conversión analógica a digital; las implementaciones más recientes lo hacen en el dominio digital. Estas técnicas simples han sido en gran medida consideradas obsoletas al lado de las modernas técnicas de compresión de audio basadas en transformadas:
En telefonía, una señal de audio estándar para una sola llamada telefónica se codifica como 8.000 muestras/seg analógicas, de 8 bits cada uno, dando una señal a 64 kbps digital conocida como señal DS0. La codificación de compresión de señales predeterminado en una señal DS0 es o bien MIC de Ley (en América del Norte y Japón) o PCM Ley A (En Europa y la mayor parte del resto del mundo). Estos son sistemas de compresión logarítmica en los cuales un número de muestras lineales de MIC de 12 o 13 bits se asignan a un valor de 8 bits. Este sistema se describe en el estándar internacional G.711. Una propuesta alternativa para una representación de punto flotante, con mantisa de 5 bits y radix de 3 bits, fue abandonado.
Donde los costos de circuitos son altos y la pérdida de calidad de la voz es aceptable, a veces tiene sentido comprimir la señal de voz aún más. Un algoritmo ADPCM se utiliza para asignar una serie de muestras MIC de 8 bits Ley Mu o Ley A en una serie de muestras de ADPCM de 4 bits. De esta manera, la capacidad de la línea se duplica. La técnica se detalla en el estándar internacional G.726.[17]
Más tarde se encontró que, incluso, una compresión adicional fue posible y se han publicado los estándares adicionales. Algunas de estas normas internacionales describen sistemas e ideas que están cubiertos por patentes de propiedad privada y por lo tanto la utilización de estas normas requiere pagos a los titulares de las patentes.
Algunas técnicas ADPCM se utilizan en comunicaciones de voz sobre IP.
Las señales MIC puede ser o bien de retorno a cero (RZ) o de no retorno a cero (NRZ). Para que un sistema NRZ sea sincronizado utilizando la información dentro de banda, no debe haber largas secuencias de símbolos idénticos, como unos o ceros. Para los sistemas de MIC binarios, la densidad de símbolos "1" se llama los densidad de unos.[18]
La densidad de unos a menudo se controla utilizando técnicas de precodificación como codificación Run Length Limited, donde el código de MIC se expande en un código ligeramente más largo con un límite garantizado en la densidad de unos antes de la modulación en el canal. En otros casos, los bits de trama adicionales se añaden al flujo lo que garantizan al menos de vez en cuando las transiciones de símbolos.
Otra técnica utilizada para controlar los densidad es el uso de un polinomio aleatorizador en los datos en bruto que tiende a convertir su flujo en un flujo que se ve pseudo-aleatorio, pero donde el flujo de datos en bruto se puede recuperar exactamente invirtiendo el efecto del polinomio. En este caso, las carreras largas de ceros o unos son todavía posibles en la salida, pero se consideran lo suficientemente poco probables que sean dentro de la tolerancia de ingeniería normal.
En otros casos, el valor de corriente continua (CC) a largo plazo de la señal modulada es importante, puesto que un desplazamiento de CC tiende a polarizar los circuitos detectores fuera de su rango de operación. En este caso se toman medidas especiales para mantener un recuento del desplazamiento acumulado de CC, y modificar los códigos si es necesario para que el desplazamiento de CC siempre tienda a cero.
Muchos de estos códigos son códigos bipolares, en los cuales los pulsos puede ser positivos, negativos o nulos. En el código típico de inversión de marca alterna, los pulsos no-cero alternan entre ser los pulsos positivos y negativos. Estas reglas pueden ser violadas para generar símbolos especiales que se utilizan para formación de tramas o para otros fines especiales.