La ratio de entropía de una secuencia de n variables aleatorias (proceso estocástico) caracteriza la tasa de crecimiento de la entropía de la secuencia con el crecimiento de n.
La tasa de entropía de un proceso estocástico viene definida por la ecuación:
siempre que dicho límite exista.
Una cantidad relacionada con la ratio de entropía ( H(X) ) es:
cuando dicho límite existe.
H'(X) mide la entropía condicional de la última variable aleatoria en función de todas las anteriores. Para proceso estocásticos estacionarios se cumple H(X)=H'(X)
Un idioma o lengua, es un sistema de comunicación verbal o gestual propio de una comunidad humana. Podemos observar que en los idiomas existen letras, conjuntos de letras y palabra más comunes que otras. La gramática del idioma también restringe qué palabras y en que orden se pueden encontrar. Además el resto del mensaje (el contexto) también afecta a la probabilidad de aparición de una palabra. Por ejemplo si estamos en un contexto judicial y aparecen las letras "im", podemos determinar que la palabra "impugnar" es más probable que la palabra "imbécil". En este caso podríamos decir que hay una probabilidad de las palabras condicionada por el contexto (resto de palabras).
Por tanto podemos decir que los idiomas son 'ineficientes', es decir, contienen mucha redundancia. No sería necesario usar todos los símbolos que usamos para expresar algo. Por ejemplo si queremos transmitir el mensaje "This is a suny day" podríamos usar la expresión "This is a suny dy" de forma que el receptor nos entendería igual.[1] Esta es el fundamento en el que se basa el uso habitual de un montón de abreviaturas cuando la gente se comunica con SMSs.
Podemos considerar un idioma como un proceso estocástico de variables aleatorias donde cada una tiene como valor un símbolo del lenguaje. Debido a las características vistas de los lenguajes, y usando la entropía condicionada, podemos decir:
Definimos la ratio de entropía de un idioma (vamos a denotar por R), también llamada simplemente ratio del idioma, como la ratio de entropía del proceso:
Es decir, la ratio de entropía de un idioma es el límite de la entropía de un ejemplo de texto en el idioma, cuando la longitud del texto se hace muy grande. La ratio de un idioma la podemos interpretar como la cantidad de información que contiene cada letra de nuestro alfabeto. En otras palabras, si un alfabeto consta de L elementos, existirán mensajes posibles de longitud N. Sin embargo como los mensajes son redundante solo obtendremos (con r la ratio del idioma) mensajes que tengan sentido
Para el castellano se estima que el ratio está entre 1.2 y 1.5. Para el inglés se estima en torno al 1.3.
Se llama ratio absoluta (vamos a denotar por ) de un idioma al valor máximo que puede tener la ratio de un idioma. Es decir si tenemos un idioma con n símbolos la ratio máxima del idioma será aquel en el que todos los símbolos son equiprobables e independientes. Por tanto . Este valor identifica el máximo número de bits que pueden ser codificados con cada carácter (símbolo) asumiendo que cada carácter de la secuencia es equiprobable.
Se llama redundancia de un idioma (vamos a denotar por ) a la diferencia entre la ratio absoluta y la ratio de un idioma. Por tanto . Este valor muestra cuanto puede ser reducido la longitud de un texto en un idioma sin perder ninguna información.
Dado que la redundancia nos indica el número de bits extra usados para codificar un mensaje (bits redundantes) y es el número de bits para codificar un alfabeto de n símbolos letra a letra, entonces la relación expresará porcentualmente que tan redundante es el lenguaje utilizado. Para el castellano tenemos como porcentaje de redundancia
Se han usado distintos métodos para aproximarse al valor de la ratio de entropía de un idioma. Estos métodos se han aplicado habitualmente al idioma inglés pero, en general, esos métodos son aplicables a cualquier otro idioma obteniendo su propio valor aproximado. Vamos a ver los métodos propuestos más importantes y cuales han sido los resultados para el idioma inglés. El idioma inglés se suele considerar formado por un alfabeto de 27 símbolos (26 letras más el espacio en blanco).
Shannon[2] describió un método para aproximarnos al cálculo de la ratio de un idioma basándose en el estudio de los n-gramas. Para ello Shannon propone una serie de lenguajes artificiales que convergen con el idioma y que van aproximándose cada vez más a él. En cada paso se van cogiendo más características del idioma pareciéndose cada vez más a él y por tanto la incertidumbre de cada símbolo, condicionada por el conocimiento de los anteriores, se va reduciendo. De esta forma va acotando paulatinamente la ratio del idioma. La serie de lenguajes artificiales que propone son los siguientes:
Sin embargo estos valores sólo sirven para acotar ya que no capturan toda la estructura del idioma, sólo capturan una parte (aunque cada vez más importante).
La aplicación de esta técnica de acotación se puede extender para acotar la ratio de entropía de otros tipos de fuentes de información. Por ejemplo, podríamos aplicarla a los distintos métodos de codificación de imágenes.
Este método de estimación fue realizado por Shannon en 1950[3] obteniendo un valor de 1.3.
El método consiste en coger un ejemplo de texto suficientemente largo y preguntar sucesivamente a un humano que adivine la próxima letra. Si un sujeto contesta con un símbolo x podemos interpretar que el sujetoo estima que el símbolo x es el más probable en el contexto que está analizando. Si fallara contestaría con el siguiente más probable y así sucesivamente. El experimentador guarda el número de intentos necesitados para calcular cada siguiente carácter. Con los datos obtenidos se puede calcular la distribución empírica de la frecuencia del número de adivinaciones requeridas para calcular el siguiente carácter. Muchas letras requerirán sólo un intento, sin embargo otras serán más difíciles (por ejemplo las iniciales de palabras o frases).
Usando este método con distintos textos independientes podemos hacer una estimación de la ratio del idioma ya que podemos conjeturar que la entropía de las secuencia a adivinar es la entropía del idioma. Por tanto la entropía de la secuencia a adivinar está vinculada con la entropía del histograma construido contabilizando los intentos en el experimento.
En este enfoque hacemos que un sujeto humano apueste sobre la próxima letra de un texto en inglés. Esto permite ser más finos en la gradación de los juicios sobre la adivinación de la próxima letra. En este caso, la elección óptima es proporcional a la probabilidad condicional de la próxima letra. Como tenemos 27 símbolos entonces se pagará con la proporción 27 a 1 si se elige la letra correcta.
La apuesta de forma secuencial es equivalente a apostar sobre la secuencia completa. Por tanto la apuesta después de n letras puede ser escrita como:
donde ) es la fracción de la ganancia del apostante en la secuencia.
Si asumimos que el sujeto conoce la distribución de probabilidad subyacente podemos estimar que:
siendo la entropía. A partir de ahí se puede estimar la ratio de entropía
En un experimento[4] con 12 sujetos con un texto de 75 letras devolvió una estimación de 1.34 como ratio del idioma inglés.