Estatística |
---|
Em teoria da informação, a perplexidade é uma medida de quão bem uma distribuição de probabilidade ou modelo de probabilidade prevê uma amostra. Pode ser usada para comparar modelos de probabilidade. Uma baixa perplexidade indicada que a distribuição de probabilidade é boa em prever a amostra.[1]
A perplexidade de uma distribuição de probabilidade discreta é definida como:
em que é a entropia (em bits) da distribuição e varia sobre os eventos, ou seja, a perplexidade é igual a 2 elevado à entropia ou, mais precisamente, 2 elevado à entropia cruzada, definição esta usada frequentemente na comparação empírica de modelos probabilísticos.
A perplexidade de uma variável aleatória pode ser definida como a perplexidade da distribuição sobre seus possíveis valores .
No caso especial em que modela um dado honesto de -faces (uma distribuição uniforme sobre eventos discretos), sua perplexidade é . Uma variável aleatória com perplexidade tem a mesma incerteza de um dado honesto de -faces e é considerada "perplexa em -formas" sobre o valor da variável aleatória. A não ser que seja um dado honesto de -faces, mais que valores serão possíveis, mas a incerteza geral não é maior, porque alguns destes valores terão probabilidade maior que , diminuindo o valor geral ao somar.
A perplexidade é algumas vezes usada como uma medida de quão difícil um problema de previsão é. Isto não é sempre preciso. Se você tiver duas escolhas, uma com probabilidade , então suas chances de um palpite correto são iguais a usando a estratégia ótima. A perplexidade é . O inverso da perplexidade, que representa a probabilidade de um palpite correto no caso do dado honesto de -faces, é igual à , não .
A perplexidade é a exponenciação da entropia, que é uma quantidade com contorno mais nítido. A entropia é uma medida do número esperado ou "médio" de bits exigido para codificar o resultado da variável aleatória, usando o código de comprimento variável, ótimo e teórico. Pode ser equivalentemente considerada como o ganho de informação esperado ao aprender o resultado da variável aleatória, em que a informação é medida em bits.[2]
Um modelo de uma distribuição de probabilidade desconhecida pode ser proposto com base em uma amostra de treinamento que foi retirada de . Dado um modelo de probabilidade proposto , pode-se avaliar ao perguntar quão bem ele prevê uma amostra de teste separada também retirada de . A perplexidade do modelo é definida como:
em que é costumeiramente . Modelos melhores da distribuição desconhecida tenderão a atribuir probabilidades maiores aos eventos de teste. Assim, têm menor perplexidade, sendo menos surpreendidos pela amostra de teste.
O expoente acima pode ser considerado como o número médio de bits necessários para representar um evento de teste se for usado um código ótimo baseado em . Modelos de baixa perplexidade fazem um melhor trabalho comprimindo a amostra de teste, exigindo poucos bits por elemento de teste em média porque tende a ser alta.
O expoente pode também ser considerado uma entropia cruzada:
em que denota a distribuição empírica da amostra de teste, isto é, , se tiver aparecido vezes na amostra de teste de tamanho .[3]
Em processamento de linguagem natural, a perplexidade é uma forma de avaliar modelos de linguagem. Um modelo de linguagem é uma distribuição de probabilidade sobre sentenças ou textos inteiros.
Usando a definição de perplexidade para um modelo de probabilidade, pode-se encontrar, por exemplo, que a sentença média na amostra de teste poderia ser codificada em 190 bits, isto é, as sentenças de teste tinham um logaritmo de probabilidade médio igual a -190. Isto daria uma perplexidade de modelo enorme de por sentença. Entretanto, é mais comum normalizar o comprimento de sentença e considerar apenas o número de bits por palavra. Assim, se as frases da amostra de teste compreenderem um total de 1.000 palavras e puderem ser codificadas usando um total de 7,95 bits por palavra, poderá se relatada uma perplexidade de modelo de por palavra. Em outras palavras, o modelo é tão confuso em dados de teste quanto se tivesse que escolher uniformemente e independentemente entre 247 possibilidades para cada palavra.
Até 1992, a mais baixa perplexidade publicada no Brown Corpus (lista de 1 milhão de palavras em inglês norte-americano sobre variados tópicos e gêneros) havia sido de fato aproximadamente 247 por palavra, correspondendo a uma entropia cruzada de bits por palavra ou 1,75 bits por letra, usando um modelo trigrama. É frequentemente possível conseguir uma perplexidade mais baixa em corpora mais especializados, já que são mais previsíveis.
Novamente, simplesmente prever que a próxima palavra no Brown Corpus é a palavra "the" terá uma precisão de 7%, não de , como um uso ingênuo da perplexidade como uma medida de previsibilidade pode levar alguém a crer. Este palpite é baseado na estatística de unigrama do Brown Corpus, não na estatística de trigrama, que produziu a perplexidade de palavra igual a 247. Usar a estatística de trigrama melhoraria posteriormente as chances de um palpite correto.[4]