Entropia, Entropia Relativa

Transcrição

1 Entropia, Entropia Relativa e Informação Mútua Miguel Barão ([email protected]) Departamento de Informática Universidade de Évora 13 de Março de Introdução Suponhamos que uma fonte gera símbolos a um determinado ritmo e que os símbolos são obtidos aleatoriamente a partir de um alfabeto finito X = {A, B, C, D}. Suponhamos ainda que todos os símbolos são equiprováveis. Uma possível sequência de símbolos seria a seguinte: CDBDDCBDADBAACCB (1) Se quisermos representar esta sequência num computador, surgem-nos imediatamente duas questões: 1. De que forma se pode representar esta sequência usando apenas os símbolos binários 0 e 1? 2. Quantos bits são necessários para a representar? Vamos começar por responder à segunda questão, deixando para mais tarde a primeira. Se temos um alfabeto com quatro símbolos, precisamos de log 2 4 = 2 bits para representar cada símbolo. Assim, a sequência anterior precisaria de 16 2 = 32 bits para ser representada. Um código possível seria o seguinte: A = 00, B = 01, C = 10, D = 11. A sequência anterior seria representada pela sequência binária De forma geral, para um alfabeto X de tamanho n em que todos os símbolos são equiprováveis, cada símbolo necessita de log 2 n bits para ser representado. Como a probabilidade de sair um dado símbolo x i é de p(x i ) = 1 n, o número de bits necessário para representar cada símbolo pode ser escrito em função da probabilidade dos símbolos da seguinte forma: nbits = log 2 n = log 2 1 p(x i ) = log 2 p(x i ), para qualquer i. No exemplo anterior, os símbolos eram todos equiprováveis. Pode, no entanto, dar-se o caso de haver símbolos que ocorrem com maior frequência que outros. Consideremos um caso concreto. 1

2 Suponhamos que temos o mesmo alfabeto X = {A, B, C, D} em que os símbolos ocorrem com probabilidades { 1 2, 1 4, 1 8, 1 8 }, respectivamente. Será possível tirar partido destas probabilidades de forma a codificar os símbolos tal que se usem, em média, menos bits por símbolo? A resposta a esta pergunta é: SIM! (tente arranjar um código que consiga este objectivo. Por exemplo, usando códigos de comprimento diferente para cada símbolo). 2 Entropia, Entropia Conjunta e Entropia Condicional O conceito de entropia na teoria da informação tem origem no trabalho de Shannon Sha48] que mostra que processos aleatórios tais como a fala ou a música têm uma complexidade abaixo da qual o sinal não pode ser comprimido. A esta complexidade ele chamou entropia 1. Suponhamos que X é uma v.a. discreta com alfabeto X e distribuição de probabilidade p(x) = P r(x = x), x X. Definição 2.1. A entropia H(X) de uma v.a. discreta X é definida por H(X) def = p(x) log p(x) (2) x X em que o logaritmo é na base 2 (todos os logaritmos daqui em diante são na base 2 excepto quando explicitamente indicado) e a entropia é expressa em bits. Se X p(x) é frequente usar a distribuição p em vez da v.a. X e portanto pode escrever-se H(p) com o mesmo significado que H(X). Como primeiro exercício, pode aplicar-se a definição de entropia ao problema proposto na secção 1. Exemplo 2.1. Pretende calcular-se a entropia da v.a. X, em que os símbolos do alfabeto X = {A, B, C, D} são todos equiprováveis. Aplicando a definição de entropia (2) obtém-se ( 1 H(X) = 4 4 log 1 ) = 2 bits, 4 que coincide exactamente com o número de bits necessário para codificar cada símbolo. Será coincidência? Se repararmos na definição de entropia, verifica-se que ela pode escrever-se como o valor esperado de log p(x), i.e., H(X) = E log p(x)]. Como log p(x) representa, no caso de símbolos equiprováveis, o número de bits necessário para representar cada símbolo, então H(X) é o valor esperado de uma constante: o número de bits por símbolo. Vejamos o que acontece agora no caso em que os símbolos não são equiprováveis. Se conseguirmos escrever um código em que cada símbolo pode ser representado com log p(x i ) bits, i.e., um código em que os símbolos mais prováveis usam menos bits, então a entropia pode ser interpretada como o comprimento médio dos códigos. Já sabemos que um código destes existe se os símbolos são equiprováveis. É o código apresentado na secção 1. Falta saber se também é possível criar um código com esta propriedade no caso dos símbolos não serem equiprováveis. 1 O nome entropia deriva da física, em particular da física estatística, onde era usado como medida do estado de desordem de um sistema. 2

3 Exemplo 2.2. Um código possível para o segundo caso da secção 1 em que os símbolos {A, B, C, D} têm probabilidade { 1 2, 1 4, 1 8, 1 8 } é o seguinte: É possivel observar neste exemplo que: A = 0, B = 10, C = 110, D = Os comprimentos dos códigos coincidem com os obtidos pela fórmula log p(x). Por exemplo, o comprimento do código C é de três bits e log 1 8 = A entropia de X é H(X) = = 1.75 bits. Ou seja, são necessários 1.75 bits em média para codificar cada símbolo (no caso dos símbolos equiprováveis eram necessários 2 bits). 3. Uma mensagem gerada com as probabilidades indicadas acima é, por exemplo, a seguinte: Esta mensagem seria codificada como ABBDBABAAADBABCA (3) (4) usando apenas 28 bits, o que dá uma média de = 1.75 bits por símbolo. 4. A mensagem codificada pode ser descodificada de forma unívoca (tente descodificar a mensagem (4)). Repare que nenhum dos códigos é prefixo de outro, e portanto não há ambiguidade na descodificação da mensagem. Um código deste tipo chama-se código de prefixo. O exemplo anterior foi construído artificialmente para ilustrar o conceito de entropia. Não é necessariamente verdade que se consiga construir um código de prefixo como o anterior, em que o comprimento do código de um símbolo x i X é exactamente igual a log p(x i ). Em geral, isso não acontece. Assim, a entropia é apenas um limite mínimo teórico para o número de bits por símbolo atingível num código de prefixo. É no entanto, um conceito fundamental e muito importante. Em seguida extende-se a definição de entropia para o caso de distribuições conjuntas de várias variáveis aleatórias e define-se entropia condicional. Definição 2.2. A entropia conjunta H(X, Y ) das variáveis aleatórias X e Y com distribuição de probabilidade conjunta p(x, y) é definida como H(X, Y ) def = p(x, y) log p(x, y), (5) x X y Y ou equivalentemente, H(X, Y ) def = E log p(x, Y )]. (6) A entropia conjunta de n variáveis aleatórias é definida de forma análoga. Definição 2.3. Se (X, Y ) p(x, y), então a entropia condicional H(Y X) é definida como H(Y X) def = p(x)h(y X = x) x X = p(x) p(y x) log p(y x) x X y Y = p(x, y) log p(y x) x X y Y = E p(x,y) log p(y X)] (7) 3

4 Teorema 2.1 (Regra da cadeia). A entropia verifica a seguinte propriedade: H(X, Y ) = H(Y X) + H(X). (8) Demonstração. Esta regra deriva da regra da cadeia nas probabilidades, em que sabemos que p(x, y) = p(y x)p(x). Aplicando o logaritmo a esta equação e depois o valor esperado relativamente a p(x, y), obtém-se o resultado enunciado no teorema. Como exemplo de aplicação das duas definições anteriores (entropia conjunta e entropia condicional) e da regra da cadeia, vamos considerar uma mensagem escrita em português. Exemplo 2.3. Suponha-se que uma fonte gerou a mensagem O MANUEL VEM JANTAR A CASA com símbolos obtidos do alfabeto X = {, A, B, C,..., Z}. Neste exemplo, e ao contrário do que acontecia nos casos anteriores, os símbolos (letras) não são gerados de forma independente uns dos outros, e.g., se a fonte gerar a letra B, a probabilidade de a letra seguinte ser outro B ou um espaço é zero uma vez que a língua portuguesa não o permite, mas a probabilidade de a seguir sair a letra U ou R já não é zero, uma vez que a palavra poderia ser BURRO ou ABRIR. Assim, podemos definir uma distribuição de probabilidade para as letras que ocorrem a seguir ao B. Esta distribuição é a distribuição de probabilidade condicional P (X 2 X 1 = B). Genericamente, temos definida uma distribuição condicional p(x k+1 x k ) em que x k é a k-ésima letra da mensagem e x k+1 a letra seguinte. Podemos agora calcular a entropia conjunta de uma sequência de duas letras. Suponhamos que X 1 e X 2 são duas variáveis aleatórias correspondentes às duas primeiras letras da frase. Qual é a entropia conjunta H(X 1, X 2 )? Pela regra da cadeia temos que H(X 1, X 2 ) = H(X 1 ) + H(X 2 X 1 ). Aplicando as definições de entropia e entropia condicional, obtemos o resultado pretendido. Na realidade, para uma mensagem como a do exemplo anterior, a distribuição de probabilidade de um símbolo x k não depende apenas do símbolo anterior, mas de todos os símbolos que o precedem. A expressão da entropia conjunta da frase completa é uma soma de entropias condicionais envolvendo cada símbolo e todos os símbolos passados, H(X 1,..., X n ) = n H(X i X i 1,..., X 1 ). (9) i=1 A entropia goza das seguintes propriedades que se apresentam em seguida sem demonstração (os detalhes estão em CT91]). 1. A entropia é sempre não-negativa: H(X) 0; 2. Se H(Y X) = 0 então Y = g(x), i.e., se a entropia condicional se anula então a v.a. Y não contém informação adicional relativamente àquela contida em X. 4

5 3 Entropia Relativa e Entropia Relativa Condicional A entropia relativa D(p q) mede a ineficiência de assumir que uma distribuição é q quando a distribuição verdadeira é p. Por exemplo, se soubermos a distribuição verdadeira de uma variável aleatória, podemos construir um código com comprimento médio H(p). No entanto, se usarmos um código desenhado para uma distribuição q, haveria uma desadequação do código à variável aleatória e seriam necessários H(p) + D(p q) bits em média para descrever a variável aleatória. Definição 3.1. A entropia relativa ou divergência de Kullback-Leibler entre duas distribuições p e q é definida por D(p q) def = p(x) log p(x) q(x) x X = E p(x) log p(x) q(x) ]. (10) Usa-se a convenção de que 0 log 0 q = 0 e p log p 0 =. Exemplo 3.1. Considere-se o problema em que fonte gera símbolos do alfabeto X = {A, B, C, D} com probabilidades p(x) dadas respectivamente por { 1 2, 1 4, 1 8, 1 8 }. Usando um código de prefixo desenhado especificamente para esta fonte é possível atingir um número médio de bits por símbolo igual à entropia H(X), que neste caso é de 1.75 bits como se viu na secção anterior. Se em vez deste, usarmos o código {00, 01, 10, 11} desenhado para o caso em que as probabilidades dos símbolos eram todas iguais a q(x) = 1 4, i.e., com comprimento de código igual a log 1 4 = 2 bits, o número médio de bits por símbolo é E p(x) log q(x)] = = 2. (11) 8 Ou seja, pelo facto usarmos um código que não foi desenhado para a fonte, necessitamos de usar mais 0.25 bits por símbolo. Essa ineficiência é a diferença entre o número de médio de bits necessário em cada um dos casos que, conforme se pode verificar facilmente, é igual à entropia relativa D(p q) E p(x) log q(x)] H(X) = E } {{ } } {{ } p(x) log q(x)] E p(x) log p(x)] 2 bits 1.75 bits = E p(x) log q(x) + log p(x)] = E p(x) log p(x) ] q(x) = D(p q). (12) Definição 3.2 (*). A entropia relativa condicional D(p(y x) q(y x)) é obtida a partir da entropia relativa entre p(y x) e q(y x) fazendo a média ponderada com p(x) D(p(y x) q(y x)) def = p(x) p(y x) log p(y x) q(y x) x X y Y ] p(y X) = E p(x,y) log. q(y X) (13) 5

6 4 Informação Mútua e Informação Mútua Condicional De forma informal, a informação mútua é uma medida da quantidade de informação que uma variável aleatória contém àcerca da outra. Definição 4.1. Considere duas variáveis aleatórias X e Y com distribuição conjunta p(x, y) e distribuições marginais p(x) e p(y). A informação mútua I(X; Y ) é a entropia relativa entre a distribuição conjunta e o produto das marginais I(X; Y ) def = x X p(x, y) log y Y p(x, y) p(x)p(y) = D(p(x, y) p(x)p(y)) = E p(x,y) log p(x, Y ) ]. p(x)p(y ) Exemplo 4.1. Considere duas variáveis aleatórias independentes X e Y com distribuições de probabilidade p(x) e p(y). Qual a informação mútua I(X; Y )? Resp.: Como as v.a. são independentes, temos que p(x, y) = p(x)p(y), e portanto I(X; Y ) = E p(x,y) log p(x, Y ) ] p(x)p(y ) = E p(x,y) log p(x)p(y ) ] (15) p(x)p(y ) = 0. Este resultado era esperado uma vez que X e Y são independentes. Definição 4.2 (*). A informação mútua condicional das variáveis aleatórias X e Y dado Z é definida por (14) I(X; Y Z) def = H(X Z) H(X Y, Z) = E p(x,y,z) log p(x, Y Z) p(x Z)p(Y Z) ]. (16) 5 Propriedades Nesta secção apresenta-se um conjunto de propriedades gozadas pela entropia, entropia relativa e informação mútua. As demonstrações em falta estão no capítulo 2 de CT91]. Teorema 5.1 (Relação entre informação mútua e entropia). I(X; Y ) = I(Y ; X) (17) I(X; X) = H(X) (18) I(X; Y ) = H(X) H(X Y ) (19) I(X; Y ) = H(Y ) H(Y X) (20) I(X; Y ) = H(X) + H(Y ) H(X, Y ) (21) A figura 1 ilustra estas relações usando um diagrama de Venn. Demonstração. Fica como exercício provar cada uma das igualdades (17) (21). 6

7 H(X,Y) H(X Y) I(X;Y) H(Y X) H(Y) H(X) Figura 1: Relação entre a entropia e a informação mútua. Teorema 5.2 (Regra da cadeia para a entropia). H(X 1,..., X n ) = n H(X i X i 1,..., X 1 ) (22) i=1 Teorema 5.3 (Regra da cadeia para a entropia relativa). D(p(x, y) q(x, y)) = D(p(x) q(x)) + D(p(y x) q(y x)) (23) Teorema 5.4 (Regra da cadeia para a informação mútua). I(X 1,..., X n ; Y ) = n I(X i ; Y X i 1,..., X 1 ) (24) i=1 Teorema 5.5 (Desigualdade da informação). A igualdade verifica-se se e só se p(x) = q(x) para todo o x X. D(p q) 0 (25) Corolário (Não negatividade da informação mútua). Para quaisquer duas variáveis aleatórias X e Y, I(X; Y ) 0 (26) com igualdade se e só se X e Y são independentes. Teorema 5.6. H(X) log X, em que X é o número de elementos de X. A igualdade verifica-se se e só se X tem distribuição uniforme em X. Demonstração. Seja u(x) = 1 X uma distribuição uniforme em X. Então D(p u) = x X p(x) log p(x) = log X H(X). u(x) 7

8 Como a entropia relativa é sempre não negativa D(p u) 0, temos que log X H(X) 0. Teorema 5.7 (Condicionamento reduz a entropia). com igualdade se e só se X e Y são independentes. H(X Y ) H(X) (27) Demonstração. 0 I(X; Y ) = H(X) H(X Y ) Teorema 5.8. Se X 1,..., X n são obtidos de acordo com p(x 1,..., x n ), então H(X 1,..., X n ) n H(X i ) (28) i=1 com igualdade se e só se as v.a. X i são independentes. Demonstração. Aplicando a regra da cadeia para a entropia seguida do teorema 5.7, obtém-se o resultado pretendido. Referências CT91] Thomas M. Cover and Joy A. Thomas. Elements of Information Theory. John-Wiley, Sha48] Claude E. Shannon. A mathematical theory of communication. The Bell System Technical Journal, 27: , ,