INTRODUÇÃO À TEORIA DA INFORMAÇÃO
SISTEMA DE TRANSMISSÃO DIGITAL Oscodificadores defonte possuem a finalidade de casar a fonte de dados com o sistema levando em consideração a estatística de acontecimento dos símbolos da fonte Os códigos de fonte mais conhecidos são os que utilizam o algoritmo de Huffman e o de Huffman modificado O codificador de canal está projetado para, através da inclusão de símbolos de redundância de forma inteligente, fazer com que a informação, após trafegar pelo canal, possa ser recuperada de eventuais erros de acordo com o critério de qualidade eigido O conjunto modulador-demodulador ( MODEM ) transforma o canal analógico em canal discreto para possibilitar o funcionamento do conjunto codificador-decodificador ( CODEC )
Denomina-se alfabeto de uma fonte de informação discreta o conjunto de elementos que a fonte pode selecionar Por eemplo: Teto: {A, B, C X, Y, Z, 0, 1, 9,?,!, } Sensor de nível ( h h A? ):{sim, não} Opção do cardápio: (1,,3,4,5, 6) Considere-se uma fonte discreta com alfabeto de k elementos, { 1,,, k } A relação entre o número de vezes n, em que um dado elemento i, (com i = 1,,, k) é selecionado pela fonte e o número total N de seleções, para N tendendo a infinito, é a probabilidade de ocorrência daquele elemento: p( i ) = lim N n i N
A soma das probabilidades de ocorrência de todos os elementos do alfabeto da fonte é, evidentemente,, pois a fonte só seleciona elementos contidos em seu alfabeto (a probabilidade de selecionar elemento não-contido no alfabeto é nula) A quantidade de informação associada à ocorrência de um elemento i mede o grau de surpresa quando aquele elemento é selecionado pela fonte Elementos selecionados com maior freqüência causam menos surpresa, ao passo que elementos de ocorrência mais rara causam mais surpresa Define-se a quantidade de informaçãoi( i ), associada à seleção do elemento i ; usando a função logaritmo de base : 1 k i= 1 p( I( i ) = log p( i i ) ) = 1
I( i ) = log p( Quantidade de informação, assim definida, tem como características: Quantidade de informação varia com o inverso da probabilidade de ocorrência - elementos menos freqüentes têm quantidade de informação maior que elementos mais freqüentes 1 Se o alfabeto da fonte tem um único elemento, a quantidade de informação associada à seleção desse elemento (evento certo) é nula: I( i )= O para p( i ) = 1 Se a fonte seleciona um elemento não-contido em seu alfabeto (evento impossível), a quantidade de informação associada a essa seleção é infinita:i( i )= para p( i ) = 0 Se a seleção de cada elemento não afeta a probabilidade de ocorrência de outros nas seleções seguintes, a quantidade total de informação de uma seqüência de elementos é a soma das quantidades de informação individuais i )
A quantidade de informação - medida em bit (acrônimo de binary unit = unidade binária, devido ao uso logaritmo de base ) - é um número real não-negativo adimensional Quantidade de informação é importante para a criação de códigos (representações de elementos da fonte discreta) para transmissão eficiente de informação Ao criar um código para representar letras, algarismos e sinais de pontuação no telégrafo elétrico, Morse intuitivamente associou representação mais curta para caracteres mais freqüentes (com menor quantidade de informação) e mais longa para caracteres menos freqüentes (com maior quantidade de informação) Define-se como entropia de uma fonte discreta a quantidade média de informação por ocorrência (seleção de um elemento pela fonte)
Considere-se que a fonte discreta seleciona, num dado intervalo, um total de N = n l + n + + n k, elementos, com n 1 ocorrências do elemento 1, n ocorrências do elemento,, n k ocorrências do elemento k Com ocorrências estatisticamente independentes, a quantidade total de informação total dessas N seleções é I T = n l I( 1 ) + n I( ) + + n k I( k ) : A relação entre a quantidade total de informação e o número de ocorrência no intervalo é: I T N = n1 n nk I( 1 ) + I ( ) + + N N N I( Para N, tem-se a entropia, definida pela epressão: H = lim N I T N = k i= 1 p( ) I ( ) i i = Entropia é uma característica da fonte de informação discreta que depende da probabilidade de Ocorrência de cada um dos elementos de seu alfabeto Quanto maior a entropia da fonte maior será a incerteza sobre qual elemento a ser selecionado (menor previsibilidade da fonte) k i= 1 p( )log i k ) 1 ( bit) p( i )
Eemplo: Considere-se que, no restaurante, observando-se pedidos feitos durante um período de tempo suficientemente longo, foram determinadas as probabilidades de ocorrência de cada uma das opções, conforme Tabela 9B Observe-se que a soma das probabilidades de todos os elementos do alfabeto da fonte deve ser igual a l: Opção Prato Probabilidade de ocorrência 1 Moqueca capiaba 1/ Filé com fritas 1/4 3 Mocotó no feijão 1/8 4 Rabada à moda 1/16 5 Buchada de bode 3/64 6 Jabá com jerimum 1/64
Opção Prato Probabilidade de ocorrência 1 Moqueca capiaba 1/ Filé com fritas 1/4 3 Mocotó no feijão 1/8 4 Rabada à moda 1/16 5 Buchada de bode 3/64 6 Jabá com jerimum 1/64 A quantidade de informação de cada uma das opções é: A entropia dessa fonte discreta é: H = (1/) 1 + (1/4) + (1/8) 3 + (1/16) 4 + (3/64) 4,415 + (1/64)6= 1,96 bit Tem-se, em média, a quantidade de informação de 1,96 bit por elemento selecionado
Considere-se uma fonte discreta com alfabeto de apenas dois elementos como, por eemplo, um sensor chave: {sim, não} - uma fonte binária Sejam p(sim) = e p(não) = 1 - as respectivas probabilidades de ocorrência desses elementos (com real, adimensional e 0 < < 1) A entropia da fonte binária é função da probabilidade : H() = log(1/) + (l - ) log [ l / (l - )] = - log () - (l - ) log (l - ) (1) dh A entropia é máima para tal que a derivada primeira é nula, = 0, e a derivada segunda é negativa, d H d < 0 Derivando (1) em relação a : dh 1 d d = log Essa derivada é nula para 1 - =, ou seja, = 1/
d d H Para = 1 log d 1 ( e) d 1 dh d H =, obtém - se = 0 e = 4log e d d A entropia máima ( para = ½ ) é: Hmá = 1 log = log 1 ( 1) (1 ( e) )1 log( e) = (1 ) ( ) < 0 Ponto de máima entropia 1 ( ) + 1 log ( ) 1bit =
Com dois elementos equiprováveis ( = 1 - = ½ ), a entropia é máima (a fonte é menos previsível) Observe-se que, à medida que um dos elementos se torna mais provável que o outro, a entropia da fonte decresce Se a probabilidade de ocorrência de um dos elementos é igual a 1 (evento certo), a do outro é 0 (evento impossível) e a entropia da fonte é zero Esse resultado pode ser generalizado - a entropia de uma fonte discreta com alfabeto de k elementos é máima para p( i ) = 1/k, i = 1,,, k (elementos equiprováveis) O valor máimo de entropia de uma fonte discreta com alfabeto de k elementos é, portanto: H = log ( k) Por eemplo, para a fonte de opções de cardápio (Tabela 9B), a quantidade de informação de cada opção varia entre 1 bit para a preferida do público e 6 bits para a menos procurada e a entropia da fonte é H = 1,96 bit Se todas as seis opções ocorressem com a mesma probabilidade (= 1/6), a entropia da fonte teria o valor máimo: H = log (6),58 bits ma ma
CODIFICAÇÃO DE FONTE Codificação de fonte consiste em associar, a cada elemento do alfabeto da fonte, um caractere uma combinação de elementos de código Se todos os caracteres têm o mesmo número de elementos de código, diz-se que o código é de comprimento constante Se o número de elementos de código não é o mesmo para todos os caracteres, o código é de comprimento variável A codificação com elementos binários (que podem assumir apenas dois valores) é particularmente interessante para transmissão elétrica Cada elemento do conjunto binário, representado por {0, 1}, é denominado dígito binário - ou bit (acrônimo de binary digit - não confundir com unidade binária, embora seja usado o mesmo acrônimo) Com n elementos binários de código obtêm-se n combinações de bits (caracteres) que podem representar elementos do alfabeto da fonte de informação discreta No eemplo do restaurante, com código binário com comprimento variável, duas das opções podem ser representadas com caracteres de 1 bit, e as quatro opções restantes com caracteres de bits De preferência, devem ser associados caracteres mais curtos aos elementos mais freqüentes
CODIFICAÇÃO DE FONTE Para representar as seis opções, com código de comprimento constante n, deve-se ter: n log(6) 6 n = log(6),58 n Hma = log( k) log() Como n ( número de dígitos binários ) deve ser inteiro, o número mínimo de bits para o código de comprimento constante é n = 3 No código binário de comprimento variável, o número médio de bits (dígitos binários) por caractere, considerando as probabilidades de ocorrência indicadas na Tabela 9B, é inferior ao número de bits por caractere do código de comprimento constante: n 1 1 1 1 3 1 3 1 = 1 + + + + + = + = 1,5 4 8 16 64 64 4 4
CODIFICAÇÃO DE FONTE Opção Prato Probabilidade de ocorrência Comprimento Variável Código Binário Comprimento Constante 1 Moqueca capiaba 1/ 0 000 Filé com fritas 1/4 1 001 3 4 5 6 Mocotó no feijão Rabada à moda Buchada de bode Jabá com jerimum 1/8 00 010 1/16 01 011 3/64 10 100 1/64 11 101
Algoritmo de Huffman Algoritmo para a compressão de arquivos, principalmente arquivos tetos Atribui códigos menores para símbolos mais freqüentes e códigos maiores para símbolos menos freqüentes Código é um conjunto de bits Representação dos dados é feita com códigos de tamanho variável Código ASCII A=01000001 B=01000010 a=01100001 b=01100010 Código de Huffman A=? (0) B=? (110) a=? (1111110) b=? (11111111110)
Algoritmo de Huffman Supondo A e C mais freqüentes que C e D no conjunto de valores possíveis ABACDA= 0 110 0 10 111 0 A B A C D A Símbolo A B C D Código 0 110 10 111
Algoritmo de Huffman Dado:Tabela de freqüências dos N símbolos de um alfabeto Objetivo: Atribuir códigos aos símbolos de modo que os mais freqüentes tenham códigos menores (menos bits)
Algoritmo de Huffman Huffman A-0 B-01 a-01 A-0 B-10 a-110 Fdjoiasdjfoidsjfoisofnsdo Sdjfoisdjfoisdfoisdfoid Oidsfoisdnfosdf Sdoifsjfsdfskodnfsdknf Arquivo comprimido