Aplicação da Análise em Componentes Independentes na Compressão de Imagem. Artur Jorge Ferreira

Transcrição

1 Aplicação da Análise em Componentes Independentes na Compressão de Imagem Artur Jorge Ferreira Outubro 2002

2 Resumo Neste trabalho utiliza-se a análise em componentes independentes na codificação, com perdas, de imagem As componentes independentes constituem os vectores de base para a representação da imagem Tratam-se aspectos de desenho e implementação de codificadores baseados em transformadas ortogonais e não ortogonais Consideram-se os modos de operação sequencial, progressivo e multi-resolução, analisando a imagem com blocos de dimensão fixa e variável Na codificação entrópica, com modelo de fonte, utilizam-se técnicas semi-adaptativas e adaptativas Estudam-se as capacidades de generalização e adaptação das transformadas, ortogonais e não ortogonais, sobre classes de imagens Avaliam-se os resultados dos pontos de vista da taxa de compressão, da distorção objectiva (relação sinal/ruído), da distorção visual e do peso computacional Verifica-se que a base de componentes independentes possui capacidade de adaptação a classes específicas de imagens Identificam-se classes para as quais a capacidade de generalização é semelhante à de transformadas independentes dos dados Caracterizamse cenários de utilização onde, à mesma taxa de compressão e com peso computacional idêntico, os codificadores propostos apresentam menor distorção objectiva e visual do que o codificador JPEG Palavras Chave: Análise em componentes independentes, Codificação com perdas, Codificação de imagem, Pesquisa de projecções, Classes de imagens, Avaliação da qualidade perceptual de imagem iii

3 iv

4 Abstract In this work, we apply independent component analysis to lossy image compression The independent components are the basis vectors for image representation We focus on design and implementation issues of coders based on orthogonal and non-orthogonal transforms The sequential, progressive and multi-resolution modes of operation are considered, using image blocks with fixed and variable size In the context of entropy coding, with source model, semi-adaptive and adaptive techniques are used The generalization and adaptation abilities of orthogonal and non-orthogonal transforms are exploited among different image classes The results are evaluated according to compression ratio, objective distortion (signal to noise ratio), visual distortion, and computational requirements The adaptation ability of the independent component basis to specific image classes is observed Some of these classes present generalization ability similar to data independent transforms We point out some scenarios for which, with the same compression ratio and roughly the same computational requirements, the proposed coders present less objective and visual distortion than the JPEG coder Keywords: Independent component analysis, Lossy compression, Image compression, Projection pursuit, Image classes, Evaluation of perceptual image quality v

5 vi

6 Agradecimentos Ao Prof Mário Figueiredo, orientador desta tese, pelo estímulo e disponibilidade constantes, para além da excelente orientação científica Ao Prof Fernando Sousa, pelas diversas discussões, extensa revisão do texto e dispensa de serviço docente numa fase crucial do trabalho, contribuindo decisivamente para a sua conclusão Ao colectivo do Centro de Cálculo do Instituto Superior de Engenharia de Lisboa, pelo apoio e facilidades logísticas concedidas para a realização deste trabalho Ao Prof André Puga, da Faculdade de Engenharia da Universidade do Porto, pela atenção e tempo dispendidos na preparação de uma cópia da sua tese de doutoramento e pela prontidão no esclarecimento de algumas dúvidas sobre a mesma A Aapo Hyvärinen, do Centro de Investigação em Redes Neuronais da Universidade Tecnológica de Helsínquia, Finlândia, pelas referências bibliográficas das suas publicações relativas à análise em componentes independentes, no formato BibTeX A Marta Mrak e Sonja Grgic da Faculdade de Engenharia Electrotécnica e Computação, da Universidade de Zagreb, Croácia, por facultarem o software de avaliação perceptual de imagem À minha família e a todos os meus colegas e amigos, pelo apoio e incentivo constantes Aos meus pais, pelos exemplos de trabalho, sentido de responsabilidade, apoio incondicional e por todos os esforços que efectuaram para a realização dos meus objectivos vii

7 viii

8 Aos meus pais, Manuel Rosa e Maria Isilda ix

9 x

10 Lista de abreviaturas ACI Análise em componentes independentes (ICA Independent component analysis) ACP Análise em componentes principais (PCA Principal component analysis) ACS Análise em componentes simétricas (ZCA Zero-phase component analysis) APP Algoritmo de pesquisa de projecções BO Base ortogonal BP Basis pursuit BSS Blind source separation (SCF Separação cega de fontes) BTPC Binary tree predictive coding CI Componente independente DCT Discrete cosine transform (TDC Transformada discreta do co-seno) DFT Discrete Fourier transform (TDF Transformada discreta de Fourier) DKL Divergência de Kullback-Leibler FBI Federal bureau of investigation GS Gram-Schmidt HRP High resolution pursuit ICA Independent component analysis (ACI Análise em componentes independentes) IM Inhibition method ISA Independent subspace analysis ITU-R International telecommunication union - radiocommunications JPEG Joint photographic experts group MAP Maximum a posteriori ML Maximum likelihood MOS Mean opinion score MP Matching pursuit MSE Mean square error OMP Orthogonal matching pursuit OS Ortogonalização simétrica xi

11 PCA Principal component analysis (ACP Análise em componentes principais) PP Pesquisa de projecções (PP Projection pursuit) PP Projection pursuit (PP Pesquisa de projecções) PQS Picture quality scale PSNR Peak signal to noise ratio RLE Run length encoding SAM Spectral activity measure SCF Separação cega de fontes (BSS Blind source separation) SFM Spatial frequency measure SNR Signal to noise ratio SPIHT Set partitioning in hierarchical trees STFT Short time Fourier transform SVH Sistema visual humano TDC Transformada discreta do co-seno (DCT Discrete cosine transform) TDF Transformada discreta de Fourier (DFT Discrete Fourier transform) TICA Topographic independent component analysis TKL Transformada de Karhunen-Loève TO Transformada ortogonal WMSE Weighted mean square error WSQ Wavelet scalar quantization ZCA Zero-phase component analysis (ACS Análise em componentes simétricas) bpp fdp fp va bits por pixel função densidade de probabilidade função de probabilidade variável aleatória xii

12 Índice Resumo Abstract Agradecimentos Lista de abreviaturas iii v vii xi 1 Introdução 1 11 Arquitectura dos codificadores 3 12 Contribuições originais 4 13 Organização do texto 5 2 Análise em componentes independentes 7 21 Introdução 7 22 Modelo estatístico e definição As ambiguidades do modelo Exemplos de aplicação da ACI Análise da função densidade de probabilidade Separação cega de fontes As restrições da ACI A distribuição normal (gaussiana) A mistura ortogonal Conceitos de estatística Independência e incorrelação Estatística de ordem superior à segunda As implicações do teorema do limite central Abordagem através das teorias da informação e estimação Teoria da informação Teoria da estimação Pesquisa de projecções (projection pursuit) 31 xiii

13 27 Operadores de ACI A dificuldade em medir independência Operadores A necessidade de pré-processamento O operador fastica Análise em componentes principais Redução da dimensionalidade e ruído nas observações Comparação entre ACP e ACI Relação com as wavelets A base ortogonal de wavelets Localização tempo/frequência Codificação com distribuição esparsa Relação entre transformadas típicas Extensões ao modelo básico ACI ACI sobre-completa Aplicação a imagem Propriedades estatísticas Comparação com wavelets 2D e funções de Gabor 51 3 Algoritmos de pesquisa de projecções Introdução Matching pursuit Inhibition method Matching pursuit ortogonal High resolution pursuit Critérios de construção do dicionário Complexidade: número de operações Quantização e agrupamento dos coeficientes 63 4 Estudo das potencialidades da ACI Introdução Condições de teste Análise dos resultados Imagens naturais Base ACI a partir de uma imagem Base ACI a partir de três imagens Imagens de impressões digitais (fingerprint) Base ACI a partir de seis imagens 80 xiv

14 44 Base híbrida Critérios de desenho e avaliação Número variável de coeficientes por bloco Aprendizagem da base ACI Quantização dos coeficientes Medição objectiva da distorção visual Conclusões 97 5 Arquitectura e avaliação dos codificadores Introdução Características comuns às duas abordagens Quantização dos coeficientes Codificação entrópica Base não ortogonal Formato dos dados comprimidos Base ortogonal Formato dos dados comprimidos Avaliação dos codificadores Imagens naturais e sintéticas Conjuntos específicos de imagens Análise da codificação entrópica Análise e discussão dos resultados Outros critérios de desenho Conclusões e comentários finais Pontos de expansão 146 A Propriedades da negentropia 149 xv

15 xvi

16 Capítulo 1 Introdução A presente dissertação aborda a aplicação da análise em componentes independentes (ACI) 1 [12, 45, 57, 60] no problema da codificação, com perdas (lossy compression), de imagem A ACI é uma técnica não supervisionada baseada em modelos estatísticos Quando aplicada a um conjunto de dados, produz estimativas das suas estruturas estatisticamente independentes, não directamente observáveis (variáveis latentes) Existem vários algoritmos que realizam a ACI, designados neste texto por operadores de ACI, suportados em diferentes abordagens [45, 60] Os operadores de ACI baseiam-se em estatísticas de ordem superior à segunda, estabelecendo uma transformação linear adaptada aos dados Os dados são representados através de coeficientes estatisticamente independentes Tratam-se aspectos de desenho, implementação e teste comparativo de codificadores com perdas, baseados em transformadas obtidas por via de ACI As transformadas são aplicadas sobre bases cujos vectores são componentes independentes (CI) extraídas a partir de imagens Os codificadores implementados seguem duas abordagens, diferenciadas pelo tipo de base utilizada: não ortogonal ou ortogonal O estudo da aplicação da ACI a imagens (suas propriedades e potenciais aplicações) foi iniciado, em 1997, por Bell e Sejnowski [4] Estes investigadores concluíram que a aplicação da ACI a imagens de cenas da natureza gera distribuições esparsas dos coeficientes e obtém, como CI, contornos de variadas orientações e posições, designados por edge filters Estes resultados foram confirmados por Lee [60] e Hyvärinen e Oja [45], utilizando outros operadores de ACI Por outro lado [69], verificou-se que a aplicação, sobre imagens naturais, de algoritmos de aprendizagem que obtêm codificação esparsa, resulta em famílias de funções localizadas, orientadas e de tipo passa-banda Estas funções são semelhantes às CI de imagem natural e às funções da base de wavelets [29] utilizadas nos codificadores de imagem JPEG2000 (joint photographic experts group) [92], EZW 1 ICA - independent component analysis

17 2 Introdução (embedded zerotree wavelet) [90], WSQ (wavelet scalar quantization) [21] e SPIHT (set partitioning in hierarchical trees) [86] Em [33], analisa-se a aplicabilidade do modelo ACI a imagens naturais e de textura No que se refere à aplicação sobre imagens naturais, são apresentados resultados semelhantes aos dos trabalhos [4, 45, 60] Após a estimação ACI, codifica-se a imagem com os filtros ACI [4, 60] e constata-se que os coeficientes dessa representação possuem distribuição esparsa A aplicação da ACI na codificação, com perdas, de imagem tem sido pouco investigada Em [82], conclui-se que com a transformada obtida por análise em componentes principais (ACP) 2 [45, 54, 60, 72] se obtêm melhores resultados do que com a obtida por ACI, dado que a base desta não é ortogonal Aplicado o método de ortogonalização de Gram- Schmidt (GS) [14, 45] sobre a base incompleta de CI, obtêm-se resultados idênticos à ACP Verificado que a base ACI tem capacidade de reter informação sobre os contornos, e que a base ACP produz menor efeito de bloco, opta-se pela codificação híbrida Sugere-se que a aplicação da ACI na codificação de imagem requer a utilização de base sobre-completa, hipótese também referida em [45, 60] Em [80], efectua-se análise e compressão de imagem natural usando base híbrida obtida por ACP, ACI e ACS (análise em componentes simétricas), fundamentada em características do sistema visual humano (SVH) As bases ACI estimadas incluem vectores de alta frequência, semelhantes aos existentes nas bases ACP Na base ACI constata-se maior dependência da imagem sobre a qual é estimada, relativamente às bases ACP e ACS Conclui-se que, para análise de imagem é preferível utilizar ACI, em compressão de imagem, a base híbrida não supera a ACP e que a ACI não tem interesse para a codificação de imagem natural Em [33, 45, 81], iniciando os operadores de ACI com estimativas iniciais diferentes, obtêm-se CI visualmente semelhantes, diferindo em valor analítico, concluindo-se que o número de CI para codificação de imagem é potencialmente infinito No presente trabalho utilizam-se bases não ortogonais completas, sobre-completas e incompletas, constituídas por CI Avalia-se o desempenho de três algoritmos de pesquisa de projecções (APP) [14], na codificação com base não ortogonal Utilizam-se dois critérios de agrupamento dos coeficientes e duas formas de quantização Aplicam-se processos de ortogonalização sobre as bases completa e sobre-completa de CI e agrupam-se os coeficientes, de forma a que estes possuam distribuição compacta ou esparsa Utilizam-se os modos de operação sequencial, progressivo e multi-resolução A imagem é analisada em blocos de dimensão fixa e variável Os codificadores são avaliados em termos de complexidade de codificação e débito-distorção, considerando distorção objectiva e visual Utilizando estes 2 PCA-principal component analysis

18 11 Arquitectura dos codificadores 3 resultados, e tendo em conta o modo de operação e o tipo de abordagem caracterizam-se cenários de utilização dos codificadores propostos Comparam-se os resultados débitodistorção com os de outros codificadores de uso genérico, nomeadamente JPEG [65], JPEG2000 [92] e SPIHT [86], sobre imagens de diferentes classes Especializam-se os codificadores para imagens de impressões digitais (fingerprint) e comparam-se os resultados obtidos com os do codificador WSQ [21], especializado nesta classe de imagens 11 Arquitectura dos codificadores Os codificadores de imagem considerados assentam no modelo da codificação baseada em transformada [54, 68], esquematizado na figura 11, constituído por três blocos funcionais: transformação, quantização e codificação entrópica Imagem Original Transformação Quantização Codificação Entrópica Imagem Codificada Figura 11: Diagrama de blocos de codificador com perdas baseado em transformada A transformação é realizada por transformada linear a qual consiste na projecção sobre uma base previamente extraída do conjunto de imagens de treino, através de operador de ACI Este conjunto deve ser representativo da classe de imagens a codificar, para que a base tenha capacidade de generalização para a classe A quantização escalar dos coeficientes é realizada de acordo com a função de probabilidade (fp) destes Após o desenho dos quantizadores, estima-se a fp dos coeficientes quantizados para definir o seu modelo probabilístico Na codificação entrópica (lossless compression), utiliza-se um modelo de fonte baseado na fp dos coeficientes Adopta-se codificação aritmética [68, 84], com as técnicas de compressão semi-adaptativa e adaptativa [68] No desenho dos codificadores consideram-se duas abordagens Na primeira, designada como codificação assente em base não ortogonal, utilizam-se APP de diferentes complexidades Estabelecem-se critérios para a construção das bases de CI, explorando a relação entre a dimensão da base e o número de operações realizadas pelo APP, face à taxa de compressão e distorção obtidas A quantização dos coeficientes é realizada por um dos seguintes modos: à posteriori, na qual existe uma fase de cálculo dos coeficientes que são posteriormente quantizados; à priori, onde o coeficiente determinado pelo APP em determinada iteração é quantizado e esse valor quantizado é utilizado na iteração seguinte Comparam-se os resultados obtidos pelos dois modos de quantização Utiliza-se número variável de coeficientes na codificação de cada bloco, dependendo do máximo valor absoluto da diferença entre o bloco original e o bloco reconstruído Este critério revelou-se

19 4 Introdução mais apropriado do que o erro quadrático, tal como referido em [88] Comparativamente com a utilização dum número fixo de coeficientes, constatou-se que esta técnica diminui o número total de coeficientes, sem degradação apreciável na relação sinal/ruído e na qualidade visual das imagens Na segunda abordagem, baseada em base ortogonal, utiliza-se base ortonormada, calculada a partir das CI Neste caso, a projecção é calculada através de produto matricial, diminuindo o número de operações do algoritmo de codificação, face à primeira abordagem Os coeficientes de projecção são agrupados em vectores, sendo seleccionados os primeiros N ou os N coeficientes de maior valor absoluto, tendo como objectivo realizar codificações com distribuição compacta e esparsa, respectivamente Implementam-se esquemas de transmissão sequencial, progressiva e multi-resolução para diferentes cenários de utilização dos codificadores Nas duas abordagens são explorados os seguintes modos de operação: blocos de dimensão fixa, com transmissão sequencial e progressiva; blocos de dimensão variável (com três e quatro dimensões diferentes), através de análise baseada em árvores quaternárias (quad trees); multi-resolução através de decimação e interpolação de duas e três camadas, com e sem codificação residual A implementação dos codificadores é precedida do estudo das potencialidades da transformada ACI para representação de imagem Caracterizam-se as CI (vectores base) em termos estatísticos, vectoriais e visuais e exploram-se as capacidades de concentração de energia, de adaptação e generalização face a transformadas utilizadas noutros codificadores Avalia-se o desempenho dos codificadores de acordo com o número de operações, taxa de compressão e distorção objectiva e visual Comparam-se os resultados obtidos com os de outros codificadores especializados e genéricos 12 Contribuições originais Do trabalho realizado, salientam-se os seguintes aspectos que consideramos serem contribuições originais: análise comparativa das bases de CI e da sua ortogonalização, com outras bases, em termos de concentração de energia e capacidade de generalização (capítulo 4);

20 13 Organização do texto 5 constatação da capacidade de adaptação da ACI a conjuntos específicos de imagens e da capacidade de generalização em imagem natural (em particular de cenas da natureza), semelhante à obtida por bases independentes dos dados (secção 46); estabelecimento do critério de desenho e utilização de bases não ortogonais incompletas (secção 452), tendo por objectivo diminuir a complexidade de codificação e aumentar a taxa de compressão sem aumento significativo da distorção; aplicação do algoritmo de pesquisa de projecções HRP (high resolution pursuit) [52] na codificação de imagem e estabelecimento de critérios de desenho da base que este utiliza (secção 341); esquema de agrupamento dos coeficientes obtidos através de APP para codificação entrópica, baseado em codificação esparsa, sem transmissão explícita de índices dos vectores base (secção 36); criação e utilização do modelo de fonte respectivo (secção 53); ortogonalização das bases completa e sobre-completa de CI (secção 42) e aplicação de critérios de escolha dos coeficientes, para obter codificação com distribuição esparsa ou compacta (secção 54) 13 Organização do texto O restante texto está organizado em 5 capítulos O segundo capítulo, intitulado Análise em componentes independentes, apresenta a teoria e terminologia utilizadas ao longo do restante texto Descreve o modelo estatístico, as suas ambiguidades e restrições e as abordagens do ponto de vista das teorias da informação [89] e da estimação [93] no desenho de operadores ACI Discute-se o modelo básico de ACI e as suas extensões, com ênfase no modelo sobre-completo, as suas implicações nos algoritmos e utilização prática Comparam-se as propriedades das CI de imagem natural com a transformada de wavelet [45], funções de Gabor [45, 63] e com a ACP Aplica-se a ACI a imagem e analisam-se algumas das suas propriedades Enquadram-se a ACI e técnicas estatísticas de pesquisa de projecções O terceiro capítulo, Algoritmos de pesquisa de projecções, apresenta algoritmos iterativos para descrever vectores com base sobre-completa (dicionário) [14] Identificam-se propriedades dos algoritmos e determina-se o número de operações realizadas na codificação e descodificação Discutem-se formas de quantização e de agrupamento dos coeficientes de projecção

21 6 Introdução O quarto capítulo, Estudo das potencialidades da ACI, apresenta os resultados do estudo das propriedades das CI de imagem em termos estatísticos, vectoriais e visuais Exploram-se as capacidades de generalização e concentração de energia de bases de CI Aplicam-se processos de ortogonalização sobre a ACI e sobre os dados Comparam-se os resultados obtidos, usando estes dois métodos, com os de transformadas ortogonais Identificam-se abordagens e critérios de desenho dos codificadores O quinto capítulo, Arquitectura e avaliação dos codificadores, trata aspectos de implementação dos codificadores nas abordagens com base não ortogonal e base ortogonal Para cada bloco do codificador indicam-se as características e os critérios seguidos no seu desenho Comparam-se os codificadores, em termos de débito-distorção e complexidade de codificação/descodificação, para imagens de diferentes classes Os resultados obtidos são comparados com os de outros codificadores de carácter geral (universal) e específico Finalmente, o capítulo Conclusões e comentários finais resume os resultados obtidos e as principais conclusões Identificam-se pontos de expansão para investigação futura Em apêndice, caracterizam-se e demonstram-se propriedades da teoria da informação, utilizadas nos operadores de ACI

22 Capítulo 2 Análise em componentes independentes 21 Introdução O presente capítulo introduz o conceito da análise em componentes independentes (ACI), fornecendo-se o suporte teórico e a terminologia utilizada ao longo do restante texto Apresenta-se o modelo estatístico, sobre o qual a ACI assenta, as respectivas ambiguidades e suas consequências, juntamente com a definição de ACI, na secção 22 Dão-se exemplos de aplicação da ACI a sinais uni-dimensionais, na secção 23, na resolução do problema da separação cega de fontes (SCF) Identificam-se as restrições da ACI, na secção 24 Na secção 25 analisam-se conceitos de estatística utilizados pelos operadores de ACI, nomeadamente a incorrelação e independência, estatística de ordem superior à segunda e o teorema do limite central As abordagens do ponto de vista da teoria da informação e da teoria da estimação, na formulação da ACI e no consequente desenho de algoritmos para a sua resolução são discutidas na secção 26, onde se realiza ainda o enquadramento da ACI com técnicas estatísticas de pesquisa de projecções Tendo em conta os conceitos apresentados nas secções anteriores, apresentam-se na secção 27, operadores de ACI Revê-se a ACP na secção 28 e compara-se com a ACI Na secção 29, estabelece-se a comparação entre ACI e wavelet Na secção 210, discutem-se extensões do modelo ACI com ênfase na ACI sobre-completa, as suas implicações nos operadores e utilização prática Finalmente, na secção 211 exemplifica-se a aplicação de ACI a imagem, as suas propriedades e condições de aplicabilidade A notação matemática utilizada é a seguinte: variáveis aleatórias (va) são representadas com letras maiúsculas e as suas concretizações por letras minúsculas;

23 8 Análise em componentes independentes vectores aleatórios são representados com letras maiúsculas com fonte negrito e as respectivas concretizações com letra minúscula em fonte negrito Dado que as matrizes são representadas por letras maiúsculas com fonte negrito, a notação adoptada levanta ambiguidade entre a representação de matrizes e de vectores aleatórios Esta ambiguidade é resolvida por indicação expressa no texto afecto à equação 22 Modelo estatístico e definição Seja S = [S 1, S 2,,S M ] T um vector aleatório com M componentes/fontes estatisticamente independentes entre si 1 Por este motivo, as fontes S i tomam o nome de componentes independentes (CI) Nesta situação, a função densidade de probabilidade (fdp) multi-variável do vector S é dada pelo produto das M fdp marginais p(s i ), de todas as CI: M p(s) = p(s i ) = p(s 1 )p(s 2 )p(s M ) (21) i=1 Sobre o vector S é aplicada a transformação linear A (sendo A matriz N M), obtendose o vector aleatório X = [X 1, X 2,,X N ] T com N componentes X i, designadas de observações, de acordo com X = AS (22) Para simplificar a apresentação considera-se, por agora, que N=M, ou seja, o número de observações é igual ao número de fontes (a matriz A é quadrada) A situação em que N < M é abordada no contexto da ACI sobre-completa (secção 2101) Nestas condições, a equação (22) pode ser escrita na forma X 1 a 11 S 1 + a 12 S a 1M S M X X = 2 a = 21 S 1 + a 22 S a 2M S M, (23) X M a M1 S 1 + a M2 S a MM S M onde se verifica que cada observação X i é uma combinação linear das M CI S j Analisando as combinações lineares que formam as observações X i, verifica-se que estas não são estatisticamente independentes entre si Por seu turno, as CI S j não são directamente observáveis, motivo pelo qual se designam como variáveis latentes Tanto a matriz de mistura A, como as CI S j, são desconhecidas ou, noutra perspectiva, apenas se conhecem as observações X i Os coeficientes da combinação linear que produz X i, constituem a linha i da matriz A: M X i = a i1 S 1 + a i2 S a im S M = a ij S j, i {1,,M} (24) j=1 1 O conceito de independência estatística é tratado na secção 251

24 22 Modelo estatístico e definição 9 Seja a i = [a i1,,a im ] T o vector que contém os elementos da linha i da matriz A A observação X i resulta do produto interno de a i por S, X i = a i T S Exprimindo todas as observações, juntamente com todas as CI obtém-se: X = X 1 X 2 = A S 1 S 2 = AS (25) X M S M Considerando o modelo estatístico apresentado na equação (25), e dado que apenas se observam amostras do vector X, a estimação 2 das CI S, e/ou da matriz de mistura A, designa-se por análise em componentes independentes (ACI) [12, 45, 60] Esta estimação é realizada no caso mais geral possível: a independência estatística entre todas as fontes é a única condição imposta à partida A figura 21 esquematiza o processo de estimação ACI X (Observações) ACI ^ A ^ S (Estimativa da matriz de mistura) (Estimativa das componentes independentes) Figura 21: Diagrama de blocos da estimação ACI O modelo estatístico da equação (25) designa-se por generativo porque explicita a forma como as observações são geradas [45, 48], a partir das CI não observadas (variáveis latentes) Analiticamente, a ACI consiste em estimar a transformação linear W que, quando aplicada às observações X, produz componentes Ŝ = WX = WAS, (26) estatisticamente independentes Analisando a equação (26) encontra-se outra definição de ACI [12, 60]: Encontrar um sistema linear de coordenadas não ortogonal W o qual representa dados multi-variável A representação desses dados sobre o sistema W é realizada por coeficientes estatisticamente independentes Após a estimação de W obtém-se a matriz de mistura A = W 1 e 2 Note-se a utilização do termo estimação, dado que não existe solução analítica fechada para o problema

25 10 Análise em componentes independentes recuperam-se as CI Ŝi (variáveis latentes), a partir das observações X de acordo com Ŝ 1 X 1 Ŝ 2 X = W 2 = Ŝ M X M w 11 X 1 + w 12 X w 1M X M w 21 X 1 + w 22 X w 2M X M (27) w M1 X 1 + w M2 X w MM X M Dado que apenas se conhecem as observações e se pretende estimar a matriz de mistura e as CI, não existe solução analítica fechada para a ACI A estimação da transformação linear W é realizada através de algoritmos iterativos de optimização, que minimizam ou maximizam determinada função de custo, tal como apresentado na secção 27 A figura 22 ilustra a transformação directa A e a transformação inversa W, ou seja, a aplicação do sistema de mistura e do seu inverso, respectivamente As CI (fontes) são combinadas linearmente produzindo as observações X = [X 1,,X M ] T, de acordo com a equação (25) A essas observações é aplicada a transformação linear W, obtendo-se as CI estimadas, designadas por Ŝ = [Ŝ1,,ŜM] T Componentes independentes (fontes) S 1 S 2 S M A Mistura (transformação linear) Observações X 1 X 2 X M W Separação (transformação linear) ^ S1 ^ S2 ^ S M Componentes independentes estimadas Figura 22: Aplicação do sistema de mistura A e do seu inverso W Adaptado de [60] 221 As ambiguidades do modelo Analisando a equação (23), onde se evidencia que cada observação X i é uma combinação linear das CI, verifica-se que a mesma pode ser expressa na forma X 1 a 11 a 12 a 1M X X = 2 a = 21 a S a S M S M (28) X M a M1 a M2 a MM Analisando a equação (28) constatam-se duas ambiguidades sobre o modelo:

26 23 Exemplos de aplicação da ACI 11 1 escalamento: as variâncias (energias) das CI não podem ser estimadas; de facto, efectuar a multiplicação da CI S j por uma constante k e simultaneamente efectuar a divisão da respectiva coluna da matriz A pela mesma constante, não altera nenhuma observação X i ; 2 permutação: a ordem das CI não pode ser estimada, dado que a troca da ordem dos termos da equação (28), não altera nenhuma observação X i Conjugando estas duas ambiguidades, podemos então definir que as CI são estimadas a menos de um escalamento T e uma permutação R, S = TRWX, (29) onde R é matriz de permutação, ou seja, por cada linha/coluna, existe apenas um elemento que vale 1 e não existem duas linhas/colunas iguais e T é matriz de escalamento, com elementos diferentes de zero apenas ao longo da diagonal principal A matriz de desempenho P=TR [60] traduz a qualidade de separação das CI Esta matriz reflecte as ambiguidades da estimação ACI Após reordenação e normalização, quanto mais próxima P estiver da matriz identidade 3 I M, maior é a qualidade da separação No caso em que se verifica P = I M sem reordenação nem normalização, tem-se separação ideal (sem ambiguidades) das componentes S, ou seja, seguindo a ordem pela qual foram combinadas e sem factores de escala Combinando as equações (25) e (29) tem-se: S = TRWAS = PWAS No caso ideal de separação, tem-se P = I M implicando que a matriz estimada W é exactamente a inversa de A Em termos gerais, estas duas ambiguidades não têm grande impacto nas aplicações actuais de ACI [45, 48], em particular na codificação de imagem O escalamento (multiplicação por constante) preserva o formato dos sinais A ordem com que as CI (fontes) são estimadas não é importante porque o objectivo é recuperar as fontes 23 Exemplos de aplicação da ACI Nesta secção apresentam-se exemplos ilustrativos da estimação de CI Analisa-se o efeito da aplicação da ACI sobre duas va independentes, através da análise da sua fdp conjunta Apresentam-se os sinais originais (fontes) e estimados no domínio do tempo, evidenciando as ambiguidades do modelo, através do cálculo da matriz de desempenho P 3 Matriz quadrada M M com o valor 1 ao longo da diagonal principal sendo os restantes valores nulos

27 12 Análise em componentes independentes 231 Análise da função densidade de probabilidade O primeiro exemplo explora a relação entre as distribuições conjuntas das CI S, das observações X e das CI estimadas Ŝ Analisa-se a distribuição conjunta das CI e compara-se com a distribuição conjunta das observações Em seguida, aplica-se a ACI às observações e analisa-se a distribuição conjunta das CI estimadas Sejam S 1 e S 2 duas va contínuas independentes com distribuição uniforme no intervalo [ 3, 3] e variância unitária A fdp de S 1 e S 2 é p Si (s) = 1 2 ( ) s 3 2, para i = 1, 2 (210) 3 Seja s a matriz com dimensões , com 4000 concretizações de cada CI (S 1 e S 2 ), s = s 1 s 2 = s 1,1 s 1,2 s 1,4000 s 2,1 s 2,2 s 2,4000 As matrizes de mistura A e de separação W, consideradas, são A = e W = (211) Aplicando o modelo de mistura ACI, da equação (25), nestas condições, obtêm-se as duas observações x 1 e x 2, constituindo x, x = x 1 x 2 = s 1 s 2 = s 1 + s 2 2s s 2 (212) A figura 23 mostra 4000 concretizações das CI s 1 e s 2 : (s 1,s 2 ) Os dados estão contidos num quadrado cujos extremos são ± 3 em ambas as direcções A distribuição contida neste quadrado traduz a independência estatística entre as duas componentes, ou seja, o conhecimento do valor da concretização de uma das variáveis não reduz a incerteza sobre o valor da outra, porque a gama de valores que esta toma, permanece inalterada Esta distribuição conjunta está de acordo com a equação (21), que reflecte a factorização da fdp conjunta no produto das fdp marginais: p(s 1,s 2 ) = p(s 1 )p(s 2 ) = 1 ( ) s 1 ( ) 12 2 s Na figura 23 apresentam-se também as observações x 1 e x 2, as quais, como se pode verificar, não são independentes Por exemplo, quando x 1 toma valores negativos, x 2 também toma, com grande probabilidade, valores negativos A distribuição conjunta de (x 1,x 2 ) é uniforme sobre um paralelogramo cujas arestas são paralelas às rectas definidas pelas colunas da matriz de mistura A, também representadas na figura A figura 24 mostra concretizações conjuntas das CI estimadas, ŝ 1 e ŝ 2, usando o operador fastica (apresentado na secção 274) Verifica-se que a distribuição é idêntica à das CI s 1 e s 2, apresentada na figura 23 As matrizes de mistura e de separação

28 23 Exemplos de aplicação da ACI s 1 s2 x 1 x2 (s 1,s 2 ) (x 1,x 2 ) Figura 23: Concretizações conjuntas: CI s 1 e s 2 ; observações x 1 e x ŝ 1 ŝ2 (ŝ 1,ŝ 2 ) Figura 24: Concretizações conjuntas das CI estimadas: ŝ 1 e ŝ 2 estimadas são, respectivamente, Â = e Ŵ = Como se pode verificar, a matriz de mistura estimada está bastante próxima da matriz original, apresentada na equação (211) A matriz de desempenho P = ŴA é P = , sendo muito próxima da matriz identidade, traduzindo a separação quase perfeita das CI

29 14 Análise em componentes independentes 232 Separação cega de fontes As equações (26) e (27) e a figura 22 estabelecem a ligação com o problema da separação cega de fontes (SCF) 4 [45, 57, 60] Por separação entende-se o processo de obter as fontes originais S, a partir do conjunto de observações X A separação é classificada como cega por dois motivos: não se assume conhecimento sobre as distribuições de probabilidade das fontes S e a matriz de mistura A também é desconhecida A ACI é o método mais utilizado para realizar SCF [45], de tal forma que em alguns contextos da literatura estes termos são sinónimos O desenvolvimento inicial da ACI tinha como objectivo resolver o problema da SCF Apresenta-se agora um exemplo de SCF baseado no problema habitualmente designado por problema cocktail-party [48, 60], cujo enunciado é o seguinte: Numa sala existem pessoas a conversar enquanto existe música de fundo a tocar O som da sala é captado por dois microfones em locais diferentes Pretende-se separar os sinais de fala e música a partir das misturas captadas pelos dois microfones Tendo em conta o modelo ACI, o problema cocktail-party é representado por X = X 1 X 2 = a 11 a 12 a 21 a 22 S 1 S 2 = a 11S 1 + a 12 S 2 a 21 S 1 + a 22 S 2, (213) onde as constantes a ij representam a atenuação/amplificação aplicada sobre as fontes S 1 e S 2 A figura 25, utilizando sinais sintéticos, ilustra a aplicação da ACI na resolução deste problema 5 Visualizam-se os sinais no domínio do tempo e as respectivas concretizações conjuntas Ilustram-se as ambiguidades da ACI Utilizou-se a seguinte matriz de mistura: A = (214) Analisando a figura 25 constata-se que S 1 e S 2 são independentes e que X 1 e X 2 não são independentes As componentes são estimadas com exactidão, a menos de um factor de escala, devido às ambiguidades discutidas na secção 221 Nestas condições, a matriz de mistura estimada é Â = (215) Comparando com a matriz de mistura da equação (214), note-se que as colunas estão trocadas, e que a primeira coluna da matriz Â está multiplicada por 1, ou seja, a primeira componente estimada ŝ 1 sofreu inversão de fase, como se pode constatar pela observação dos sinais estimados na figura 25 Em termos de separação de sinais audio, estas ambiguidades não constituem problema A informação sobre a amplitude original 4 BSS - blind source separation 5 Em [60, pág 98], consta um exemplo com sinais reais de música e fala

30 23 Exemplos de aplicação da ACI s s (s 1,s 2 ) x x (x 1,x 2 ) ŝ ŝ (ŝ 1,ŝ 2 ) Figura 25: Aplicação da ACI na SCF: sinais no domínio do tempo e concretizações conjuntas; no topo apresentam-se as duas CI s 1 e s 2 ; no meio, constam as duas observações x 1 e x 2, cujas concretizações conjuntas formam um paralelogramo de arestas paralelas às rectas definidas pelas colunas da matriz A; em baixo, apresentam-se as CI estimadas ŝ 1 e ŝ 2 perdeu-se, mas reconhecem-se ambos os sinais Por outro lado, a inversão de fase não é notada pelo ouvido humano A ordem de estimação não influencia o objectivo de obter

31 16 Análise em componentes independentes os sinais separados A matriz de desempenho P, estimada nesta situação é P = 0 1, o que atesta que as duas componentes foram estimadas por ordem contrária àquela com que foram sobrepostas, e que a primeira está multiplicada por 1 24 As restrições da ACI Na ACI procura-se, a partir de observações que não são independentes, estimar as CI que lhe deram origem e/ou a respectiva matriz de mistura Estimadas as CI, a sua distribuição conjunta é factorizada No entanto, existem situações em que não é possível estimar as CI No caso da distribuição conjunta das observações ser simétrica é impossível inferir informação sobre a matriz de mistura A Recorde-se os exemplos anteriores nos quais as observações têm concretizações conjuntas na forma de paralelogramo cujas arestas são paralelas às rectas definidas pelas colunas da matriz A Caso as observações não traduzam informação sobre a matriz de mistura é impossível estimá-la Outra restrição da ACI está relacionada com a distribuição estatística das CI No máximo, apenas uma CI pode ter distribuição normal [12, 45, 60] 241 A distribuição normal (gaussiana) A fdp duma va S com distribuição normal de média m s e variância σ s é p(s) = ( 1 exp (s m s) 2 ) (216) 2πσ 2 s 2σs 2 Sejam S 1 e S 2 duas va independentes com distribuição normal de média nula e variância unitária A fdp conjunta p(s 1,s 2 ) tem a seguinte expressão: p(s 1,s 2 ) = p S (s) = p(s 1 )p(s 2 ) = 1 ( 2π exp s2 1 + s 2 ) 2 = 1 ( ) 2 2π exp s 2 (217) 2 A figura 26 mostra a fdp conjunta de s 1 e s 2, de acordo com a equação (217), e apresenta 1500 concretizações conjuntas Note-se que a distribuição é simétrica Sobre s 1 e s 2, aplica-se o modelo ACI utilizando a matriz de mistura ortogonal 6, A = A matriz quadrada A diz-se ortogonal se AA T = I, ou seja, A T = A 1

32 24 As restrições da ACI s 1 s 1 s2 s 2 p(s1, s2) Fdp conjunta 1500 concretizações de (s 1,s 2 ) Figura 26: Distribuição normal conjunta de duas va independentes, com distribuição de média nula e variância unitária: fdp e concretizações As observações x 1 e x 2, x = x 1 x 2 = 2 2 s s s s 2, têm distribuição normal, dado que resultam da combinação linear de duas va com distribuição normal [45] Verifica-se que a fdp conjunta das observações também é simétrica, ou seja, as observações x 1 e x 2 são estatisticamente independentes Passamos a demonstrar que, nestas condições, as observações têm exactamente a mesma distribuição das CI Dado que x = As, utilizando a fórmula de transformação de fdp [45, 95] e tendo em conta que a matriz A é ortogonal: p(x 1,x 2 ) = p(x) = 1 det(a) p S(A 1 x) = p S (A T x) Devido à ortogonalidade de A tem-se A T x 2 = x 2, porque as transformadas ortogonais preservam a norma do vector, dado que aplicam rotação sobre o mesmo [45, 54, 91], obtémse p S (A T x) = 1 2π exp ( AT x 2 2 ) = 1 2π exp ( x 2 2 ) = 1 2π exp ( x2 1 + x ), concluindo-se que x 1 e x 2 têm a mesma distribuição de s 1 e s 2, apresentada na equação (217) A matriz de mistura ortogonal não altera a fdp das observações, em relação à fdp das CI, dado que não consta da expressão de p(x 1,x 2 ) Nesta situação é impossível estimar a matriz de mistura A por ACI, porque as observações não contêm informação sobre a mesma Dado que não se consegue estimar a matriz de mistura é impossível estimar as CI s 1 e s 2

33 18 Análise em componentes independentes Caso a matriz de mistura não seja ortogonal, tem-se, de acordo com a fdp conjunta da distribuição normal multi-variável [45, 95], ( 1 x T (AA T ) 1 ) x p(x 1,x 2 ) = p(x) = exp, 2π(det(AA T )) verificando-se que é impossível estimar a matriz A e por conseguinte realizar ACI No caso em que algumas CI possuem distribuição normal e outras não, é possível estimar todas aquelas que não têm distribuição normal Contudo, as componentes com distribuição normal não podem ser separadas, obtendo-se simplesmente combinações lineares arbitrárias das mesmas Quando apenas uma componente tem distribuição normal é ainda possível realizar a separação [12, 45, 60] 242 A mistura ortogonal Considerou-se o caso de matriz de mistura ortogonal, uma vez que os operadores de ACI, efectuam como pré-processamento o branqueamento dos dados (com média nula), que consiste em aplicar uma transformação linear aos mesmos de forma que estes passem a ter como covariância a matriz identidade Demonstra-se que este procedimento simplifica a convergência dos operadores de ACI, porque diminui os graus de liberdade dos parâmetros a estimar Outra consequência do branqueamento dos dados (observações) é que a matriz de mistura é transformada noutra ortogonal O branqueamento é tratado na secção Conceitos de estatística 251 Independência e incorrelação A ACI aplica-se a conjuntos de sinais estatisticamente independentes, tais que, no máximo, um deles tem distribuição normal Nesta secção analisam-se os conceitos de independência e incorrelação e a relação entre os mesmos Apresentam-se exemplos ilustrativos destes conceitos Posteriormente serão apresentados operadores de ACI, baseados nestes dois conceitos Analisa-se o modelo ACI, nomeadamente no que respeita à correlação/incorrelação entre as observações Definição de independência Sejam Y 1 e Y 2 duas va contínuas e p(y 1,y 2 ) a sua fdp conjunta Designando por p(y 1 ) a fdp marginal de y 1 e por p(y 2 ) a fdp marginal de y 2 tem-se p(y 1 ) = p(y 1,y 2 ) dy 2 e p(y 2 ) = p(y 1,y 2 ) dy 1

34 25 Conceitos de estatística 19 Quando Y 1 e Y 2 são estatisticamente independentes, a fdp conjunta factoriza no produto das fdp marginais p(y 1,y 2 ) = 2 p(y i ) = p(y 1 )p(y 2 ) (218) i=1 A utilização prática desta definição levanta problemas, na medida em que é necessário estimar as fdp Seja E o operador valor esperado, E{x} = x p(x) dx, (219) e g(x) uma função cujo domínio inclua todas as concretizações da va X, então E{g(x)} = g(x) p(x) dx (220) Sejam Y 1 e Y 2 duas va independentes e h 1 e h 2 duas funções absolutamente integráveis no domínio dos valores possíveis de Y 1 e Y 2, então: E{h 1 (y 1 )h 2 (y 2 )} = E{h 1 (y 1 )}E{h 2 (y 2 )} (221) Esta propriedade resulta da definição de valor esperado (equação (219)) e da factorização da fdp conjunta (equação (218)) A avaliação de independência nela baseada é computacionalmente eficiente Definição de incorrelação A incorrelação é uma forma fraca de independência, no sentido em que representa independência considerando apenas estatísticas de primeira e segunda ordem Duas va Y 1 e Y 2 são incorrelacionadas se a sua covariância cov(y 1,y 2 ) for zero, cov(y 1,y 2 ) = E{y 1 y 2 } E{y 1 }E{y 2 } = 0 (222) Variáveis aleatórias independentes são sempre incorrelacionadas, o que se demonstra a partir da equação (221), fazendo h 1 (α) = h 2 (α) = α Variáveis que são incorrelacionadas apenas são independentes, caso tenham distribuição normal, uma vez que são completamente caracterizadas pelas estatísticas de primeira e segunda ordem [45, 60] No caso geral de distribuições não normais, incorrelação não implica independência Relação da incorrelação com a ortogonalidade Caso se verifique que pelo menos uma das va Y 1 e Y 2 possua média nula, a covariância passa a ser cov(y 1,y 2 ) = E{y 1 y 2 }; (223)

35 20 Análise em componentes independentes verifica-se então que, no caso de média nula, o cálculo da covariância corresponde ao cálculo do produto interno Nesta situação ortogonalidade e incorrelação são sinónimos [54], dado que E{y 1 y 2 } possui as propriedades de um produto interno, num espaço de va com segundo momento finito [79] Aplicação ao modelo ACI Considere-se o modelo ACI apresentado na equação (25) Assumindo que todas as CI têm variância unitária (após branqueamento, por exemplo), a matriz de covariância das observações é dada por cov(x) = E{XX T } = E{AS(AS) T } = AE{SS T } A T = AA T (224) } {{ } I Quando a matriz de mistura A é ortogonal, as observações são incorrelacionadas O mesmo se passa quando AA T = D, em que D é matriz diagonal 252 Estatística de ordem superior à segunda Nos operadores de ACI é necessário utilizar informação estatística de ordem superior à segunda [12, 45, 60] Nesta secção introduzem-se os conceitos subjacentes às medidas de independência e estimação das fdp, utilizadas nos operadores de ACI Analisam-se os conceitos de momento e momento central Introduz-se a kurtosis como medida de não normalidade O conceito de momento Qualquer va é caracterizada pela sua fdp Esta pode ser descrita por um conjunto discreto de parâmetros designados por momentos [45, 59, 60, 95] Define-se o momento de ordem n, designado por α x (n), como α x (n) = E{x n } = x n p(x)dx (225) O momento de ordem 1, α x (1) = E{x}, é o valor esperado (ou média) da distribuição O momento de ordem 2, α x (2) = E{x 2 }, é o valor quadrático médio Momento central O momento central de ordem n, designado por µ x (n), é definido por µ x (n) = E{(x α x (1)) n } = (x α x (1)) n p(x) dx (226) Os momentos centrais descrevem o comportamento da distribuição em relação ao seu valor médio No caso da va possuir média nula tem-se µ x (n) = α x (n) Os momentos

36 25 Conceitos de estatística 21 centrais de ordem 0, µ x (0) = 1, e de ordem 1, µ x (1) = 0, não têm significado Por sua vez, o momento central de ordem 2 é a variância: µ x (2) = σx 2 Evoluindo para estatísticas de ordem superior à segunda, temos o momento central de ordem 3, µ x (3) = E{(x α x (1)) 3 } que mede a skewness da fdp, ou seja, a sua assimetria em torno da média Toma o valor zero quando a fdp é simétrica em torno da média, tal como por exemplo, no caso das distribuições normal e uniforme O momento central de quarta ordem, µ x (4) = E{(x α x (1)) 4 }, é utilizado para avaliar o formato (pontiagudo ou plano) da fdp Na prática, utiliza-se o momento de quarta ordem, α x (4) = E{x 4 }, em vez do momento central, dado ter propriedades que não são partilhadas pelo momento central [45] Os momentos de ordem superior à quarta são pouco utilizados [45, 60] A kurtosis No caso da va possuir média nula, a kurtosis [45, 48, 60] define-se como kurt(x) = α x (4) 3[α x (2)] 2 = E{X 4 } 3[E{X 2 }] 2 (227) A kurtosis normalizada define-se da seguinte forma: kurt norm (X) = E{X4 } 3 (228) [E{X 2 }] 2 Se para além da média nula, a va possuir variância unitária, µ x (2) = E{X 2 } = 1 tem-se kurt(x) = kurt norm (X) = E{X 4 } 3 (229) Nesta situação, a kurtosis é uma versão normalizada do momento de quarta ordem Por sua vez, a kurtosis possui duas propriedades de interesse prático para os operadores de ACI: a aditividade, a qual estabelece que dadas duas va X e Y estatisticamente independentes, então não linearidade em relação ao argumento: onde β é um escalar arbitrário kurt(x + Y ) = kurt(x) + kurt(y ) (230) kurt(βx) = β 4 kurt(x), (231) A aditividade não é partilhada pelo momento de quarta ordem [45]

37 22 Análise em componentes independentes A kurtosis e a distribuição normal No caso da distribuição normal tem-se que E{X 4 } = 3[E{X 2 }] 2 Pela equação (227), verifica-se que a kurtosis de uma va normal é zero Desta forma, a kurtosis é utilizada para avaliar a semelhança entre determinada distribuição e a distribuição normal 7 Outra conclusão importante é que o momento de quarta ordem (E{X 4 } = 3[E{X 2 }] 2 ) é completamente definido pela estatística de segunda ordem O mesmo acontece para momentos de ordem superior à quarta Por este motivo, duas va X e Y com distribuição normal e incorrelacionadas, cov(x, y) = 0 (estatística de segunda ordem), são independentes 253 As implicações do teorema do limite central O teorema do limite central [45, 91, 95] estabelece o seguinte: Dado um conjunto de k va independentes e identicamente distribuídas (iid), a densidade de probabilidade da soma dessas variáveis tende para a distribuição normal, quando k A figura 27 mostra a fdp da soma de k va independentes, com distribuição uniforme, média nula e variância unitária, cuja expressão foi apresentada na equação (210) Consideram-se os valores de k {2, 3, 7} k = 2 k = 3 k = 7 Figura 27: Ilustração do teorema do limite central: fdp da soma de k {2, 3, 7} va independentes e identicamente distribuídas No modelo ACI das equações (23) e (24), verifica-se que a distribuição das observações X i se assemelha mais à distribuição normal do que a das componentes S j Na secção 24 verificou-se que não é possível realizar ACI se as CI S j possuírem distribuição normal 7 Existem va com distribuição não normal que têm kurtosis nula [48], mas podem ser consideradas muito raras

38 25 Conceitos de estatística 23 Conjugando o facto de que independência implica incorrelação e que as CI não podem ter distribuição normal tem-se que nos operadores de ACI, as CI são estimadas de forma a que sejam incorrelacionadas entre si e minimizando a sua semelhança com a distribuição normal Trata-se de um problema de procura/optimização de mínimos de semelhança com a distribuição normal num determinado espaço A kurtosis normalizada (equação (228)) é uma medida de semelhança em relação à distribuição normal, classificando a distribuição de acordo com kurt(x) < 0, sub-normal = 0, normal > 0, super-normal A figura 28 mostra três distribuições com média nula e variância unitária: uniforme, com kurt < 0 (sub-normal), normal (kurt = 0) e laplaciana p laplace (x) = 1 exp( 2 x ), (232) 2 com kurt > 0 (super-normal) 035 Uniforme 04 Normal 07 Laplaciana Figura 28: Distribuição uniforme (sub-normal), normal e laplaciana (super-normal) Kurtosis como medida de não normalidade O valor absoluto e o quadrado da kurtosis são medidas de não normalidade dos dados [45] Considerando va de variância unitária, os limites de variação da kurtosis são -2 e + [45] A kurtosis depende da variância da distribuição Contudo, o valor da variância não deve afectar a medida de semelhança com a distribuição normal, uma vez que não altera o formato da distribuição, essencialmente o formato das caudas da distribuição Para utilizar a kurtosis como medida de (não) normalidade é necessário que todas as observações

39 24 Análise em componentes independentes a analisar tenham a mesma variância [33] de variância unitária, através de uma transformação linear É sempre possível transformar uma va noutra Problemas na utilização prática da kurtosis A estimação da kurtosis a partir da amostra corre o risco de ter erros grosseiros de estimação [45] A kurtosis é muito sensível a variações nos dados, causadas por exemplo pela presença de ruído, dado que se baseia no momento estatístico de quarta ordem A título de exemplo, suponha-se que se observam dados com distribuição laplaciana Se a amostra a analisar consistir maioritariamente em valores que pertencem à cauda da distribuição, então a kurtosis toma valores erróneos ou irrelevantes Apresentamos um exemplo onde se evidencia outro problema da kurtosis: a presença de amostras atípicas (outliers) altera gravemente o seu valor Supondo que a observação consiste em 1000 concretizações de dada va com distribuição de média nula e variância unitária e que uma das concretizações tem o valor 10 Então a kurtosis vale pelo menos E{x 4 } 3 = = 7 Apenas uma concretização atípica provoca que a kurtosis estimada tenha um valor de tal forma elevado, que pode classificar erroneamente o tipo 1000 de distribuição em análise Os estimadores de kurtosis não são suficientemente robustos, pelo que se torna necessário considerar outras medidas de não normalidade que conduzam a estimadores mais robustos Na próxima secção apresentam-se medidas baseadas na teoria da informação de Shannon [89] Em [56], também se constata o facto de que a identificação de distribuições aproximadamente simétricas com baixo valor de kurtosis, baseada nos momentos de terceira e quarta ordem é difícil de realizar com exactidão, sugerindo-se como solução a utilização de métodos mais robustos baseados na teoria da informação 26 Abordagem através das teorias da informação e estimação 261 Teoria da informação Nesta secção analisam-se conceitos da teoria da informação de forma a estabelecer medidas de não normalidade, mais robustas do que a kurtosis Outro aspecto em estudo é a medida de dependência estatística, dada pela informação mútua Formula-se o problema da ACI, com base no conceito de informação mútua Apresenta-se a negentropia como medida de não normalidade Discutem-se aproximações, computacionalmente eficientes, à negentropia Demonstra-se a equivalência entre a utilização da negentropia e da informação mútua, enquanto medidas de não normalidade

40 26 Abordagem através das teorias da informação e estimação 25 Entropia e Entropia Diferencial Considere-se a va discreta X com N concretizações possíveis: {x 1,x 2,,x N } Cada concretização x i tem probabilidade p i, tal que p i 0 e N i=1 p i = 1 Designa-se por p(x) a função de probabilidade (fp) de X A informação própria (ou auto-informação) I(x i ) da concretização x i é dada por I(x i ) = log (p(x i )), cujas unidades dependem da base do logaritmo Quanto menor for a probabilidade do acontecimento x i (mais inesperado), maior é a quantidade de informação associada A entropia [13] da va X, designada por H(X), define-se como o valor esperado da informação própria de todas as suas concretizações: N H(X) = E{I(x i )} = E{ log(p(x i ))} = p(x i ) log(p(x i )) (233) i=1 O número de bits necessário para a codificação das concretizações de X é directamente proporcional ao valor da entropia [13, 89] A entropia é maximizada quando as concretizações x i são equiprováveis, ou seja, a va discreta possui fp uniforme Caso X seja uma va contínua, com fdp f(x), o conceito de entropia (discreta) da equação (233) generaliza para H(X) = f(x) log (f(x)) dx, (234) designando-se por entropia diferencial [13] A entropia diferencial possui um conjunto de propriedades, das quais importa aqui salientar apenas duas [13, 45]: Não é invariante ao escalamento: H(αX) = H(X) + log α (235) Seja Y = MX, em que M é uma transformação linear e X e Y dois vectores aleatórios; a entropia de Y é dada por H(Y) = H(X) + log detm (236) Medidas de não normalidade Nesta secção analisam-se as propriedades da distribuição normal, à luz da teoria da informação de forma a estabelecer uma medida de não normalidade Um resultado da teoria da informação é que a va com distribuição normal é a que tem maior entropia diferencial entre todas as va com a mesma variância [13, 60] Define-se negentropia J(X) = H(X N ) H(X), (237)

41 26 Análise em componentes independentes como a diferença entre as entropias diferenciais dos vectores aleatórios X N e X, com distribuição normal e outra distribuição qualquer em análise, respectivamente [45, 60] Ambos os vectores têm a mesma matriz de covariância, Σ A entropia diferencial de X N é H(X N ) = 1 2 log detσ + n [1 + log(2π)], (238) 2 onde n é a dimensão do vector A negentropia avalia a aproximação à distribuição normal, tendo em conta a fdp dos dados [45] A negentropia tem as seguintes propriedades [38, 60], demonstradas no apêndice A: J(X) 0, é não negativa; J(X) = 0, se e apenas se X tem distribuição normal; é invariante para transformações lineares invertíveis: se Y = MX: J(Y) = J(X) A última propriedade não é partilhada pela entropia diferencial, tal como se constata pela equação (236) Vantagens e inconvenientes da negentropia Apesar das propriedades apresentadas acima, o uso computacional da negentropia está comprometido devido ao facto de o seu cálculo utilizando a definição requerer estimação não paramétrica da fdp Contudo, esta medida é mais robusta do que a kurtosis Torna-se assim pertinente o desenvolvimento de aproximações à negentropia que sejam computacionalmente simples Estas aproximações, oriundas de diferentes contextos, são apresentadas na próxima secção Aproximações à negentropia O cálculo da negentropia nos operadores de ACI é realizado de forma escalar A negentropia é calculada sobre o produto interno entre a estimativa da CI e as observações (ver secção 274) [45] Por este motivo, apresentam-se métodos de aproximação escalar à negentropia Assumindo que a va X tem média nula e variância unitária, a aproximação à negentropia, baseada em cumulantes e expansão polinomial [45, 56] é J(X) 1 12 [E{X3 }] [kurt(x)]2 (239) Na prática, esta aproximação envolve o uso de kurtosis O termo 1 12 [E{X3 }] 2 é zero para fdp simétricas, aproximando-se de zero quando as fdp são aproximadamente simétricas, situação muito comum Conclui-se que a aproximação da equação (239) é essencialmente

42 26 Abordagem através das teorias da informação e estimação 27 o valor do quadrado da kurtosis e tem os mesmos problemas de não robustez apontados na secção 253 Os métodos baseados em momentos e cumulantes de ordem elevada são sensíveis a amostras atípicas (outliers), de tal forma que estas determinam completamente os valores das estimativas tornando-as irrelevantes Por outro lado, mesmo que os momentos e os cumulantes sejam correctamente estimados, estes reflectem essencialmente as caudas da distribuição, não sendo afectados pelos valores próximos do centro da distribuição, porque à medida que os valores se afastam de zero (do centro da distribuição) a sua influência é cada vez maior no resultado da estimação Para superar esta falta de robustez, foram desenvolvidas outras aproximações, baseadas no princípio de máxima entropia [36], com a forma J(X) [E{G(X)} E{G(V )}] 2, (240) em que V é uma va com distribuição normal de média nula e variância unitária, X é uma va com média nula e variância unitária e G é uma função não quadrática [36] A equação (240) constitui uma generalização da aproximação apresentada em (239), caso X tenha uma distribuição simétrica: E{X 3 } = 0 Por exemplo, fazendo G(X) = X 4, tem-se a aproximação baseada na kurtosis apresentada na equação (239) Sobre a aproximação da equação (240), o ponto crucial é a escolha de G por forma a conduzir a um estimador robusto Este objectivo é atingido se a função G não possuir crescimento rápido A utilização das funções G 1 (u) = 1 a 1 log(cosh(a 1 u)) e G 2 (u) = exp ( u2 2 ), (241) em que 1 a 1 2 é constante, tipicamente igual a 1, conduz à realização de estimadores robustos [34, 45] Em [34], discutem-se os aspectos da escolha destas funções e apresentamse exemplos; evidenciam-se as propriedades de cada função e as situações em que devem ser aplicadas, de acordo com o tipo de CI que se pretende extrair (super-normal ou subnormal) Informação mútua Outra abordagem utilizada em ACI é baseada no conceito de informação mútua [13, 45, 60, 89] a qual estabelece uma medida de dependência entre variáveis aleatórias Dado o vector Y = [Y 1,Y 2,,Y m ] constituído por m va Y i, a informação mútua entre essas va é definida como I(Y 1,Y 2,,Y m ) = m H(Y i ) H(Y), (242) i=1 em que H(Y) = H(Y 1,Y 2,,Y m ) representa a entropia conjunta de todas as variáveis Y i A informação mútua é não negativa, sendo nula apenas quando as m variáveis são

43 28 Análise em componentes independentes estatisticamente independentes entre si A informação mútua tem em linha de conta toda a dependência estrutural das variáveis, utilizando estatísticas de todas as ordens A divergência de Kullback-Leibler (DKL) [13, 45, 60], mede a semelhança entre duas fdp p(u) e q(u), definindo-se como D(p(u) q(u)) = p(u) log p(u) q(u) du (243) A informação mútua é equivalente à DKL entre a fdp conjunta p(y) e o produto das densidades marginais p(y i ) pelo que a equação (242) escrita à custa da DKL toma a forma: I(Y 1,Y 2,,Y m ) = D(p(y) p(y 1 )p(y 2 )p(y m )) ( ) m = D p(y) p(y i ) (244) A negentropia equivale à DKL entre a distribuição p(y) e a distribuição normal N(y), com a mesma média e covariância [45, 60]: J(Y ) = D(p(y) N(y)) = = p(y) log p(y) dy i=1 p(y) log p(y) N(y) dy p(y) log N(y) dy = H(Y N ) H(Y ) (245) Definição da ACI pela informação mútua A informação mútua é um dos critérios utilizados para realização de ACI [45, 60] Considere-se o conjunto de observações no vector X; define-se a análise em componentes independentes deste vector como a aplicação da transformação invertível B, obtendo o vector de componentes Y = BX, de tal forma que a informação mútua entre todas as va Y i é minimizada Nesta formulação baseada na minimização da informação mútua, não é forçoso que as observações X sigam o modelo ACI (equação (25)) Em qualquer situação, a minimização da informação mútua obtém as componentes Y o mais independentes possível Propriedades e relação com a negentropia Considere-se a transformação linear invertível B, aplicada ao vector X, Y = BX De acordo com a equação (236), a entropia de Y é H(Y) = H(X) + log detb,

44 26 Abordagem através das teorias da informação e estimação 29 pelo que a informação mútua das componentes transformadas é dada por I(Y) = I(Y 1,Y 2,,Y m ) = = m H(Y i ) H(Y) i=1 m H(Y i ) H(X) log detb (246) i=1 Dado que independência implica incorrelação, conclui-se que as CI estimadas, Y i, são incorrelacionadas; considerando que têm variância unitária, cov(y) = E{YY T } = I, (247) então E{YY T } = E{BX(BX) T } = E{BXX T B T } = BE{XX T }B T = I Esta igualdade implica que deti = 1 = det(be{xx T }B T ) = det(b) det(e{xx T }) det(b T ), (248) donde se conclui que det(b) é constante, uma vez que det(e{xx T }) não depende de B Tendo em conta que a negentropia é expressa à custa da DKL, como se pode verificar pela equação (245), a soma das negentropias de todas as va, equivale à soma das DKL [60]: m m J(Y i ) = D(p(y i ) N(y i )) i=1 i=1 = p(y 1 ) log p(y 1) N(y 1 ) dy p(y m ) log p(y m) N(y m ) dy m mi=1 p(y i ) = p(y) log mi=1 N(y i ) dy mi=1 p(y i ) = p(y) log dy N(y) mi=1 p(y i ) = p(y) log dy + p(y) log p(y) p(y) N(y) dy ( m ) = D p(y i ) p(y) + p(y) log p(y) dy p(y) log N(y) dy i=1 = I(Y) H(Y) p(y) log N(y) dy = I(Y) H(X) log det(b) p(y) log N(y) dy (249) O termo p(y) log N(y) dy é a entropia de uma distribuição normal, dado que p(y) e N(y) têm a mesma matriz de covariância [13, pág 234], m J(Y i ) = I(Y) H(X) log det(b) + m i=1 2 log((2π exp) det(yyt ))

45 30 Análise em componentes independentes Dado que as componentes Y i são independentes e por consequência incorrelacionadas, com variância unitária, a sua matriz de covariância é a identidade (cujo determinante vale 1), tem-se m J(Y i ) = I(Y) H(X) log det(b) + m log(2π exp) i=1 2 Estabelece-se assim a relação entre a minimização da informação mútua e a maximização da não normalidade dos dados: I(Y) = H(X) log det(b) + m m 2 log(2π exp) J(Y i ) Tendo em conta que a negentropia é invariante para transformações lineares invertíveis J(Y) = J(X), a informação mútua das CI estimadas, Y i, é: m I(Y) = H(X) + H(X N ) log det(b) J(Y i ) i=1 m = J(X) log det(b) J(Y i ) } {{ } i=1 k m = J(Y) log det(b) J(Y i ) (250) } {{ } i=1 k Sabendo que detb é constante, analisando a equação (250), verifica-se que a minimização da informação mútua entre as estimativas incorrelacionadas das CI, corresponde à maximização do afastamento entre as mesmas e a distribuição normal (parcela mi=1 J(Y i )) Desta forma apresenta-se a justificação, fundamentada pela teoria da informação, da ideia heurística da procura das direcções de menor semelhança com a distribuição normal i=1 262 Teoria da estimação Nesta secção apresenta-se a utilização da teoria da estimação [93] para a escrita de operadores de ACI A ideia base consiste em estimar um conjunto (vector) de parâmetros, a partir de um conjunto de observações, as quais se assume que seguem determinado modelo de geração Existem diversos tipos de estimação: método dos momentos, minimização de erro quadrático, estimação probabilística, dentro da qual se inserem o critério MAP (maximum a posteriori) e o de máxima verosimilhança (ML-maximum likelihood) [45, 93] Para além da restrição principal, em ACI não se assume à partida conhecimento sobre as CI Na ausência de ruído, a formulação do modelo ACI, através do critério ML é imediata [45, 77] Este modelo obriga à estimação não paramétrica das densidades de probabilidade das CI A estimação não paramétrica, ou seja, com número arbitrariamente

46 26 Abordagem através das teorias da informação e estimação 31 elevado (teoricamente infinito) de parâmetros é um problema complexo Em [45] concluise que o problema de estimação tem solução simples, conduzindo à escolha entre duas densidades pré-estabelecidas, de acordo com o tipo de distribuição das CI a estimar [7, 34, 47] Estima-se o tipo de distribuição das CI (sub-normal ou super-normal), utilizando uma das medidas de não normalidade apresentadas anteriormente, e escolhe-se a densidade correspondente Caso a estimação das densidades seja incorrecta, a aplicação de ML produz resultados errados na estimação das CI, como se demonstra em [45] A estimação das densidades pode ser evitada, em situações em que é conhecida à partida a natureza das CI; por exemplo, sinais de fala possuem, tipicamente, distribuição super-normal [60] Em [45, 48] mostra-se a equivalência entre os critérios ML e de minimização da informação mútua, na realização da ACI 263 Pesquisa de projecções (projection pursuit) Por projection pursuit (PP) [24, 25, 56] designa-se uma classe de algoritmos que determinam as projecções mais relevantes de dados multi-dimensionais com dimensão elevada As projecções classificadas como mais relevantes são aquelas que exibem mais estrutura O objectivo do PP é encontrar, sobre um vector multi-dimensional, projecções que contêm estrutura, medida de acordo com um índice (a ser maximizado) Quando as projecções são utilizadas para visualização ou análise dos dados designa-se por exploratory projection pursuit [60] Em [45] constata-se que a distribuição normal é a menos interessante, e que as mais interessantes são aquelas que mais se afastam desta distribuição De facto, é o que se obtém na estimação ACI, quando se encontram as direcções onde a negentropia é maximizada, o que corresponde à minimização da informação mútua entre as estimativas tal como demonstrado na equação (250) Este facto pode ser constatado através de duas observações distintas: pelo teorema do limite central, a soma de n contribuições (estruturas) independentes tende para a distribuição normal, perdendo-se informação sobre a estrutura individual, como se observa na figura 27; a distribuição normal é a menos estruturada (mais aleatória), de entre todas as que possuem a mesma variância, isto é, possui a máxima entropia; por sua vez, a entropia é uma medida de ausência de estrutura A última observação justifica que os métodos que realizam PP também sejam classificados como métodos que capturam a estrutura dos dados, para lá dos momentos de segunda ordem [45] Em termos de formulação geral, a ACI pode ser considerada como uma variante de PP Na formulação de PP não se assume um modelo generativo dos

47 32 Análise em componentes independentes dados com CI, mas caso este se verifique, obtêm-se as direcções correspondentes a estas CI A negentropia é uma medida (índice) usada em PP na procura das direcções [60] A negentropia reduz a estimação n-dimensional para n estimações a 1 dimensão (escalar), ou seja, para a projecção nos n sub-espaços de 1 dimensão, onde é maximizada Todas as medidas de não normalidade utilizadas na ACI podem ser utilizadas em PP Comparação entre os métodos de estimação A ACI, baseada na não normalidade dos dados, medida pela kurtosis ou pela negentropia possibilita a estimação individual das CI, dado que se procuram máximos de não normalidade para cada projecção a 1 dimensão A utilização da informação mútua ou da máxima verosimilhança não permite a estimação individual, ou seja, todas as CI são estimadas em simultâneo Quando se utilizam as medidas de não normalidade, as estimativas estão sob a constrição de serem incorrelacionadas, o que não se passa quando se usa a informação mútua 27 Operadores de ACI 271 A dificuldade em medir independência Para um conjunto de dados (amostras), determinar a estatística de segunda ordem consiste em calcular a sua matriz de covariância A medição da independência estatística dos dados é mais complexa, dado que a sua definição envolve a fdp A estimação (não paramétrica) da fdp é difícil e computacionalmente complexa A informação mútua é a medida natural da teoria da informação para avaliar independência, mas também obriga ao conhecimento das fdp 272 Operadores O desenvolvimento de algoritmos eficientes para a realização de ACI tem sido objecto de estudo intensivo na última década [45] Dada a dificuldade em medir independência, alguns algoritmos baseiam-se em funções de contraste (contrast functions) [45, 72] Estas funções não medem a independência directamente, mas atingem pontos de inflexão (mínimos/máximos) quando as estimativas constituem solução Um operador de ACI é descrito da seguinte forma: Operador ACI = Função Objectivo + Algoritmo de Optimização A função objectivo ( função de contraste ) consiste no procedimento utilizado para medir independência, ou seja, não normalidade dos dados Ao longo deste capítulo foram

48 27 Operadores de ACI 33 discutidas as seguintes: kurtosis, negentropia, informação mútua e estimação por máxima verosimilhança Em [45] discutem-se as equivalências entre estas funções de contraste e apresenta-se uma comparação experimental entre vários operadores de ACI A escolha da função de contraste condiciona a forma como as CI são estimadas No caso da negentropia e da kurtosis, tem-se estimação dita deflacionária, ou seja, estimação individual das componentes Tem-se ainda que as observações devem ser incorrelacionadas Quando se utiliza a informação mútua, as componentes são estimadas em simultâneo e as observações não necessitam de ser incorrelacionadas O algoritmo de optimização descreve a técnica iterativa utilizada para localizar o(s) extremo(s) da função de contraste Tipicamente é um algoritmo baseado em gradiente, ou baseado num dos métodos de Newton [45] Os métodos de gradiente apresentam convergência linear e mesmo utilizando técnicas de aceleração, verifica-se que convergem mais lentamente do que os métodos de Newton A figura 29 resume alguns operadores de ACI, decompostos em função de contraste e algoritmo de optimização Apresentam-se dois exemplos de operador: infomax (information maximization) [3, 45, 60] e fastica [35, 45, 46] Exemplifica-se o fastica utilizando a negentropia, embora se possa utilizar a kurtosis Em [33] é apresentada uma lista de operadores de ACI e as suas propriedades Enquadramento dos Operadores de ACI Função Objectivo Operador Algoritmo de Optimização Estatística Teoria da Informação Teoria da Estimação Teoria da Optimização Método de Newton Kurtosis Informação Mútua Máxima Verosimilhança Métodos baseados em gradiente Iteração de ponto fixo Negentropia Infomax FastICA Figura 29: Operadores de ACI 273 A necessidade de pré-processamento Em geral, a estimação das CI é simplificada (os algoritmos convergem mais rapidamente) se as observações X possuírem média nula e estiverem branqueadas, isto é: E{X} = 0;

49 34 Análise em componentes independentes C X = cov(x) = E{XX T } = I Na prática, o valor médio (componente DC) também pode ser estimado como uma CI (de distribuição sub-normal) Ao transformar as observações para média nula, tem-se que as CI também têm média nula, como se pode observar pelo modelo ACI da equação (25) Centrar as observações X com vector valor médio m x = E{X} consiste em obter as novas observações: X = X m x A imposição de média nula não afecta a matriz de mistura Após a estimação da matriz de mistura A e das CI S com os dados centrados, repõe-se o valor médio das mesmas: m s = A 1 m x Para realizar o branqueamento dos dados aplica-se uma transformação linear invertível V, de forma que as observações Z = V X tenham matriz de covariância identidade, isto é, sejam incorrelacionadas com variância unitária (para além da média nula): C Z = cov(z) = E{ZZ T } = E{V X(V X) T } = VE{ X X T }V T = I (251) A matriz de covariância das observações X, designada por C X, é simétrica, pelo que os seus vectores próprios são ortogonais entre si e os valores próprios são reais [54, 91] Assim, pode escrever-se: C X = E{ X X T } = EDE T, (252) onde E é uma matriz ortogonal cujas colunas são os vectores próprios normalizados de E{ X X T } e D = diag(d 1,,d n ) é matriz diagonal com os valores próprios de C X O branqueamento é realizado através da transformação linear invertível não ortogonal V = D 1 2 E T (253) Tendo em conta a definição de V e a decomposição em valores próprios, apresentada na equação (252), tem-se C Z = cov(z) = E{ZZ T } = E{V X(V X) T } = E{V X X T V T } = VE{ X X T }V T = (D 1 2 E T )(EDE T )(D 1 2 E T ) T = D 1 2 } E {{ T E} DE} {{ T E} D 1 2 = D 1 2 DD 1 2 = I (254) I I Contudo, V não é a única matriz de branqueamento; qualquer matriz UV em que U é matriz ortogonal conduz ao mesmo resultado A utilidade da operação de branqueamento consiste na transformação da matriz de mistura A, na matriz Ã Juntando as equações (25) e (253) e considerando que as observações têm média nula tem-se Z = V X = VA }{{} S = D 1 2 } {{ E T A} S = ÃS; (255) Ã Ã

50 27 Operadores de ACI 35 dado que C Z = I, I = E{ZZ T } = E{ÃS(ÃS)T } = ÃE{SST } Ã T = } {{ } ÃÃT = I, (256) I pelo que a nova matriz de mistura, Ã, é ortogonal Desta forma, o branqueamento reduz o número de parâmetros a estimar, reduzindo o espaço de pesquisa às matrizes ortogonais Em vez de estimar os n 2 parâmetros (elementos) de uma matriz de mistura genérica n n, é necessário estimar n(n 1) 2 parâmetros, dado que este é o número de graus de liberdade de uma matriz ortogonal Para valores elevados de n, constata-se que se tem cerca de metade dos graus de liberdade face a uma matriz arbitrária O branqueamento é uma forma adequada de reduzir a complexidade do problema da estimação das CI Dado que, após o branqueamento, a matriz de covariância dos dados é diagonal, as estatísticas de segunda ordem estão removidas, permitindo que o operador de ACI foque a sua análise nas estatísticas de ordem superior, necessárias para estimar as CI Em [33], constatou-se que a ausência de branqueamento das observações impossibilita a convergência de alguns operadores de ACI, quando aplicados a imagens No presente trabalho realiza-se a recolha de blocos (observações) sobre a imagem, obtendo-se os dados (amostras) Calcula-se o respectivo valor médio e centram-se os dados Em seguida, a matriz de covariância e a transformada de branqueamento são calculadas sobre os dados centrados É necessário executar este processo para cada conjunto de observações Tomando a opção de utilizar uma transformada de branqueamento, calculada a partir de determinada matriz (fixa) de covariância, não se garante que essa transformada realize branqueamento para todas as observações Exemplo de branqueamento Considerem-se as observações x 1 e x 2 definidas na equação (212), cujas concretizações conjuntas se ilustram na figura 23 Sobre estas observações foi aplicada a transformada de branqueamento apresentada na equação (253) As concretizações conjuntas resultantes (z 1,z 2 ), apresentam-se na figura 210, onde se observa o efeito do branqueamento dos dados Note-se que a distribuição, após branqueamento, consiste numa rotação (e escalamento) da distribuição conjunta das CI originais S 1 e S 2 (ver figura 23) Assim, para definir completamente a rotação basta estimar o valor do ângulo da mesma 8 A figura 210 também ilustra que o branqueamento não é suficiente para efectuar a estimação ACI O branqueamento obtém as CI a menos de uma transformação ortogonal A figura 211 ilustra as fases de pré-processamento e aplicação de operador de ACI, através de diagramas de blocos de todo o processo de estimação 8 Uma matriz de rotação é ortogonal, o que está de acordo com as equações (255) e (256)

51 36 Análise em componentes independentes z 1 z2 (z 1,z 2 ) Figura 210: Concretizações conjuntas das observações x 1 e x 2 da figura 23, após branqueamento Operador ACI X Centragem Branqueamento Pré-processamento A S Análise em Componentes Independentes a) b) c) Z X ~ ^ Figura 211: Diagrama de blocos da ACI; detalhe sobre o pré-processamento Conclui-se esta secção com um exemplo completo da distribuição conjunta das observações ao longo das etapas de processamento, apresentadas na figura 211 As CI S 1 e S 2 são geradas de acordo com a distribuição uniforme no intervalo [0,1], possuindo assim média 1 2 Utilizou-se a matriz de mistura da equação (211) A figura 212 ilustra a evolução ao longo do pré-processamento De acordo com a notação introduzida na figura 211 temos: a) As observações: X b) As observações centradas, com média nula e correlacionadas: X = X m x c) As observações branqueadas (centradas e incorrelacionadas com variância unitária): Z = V X A figura 213 mostra a distribuição conjunta das CI, S, e das CI estimadas, Ŝ, sem e com reposição do valor médio Verifica-se que as componentes são estimadas a menos de um factor de escala, devido à ambiguidade de escalamento, analisada na secção 221 Na figura 212, note-se que a aplicação de determinada transformação ortogonal (rotação)

52 27 Operadores de ACI x 1 x2 x 1 x2 z 1 z2 (x 1,x 2 ) ( x 1, x 2 ) (z 1,z 2 ) Figura 212: Etapas do pré-processamento: observações (x 1,x 2 ); observações centradas ( x 1, x 2 ); observações branqueadas (centradas e incorrelacionadas) (z 1,z 2 ) ŝ 1 ŝ 1 ŝ2 ŝ2 s 1 s2 (s 1,s 2 ) originais (ŝ 1,ŝ 2 ) estimadas (ŝ 1,ŝ 2 ) com reposição de média Figura 213: Distribuição conjunta das CI: originais; estimadas; estimadas com reposição do valor médio sobre as observações branqueadas conduz às CI estimadas, apresentadas na figura 213, após multiplicação por determinado factor de escala (devido às ambiguidades da ACI) 274 O operador fastica Nesta secção apresenta-se o operador ACI, designado fastica [35, 45, 46], utilizado no presente trabalho para extracção das CI de imagens A função de contraste não é especificada à partida; tipicamente utiliza-se a negentropia A optimização baseia-se no método de Newton [45] Seja X o vector com as observações e g i uma das seguintes funções: g 1 (y) = tanh(a 1 y), g 2 (y) = y exp ( y2 2 ), g 3 (y) = y 3, (257) onde a 1 é uma constante O operador fastica para estimação de uma CI designada por w procede da seguinte forma:

53 38 Análise em componentes independentes 1 Remover o valor médio das observações X (centragem) 2 Realizar o branqueamento das observações obtendo Z 3 Escolher (aleatoriamente) um vector inicial w, de norma unitária 4 Fazer w E{Zg(w T Z)} E{g (w T Z)}w, em que g é uma das funções da equação (257) e g a respectiva derivada 5 Normalizar w: w w w 6 Enquanto não convergir, voltar para 4 As acções 1 e 2 constituem o pré-processamento No ponto 4, refere-se a utilização do operador valor esperado; na prática utiliza-se a média amostral A condição de convergência indicada no ponto 6 fica ao critério do utilizador; tipicamente fixa-se o número máximo de iterações a realizar Para a estimação de várias CI, aplica-se este algoritmo sobre vários vectores w 1,w 2,, w n Para impedir que estes vectores convirjam para a mesma CI, é necessário descorrelacionar as componentes entre iterações consecutivas Dado que as observações estão branqueadas, a incorrelação implica ortogonalidade 9 logo, entre iterações consecutivas ortogonalizam-se as estimativas Consoante o método de ortogonalização utilizado, deflacionário ou simétrico, assim se estimam as CI, de forma sequencial (individual) ou simultânea, respectivamente [45] Das propriedades do fastica [46, 48], destacam-se: convergência cúbica, sendo mais rápido do que os algoritmos baseados em gradiente, na maioria das situações; inexistência de parâmetros de aprendizagem (learning rate); a escolha da não linearidade é independente da densidade de probabilidade das CI a estimar; as CI podem ser estimadas individualmente 28 Análise em componentes principais A análise em componentes principais (ACP) [45, 54, 60, 72] é um método estatístico, cujo objectivo é determinar as direcções principais dos dados observados Entende-se como direcções principais, o conjunto de vectores ortogonais, sobre os quais os dados apresentam maior variância O primeiro vector representa a direcção de máxima variância; 9 Tal como se demonstra na equação (223)

54 28 Análise em componentes principais 39 o segundo vector também está disposto segundo a direcção de máxima variância, sob a constrição de ser ortogonal ao primeiro, e assim sucessivamente para os restantes vectores A ACP baseia-se no cálculo dos vectores e valores próprios da matriz de covariância Seja X a matriz com observações e C x = E{XX T } a sua matriz de covariância amostral 10, E = [e 1,,e N ] a matriz ortogonal com os vectores próprios de C x e D = diag(d 1,,d N ) a matriz diagonal com os valores próprios correspondentes Considere-se a transformação ortogonal E sobre X Y = E T X (258) A matriz de covariância de Y é ainda C y = D = diag(d 1,,d N ), pois tendo em conta a equação (252), tem-se C y = E{YY T } = E{E T X(E T X) T } = E{E T XX T E} = E T E{XX T }E = E T cov(x)e = E} {{ T E} DE} {{ T E} = D (259) I I Dado que a matriz de covariância dos dados transformados é diagonal, conclui-se que a ACP serve para efectuar descorrelação (branqueamento) dos dados De facto, de todos os métodos utilizados para realizar o branqueamento, a ACP é a escolha mais comum [45], sendo frequentemente utilizada como pré-processamento para a ACI Note-se que a transformação de branqueamento apresentada em (253) é bastante semelhante àquela apresentada em (258) no contexto da ACP A transformada de Karhunen-Loève (TKL) [54] é obtida através da ACP, quando a dimensão do espaço de componentes principais é igual à dimensão do espaço dos dados originais Para dados com média nula, a matriz de covariância equivale à matriz de autocorrelação A TKL é realizada através dos vectores próprios da matriz de auto-correlação, à semelhança da transformada definida na equação (258), na qual se utilizam os vectores próprios da matriz de covariância 281 Redução da dimensionalidade e ruído nas observações A ACP tem a vantagem de combinar o procedimento de branqueamento com a redução da dimensionalidade dos dados Esta redução, óptima em termos da minimização do erro quadrático é conseguida através da ordenação decrescente dos valores próprios, desprezando (colocando a zero) os vectores próprios correspondentes aos menores valores próprios (que correspondem às direcções menos significativas) Consegue-se desta forma representar vectores m dimensionais com n < m componentes para cada vector minimizando o erro quadrático médio entre os dois 10 C x é simétrica: os seus vectores próprios são ortogonais e os seus valores próprios reais [54, 91]

55 40 Análise em componentes independentes Considere-se o caso em que existem n CI e m observações com m > n; o modelo ACI não se verifica porque a matriz de mistura não é quadrada Neste caso, pode aplicar-se ACP para reduzir a dimensão dos dados de m para n, tornando a matriz de mistura quadrada, de forma que as condições do modelo ACI se verifiquem Caso as observações não tenham ruído, toda a informação está no sub-espaço de dimensão n A ACP obtém essa redução do espaço porque os valores próprios não nulos são os que correspondem ao espaço n-dimensional Caso exista ruído nas observações, os m n valores próprios não são nulos, mas tipicamente têm valores baixos face aos restantes O número de dimensões Na redução de dimensionalidade é necessário fixar o número de dimensões a considerar Geralmente escolhe-se o número de componentes principais que contêm uma percentagem elevada da variância total, por exemplo, 90% da variância Este caso corresponde a obter a dimensão n (< m) do sub-espaço no qual se projecta 90 % da variância 282 Comparação entre ACP e ACI A ACI obtém um conjunto de vectores não ortogonais, ao passo que a ACP obtém sempre vectores ortogonais: nesta o primeiro vector corresponde à direcção de maior variância, o segundo vector é ortogonal a este, e assim sucessivamente A figura 214 ilustra a diferença entre a aplicação de ACP e ACI sobre os mesmos dados As CI S 1 e S 2 foram geradas de acordo com a distribuição uniforme de média nula e variância unitária apresentada na equação (210) A matriz de mistura utilizada é 1 1 A = 2 (260) Neste exemplo, a ACP não consegue separar as fontes Obteve-se a descorrelação das observações: a ACP é um método de descorrelação baseado em estatísticas de segunda ordem, insuficientes para realizar a separação Por sua vez, a ACI ao utilizar estatísticas de ordem superior à segunda, separa as fontes As matrizes de desempenho P ACP = E T A = e P ACI = ŴA =, (261) confirmam a afirmação anterior ACP após ACI Na secção anterior, utilizou-se a ACP como pré-processamento para a ACI Nesta secção analisa-se a ordem inversa, ou seja, a realização de ACP para validar os resultados obtidos

56 28 Análise em componentes principais s 1 s2 (s 1,s 2 ) x 1 x2 (x 1,x 2 ) z 1 z2 ACP (z 1,z 2 ) ŝ 1 ŝ2 ACI (ŝ 1,ŝ 2 ) Figura 214: Comparação ACI/ACP, da esquerda para a direita e de cima para baixo: sinais originais (s 1,s 2 ); observações (x 1,x 2 ); solução ACP (z 1,z 2 ); solução ACI (ŝ 1,ŝ 2 ) pela ACI O procedimento é o seguinte: aplica-se a ACI sobre os dados (as observações X), estimando-se as CI Ŝ e a matriz de mistura Â Geram-se novas observações X n = ÂŜ e aplica-se ACP sobre as mesmas Caso os resultados produzidos pela ACI estejam correctos, a aplicação da ACP sobre as observações X e sobre as observações geradas X n produz os mesmos resultados A figura 215 ilustra esta ideia: [E 1,D 1 ] são as matrizes que contêm os vectores e valores próprios da matriz de covariância das observações X n, ao passo que [E 2,D 2 ] têm o mesmo significado para as observações X ACI X (Observações) A S ACP Síntese X n = AS X n ACP [ E 1, D 1 ] [ E 2, D 2 ] ^ ^ ^ ^ Figura 215: Aplicação conjunta de ACP e ACI para validação da ACI

57 42 Análise em componentes independentes Passa-se a apresentar um exemplo de aplicação deste procedimento Geram-se observações X = [X 1,X 2 ] T a partir de duas CI S 1 e S 2, nas condições da secção 282, com a matriz de mistura da equação (260) A figura 216 mostra as observações X e X n, juntamente com as respectivas componentes principais representando: as observações X n e as rectas definidas pelas colunas da matriz E 1 = [e n1,e n2 ] (aplicação de ACP após ACI); as observações X e as rectas definidas pelas colunas da matriz E 2 = [e 1,e 2 ] (aplicação de ACP sobre as observações) x n1 xn2 (x n1,x n2 ) e vectores e n1 e e n2 x 1 x2 (x 1,x 2 ) e vectores e 1 e e 2 Figura 216: ACP sobre as observações X n, geradas pelo modelo ACI estimado e respectivas componentes principais; ACP sobre as observações X e respectivas componentes principais As matrizes de mistura estimada Â e de desempenho P da estimação ACI são Â = e P = Face à matriz de mistura original apresentada na equação (260), note-se a troca da ordem e de sinal das colunas da matriz Â, o que é confirmado pela matriz de desempenho P Estas são as ambiguidades do modelo ACI, apresentadas na secção 221, as quais não influenciam os resultados obtidos por ACP Na ACP, os valores e vectores próprios são exactamente iguais, na resolução numérica considerada, E 1 = E 2 = , D 1 = D 2 = , tal como se pode constatar pela observação da figura Relação com as wavelets Nesta secção aborda-se a relação entre a ACI e a transformada de wavelets [29, 45, 94] Apresentam-se os conceitos básicos sobre as wavelets referindo-se a sua relação com as

58 29 Relação com as wavelets 43 funções de base de Fourier Comparam-se as wavelets com as CI de imagem A ideia da transformação de wavelets é decompor e analisar um sinal (ou imagem) de acordo com a escala (multi-resolução) Analisando um sinal numa janela de grande dimensão, sobressaem as características globais Quando se efectua a análise sobre janelas de pequena dimensão, as características mais finas (detalhe) tornam-se mais evidentes 291 A base ortogonal de wavelets Uma das diferenças entre a base ortogonal de Fourier e a base ortogonal de wavelets 11 é que esta não tem um conjunto fixo e único de funções, existindo várias famílias de wavelets Cada família é gerada a partir de uma função protótipo designada por mother wavelet, Φ(x) A função protótipo, Φ(x), é sucessivamente deslocada e escalada para obter as restantes funções de base A wavelet com escala s e deslocamento l é dada por Φ (s,l) (x) = 2 s 2 Φ(2 s x l) Todas as funções base têm a mesma energia, o que é assegurado pelo factor 2 2 s Estabelecida a wavelet protótipo, conhecem-se todas as funções de base É possível aproximar qualquer função f(x) combinando linearmente as funções de base A figura 217 exemplifica a wavelet protótipo de Daubechies Esta figura foi gerada com o Wavelab 12 através do comando: MakeWavelet(2,-4, Daubechies,4, Mother,2048) 008 Protótipo Daubechies Figura 217: Exemplo de wavelet protótipo de Daubechies [29, 92] 292 Localização tempo/frequência A transformada de Fourier decompõe um sinal determinando a contribuição de cada frequência na formação do mesmo As funções da base de Fourier estão localizadas na 11 Uma base de wavelets não é obrigatoriamente ortogonal 12

59 44 Análise em componentes independentes frequência (ocupam um ponto no domínio da frequência) e não possuem localização no domínio do tempo (têm suporte IR): só há resolução no domínio da frequência As wavelets possuem duração temporal finita e ocupam determinada largura de banda, ou seja, têm resolução no tempo e na frequência As wavelets têm espectro do tipo passabanda [29] A análise de sinal de acordo com a escala relaciona-se da seguinte forma com a localização no tempo e na frequência: sinais de alta frequência correspondem no domínio do tempo (espaço) a sinais de duração pequena; procura-se aqui analisar o detalhe; sinais em que predominam baixas frequências, têm no domínio do tempo (espaço) durações elevadas, representando as características globais As wavelets têm duração temporal variável, relacionado com a resposta em frequência Por exemplo, as wavelets de alta frequência têm duração temporal pequena Por outro lado, as wavelets de baixa frequência têm duração temporal superior e menor largura de banda A short time fourier transform (STFT) [26, 94], consiste em aplicar a transformada de Fourier sobre determinado sinal multiplicado por uma janela temporal de dimensão finita Ao contrário da transformada de Fourier, na STFT há resolução no tempo e na frequência Esta resolução é fixa para todo o plano tempo/frequência A figura 218 ilustra a resolução no tempo e na frequência, comparando qualitativamente a STFT com as wavelets f Short Time Fourier Transform f Wavelet t t baixa frequência média frequência alta frequência Figura 218: Resolução tempo/frequência: STFT; wavelet As diferentes famílias de wavelets (por exemplo Daubechies, Coiflet, Haar) apresentam diferentes compromissos entre a resolução no tempo e na frequência [29, 45, 94]

60 210 Extensões ao modelo básico ACI Codificação com distribuição esparsa O sinal a analisar é representado pela combinação das funções de base (wavelets) Esta representação é tipicamente esparsa, isto é, constituída por poucos componentes de elevada energia e muitos de reduzida energia As técnicas de compressão de imagem JPEG2000 [92], EZW (embedded zerotree wavelet) [90] e SPIHT (set partitioning in hierarchical trees) [86] exploram esta característica da transformada de wavelets 294 Relação entre transformadas típicas Na codificação baseada em transformada, o sinal/imagem a codificar é previamente transformado Tipicamente adopta-se a representação do sinal sobre uma base ortonormada e manipulam-se os coeficientes da projecção do sinal sobre cada função de base A transformada realizada por matriz ortogonal pode ser vista como uma rotação dos eixos de representação do sinal O novo sistema de eixos constitui o domínio da transformada Nesta secção relaciona-se a ACI com outras transformadas A ACP (TKL) é uma transformada adaptada aos dados, baseada em estatísticas de segunda ordem É óptima no sentido de compactação de energia nos coeficientes obtidos Por sua vez, na transformada discreta do co-seno (TDC) 13 os sinais de base (sinusóides) são fixos e independentes dos dados A TDC aproxima a ACP em determinados casos de correlação dos dados e quando o tamanho de bloco tende para infinito [54] A ACI extrai as CI dos dados, utilizando estatísticas de ordem superior à segunda, obtendo um sistema de eixos não ortogonal (sistema de separação) Obtém-se uma base ortogonal utilizando procedimentos de ortogonalização As wavelets constituem uma base independente dos dados, assente no conceito de análise de acordo com a escala A semelhança visual entre as wavelets e as CI de imagens naturais [33, 45] constituem uma das motivações para a realização do presente trabalho A tabela 21 sintetiza as propriedades da ACP, ACI, TDC e transformada de wavelets A ACP e a ACI são dependentes dos dados, enquanto a TDC e a transformada de wavelets são independentes dos dados A norma de compressão de imagem JPEG utiliza a TDC [65], e a JPEG2000 utiliza a transformada de wavelets [92] 210 Extensões ao modelo básico ACI Ao modelo apresentado na equação (25) foram propostas as seguintes extensões: com ruído [45]; não linear [45, 72]; multidimensional [6]; contextual [60, 74]; sobre-completa [45, 60]; independent subspace analysis (ISA) [40, 41, 45] e topographic independent component 13 DCT - Discrete cosine transform

61 46 Análise em componentes independentes Transformada Propriedades ACP Utiliza estatística de 2 a ordem (TKL) Descorrelaciona os dados Óptima do ponto de vista da compactação de energia e minimização do erro quadrático É ortogonal ACI Utiliza estatística de ordem superior à segunda Maximiza a independência estatística dos dados Resolução no tempo e na frequência Não é ortogonal (não minimiza o erro quadrático) TDC Aproxima ACP para imagens altamente correlacionadas [54] (DCT) Decomposição nas componentes de frequência Resolução na frequência Compactação de energia para imagens Wavelets Análise de acordo com a escala Resolução no tempo e na frequência Os coeficientes obtidos têm distribuição esparsa Tabela 21: Relação entre ACP (TKL), ACI, TDC e transformada de wavelets analysis (TICA) [42, 43, 44, 45] As duas últimas foram introduzidas para modelar a dependência estatística residual que existe entre as CI de imagens A extensão do modelo para base sobre-completa, utilizada no presente trabalho, é descrita na próxima secção 2101 ACI sobre-completa Se o número de observações n é inferior ao número de CI m então o sistema de mistura não é invertível Mesmo conhecendo a matriz de mistura A, as CI são irrecuperáveis, porque existe perda de informação no processo de mistura Esta situação é designada de ACI sobre-completa O número de vectores (colunas) a i é superior à dimensão do espaço de X, constituindo uma base dita sobre-completa Nesta situação existem dois problemas: como estimar a matriz de mistura e, dado que esta não é invertível, como obter as CI Em [45] são apresentadas soluções para ambos: A aplicação do critério ML para a estimação da matriz de mistura Esta abordagem é computacionalmente intensiva por não ter forma analítica fechada, excepto no caso de distribuição normal o qual não tem interesse prático em ACI; por este motivo é necessário utilizar um método de optimização, por exemplo, baseado em gradiente

62 210 Extensões ao modelo básico ACI 47 A utilização da matriz pseudo-inversa da matriz de mistura para obter as CI: S = A T (AA T ) 1 X Esta técnica tem problemas de robustez em presença de ruído Utilização do operador fastica Realizar ACI sobre-completa, consiste em estimar a matriz de mistura cujo número de colunas é igual ao número de CI, superior ao número de observações Nesta situação, a matriz de mistura estimada pelo fastica não é quadrada, não podendo ser ortogonal como acontece no modelo básico ACI e a incorrelação (equivalente a ortogonalidade para dados branqueados) é substituída por quase incorrelação [49] (que por sua vez corresponde a quase ortogonalidade) À semelhança da ortogonalização, esta é obtida por um processo sequencial (deflacionário) ou simétrico Este procedimento é realizado entre iterações consecutivas do operador fastica para uma CI (ver secção 274) Sejam w i as estimativas das CI A quase ortogonalização sequencial baseia-se no procedimento apresentado na equação (262) o qual consiste em subtrair a cada vector w p+1 uma proporção das projecções em todos os vectores w j, j {1,,p}, seguindo-se a respectiva normalização: p 1 w p+1 w p+1 α wp+1w T j w j j=1 2 w p+1 w p+1 w p+1 (262) A constante α determina a quantidade de quase ortogonalidade (α = 1 é ortogonalização perfeita) Em [39, 45] constata-se que em espaços de dimensão 64, 01 α 03 produz resultados adequados Na quase ortogonalização simétrica, apresentada na equação (263), nenhum vector é favorecido em relação a outros e não existem erros cumulativos, tal como acontece no processo sequencial [37, 46] Considerando W como a matriz cujas colunas são as CI estimadas, o procedimento inclui dois passos: 1 W 3 2 W 1 2 WWT W 2 Normalizar todas as colunas de W (263) Note-se que para espaços de dimensão elevada existem muitos vectores quase ortogonais entre si Em [39] é apresentada a variante do operador fastica que utiliza indistintamente um destes métodos de quase ortogonalidade Esta variante, utilizada no presente trabalho, tem as mesmas propriedades do fastica básico diferindo no processo de ortogonalização Em [45] discute-se a utilização destes dois processos de ortogonalização, quando se aplica ACI sobre imagens naturais Constata-se que ambos os processos produzem aproximadamente os mesmos resultados e que a aplicação do operador fastica sobre-completo

63 48 Análise em componentes independentes produz resultados semelhantes aos do fastica básico e aos de outros operadores de ACI O modelo sobre-completo ACI tem sido utilizado nas seguintes aplicações: Na extracção de características de imagens, em [39] Na separação de sinais de fala e música, em [60], com três CI (fontes) e duas observações, utilizando um operador de ACI baseado em gradiente e assumindo que os sinais têm distribuição super-normal Mostram-se dois exemplos: mistura de três sinais de fala e duas observações; mistura de dois sinais de fala e um de música com duas observações Ambas as separações são realizadas com sucesso 211 Aplicação a imagem Qualquer imagem I pode ser descrita pela combinação linear de imagens de base a i O valor de cada pixel, com coordenadas (x,y) é decomposto na soma da contribuição ponderada das imagens de base a i pelos coeficientes s i, estatisticamente independentes, n I(x,y) = a i (x,y)s i (264) i=1 Bell e Sejnowski em [4] assumem que o modelo ACI, evidenciado na equação (264), se aplica a imagem Graficamente, tem-se a decomposição da imagem na forma ilustrada na figura 219 = s 1 + s s n a 1 a 2 a n Figura 219: Descrição gráfica da aplicação do modelo ACI sobre imagem As colunas da matriz A são as funções de base (as CI) e o vector s contém os coeficientes estatisticamente independentes s i Agrupando os pixels de um bloco da imagem I na forma de vector x = [x 1,x 2,,x M ] T, a equação (264), na forma matricial, resulta x = As (265) No caso de utilização de base sobre-completa (redundante), a matriz A deixa de ser quadrada (apresenta número de colunas superior ao de linhas) e o vector s tem dimensão

64 211 Aplicação a imagem 49 superior à do vector x Cada bloco de imagem passa a ser descrito através de um número de coeficientes superior à dimensão do espaço As componentes s i constituem uma representação dos dados aplicável em, por exemplo, compressão, remoção de ruído e reconhecimento de padrões Neste trabalho explora-se a compressão com bases completa, sobre-completa e incompleta Em [4] conclui-se que as edges, ou seja, estruturas localizadas no espaço e na frequência com diferentes orientações, constituem as CI de imagens naturais O operador ACI utilizado foi o infomax [3] Estes resultados foram confirmados por Lee [60] através do algoritmo extended-infomax [60, 61] e por Hyvärinen e Oja [45], utilizando o fastica A figura 220 mostra uma base de CI (as colunas da matriz A) extraída a partir de um conjunto de imagens naturais, através do operador fastica; para o mesmo conjunto de imagens apresentam-se também as respectivas componentes principais Na tabela 22 ACI ACP Figura 220: Análise de imagem natural: componentes independentes e componentes principais, usando blocos com resolução 8 8 apresentam-se os valores mínimo, máximo, médio, mediana e desvio padrão da kurtosis de cada componente independente e principal Verifica-se que existem CI com kurtosis elevada e portanto apresentam distribuição fortemente super-normal A figura 221 mostra o histograma dos valores da kurtosis das CI e das componentes principais A maioria das componentes independentes e principais possui distribuição subnormal As CI apresentam maior dispersão nos valores da kurtosis Em [45] constata-se que o número de CI para imagem é potencialmente infinito, porque iniciando os operadores com diferentes estimativas iniciais, estes convergem para diferentes resultados (tendo em conta as ambiguidades da ACI) Estes resultados, embora analiticamente difer-

65 50 Análise em componentes independentes Mínimo Máximo Média Mediana Desvio Padrão ACI ACP Tabela 22: Valores da kurtosis das componentes independentes e principais de imagens naturais (da figura 220) 14 ACI 7 ACP 12 6 Ocorrências Ocorrências Kurtosis Kurtosis Figura 221: Histograma da kurtosis das componentes independentes e principais entes, são qualitativamente (visualmente) semelhantes em termos de características Este facto também foi constatado em [33], utilizando diversos operadores de ACI Bell e Sejnowski verificaram também que utilizando diferentes estimativas iniciais para as CI, obtinham resultados analiticamente diferentes, mas visualmente semelhantes Resultados idênticos são reportados em [60] Em [69] foi aplicada uma rede neuronal que maximiza a esparsidade da representação de imagens naturais Verificou-se que as características obtidas são locais e orientadas, de forma semelhante aos receptive fields do córtex visual primário, constituindo resultados visualmente próximos dos de Bell e Sejnowski 2111 Propriedades estatísticas Após a estimação da matriz A, obtém-se a sua inversa W, cujas linhas constituem os filtros ACI Em [4] os filtros W são extraídos directamente Os filtros foram aplicados, com sucesso (comparativamente com ACP), no reconhecimento de faces [2] e leitura de lábios [60] A aplicação dos filtros W sobre um bloco de imagem x consiste em realizar a operação v = Wx,

66 211 Aplicação a imagem 51 obtendo-se o vector de coeficientes v Este vector contém coeficientes cuja distribuição é esparsa (super-normal), ou seja, com kurtosis positiva A figura 222 exemplifica vectores de coeficientes com distribuição esparsa e compacta Estas distribuições têm em comum o facto de apenas um sub-conjunto de coeficientes possuir energia significativa, diferindo na forma como os coeficientes significativos se distribuem dentro do vector que os contém k k Compacta Esparsa Figura 222: Exemplos de distribuição compacta e esparsa 2112 Comparação com wavelets 2D e funções de Gabor As wavelets 2D são localizadas no espaço e na frequência [45] Têm as seguintes propriedades: todas têm a mesma fase; visualmente têm aspecto semelhante em diferentes escalas; têm apenas duas direcções: vertical e horizontal Relativamente às CI, verifica-se que estas também exibem as mesmas estruturas em diferentes escalas, ou seja, a frequência e a área cobertas por cada componente são dependentes entre si As CI têm mais graus de liberdade, porque têm diferentes orientações e por consequência diferentes fases A orientação destas estruturas é descrita fundamentalmente pelo seu espectro de fase [60] A fase do espectro contém informação visualmente mais relevante do que o módulo do espectro [23, 54, 70] Os métodos baseados na correlação tal como a ACP são insensíveis à fase, apenas são sensíveis à potência (variância) Existem extensões das wavelets tais como as curvelets [5, 18], wedgelets [17] e beamlets [19], que estão mais próximas das CI As funções Gabor 2D são obtidas através do produto de uma janela b(x, y) (tipicamente gaussiana) modulada por ondas sinusoidais de frequência w o ao longo da direcção θ com duas fases: φ = 0 e φ = π, obtendo-se 2 b θ,φ (x,y) = b(x,y) cos(w o (x cos(θ) + y sen(θ)) + φ)

67 52 Análise em componentes independentes Estas funções podem ser analisadas como wavelets com diferentes orientações, possuindo resolução no tempo e na frequência Por escalamento (s) e translação (u, v) definem-se os elementos g λ (x,y) = 1 s b θ,φ ( x u s, y v ) s Através do conjunto de parâmetros {θ,φ,s,u,v}, definem-se todos os elementos da base A imagem é analisada em diferentes resoluções/frequências, daí o nome da técnica: análise multi-resolução, em contraste com a análise de Fourier que tem resolução apenas no domínio da frequência

68 Capítulo 3 Algoritmos de pesquisa de projecções 31 Introdução Uma base diz-se sobre-completa se o número de vectores que a constitui é superior à dimensão do espaço gerado Consequentemente, uma base sobre-completa não é ortogonal A decomposição de funções numa base sobre-completa tem sido alvo de crescente interesse nos últimos anos Na codificação, usando bases sobre-completas, a distribuição dos coeficientes tende a ser compacta ou esparsa, o que é favorável à compressão Uma base sobre-completa designa-se por dicionário [28, 64] As bases ortogonais e ortonormadas constituem casos particulares de dicionários Seja H um espaço de Hilbert, de dimensão N, em que a norma de um vector x H é definida como x = < x,x >, onde < x,x > representa o produto interno do vector x consigo próprio Seja G = {g 1,,g N }, uma base ortonormada no espaço H A decomposição de x sobre a base G é única N x = α i g i = α 1 g 1 + α 2 g α N g N, (31) i=1 com coeficientes de projecção ortogonal α i, tais que α i = < x,g i > < g i,g i > = < x,g i > g i 2 =< x,g i > Considerando o dicionário D = {g 1,,g M }, M > N e g i = 1, i {1,,M}, a decomposição do vector x não é única Define-se a aproximação (ɛ,l) [14] como a aproximação de um vector x, através de x, utilizando L termos, produzindo erro quadrático ɛ infinitesimal: L ɛ = x x 2 = x α i g i 2, ɛ 0 (32) i=1

69 54 Algoritmos de pesquisa de projecções Sobre um dicionário, verificar se a aproximação (ɛ,l) existe, é um problema NP (nondeterministic polynomial) completo [14, 64] porque a redundância provoca explosão combinatória A aproximação óptima com erro ɛ [14] é definida como aquela que para um dado erro quadrático fixo ɛ, definido na equação (32), utiliza o número mínimo de termos (L) Sobre um dicionário, realizar a aproximação óptima com erro ɛ é NP-hard [14, 64] Estas dificuldades de aproximação conduziram ao desenvolvimento de duas técnicas sub-óptimas para contornar a complexidade [75]: pesquisa exaustiva para encontrar a solução exacta para uma versão restrita do problema; esta aproximação é seguida pela quantização vectorial [27] e pelo algoritmo best-basis [11]; utilização de algoritmos iterativos greedy designados de algoritmos de pesquisa de projecções (APP), para aproximar a solução óptima do problema geral [14] O matching pursuit (MP) [64] e as suas variantes são algoritmos da segunda classe, constituindo um caso particular da técnica estatística projection pursuit [31], referida na secção 263 O MP foi introduzido em 1993 para sinais uni-dimensionais, sendo posteriormente aplicado a imagens [23, 63, 83]; neste caso, os dicionários tipicamente utilizados são constituídos por funções de Gabor 2D, realizando análise multi-resolução da imagem, à semelhança de uma base de wavelets 2D, tal como discutido na secção 2112 Em [23], utilizam-se dois tipos de dicionários baseados em funções de Gabor 2D O desempenho destes dicionários é comparado entre si, com e sem quantização dos coeficientes de projecção Em [83], utilizam-se convolutional splines como funções de base e efectua-se codificação de imagem Em [81], foi utilizado um dicionário sobre-completo híbrido com ACI, ACP e ACS (análise em componentes simétricas) A introdução destas várias componentes no mesmo dicionário justifica-se pelas características do SVH (sistema visual humano) Aplicou-se MP sobre esse dicionário e explorou-se a sua capacidade de representação de imagem sem realizar quantização nem codificação entrópica Em [96], aplica-se MP na extracção de características com vista à detecção de micro-calcificações em imagens de mamografia O algoritmo MP foi utilizado em aplicações de transmissão vídeo a baixo débito binário (low bit rate) [67], devido à capacidade de concentração de energia num pequeno número de coeficientes A aplicação ao problema do reconhecimento de faces é apresentada em [98] Também foi aplicado à localização e identificação de faces [78] A ACI quando aplicada a imagens naturais produz diversas componentes com diferentes escalas (resoluções), tal como visto na figura 220, à semelhança de wavelets 2D e de funções de Gabor 2D Portanto é expectável que a aplicação de MP sobre um dicionário (ou base) de CI produza codificações de imagem indicadas para compressão

70 32 Matching pursuit 55 Nas próximas secções apresenta-se o MP e duas variantes: OMP (orthogonal matching pursuit) [14, 15, 73] e HRP (high resolution pursuit) [52], utilizadas no presente trabalho Apresenta-se ainda uma terceira variante a título de referência e justifica-se a sua não utilização Este tipo de algoritmos constituem uma abordagem diferente da transformada ortogonal São algoritmos iterativos e computacionalmente mais pesados do que uma transformada ortogonal; designam-se por algoritmos greedy, porque em cada iteração procuram minimizar a energia do resíduo, ou seja, aproximar o sinal original, o mais rapidamente possível, de acordo com uma medida de semelhança Começa-se por apresentar o MP e a estrutura comum a todos os algoritmos Em seguida, apresentam-se as variantes de MP, descrevendo a medida de semelhança utilizada, dado que esta é a diferença fundamental entre os algoritmos 32 Matching pursuit O matching pursuit (MP) foi introduzido em 1993 [64], para sinais uni-dimensionais, com o objectivo de realizar representações com resolução no tempo e na frequência Procura aproximar, iterativamente, determinado sinal através de combinação linear dos elementos que constituem o dicionário Em cada iteração, é seleccionado o elemento do dicionário e o respectivo coeficiente de projecção que mais contribui para a aproximação ao sinal original Obtém soluções sub-óptimas que aproximam a solução óptima Seja D um dicionário com M vectores unitários, sobre um espaço de Hilbert com dimensão N: D = {g 1,,g M }, M > N e g i = 1, i {1,,M} Seja f a função (vector) a projectar sobre o dicionário D O MP começa por projectar f sobre todos os vectores do dicionário e selecciona o vector g δ0 D que maximiza o valor absoluto do produto interno, sendo esta a medida de semelhança utilizada pelo MP: δ 0 = arg max < f,g δ > (33) δ {1,,M} De seguida, calcula-se o resíduo R f, subtraindo a f, a projecção no vector escolhido Obtém-se o vector residual, a utilizar nas próximas iterações, depois de ter aproximado f na direcção de g δ0 : R f = f < f,g δ0 > g δ0 (34) A função f passa a ser escrita na forma f = < f,g δ0 > g δ0 + R f (35) Tendo em conta que R f e g δ0 são ortogonais, tem-se f 2 = < f,g δ0 > 2 + R f 2 R f 2 = f 2 < f,g δ0 > 2, (36)

71 56 Algoritmos de pesquisa de projecções verificando-se que a redução da norma (energia) do resíduo é directamente proporcional ao valor de < f,g δ0 > O MP procede iterativamente, decompondo o resíduo R f sobre o dicionário D, escolhendo os vectores e os coeficientes de projecção de acordo com a equação (33) Designando por R 0 f = f o resíduo na iteração 0 e por R n f o resíduo na iteração n ( 0), generaliza-se a equação (35) obtendo-se R n f = < R n f,g δn > g δn + R n+1 f, em que g δn e R n+1 f são ortogonais, pelo que se verifica A decomposição da função f toma a forma R n f 2 = < R n f,g δn > 2 + R n+1 f 2 f = N 1 n=0 < R n f,g δn > g δn + R N f, onde Rf N é o resíduo de f após N iterações De forma análoga à utilizada na equação (36) deduz-se que a energia da função f é dada por f 2 = N 1 n=0 < R n f,g δn > 2 + R N f 2, onde o termo R N f 2 converge para zero Desde que o dicionário seja pelo menos completo, a norma do resíduo decresce exponencialmente com o número de iterações [14, 64, 97] Em geral, não é possível obter aproximações com resíduo de energia nula, porque, devido à não ortogonalidade dos elementos do dicionário, reintroduzem-se componentes em direcções exploradas anteriormente No entanto, os primeiros elementos do dicionário a serem escolhidos pelo MP estão próximos da ortogonalidade como se demonstra em [14] Estes primeiros elementos da expansão são designados de coherent structures, ou seja, as componentes do sinal que são bem aproximadas pelos elementos do dicionário Em espaços de dimensão finita, o MP não garante convergência com energia de erro infinitesimal [14] Actuando sobre base não ortogonal (não sendo necessariamente sobre-completa), nas primeiras iterações o MP concentra mais energia do que a TKL a qual é óptima em termos de compactação de energia nos primeiros N coeficientes [28, 54] Após este ganho nas primeiras iterações (motivador do trabalho apresentado em [23]), devido à natureza não ortogonal da base, o MP passa a concentrar menos energia do que a TKL Face à TKL e às transformadas ortogonais utilizadas neste trabalho, o MP apresenta maior complexidade 321 Inhibition method O inhibition method (IM) [76] é uma variante do MP que consiste em actualizar mais do que um coeficiente por iteração, se estes correspondem a elementos ortogonais ou quase

72 33 Matching pursuit ortogonal 57 ortogonais Quando aplicado a imagens naturais, converge mais rapidamente do que o MP, produzindo expansões aproximadamente com o mesmo número de coeficientes e erro de reconstrução idêntico [76] O IM é útil quando a dimensão do dicionário é elevada (o dicionário utilizado em [76] é constituído por funções de Gabor 2D, sendo 162 vezes sobre-completo e preparado para imagens de dimensão ) Este algoritmo não foi utilizado no presente trabalho dada a dimensão dos dicionários: utilizaram-se dicionários de dimensão até quatro vezes a dimensão do espaço 33 Matching pursuit ortogonal O MP não garante convergência, com resíduo de energia nula, em espaços de dimensão finita Isto deve-se à escolha de vectores não ortogonais nas sucessivas iterações, introduzindo no resíduo R f componentes sobre vectores previamente seleccionados Este problema é resolvido através de ortogonalização de Gram-Schmidt (GS) entre o vector escolhido na iteração n ( 1), g δn, e os seleccionados anteriormente, obtendo-se o vector u n = g δn sendo este normalizado em seguida n 1 p=0 < g δn,u p > u p, (37) u n u n u n, (38) e tendo em conta que u 0 = g 0 (vector unitário) A projecção realiza-se sobre o vector u n, e o algoritmo procede iterativamente tal como o MP O elemento g δn é escolhido com o mesmo critério utilizado no MP, indicado na equação (33) Este algoritmo designase por orthogonal matching pursuit (OMP) [14, 15, 73] Ao contrário do MP, garante convergência com número finito de iterações igual ou inferior à dimensão do espaço 1, devido à ortogonalização, mas apresenta complexidade computacional muito superior Em [14] demonstra-se que, nas primeiras iterações da expansão, o OMP não é significativamente superior ao MP, porque os primeiros vectores seleccionados tendem a ser ortogonais Em [73], apresenta-se uma versão recursiva do OMP Devido ao significativo aumento da complexidade face ao MP, o OMP não é muito utilizado em aplicações práticas No capítulo 4 apresentam-se resultados comparativos destes métodos 1 Em espaços de dimensão finita

73 58 Algoritmos de pesquisa de projecções 34 High resolution pursuit O algoritmo high resolution pursuit (HRP) [52] apresenta-se como alternativa aos métodos anteriores, MP e OMP É uma versão melhorada do MP que pretende contornar os problemas deste algoritmo (greedy) Em cada iteração, dá-se ênfase à aproximação local face à global, procurando obter codificações com distribuições esparsas e significado físico O HRP tem complexidade ligeiramente superior à do MP Em [52, 75] constatou-se que o MP não se adapta a sinais uni-dimensionais com características detalhadas e próximas A minimização da energia do resíduo sacrifica a adaptação local em favor da global Verificam-se situações em que o MP introduz artefactos no resíduo, inexistentes no sinal original que as sucessivas iterações não conseguem eliminar [9, 52, 75] O algoritmo basis pursuit (BP) [10] decompõe uma função de forma a minimizar a norma L 1 (ou seja, a soma dos valores absolutos) dos coeficientes da expansão Obtém decomposições esparsas com significado físico mas é computacionalmente complexo O objectivo no HRP é obter, com a mesma complexidade do MP, representações com significado físico como no BP Para tal, constrói-se o dicionário separando elementos de escala fina (finer scale) e escala grosseira (coarser scale) Cada elemento de escala grosseira é formado a partir de uma combinação linear de elementos de escala fina Para além do dicionário, existe uma estrutura de dados com esta informação, isto é, para cada elemento de escala grosseira indica a sua família (os elementos de escala fina que o aproximam ou igualam, através de combinação linear) A família dos elementos de escala fina é o conjunto vazio O HRP utiliza a medida de semelhança, S(f,g δ ) = m(f,g δ )s(f,g δ ), (39) com < f,g i > s(f,g δ ) = min i I δ < g i,g δ >, 1, se <f,g i> > 0, <g i,g δ > i I δ, m(f,g δ ) = 1, se <f,g i> < 0, <g i,g δ > i I δ, 0, caso contrário, (310) onde f é a função a representar e I δ é a família do elemento de escala grosseira g δ O denominador de s(f,g δ ) é factor de normalização fazendo S(g δ,g δ ) = 1 O termo m(f,g δ ) visa que funções oscilatórias apresentem semelhança zero com elementos de escala grosseira Pretende-se, em cada iteração, escolher o elemento de escala fina que melhor aproxima o resíduo, só seleccionando elementos de escala grosseira quando estes são muito

74 35 Complexidade: número de operações 59 idênticos ao resíduo Designando por Rf n o resíduo na iteração n, o elemento do dicionário D escolhido nessa iteração, g δn, é aquele que maximiza o valor absoluto da medida de semelhança S(Rf,g n δ ): δ n = arg max δ {1,,M} S(Rn f,g δ ) (311) O restante procedimento iterativo é semelhante ao apresentado para MP e OMP Em [52], demonstra-se que caso o dicionário seja completo, o HRP produz resíduos cujas normas diminuem exponencialmente A construção do dicionário é o aspecto crítico da utilização do HRP [52, 75] 341 Critérios de construção do dicionário No presente trabalho foram utilizados três critérios de construção do dicionário (ou base), a utilizar pelo HRP, apresentados na tabela 31 (considera-se que as CI estão normalizadas) Dicionário HRP Escala Fina Escala Grosseira Método 1 GS sobre as CI CI Método 2 ACP sobre as CI CI Método 3 CI Combinação linear das CI Tabela 31: Critérios de construção do dicionário para o HRP Nos métodos 1 e 2, a aplicação do procedimento de Gram-Schmidt e ACP garante que cada elemento da escala grosseira é combinação linear dos elementos de escala fina Os elementos de escala fina formam uma base ortonormada onde os elementos de escala grosseira são representados sem erro de projecção No terceiro método, as CI são os elementos de escala fina Cada elemento de escala grosseira Φ i é obtido através de combinação linear de duas CI, C i e C i+1, seguida da respectiva normalização Φ i = C i + C i+1 C i + C i+1, (312) sendo este o critério que produziu os melhores resultados, no presente trabalho O HRP foi aplicado a sinais uni-dimensionais [51, 52, 53] Neste trabalho é utilizado na codificação de imagem 35 Complexidade: número de operações Nesta secção avalia-se a complexidade computacional de codificação e descodificação dos APP apresentados Compara-se a complexidade destes algoritmos entre si e com a com-

75 60 Algoritmos de pesquisa de projecções plexidade de transformadas ortogonais A complexidade é avaliada pelo número de multiplicações e divisões escalares realizadas na codificação e descodificação de um bloco de imagem Seja N a dimensão do espaço (o número de pixels de cada bloco de imagem) e M o número de vectores normalizados que constituem a base (matriz N M) A relação entre N e M define o tipo de base: M = N base completa; M < N base incompleta; M > N base sobre-completa Codificação de um bloco MP - Por cada iteração, no algoritmo MP, efectuam-se M produtos internos entre vectores de dimensão N, o que resulta num total de MN produtos escalares Considerando que são realizadas L iterações na codificação de um bloco, então no total são realizadas LM N multiplicações escalares OMP - Para o OMP, ao número de multiplicações escalares do MP, acresce o número de multiplicações e divisões escalares relativas aos procedimentos de ortogonalização e normalização, apresentados nas equações (37) e (38) Analisando a equação (37), na parcela que contém o somatório, realiza-se o cálculo de um produto interno entre vectores de dimensão N e o produto de uma constante por um vector de dimensão N, os quais contabilizam 2N multiplicações escalares Considerando a normalização do vector, sem contabilizar o número de operações no cálculo da raiz quadrada, tem-se um produto interno com N operações ( u p = < u p,u p >), seguido de N divisões escalares ( ) u n u n, contabilizando assim 2N operações Em L ( 2) iterações há L i=2 (4N + (i 2)2N) operações, devido à normalização e ao procedimento de ortogonalização, na codificação de cada bloco O número total de operações é MN, L = 1 OMP Cod = LMN + L i=2 (4N + (i 2)2N), L 2 (313) HRP - Seja N c o número de elementos de escala grosseira e L i a dimensão da família do elemento de escala grosseira g i, com 1 i N c Numa iteração de HRP, ao número de produtos da iteração de MP, acresce o número de operações relativas à análise em escala fina e grosseira Assumindo que os produtos internos < g i,g j >, i,j {1,,M} entre todos os vectores da base estão previamente calculados 2 e analisando a equação (310), tem-se o total de N c i=1 L i divisões por cada iteração, seguida de M multiplicações escalares (termo m(f,g δ )s(f,g δ )) O número total de operações é LMN + LM + L N c i=1 L i = L(MN + M + N c i=1 L i ) 2 A matriz M M que contém estes produtos internos designa-se por matriz de Gram [14]

76 35 Complexidade: número de operações 61 Numa base ortonormada (ortogonal e normalizada), com dimensão M N, são necessários MN produtos escalares para a codificação de um vector de dimensão N A figura 31 mostra o número de operações realizado pelos APP na codificação de um bloco de imagem com N = 64 pixel, em função da dimensão da base M {16,,128} No gráfico da esquerda consideram-se cinco iterações (coeficientes) L = 5, enquanto que no gráfico da direita se tem L = 10 Apresenta-se como termo comparativo o número de operações sobre base ortogonal (BO) com dimensão a variar entre 16 e 64 (dimensão do espaço), utilizando cinco e dez coeficientes Para o HRP, considerou-se que o número de elementos de escala grosseira N c é 25 e a dimensão da família de cada elemento de escala grosseira é L i = 2 (método 3, secção 341) x 10 4 L=5 iterações x 10 4 L=10 iterações Número de operações MP OMP HRP BO Número de operações MP OMP HRP BO Dimensão da base (M) Dimensão da base (M) Figura 31: Número de operações realizadas por APP, na codificação de um bloco de imagem com N = 64 pixel, em função da dimensão da base M, com cinco e dez iterações/coeficientes Comparação com base ortogonal O OMP é o algoritmo que realiza maior número de operações, seguido do HRP cujo número de operações é ligeiramente superior ao do MP O número de operações é directamente proporcional à dimensão da base (complexidade linear) Note-se a diferença entre o número de operações realizadas com as bases de dimensões 16 e 128 Comparando os dois gráficos, verifica-se ainda que, para as mesmas dimensões do espaço e da base, o número de operações realizado por APP é superior ao realizado por transformada ortogonal, na razão directa do número de iterações L A passagem do número de iterações de 5 para 10 provoca maior aumento no número de operações do OMP, do que nos restantes algoritmos, registando-se maior distanciamento entre o número de operações Na figura 32, apresenta-se o número de operações realizadas por APP, em função do número de iterações, num espaço de dimensão 64, com bases completa e sobre-completa A base sobre-completa eleva significativamente o número de operações, relativamente à base completa Nos algoritmos MP e HRP a variação é linear, enquanto que o OMP varia

77 62 Algoritmos de pesquisa de projecções x 10 4 Base completa x 10 4 Base sobre completa Número de operações MP OMP HRP Número de iterações/coeficientes (L) Número de operações MP OMP HRP Número de iterações/coeficientes (L) Figura 32: Número de operações realizadas por APP, na codificação de um bloco de imagem com N = 64 pixel, em função do número de iterações L {1,,15}, com base de dimensão 64 e 128 mais acentuadamente Descodificação de um bloco MP, HRP e BO - Em MP e HRP, a descodificação de um bloco realiza o mesmo número de operações Tendo em conta que na codificação são realizadas L ( M) iterações então o bloco é codificado com L coeficientes e a descodificação (síntese) consiste em realizar L produtos de coeficiente por vectores de dimensão N, resultando em LN multiplicações escalares Este é também o número de operações realizado sobre BO, considerando a utilização de L coeficientes OMP - A descodificação com OMP tem maior complexidade porque é necessário realizar os procedimentos de ortogonalização e normalização com L i=2 (4N +(i 2)2N) operações, para L 2 O número total de operações é N, L = 1 OMP Descod = LN + L i=2 (4N + (i 2)2N), L 2 (314) A figura 33 apresenta o número de operações realizadas por APP e BO, na descodificação de um bloco de imagem com N pixel em função do número de iterações (coeficientes) L, realizadas na codificação, para espaços de dimensão N = 64 e N = 128 Verifica-se que o número de operações de descodificação do OMP varia quadraticamente em função do número de iterações Note-se as funções 64L 2 e 128L 2 assinaladas nos gráficos da esquerda e direita, respectivamente, com o símbolo * Os restantes algoritmos têm complexidade linear, em função do número de iterações (coeficientes) e da dimensão do espaço

78 36 Quantização e agrupamento dos coeficientes 63 N=64 x 10 4 N=128 Número de operações MP,HRP,BO OMP 64L 2 Número de operações MP,HRP,BO OMP 128L Número de iterações/coeficientes (L) Número de iterações/coeficientes (L) Figura 33: Número de operações realizadas por APP e BO, na descodificação de um bloco de imagem com N pixel em função do número de iterações (coeficientes) L {1,,15}, com espaço de dimensão N = 64 e N = 128 Apresentam-se as funções 64L 2 e 128L 2, com o símbolo * 36 Quantização e agrupamento dos coeficientes Quando se utilizam APP, e se projecta um vector sobre a base, obtém-se outro vector com os respectivos coeficientes Existem duas alternativas para realizar a quantização dos coeficientes [23, 28]: no final de cada iteração, quantiza-se o coeficiente calculado e utiliza-se o valor quantizado na próxima iteração; designa-se por quantização à priori; no final da expansão, quantizam-se todos os coeficientes calculados; este processo é nomeado de quantização à posteriori Relativamente à complexidade computacional, as duas versões são equivalentes A quantização à priori tem a vantagem de não propagar erros de quantização entre iterações consecutivas Neste trabalho foram exploradas as duas formas de quantização, nos três APP utilizados Após a aplicação do APP, a obtenção do vector de coeficientes, e a respectiva quantização segue-se o agrupamento dos coeficientes Foram implementados dois métodos de agrupamento dos coeficientes de cada bloco de imagem: na forma de pares (índice do vector, coeficiente), em que índice é o número do vector; na forma de vector de coeficientes, colocando a zero os que correspondem a vectores de base que não foram seleccionados

79 64 Algoritmos de pesquisa de projecções A figura 34 exemplifica estes dois métodos de codificação, considerando uma base de dimensão M=9 Aplicando determinado APP, obteve-se a decomposição do vector x x = 062g g 3 117g 7, após três iterações, tendo sido seleccionado g 3 na primeira, seguido de g 7 e finalmente, g 1 Método 1: (Índice, Coeficiente) Método 2: Vector de coeficientes (com 9 elementos) Figura 34: Exemplificação dos métodos de agrupamento dos coeficientes após codificação com APP

80 Capítulo 4 Estudo das potencialidades da ACI 41 Introdução O presente capítulo apresenta estudos realizados com o objectivo de analisar as propriedades das CI de imagens Analisam-se imagens monocromáticas com 256 níveis de cinzento (8 bit/pixel) organizadas em duas categorias de conteúdos: cenas naturais e impressões digitais (fingerprint) Cada estudo está dividido em duas fases: 1 estimação e análise de bases de CI completas e sobre-completas; 2 cálculo da concentração de energia em função do número de coeficientes de projecção, sobre as bases estimadas, sem quantização dos coeficientes Depois da primeira fase, analisam-se as CI em termos estatísticos, vectoriais e visuais Começa-se por visualizar as CI de forma a ter a noção das características extraídas e das suas capacidades de representação Analisam-se as kurtosis das CI e apresentam-se histogramas dos ângulos relativos entre todas as CI que constituem base Comparam-se bases completa e sobre-completa Na segunda fase, realiza-se o cálculo da concentração de energia, em função do número de coeficientes de projecção, com o objectivo de verificar a capacidade de generalização da base ACI Realizam-se comparações sobre a base ACI através de diferentes APP Esta comparação é estendida a transformadas ortogonais (TO) como a TDC e a ACP Ortogonalizam-se as CI através de ortogonalização simétrica (OS), ACP e procedimento de Gram-Schmidt (GS) Comparam-se os resultados obtidos pela ortogonalização das observações e a ortogonalização das CI, através de ACP (TKL) Para não introduzir erros que alteram de forma diferente os resultados das transformadas utilizadas, não se realiza quantização dos coeficientes de projecção

81 66 Estudo das potencialidades da ACI 411 Condições de teste Para cada classe de imagem (natural e de impressão digital), realizam-se dois estudos: o primeiro utiliza observações recolhidas sobre uma só imagem; no segundo estudo, as observações são recolhidas a partir de um conjunto de imagens Pretende-se verificar a capacidade de generalização das CI extraídas de uma só imagem, para representar outras imagens Verifica-se a diferença entre projectar determinada imagem sobre a base de CI estimada a partir da própria imagem, doutra imagem e de conjuntos de imagens A recolha de observações sobre a imagem é feita na forma de blocos quadrados de dimensão N N, convertidos em vectores de N 2 elementos Quando o teste é realizado sobre um conjunto de imagens, é recolhido o mesmo número de observações sobre cada imagem Caso a dimensão do bloco seja pequena, alteram-se bastante as características espectrais da imagem [71] A dimensão do bloco é um compromisso entre dois factores: tem que ser suficientemente grande para exibir estrutura, ou seja, informação visual, mantendo as características espectrais da imagem original; deverá ser suficientemente pequena de forma a não tornar o cálculo computacionalmente pesado e introduzir generalidade nos dados Consideraram-se dimensões de bloco 4 4, 8 8 e Estimaram-se CI a partir das observações obtendo bases completa e sobre-completa Os blocos foram recolhidos aleatoriamente sobre as imagens, sem restrição de sobreposição Utilizou-se o operador fastica, apresentado na secção 274, nas suas versões básica e sobre-completa Às observações recolhidas é subtraído o valor médio, sendo de seguida transformadas com branqueamento e redução da dimensionalidade, através de ACP, tal como apresentado na secção 28 Após a estimação ACI, para obter base normalizada (todos os vectores com norma unitária), normalizam-se as CI devido à ambiguidade de escalamento, discutida na secção Análise dos resultados Embora o estudo tenha sido realizado com as dimensões de bloco de 4 4, 8 8 e 16 16, apresentam-se apenas os resultados obtidos para a dimensão de 8 8 Procede-se desta forma por dois motivos: este é o tamanho de bloco de uso comum pelos algoritmos de codificação de imagem; no essencial, as conclusões são semelhantes Analisam-se as observações através da ordenação decrescente e da função cumulativa dos valores próprios da sua matriz de covariância Esta análise tem como objectivo determinar a estruturação dos dados, ou seja, quantas direcções significativas possuem, através da concentração de energia (variância) nas componentes principais

82 41 Introdução 67 Após a ACI, visualizam-se as CI e procura-se caracterizar o formato das estruturas obtidas Em seguida, analisam-se os histogramas dos ângulos relativos entre todas as CI, tendo como objectivo verificar o afastamento entre a base obtida e uma base ortogonal Os APP utilizados são: MP, OMP e HRP actuando sobre base ACI completa e sobrecompleta Utilizam-se como referência as transformadas ortogonais TDC (seguida da codificação em zig-zag, tal como definido na norma JPEG [65]) e a ACP (TKL) sobre as observações utilizadas para a estimação ACI Estas transformadas são aplicadas sobre cada imagem de teste, juntamente com os APP Os processos de ortogonalização sobre as bases completa e sobre-completa de CI são os seguintes: ACP, GS e OS Não se apresentam os resultados relativos à OS porque são muito inferiores aos obtidos pelos outros processos de ortogonalização A base utilizada pelo HRP é gerada pelo método das combinações lineares descrito na secção 341, utilizando 25 combinações lineares (isto é, a base HRP tem mais 25 elementos do que as bases utilizadas pelo MP e OMP) A capacidade de concentração de energia é directamente proporcional à relação sinal/ruído [54], SNR (signal to noise ratio), medida em db (decibel) ( ) ( ) Px σ 2 SNR = 10 log 10 = 10 log x P 10 r MSE [db], (41) em que P x é a potência AC da imagem original, ou seja, a sua variância σ x 2 e P r é a potência do ruído que equivale ao erro quadrático médio MSE (mean square error) entre a imagem original I e a imagem sintetizada Ĩ A variância define-se como σ 2 x = 1 MN M 1 N 1 m=0 n=0 (I(m,n) m I ) 2, (42) onde M e N são, respectivamente, o número de linhas e colunas das imagens e m I = 1 MN M 1 N 1 m=0 n=0 I(m, n) (43) é o valor médio da imagem O erro quadrático médio, MSE, corresponde à potência do sinal de erro entre as imagens original e sintetizada e(m,n) = I(m,n) Ĩ(m,n), MSE = 1 MN M 1 N 1 m=0 n=0 (I(m,n) Ĩ(m,n))2 = 1 MN M 1 N 1 m=0 n=0 e 2 (m,n) (44) Para imagens monocromáticas com 8 bit/pixel, a relação sinal/ruído de pico PSNR (peak signal to noise ratio) é definida como PSNR = 10 log 10 ( MSE ) [db] (45) É conhecido que a SNR e a PSNR não traduzem a percepção humana da qualidade visual da imagem [66, 92], mas dado que estão directamente relacionadas com o erro

83 68 Estudo das potencialidades da ACI quadrático médio (potência do erro), atestam a capacidade de concentração de energia sobre as bases ortogonal e não ortogonal Na secção 454 analisam-se medidas da distorção visual, com significado perceptual, baseadas no SVH Os resultados de concentração de energia, SNR em função do número de coeficientes, são apresentados através de quatro gráficos por cada imagem, da forma que se esquematiza na figura 41 Os gráficos a) e b) apresentam a aplicação de APP, sobre base completa e sobre-completa respectivamente Nestes gráficos inclui-se, como termo comparativo 1, os resultados obtidos pelos N primeiros e pelos N maiores coeficientes da ACP (em valor absoluto), designados por ACP1 e ACP2 respectivamente Nos gráficos c) e d) apresentam-se os resultados dos métodos de ortogonalização sobre as bases completa e sobre-completa de CI, respectivamente Tal como no caso anterior, apresentam-se os resultados dos coeficientes de projecção com o maior valor absoluto, obtidos por TDC e ACP2 Apresentam-se resultados com os N coeficientes que têm maior valor absoluto, de forma a verificar a máxima concentração de energia das transformadas, realizando comparação mais adequada com os APP Note-se que MP e OMP, escolhem em cada iteração, o coeficiente com maior valor absoluto (ver equação (33)) Os gráficos apresentam os resultados até ao máximo de 25 coeficientes, por razões de espaço e clareza Os valores de SNR obtidos com este número de coeficientes são suficientes para obter reconstruções de qualidade, quando se opera com blocos de 8 8 A eficácia da transformada é directamente proporcional à sua capacidade de concentração de energia, nos coeficientes de projecção Para transformadas ortogonais, esta capacidade é dada pelo quociente entre as médias aritmética e geométrica das variâncias σi 2 dos coeficientes de projecção [55, 88] Esta medida G CT = 1 N ( N 1 N 1 σi 2 i=0 ) 1 N σi 2 i=0, (46) onde N representa o número de coeficientes a considerar, é designada por ganho de codificação de transformada (transform coding gain) 42 Imagens naturais Nesta secção apresenta-se o estudo realizado sobre as propriedades das CI de imagens naturais As imagens utilizadas são monocromáticas, com resolução , e constam do conjunto de teste da Universidade de Waterloo, Canadá 2 1 O sombreado refere-se aos termos comparativos 2 Disponível em

84 42 Imagens naturais 69 APP MP, OMP sobre base ACI completa HRP sobre base ACI completa adicionada de 25 vectores de escala grosseira Ortogonal (obtida sobre as observações) ACP1 - Primeiros N ACP2 - Maiores N Ortogonal TDC - Maiores N ACP2 - Maiores N a) APP MP, OMP sobre base ACI 2 vezes sobre- completa HRP sobre base ACI 2 vezes sobre-completa adicionada de 25 vectores de escala grosseira Ortogonal (obtida sobre as observações) ACP1 - Primeiros N ACP2 - Maiores N Ortogonal TDC - Maiores N ACP2 - Maiores N b) Ortogonal (sobre base ACI completa) ACP - Maiores N GS - Maiores N c) Ortogonal (sobre base ACI sobre-completa) ACP - Maiores N GS - Maiores N d) Figura 41: Esquematização dos gráficos com a concentração de energia ( Maiores N significa os N coeficientes com maior valor absoluto) 421 Base ACI a partir de uma imagem Do referido conjunto de teste, seleccionaram-se as imagens goldhill e bird, apresentadas na figura 42 Retiraram-se 400 observações (blocos de 8 8) sobre a imagem goldhill A figura Figura 42: Imagens naturais goldhill e bird com resolução e 8 bit/pixel 43 apresenta os valores próprios da matriz de covariância das observações, ordenados de forma decrescente e a respectiva função cumulativa As primeiras 40 componentes principais contêm 982% da energia do sinal observação Realizou-se branqueamento e redução da dimensionalidade com ACP, para 40 dimensões

85 70 Estudo das potencialidades da ACI 3 25 Valores próprios Função cumulativa dos valores próprios Valor % Número de componentes Número de componentes Figura 43: Valores próprios das observações e respectiva função cumulativa Observações recolhidas a partir da imagem goldhill Análise da base ACI A figura 44 mostra o histograma dos ângulos relativos entre todas as CI, obtidas através da aplicação da transformada inversa de branqueamento, para as bases completa e sobrecompleta Constata-se que praticamente todos os ângulos são superiores a 40 o, para as duas bases A frequência de ocorrência é aproximadamente crescente a partir dos 40 o, para ambas as bases Verifica-se que a base completa não é ortogonal Ocorrências Base completa Ângulo relativo Ocorrências Base 2 vezes sobre completa Ângulo relativo Figura 44: Histograma dos ângulos relativos para as bases completa e sobre-completa, estimadas a partir da imagem goldhill A figura 45 apresenta as CI constituintes das bases completa (63 componentes + DC) e sobre-completa com 126 vectores (aproximadamente 2 vezes sobre-completa) As estruturas apresentadas são semelhantes às da base completa da figura 220 Os histogramas da kurtosis para as duas bases, apresentados na figura 46 mostram que a maioria das CI tem kurtosis ligeiramente inferior a zero (sub-normal) A base

86 42 Imagens naturais 71 Figura 45: Bases completa e sobre-completa de CI de imagem natural, extraídas a partir da imagem goldhill sobre-completa apresenta número superior de componentes com kurtosis elevada Resultados obtidos: imagem goldhill A figura 47 mostra os resultados obtidos sobre a imagem goldhill Verifica-se que os APP conseguem maior concentração de energia que os primeiros coeficientes da ACP (TKL), para base completa e sobre-completa Este ganho é mais elevado, no caso da base sobre-completa A partir de determinado número de coeficientes, a não ortogonalidade da base ACI faz com que o ritmo de concentração de energia seja muito inferior ao da base ortogonal da ACP A maior concentração de energia dos APP é conseguida à custa de maior complexidade No caso da base sobre-completa, verifica-se que os APP têm SNR 1 a 2 db superior à base completa Note-se que o desempenho obtido com os maiores coeficientes (em valor absoluto) da ACP é semelhante ao obtido pelo OMP, no caso da base ACI completa Caso a base seja sobre-completa, o OMP supera a ACP,

87 72 Estudo das potencialidades da ACI 8 ACI completa 15 ACI sobre completa Ocorrências Ocorrências Kurtosis Kurtosis Figura 46: Histograma das kurtosis para as bases completa e sobre-completa, extraídas a partir da imagem goldhill até aos maiores 20 coeficientes Verifica-se que o HRP mantém a SNR quando o número de coeficientes é superior a dez, tendo resultados idênticos ao MP, quando o número de coeficientes é inferior Nas primeiras iterações, MP e OMP obtêm resultados muito próximos, significando que os primeiros vectores seleccionados pelo MP tendem a ser ortogonais entre si Quanto aos métodos de ortogonalização, verifica-se que ACP após ACI é ligeiramente inferior a ACP sobre as observações A aplicação de GS após ACI tem desempenho inferior ao de ACP após ACI Não se notam diferenças entre a ortogonalização sobre base completa e sobre-completa porque a estimação ACI foi realizada sobre uma única imagem Outro aspecto curioso é a constatação que os maiores coeficientes da TDC concentram mais energia que os maiores coeficientes da ACP (em valor absoluto) A base ACP é determinada a partir das observações (recolhidas aleatoriamente) que deram origem à estimação ACI e não a partir da totalidade da imagem de teste Por outro lado, a ACP (TKL) é a transformada ortogonal que concentra mais energia nos primeiros N coeficientes e não nos maiores N coeficientes (em valor absoluto) Resultados obtidos: imagem de teste bird Na figura 48 apresentam-se os resultados dos mesmos testes, realizados sobre a imagem bird Verifica-se que os APP conseguem melhores resultados que os maiores coeficientes da ACP, nas primeiras iterações, caso a base seja sobre-completa No caso de se utilizar base completa, os resultados obtidos pelos APP e pela ACP são praticamente iguais, nas primeiras iterações Com MP superam-se os primeiros coeficientes da ACP1 durante 7 iterações, com base completa, e durante 16 iterações com base sobre-completa

88 42 Imagens naturais 73 +MP OMP xhrp oacp1 >ACP2 +MP OMP xhrp oacp1 >ACP2 SNR (db) SNR (db) Número de coeficientes +TDC ACP2 x(aci+acp) o(aci+gs) Número de coeficientes +TDC ACP2 x(aci+acp) o(aci+gs) 25 SNR (db) SNR (db) Número de coeficientes Número de coeficientes Figura 47: Concentração de energia para a imagem goldhill Base ACI extraída a partir da imagem goldhill (ver figura 41 para a legenda completa do gráfico) Analisando os métodos de ortogonalização sobre as bases completa e sobre-completa, verifica-se que a aplicação de ACP após ACI é ligeiramente inferior à aplicação de ACP sobre as observações A ortogonalização de GS não obtém relação sinal/ruído tão elevada quanto a ACP após ACI completa e sobre-completa Verifica-se ainda que não se distinguem diferenças entre a ortogonalização sobre as bases ACI sobre-completa e completa Note-se também que a base ACP sobre as observações está mais afastada da TDC sobre a própria imagem, do que no caso anterior da imagem goldhill 422 Base ACI a partir de três imagens Utilizou-se o conjunto de três imagens naturais boat, lena e camera do conjunto de teste de Waterloo, sobre as quais foram recolhidas 1200 observações (400 por cada imagem) Tal como no teste anterior, procede-se à estimação das bases ACI completa e sobre-completa De seguida, repete-se o teste anterior, projectando as imagens goldhill e bird sobre estas bases e comparam-se os resultados

89 74 Estudo das potencialidades da ACI +MP OMP xhrp oacp1 >ACP2 +MP OMP xhrp oacp1 >ACP2 SNR (db) SNR (db) Número de coeficientes +TDC ACP2 x(aci+acp) o(aci+gs) Número de coeficientes +TDC ACP2 x(aci+acp) o(aci+gs) 30 SNR (db) SNR (db) Número de coeficientes Número de coeficientes Figura 48: Concentração de energia para a imagem bird Base ACI extraída a partir da imagem goldhill Resultados obtidos: imagem de teste goldhill No caso da base completa, o OMP tem desempenho idêntico aos coeficientes com maior valor absoluto da ACP, até aos 15 coeficientes, baixando ligeiramente de seguida Utilizando base sobre-completa, o OMP supera os coeficientes com maior valor absoluto da ACP MP supera os coeficientes com maior valor absoluto da ACP quando opera sobre base sobre-completa, nos primeiros 10 coeficientes Também supera os 23 primeiros coeficientes da ACP, quando aplicado sobre base completa MP aplicado à base sobre-completa supera sempre os primeiros coeficientes da ACP Quanto aos métodos de ortogonalização, verifica-se ligeira melhoria nos resultados quando se actua sobre base sobre-completa, com uma subida mais acentuada nos resultados da ortogonalização de GS sobre a ACI Relativamente à figura 47, onde se projecta a imagem goldhill sobre a base extraída a partir da própria imagem, existem as seguintes observações a realizar Os métodos de ortogonalização sobre base completa produzem praticamente os mesmos resultados enquanto que a ortogonalização sobre base sobre-completa a partir de várias imagens obtém melhores resultados, aproximando-se da referência TDC sobre a própria imagem Actuando sobre base sobre-completa de várias imagens, os APP obtêm maior SNR para o mesmo número de coeficientes, do que a base sobre-completa da própria imagem No caso da base completa não se notam diferenças nos resultados

90 43 Imagens de impressões digitais (fingerprint) 75 +MP OMP xhrp oacp1 >ACP2 +MP OMP xhrp oacp1 >ACP2 SNR (db) SNR (db) Número de coeficientes +TDC ACP2 x(aci+acp) o(aci+gs) Número de coeficientes +TDC ACP2 x(aci+acp) o(aci+gs) 25 SNR (db) SNR (db) Número de coeficientes Número de coeficientes Figura 49: Concentração de energia para a imagem goldhill Base ACI extraída a partir das imagens boat, lena e camera Resultados obtidos: imagem de teste bird Pela análise dos gráficos da figura 410, comparativamente aos da figura 48, constata-se melhoria no caso da base sobre-completa extraída a partir das três imagens, tanto para APP como para TO Toda a análise é semelhante àquela realizada para a imagem goldhill Verifica-se que a utilização da base completa extraída a partir da imagem goldhill ou das três imagens conduz a resultados equivalentes A estimação ACI completa, realizada sobre uma só imagem exterior produz resultados semelhantes à estimação ACI completa a partir de várias imagens Na utilização de base sobre-completa, obtêm-se melhores resultados, para as duas imagens em teste, quando a base é extraída a partir das três imagens Esta é a situação em que se obtém maior concentração de energia e capacidade de generalização 43 Imagens de impressões digitais (fingerprint) Nesta secção apresenta-se um estudo idêntico ao da secção anterior, aplicado a imagens cujo conteúdo são impressões digitais 3 (fingerprint) A figura 411 apresenta duas destas 3 Disponíveis em

91 76 Estudo das potencialidades da ACI 30 +MP OMP xhrp oacp1 >ACP2 30 +MP OMP xhrp oacp1 >ACP2 SNR (db) SNR (db) Número de coeficientes +TDC ACP2 x(aci+acp) o(aci+gs) Número de coeficientes +TDC ACP2 x(aci+acp) o(aci+gs) 30 SNR (db) SNR (db) Número de coeficientes Número de coeficientes Figura 410: Concentração de energia para a imagem bird Base ACI extraída a partir das imagens boat, lena e camera imagens A imagem finger 1 é utilizada para extrair observações e estimar as bases ACI completa e sobre-completa Em seguida prossegue-se o estudo na forma apresentada na secção anterior Figura 411: Imagens de impressão digital finger 1 (esquerda) e finger 2 (direita) A figura 412 apresenta os valores próprios da matriz de covariância das observações, ordenados de forma decrescente e a sua função cumulativa Verifica-se que esta classe de imagens concentra maior percentagem de energia em menor número de componentes principais, face às imagens naturais, por comparação com a figura 43

92 43 Imagens de impressões digitais (fingerprint) Valores próprios Função cumulativa dos valores próprios Valor % Número de componentes Número de componentes Figura 412: Valores próprios das observações e respectiva função cumulativa Observações recolhidas a partir da imagem finger 1 Análise da base ACI Os histogramas dos ângulos relativos entre todas as CI, apresentados na figura 413, mostram que existem ângulos desde os 20 o em diante, para ambas as bases Tal como se verificou para as imagens naturais, a base ACI não é ortogonal A figura 414 apresenta Base completa Base 2 vezes sobre completa Ocorrências Ângulo relativo Ocorrências Ângulo relativo Figura 413: Histograma dos ângulos relativos para as bases completa e sobre-completa, estimadas a partir da imagem finger 1 as bases ACI completa e sobre-completa com 63 e 126 vectores, respectivamente As estruturas exibidas são diferentes daquelas extraídas sobre imagem natural (figura 45) Os histogramas das kurtosis para as duas bases, apresentados na figura 415, mostram que a maioria das CI tem kurtosis negativa

93 78 Estudo das potencialidades da ACI Figura 414: Bases completa e sobre-completa de CI de imagem de impressão digital, extraídas a partir da imagem finger 1 8 ACI completa 10 ACI sobre completa 6 8 Ocorrências 4 Ocorrências Kurtosis Kurtosis Figura 415: Histograma das kurtosis para as bases completa e sobre-completa, extraídas a partir da imagem finger 1

94 43 Imagens de impressões digitais (fingerprint) 79 Resultados obtidos: imagem finger 1 Na figura 416 apresentam-se os resultados de concentração de energia para a imagem finger 1, sobre a qual foram extraídas as observações Constata-se que nas primeiras iterações, os APP concentram mais energia do que os maiores coeficientes em valor absoluto da ACP Com a base sobre-completa obtêm-se melhores resultados e a superioridade dos APP relativamente às referências ACP mantém-se Nos métodos de ortogonalização, verifica-se que ACP após ACI é praticamente igual a TDC sobre a imagem e ACP sobre as observações GS após ACI é o método que apresenta pior desempenho Tal como se constatou para imagem natural, os métodos de ortogonalização sobre base completa e sobre-completa de uma só imagem, obtêm resultados equivalentes SNR (db) +MP OMP xhrp oacp1 >ACP Número de coeficientes +TDC ACP2 x(aci+acp) o(aci+gs) 30 SNR (db) +MP OMP xhrp oacp1 >ACP Número de coeficientes +TDC ACP2 x(aci+acp) o(aci+gs) 30 SNR (db) SNR (db) Número de coeficientes Número de coeficientes Figura 416: Concentração de energia para a imagem finger 1 Base ACI extraída a partir da imagem finger 1 Resultados obtidos: imagem de teste finger 2 Apresentam-se na figura 417 os resultados dos mesmos testes, realizados sobre a imagem finger 2 As conclusões da análise destes resultados são, no essencial, equivalentes às apresentadas para a imagem finger 1 Tendo em conta que esta imagem não foi utilizada para a estimação ACI, estes resultados revelam capacidade de generalização da ACI, dentro da classe de imagens de impressões digitais À semelhança do que aconteceu com

95 80 Estudo das potencialidades da ACI imagem natural, a extracção de CI a partir de uma só imagem produz elevada concentração de energia noutra imagem exterior, tendo em conta as referências TDC e ACP, para as transformadas ortogonais e APP, respectivamente SNR (db) SNR (db) +MP OMP xhrp oacp1 >ACP Número de coeficientes +TDC ACP2 x(aci+acp) o(aci+gs) SNR (db) SNR (db) +MP OMP xhrp oacp1 >ACP Número de coeficientes +TDC ACP2 x(aci+acp) o(aci+gs) Número de coeficientes Número de coeficientes Figura 417: Concentração de energia para a imagem finger 2 Base ACI extraída a partir da imagem finger Base ACI a partir de seis imagens Utilizando seis imagens de impressão digital recolheram-se 2400 observações (400 por imagem) Este conjunto não inclui as imagens finger 1 e finger 2 Procedeu-se à estimação das bases ACI e à projecção das imagens finger 1 e finger 2, seguindo-se a comparação com os resultados dos testes anteriores Resultados obtidos: imagem de teste finger 1 A figura 418 apresenta os resultados obtidos para a imagem finger 1 Comparativamente com a figura 416, não existem diferenças assinaláveis no caso de base completa, concluindo-se que a estimação a partir da própria imagem ou de várias imagens é equivalente No caso da base sobre-completa, nota-se ligeira subida nos APP e na ortogonalização de GS, que continua a ser a transformada ortogonal com pior desempenho

96 44 Base híbrida 81 SNR (db) +MP OMP xhrp oacp1 >ACP Número de coeficientes +TDC ACP2 x(aci+acp) o(aci+gs) 30 SNR (db) +MP OMP xhrp oacp1 >ACP Número de coeficientes +TDC ACP2 x(aci+acp) o(aci+gs) 30 SNR (db) SNR (db) Número de coeficientes Número de coeficientes Figura 418: Concentração de energia para a imagem finger 1 Base ACI extraída a partir de seis imagens de impressão digital Resultados obtidos: imagem de teste finger 2 Na figura 419 constam os resultados obtidos para a imagem finger 2 Verifica-se ligeiro ganho, para as bases completa e sobre-completa, nos APP e nas transformadas ortogonais, comparativamente aos resultados obtidos com a base extraída a partir da imagem finger 1 (figura 417) Estes resultados indicam que existe capacidade de generalização das CI extraídas a partir de uma só imagem, na representação doutras imagens na classe de impressão digital, à semelhança do que se constatou para imagem natural Contudo, a estimação da base a partir de várias imagens apresenta resultados que, geralmente, são superiores aos obtidos na estimação da base a partir de outra imagem exterior A estimação de base sobre-completa a partir de várias imagens, obtém resultados superiores, também de acordo com o que se concluiu para imagem natural, na secção anterior 44 Base híbrida Nesta secção apresenta-se estudo idêntico aos anteriores utilizando imagens cujos conteúdos são cenas naturais e impressões digitais Utilizam-se três imagens de cada classe As imagens naturais são boat, lena e camera As imagens de impressão digital não incluem as

97 82 Estudo das potencialidades da ACI SNR (db) +MP OMP xhrp oacp1 >ACP Número de coeficientes +TDC ACP2 x(aci+acp) o(aci+gs) 30 SNR (db) +MP OMP xhrp oacp1 >ACP Número de coeficientes +TDC ACP2 x(aci+acp) o(aci+gs) 30 SNR (db) SNR (db) Número de coeficientes Número de coeficientes Figura 419: Concentração de energia para a imagem finger 2 Base ACI extraída a partir de seis imagens de impressão digital imagens finger 1 e finger 2, apresentadas na figura 411 Compara-se o desempenho da base híbrida com o de cada uma das bases especializadas, projectando as mesmas imagens de teste sobre a base híbrida A figura 420 apresenta os valores próprios da matriz de covariância das observações, ordenados de forma decrescente e respectiva função cumulativa, onde se verifica que praticamente toda a energia se encontra nas primeiras 40 componentes principais Análise da base ACI Os histogramas dos ângulos relativos entre todas as CI apresentam-se na figura 421, para as bases completa e sobre-completa Para as duas bases, constata-se que praticamente todos os ângulos são superiores a 40 o Os histogramas da kurtosis para as duas bases, apresentados na figura 423, mostram que a maioria das CI tem kurtosis negativa Face às bases anteriores, verifica-se também a predominância de kurtosis com valor negativo

98 44 Base híbrida Valores próprios Função cumulativa dos valores próprios Valor 3 2 % Número de componentes Número de componentes Figura 420: Valores próprios das observações e respectiva função cumulativa Observações recolhidas a partir de três imagens naturais e três imagens de impressão digital 80 Base completa 500 Base 2 vezes sobre completa Ocorrências Ocorrências Ângulo relativo Ângulo relativo Figura 421: Histograma dos ângulos relativos para as bases completa e sobre-completa, estimadas a partir de três imagens naturais e três imagens de impressão digital Resultados obtidos: imagem de teste goldhill A figura 424 apresenta os resultados de concentração de energia para a imagem goldhill Constata-se que se obtêm resultados ligeiramente superiores àqueles obtidos pela estimação ACI a partir da própria imagem goldhill, apresentados na figura 47, especialmente quando se considera a base híbrida sobre-completa Em relação à projecção da imagem goldhill sobre a base de três imagens naturais (figura 49), verifica-se queda nos resultados de ACP após ACI, a qual ficou ligeiramente inferior a GS após ACI, no caso da base sobre-completa No caso de base não ortogonal, os resultados são idênticos

99 84 Estudo das potencialidades da ACI Figura 422: Bases híbridas completa e sobre-completa, estimadas a partir de três imagens naturais e três imagens de impressão digital 5 ACI completa 8 ACI sobre completa 4 6 Ocorrências 3 2 Ocorrências Kurtosis Kurtosis Figura 423: Histograma das kurtosis para as bases completa e sobre-completa, estimadas a partir de três imagens naturais e três imagens de impressão digital

100 44 Base híbrida 85 +MP OMP xhrp oacp1 >ACP2 +MP OMP xhrp oacp1 >ACP2 SNR (db) SNR (db) Número de coeficientes +TDC ACP2 x(aci+acp) o(aci+gs) Número de coeficientes +TDC ACP2 x(aci+acp) o(aci+gs) 25 SNR (db) SNR (db) Número de coeficientes Número de coeficientes Figura 424: Concentração de energia para a imagem goldhill Base ACI extraída a partir de três imagens naturais e três imagens de impressão digital Resultados obtidos: imagem de teste bird Os resultados para a imagem bird, apresentados na figura 425, são semelhantes aos obtidos com imagens naturais, apresentados nas figuras 48 e 410 Sobre a base híbrida, verificase descida da SNR, quando se aplica ACP após ACI, sendo mais notória quando se trata de ACI sobre-completa Na aplicação de APP, não se registam diferenças significativas Resultados obtidos: imagens de teste finger 1 e finger 2 Para as duas imagens de impressão digital, cujos resultados se apresentam nas figuras 426 e 427, verifica-se diminuição na SNR, para o mesmo número de coeficientes Comparativamente aos resultados obtidos quando se projectaram estas imagens sobre a base específica de várias imagens de impressão digital (figura 418 para a imagem finger 1 e figura 419 para a imagem finger 2), verificam-se descidas que atingem 3 db nos APP e 7 db na transformada ortogonal ACP após ACI Note-se a descida face às referências TDC e ACP Outro aspecto importante a mencionar é que sobre esta base a ortogonalização ACP após ACI obtém resultados inferiores à ortogonalização de GS após ACI, ao contrário do que foi observado nas duas bases anteriores Conclui-se que a base híbrida nunca é superior à base obtida a partir da classe es-

101 86 Estudo das potencialidades da ACI +MP OMP xhrp oacp1 >ACP2 +MP OMP xhrp oacp1 >ACP SNR (db) SNR (db) Número de coeficientes +TDC ACP2 x(aci+acp) o(aci+gs) Número de coeficientes +TDC ACP2 x(aci+acp) o(aci+gs) 30 SNR (db) SNR (db) Número de coeficientes Número de coeficientes Figura 425: Concentração de energia para a imagem bird Base ACI extraída a partir de três imagens naturais e três imagens de impressão digital pecífica No caso das imagens naturais, a máxima diferença na SNR, entre as bases específica e híbrida não excede 3 db (transformada ACP após ACI); com APP os resultados são idênticos para as duas bases Para as imagens de impressões digitais, as diferenças são maiores, sendo mais notadas com transformada ortogonal A melhor opção é a base sobre-completa de várias imagens dentro de determinada classe, observando-se capacidade de generalização dentro da classe A codificação com bases ortogonais obtidas a partir das bases ACI completas ou sobre-completas, tem complexidade menor que a codificação realizada com qualquer APP e obtém elevada concentração de energia Nas classes de imagem consideradas, a base sobre-completa é a que apresenta maior concentração de energia A aplicação de APP sobre base sobre-completa aumenta a complexidade face à base completa e a qualquer transformada ortogonal Na próxima secção apresenta-se uma metodologia de construção de base incompleta por redução da dimensão da base sobre-completa e, consequentemente, da complexidade de codificação, sem degradação significativa na SNR

102 45 Critérios de desenho e avaliação 87 SNR (db) SNR (db) +MP OMP xhrp oacp1 >ACP Número de coeficientes +TDC ACP2 x(aci+acp) o(aci+gs) SNR (db) SNR (db) +MP OMP xhrp oacp1 >ACP Número de coeficientes +TDC ACP2 x(aci+acp) o(aci+gs) Número de coeficientes Número de coeficientes Figura 426: Concentração de energia para a imagem finger 1 Base ACI extraída a partir de três imagens naturais e três imagens de impressão digital 45 Critérios de desenho e avaliação Nesta secção discutem-se aspectos de desenho dos codificadores e de avaliação dos resultados, utilizando uma medida objectiva da percepção humana da distorção visual 451 Número variável de coeficientes por bloco Tendo como objectivo obter elevadas taxas de compressão, procura-se minimizar o número de coeficientes não nulos utilizados para codificar a imagem Os algoritmos aplicados nos estudos anteriores utilizam número fixo de coeficientes para codificar cada bloco de imagem (com dimensões 8 8) No entanto, os blocos de imagem possuem diferentes níveis de detalhe (variância) No caso de blocos com pouco detalhe, obtém-se determinado nível de distorção com número menor de coeficientes (não nulos) do que no caso de blocos com maior detalhe O valor da distorção admissível, para cada bloco de imagem, é o máximo valor absoluto da diferença entre as imagens original I e sintetizada Ĩ: = max I Ĩ (47) Testes realizados ao longo do trabalho confirmam que este critério é mais adequado à percepção visual das imagens do que o erro quadrático (I Ĩ)2 O mesmo se conclui em

103 88 Estudo das potencialidades da ACI +MP OMP xhrp oacp1 >ACP2 +MP OMP xhrp oacp1 >ACP2 SNR (db) SNR (db) Número de coeficientes +TDC ACP2 x(aci+acp) o(aci+gs) Número de coeficientes SNR (db) SNR (db) Número de coeficientes +TDC ACP2 x(aci+acp) o(aci+gs) Número de coeficientes Figura 427: Concentração de energia para a imagem finger 2 Base ACI extraída a partir de três imagens naturais e três imagens de impressão digital [88] e em [16], verifica-se que a utilização do erro quadrático não é adequada, como medida de distorção, quando as imagens são codificadas em baixo débito binário O critério de distorção, apresentado na equação (47), foi aplicado sobre os três APP implementados, fazendo análise e síntese do bloco de imagem, da forma que se apresenta: 1 especifica-se o valor de distorção máxima Max e o número máximo de coeficientes NC Max, utilizado para codificar cada bloco de imagem; 2 quando se analisa o bloco I, através de APP, por cada iteração n, utiliza-se o coeficiente seleccionado para actualizar a síntese do bloco Ĩn; em cada iteração é adicionada nova parcela à síntese Ĩn e avaliada a distorção: n = max I Ĩn ; 3 a codificação do bloco termina quando o valor de distorção n verifica a desigualdade n Max ou se atinge o máximo de coeficientes NC Max Os blocos com distorção superior a Max são codificados com NC Max coeficientes A tabela 41 apresenta a comparação entre a utilização de MP e HRP, sobre base ACI completa de imagem natural, na codificação da imagem goldhill com número fixo e variável de coeficientes Esta imagem tem resolução , sendo decomposta em 1024 blocos de 8 8 O valor máximo de distorção especificado é Max = 20 Analisando a tabela,

104 45 Critérios de desenho e avaliação 89 nota-se a diferença entre o número de coeficientes utilizado pelos dois métodos, resultando em ligeiro abaixamento da SNR, tanto para MP como para HRP Por exemplo, analisando as duas últimas linhas da tabela: quando se utiliza MP com número fixo de coeficientes (10240), a SNR é 1614 db; utilizando a estratégia do número variável de coeficientes a SNR é 152 db com 5139 coeficientes As SNR diferem de 094 db, mas na segunda situação utiliza-se aproximadamente metade dos coeficientes da primeira O acréscimo da complexidade computacional, introduzido pela aplicação do critério, é baixo porque a síntese do bloco tem menor complexidade do que a análise No caso do MP, em cada iteração, a síntese consiste na multiplicação de coeficientes por vectores de dimensão N, enquanto que a análise é constituída pelo cálculo de M produtos internos entre vectores de dimensão N, sendo M a dimensão da base ACI Testes efectuados sobre outras imagens mostram que a maioria dos blocos não utiliza o número máximo de coeficientes para cumprir o critério de distorção Por exemplo, na última linha da tabela (máximo de 10 coeficientes por bloco), o MP em 1024 blocos utiliza 5510 coeficientes, o que dá a média de 538 coeficientes por bloco Nesta situação, a complexidade total da codificação da imagem é inferior à do método com número fixo de coeficientes Na tabela, em fonte negrito, evidencia-se outro caso semelhante de redução do número de coeficientes, na utilização do HRP MP HRP Fixo Variável Fixo Variável NC Max NC SNR[dB] NC SNR[dB] NC SNR[dB] NC SNR[dB] Tabela 41: Comparação entre MP e HRP com e sem critério de distorção ( Max = 20); NC Max é o número máximo de coeficientes por bloco; NC é o número de coeficientes utilizados para codificar toda a imagem

105 90 Estudo das potencialidades da ACI 452 Aprendizagem da base ACI A construção de dicionários (bases redundantes ou sobre-completas) tem como objectivo proporcionar representações compactas (ou esparsas) dos dados As bases de Fourier, TDC e wavelet não oferecem generalização suficiente para conseguir representações compactas (ou esparsas) Por exemplo, a base de Fourier está localizada na frequência, não tendo resolução no tempo (espaço) A base wavelet tem resolução tempo/frequência, sendo inadequada para representar sinais localizados apenas na frequência (requer muitos coeficientes) Com a redundância procura-se colmatar estas insuficiências, obtendo dicionários que contêm vectores dos dois tipos (localizados no espaço e na frequência) Para além da generalização e adaptação às características do sinal a representar, garante-se que os primeiros N coeficientes obtidos após a aplicação de determinado APP, nas primeiras iterações da expansão, concentram mais energia do que as transformadas ortogonais Representações redundantes Ilustra-se a vantagem da representação redundante com o seguinte exemplo Sejam B base ortonormada e D dicionário definidos no espaço de dimensão 3: B = {(1 0 0), (0 1 0), (0 0 1)}; D = {(1 0 0), (0 1 0), (0 0 1), (1 1 1), ( 1 1 1)} O vector (1 2 1) expresso na base B toma a forma (1 2 1) = 1(1 0 0) + 2(0 1 0) + 1(0 0 1) (48) O mesmo vector descrito sobre o dicionário D, utiliza dois coeficientes (1 2 1) = 1(1 1 1) + 1(0 1 0), (49) tendo esta representação menor número de coeficientes Estabelecendo a analogia com a língua e respectivo vocabulário, tem-se que quando o vocabulário (dicionário) é restrito, temos que combinar muitos elementos desse dicionário quando nos queremos expressar Caso o vocabulário seja rico, codificamos a mesma informação recorrendo a menor número de elementos desse vocabulário Construção da base/dicionário A construção do dicionário é um aspecto crítico Mesmo que se possua o algoritmo óptimo para realizar a representação, se o dicionário não for adequado às características a representar, não se obtêm codificações com distribuição compacta (ou esparsa) A pesquisa do

106 45 Critérios de desenho e avaliação 91 dicionário adequado é equivalente à determinação das características (features) que representam adequadamente os dados [14] Dicionário adequado é definido como aquele que dá suporte a reconstruções de determinada imagem, com qualidade idêntica à de outro dicionário estimado a partir dessa imagem O dicionário deve ter capacidade de generalização As CI de imagem têm esta capacidade, verificada nos estudos deste capítulo: estimando ACI a partir da própria imagem e num conjunto de imagens que não a incluía, concluiu-se que as capacidades de concentração de energia são idênticas nos dois casos Este facto verificou-se para imagens naturais e de impressão digital, com bases sobrecompleta (dicionário) e completa Não é necessário que a base seja sobre-completa para obter a capacidade de generalização desejada A base híbrida apresentou capacidade de generalização sobre imagem natural, mas não sobre imagens de impressão digital Em [81] é apresentado um critério de construção de dicionários de CI que assenta num mecanismo de selecção de candidatos (CI) a elementos (vector do dicionário), designado por acuidade do dicionário Determinada CI é adicionada ao dicionário se o menor dos ângulos relativos entre essa CI e todos os elementos do dicionário for superior a um limiar de Θ D graus A base incompleta Os resultados obtidos mostram que a base ACI não tem que ser redundante para possuir capacidade de generalização, em termos de relação sinal/ruído e de qualidade visual A base incompleta, com número de vectores inferior à dimensão do espaço, apresenta capacidade de generalização A utilização da base incompleta apresenta-se como solução de compromisso entre suficiência e complexidade de codificação A construção da base incompleta com N v elementos assenta num esquema de votação dependente das observações e da base sobre-completa estimada, tal como se descreve de seguida: 1 estima-se base sobre-completa ACI, com N o ( N v ) vectores; 2 associa-se um contador a cada CI e inicia-se o seu valor a zero; 3 aplica-se codificação com o algoritmo MP (com número fixo ou variável de coeficientes por bloco), até determinado máximo de coeficientes por bloco, projectando as observações sobre a base sobre-completa; 4 cada vez que determinada CI é votada (seleccionada pelo MP na expansão), o seu contador é incrementado; 5 finalmente, ordenam-se as CI, de forma decrescente, pelo número de votos obtidos; a base incompleta é obtida pelas primeiras N v CI mais votadas; o primeiro vector da base incompleta é a CI mais votada

107 92 Estudo das potencialidades da ACI Note-se que este procedimento, embora computacionalmente intensivo, é realizado offline Outra utilização deste procedimento é a reordenação das CI estimadas, mantendo a base sobre-completa, fazendo N v = N o Obtém-se base completa a partir da sobrecompleta, fazendo N v igual à dimensão do espaço (por exemplo N v = 64 quando se opera com blocos de 8 8) Desta forma colocam-se as CI mais votadas como primeiros vectores da base, procurando reter as CI que apresentam maior concentração de energia na codificação, devido à ambiguidade de permutação da ACI discutida na secção 221 De seguida, apresenta-se o resultado obtido na aplicação deste critério Cálculo de base incompleta Sobre base sobre-completa de 126 vectores aplicou-se o critério apresentado acima para a construção de base incompleta com 32 vectores As CI constituintes da base incompleta e o histograma dos ângulos relativos entre si, são apresentados na figura 428 A CI mais votada é a do canto superior esquerdo, a segunda mais votada é a da primeira linha, segunda coluna e assim sucessivamente O formato do histograma dos ângulos relativos para a base incompleta é semelhante ao das bases completa e sobre-completa anteriores Base incompleta 20 Ocorrências Ângulo relativo Figura 428: Histograma dos ângulos relativos e CI obtidas para base incompleta A figura 429 apresenta a SNR em função do número de coeficientes, aplicando MP com número fixo de coeficientes por bloco, sobre bases completa, sobre-completa e incompleta de imagens naturais As imagens naturais lena e boat, das quais não foram retiradas observações para a estimação ACI, foram utilizadas para teste Verifica-se que a utilização da base incompleta resulta em ligeiro abaixamento da SNR, em relação à base completa, nos primeiros dez coeficientes Para N = 10 coeficientes (SNR correspondente a imagens de razoável qualidade) verifica-se, em ambas as imagens, que a base incompleta está cerca de 1/15 db abaixo da base completa e 2 db abaixo da base sobre-completa Tendo em conta que a base incompleta tem dimensão 32, metade da dimensão da base

108 45 Critérios de desenho e avaliação 93 Lena Boat SNR (db) Número de coeficientes SNR (db) Número de coeficientes Figura 429: Concentração de energia obtida com bases incompleta, completa e sobrecompleta Imagens lena e boat completa e cerca de quatro vezes menos que a base sobre-completa, estes são resultados que perspectivam bom desempenho da base incompleta, tendo em conta a taxa de compressão que se conseguirá atingir face à utilização das outras bases Note-se que a diminuição da dimensão da base é importante porque reduz o número de operações, tal como se apresenta nas figuras 31, 32 e Quantização dos coeficientes Após a codificação com APP e TO, realiza-se quantização escalar dos coeficientes Aplicamse dois tipos de quantização: uniforme e adaptada à distribuição probabilística dos coeficientes A quantização adaptada aos coeficientes (não uniforme) é realizada através do algoritmo iterativo Lloyd I [27, 62], não necessitando de estimação paramétrica (modelização) da função de probabilidade dos coeficientes Para cada APP e TO, desenhou-se o quantizador de Lloyd I para os seus coeficientes, procedendo-se da seguinte forma: 1 estima-se a base ACI (completa, sobre-completa ou incompleta) a partir de um conjunto de treino constituído por uma ou mais imagens; 2 no caso dos APP, o conjunto de treino é projectado sobre a base ACI, através de APP, obtendo-se os coeficientes de projecção; para as transformadas ortogonais, aplica-se o método de ortogonalização sobre a base ACI (completa ou sobre-completa) e o conjunto de treino é projectado sobre a base ortogonal, obtendo-se os coeficientes de projecção; 3 sobre o conjunto de coeficientes de projecção aplica-se o algoritmo de Lloyd I, fornecendo como parâmetros o número de níveis de quantização e o número de

109 94 Estudo das potencialidades da ACI iterações a realizar; obtêm-se assim os centróides do quantizador (níveis de desquantização) bem como os respectivos intervalos de quantização Os centróides que o algoritmo Lloyd I produz são resultantes das actualizações realizadas ao longo das várias iterações Para assegurar convergência do algoritmo, e menor distorção em relação ao quantizador uniforme, na primeira iteração os centróides iniciais tomam os valores correspondentes aos centróides do quantizador uniforme, com o mesmo número de níveis de quantização No final da primeira iteração do algoritmo, já se obtém quantizador com menor distorção do que o uniforme (com o mesmo número de níveis de quantização) O desenho de cada quantizador é realizado off-line após a estimação ACI e mantém-se fixo para os processos de codificação/descodificação Quantização à priori ou à posteriori Na secção 36, referiram-se as duas formas de quantização utilizadas sobre APP: à priori e à posteriori No processo global de codificação da imagem (figura 11) antes da codificação entrópica, os coeficientes são quantizados, introduzindo erro no valor inicialmente calculado Importa então comparar o desempenho dos dois tipos de quantização e verificar qual a influência na capacidade de concentração de energia A figura 430 apresenta a comparação entre estes dois métodos, utilizando MP e HRP, na codificação da imagem boat, com base sobre-completa, estimada a partir da imagem goldhill Verifica-se que o MP apresenta desempenho superior ao HRP, a partir dos 10 coeficientes Para ambos os APP, existe maior degradação na SNR, na quantização à priori do que na quantização à posteriori, sendo idêntica nos dois algoritmos 18 MP 16 HRP SNR (db) MP posteriori MP priori SNR (db) HRP posteriori HRP priori Número de coeficientes Número de coeficientes Figura 430: Comparação entre quantização à priori e à posteriori na codificação da imagem boat Algoritmos MP e HRP sobre base sobre-completa extraída a partir da imagem goldhill

110 45 Critérios de desenho e avaliação Medição objectiva da distorção visual As medidas SNR, PSNR e WMSE (weighted mean square error) [92] são bons indicadores para erros dispersos na imagem, mas não o são para erros estruturados os quais contribuem muito mais para a degradação visual das imagens [66] A PQS (picture quality scale) [30, 66] é uma medida objectiva de distorção visual de imagem, baseada nas características de percepção do sistema visual humano (SVH) A PQS está de acordo com a escala MOS (mean opinion score), de avaliação subjectiva perceptual descrita na recomendação do ITU-R (international telecommunication union - radiocommunications) [50], com a gama de valores: 5-imperceptível, 4-perceptível mas não perturbante, 3-ligeiramente perturbante, 2-perturbante e 1-muito perturbante A PQS combina cinco factores de distorção visual: F 1 - diferença entre a imagem original e a codificada, ponderada pela frequência, tal como definido pelo CCIR [8] (designação anterior do ITU-R); F 2 - diferença entre a imagem original e a codificada, ponderada de acordo com um modelo de percepção visual do SVH; F 3 - descontinuidades nas vizinhanças horizontal e vertical de blocos adjacentes; F 4 - erros com correlacão espacial (padrões de erro); F 5 - erros na proximidade de transições de elevado contraste Os primeiros dois factores contabilizam perturbações e erros aleatórios globais, enquanto que os três últimos se referem a perturbações e erros estruturados e localizados A PQS calcula-se de acordo com PQS = b 0 + J b j Z j, (410) j=1 em que b 0 = 5797 e b j são os coeficientes da regressão parcial, calculados através de MRA (multiple regression analysis) [58], de forma a verificar a gama de valores da escala MOS; Z j são os coeficientes de representação sobre as componentes principais calculadas a partir dos cinco factores de distorção indicados; o valor de J (3 J 5) define o número de componentes principais contabilizadas O cálculo das componentes principais descorrelaciona os factores de distorção, tornando-os mais eficazes para a medição da qualidade visual Em termos práticos, verifica-se que apenas as três primeiras componentes principais têm valor significativo, fazendo com que a PQS resulte fundamentalmente da combinação linear de três elementos: quantidade de erro, localização do erro e estrutura do erro, dados por Z 1, Z 2 e Z 3, respectivamente [66]

111 96 Estudo das potencialidades da ACI A PQS, definida de acordo com a escala MOS, toma valores no intervalo {1,,5} Existem publicações [30] que utilizam a gama de valores {0,,5797} No presente trabalho, devido à elevada taxa de compressão, obtiveram-se valores negativos de PQS nalguns testes Optou-se pela sua apresentação por se considerar que traduzem a qualidade visual das imagens, servindo também para classificar relativamente os diversos codificadores testados A qualidade visual da imagem é directamente proporcional ao valor de PQS, a qual toma o valor máximo de 5797 quando calculada entre determinada imagem e ela própria (todos os factores de distorção {F 1,,F 5 } e coeficientes {Z 1,,Z 3 } são nulos) As características espaciais e espectrais das imagens são determinantes para a sua compressão No domínio espacial, a imagem pode ser analisada através da SFM (spatial frequency measure) [20, 30] e no domínio da frequência pela SAM (spectral activity measure) [1, 30] A SFM é uma medida do detalhe da imagem, definida como SFM = R 2 + C 2, R = 1 M N (x j,k x j,k 1 ) MN 2, C = 1 MN j=1 k=2 N M (x j,k x j 1,k ) 2, (411) k=1 j=2 em que R mede a variação nas linhas, C mede a variação nas colunas, x j,k são os pixels da imagem, M e N representam o número de linhas e colunas, respectivamente Imagens que possuem muito detalhe têm valores elevados de SFM, ou seja, componentes significativas de alta frequência Tipicamente, para uma taxa de compressão fixa e para uma dada técnica de compressão, a SNR obtida é inversamente proporcional à SFM A SFM é um indicador da variabilidade da imagem, que deve ser levado em conta quando se avaliam as imagens em termos de SNR A SAM, definida de acordo com SAM = 1 MN M 1 j=0 M 1 j=0 N 1 k=0 N 1 k=0 F(j,k) 2 F(j,k) 2 1 MN, (412) é uma medida da previsibilidade (redundância) da imagem, cuja gama de valores é [1, ) Define-se como o quociente entre as médias aritmética e geométrica do quadrado do módulo dos coeficientes da transformada discreta de Fourier (TDF) 4 [54] da imagem, designados por F(j,k) Quanto maior o valor da SAM mais previsível é a imagem Baixos valores de SAM indicam que é difícil codificar a imagem com elevada taxa de compressão, porque a energia da imagem está muito dispersa ao longo do seu espectro Dado que a 4 DFT - discrete Fourier transform

112 46 Conclusões 97 PQS depende da SAM, a codificação/descodificação de imagens com valores elevados de SAM tende a produzir imagens de qualidade visual superior, para determinada taxa de compressão fixa [1] No próximo capítulo, a distorção das imagens descodificadas é analisada através da SNR e da PQS, tendo em conta os valores de SAM e SFM das imagens originais 46 Conclusões Em todas as estimações de base por via de ACI, as CI obtidas, próximas da independência estatística, não são ortogonais entre si, como se pode constatar pelos histogramas dos ângulos relativos Estes histogramas são semelhantes para as bases completa, incompleta e sobre-completa As CI exibem estruturas localizadas no espaço, em frequência e em orientação No caso de imagens naturais são semelhantes a wavelets, sendo aproximadas por funções de Gabor Em seguida, descrevem-se as principais conclusões sobre as características das CI Capacidade de generalização Conclui-se que as CI possuem razoável capacidade de generalização Com CI extraídas a partir de uma só imagem (natural ou de impressão digital) obtêm-se relações sinal/ruído idênticas às obtidas com CI extraídas a partir de várias imagens dessa classe (ligeiramente superior no caso de base sobre-completa) Com base incompleta obtêm-se valores de relação sinal/ruído entre 1 e 2 db abaixo daquelas obtidas com a base completa É de ponderar a utilização da base incompleta na implementação dos codificadores A base sobre-completa tem ganho superior em concentração de energia face às bases completa e incompleta, mas a complexidade computacional associada é superior Nos testes efectuados, verificou-se que a base duas vezes sobre-completa obtém SNR até 2 db acima da base completa Este ganho poderá não ser compensatório face ao aumento da complexidade temporal de codificação e à diminuição da taxa de compressão A relação taxa de compressão/distorção poderá ser inferior à obtida pela base completa, porque é necessário transmitir maior número de coeficientes A estimação da base completa a partir de várias imagens é praticamente equivalente à base extraída a partir da própria imagem A base sobre-completa de várias imagens é a que produz maior concentração de energia, inclusivamente face à base sobre-completa extraída da própria imagem, para imagens naturais e de impressões digitais Os métodos de ortogonalização aplicados sobre base sobre-completa produzem maior concentração de energia do que quando aplicados sobre base completa A base híbrida apresentou menor capacidade de generalização do que as bases de classes específicas, sendo a diferença mais notória no caso das transformadas ortogonais Capacidade de adaptação Conclui-se que as CI possuem capacidade de adaptação

113 98 Estudo das potencialidades da ACI a classes específicas de imagens, como se verificou para as imagens de impressões digitais, obtendo resultados próximos das referências ACP e TDC Foi realizado outro estudo comparativo sobre imagens de faces humanas, no qual se constatou a adaptação da ACI a esta classe de imagens Por razões de espaço e tendo em conta que os resultados são, no essencial, equivalentes aos obtidos para as imagens de impressões digitais, optou-se por não apresentar os resultados deste estudo Para estas três classes de imagem (natural, de impressão digital e de faces) com as CI extraídas a partir de uma só imagem obtiveramse resultados de concentração de energia semelhantes aos obtidos quando se extraem as CI a partir de várias imagens, verificando-se a maior concentração de energia com base sobre-completa No próximo capítulo, apresentam-se resultados obtidos com codificadores adaptados a classes específicas de imagem Irregularidades nos contornos da imagem Verificou-se que determinadas imagens reconstruídas com poucos coeficientes, obtidos através de MP, exibem comportamento irregular nos contornos Tal deve-se à não ortogonalidade das componentes (embora as primeiras componentes seleccionadas pelo MP tendam a ser ortogonais) e ao número necessário de componentes para definir adequadamente os contornos da imagem quando se opera com blocos de dimensão fixa (neste caso com dimensões 8 8) A grande sensibilidade aos contornos (detalhe) da imagem, por parte do SVH [92], torna desagradável ao humano, certos artefactos provocados pela dimensão fixa do bloco Verificou-se que o aumento do número de coeficientes nestes blocos não resolve este problema, devido à alta sensibilidade aos contornos da base ACI e do SVH No próximo capítulo, apresentamse algoritmos que operam com blocos de dimensão variável, procurando minimizar este efeito A ideia principal não passa por aumentar o número de coeficientes por bloco, mas em utilizar blocos de dimensão variável (16 16, 8 8, 4 4 e 2 2) As imagens camera e bird reconstruídas com o valor médio e o coeficiente com maior valor absoluto, através de MP e TDC com blocos de dimensão fixa 8 8, ilustram estas irregularidades, na figura 431 A base ACI foi estimada a partir da imagem bird Significado perceptivo Pela análise da figura 431 também se verifica que a base ACI proporciona reconstruções com grande significado perceptivo, utilizando número reduzido de coeficientes Este facto também foi constatado em [81] Melhoria com a utilização do critério de distorção O número variável de coeficientes por bloco, de acordo com o critério de distorção introduzido (secção 451), revelou-se adequado Diminui significativamente o número total de coeficientes utilizado para codificar a imagem, com ligeira quebra na SNR As transformadas ortogonais A ortogonalização da base ACI sobre-completa produz concentrações de energia semelhantes à utilização de ACP (TKL) directamente sobre as observações e à TDC sobre a própria imagem A ortogonalização da base completa produz resultados ligeiramente inferiores Nos testes realizados, confirma-se que a aplicação

114 46 Conclusões 99 Camera original PQS= -394 SNR=1077 db PQS= -523 SNR=973 db MP TDC Bird original PQS= -217 SNR=15 db PQS= -374 SNR=136 db MP TDC Figura 431: Síntese das imagens camera e bird com o valor médio e o coeficiente mais significativo, com blocos de dimensão 8 8 através de MP e TDC de ACP após ACI tem capacidade de generalização equivalente à base ACP sobre as observações Dos estudos comparativos e das conclusões apresentadas ao longo deste capítulo, identificam-se duas abordagens de codificação: codificação com base não ortogonal obtida por ACI (completa, sobre-completa e incompleta), com reduzido número de coeficientes recorrendo aos APP: MP, OMP e HRP; para além das outras características, explora-se o significado perceptivo obtido com reduzido número de coeficientes; esta abordagem é vocacionada para codificação com baixo débito binário (low-bit rate); codificação com base ortogonal e normalizada (ortonormada), obtida a partir das CI, explorando as ortogonalizações por ACP e GS, sobre as bases completa e sobrecompleta Estas duas abordagens são descritas em detalhe no próximo capítulo

115 100 Estudo das potencialidades da ACI

116 Capítulo 5 Arquitectura e avaliação dos codificadores 51 Introdução Neste capítulo apresentam-se os codificadores implementados, usando as abordagens de base ortogonal e não ortogonal identificadas no capítulo anterior O capítulo 4 trata também as transformadas ortogonais (TO) e os algoritmos de pesquisa de projecções (APP) utilizados nos codificadores Descrevem-se as características comuns aos codificadores das duas abordagens (secção 52) Referem-se os modos de operação e o desenho de quantizadores de acordo com a função de probabilidade (fp) dos coeficientes Aborda-se a criação de modelos probabilísticos de acordo com a distribuição das palavras de código à saída dos quantizadores desenhados e a codificação entrópica Nas secções 53 e 54, descrevem-se os aspectos particulares de cada abordagem e apresentam-se as arquitecturas dos codificadores Apresentam-se os resultados obtidos e comparam-se com os dos codificadores JPEG [65], JPEG2000 [92], SPIHT (set partitioning in hierarchical trees) [86] e BTPC (binary tree predictive coding) [85] sobre imagens de diversas classes (secção 55) Estimamse bases ACI a partir de imagens de impressões digitais e comparam-se os resultados com os do codificador especializado WSQ (wavelet scalar quantization) [21] Aplica-se a estimação ACI a imagens de faces humanas Constata-se a capacidade de adaptação destes codificadores especializados Finalmente, na secção 56 comentam-se os resultados obtidos

117 102 Arquitectura e avaliação dos codificadores 52 Características comuns às duas abordagens Esta secção descreve as características comuns aos codificadores das duas abordagens, designadamente: os modos de operação, o processo de quantização e a utilização dos codificadores entrópicos Geralmente, a análise e codificação de uma imagem na sua totalidade é computacionalmente pesada, sendo proibitiva na maioria dos casos Por este motivo, adoptam-se técnicas para redução da complexidade, baseadas na análise da imagem em blocos Utilizam-se, nas duas abordagens, três formas de análise da imagem: blocos de dimensão fixa; tipicamente usam-se blocos de dimensões 8 8; blocos de dimensão variável, codificados na forma de árvore quaternária (quad tree) [54], com as dimensões de 16 16, 8 8, 4 4 e 2 2; processo de multi-resolução através de decimação e interpolação [71] O modo de transmissão condiciona a forma de análise da imagem As codificações com blocos de dimensão fixa e variável são vocacionadas para transmissão sequencial A imagem é transmitida bloco a bloco numa sequência pré-definida Tipicamente, obtém-se uma única versão da imagem descodificada Na secção 531 apresenta-se uma forma de transmissão progressiva, assente sobre a transmissão sequencial, quando se opera com blocos de dimensão fixa, obtendo-se diferentes versões da imagem descodificada O processo de multi-resolução é adequado para transmissão progressiva com diferentes níveis de detalhe e resolução de imagem Esta técnica é vocacionada para arquitecturas assimétricas em que a imagem é codificada uma vez, mas descodificada de diferentes formas As figuras 51 e 52 ilustram o esquema de multi-resolução utilizado na codificação, com duas e três camadas, respectivamente Este esquema também foi utilizado em [23] Sobre as figuras evidencia-se a descodificação de imagens com diferentes resoluções e qualidade, nas várias camadas Dentro de cada camada, a análise é realizada com blocos de dimensão fixa (tipicamente 8 8) através de APP ou TO A base ACI (ou ortogonal) utilizada, é a mesma do que no método de blocos de dimensão fixa A ideia base do esquema de multiresolução é realizar decimação (símbolo 2 nas figuras 51 e 52), codificar a imagem com APP ou TO, fazer a síntese seguida de interpolação (símbolo 2) Calculada a diferença (resíduo) entre a imagem original e a sintetizada, opera-se sobre este resíduo, na camada seguinte, da mesma forma A figura 53 ilustra o processo de análise com blocos de dimensão variável e respectiva codificação binária na forma de árvore quaternária, com quatro camadas Cada bloco é codificado com um bit: o valor 1 significa que o bloco tem quatro descendentes na camada

118 52 Características comuns às duas abordagens 103 I R 0 APP TO APP 0 TO 0 + Î 0 R 0 = I 0 - APP 2 R 0 = I 0 - TO 2 2 APP 2 TO 2 Î 1 2 I 1 APP TO APP 1 TO 1 Î 2 Figura 51: Esquema de análise em multi-resolução: duas camadas I 0 APP + R TO 0 - APP TO Î 0 2 APP 22 TO 22 R 0 =I 0 -APP 22 R 0 =I 0 -TO 22 Î 1 2 I 1 APP + APP R TO - TO 1 APP 11 TO 11 Î 2 APP 22 TO 22 R 1 =I 1 -APP 22 R 1 =I 1 -TO 22 APP 11 =APP 22 +APP 1 TO 11 =TO 22 +TO 1 Î I 2 APP TO APP 2 TO 2 Î 4 Figura 52: Esquema de análise em multi-resolução: três camadas inferior; o valor 0 indica que o bloco é terminal Realiza-se codificação com três camadas, utilizando blocos com as dimensões {16 16, 8 8 e 4 4} e {8 8, 4 4 e 2 2}, e com quatro camadas utilizando blocos {16 16, 8 8, 4 4 e 2 2} Não é necessário transmitir a informação da última camada da árvore porque sendo camada terminal não existem blocos descendentes A árvore é codificada usando codificação aritmética

119 104 Arquitectura e avaliação dos codificadores O processo de análise da imagem é o seguinte: analisada a imagem com a dimensão de bloco mais elevada (16 16), aplica-se APP ou TO com o critério de distorção da máxima diferença absoluta (ver secção 451) Se para esta dimensão do bloco não se cumpre o critério de distorção, o bloco é dividido em quatro (de 8 8) os quais são analisados individualmente da mesma forma Este procedimento é repetido sobre cada bloco até se atingir a menor dimensão (4 4 ou 2 2), estabelecida previamente Neste caso é necessária a existência de bases ACI (ou ortogonais), para as dimensões de bloco usadas Face à utilização de blocos de dimensão fixa e ao processo de multi-resolução, este método Camada 0-16x Camada 1-8x Camada 2-4x Camada 3-2x2 Figura 53: Exemplo de codificação com blocos de dimensão variável em quatro camadas Partição da imagem e respectiva árvore quaternária tem a vantagem de concentrar blocos de menor dimensão nas zonas da imagem que possuem maior detalhe As zonas com mais detalhe são codificadas com maior número de coeficientes do que as zonas analisadas com blocos de dimensão superior Esta forma de análise diminui as irregularidades nos contornos da imagem, discutidas na secção Quantização dos coeficientes No desenho dos quantizadores escalares para os coeficientes obtidos pelos APP e TO, utiliza-se o algoritmo Lloyd I (ver secção 453) Estabelecem-se modelos de fonte para as palavras de código à saída dos quantizadores da seguinte forma: 1 seja x = [x 1,,x M ] o vector com os coeficientes de projecção utilizados no desenho do quantizador; seja q = [q 1,,q M ] o vector com as palavras de código obtidas na saída do quantizador, tal que q 1 = Q(x 1 ),,q M = Q(x M ), onde Q significa quantização;

120 53 Base não ortogonal calcula-se a frequência de ocorrência das palavras de código do vector q, por análise do seu histograma; 3 o modelo probabilístico é dado na forma (q n,o n ), para todas as palavras de código, onde o n é o número de ocorrências da palavra de código q n A análise de histogramas das palavras de código revelou que a sua distribuição não é uniforme existindo redundância susceptível de ser retirada com um codificador entrópico A utilização do modelo de fonte, adaptado ao histograma, procura aumentar a eficácia de compressão, codificando as palavras de código mais prováveis com códigos de menor comprimento 522 Codificação entrópica Em ambas as abordagens, utiliza-se codificação aritmética [84] semi-adaptativa e adaptativa [68] O codificador, implementado em trabalho anterior [22], utiliza o modelo de fonte estabelecido após o desenho dos quantizadores Na técnica semi-adaptativa estabelece-se o modelo em função dos dados a codificar Após a codificação e quantização dos coeficientes, estima-se o modelo a partir desses coeficientes Este modelo tem de ser transmitido (incluído no ficheiro codificado) para ser utilizado pelo descodificador A técnica adaptativa utiliza o modelo pré-estabelecido o qual não é transmitido Este modelo é actualizado por cada símbolo codificado/descodificado Embora esta técnica seja mais complexa, produz maiores taxas de compressão, do que a semi-adaptativa, tal como se verifica na secção 553 Na abordagem de codificação com base não ortogonal (que utiliza APP) usam-se duas formas de codificação (agrupamento dos coeficientes com e sem índices) apresentadas na secção 36 Os índices, quando transmitidos, são codificados entropicamente com modelo de fonte No caso das transformadas ortogonais, utiliza-se apenas a segunda forma de codificação Utilizam-se duas estratégias para diminuir o número de coeficientes por bloco: transmissão dos primeiros N coeficientes, ou dos maiores N coeficientes em valor absoluto, conduzindo a distribuições compactas e esparsas, respectivamente 53 Base não ortogonal A figura 54 apresenta o diagrama de blocos dos codificadores da abordagem com base não ortogonal (com APP), utilizando índices na codificação A linha a tracejado indica que essa componente só existe nalgumas versões dos codificadores No processo de codificação, a componente DC (valor médio) é removida em cada bloco da imagem, de forma a ser quantizada e codificada separadamente dos restantes

121 106 Arquitectura e avaliação dos codificadores Análise em bloco de dimensão fixa Critério de codificação Primeiro Restantes Codificador entrópico I 1 Codificador entrópico I 2 Imagem Original Subtracção do valor médio APP Índices Contadores Coeficientes Primeiro Q 1 Codificador entrópico N Codificador entrópico C 1 Dimensão Base ACI Restantes Q 2 Codificador entrópico C 2 valor médio (m) Q m Codificador entrópico M Transformada Quantização Codificação Figura 54: Diagrama de blocos da codificação com base não ortogonal: versão com índices coeficientes A utilização do operador fastica para imagem, não garante estimação da componente DC como uma CI Em todos os codificadores é utilizado quantizador de Lloyd I para o valor médio, com seis bits por coeficiente Os APP utilizados são: MP, OMP com a mesma base ACI; HRP sobre base ACI construída com um dos critérios definidos na secção 341 (tabela 31) A base ACI pode ser completa, incompleta ou sobre-completa Nesta versão, o APP analisa a imagem através de blocos de dimensão fixa A dimensão típica é 8 8 mas a implementação suporta outras dimensões No APP todos os blocos são codificados com número de coeficientes constante ou variável usando o critério de distorção da máxima diferença absoluta, apresentado na secção 451 Da aplicação do APP obtêm-se índices, contadores e coeficientes sobre a base Designa-se por índice o endereço (número) do vector na base Aos índices é aplicada a codificação entrópica, utilizando dois codificadores: I 1, aplicado a todos os primeiros índices (de todos os blocos) e I 2 sobre os restantes índices Verificou-se que existem CI que, ao longo da expansão, são escolhidas em primeiro lugar com maior probabilidade Assim, codifica-se separadamente o índice da primeira CI de cada bloco, de acordo com o modelo de fonte definido para os índices, na altura de desenho do quantizador Os coeficientes são quantizados de forma escalar e codificados, sendo o primeiro coeficiente de cada bloco tratado separadamente, tal como nos índices O primeiro coeficiente de cada bloco é quantizado (no quantizador Q 1 ) com número de bits superior ao utilizado para os restantes coeficientes do bloco (quantizados em Q 2 ) Utilizam-se os quantizadores

122 53 Base não ortogonal 107 uniforme e Lloyd I Após a quantização, aplica-se a codificação aritmética, com modelo de fonte, optimizada para o alfabeto de símbolos {0,, 2 Nb 1}, onde Nb é o número de bits da palavra de código Verificou-se aumento da taxa de compressão face à utilização de alfabeto de 256 símbolos (8 bits) O processamento separado do primeiro coeficiente de cada bloco deve-se à importância relativa do mesmo (apresenta gama dinâmica de variação muito superior aos restantes) Tipicamente, o primeiro coeficiente é, em valor absoluto, bastante superior aos restantes Note-se ainda que a quantização dos coeficientes pode ser realizada à priori ou à posteriori, detalhe omitido na figura 54, para manter a clareza da mesma Os contadores de coeficientes só são transmitidos quando se utiliza o critério de distorção da máxima diferença absoluta Nesta situação, o número de coeficientes por bloco é variável, sendo necessário transmitir, para cada bloco, esse número Sobre estes contadores é aplicado um codificador aritmético com alfabeto de símbolos {1,,NC Max }, onde NC Max é o número máximo de coeficientes utilizados na codificação do bloco Para blocos de dimensões 8 8, NC Max é, tipicamente, inferior a 10, havendo elevada taxa de compressão com este esquema de codificação Para a segunda forma de agrupamento dos coeficientes, apresentada na figura 34 (na qual não se transmitem os índices dos vectores de base), o diagrama de blocos da figura 54 reduz-se ao diagrama da figura 55 Análise da imagem Critério de codificação Imagem Original Subtracção do valor médio Dimensão APP Base ACI Coeficientes C Fonte de símbolos S C=0 N Q Nb C=2 Nb Modelo de fonte Codificador entrópico C valor médio (m) Q m Codificador entrópico M Figura 55: Diagrama de blocos da codificação com base não ortogonal: versão sem índices Face à primeira versão, para além da remoção dos índices, existem outras alterações a considerar Este modo utiliza as três formas de análise da imagem e não se limita aos blocos de dimensão fixa Os coeficientes com valor zero não são quantizados, sendo transformados para o primeiro valor binário inteiro superior à última palavra de código do quantizador Efectuando quantização com Nb bits, este valor binário é 2 Nb Esta

123 108 Arquitectura e avaliação dos codificadores transformação cria mais um símbolo para além dos códigos do quantizador Explorando a elevada probabilidade de ocorrência do valor 2 Nb, desenvolveram-se modelos de fonte adequados, com o objectivo de aumentar a taxa de compressão A figura 56 apresenta dois modelos, baseados nas frequências de ocorrência dos coeficientes, utilizados nesta codificação No modelo da esquerda assume-se que todos os códigos possuem igual frequência de ocorrência com excepção do valor 2 Nb, cuja frequência de ocorrência é superior Este símbolo tem frequência de ocorrência M NC Max, em que M é a dimensão da base ACI e NC Max é o número máximo de coeficientes utilizado para codificar o bloco No segundo modelo utiliza-se, para os códigos de 0 a 2 Nb 1, a estimativa de frequência de ocorrência obtida na altura de desenho do quantizador M - NC Max Modelo Estimado M - NC Max a b c Nb -1 2 Nb c Nb -1 2 Nb c Figura 56: Modelos de fonte utilizados na codificação sem índices Na codificação sem índices deixa de existir, do ponto de vista do descodificador, a noção de primeiro coeficiente da expansão Assim, é impossível quantizar o primeiro coeficiente com maior número de bits, do que os restantes Outra restrição deste método é a impossibilidade da utilização do OMP porque, no processo de descodificação, é necessário realizar a ortogonalização apresentada na equação (37) Sem a associação dos índices aos coeficientes, não é possível saber, em cada iteração, quais os vectores em que se aplica a ortogonalização, porque não existe a noção de ordem (sequencialidade) nos coeficientes Este facto não é relevante porque, embora o OMP seja mais complexo do que o MP, os resultados obtidos são idênticos, para imagens com qualidade razoável, tal como se constata nos testes de compressão apresentados na secção Formato dos dados comprimidos A figura 57 apresenta o formato dos dados comprimidos com o esquema de transmissão com blocos de dimensão fixa com índices, utilizando número fixo de coeficientes por bloco O aspecto mais saliente é a transmissão de todos os primeiros índices de todos os blocos, assinalada através do sombreado na figura Começa-se por transmitir o primeiro índice de cada um dos N blocos e em seguida transmitem-se, sequencialmente, os sucessivos índices dentro de cada bloco Procede-se desta forma para aplicar sobre o primeiro índice,

124 53 Base não ortogonal 109 um codificador aritmético distinto do codificador dos restantes índices Segue-se a mesma estratégia para os coeficientes (previamente quantizados à priori ou à posteriori) Com esta ordenação dos índices e dos coeficientes não é necessário descodificar todo o ficheiro, quando se pretende apenas reconstrução com o valor médio e o coeficiente mais significativo (o primeiro da expansão): Ĩ = m + c 1 φ i1, em que Ĩ é a imagem sintetizada, m é o valor médio, c 1 é o coeficiente mais significativo e φ i1 é o vector (imagem) de base com índice i 1 Nesta situação lêem-se sequencialmente todos os primeiros índices e todos os primeiros coeficientes (reconstruções deste tipo sobre base ACI possuem significado perceptivo razoável, tal como constatado na figura 431, secção 46) e em seguida lêemse os restantes índices e coeficientes de cada bloco Esta é uma forma de transmissão progressiva baseada na transmissão sequencial Preâmbulo NC - Número de Coeficientes Tamanho Bloco Número de Linhas Número de Colunas Valores Médios m 1 m 2 m N Índices I 1,1 I 1,2 I 1,N I 2,1 I 3,1 I NC,1 I 2,2 I 3,2 I NC,2 I NC,N Coeficientes C 1,1 C 1,2 C 1,N C 2,1 C 3,1 C NC,1 C 2,2 C 3,2 C NC,2 C NC,N Figura 57: Formato dos dados comprimidos: versão com índices e número fixo de coeficientes por bloco A figura 58 apresenta o formato dos dados comprimidos para a situação em que se usa o critério de distorção visual e se tem número variável de índices e coeficientes por bloco Neste caso existe um contador por cada bloco Note-se que os índices e os coeficientes escritos para cada bloco são função do valor do contador associado ao bloco A figura 59 ilustra o formato dos dados comprimidos quando não se utilizam índices e se opera com blocos de dimensão fixa Cada bloco é codificado com um vector de dimensão M (dimensão da base) Nesta versão, a codificação com número fixo ou variável de coeficientes por bloco, do ponto de vista do descodificador, é indiferente A síntese consiste na soma dos produtos coeficiente por função base Métodos de multi-resolução e blocos de dimensão variável O método apresentado na figura 54, que utiliza índices, opera apenas com blocos de dimensão fixa Constatou-se que a inclusão dos índices na codificação provoca abaixamento na taxa de compressão, relativamente à versão sem índices e a outros codificadores como

125 110 Arquitectura e avaliação dos codificadores Preâmbulo NC - Número de Coeficientes Tamanho Bloco Número de Linhas Número de Colunas Valores Médios m 1 m 2 m N Contadores n 1 n 2 n N Índices I 1,1 I 1,2 I 1,N I 2,1 I 3,1 I n1,1 I 2,2 I 3,2 I n2,2 Coeficientes C 1,1 C 1,2 C 1,N C 2,1 C 3,1 C n1,1 C 2,2 C 3,2 C n2,2 I nn,n C nn,n Figura 58: Formato dos dados comprimidos: versão com índices e número variável de coeficientes por bloco Preâmbulo NC - Número de Coeficientes Tamanho Bloco Número de Linhas Número de Colunas Valores Médios m 1 m 2 m N Coeficientes C 1,1 C 2,1 C M,1 C 1,2 C 2,2 C M,2 C 1,3 C 2,3 C M,3 C M,N Figura 59: Formato dos dados comprimidos: versão sem índices o JPEG, por exemplo Os resultados apresentados na secção 55 confirmam este facto Assim, na operação com blocos de dimensão fixa, optou-se pelo método de codificação sem índices Na implementação dos métodos de blocos de dimensão variável e de multiresolução, considera-se apenas codificação sem índices Quando se utiliza o método de multi-resolução, a única diferença no formato dos dados, em relação ao apresentado na figura 59, é a existência de tantos vectores de coeficientes quantas as camadas utilizadas (duas ou três) Os valores médios transmitidos dependem da versão da imagem codificada (ver figuras 51 e 52): caso se pretenda obter Î0 ou Î1, transmitem-se os valores médios dos blocos resultantes da análise da imagem I 0 ; quando se pretende Î2 ou Î3, transmitem-se os valores médios correspondentes à imagem I 1 e finalmente, caso se pretenda Î4, transmitem-se os valores médios de I 2 Na decomposição em blocos de dimensão variável, também não se utilizam índices Neste caso é necessário realizar e transmitir a codificação da árvore, tal como se encontra

126 54 Base ortogonal 111 exemplificado na figura 53 É também necessário transmitir os valores médios referentes a blocos de diferentes dimensões Implementaram-se duas variantes: com blocos de três dimensões diferentes; com blocos de quatro dimensões diferentes Face às técnicas anteriores foi necessário adicionar, ao preâmbulo do ficheiro, o número de blocos utilizado em cada camada Os valores médios dos blocos das diferentes camadas são quantizados e codificados com um único par quantizador/codificador A informação sobre a árvore é obtida por análise dos coeficientes produzidos pelo APP, de acordo com o critério de distorção Após a expansão segundo o critério de distorção, o APP indica para cada bloco se este cumpriu (ou não) o critério de distorção Esta informação (um bit por cada bloco da imagem) é codificada com codificador aritmético Os coeficientes de projecção das três ou quatro camadas, são quantizados e codificados de forma independente A figura 510 apresenta o formato do ficheiro nesta situação (com três e quatro camadas) Os campos a tracejado só são transmitidos caso se utilizem quatro camadas Preâmbulo NC - Número de Coeficientes Número de Linhas Número de Colunas N0 - Número de Blocos C0 N1 - Número de Blocos C1 N2 - Número de Blocos C2 N3 - Número de Blocos C3 Valores Médios Camada 0 m 1 m 2 m N0 Valores Médios Camada 2 m 1 m 2 m N2 Valores Médios Camada 1 m 1 m 2 m N1 Valores Médios Camada 3 m 1 m 2 m N3 Árvore Camada 0 t 1 t 2 t T0 Árvore Camada 2 t 1 t 2 t T2 Coeficientes Camada 1 c 1 c 2 c C1 Árvore Camada 1 t 1 t 2 t T1 Coeficientes Camada 0 c 1 c 2 c C0 Coeficientes Camada 2 c 1 c 2 c C2 Coeficientes Camada 3 c 1 c 2 c C3 Figura 510: Formato dos dados comprimidos: versão com blocos de dimensão variável (sem índices) 54 Base ortogonal Dado que na variante de base ortogonal não se transmitem índices, o diagrama de blocos destes codificadores é semelhante ao apresentado na figura 55 A diferença consiste na substituição do APP por TO Utilizam-se as bases ortogonais obtidas por ACP após ACI

127 112 Arquitectura e avaliação dos codificadores e GS após ACI A base ACI é completa ou sobre-completa Como termo comparativo, utiliza-se a base ACP estimada a partir das observações Tendo como objectivo obter codificações com distribuições compactas e esparsas, definiram-se dois critérios de escolha dos coeficientes das TO: os primeiros N; os maiores N, em valor absoluto As figuras 511 e 512 esquematizam estes dois modos Note-se que estes critérios substituem os utilizados para a escolha do número de coeficientes por bloco, na codificação com base não ortogonal Se usados os primeiros N, os vectores de coeficientes passam a ter dimensão Análise da imagem Primeiros N coeficientes Nb Imagem Original Subtracção do valor médio Transformada ortogonal Coeficientes Q Codificador entrópico C valor médio (m) Q m Codificador entrópico M Figura 511: Diagrama de blocos da codificação com base ortogonal: primeiros N coeficientes N, inferior à dimensão da base do espaço Pretende-se assim aumentar a eficácia de compressão, em prejuízo da SNR, para melhorar a relação débito-distorção A ideia subjacente a este procedimento é semelhante à utilização de base não ortogonal incompleta com APP, desenvolvida no capítulo anterior No caso em que se utilizam os maiores Análise da imagem N coeficientes com maior valor absoluto Imagem Original Subtracção do valor médio Transformada ortogonal Coeficientes C C=0 S C=2 Nb Modelo de fonte N Q Codificador entrópico C Nb valor médio (m) Q m Codificador entrópico M Figura 512: Diagrama de blocos da codificação com base ortogonal: maiores N coeficientes, em valor absoluto coeficientes em valor absoluto, está-se numa situação equivalente à apresentada na figura

128 55 Avaliação dos codificadores : a arquitectura do codificador é a mesma, mas a base é ortogonal; utiliza-se o mesmo modelo de fonte 541 Formato dos dados comprimidos Nesta situação, os formatos dos dados são idênticos aos utilizados para a abordagem não ortogonal sem índices (figura 55), excepto para a variante dos primeiros N coeficientes Para os três modos de operação, adicionou-se ao preâmbulo o número de coeficientes N, utilizados por bloco Nos métodos de blocos de dimensão variável e de multi-resolução, existe um valor diferente de N para cada camada, para indicar ao descodificador o final dos coeficientes de um bloco e o início do próximo, dado que se está a codificar com número de coeficientes inferior à dimensão da base Quando se utilizam os N maiores coeficientes (em valor absoluto), cada bloco é codificado com vector de dimensão M ( N), em que M é a dimensão da base Neste caso o primeiro campo do preâmbulo não é utilizado 55 Avaliação dos codificadores Nesta secção apresentam-se os resultados de testes realizados com os codificadores Comparam-se variantes dentro de cada abordagem (com base ortogonal e não ortogonal) Utilizam-se imagens com os seguintes tipos de conteúdo: natural, sintético, de impressão digital e de faces humanas Especializam-se os codificadores para imagens naturais, de impressão digital e de faces, através da estimação de base ACI Para cada tipo de conteúdo, comparam-se os resultados obtidos com os de outros codificadores Verifica-se que as CI de imagem natural têm capacidade de generalização As CI extraídas a partir de imagens específicas (de impressão digital, por exemplo) mostram capacidade de adaptação a esse tipo de imagens 551 Imagens naturais e sintéticas Nos testes de codificação de imagens naturais, utilizaram-se bases completas, sobrecompletas e incompletas, extraídas a partir das imagens naturais boat, goldhill e bird A figura 513 apresenta as oito imagens naturais e a imagem sintética circles, com resolução e 8 bit/pixel, utilizadas nos testes As imagens são caracterizadas pelos respectivos SAM e SFM (ver secção 454) Analisam-se os resultados obtidos com diferentes APP De seguida, explora-se TO obtida a partir de bases completa e sobre-completa de CI Comparam-se estes resulta-

129 114 Arquitectura e avaliação dos codificadores Barbara SAM=5334 SFM=2445 Bird SAM=54796 SFM=1104 Bridge SAM=2989 SFM=301 Boat SAM=9613 SFM=234 Camera SAM=4605 SFM=2885 Circles SAM=3625 SFM=2634 Goldhill SAM=4669 SFM=2329 Mandrill SAM=2484 SFM=3322 Peppers SAM=9181 SFM=2006 Figura 513: Conjunto de imagens de teste (oito naturais e uma sintética), com resolução e 8 bit/pixel, obtidas a partir do conjunto de teste da Universidade de Waterloo dos com os obtidos pelos codificadores JPEG 1 e JPEG Apresentam-se resultados obtidos com os codificadores que utilizam blocos de dimensão variável e multi-resolução Finalmente, comparam-se estes resultados entre si Abordagem 1: Base não ortogonal Nos primeiros testes, utiliza-se codificação com blocos de dimensão fixa 8 8, utilizando os codificadores com e sem índices, esquematizados nas figuras 54 e 55, respectivamente Utiliza-se MP com o máximo de N {1,, 12} coeficientes por bloco, com os critérios do 1 ftp://ftpsimtelnet/%2f/pub/simtelnet/msdos/graphics/jpegsr6zip 2

130 55 Avaliação dos codificadores 115 número fixo e variável de coeficientes por bloco ( Max = 30) O gráfico da esquerda corresponde ao método de codificação com índices e o da direita ao método sem índices Em cada gráfico, existem quatro variantes, descritas na tabela 51 Foi utilizada quantização APP Características Com índices Sem índices Critério do número de coeficientes Quantização MPI1 MP1 fixo (N {1,, 12}) posteriori MPI2 MP2 fixo (N {1,, 12}) priori MPI3 MP3 variável (N {1,, 12}, Max = 30) posteriori MPI4 MP4 variável (N {1,, 12}, Max = 30) priori Tabela 51: Caracterização das variantes de MP utilizadas nos testes de compressão; N é o número máximo de coeficientes utilizado na codificação do bloco; Max é o valor da máxima distorção admissível de Lloyd Nas versões com índices utilizam-se cinco bits para quantização do primeiro coeficiente de cada bloco e quatro bits para os restantes Nas versões sem índices usam-se cinco bits para quantização dos coeficientes O valor médio é quantizado com seis bits A figura 514 apresenta o débito-distorção na codificação da imagem barbara com MP sobre base completa A distorção, eixo das ordenadas, é a relação sinal/ruído (SNR), definida na expressão (41) O débito, eixo das abcissas, é a taxa de compressão expressa em bits por pixel (bpp) definida para imagens de 8 bit/pixel, como 8 d c d o [bpp], (51) em que d c é a dimensão em bytes da imagem codificada e d o é a dimensão em bytes da imagem original Pela análise dos dois gráficos da figura 514, constata-se que o critério do número variável de coeficientes tem melhor relação débito-distorção nas versões com e sem índices Para o mesmo débito binário (taxa de compressão), a SNR é superior à obtida pelos métodos que usam número fixo de coeficientes por bloco Por outro lado, para a mesma taxa de compressão, nas versões sem índices a SNR é superior à das versões com índices A quantização à priori produz resultados ligeiramente superiores aos obtidos pela quantização à posteriori, quando se opera com número fixo de coeficientes por bloco, sendo a diferença mais acentuada na versão sem índices, para taxas de compressão iguais ou superiores a 05 bpp Outro aspecto que importa realçar é que, a máxima SNR obtida pelas versões com número variável de coeficientes é inferior à obtida pelos métodos que usam número fixo de coeficientes por bloco A justificação é a seguinte: cada curva observada nos gráficos

131 116 Arquitectura e avaliação dos codificadores +MPI1 MPI2 xmpi3 ompi4 +MP1 MP2 xmp3 omp SNR (db) SNR (db) bpp bpp Figura 514: Débito-distorção na codificação da imagem barbara com MP sobre base completa: com índices (esquerda); sem índices (direita) resulta de 12 testes de codificação/descodificação: N {1,,12}; o valor máximo de distorção é Max = 30 Tal como constatado na tabela 41, a maioria dos blocos cumpre o critério de distorção sem utilizar o número máximo de coeficientes Por exemplo, quando se passa do teste com o máximo de 11 coeficientes para o de 12, o número total de coeficientes utilizados para representar a imagem é praticamente o mesmo Neste último teste, apenas alguns blocos da imagem (os de maior detalhe) são codificados com a totalidade de 12 coeficientes Diminuindo o valor da distorção admissível Max, cada bloco é codificado com maior número de coeficientes aumentando a SNR e diminuindo a taxa de compressão O valor de Max controla a relação débito-distorção Usando base sobre-completa de dimensão 126, obtém-se o débito-distorção apresentado na figura 515 Face ao teste anterior, verifica-se que nas versões com índices estes possuem alfabeto de valores mais vasto, passando de {1,, 63} para {1,, 126} Nas versões sem índices, para codificar cada bloco de 8 8 é utilizado um vector de 126 coeficientes com, no máximo, 12 coeficientes não nulos Em relação aos resultados da base completa (figura 514) verifica-se que, em geral, para a mesma taxa de compressão as SNR são ligeiramente superiores, registando-se um ganho máximo de 05 db, para a taxa de compressão 1 bpp Contudo, é necessário ter em atenção que a codificação sobre base sobre-completa tem maior complexidade temporal e espacial do que a codificação sobre base completa (ver figuras 31 e 32) Na figura 516 apresenta-se o débito-distorção utilizando base incompleta de dimensão 32, construída com o critério indicado na secção 452, a partir da base sobre-completa utilizada no teste anterior À semelhança dos testes anteriores, a versão com número variável de coeficientes por bloco tem melhor relação débito-distorção, nas versões com e sem índices Nestes três

132 55 Avaliação dos codificadores 117 +MPI1 MPI2 xmpi3 ompi4 +MP1 MP2 xmp3 omp SNR (db) SNR (db) bpp bpp Figura 515: Débito-distorção na codificação da imagem barbara com MP sobre base sobre-completa: com índices (esquerda); sem índices (direita) MPI1 MPI2 xmpi3 ompi4 14 +MP1 MP2 xmp3 omp4 SNR (db) SNR (db) bpp bpp Figura 516: Débito-distorção na codificação da imagem barbara com MP sobre base incompleta: com índices (esquerda); sem índices (direita) testes, as versões sem índices são as que obtêm melhor relação débito-distorção Em relação à base completa (figura 514), para a mesma taxa de compressão, a SNR é entre 05 e 1 db inferior Tendo em conta que a complexidade de codificação com base incompleta é menor, constata-se a aplicabilidade da base incompleta para codificação, tal como se perspectiva no capítulo 4 Nos três testes anteriores verifica-se que a utilização dos índices diminui a taxa de compressão, para dada SNR Nas versões com e sem índices, fixando a SNR, o critério de distorção utilizado na codificação com número variável de coeficientes por bloco obtém maior taxa de compressão do que o número fixo de coeficientes Na versão com índices, para taxas de compressão superiores a 04 bpp, nota-se a degradação no desempenho Conclui-se que, para todas as bases utilizadas, a variante que produz melhor relação

133 118 Arquitectura e avaliação dos codificadores débito-distorção é a que utiliza codificação sem índices e número variável de coeficientes por bloco Nas variantes com número variável de coeficientes, as quantizações à priori e à posteriori produzem os mesmos resultados Quando se utiliza número fixo de coeficientes, a quantização à priori é ligeiramente superior Comparação MP/OMP/HRP O débito-distorção dos algoritmos MP, OMP e HRP, é comparado na codificação da imagem goldhill Estuda-se também o efeito da quantização e verifica-se qual o ganho na SNR do OMP É utilizada base completa nos três algoritmos, sendo esta expandida no HRP com 10 elementos coarser scale, obtidos pelo método das combinações lineares (secção 341) Utiliza-se a versão com índices e número variável de coeficientes por bloco ( Max = 30), com o máximo de 10 coeficientes A figura 517 apresenta o débito-distorção com quantização à posteriori (gráfico da esquerda) e à priori (gráfico da direita) Para cada APP desenham-se quantizadores de Lloyd, com cinco bits para o primeiro coeficiente do bloco e quatro bits para os restantes Não existem diferenças assinaláveis entre os dois +MPI OMPI xhrpi +MPI OMPI xhrpi SNR (db) SNR (db) bpp bpp Figura 517: Débito-distorção obtida com MP, OMP e HRP na codificação da imagem goldhill com transmissão de índices e quantização Lloyd: à posteriori (esquerda) e à priori (direita) gráficos, concluindo-se que a quantização à priori ou à posteriori, com número variável de coeficientes por bloco é equivalente, para o OMP e HRP (tal como constatado no MP, nos testes anteriores) Verifica-se que o OMP é o algoritmo com melhor relação débito-distorção O ganho obtido não justifica a sua utilização prática, dada a complexidade de codificação e descodificação Os algoritmos MP e HRP produzem resultados próximos, sendo o MP ligeiramente superior

134 55 Avaliação dos codificadores 119 Quantização uniforme e de Lloyd A figura 518 apresenta o débito-distorção na codificação da imagem barbara, usando MP e HRP Utiliza-se a codificação sem índices, com número variável de coeficientes ( Max = 30), com o máximo de 12 coeficientes por bloco e quantização de Lloyd à priori com cinco bits por coeficiente Desenharam-se quantizadores de acordo com a base e o APP utilizados O gráfico da esquerda corresponde a base completa, e o da direita a base incompleta com 32 vectores, a utilizar pelo MP Em ambos os casos, no HRP utiliza-se a base do MP expandida com 25 elementos coarser scale, através do método das combinações lineares Os dois algoritmos produzem resultados próximos Verifica-se +MP HRP +MP HRP SNR (db) SNR (db) bpp bpp Figura 518: Débito-distorção obtida com MP e HRP na codificação da imagem barbara Base completa (esquerda) e incompleta (direita) Codificação sem índices e quantização Lloyd à priori com cinco bits por coeficiente que, com a base incompleta, se obtém relação débito-distorção ligeiramente inferior à da base completa: para taxas de compressão superiores a 04 bpp, a SNR é cerca de 05 db inferior à da base completa Utilizando base incompleta, os dois algoritmos obtêm débito-distorção semelhantes; para taxas de compressão superiores a 05 bpp, verifica-se a estagnação do MP devido: à dimensão da base incompleta e ao valor de Max utilizado na codificação No HRP, a SNR aumenta porque a base utilizada tem dimensão 32+25=57 Face às outras, a base incompleta condiciona mais a SNR máxima Para comparar as quantizações uniforme e de Lloyd, na figura 519 apresenta-se o débito-distorção, usando quantizador uniforme A quantização uniforme produz SNR ligeiramente inferior, da ordem de 02 a 04 db, para a mesma taxa de compressão, nas bases completa e incompleta A não ortogonalidade da base (mesmo incompleta) contribui para a robustez verificada na quantização uniforme Ao contrário do que acontece nas bases ortogonais, numa base não ortogonal, o erro introduzido pela quantização de um coeficiente nem sempre é totalmente irreparável Este erro pode ser atenuado pelos

135 120 Arquitectura e avaliação dos codificadores +MP HRP +MP HRP SNR (db) SNR (db) bpp bpp Figura 519: Débito-distorção obtida com MP e HRP na codificação da imagem barbara Base completa (esquerda) e incompleta (direita) Codificação sem índices e quantização uniforme à priori com cinco bits por coeficiente coeficientes que correspondem a vectores não ortogonais a esse Os vectores da base ACI não são ortogonais entre si, (capítulo 4) existindo projecções, não nulas, entre vectores da base Esta propriedade é evidenciada quando se utiliza base sobre-completa com grande redundância [23, 28] Tendo em conta, face à versão com índices, o melhor desempenho e maior simplicidade dos codificadores das versões sem índices, no que se segue opta-se por esta versão Comparação MP/HRP/JPEG/JPEG2000 Na figura 520 apresentam-se os resultados débito-distorção da codificação das imagens peppers e camera com MP e HRP sobre base completa, com blocos de dimensões 8 8, utilizando número variável de coeficientes, com Max = 30 Comparam-se os resultados com os dos codificadores JPEG [65] e JPEG2000 [92] Para a imagem peppers, verifica-se que o MP e o HRP têm melhor SNR do que o JPEG para taxas de compressão até 04 bpp O codificador JPEG2000 tem sempre a melhor SNR Na imagem camera, o MP e o HRP têm sempre SNR inferior à do JPEG Este facto deve-se às elevadas irregularidades nos contornos da imagem (essencialmente na transição entre o operador e o fundo), as quais diminuem bastante a SNR, tal como ilustrado na figura 431 (secção 46) A figura 521 apresenta as imagens peppers e camera, nas versões originais e codificadas através de MP e HRP, indicando as respectivas SNR e PQS

136 55 Avaliação dos codificadores 121 +MP HRP xjpeg ojpeg2000 +MP HRP xjpeg ojpeg SNR (db) SNR (db) bpp bpp Figura 520: Débito-distorção obtida por MP, HRP, JPEG e JPEG2000 na codificação das imagens peppers (esquerda) e camera (direita) SAM=9181 SFM=2006 PQS= -202 SNR=1515 db 050 bpp PQS= -188 SNR=1540 db 052 bpp Original MP HRP SAM=4605 SFM=2885 PQS= -178 SNR=1406 db 054 bpp PQS= -17 SNR=1418 db 056 bpp Original MP HRP Figura 521: Imagens peppers e camera originais e codificadas com blocos de dimensão fixa 8 8, com MP e HRP Blocos de dimensão variável Constata-se que a codificação com base ACI, com blocos de dimensão fixa 8 8, obtém resultados débito-distorção inferiores aos do codificador JPEG, na codificação de imagens

137 122 Arquitectura e avaliação dos codificadores com transições de alto contraste Esta característica provoca irregularidades na imagem codificada De todas as imagens utilizadas nos testes, a camera é a que evidencia mais este problema Mesmo estimando a base ACI exclusivamente a partir desta imagem, o problema mantém-se A utilização de blocos de dimensão fixa de 4 4 ou de 16 16, não se revela vantajosa face ao bloco de 8 8 Com blocos de 4 4 eleva-se a SNR (e a PQS) mas diminui-se a taxa de compressão A utilização de blocos de aumenta a complexidade de codificação, obtém maior taxa de compressão mas diminui demasiado a SNR Uma solução possível consiste na utilização de blocos com dimensão variável A figura 522 apresenta as imagens peppers e camera, codificadas com blocos de dimensão variável, com quatro camadas, de dimensões {16 16, 8 8, 4 4 e 2 2}, utilizando MP, sem índices, com número variável de coeficientes Os valores da distorção admissível são Max = 734 para a primeira camada e Max = 367 para as restantes, no caso da imagem peppers Para a imagem camera estes valores são 69 e 345, respectivamente Verifica-se que, para a mesma taxa de compressão obtêm-se SNR e PQS superiores, para a imagem camera, (comparar com gráfico da figura 520 e figura 521) Este exemplo mostra que a codificação com blocos de dimensão variável utiliza blocos de pequena dimensão (4 4 e 2 2) para codificar zonas de maior detalhe No caso da imagem peppers, a utilização de blocos de dimensão variável, nestas condições de teste, obtém resultados ligeiramente inferiores, em relação ao teste anterior (figura 521) A imagem peppers não tem características de detalhe tão acentuadas como a imagem camera A imagem peppers tem SAM=9181 e SFM=2006, enquanto que na imagem camera estes valores são SAM=4605 e SFM=2885 A imagem camera tem mais detalhe em alta frequência do que a peppers, porque apresenta maior SFM e menor SAM PQS= -228 SNR=1403 db 050 bpp PQS= 009 SNR=1605 db 054 bpp MP MP Figura 522: Codificação das imagens peppers e camera com blocos de dimensão variável em quatro camadas Após a codificação destas imagens contabilizou-se o número de blocos e de coeficientes

138 55 Avaliação dos codificadores 123 utilizados e a sua distribuição ao longo das quatro camadas Estes resultados são apresentados na tabela 52 Na camada de dimensões 2 2, utiliza-se apenas um coeficiente por bloco Verifica-se que a imagem camera utiliza mais blocos de e de 2 2 do que a peppers, devido às zonas aproximadamente constantes (o fundo da imagem camera) e às zonas de detalhe acentuado, respectivamente O número total de blocos e coeficientes utilizados na imagem camera é superior ao utilizado na imagem peppers O valor de Max controla a distorção, a distribuição de blocos e coeficientes nas várias camadas e a taxa de compressão C 0 (16 16) C 1 (8 8) C 2 (4 4) C 3 (2 2) Total Peppers Blocos Coeficientes Camera Blocos Coeficientes Tabela 52: Número de blocos e coeficientes utilizados na codificação das imagens peppers e camera com blocos de dimensão variável, em quatro camadas designadas por C 0,C 1,C 2 e C 3 As imagens codificadas apresentam-se na figura 522 A análise destas imagens com o método de blocos de dimensão fixa de 8 8, utilizaria 1024 blocos no total As duas imagens são analisadas na versão de blocos de dimensão variável, com número total de blocos superior a 1024 Apesar do aumento do número de blocos, o número total de coeficientes não cresce na mesma proporção, devido à utilização do critério de distorção em todas as camadas Comparativamente com os gráficos da figura 520, verifica-se nos resultados da figura 522 que, para a mesma taxa de compressão, se obtêm valores de SNR idênticos aos do JPEG para a imagem camera, e inferiores no caso da imagem peppers Sobre esta imagem, para obter resultados semelhantes aos do JPEG é necessário alterar o valor da máxima distorção admissível Max A figura 523 mostra a imagem camera codificada com JPEG e JPEG2000, utilizando aproximadamente a taxa de compressão da figura 522 Verifica-se que o JPEG2000 é o codificador que obtém maior SNR e PQS Note-se que o codificador JPEG2000 tem maior complexidade do que o JPEG Comparando a imagem codificada com JPEG com a da figura 522, codificada com ACI, verifica-se que a relação débito-distorção é semelhante, mas a imagem produzida pela ACI apresenta melhor qualidade visual (medida PQS) do que a de JPEG Esta diferença deve-se fundamentalmente ao efeito de bloco (blocking effect) [92] produzido pelo JPEG, na zona do céu por cima da cabeça do operador Tal como discutido na secção 454, a distorção de fronteira de bloco horizontal e vertical, causada pelo efeito de bloco, é um dos factores contabilizados (e penalizados) pela PQS

139 124 Arquitectura e avaliação dos codificadores PQS= -108 SNR=1588 db 054 bpp PQS= 049 SNR=1931 db 054 bpp JPEG JPEG2000 Figura 523: Codificação da imagem camera com JPEG e JPEG2000, para a taxa de compressão 054 bpp A codificação com blocos de dimensão fixa 8 8 também produz imagens com menor distorção, ou seja, SNR e PQS superiores às do JPEG, para a mesma taxa de compressão A imagem camera possui características de detalhe, tais como a transição entre o casaco do operador e o fundo, as quais são mal aproximadas com CI de imagem natural, com blocos de dimensão fixa A figura 524 apresenta os gráficos débito-distorção, para as imagens mandrill e bird, nas mesmas condições dos testes da figura 520 (com blocos de dimensão fixa 8 8) Constata-se a melhor SNR da ACI (com MP e HRP) face ao JPEG, para uma gama SNR (db) +MP HRP xjpeg ojpeg SNR (db) +MP HRP xjpeg ojpeg bpp bpp Figura 524: Débito-distorção obtida por MP, HRP, JPEG e JPEG2000 na codificação das imagens mandrill (esquerda) e bird (direita) razoável de valores de taxa de compressão: até 065 bpp na imagem mandrill e 032 bpp na imagem bird Note-se o ganho na SNR do JPEG2000 face ao JPEG, para a mesma taxa de compressão, especialmente sobre a imagem bird Na figura 525 apresentam-se

140 55 Avaliação dos codificadores 125 versões da imagem mandrill para a taxa de compressão de 044 bpp, com ACI, JPEG e JPEG2000 Verifica-se a superioridade da ACI em termos de SNR e PQS face ao JPEG, ficando ambos aquém do JPEG2000, nestas duas medidas A imagem mandrill apresenta SAM=2484 e SFM=3322 e tem mais detalhe nas altas frequências do que a imagem bird que apresenta SAM=54796 e SFM=1104 PQS= -067 SNR=737 db 044 bpp PQS= -114 SNR=68 db 044 bpp PQS= -007 SNR=876 db 044 bpp ACI (com MP 8x8) JPEG JPEG2000 Figura 525: Imagem mandrill codificada com ACI (bloco 8 8), JPEG e JPEG2000, para a taxa de compressão 044 bpp A figura 526 apresenta os resultados obtidos para a imagem bird, com taxa de compressão 030/031 bpp, utilizando HRP em vez de MP Apesar do efeito de bloco notado nos contornos, a imagem codificada com ACI apresenta melhor qualidade visual do que a codificada com JPEG Estas duas imagens têm valores de SNR próximos, mas a qualidade visual é bastante diferente: nem sempre a SNR traduz a qualidade visual das imagens Os resultados obtidos pelo codificador JPEG2000 são significativamente superiores aos restantes PQS= -111 SNR=1684 db 030 bpp PQS= -153 SNR=1668 db 031 bpp PQS= 224 SNR=2354 db 031 bpp ACI (com HRP 8x8) JPEG JPEG2000 Figura 526: Imagem bird codificada com ACI (bloco 8 8), JPEG e JPEG2000, para a taxa de compressão 030/031 bpp

141 126 Arquitectura e avaliação dos codificadores Abordagem 2: Base ortogonal Na abordagem com base ortogonal utilizam-se blocos de dimensões 8 8 A quantização dos coeficientes é do tipo Lloyd com cinco bits para cada As transformadas ortogonais são obtidas por: ACP sobre as observações usadas na ACI; ACP após ACI; ortogonalização de GS após ACI Realiza-se ortogonalização sobre as bases ACI completa e sobre-completa utilizadas nos testes anteriores Na comparação das variantes consideradas utilizou-se a imagem goldhill A figura 527 apresenta os resultados débito-distorção com a ortogonalização sobre a base completa (gráfico da esquerda) e base sobre-completa (gráfico da direita), utilizando os primeiros N coeficientes Apresentam-se também os resultados débito-distorção dos codificadores JPEG e JPEG2000 Constata-se que a ortogonalização de GS é a que produz a pior relação +ACP (ACI+ACP) x(aci+gs) ojp >JP ACP (ACI+ACP) x(aci+gs) ojp >JP SNR (db) SNR (db) bpp bpp Figura 527: Débito-distorção na codificação da imagem goldhill com ortogonalização da base obtida por ACI Comparação com a base ACP e os codificadores JPEG e JPEG2000 Utilização dos N primeiros coeficientes e blocos de dimensões 8 8 Base ACI completa (esquerda) e sobre-completa (direita) débito-distorção, porque se está a utilizar base ortogonal sobre as N CI mais votadas (ver secção 452) Tal como constatado no capítulo 4, esta base ortogonal não concentra mais energia do que a base ACP A ACP sobre as observações obtém relação débito-distorção igual ou superior à obtida pelo JPEG A ACP após ACI obtém resultados idênticos aos do JPEG, sendo superiores para taxas de compressão inferiores a 04 bpp Na ACP após ACI, quando usadas base sobre-completa e completa, as relações débito-distorção são semelhantes: verifica-se que ACP após ACI sobre-completa é ligeiramente superior a ACP após ACI completa, sem ultrapassar os resultados de ACP sobre as observações Para taxas de compressão até 05 bpp, a utilização de GS após ACI sobre-completa é superior a GS após ACI completa O ganho de codificação de transformada, para transformadas ortogonais, definido na

142 55 Avaliação dos codificadores 127 equação (46) é utilizado para comparar as transformadas A tabela 53 apresenta o ganho, com os primeiros 10, 20, 30, 40, 50 e 60 coeficientes, para as três transformadas consideradas (figura 527) Apresenta-se como referência o ganho da transformada obtida por ACP das observações Para todas estas transformadas, foram desenhados quantizadores de Lloyd com o mesmo número de bits por coeficiente e estabelecido modelo de fonte adequado Número de Base completa Base sobre-completa coeficientes (N) ACP ACI+ACP ACI+GS ACI+ACP ACI+GS Tabela 53: Ganho de codificação de transformada (equação 46) para as transformadas ortogonais nos N primeiros coeficientes, na codificação da imagem goldhill A ortogonalização da base ACI sobre-completa por ACP apresenta maior concentração de energia do que a ortogonalização da base ACI completa Na ortogonalização de GS, ocorre o inverso Note-se que o procedimento de GS é um método sequencial que converge, num espaço de dimensão N quando opera sobre N vectores linearmente independentes Incluindo a base sobre-completa com 126 vectores, apenas são considerados os primeiros 64 no processo de ortogonalização Assim, os vectores da base sobre-completa foram ordenados por ordem decrescente de votação (ver secção 452) Confrontando os resultados da tabela 53 com os gráficos da figura 527, verifica-se que, no caso da ortogonalização de GS, maior ganho de concentração de energia não implica sempre melhor relação débitodistorção, para taxas de compressão inferiores a 05 bpp A figura 528 apresenta os resultados dos testes realizados nas condições dos da figura 527, mas escolhendo os N maiores coeficientes em valor absoluto Em ambos os casos, as relações débito-distorção são inferiores às obtidas na experiência anterior Embora se esteja a utilizar codificação com distribuição esparsa, os resultados não superam o JPEG nem o JPEG2000 Na generalidade dos testes efectuados, esta variante de codificação utilizando blocos de dimensão fixa apresenta resultados débitodistorção inferiores aos obtidos quando se codifica com os primeiros N coeficientes Face à codificação com distribuição compacta do caso anterior, tem-se agora codificação com distribuição esparsa que concentra mais energia (maior SNR) que os primeiros N coefi-

143 128 Arquitectura e avaliação dos codificadores +ACP (ACI+ACP) x(aci+gs) ojp >JP ACP (ACI+ACP) x(aci+gs) ojp >JP SNR (db) SNR (db) bpp bpp Figura 528: Débito-distorção na codificação da imagem goldhill com ortogonalização da base obtida por ACI Comparação com a base ACP e os codificadores JPEG e JPEG2000 Utilização dos N maiores coeficientes em valor absoluto e blocos de dimensões 8 8 Base ACI completa (esquerda) e sobre-completa (direita) cientes, mas a taxa de compressão degrada-se, obtendo relação débito-distorção inferior Mantém-se a supremacia da ACP em relação à ACP após ACI e GS após ACI, para as bases completa e sobre-completa Face ao teste da figura 527, os resultados de ACP após ACI e GS após ACI têm menor diferença Capacidade de generalização Para avaliar a capacidade de generalização de CI de imagem natural foi codificada uma imagem de face humana, da base de imagens do laboratório da AT&T na Universidade de Cambridge 3 Na figura 529 apresentam-se os resultados obtidos, bem como os dos codificadores JPEG e JPEG2000, para a taxa de compressão de 060/061 bpp Utilizamse três codificadores baseados na ACI, assente na base ortogonal ACP após ACI, com a estratégia dos primeiros N coeficientes Consideram-se os modos de operação: blocos de dimensão 8 8, utilizando os primeiros 14 coeficientes; blocos de dimensão variável de 3 camadas {16 16, 8 8 e 4 4}; para estas camadas utilizam-se, os primeiros 35, 15 e 4 coeficientes, respectivamente, com Max = 13 para as camadas de dimensões e 8 8; multi-resolução com duas camadas (figura 51), com os 20 e 40 primeiros coeficientes nas camadas 0 e 1, respectivamente 3

144 55 Avaliação dos codificadores 129 SFM= 102 SAM=3779 PQS= -383 SNR=1336 db 060 bpp PQS= 147 SNR=2219 db 060 bpp Original PQS= -149 SNR=1731 db 060 bpp JPEG PQS= 024 SNR=1852 db 061 bpp JPEG2000 PQS= -089 SNR=1773 db 060 bpp ACI (dimensão variável) ACI (dimensão fixa) ACI (multi-resolução) Figura 529: Codificação de imagem de face humana Base ACI de imagem natural Verifica-se que o JPEG2000 é o codificador com melhores SNR e PQS Os três codificadores baseados na ACI, obtêm para a mesma taxa de compressão, valores de SNR e PQS superiores aos do codificador JPEG Os codificadores baseados na ACI têm valores idênticos de SNR, com diferenças assinaláveis nos valores de PQS A ACI operando com blocos de dimensão 8 8 não provoca o efeito de bloco, típico do JPEG Este efeito de distorção visual reflecte-se no valor de PQS da imagem codificada com JPEG Constata-se capacidade de generalização da ACI de imagem natural A figura 530 apresenta os resultados da codificação de imagem de impressão digital, nas condições do teste anterior Os codificadores baseados na ACI operam nos seguintes modos: blocos de dimensão 8 8, utilizando os primeiros 7 coeficientes; blocos de dimensão variável de 3 camadas {16 16, 8 8 e 4 4}, utilizando os primeiros 35, 15 e 4 coeficientes, respectivamente; utiliza-se Max = 25 para as camadas de dimensões e 8 8 Comparam-se os resultados com os obtidos pelos codificadores WSQ (wavelet scalar quantization) (dedicado a este tipo de imagem e utilizado pelo FBI-federal bureau of investiga-

145 130 Arquitectura e avaliação dos codificadores tion [21]), JPEG e JPEG2000, para taxas de compressão próximas de 06 bpp Constata-se SFM=1054 SAM= PQS= 241 SNR=1983 db 060 bpp PQS= 105 SNR=165 db 059 bpp Original PQS= 287 SNR=2100 db 060 bpp WSQ PQS= 14 SNR=158 db 062 bpp JPEG PQS= 100 SNR=1631 db 060 bpp JPEG2000 ACI (dimensão fixa) ACI (dimensão variável) Figura 530: Codificação de imagem de impressão digital Base ACI de imagem natural que a ACI com blocos de dimensão variável obtém o melhor débito-distorção, contrariamente à experiência anterior sobre imagens de face humana Os resultados obtidos com os codificadores ACI são inferiores aos do codificador WSQ, em SNR e PQS O codificador JPEG2000 tem SNR e PQS mais elevados, para esta taxa de compressão Verifica-se que a codificação com ACI utilizando blocos de dimensão fixa tem menor SNR e maior PQS do que a codificação assente em blocos de dimensão variável É razoável concluir que a capacidade de generalização da ACI de imagem natural, para este tipo de imagem é inferior à apresentada para imagem de face humana Percepção visual e relação sinal/ruído Para verificar o comportamento para imagens sintéticas e mostrar que o facto de uma imagem possuir maior SNR que outra, não implica que tenha PQS superior, codificou-se a imagem circles (do conjunto apresentado na figura 513) Mantiveram-se as condições de codificação da imagem de face humana (figura 529) Analisando a figura 531, verificase que a imagem resultante da codificação ACI com blocos de dimensão variável é a que apresenta melhor qualidade visual Em relação ao codificador JPEG2000, embora a SNR

146 55 Avaliação dos codificadores 131 SAM=3625 SFM=2634 PQS= SNR=1456 db 026 bpp PQS= -628 SNR=1862 db 014 bpp Original JPEG PQS= -328 SNR=1710 db 014 bpp PQS= -952 SNR=1498 db 014 bpp JPEG2000 PQS= -166 SNR=1342 db 015 bpp ACI (dimensão variável) ACI (dimensão fixa) ACI (multi-resolução) Figura 531: Codificação da imagem circles Base ACI de imagem natural seja inferior, a PQS é superior Este exemplo ilustra melhor adequação da PQS face à SNR em termos de percepção visual da imagem Visualmente, a imagem codificada com o JPEG2000 tem mais artefactos do que a codificada com a ACI com blocos de dimensão variável Na imagem de multi-resolução, a PQS é bastante baixa, devido ao efeito de bloco nos contornos O esquema de multi-resolução não é indicado para codificar imagens com estas características Verifica-se ainda que a ACI com blocos de dimensão fixa tem melhor relação débito-distorção do que o JPEG (note-se a diferença entre as taxas de compressão) A figura 532 mostra a imagem bridge e as obtidas com os codificadores Contrariamente ao teste anterior, de todos os codificadores baseados na ACI, o esquema de multi-resolução é o que obtém maior PQS (superior à do JPEG, embora este apresente SNR ligeiramente superior) O codificador baseado na ACI com blocos de dimensão fixa 8 8 obtém maior PQS e menor SNR, do que o JPEG Aplicação ao conjunto de teste Sobre as oito imagens naturais de teste apresentadas na figura 513, aplicaram-se os dois codificadores baseados na ACI, com blocos de dimensão fixa e variável, utilizados na cod-

147 132 Arquitectura e avaliação dos codificadores SAM=2989 SFM=301 PQS= -04 SNR=1236 db 074 bpp PQS= 030 SNR=1406 db 072 bpp Original JPEG JPEG2000 PQS= -085 SNR=1112 db 073 bpp PQS= -03 SNR=1176 db 073 bpp PQS= -026 SNR=1221 db 073 bpp ACI (dimensão variável) ACI (dimensão fixa) ACI (multi-resolução) Figura 532: Codificação da imagem bridge Base ACI de imagem natural ificação de imagem de face humana na figura 529 Na tabela 54, onde se apresentam os resultados, estes codificadores são designados por ACI 1 e ACI 2, respectivamente Comparam-se os resultados com os obtidos pelo codificador JPEG, para a taxa de compressão 05 bpp, aproximadamente Assinalam-se os melhores resultados de SNR e PQS em fonte negrito Verifica-se que os codificadores baseados na ACI obtêm resultados próximos do codificador JPEG e que nem sempre a maior SNR corresponde à maior PQS Nenhum dos codificadores baseados na ACI é sistematicamente superior a outro num número significativo de imagens 552 Conjuntos específicos de imagens Imagens de impressões digitais No capítulo 4 mostrou-se a capacidade de adaptação da ACI a conjuntos específicos de imagens Aplicam-se agora codificadores que utilizam base ACI extraída a partir de imagens de impressão digital Repete-se o teste da figura 530, utilizando a base ACI especializada para imagens de impressão digital e apresentam-se os resultados na figura 533

148 55 Avaliação dos codificadores 133 ACI 1 ACI 2 JPEG Imagem (SAM,SFM) SNR PQS SNR PQS SNR PQS barbara (5334, 2445) bird (54796, 1104) bridge (2989, 301) boat (9613, 234) camera (4605, 2885) goldhill (4669, 2329) mandrill (2484, 3322) peppers (9181, 2006) Média Mediana Desvio Padrão Tabela 54: Comparação entre codificação ACI e JPEG sobre imagens naturais do conjunto de teste da Universidade de Waterloo, para a taxa de compressão 05 bpp, aproximadamente A SNR está indicada em db PQS= 241 SNR=1983 db 060 bpp PQS= 216 SNR=1811 db 061 bpp PQS= 237 SNR=1966 db 060 bpp WSQ ACI (dimensão fixa) ACI (dimensão variável) Figura 533: Codificação de imagem de impressão digital Base ACI de imagem de impressão digital Face aos resultados da figura 530 verifica-se a capacidade de adaptação dos codificadores baseados na ACI, atingindo relação débito-distorção idêntica à do codificador WSQ Relativamente à figura 530, para a mesma taxa de compressão, verificam-se ganhos de 23 e 33 db na SNR, para as versões com blocos de dimensão fixa e dimensão variável, respectivamente Apresentam-se, na figura 534, os resultados obtidos na codificação da imagem natural bridge sobre esta base Obtêm-se resultados francamente inferiores, comparativamente aos da figura 532, quando se codificou sobre base ACI de imagem natural

149 134 Arquitectura e avaliação dos codificadores PQS= -238 SNR=742 db 102 bpp PQS= -025 SNR=772 db 082 bpp PQS= -163 SNR=881 db 082 bpp ACI (dimensão variável) ACI (dimensão fixa) ACI (multi-resolução) Figura 534: Codificação da imagem bridge com ACI Base ACI de imagem de impressão digital Dado que se trata de ACI extraída a partir duma classe mais específica, verifica-se que existe adaptação a essa classe, perdendo-se capacidade de generalização para imagens naturais A base ACI de imagens naturais apresenta maior capacidade de generalização do que a base ACI de imagens de impressão digital Imagens de faces humanas Especializou-se a base ACI para imagens de faces humanas, recolhendo observações a partir de duas imagens diferentes da imagem em teste Utilizam-se os mesmos codificadores das experiências anteriores, apresentando-se os resultados na figura 535 A técnica de PQS= -019 SNR=1835 db 059 bpp PQS= 026 SNR=1769 db 059 bpp PQS= -073 SNR=1789 db 060 bpp ACI (dimensão variável) ACI (dimensão fixa) ACI (multi-resolução) Figura 535: Codificação de imagem de face humana com ACI Base ACI de imagem de face humana blocos de dimensão fixa obtém PQS superior e SNR inferior, em relação à de blocos de dimensão variável Comparativamente à codificação desta imagem sobre ACI de imagens

Exibir mais