Caracterização de Imagens via Redes Neurais Artificiais

Caracterização de Imagens via Redes Neurais Artificiais Autor: Eduardo Ferreira Ribeiro 1, Orientadora: Celia Zorzo Barcelos 1 1 Programa de Pós-Graduação em Ciência da Computação Universidade Federal do Uberlândia (UFU) Uberlândia MG Brasil ufu.eduardo@gmail.com, celiazb@ufu.br Nível: Mestrado Ano de ingresso no programa: 2007 Época esperada de conclusão: Março / 2009 Resumo. Sistemas de Recuperação de Imagens Baseada em Conteúdo (CBIR) se utilizam da hipótese de correspondência de uma dada imagem a outra a partir de seus atributos como cor, forma e textura. Porém, tais atributos geralmente falham em descrever conceitos semânticos de alto nível da mente dos usuários. Este trabalho propõe, através do aprendizado neural, a representação do conhecimento subjetivo usado por seres humanos para a verificação de quais aspectos são mais importantes na caracterização de imagens. Um vetor de características de alto nível será formado com uso de técnicas de Inteligência Artificial, mais especificamente pelas Redes Neurais Artificiais para dar às características de baixo nível (cor, forma e textura) uma nova interpretação baseada nas semânticas inerentes das imagens adquiridas durante a fase de treinamento da rede. Palavras-Chave. Recuperação de Imagens Baseada em Conteúdo, Redes Neurais Artificiais, Semânticas de Alto Nível, Aprendizado Neural, Caracterização de Imagens.

1. Introdução e Motivação Nos últimos tempos a Recuperação de Imagens Baseada em Conteúdo tem sido um significante objeto de pesquisa em visão computacional e processamento de imagens. Uma das características de um sistema de Recuperação de Imagens Baseada em Conteúdo (CBIR) é a de extrair informações a partir das imagens que venham a caracterizar seu conteúdo. Para isso, utilizam-se principalmente aspectos primitivos ou características de baixo nível como cor, textura e forma ou uma combinação destas para refletir a semântica inerente da imagem, o que muitas vezes não ocorre, pois os métodos automáticos de extração de características geralmente se concentram em propriedades locais de imagens, sendo que a percepção humana das imagens é mais holística. Devido ao fato de que a percepção humana é o ponto de referência para a comparação da eficiência dos sistemas de recuperação, o desenvolvimento de um sistema ideal se torna cada vez mais desafiador. Da mesma maneira que a visão humana é considerada um processo inteligente, capaz de extrair padrões das imagens que as caracterize, assim como fazer inferências e generalizações através desses padrões associados a uma informação prévia, um sistema de recuperação ideal também deve ser capaz de extrair tais padrões e fazer tais inferências semânticas. Deste modo os atributos de uma rede neural, tais como aprender através de exemplos, generalização de redundâncias e tolerância a falhas, proporcionam fortes incentivos para a escolha de redes neurais como uma alternativa apropriada para uma modelagem de um sistema de recuperação baseado em semântica de alto nível [Bishop 1995]. No entanto, em muitos sistemas atuais, os conceitos semânticos de alto nível são apresentados apenas com palavras chave [Zhang and Izquierdo 2007], o que pode limitar e comprometer o sucesso da consulta. A principal força na estrutura das redes neurais reside em sua habilidade de adaptação e aprendizagem. Isso significa que modelos de redes neurais podem lidar com dados imprecisos e situações não totalmente definidas, ou seja, uma rede treinada de maneira razoável tem a habilidade de generalizar quando é apresentada a entradas que não estão presentes em dados já conhecidos por ela [Haykin 2001]. Baseando-se nisso, este trabalho apresenta a formação de vetores de características de alto nível através do conhecimento adquirido pelo aprendizado das redes neurais que generaliza os conceitos semânticos da mente do usuário. Esta aproximação torna-se um aspecto importante para a redução do gap-semântico na recuperação de imagens baseada em conteúdo. 2. Trabalhos Relacionados Para tentar reduzir o gap-semântico existente entre o poder limitado de interpretação semântica pelas máquinas e a rica subjetividade do pensamento humano, alguns trabalhos baseados em semânticas de alto nível têm sido propostos através do uso de ferramentas formais como as técnicas de aprendizado supervisionado [Sethi et al. 2001]. O objetivo do aprendizado supervisionado é fornecer um resultado (por exemplo, uma categoria semântica à qual a consulta pertence) baseado em uma série de medidas de entrada [Hastie et al. 2001]. Algumas técnicas como o uso do Support Vector Machine (SVM) [Shi et al. 2004] podem ser utilizadas para aprender conceitos de alto nível (como categorias semânticas) através de características de baixo nível (como atributos de cor, forma e textura) [Liu et al. 2007]. Com teoria e aplicações bem fundamentadas, o SVM tem sido muito utilizado para reconhecimento de objetos, classificação de textos, etc. e é considerado um bom candidato

para o aprendizado em sistemas de recuperação de imagens [Tong and Chang 2001]. O SVM foi originalmente desenvolvido para classificação binária e através dele pode-se encontrar um espaço n-dimensional (entre características de baixo nível, por exemplo) onde um hiperplano separador é construído. Dentre os possíveis hiperplanos, o plano separador ótimo (OSP) irá maximizar a distância entre o hiperplano e os pontos mais próximos de cada classe utilizando, assim, esse separador para classificar as imagens [Shi et al. 2004]. As Redes Neurais têm sido utilizadas para se fazer a classificação de imagens. Nesse caso um grande número de dados de treinamento (características de baixo nível) é inserido na rede neural para estabelecer o vínculo entre os atributos de baixo nível das imagens e suas semânticas de alto nível (categorias) [Town and Sinclair 2000]. A classificação se dá na constituição de fronteiras de decisão não lineares no espaço de características de baixo nível, adequando a imagem consulta ao grupo em que ela mais se aproxima. A partir desta classificação, cada grupo será associado à um conceito semântico e tais conceitos serão utilizados na recuperação de imagens. Em [Gonzalez et al. 2006], Alain et. al descreve a combinação de Redes Neurais e Wavellets para a recuperação de imagens em termos de seu conteúdo. Uma desvantagem desse método é que o mesmo requer um grande número de dados de treinamento sendo computacionalmente extensivo além de retornar apenas imagens pertencentes a categorias pré-estabelecidas. A nossa abordagem utiliza redes neurais para caracterizar imagens de uma forma genérica baseando-se nas categorias semânticas intrínsecas de uma imagem consulta e não de categorias pré-estabelecidas, ou seja, o sistema irá fazer a busca de imagens em categorias não estabelecidas durante o treinamento baseando-se na capacidade de generalização da rede neural, fazendo com que o sistema retorne imagens mais semelhantes a uma dada imagem consulta através dos vetores de características provenientes da rede. 3. Metodologia e Cronograma do Trabalho até a Defesa Nossa pesquisa tem como objetivo fazer uma análise dos sistemas que utilizam redes neurais para a seleção de características e propor uma forma de caracterização de imagens utilizando a inteligência artificial, mais especificamente as redes neurais artificiais (rna s), para constituir fronteiras de decisão altamente não-lineares no espaço de características de baixo nível, formando um novo vetor de características de alto nível permitindo uma redução substancial do espaço de armazenamento além de ponderar as características e salientar as mais importantes baseando-se em exemplos predefinidos. Para isso, as rna s irão atuar como uma abstração matemática inspirada no cérebro humano para adquirir conhecimento através da experiência (treinamento da rede). Após realizado este treinamento, os pesos da rede estarão prontos para serem usados na fase de caracterização em alto nível. Os vetores resultantes desta operação serão utilizados como parâmetro de similaridade entre as imagens. O plano de trabalho a ser utilizado para que se concretize o objetivo é composto pelos seguintes ítens: 1. Levantamento, análise e estudo do material bibliográfico. 2. Implementação e treinamento de rede neural artificial simples com atributos de cor. 3. Implementação e treinamento de rede reural artificial simples com atributos de cor, forma e textura. 4. Sofisticação da rede neural. 5. Recuperação de imagens no banco de dados e avaliação dos resultados obtidos. 6. Comparação dos resultados finais obtidos com outros métodos e avaliação de performance.

7. Escrita da dissertação. 8. Escrita e submissão de trabalhos à congressos e revistas. 9. Término da dissertação e elaboração da apresentação. A Tabela 1 apresenta o cronograma de atividades de acordo com a metodologia proposta desde a concepção da pesquisa até a apresentação à banca examinadora. Os números à esquerda da tabela correspondem aos mesmos números listados em cada ítem da metodologia. Cronograma 2007 2008 2009 Metodologia 1 2 3 4 5 6 7 8 9 Outubro Novembro Dezembro Janeiro Fevereiro Março Abril Maio Junho Julho Agosto Setembro Outubro Novembro Dezembro Janeiro Fevereiro Tabela 1. Cronograma de atividades para a execução do projeto. 4. Alguns Resultados Preliminares A seguir, alguns resultados experimentais obtidos pelo implementação do método proposto são mostrados. Foram utilizados como características de baixo nível os histogramas de cores nos três canais RGB para dar suporte ao treinamento de uma rede neural simples do tipo Perceptron e para a caracterização em alto nível através rede já treinada. As imagens utilizadas neste experimento pertencem à um banco de dados montado pelo próprio grupo de pesquisa com 12750 imagens de várias categorias semânticas. O ranking de similaridade foi formado pela comparação do vetor de alto nível da imagem consulta com todos os outros vetores através da distancia euclidiana. A Figura 1 (a e b) mostra a excelente adaptação da rede neural para outros tipos de categorias semânticas (diferentes das usadas na fase de treinamento). A Figura 1 (c) mostra uma imagem possuindo a mesma categoria usada em uma das classes de treinamento (construções), pode-se notar que as 12 primeiras imagens recuperadas pertencem à mesma categoria semântica, demonstrando o potencial da rede neural para aprender conceitos. Como pôde-se observar, apesar de ter sido implementada uma rede neural simples e testada apenas com atributos de cor como entradas da rede, a mesma apresentou resultados promissores demonstrando sua potencialidade. Baseando-se nisso vamos explorar o incremento da implementação do modelo proposto com o aumento do número de características de baixo nível a serem extraídas como forma e textura, bem como aumentar o número de classes para

Figura 1. Resultados obtidos pelo modelo proposto no banco de imagens BD-12750. testar se a rede neural ficara ainda mais robusta e se podera gerar caracterı sticas de alto nı vel que distinguam ainda mais as sema nticas de alto nı vel utilizadas por interpretadores humanos. Refere ncias Bishop, C. M. (1995). Neural Networks for Pattern Recognition. Oxford University Press. Gonzalez, A. C., Sossa, J. H., Felipe, E. M., and Pogrebnyak, O. (2006). Wavelet transforms and neural networks applied to image retrieval. In ICPR 06: Proceedings of the 18th International Conference on Pattern Recognition, pages 909 912, Washington, DC, USA. IEEE Computer Society. Hastie, T., Tibshirani, R., and Friedman, J. (2001). The Elements of Statistical Learning: Data Mining, Inference, and Prediction. New York: Springer-Verlag. Haykin, S. (2001). Redes Neurais: Princı pio e Pra tica. 2 edition. Liu, Y., Zhang, D., Lu, G., and Ma, W.-Y. (2007). A survey of content-based image retrieval with high-level semantics. Pattern Recogn., 40(1):262 282. Sethi, I. K., Coman, I. L., and Stan, D. (2001). Mining association rules between low-level image features and high-level concepts. Proceedings of the SPIE Data Mining and Knowledge Discovery, III:279 290. Shi, R., Feng, H., Chua, T.-S., and Lee, C.-H. (2004). An adaptive image content representation and segmentation approach to automatic image annotation. International Conference on Image and Video Retrieval (CIVR), pages 545 554. Tong, S. and Chang, E. (2001). Support vector machine active learning for image retrieval. In MULTIMEDIA 01: Proceedings of the ninth ACM international conference on Multimedia, pages 107 118, New York, NY, USA. ACM Press. Town, C. and Sinclair, D. (2000). Content based image retrieval using semantic visual categories. Zhang, Q. and Izquierdo, E. (2007). Combining low-level features for semantic inference in image retrieval. Eurassip - Journal on Advances in Signal Processing, April.