Recuperação de Imagens Baseada em Conteúdo



Documentos relacionados
Indexação e Recuperação de Imagens por Conteúdo. Cleigiane Lemos Josivan Reis Wendeson Oliveira

Descritores de textura na análise de imagens de microtomografia computadorizada

ANÁLISE DE FORMAS PLANAS EM IMAGENS DIGITAIS

ARQUITETURA DE UM SISTEMA SPATIO-TEXTUAL. PALAVRAS-CHAVE: banco de dados espaciais, busca spatio-textual. aplicativo.

Descritores de Imagem

UNIVERSIDADE FEDERAL DE SANTA CATARINA GRADUAÇÃO EM SISTEMAS DE INFORMAÇÃO DEPARTAMENTO DE INFORMÁTICA E ESTATÍSTICA DATA MINING EM VÍDEOS

SUMÁRIO. Introdução... 3

Prof. Júlio Cesar Nievola Data Mining PPGIa PUCPR

Faculdades Santa Cruz - Inove. Plano de Aula Base: Livro - Distributed Systems Professor: Jean Louis de Oliveira.

Recuperação de imagens por conteúdo baseada em realimentação de relevância e classicador por oresta de caminhos ótimos

Ambiente de Gerenciamento de Imagens e Dados Espaciais para Desenvolvimento de Aplicações em Biodiversidade

PROCESSO DE DESENVOLVIMENTO DE SOFTWARE. Modelos de Processo de Desenvolvimento de Software

Descritores de Imagens

Resultados Experimentais

Recuperação de Imagens: Desafios e Novos Rumos

Objetivos. Processos de Software. Tópicos abordados. O processo de software. Modelos genéricos de modelos de processo de software.

Processamento de Imagem. Prof. MSc. André Yoshimi Kusumoto

Cálculo de volume de objetos utilizando câmeras RGB-D

Universidade Federal de Goiás Instituto de Informática Processamento Digital de Imagens

Otimização de Recuperação de Informação usando Algoritmos Genéticos

5 Extraindo listas de produtos em sites de comércio eletrônico

CorelDRAW UM PROGRAMA DE DESIGN

Aplicação de Ensembles de Classificadores na Detecção de Patologias na Coluna Vertebral

CLASSIFICAÇÃO AUTOMÁTICA DE PATENTES COM O MODELO VETORIAL DE REPRESENTAÇÃO DE DOCUMENTOS

QFD: Quality Function Deployment QFD: CASA DA QUALIDADE - PASSO A PASSO

Chow&Kaneko buscam as modas da imagem para separar os objetos. Admite que os tons na vizinhança de cada moda são do mesmo objeto.

O Software Face Match

Análise e visualização de dados utilizando redes neurais artificiais auto-organizáveis

RECONHECIMENTO DE PLACAS DE AUTOMÓVEIS ATRAVÉS DE CÂMERAS IP

Algoritmos e Programação (Prática) Profa. Andreza Leite andreza.leite@univasf.edu.br

UNIVERSIDADE F EDERAL DE P ERNAMBUCO ANÁLISE DE UM MÉTODO PARA DETECÇÃO DE PEDESTRES EM IMAGENS PROPOSTA DE TRABALHO DE GRADUAÇÃO

ADM041 / EPR806 Sistemas de Informação

Verificação de Qualidade de Imagens de Fundo de Olho a Partir de Descritores Baseados em Histogramas. Marina Silva Fouto - Reconhecimento de Padrões

Novell. Novell Teaming 1.0. novdocx (pt-br) 6 April 2007 EXPLORAR O PORTLET BEM-VINDO DESCUBRA SEU CAMINHO USANDO O NOVELL TEAMING NAVIGATOR

O que há de novo no PaperPort 11? O PaperPort 11 possui uma grande variedade de novos e valiosos recursos que ajudam a gerenciar seus documentos.

Trabalho 2 Fundamentos de computação Gráfica

Capítulo 2. Processos de Software Pearson Prentice Hall. Todos os direitos reservados. slide 1

ENGENHARIA DE SOFTWARE I

Capítulo 3. Avaliação de Desempenho. 3.1 Definição de Desempenho

Análise e Projeto Orientados por Objetos

textos documentos semi-estruturado

RECUPERAÇÃO DE DOCUMENTOS TEXTO USANDO MODELOS PROBABILISTICOS ESTENDIDOS

PALAVRAS-CHAVE: Massas Nodulares, Classificação de Padrões, Redes Multi- Layer Perceptron.

25/05/2015. Relevance Feedback. Expansão de Consulta. Relevance Feedback

A memória é um recurso fundamental e de extrema importância para a operação de qualquer Sistema Computacional; A memória trata-se de uma grande

Scale-Invariant Feature Transform

RESUMO. Palavras-Chaves: Índice Invertido, Recuperação de Imagens, CBIR. Nos últimos anos, o crescimento do número de imagens produzidas em meio

Introdução. Capítulo. 1.1 Considerações Iniciais

MINERAÇÃO DE DADOS APLICADA. Pedro Henrique Bragioni Las Casas

Arquitetura de Rede de Computadores

Aprendizagem de Máquina

3 Classificação Resumo do algoritmo proposto

Processos de gerenciamento de projetos em um projeto

Descoberta de Domínio Conceitual de Páginas Web

O PaperPort 12 Special Edition (SE) possui uma grande variedade de novos e valiosos recursos que ajudam a gerenciar seus documentos.

6. Geometria, Primitivas e Transformações 3D

Na medida em que se cria um produto, o sistema de software, que será usado e mantido, nos aproximamos da engenharia.

Feature-Driven Development

UFGD FCA PROF. OMAR DANIEL BLOCO 6 CLASSIFICAÇÃO DE IMAGENS

Organizaçãoe Recuperação de Informação GSI521. Prof. Rodrigo Sanches Miani FACOM/UFU

Material de Apoio. Sistema de Informação Gerencial (SIG)

Pós-Graduação em Gerenciamento de Projetos práticas do PMI

Autor: Patrícia Aparecida Proença 1 Orientador: Prof. Dr. Ilmério Reis da Silva 1 Co-Orientadora: Profª. Drª Celia A.

SEGEMENTAÇÃO DE IMAGENS. Nielsen Castelo Damasceno

CAP 254 CAP 254. Otimização Combinatória. Professor: Dr. L.A.N. Lorena. Assunto: Metaheurísticas Antonio Augusto Chaves

Como melhorar a tomada de decisão. slide 1

CONCURSO PÚBLICO ANALISTA DE SISTEMA ÊNFASE GOVERNANÇA DE TI ANALISTA DE GESTÃO RESPOSTAS ESPERADAS PRELIMINARES

Referências internas são os artefatos usados para ajudar na elaboração do PT tais como:

Arquiteturas RISC. (Reduced Instructions Set Computers)

SEGMENTAÇÃO DE IMAGENS EM PLACAS AUTOMOTIVAS

Classificação da imagem (ou reconhecimento de padrões): objectivos Métodos de reconhecimento de padrões

Gerenciamento de Riscos do Projeto Eventos Adversos

7.Conclusão e Trabalhos Futuros

Histórico da Revisão. Versão Descrição Autor. 1.0 Versão Inicial

Desenvolvimento do Módulo de Pré-processamento e Geração de Imagens de. Imagens de Teste do Sistema DTCOURO

Casos de teste semânticos. Casos de teste valorados. Determinar resultados esperados. Gerar script de teste automatizado.

Noções de. Microsoft SQL Server. Microsoft SQL Server

Automação de Locais Distantes

UNIVERSIDADE FEDERAL DO PARANÁ UFPR Bacharelado em Ciência da Computação

Cálculo do conjunto paralelo

Organização e Recuperação da Informação

Projeto FlexiGrid IWA. Sistema de Armazenamento e Comunicação de Imagens

Engenharia de Software e Gerência de Projetos Prof. Esp. André Luís Belini Bacharel em Sistemas de Informações MBA em Gestão Estratégica de Negócios

Dadas a base e a altura de um triangulo, determinar sua área.

PROJECTOS DE INVESTIGAÇÃO CIENTÍFICA E DESENVOLVIMENTO TECNOLÓGICO

1. Conceitos de sistemas. Conceitos da Teoria de Sistemas. Conceitos de sistemas extraídos do dicionário Aurélio:

Projeto de Arquitetura

Reconhecimento de marcas de carros utilizando Inteligência Artificial. André Bonna Claudio Marcelo Basckeira Felipe Villela Lourenço Richard Keller

Glossário Apresenta a definição dos termos, siglas e abreviações utilizadas no contexto do projeto Citsmart.

IDENTIFICAÇÃO DE MARCADORES DE PAVIMENTAÇÃO NA ORIENTAÇÃO DE CEGOS

Algoritmos e Estrutura de Dados III. Árvores

ATENÇÃO: * Arquivos com tamanho superior a 500 KB NÃO SERÃO ACEITOS * SOMENTE serão aceitos documentos do formato: PDF

Segmentação de imagens tridimensionais utilizando o sensor Microsoft Kinect

PLANOS DE CONTINGÊNCIAS

ClinicalKey 2.0. Guia do usuário

4 Segmentação Algoritmo proposto

Processamento Digital de Imagens

ESTUDO DE CASO: LeCS: Ensino a Distância

Transcrição:

Ricardo da S. Torres 1 Alexandre X. Falcão 1 Resumo: Atualmente, um grande conjunto de imagens digitais vem sendo gerado, manipulado e armazenado em bancos de dados. Dado o tamanho desses acervos, prover meios de recuperar imagens (e com elas as informações associadas) de forma eficiente e eficaz é essencial. Isto constitui o objetivo dos Sistemas de Recuperação de Imagens Baseada em Conteúdo. Este tutorial apresenta os principais problemas da área de Recuperação de Imagens Baseada em Conteúdo, discute técnicas propostas, e sugere alguns desafios de pesquisa. Abstract: Huge image collections have been created, managed and stored into databases. Given the large size of these collections, it is essential to provide efficient and effective mechanisms to retrieve images and their associated information. This is the objective of the so-called content-based image retrieval CBIR systems. We present in this tutorial the main problems in the CBIR area, discuss approaches that have been proposed, and suggest some research challenges. 1 Introdução Grandes bases de dados com imagens estão se tornando cada vez mais comuns em medicina (PACS - Picture Archival and Communication Systems), biologia, geoprocessamento (GIS - Geographical Information Systems), segurança (biometria e surveillance), etc. A forma mais comum de acesso à informação nessas bases é através de palavras-chave [41, 47], como fazemos normalmente na internet. Este tipo de consulta é apropriado para acessar em um Sistema de Informação de Biodiversidade, por exemplo, todas as imagens de espécies de peixes cadastradas em uma determinada região do país. No entanto, a tarefa de encontrar espécies de peixes com aparência similar a de uma dada imagem de consulta só é possível se compararmos características de forma e textura dos peixes, ou se tivermos uma anotação [28, 36] sobre estas características em cada imagem de peixe da base. Como esta anotação pode ser inviável ou mesmo improvável de ser realizada com as mesmas palavras-chave, a recuperação de imagens por conteúdo (forma e textura) se torna fundamental [20]. Este tutorial apresenta os problemas principais em Recuperação de Imagens Baseada 1 Instituto de Computação, UNICAMP, Caixa Postal 6176 {rtorres,afalcao@ic.unicamp.br}

em Conteúdo (CBIR - Content-Based Image Retrieval) e técnicas utilizadas para resolver alguns desses problemas. Em CBIR, as imagens são amostras de uma base, associadas a outras informações. O conteúdo das imagens pode ser representado por características de pixels, segmentos de borda, regiões, ou objetos segmentados nas imagens (e.g., os peixes). A similaridade entre duas imagens é medida por uma função de distância entre suas respectivas características. O par, função que extrai características e função de similaridade, é denominado descritor [16]. Um descritor visa agrupar imagens com características similares em uma dada região do espaço de medida (características), e grupos de imagens com características distintas em regiões diferentes deste espaço. Este aspecto tem sido explorado em estruturas de indexação para armazenar imagens similares em regiões próximas no disco do computador, e assim tornar mais eficiente a consulta [10, 30]. Uma consulta em Reconhecimento de Padrões [25] seria vista como uma imagem de teste, a qual seria classificada em um dado grupo, e as imagens deste grupo seriam retornadas como resultado da consulta. No entanto, dois aspectos fundamentais diferenciam Reconhecimento de Padrões de CBIR. Primeiro, o usuário que realiza a consulta em CBIR julga as imagens retornadas (as informações associadas a estas imagens) como relevantes ou irrelevantes para a consulta. O conceito de relevância para o usuário pode não coincidir com o agrupamento das imagens realizado pelo descritor. Isto gera um problema de pesquisa denominado gap semântico semantic gap [21,57]. Segundo, para uma mesma consulta, usuários diferentes podem julgar a relevância de uma dada imagem retornada de forma contrária. Isto significa que qualquer tentativa de classificação ou agrupamento das imagens da base, sob qualquer critério pré-estabelecido (e.g., baseado no descritor, por espécie de peixe, por região do país, etc) visando a eficiência da indexação e/ou eficácia da consulta, pode ajudar em grau maior ou menor dependendo do usuário, mas não resolve o problema por completo. A participação do usuário na formação das estruturas de indexação e na recuperação das imagens constitui, portanto, um tópico crucial de investigação. O primeiro parece ainda inexplorado, mas o segundo tem sido denominado realimentação de relevância (relevance feedback) [72]. A Figura 1 ilustra o gap semântico em um espaço de características bidimensional, onde cada imagem é representada por uma figura geométrica. Um agrupamento das imagens da base, usando um dado descritor, identifica quatro grupos de imagens na Figura 1a: quadrados brancos, quadrados pretos, círculos brancos e círculos pretos. A imagem de consulta é representada por um quadrado cinza e o usuário julga que todas as imagens do tipo quadrado são relevantes para esta consulta, independente da cor. Porém, o sistema retorna as cinco imagens mais próximas da consulta (setas na figura). A realimentação de relevância está na informação do usuário, que identifica três imagens retornadas como irrelevantes (dois círculos pretos e um branco) e duas como relevantes (dois quadrados pretos). Isto nos remete a um problema de aprendizado de máquina, neste caso em tempo de execução e com um mínimo de amostras de treinamento, onde o sistema deve aprender quais cinco imagens devem ser retornadas em uma próxima iteração. Os objetivos são reduzir o número de iterações 2 RITA Volume Número

necessárias e o esforço do usuário para retornar as imagens relevantes. Uma das estratégias é armazenar imagens de acordo com agrupamentos de múltiplos descritores (ou uma combinação deles) [19], o que pode nos levar a encontrar o descritor que gera o agrupamento mais próximo das expectativas do usuário nesta consulta (Figura 1b). Outra alternativa é investir no algoritmo de aprendizado [27, 39, 42, 56, 71]. Suponha, por exemplo, a existência de um algoritmo que evita agrupamentos com imagens irrelevantes. Neste caso, as duas próximas iterações retornariam as imagens relevantes para o usuário (Figuras 1c e 1d). No entanto, esta estratégia descarta que outras imagens relevantes podem estar nos agrupamentos rejeitados. Variações da idéia constituem um tópico interessante de pesquisa [40, 63]. Além de tópicos em Análise de Imagens e Banco de Dados, CBIR também envolve problemas de Interface Humano-Computador. Diferentes técnicas para visualizar os resultados de uma consulta [15] ou como as imagens estão armazenadas na base [58] também têm sido investigadas. Outro aspecto importante é a avaliação de eficácia de um sistema de CBIR. A seguir discutimos os principais tópicos e técnicas mencionados nesta seção. 2 Arquitetura Típica e Visualização dos Resultados 2.1 Arquitetura Típica Um sistema de recuperação de imagens por conteúdo é centrado na noção de similaridade entre imagens dado um banco com um grande número de imagens, o usuário deseja recuperar as imagens mais similares a um padrão de consulta (normalmente uma imagem definida como exemplo). O processo de recuperação é baseado na comparação das imagens por meio de descritores [16]. A Figura 2 mostra a arquitetura típica de um sistema de recuperação de imagens por conteúdo [16]. Essa arquitetura possui duas funcionalidades principais: a inserção de dados e o processamento de consultas. O subsistema de inserção de dados, representado por módulos e setas tracejados, é responsável por extrair os vetores de características das imagens e armazená-los na base de imagens. Geralmente, esse processo é realizado uma única vez para cada imagem e para cada descritor, sendo utilizado de maneira offline. Os vetores armazenados são usados posteriormente no processamento de consultas. O processamento de consultas é organizado da seguinte forma: a interface permite ao usuário especificar uma consulta por meio de um padrão de consulta (por exemplo, uma imagem query by visual example) e visualizar as imagens recuperadas. O módulo de processamento de consultas extrai o vetor de características do padrão de consulta e aplica uma métrica de distância, como a distância Euclidiana, para avaliar a similaridade entre a ima- RITA Volume Número 3

(a) (b) (c) (d) Figura 1. (a) Agrupamento de imagens da base para um dado descritor identifica quatro grupos: quadrados brancos e pretos, círculos brancos e pretos. A imagem de consulta é um quadrado cinza e o usuário considera todos os quadrados como imagens relevantes para esta consulta. O sistema retorna as cinco imagens mais próximas da consulta (setas): três irrelevantes (dois círculos pretos e um branco) e duas relevantes (dois quadrados pretos). (b) Um descritor diferente pode levar a um agrupamento mais próximo das espectativas do usuário. (c-d) Um algoritmo de CBIR pode aprender com a realimentação de relevância em (a) e retornar as imagens relevantes em duas iterações adicionais. gem de consulta e as imagens da base. Em seguida, esse módulo ordena as imagens da base de acordo com a similaridade e retorna as mais similares para o módulo de interface. Esse processo pode ser otimizado pela utilização de estruturas de indexação, como a M-Tree [13]. 4 RITA Volume Número

Figura 2. Arquitetura típica de um sistema de recuperação de imagens por conteúdo [16]. Usualmente, dois tipos de consultas podem ser executadas em sistemas de recuperação de imagens por conteúdo [13]: consulta pelos k vizinhos mais próximos (K-nearest neighbor query KNNQ) e consulta por abrangência (range query RQ). Nas consultas KNN, o usuário especifica o número k de imagens que devem ser retornadas que são mais similares ao padrão de consulta. Nas consultas do tipo RQ, o usuário define um raio de busca r, indicando que está interessado em todas imagens cuja distância para o padrão de consulta é menor do que r. 2.2 Visualização de Resultados Tipicamente, o resultado de uma consulta em um banco de dados de imagens é um conjunto de imagens, mostradas em um Visualizador. Infelizmente, estes conjuntos são usualmente extensos, o que dificulta o processo de visualização e/ou exploração de resultado. A técnica de apresentação de resultado mais comum é baseada em se mostrar uma matriz de duas dimensões de versões em miniatura de imagens [29, 48]. Esta matriz é organizada de acordo com a similaridade de cada imagem retornada em relação ao padrão de consulta (i.e., da esquerda para direita, de cima para baixo). Trata-se de uma matriz n m, onde a posição RITA Volume Número 5

(1, 1) é ocupada pela miniatura da imagem com padrão de consulta, a posição (1, 2) pela imagem com padrão mais similar a ele, e assim por diante. Este método facilita a visualização, permitindo aos usuários que eles percorram o conjunto de imagens como se estivessem lendo um texto [53]. Esta abordagem, entretanto, mostra as imagens com diferentes graus de similaridade com a mesma distância da imagem de consulta: i.e., imagens (1, 2) e (2, 1) são mostradas com a mesma distância física do padrão de consulta, mas a primeira é mais similar do que a última. Outras abordagens para visualização tentam considerar a similaridade relativa não somente entre o padrão de consulta e cada imagem recuperada, mas também entre todas as imagens retornadas [55, 58]. Estas iniciativas têm como desvantagem o fato de que imagens similares que são colocadas próximas umas das outras parecem se sobrepor, sendo menos atraentes do que se estivessem separadas [53]. Exemplos de estruturas visuais que tentam resolver estes problemas são as técnicas baseadas em Espiral e Anéis Concêntricos [15]. A Figura 3 ilustra estas estruturas visuais. A imagem de consulta aparece no centro do display. (a) (b) Figura 3. Estruturas visuais baseadas em (a) Espiral e (b) Anéis Concêntricos. 3 Descritores de Imagem 3.1 Formalização Para que sistemas de recuperação de imagens por conteúdo sejam viáveis, é desejável que as imagens possam ser descritas pelas suas propriedades intrínsecas, tais como forma, 6 RITA Volume Número

textura e cor, normalmente representadas em vetores de características. Neste sentido, os descritores de imagens são utilizados para extrair e comparar esses vetores, viabilizando a indexação e busca de imagens. A seguir é formalizado modelo de recuperação de imagens por conteúdo [16, 19]. Definição 1 Uma imagem Î é um par (D I, I), onde: D I é um conjunto finito de pixels (pontos em Z 2, tal que, D I Z 2 ), e I : D I D é uma função que atribui a cada pixel p em D I um vetor I(p) de valores em algum espaço arbitrário D (por exemplo, D = IR 3 quando uma cor é atribuída a um pixel no sistema RGB). Definição 2 Um descritor simples (ou simplesmente, descritor) D é definido como um par (ǫ D, δ D ), onde: ǫ D : Î Rn é uma função que extrai um vetor de características vî de uma imagem Î. δ D : R n R n R é uma função de similaridade (por exemplo, baseada em uma medida de distância) que computa a similaridade entre duas imagens como a partir da distância entre seus vetores de características correspondentes. Definição 3 Um vetor de características vî de uma imagem Î é um ponto no espaço Rn : vî = (v 1, v 2,..., v n ), onde n é a dimensão do vetor. Exemplos de vetores de características possíveis são um histograma de cor [61], uma curva fractal multi-escala [18] e os de coeficientes de Fourier [52]. Basicamente estes descritores codificam propriedades das imagens, como cor, forma e textura. Note que diferentes tipos de vetores de características podem necessitar de funções de similaridade distintas. Note ainda que esta definição de descritor considera que a eficiência e a eficácia de um descritor dependem não somente do algoritmo de extração de características, mas também da função de similaridade. A Figura 4 ilustra o uso de um descritor simples D para computar a similaridade entre duas imagens ÎA e ÎB. Primeiro, o algoritmo de extração ǫ D é usado para computar os vetores de características vîa e vîb associados às imagens. Depois, a função de similaridade δ D é utilizada para o valor da similaridade d entre as imagens. RITA Volume Número 7

d δ D D: v I^ A v I^ B ε D ε D I^A I^B Figura 4. O uso de um descritor simples D para computar a similaridade entre duas imagens. Definição 4 Um descritor composto ˆD é um par (D, δ D ) (veja Figura 5), onde: D = {D 1, D 2,..., D k } é um conjunto de k descritores simples pré-definidos. δ D é um função de similaridade que combina os valores de similaridade obtidos de cada descritor D i D, i = 1, 2,..., k. 3.2 Tipos de Descritores Vários descritores têm sido propostos recentemente. A seguir alguns dos principais descritores de imagens são descritos. 3.2.1 Descritores de Cor Cor é uma das propriedades visuais mais utilizadas em sistemas de recuperação de imagens por conteúdo. Pesquisas nessa área podem ser agrupadas em três sub-áreas principais: (a) definição de espaço de cor apropriado para aplicação-alvo, (b) proposta de algoritmos para extração de vetores de características, e (c) estudo/avaliação de medidas de similaridade. A informação de cor é representada como ponto de um espaço de cor tridimensional (tais como RGB, HSV, YIQ, L u v, L a b [23]). Eles permitem a discriminação entre o estímulo de cor, além da avaliacão de similaridade e identificação de cores [23]. 8 RITA Volume Número

d δ D D: d 1 d 2 d k δ D1 δd2 δdk εd1 εd1 εd2 εd2... εdk εdk I ^ A I^ B Figura 5. Descritor composto. Vários descritores de cor têm sido propostos [35, 45, 49, 60, 61]. Em geral, eles podem ser agrupados em duas classes levando-se em conta se codificam informação relacionada à distribuição espacial de cor ou não. O descritor de cor mais comum é o histograma, que descreve o conteúdo global de uma imagem pelo percentual de pixels de cada cor [61]. Um histograma, para cada valor de cor presente na imagem, informa a probabilidade de um pixel da imagem possuir esta cor. A partir da representação do conteúdo da imagem por meio do histograma, podem-se utilizar as distâncias L 1 (City-block), L 2 (Euclidiana) ou L (Chessboard), por exemplo, para a comparação entre diferentes histogramas. Em [59], é proposto um método de recuperação por conteúdo baseado em cor, chamado BIC (Border/interior pixel classification). Este método possui três componentes principais: algoritmo de segmentação de imagens que classifica pixels como sendo da borda ou interior; uma representação compacta das propriedades visuais extraídas das imagens por meio de seus histogramas de cor nas regiões e nas bordas; e uma função de distância logarítmica para comparação de histogramas. Em [14], é proposto um descritor de cor, chamado Coesão, baseado nas estatísticas relativas à distribuição das regiões coloridas na imagem. Este descritor utiliza informação cromática em conjunto com a distribuição espacial dos objetos na imagem. O descritor é avaliado com diferentes distâncias: L 1, L 2 e L. RITA Volume Número 9

Em [2], é proposto o SIFT-Texton, um método capaz de incorporar informações sobre iluminação, oclusão e foco nas características visuais de baixo nível. Esse método baseia-se na distribuição discreta de características invariantes locais e em propriedades de baixo nível das imagens. O projeto Multimedia Content Description Interface [11], ou MPEG, é um padrão para descrever dados de conteúdo multimídia. O MPEG-7 define quatro descritores de cor [45]:Scalable color (SCD), Color Structure (CSD), Dominant color (DCD) e Color Layout (CLD). Uma visão mais detalhada de descritores de cor, bem como testes comparativos, podem ser vistos em [12], [45] e [51]. 3.2.2 Descritores de textura A textura é uma medida do arranjo estrutural dos pixels em uma imagem. Embora não exista nenhuma definição formal para textura, os descritores de textura podem medir algumas propriedades como regularidade, orientação (direção), suavidade, granularidade, entre outras [31]. Há várias técnicas propostas para caracterizar a existência de primitivas básicas, cuja distribuição espacial criam padrões visuais definidos em termos de granularidade, direcionalidade e repetição. Essas técnicas podem ser usadas para extrair e representar texturas. Elas costumam ser classificadas em modelos baseados no espaço, modelos baseados na frequência, e assinaturas de texturas [23]. A seguir alguns desses descritores são descritos. Matriz de co-ocorrência [33] é uma das técnicas mais tradicionais para codificar informação de textura. Ela descreve o relacionamento espacial entre níveis de cinza em uma imagem. Uma célula definida pela posição (i, j) nessa matriz registra a probabilidade de dois pixels de níveis de cinza i e j ocorram em duas posições relativas. Um conjunto de probabilidades (tais como energia, entropia e contraste) é utilizado para caracterizar regiões com texturas. Outro exemplo de método baseado no espaço são os Modelos Auto-Regressivos [37]. Exemplos de descritores de textura baseados na frequência incluem, por exemplo, os coeficientes de Garbor [44]. Mais recentemente, merece destaque a proposta de descritores baseados na Decomposição Piramidal Steerable [68, 69]. Um exemplo de assinaturas de texturas podem ser encontradas na proposta de Tamura et al. [62]. Este descritor objetiva caracterizar informação de textura em termos de contraste, granularidade e direcionalidade. O projeto MPEG-7 propõe três principais classes de descritores de textura [45]: texture browsing descriptor, homogeneous texture descriptor, e local edge histogram descriptor. Outros exemplos de descritores de textura podem ser encontrados em [24]. 10 RITA Volume Número

3.2.3 Descritores de forma Os métodos de descrição de forma podem se basear em características efetivas e perceptivas da forma presentes no contorno destes objetos métodos baseados em contorno e/ou no conteúdo interno destes objetos métodos baseados em região [3]. Cada classe se subdivide em estrutural ou global, dependendo se a forma é representada como um todo ou é dividida em segmentos ou seções. Esta classificação pode ainda se desmembrar em domínio espacial e domínio transformado, baseando-se no fato das características de forma serem derivadas do domínio espacial ou de um domínio transformado [70]. A seguir, alguns descritores de forma são descritos: Curvature Scale Space (CSS): O Curvature Scale Space [1] é um descritor aplicado ao contorno do objeto. Os contornos simplificados de um determinado objeto na imagem são obtidos por meio de sucessivas suavizações por uma função Gaussiana e cada estágio desta suavização do contorno representa uma escala na curva (scale-space). Assim, o vetor do CSS representa uma organização multiescala dos pontos de curvatura zero no contorno. Neste sentido, a dimensão do vetor varia para formas diferentes, requisitando um algoritmo de casamento especial para o cálculo de distância entre dois vetores CSS [1]. Beam Angle Statistics (BAS): O BAS [7] é um descritor baseado em beams que se originam em pontos do contorno. Beams são conjuntos de linhas que conectam um determinado ponto de referência com todos os outros pontos do contorno. Em cada ponto do contorno, o ângulo entre um par de beams é calculado e o vetor de características é definido usando-se estatísticas de primeira, segunda e terceira ordens aplicadas aos ângulos, em um conjunto de sistemas de vizinhança. Um algoritmo de correspondência ótima de subseqüências (OCS) [65] é usado para o cálculo de similaridade entre dois vetores BAS. Contour Saliences (CS): O descritor Contour Saliences [17] utiliza as saliências da forma do objeto para representação. As saliências de forma são definidas como pontos de maior curvatura ao longo do contorno do objeto. No descritor CS, os valores dessas saliências são definidos como as áreas das regiões de Voronoi desses pontos em uma faixa estreita de ambos os lados do contorno. Um ponto do contorno é considerado convexo quando sua área de influência é maior fora do que dentro do contorno e, no caso contrário, é considerado côncavo. Para o cálculo das saliências de contorno, o descritor utiliza as saliências dos esqueletos interno e externo da forma. O método determina os pontos de saliência e define um deles como referência para, na seqüência, computar a posição relativa dos demais pontos em função do ponto de referência, completando assim a representação do vetor de características. Como os vetores de objetos distintos podem possuir tamanhos diferentes, o CS utiliza um algoritmo heurístico de casamento entre os contornos, que registra os vetores em relação ao ponto de RITA Volume Número 11

referência e computa a similaridade. Este algoritmo é baseado no proposto por Abassi e Mokhtarian para o descritor CSS [1]. Pedrosa et al. [50] definiram outra métrica para ser usada como função de distância para o descritor Contour Saliences. Segment Saliences (SS): O Segment Saliences [17] é uma variação do CS que incorpora duas melhorias: o valor de saliência de segmentos do contorno, no lugar de valores de saliência de pontos isolados; e um outro algoritmo que substitui o casamento heurístico por uma abordagem baseada no OCS [65]. Os valores de saliência são calculados e então o contorno é dividido em um número pré-definido de segmentos de mesmo tamanho. As áreas de influência internas e externas de cada segmento são computadas somando-se as áreas de influência de seus pixels correspondentes. Um segmento é considerado convexo se sua área acumulada externa é maior do que sua área acumulada interna e, no caso contrário, é considerado côncavo. O número fixo de segmentos no contorno permite a utilização do algoritmo OCS para realizar o casamento dos vetores entre contornos. Invariantes de Momento: Para o descritor Invariantes de Momento, cada objeto é representado por um vetor de características com 14 dimensões, incluindo dois conjuntos de invariantes de momento normalizados [26,34], sendo um do contorno do objeto e outro da sua silhueta sólida. Neste descritor, também pode-se utilizar a distância Euclidiana para o cálculo da similaridade. Dimensão Fractal Multiescala: A dimensão fractal provê um meio de caracterizar auto-similaridade (ou auto-afinidade) de objetos reais ou abstratos. A dimensão fractal de Minkowski-Bouligand é definida como uma função F = 2 lim r 0 log(r) log(a(r)), sendo A(r) a área da forma dilatada por um raio r. Numericamente, pode ser estimada pela interpolação da curva logarítmica A(r) em termos do raio de dilatação r, computando o coeficiente angular A (r) desta linha e considerandof como F(r) = 2 A (r), como descrito em [18]. O vetor de características é formado por 50 amostras deste polinômio e a distância entre dois vetores é calculada por meio da distância Euclidiana. Descritores de Forma baseados em Escala Tensorial. A escala tensorial é um parâmetro morfométrico que unifica a representação de orientação, espessura e anisotropia de estruturas locais na imagem (i.e., a maior elipse em uma região homogênea, centrada em cada ponto da imagem), com diversas aplicações em visão computacional e processamento de imagem. Em [4, 5], são propostos novos descritores de forma baseados neste parâmetro morfométrico. O projeto MPEG-7 sugere a utilização de alguns descritores de forma. São eles [9]: descritor de forma 3-D (espectro da forma), descritor baseado em região (transformação angular radial): descritor baseado em contorno baseado na representação CSS (Curvature scale- 12 RITA Volume Número

space) e um descritor 2-D/3-D que pode ser utilizado na combinação de descritores 2-D para representar características visuais de um objeto 3-D, visualizado em diferentes ângulos [3]. 3.3 Combinação de Descritores Em muitas aplicações, deseja-se recuperar uma imagem em função de múltiplas propriedades e/ou de uma mesma propriedade caracterizada por diferentes descritores. Neste cenário, um desafio de pesquisa relevante consiste em descobrir mecanismos para explorar as vantagens combinadas de diferentes descritores em uma aplicação específica. Vários descritores vêm sendo propostos na literatura. Por um lado, diferentes descritores podem ser usados na caracterização de diferentes propriedades de uma imagem, apresentando, em geral, um bom desempenho em aplicações específicas. Por exemplo, descritores de forma e de cor podem ser utilizados em sistemas de recuperação que auxiliam o processo de identificação de espécies em um Sistema de Informação de Biodiversidade. Por outro lado, diferentes descritores podem ser utilizados para caracterizar uma mesma propriedade da imagem. O histograma de cor [61] e o CSIR [2] são exemplos de descritores que costumam ser usados para caracterizar uma mesma propriedade. No entanto, não existem descritores que apresentam alto desempenho (eficácia e eficiência) em todas as aplicações. Um exemplo de técnica de combinação de descritores é proposta em [19]. Esta técnica explora uma técnica de Inteligência Artificial chamada Programação Genética para encontrar funções matemáticas que combinem similaridades definidas por diferentes descritores de imagens. Para um dado banco dados de imagens e um padrão de consulta fornecido pelo usuário, como uma imagem, o sistema retorna uma lista das imagens mais similares ao padrão de consulta, de acordo com um conjunto de propriedades da imagem. Essas propriedades são representadas por descritores simples. Esses descritores são combinados utilizando um descritor composto D PG, onde δ DPG é uma expressão matemática representada como uma árvore de expressão, em que os nós internos são operadores numéricos e os nós folha são um conjunto composto de valores de similaridade d i, i = 1, 2,..., k. A Figura 6 mostra uma possível combinação (obtida através do framework de PG) dos valores de similaridade d 1, d 2, e d 3 de três descritores simples. 4 Estruturas de Indexação Além de eficácia, aspectos de eficiência (medidos em termos de tempo de resposta) também precisam ser considerados quando do projeto e implementação de um sistema de recuperação de imagens por conteúdo. Usualmente, estratégias de busca rápidas são baseadas no uso de estruturas de indexação. Como apontado anteriormente, imagens são representadas em pontos em espaços de alta dimensionalidade. Neste caso, técnicas de indexação RITA Volume Número 13

+ / sqrt * d1 d3 d1 d2 Figura 6. Exemplo de uma função de similaridade baseada em PG representada em uma árvore. tradicionais (por exemplo, aquelas baseadas na estrutura nas árvores R [32]), que têm bom desempenho para um número pequeno de dimensões, têm desempenho ruim. Este fenômeno é conhecido como maldição da dimensionalidade. Uma das abordagens utilizadas para lidar com este problema está relacionada ao uso de técnicas de redução de dimensão, como Principal Component Analysis (PCA), e, em seguida, usar métodos tradicionais de indexação multidimensional. Uma outra área de pesquisa inclui a investigação de Métodos de Acesso Métricos (MAMs). MAM é uma classe de métodos de acesso que é usada para gerenciar grandes volumes de dados métricos permitindo inserção, remoção e buscas [64]. A definição de um MAM está centrada no uso de espaços métricos. Um espaço métrico é um par (O, d), onde O denota o domínio de um conjunto de O = (O 1, O 2,..., O n ), e d é uma distância métrica com as seguintes propriedades: (i) simetria (d(o 1, O 2 ) = d(o 2, O 1 )), (ii) positividade (0 < d(o 1, O 2 ) <, O 1 O 2 e d(o 1, O 2 ) = 0), e (iii) desiguadade triangular (d(o 1, O 3 ) d(o 1, O 2 ) + d(o 2, O 3 )). Exemplos de MAMs incluem, entre outros, as M-trees [13] e as Slim-trees [64]. Mais detalhes sobre estruturas de indexação multidimensional e métricas podem ser encontradas em [10, 30]. 5 Gap Semântico e Realimentação de Relevância Para uma dada imagem de consulta, o sistema de recuperação de imagens por conteúdo retorna as imagens mais similares ao padrão da consulta, segundo os descritores utilizados. Porém, seja por dificuldade de escolha de uma imagem representativa para consulta, pela falta de descritores de baixo nível apropriados, ou mesmo por diferentes aspectos cogni- 14 RITA Volume Número

tivos relativos à interpretação visual, o usuário pode considerar as imagens retornadas como irrelevantes para a consulta, gerando um problema de descontinuidade semântica semantic gap. Dentre os principais desafios de pesquisa relacionados às soluções para o problema do semantic gap, destaca-se o uso de mecanismos para inclusão da percepção visual de cada usuário no processo de recuperação de imagens a partir de técnicas de realimentação de relevância relevance feedback. Por isso, é necessário prover um meio para que o usuário possa exprimir qual a sua necessidade em uma dada consulta. Uma forma de realizar esta tarefa é a partir do ajuste de determinados parâmetros do sistema de busca, como, por exemplo, a atribuição de pesos para cada descritor. Entretanto, para a realização desta tarefa, seria necessário que o usuário conhecesse detalhes do processo de descrição de imagens, por exemplo o valor semântico relacionado aos elementos de vetores de características. A técnica de relevance feedback foi inicialmente utilizada na recuperação de informações por texto [66], mas que atualmente é alvo de pesquisa na área de recuperação de imagem por conteúdo em todo mundo [38, 54, 72]. Este mecanismo tem por objetivo possibilitar que o usuário expresse a sua necessidade na especificação de uma consulta, sem recorrer a propriedades de baixo nível utilizadas na representação de imagens. Para isso, o usuário apenas indica as imagens relevantes, e em certos casos também as irrelevantes, dentre um conjunto retornado pelo sistema. A cada iteração, o algoritmo busca aprender quais propriedades visuais melhor definem as imagens relevantes, a partir das informações fornecidas pelo usuário, ou seja, as imagens por ele indicadas. Dessa forma, a consulta é reformulada automaticamente e realizada novamente. E assim, após um determinado número de iterações, o sistema retorna as imagens mais similares à imagem de consulta. Com isso, relevance feedback endereça duas questões referentes ao processo de recuperação de imagens por conteúdo. A primeira delas reside na diferença entre as propriedades visuais de alto nível, através das quais o usuário tem a percepção semântica da informação visual, e a descrição de baixo nível utilizada para a representação das imagens. A outra diz respeito ao caráter subjetivo da percepção da imagem pelo usuário. Diferentes pessoas, ou a mesma em diferentes circunstâncias, podem ter percepções visuais distintas de uma mesma imagem. Com relevance feedback essas duas questões são contornadas de forma transparente para o usuário. Uma das etapas importantes do processo de relevance feedback em sistemas de recuperação de imagens por conteúdo consiste na (re-)combinação automática de descritores, considerando a indicação de imagens relevantes feita pelo usuário. Novamente, um grande desafio de pesquisa consiste na definição de mecanismos inteligentes para combinação de descritores levando-se em conta as propriedades visuais que cada um descreve, bem como a percepção visual de cada usuário do sistema. Exemplos de pesquisa nestas áreas são descritas em [27, 39, 56]. RITA Volume Número 15

O algoritmo 1 ilustra os passos do processo de realimentação de relevância. Algorithm 1 O processo de realimentação de relevância. 1 Definição da imagem de consulta. 2 Exiba o conjunto inicial de imagens. 3 Enquanto o usuário não estiver satisfeito f a ç a 4 Indicação do usuário. 5 Atualize o padrão de consulta. 6 Utilize alguma técnica de aprendizado para encontrar os melhores indivíduos(funções de combinação de similaridades) 7 Ordene as imagens da base. 8 Exiba as imagens mais similares. 9 Fim Enquanto 6 Avaliação de Sistemas de CBIR Várias medidas têm sido propostas para avaliar a eficácia de sistemas CBIR. A seguir algumas dessas medidas são descritas. 6.1 Precisão vs. Revocação As curvas de Precisão vs. Revocação (Precision vs. Recall) [8,46] são as medidas mais utilizadas para avaliação de eficácia no domínio de CBIR. Precisão é definida com sendo a fração das imagens recuperadas que são relevantes à busca. Em contraste, revocação mede a proporção de imagens relevantes dentre as imagens recuperadas. Ou seja, Precisão = {imagens relevantes} {imagens recuperadas} ; (1) {imagens recuperadas} Revocação = {imagens relevantes} {imagens recuperadas}. (2) {imagens relevantes} A curva de Precisão vs. Revocação, ou simplesmente curva PR, indica o compromisso entre as duas medidas e, geralmente, a curva mais alta no gráfico indica uma melhor eficácia do descritor sendo avaliado. 6.2 Separabilidade Multiescala Como cada descritor representa o vetor de características como um ponto no espaço métrico correspondente, sua eficácia será maior quanto mais separado forem os agrupamentos 16 RITA Volume Número

de vetores relevantes no espaço métrico. Por causa disso, uma boa medida de eficácia de descritores deve capturar o conceito de separabilidade [17]. Separabilidade indica a habilidade de discriminação de objetos que pertençam a classes distintas. Este conceito é muito usado em análise de agrupamentos (clusters) e foi introduzido na área de CBIR por Torres et al. [17]. Na área de CBIR, a medida mais utilizada são as curvas de Precisão vs. Revocação (PR). Porém, em [17], um exemplo é usado para ilustrar que a medida PR não captura o conceito de separabilidade e, portanto, não deve ser usada como medida de eficácia. 7 Conclusão Este artigo apresentou uma visão geral da área recuperação de imagens por conteúdo. Em especial, foram descritos conceitos relacionados à busca de imagens a partir de características visuais, enfatizando limitações de soluções existentes relacionadas ao tratamento do gap semântico. Uma linha de pesquisa importante diz respeito à participação de usuários no desenvolvimento de sistemas de recuperação de imagens por conteúdo. A idéia consiste em projetar sistemas CBIR auto-ajustáveis para diferentes perfis de usuários. Estes sistemas devem ser capazes de, a partir do uso de técnicas de aprendizado, definir perfis de usuários, formando grupos, e funções de similaridade que reflitam a percepção visual desses grupos a partir da interação dos respectivos usuários com o sistema realimentação de relevância (seção 5), e assim armazenar o perfil para otimizar futuras buscas. Neste sentido, técnicas de combinação de descritores, como apresentadas na seção 3.3, podem ser usadas não apenas para melhorar a eficácia de sistemas de busca, mas também para melhorar o tempo de resposta. Assim, um perfil seria representado não só por uma ou múltiplas funções de similaridade, como também por um ou vários índices estruturas de indexação baseadas nessas funções (seção 4), os quais reorganizariam as imagens no disco levando em conta a similaridade entre elas de acordo com o perfil dado. O desafio consiste em projetar este tipo de sistema de tal maneira que tanto as funções de similaridade como os índices sejam dinamicamente atualizados, considerando operações de inserção, remoção e de busca realizadas pelos usuários do sistema. Referências importantes que apresentam uma visão geral da área de CBIR e discutem desafios de pesquisa incluem [6, 16, 21, 22, 43, 57, 67]. RITA Volume Número 17

8 Acknowledgments Este trabalho contou com apoio financeiro da FAPESP, CNPq, CAPES e Microsoft Research. 9 * Referências [1] S. Abbasi, F. Mokhtarian, and J. V. Kittler. Enhancing CSS-based shape retrieval for objects with shallow concavities. Image and Vision Computing, 18(3):199 211, February 2000. [2] J. Almeida, A. Rocha, R. da S. Torres, and S. Goldestein. Making Colors Worth more than a Thousand Words. In The 23th Annual ACM Symposium on Applied Computing, pages 1184 1190, Fortaleza, 2008. [3] F. A. Andaló. Descritores de forma baseados em tensor scale. Master s thesis, Instituto de Computação, Unicamp, 2007. [4] F. A. Andaló, P. A. V. Miranda, R. da S. Torres, and A. X. Falcão. A New Shape Descriptor based on Tensor Scale. In 8th International Symposium on Mathematical Morphology, pages 141 152, Rio de Janeiro, Brazil, October 2007. [5] F. A. Andaló, P. A. V. Miranda, R. da S. Torres, and A. X. Falcão. Detecting Contour Saliences Using Tensor Scale. In IEEE International Conference on Image Processing, pages VI349 VI352, San Antonio, Texas, USA, September 2007. [6] A. Antani, R. Kasturi, and R. Jain. A Survey on the Use of Pattern Recognition Methods for Abstraction, Indexing and Retrieval of Images and Video. Pattern Recognition, 35(4):945 965, April 2002. [7] N. Arica and F. T. Y. Vural. BAS: a perceptual shape descriptor based on the beam angle statistics. Pattern Recognition Letters, 24(9-10):1627 1639, June 2003. [8] R. Baeza-Yates and B. Ribeiro-Neto. Modern information retrieval. Addison-Wesley Longman Publishing Co. Inc., Boston, MA, USA, 1999. [9] M. Bober. MPEG-7 visual shape descriptors. IEEE Transactions on Circuits and Systems for Video Technology, 11(6):716 719, June 2001. 18 RITA Volume Número

[10] C. Bohm, S. Berchtold, and D. A. Keim. Searching in high-dimensional spaces: Index structures for improving the performance of multimedia databases. ACM Computing Surveys (CSUR), 33(3):322 373, 2001. [11] L. Chiariglione. The MPEG project. http://www.chiariglione.org/mpeg, January 2007. [12] C. A. Christopoulos, D. Berg, and A. N. Skodras. The colour in the upcoming MPEG-7 standard. In Proceedings of X European Signal Processing Conference - EUSIPCO- 2000, pages 1369 1372, September 2000. [13] P. Ciaccia, M. Patella, and P. Zezula. M-tree: An Efficient Access Method for Similarity Search in Metric Spaces. In Proceedings of 23rd International Conference on Very Large Data Bases, pages 426 435, Athens, Greece, 1997. [14] D. da S. Andrade. Testes de significância estatísticos e avaliação de um modelo de recuperação de imagens por conteúdo. Master s thesis, Institute of Computing, Unicamp, 2004. [15] R. da S. Torres, C. G. da Silva, C. B. Medeiros, and H. V. da Rocha. Visual Structures for Image Browsing. In Proceedings of the Twelfth International Conference on Information and Knowledge Management, pages 167 174, New Orleans, LA, USA, November 2003. [16] R. da S. Torres and A. X. Falcão. Content-Based Image Retrieval: Theory and Applications. Revista de Informática Teórica e Aplicada, 13(2):161 185, 2006. [17] R. da S. Torres and A. X. Falcão. Contour salience descriptors for effective image retrieval and analysis. Image and Vision Computing, 25(1):3 13, January 2007. [18] R. da S. Torres, A. X. Falcão, and L. da F. Costa. A Graph-based Approach for Multiscale Shape Analysis. Pattern Recognition, 37(6):1163 1174, June 2004. [19] R. da S. Torres, A. X. Falcão, M. A. Goncalves, J. P. Papa, B. Zhang, W. Fan, and E. A. Fox. A genetic programming framework for content-based image retrieval. Pattern Recognition, 2008. Accepted. [20] R. da S. Torres, C. B. Medeiros, M. A. Goncalves, and E. A. Fox. A Digital Library Framework for Biodiversity Information Systems. International Journal on Digital Libraries, 6(1):3 17, February 2006. [21] R. da S. Torres, J. A. M. Zegarra, J. A. Santos, C. D. Ferreira, O. A. B. Penatti, F. A. Andaló, and J. G. Almeida Jr. Recuperação de Imagens: Desafios e Novos Rumos. In XXXV Seminà rio Integrado de Software e Hardware (SEMISH), Belém, Jul 2008. RITA Volume Número 19

[22] R. Datta, D. Joshi, J. Li, and J. Z. Wang. Image retrieval: Ideas, influences, and trends of the new age. ACM Computing Surveys, 40(2), 2008. [23] A. del Bimbo. Visual Information Retrieval. Morgan Kaufmann Publishers, San Francisco, CA, USA, 1999. [24] L. M. del V. Cura. Content-based image retrieval in geographical information systems. PhD thesis, Institute of Computing, Unicamp, 2000. [25] R.O. Duda and P.E. Hart. Pattern Classification and Scene Analysis. John Wiley & Sons, New York, 2001. [26] S. A. Dudani, K. J. Breeding, and R. B. McGhee. Aircraft identification by moment invariants. IEEE Transactions on Computers, 26(1):39 45, 1977. [27] C. D. Ferreira, R. da S. Torres, M. A. Goncalves, and W. Fan. Image Retrieval with Relevance Feedback based on Genetic Programming. In Brazilian Symposium on Data Base, Campinas, SP, October 2008. [28] FishBase. www.fishbase.org (as of August 2008). [29] M. Flickner, H. Sawhney, W. Niblack, Q. Huang J. Ashley, B. Dom, M. Gorkani, J. Hafner, D. Lee, D. Petkovic, D. Steele, and P. Yanker. Query by Image and Video Content: the QBIC System. IEEE Computer, 28(9):23 32, Sep 1995. [30] V. Gaede and O. Gunther. Multidimensional Access Methods. ACM Computing Surveys, 30(2):170 231, 1998. [31] R. C. Gonzalez and R. E. Woods. Digital image processing. Electrical and Computer Engineering Series. Addison-Wesley Longman Publishing Co. Inc., 2nd edition, November 2001. [32] R. Guttman. R-Tree: A Dynamic Index to Structure for Spatial Searching. In SIGMOD Conf. Ann. Meeting, pages 47 57, Boston, 1984. [33] R. M. Haralick, K. Shanmugam, and I. Dinstein. Textural Features for Image Classification. IEEE Transactions on Systems, Man and Cybernatics, 3(6):610 621, 1973. [34] M. K. Hu. Visual pattern recognition by moment invariants. IEEE Transactions on Information Theory, 8(2):179 187, 1962. [35] J. Huang, S. Kumar, M. Mitra, W. Zhu, and R. Zabih. Image Indexing Using Color Correlograms. In IEEE International Conference on Computer Vision and Pattern Recognition, pages 762 768, Puerto Rico, June 1997. 20 RITA Volume Número

[36] R. E. Jenkins and N. M. Burkhead. Freshwater Fishes of Virginia. American Fisheries Society, Bethesda, Maryland, 1993. [37] A. Khotanzad and R. L. Kashyap. Feature Selection for Texture Recognition Based on Image Synthesis. IEEE Transactions on Systems, Man and Cybernatics, 17(6):1087 1095, 1987. [38] D.-H. Kim, C.-W. Chung, and K. Barnard. Relevance feedback using adaptive clustering for image similarity retrieval. Journal of Systems and Software, 78(1):9 23, October 2005. [39] D. Lacerda. Recuperação de imagens por conteúdo com realimentação de relevância baseada em florestas de caminhos ótimos. Master s thesis, Instituto de Computação, Unicamp, 2008. CNPq, em andamento. [40] J. Li, N. Allinson, D. Tao, and X. Li. Multitraining Support Vector Machine for Image Retrieval. IEEE TIP, 15(11):3597 3601, Nov 2006. [41] H. Lieberman, E. Rosenzweig, and P. Singh. Aria: An Agent for Annotating and Retrieving Images. IEEE Computer, 34(7):57 62, 2001. [42] Y.-Y. Lin, T.-L. Liu, and C.-S. Fuh. Local ensemble kernel learning for object category recognition. In CVPR, pages 1 8, 2007. [43] Y. Liu, D. Zhang, G. Lu, and W-Y Ma. A survey of content-based image retrieval with high-level semantics. Pattern Recognition, 40(1):262 282, January 2007. [44] B. S. Manjunath and W. Y. Ma. Texture Features for Browsing and Retrieval of Image Data. IEEE Transactions on Pattern Analysis and Machine Intelligence, 18(8):837 842, August 1996. [45] B. S. Manjunath, J. R. Ohm, V. V. Vasudevan, and A. Yamada. Color and Texture Descriptors. IEEE Transactions on Circuits and Systems for Video Technology, 11(6):703 715, June 2001. [46] H. Müller, W. Müller, D. McG. Squire, S. Marchand-Maillet, and T. Pun. Performance evaluation in content-based image retrieval: overview and proposals. Pattern Recognition Letters, 22(5):593 601, April 2001. [47] V. E. Ogle and M. Stonebraker. Chabot: Retrieval from a Relational Database of Images. IEEE Computer, 28(9):40 48, 1995. [48] V. E. Ogle and M. Stonebraker. Chabot: Retrieval from Relational Database of Images. IEEE Computer, 28(9):40 48, Sep 1995. RITA Volume Número 21

[49] G. Pass, R. Zabih, and J. Miller. Comparing Images Using Color Coherence Vectors. In Proceedings of the fourth ACM international conference on Multimedia, pages 65 73, 1996. [50] G. V. Pedrosa, C. F. Santos, M. A. Batista, H. C. Fernandes, and C. A. Z. Barcelos. An effective salience-based algorithm for shape retrieval. In 15th International Conference on Systems, Signals and Image Processing, pages 121 124, 2008. [51] O. B. Pennati and R. da S. Torres. Color Descriptors for Web Image Retrieval: a Comparative Study. In XXI Brazilian Symposium on Computer Graphics and Image Processing, Campo Grande, MS, October 2008. [52] E. Persoon and K. Fu. Shape Discrimination Using Fourier Descriptors. IEEE Transanctions on Systems, Man, and Cybernetics, 7(3):170 178, 1977. [53] K. Rodden, W. Basalaj, D. Sinclair, and K. Wood. Does Organization by Similarity Assist Image Browsing? In ACM Conference on Human Factors in Computing Systems, volume 3, pages 190 197, 2001. [54] Y. Rui, T. S. Huang, M. Ortega, and S. Mehrotra. A Power Tool in Interactive Content- Based Image Retrieval. IEEE Tran on Circuits and Systems for Video Technology, 8(5):644 655, 1998. [55] S. Santini, A. Gupta, and R. Jain. Emergent Semantics through Interaction in Image Databases. IEEE Transactions on Knowledge and Data Engineering, 13(3):337 351, May/June 2001. [56] J. A. Santos, C. D. Ferreira, and R. da S. Torres. A Genetic Programming Approach for Relevance Feedback in Region-based Image Retrieval Systems. In XXI Brazilian Symposium on Computer Graphics and Image Processing, Campo Grande, MS, October 2008. [57] A.W.M. Smeulders, M. Worring, S. Santini, A. Gupta, and R. Jain. Content-based image retrieval at the end of the early years. IEEE Transactions on Pattern Analysis and Machine Intelligence, 22(12):1349 1380, December 2000. [58] D. Stan and I. K. Sethi. eid: a System for Exploration of Image Databases. Information Processing and Management, 39(3):335 365, 2003. [59] R. O. Stehling, M. A. Nascimento, and A. X. Falcão. A compact and efficient image retrieval approach based on border/interior pixel classification. In CIKM 02: Proceedings of the eleventh international conference on information and knowledge management, pages 102 109, 2002. 22 RITA Volume Número

[60] M. A. Stricker and M. Orengo. Similarity of Color Images. In Storage and Retrieval for Image and Video Databases (SPIE), pages 381 392, 1995. [61] M. Swain and D. Ballard. Color Indexing. International Journal of Computer Vision, 7(1):11 32, 1991. [62] H. Tamura, S. Mori, and T. Yamawaki. Textural Features Corresponding to Visual Perceptron. IEEE Transactions on Systems, Man and Cybernatics, 8(6):460 473, 1978. [63] D. Tao, X. Tang, X. Li, and X. Wu. Asymmetric Bagging and Random Subspace for Support Vector Machines-Based Relevance Feedback in Image Retrieval. IEEE TPAMI, 28(7):1088 1099, July 2006. [64] C. Traina, B. Seeger, C. Faloutsos, and A. Traina. Fast Indexing and Visualization of Metric Datasets Using Slim-Trees. IEEE Transactions on Knowledge and Data Engineering, 14(2):244 60, March/April 2002. [65] Y. P. Wang and T. Pavlidis. Optimal Correspondence of String Subsequences. IEEE Transactions on Pattern Analysis and Machine Intelligence, 12(11):1080 1087, Dec 1990. [66] Z. Xu, X. Xu, K. Yu, and V. Tresp. A Hybrid Relevance-Feedback Approach to Text Retrieval. Proceedings of the 25th European Conference on Information Retrieval Research, Lecture Notes in Computer Science, 2633:81 293, April 2003. [67] R. Yan and A. G. Hauptmann. A review of text and image retrieval approaches for broadcast news video. Information Retrieval, 10(4-5):445 484, October 2007. [68] J. A. M. Zegarra. Descrição de texturas invariante a rotação e escala para identificação e reconhecimento de imagens. Master s thesis, Instituto de Computação, Unicamp, 2007. [69] J. A. M. Zegarra, J. P. Papa, N. J. Leite, R. da S. Torres, and A. X. Falcão. Learning How to Extract Rotation-Invariant and Scale-Invariant Features from Texture Images. Eurasip Journal on Advances in Signal Processing, 2008. Accepted. [70] D. Zhang and G. Lu. Review of shape representation and description techniques. Pattern Recognition, 37(1):1 19, January 2004. [71] H. Zhang, A. Berg, M. Maire, and J. Malik. Discriminative nearest neighbor classification for visual category recognition. In CVPR, pages 2126 2136, 2006. [72] X. S. Zhou and T. S. Huang. Relevance feedback in image retrieval: A comprehensive review. Multimedia Systems, 8(6):536 544, 2003. RITA Volume Número 23