Recuperação de imagens por conteúdo baseada em realimentação de relevância e classicador por oresta de caminhos ótimos André Tavares da Silva Orientador: Léo Pini Magalhães Co-orientador: Alexandre Xavier Falcão DCA/FEEC Unicamp 26 de julho de 2011 André Tavares da Silva (2011) CBIR usando classicador OPF 26 de julho de 2011 1 / 40
1 Motivação 2 Objetivo 3 Métodos propostos na tese e resultados Realimentação de relevância usando OPF Abordagem gulosa e planejada Comparativo com QEX e SVM AL Combinação de descritores Comparativo com GP + e GOPF RF Realimentação de relevância em dois níveis Comparativo com GOPF RF 4 Contribuições André Tavares da Silva (2011) CBIR usando classicador OPF 26 de julho de 2011 2 / 40
Motivação Motivação Com o crescimento da internet e a popularização dos dispositivos para captura de imagens como câmeras digitais e scanners, a disponibilidade de coleções de imagens tem crescido rapidamente nos últimos anos; Por isso, os usuários necessitam cada vez mais de ferramentas ecientes para pesquisar, navegar e recuperar essas informações em diferentes domínios, como sensoriamento remoto, moda, prevenção de crime, publicidade, medicina, arquitetura, entre outros. André Tavares da Silva (2011) CBIR usando classicador OPF 26 de julho de 2011 3 / 40
Motivação André Tavares da Silva (2011) CBIR usando classicador OPF 26 de julho de 2011 4 / 40
Motivação André Tavares da Silva (2011) CBIR usando classi cador OPF 26 de julho de 2011 4 / 40
Motivação André Tavares da Silva (2011) CBIR usando classi cador OPF 26 de julho de 2011 4 / 40
Motivação André Tavares da Silva (2011) CBIR usando classi cador OPF 26 de julho de 2011 4 / 40
Motivação André Tavares da Silva (2011) CBIR usando classi cador OPF 26 de julho de 2011 4 / 40
Motivação André Tavares da Silva (2011) CBIR usando classi cador OPF 26 de julho de 2011 4 / 40
Motivação André Tavares da Silva (2011) CBIR usando classi cador OPF 26 de julho de 2011 4 / 40
Motivação Desaos em CBIR Extração de características gerais como cor, textura e forma ou de características locais (SIFT e SURF, por exemplo); Técnicas como bag of features e dicionários visuais; Métodos de indexação para garantir a escalabilidade na busca em bases de imagens grandes; Técnicas de combinação de descritores; Métodos de realimentação de relevância baseados em movimento de pontos de consulta, modelo estatístico Bayesiano ou máquina de vetor de suporte. André Tavares da Silva (2011) CBIR usando classicador OPF 26 de julho de 2011 5 / 40
Objetivo Objetivo O principal objetivo desta tese é disponibilizar um modelo capaz de permitir que um usuário comum consiga, com um mínimo de iterações e interações, encontrar imagens de interesse. Para isso, foi realizado um estudo sobre o estado da arte na área e desenvolvida uma nova técnica baseada principalmente na classicação e ordenação das imagens de uma base de dados objetivando a recuperação de imagens para propósito geral. Esta tese propõe novos métodos de busca de imagens baseados em realimentação de relevância e no classicador por oresta de caminhos ótimos (OPF Optimum-Path Forest). É a primeira vez que o classicador OPF é utilizado para testar conjuntos de treinamentos pequenos, conforme exigido pela técnica de aprendizado por realimentação de relevância. André Tavares da Silva (2011) CBIR usando classicador OPF 26 de julho de 2011 6 / 40
Objetivo Exemplo - Realimentação de relevância (Relevance Feedback) André Tavares da Silva (2011) CBIR usando classicador OPF 26 de julho de 2011 7 / 40
Objetivo Exemplo - Realimentação de relevância (Relevance Feedback) André Tavares da Silva (2011) CBIR usando classicador OPF 26 de julho de 2011 7 / 40
Objetivo André Tavares da Silva (2011) CBIR usando classicador OPF 26 de julho de 2011 8 / 40
Objetivo Realimentação de relevância (Relevance Feedback) Usuário 1 Busca por similaridade Imagens retornadas Laço da realimentação de relevância Imagens Extração de características Vetores de característica Usuário 2..n Marcar Imagens relevantes Imagens rotuladas Aprendizado e recuperação André Tavares da Silva (2011) CBIR usando classicador OPF 26 de julho de 2011 9 / 40
Realimentação de relevância usando OPF Realimentação de relevância usando OPF Aprendizado Utilizando o conjunto T de imagens rotuladas como relevante/irrelevante pelo usuário durante as iterações, é gerado um classicador OPF e são criados os subconjuntos S R T e S I T de protótipos relevantes e irrelevantes. Cada imagem t Z\T da base de dados é então classicada como relevante ou irrelevante. André Tavares da Silva (2011) CBIR usando classicador OPF 26 de julho de 2011 10 / 40
Realimentação de relevância usando OPF Realimentação de relevância usando OPF Aprendizado Utilizando o conjunto T de imagens rotuladas como relevante/irrelevante pelo usuário durante as iterações, é gerado um classicador OPF e são criados os subconjuntos S R T e S I T de protótipos relevantes e irrelevantes. Cada imagem t Z\T da base de dados é então classicada como relevante ou irrelevante. Recuperação Somente as imagens t classicadas como relevantes são apresentadas ao usuário ordenada por: d(t, d(t,s S R, S I ) = R ) d(t,s R )+ d(t,s I ), onde d(t, S R ) = 1 S R s S R d(s, t) e d(t, S I ) = 1 S I s S I d(s, t). André Tavares da Silva (2011) CBIR usando classicador OPF 26 de julho de 2011 10 / 40
Realimentação de relevância usando OPF Realimentação de relevância usando OPF O conjunto T é interpretado como um grafo completo; André Tavares da Silva (2011) CBIR usando classicador OPF 26 de julho de 2011 11 / 40
Realimentação de relevância usando OPF Realimentação de relevância usando OPF O conjunto T é interpretado como um grafo completo; Uma árvore de extensão mínima (MST Minimum Spanning Tree) é calculada e removendo os arcos com diferentes rótulos e as amostras tornam-se protótipos criando os conjuntos S R T e S I T ; André Tavares da Silva (2011) CBIR usando classicador OPF 26 de julho de 2011 11 / 40
Realimentação de relevância usando OPF Realimentação de relevância usando OPF O conjunto T é interpretado como um grafo completo; Uma árvore de extensão mínima (MST Minimum Spanning Tree) é calculada e removendo os arcos com diferentes rótulos e as amostras tornam-se protótipos criando os conjuntos S R T e S I T ; O classicador é representado pelas orestas com raizes em S R T e S I T ; André Tavares da Silva (2011) CBIR usando classicador OPF 26 de julho de 2011 11 / 40
Realimentação de relevância usando OPF Realimentação de relevância usando OPF O conjunto T é interpretado como um grafo completo; Uma árvore de extensão mínima (MST Minimum Spanning Tree) é calculada e removendo os arcos com diferentes rótulos e as amostras tornam-se protótipos criando os conjuntos S R T e S I T ; O classicador é representado pelas orestas com raizes em S R T e S I T ; Cada imagem t Z\T é então classicada (relevante/irrelevante) de acordo com a raiz que oferece o menor custo para a imagem. André Tavares da Silva (2011) CBIR usando classicador OPF 26 de julho de 2011 11 / 40
Realimentação de relevância usando OPF Realimentação de relevância usando OPF O conjunto T é interpretado como um grafo completo; Uma árvore de extensão mínima (MST Minimum Spanning Tree) é calculada e removendo os arcos com diferentes rótulos e as amostras tornam-se protótipos criando os conjuntos S R T e S I T ; O classicador é representado pelas orestas com raizes em S R T e S I T ; Cada imagem t Z\T é então classicada (relevante/irrelevante) de acordo com a raiz que oferece o menor custo para a imagem. André Tavares da Silva (2011) CBIR usando classicador OPF 26 de julho de 2011 11 / 40
Abordagem gulosa e planejada Abordagem gulosa e planejada Abordagem gulosa Método tradicional de realimentação de relevância, no qual tenta-se retornar sempre as imagens que o usuário considera mais relevantes em cada iteração. André Tavares da Silva (2011) CBIR usando classicador OPF 26 de julho de 2011 12 / 40
Abordagem gulosa e planejada Abordagem gulosa e planejada Abordagem gulosa Método tradicional de realimentação de relevância, no qual tenta-se retornar sempre as imagens que o usuário considera mais relevantes em cada iteração. Abordagem planejada O usuário estabelece quantas iterações o sistema deverá aprender antes de retornar as imagens ordenadas por relevância. Nas iterações anteriores, o sistema apresenta as imagens mais informativas para auxiliar a aprendizagem do sistema. Neste caso, as imagens são apresentadas em ordem crescente da diferença absoluta entre os custos em relação a S R e a S I : d c (t, S R, S I ) = C R (t) C I (t), onde C R (t) é o custo do melhor caminho com raiz em S R e C I (t) é o custo do melhor caminho com raiz em S I. André Tavares da Silva (2011) CBIR usando classicador OPF 26 de julho de 2011 12 / 40
Comparativo com QEX e SVM AL Resultados Corel após 3 iterações 1 0.9 0.8 0.7 POPF RF GOPF RF SVM AL QEX Precisão 0.6 0.5 0.4 0.3 0.2 0.1 0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1 Revocação 1 Usando o descritor BIC: R.O. Stehling, M.A. Nascimento e A.X. Falcão. A compact and ecient image retrieval approach based on border/interior pixel classication. CIKM 2002, 102109. André Tavares da Silva (2011) CBIR usando classicador OPF 26 de julho de 2011 13 / 40
Comparativo com QEX e SVM AL Resultados Corel após 5 iterações 1 0.9 0.8 0.7 Precisão 0.6 0.5 0.4 0.3 POPF RF GOPF RF 0.2 SVM AL QEX 0.1 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1 Revocação André Tavares da Silva (2011) CBIR usando classicador OPF 26 de julho de 2011 14 / 40
Comparativo com QEX e SVM AL Resultados Corel após 8 iterações 1 0.9 0.8 0.7 Precisão 0.6 0.5 0.4 0.3 POPF RF GOPF RF 0.2 SVM AL QEX 0.1 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1 Revocação André Tavares da Silva (2011) CBIR usando classicador OPF 26 de julho de 2011 15 / 40
Comparativo com QEX e SVM AL Resultados Caltech após 3 iterações 0.7 0.6 0.5 POPF RF GOPF RF SVM AL QEX Precisão 0.4 0.3 0.2 0.1 0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1 Revocação André Tavares da Silva (2011) CBIR usando classicador OPF 26 de julho de 2011 16 / 40
Comparativo com QEX e SVM AL Resultados Caltech após 5 iterações 0.9 0.8 0.7 POPF RF GOPF RF SVM AL QEX 0.6 Precisão 0.5 0.4 0.3 0.2 0.1 0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1 Revocação André Tavares da Silva (2011) CBIR usando classicador OPF 26 de julho de 2011 17 / 40
Comparativo com QEX e SVM AL Resultados Caltech após 8 iterações 1 0.9 0.8 0.7 POPF RF GOPF RF SVM AL QEX Precisão 0.6 0.5 0.4 0.3 0.2 0.1 0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1 Revocação André Tavares da Silva (2011) CBIR usando classicador OPF 26 de julho de 2011 18 / 40
Comparativo com QEX e SVM AL Resultados Tempos Tabela: Tempo médio de execução por imagem de consulta (segundos). Base Caltech Coil-100 Corel MSRCORID PASCAL QEX 0,14 0,20 0,11 0,06 0,05 SVM AL 5,93 4,80 6,36 6,51 5,97 GOPF RF 0,15 0,11 0,07 0,10 0,08 POPF RF 0,15 0,11 0,07 0,10 0,08 Aproximadamente 60x mais rápido que o método baseado em SVM. André Tavares da Silva (2011) CBIR usando classicador OPF 26 de julho de 2011 19 / 40
Combinação de descritores Combinação de descritores D * d i (s,t) D 1 d 1 (s,t) D i v i (s) v i d i v i v i (t) s t d 2 (s,t) D 2... δd d * (s,t) d k (s,t) s t D k Descritor simples e composto D = (D, δd). André Tavares da Silva (2011) CBIR usando classicador OPF 26 de julho de 2011 20 / 40
Combinação de descritores Combinação de descritores usando MSPS δd(s, t) = n i=1 d θ i (s, t), i onde θ = (θ 1, θ 2,..., θ n ) é o conjunto de parâmetros da função de combinação, tal que 0 θ i 2. Esta equação dene um peso não linear para cada um dos descritores escolhidos para compor a função de combinação; Quanto maior o valor de θ i maior a inuência do descritor na combinação; A melhor função de combinação é aquela que traz primeiramente as imagens mais relevantes. Os melhores parâmetros são então encontrados pela otimização de uma função critério, como a FFP4 usada nos testes realizados: F (δd, T ) = 1 T R u T R k=1 T u 7λ k 0.982 k André Tavares da Silva (2011) CBIR usando classicador OPF 26 de julho de 2011 21 / 40
Combinação de descritores Combinação de descritores usando MSPS A partir de um estado inicial θ = (θ 1, θ 2,..., θ n ), encontra-se o melhor vetor de deslocamento para atualizar o vetor de parâmetros para o próximo valor θ θ +, repetindo este processo até encontrar um máximo global da função de avaliação F (δd, T ). A m de evitar máximos locais, o método perturba θ em cada um dos n parâmetros θ i e em diferentes escalas de deslocamento j = 1, 2,..., m (exemplo: 0,01; 0,05; 0,1; 0,2; 0,4; 0,8; 1). A cada iteração, é estimado o valor de F (θ + ) para cada vetor de deslocamento resultante de todas as perturbações em cada eixo separadamente. O vetor resultante de todas as escalas também é testado. André Tavares da Silva (2011) CBIR usando classicador OPF 26 de julho de 2011 22 / 40
Combinação de descritores Combinação usando programação genética Enquanto MSPS procura por um conjunto de parâmetros ótimo para uma mesma função, programação genética (GP Genetic Programming) tenta gerar uma função de combinação usando uma técnica evolutiva de solução de problemas. Em cooperação com Jefersson Alex dos Santos, foi integrado um método para combinação de descritores baseado em programação genética à técnica de realimentação de relevância usando OPF. Cada indivíduo GP representa uma função candidata δd. d*(s,t) (s,t) (s,t) (s,t) (s,t) (s,t) André Tavares da Silva (2011) CBIR usando classicador OPF 26 de julho de 2011 23 / 40
Comparativo com GP + e GOPF RF Resultados MSRCORID após 3 iterações 1 0.9 0.8 OPF MSPS OPF GP GP + BIC 0.7 Precisão 0.6 0.5 0.4 0.3 0.2 0.1 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1 Revocação 1 Descritores combinados: ACC, BIC, JAC, LAS e SASI André Tavares da Silva (2011) CBIR usando classicador OPF 26 de julho de 2011 24 / 40
Comparativo com GP + e GOPF RF Resultados MSRCORID após 5 iterações 1 0.9 0.8 0.7 Precisão 0.6 0.5 0.4 0.3 OPF MSPS OPF GP 0.2 GP + BIC 0.1 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1 Revocação André Tavares da Silva (2011) CBIR usando classicador OPF 26 de julho de 2011 25 / 40
Comparativo com GP + e GOPF RF Resultados MSRCORID após 8 iterações 1 0.9 0.8 0.7 Precisão 0.6 0.5 0.4 0.3 OPF MSPS OPF GP 0.2 GP + BIC 0.1 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1 Revocação André Tavares da Silva (2011) CBIR usando classicador OPF 26 de julho de 2011 26 / 40
Comparativo com GP + e GOPF RF Resultados relevantes por iteração para MSRCORID 85 80 Percentual de relevantes 75 70 65 60 OPF 55 MSPS OPF GP GP + 50 1 2 3 4 5 6 7 8 Iteração André Tavares da Silva (2011) CBIR usando classicador OPF 26 de julho de 2011 27 / 40
Comparativo com GP + e GOPF RF Resultados PASCAL após 3 iterações 1 0.9 0.8 0.7 OPF MSPS OPF GP GP + BIC Precisão 0.6 0.5 0.4 0.3 0.2 0.1 0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1 Revocação 1 Descritores combinados: ACC, BIC, JAC, LAS e SASI André Tavares da Silva (2011) CBIR usando classicador OPF 26 de julho de 2011 28 / 40
Comparativo com GP + e GOPF RF Resultados PASCAL após 5 iterações 1 0.9 0.8 0.7 OPF MSPS OPF GP GP + BIC Precisão 0.6 0.5 0.4 0.3 0.2 0.1 0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1 Revocação André Tavares da Silva (2011) CBIR usando classicador OPF 26 de julho de 2011 29 / 40
Comparativo com GP + e GOPF RF Resultados PASCAL após 8 iterações 1 0.9 0.8 0.7 OPF MSPS OPF GP GP + BIC Precisão 0.6 0.5 0.4 0.3 0.2 0.1 0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1 Revocação André Tavares da Silva (2011) CBIR usando classicador OPF 26 de julho de 2011 30 / 40
Comparativo com GP + e GOPF RF Resultados relevantes por iteração para PASCAL 65 60 Percentual de relevantes 55 50 45 40 35 OPF MSPS 30 OPF GP GP + 25 1 2 3 4 5 6 7 8 Iteração André Tavares da Silva (2011) CBIR usando classicador OPF 26 de julho de 2011 31 / 40
Realimentação de relevância em dois níveis Aprendizado em dois níveis de interesse O objeto de interesse em uma busca de imagens nem sempre ocupa toda a área de uma gura, sendo somente parte dela importante para o usuário; Esta tese apresenta também uma nova abordagem para realimentação de relevância utilizando o classicador OPF em dois níveis de interesse, tanto para escolher as imagens mais relevantes a cada iteração quanto para selecionar os pixels de interesse nas imagens. Diferentemente dos outros métodos, o usuário seleciona interativamente os objetos de interesse durante as iterações do processo de realimentação de relevância, descartando o que não lhe é útil. André Tavares da Silva (2011) CBIR usando classicador OPF 26 de julho de 2011 32 / 40
Realimentação de relevância em dois níveis Classicação objeto/fundo Cada pixel marcado é representado por um vetor de características de dimensão 3, contendo os valores de cor no espaço CIE Lab. A distância entre os vetores de características é calculada pela função de distância L2 (euclidiana). André Tavares da Silva (2011) CBIR usando classicador OPF 26 de julho de 2011 33 / 40
Realimentação de relevância em dois níveis Aprendizado em dois níveis de interesse O usuário seleciona na imagem de consulta o que é objeto ou fundo; Todos os pixels das demais imagens da base são classicados como objeto ou fundo; São extraídos os vetores de características das regiões classicadas como objeto; Durante o processo de realimentação de relevância o usuário seleciona as imagens relevantes/irrelevantes e pode refazer a seleção de objeto/fundo. André Tavares da Silva (2011) CBIR usando classicador OPF 26 de julho de 2011 34 / 40
Realimentação de relevância em dois níveis Aprendizado em dois níveis de interesse (eciência) Problema É necessário recalcular os vetores de característica para todas as imagens da base de dados. Para isso, é preciso também classicar cada um dos pixels de todas as imagens. Solução São utilizados thumbnails para reduzir a quantidade de pixels a ser classicado como objeto/fundo; Uso do algoritmo OPF-SGTS (Smart Growth of the Training Set) que seleciona automaticamente um conjunto de treinamento reduzido, mantendo a ecácia do conjunto de treinamento original. André Tavares da Silva (2011) CBIR usando classicador OPF 26 de julho de 2011 35 / 40
Realimentação de relevância em dois níveis Testes com thumbnails Cálculo dos vetores de características nos thumbnails não gera bons resultados; Por isso, o cálculo é feito na imagem original. Os pixels classicados como objeto nos thumbnails são mapeados na imagem original; A diferença de ecácia usando ou não thumbnails é insignicante; A diferença de eciência (tempo) é proporcional à diferença de tamanho da imagem original para o seu thumbnail. André Tavares da Silva (2011) CBIR usando classicador OPF 26 de julho de 2011 36 / 40
Comparativo com GOPF RF Resultados busca de imagens de estátuas na base Corel 24 22 Número de imagens relevantes 20 18 16 14 12 10 8 6 GOPF Bi level GOPF RF 1 2 3 4 5 6 7 8 Iteração André Tavares da Silva (2011) CBIR usando classicador OPF 26 de julho de 2011 37 / 40
Comparativo com GOPF RF Resultados busca de imagens de vacas na base MSRCORID 140 Número de imagens relevantes 120 100 80 60 40 20 GOPF Bi level GOPF RF 0 1 2 3 4 5 6 7 8 Iterações André Tavares da Silva (2011) CBIR usando classicador OPF 26 de julho de 2011 38 / 40
Comparativo com GOPF RF Resultados busca de imagens de aviões na base Caltech Número de imagens relevantes 160 140 120 100 80 60 40 20 GOPF Bi level (usuário 1) GOPF Bi level (usuário 2) GOPF RF 0 1 2 3 4 5 6 7 8 Iteração André Tavares da Silva (2011) CBIR usando classicador OPF 26 de julho de 2011 39 / 40
Contribuições Contribuições Desenvolvimento de um método de CBIR bastante eciente e ecaz; Uso do OPF para CBIR (descritor único); abordagem gulosa 1 abordagem planejada 2 Uso do MSPS para combinação de descritores 3 ; Proposta do método Bi-Level (pixel e objeto) baseado em OPF. 4 1 A.T. Silva, A.X. Falcão, L.P. Magalhães. A new CBIR approach based on relevance feedback and optimumpath forest classication. Journal of WSCG, 18 (1-3), pg. 7380, 2010. 2 A.T. Silva, A.X. Falcão, L.P. Magalhães. Active learning paradigms for CBIR systems based on optimum-path forest classication. Pattern Recognition. 44 (12), pg. 29712978, 2011. 3 A.T. Silva, J.A. dos Santos, A.X. Falcão, R. da S. Torres e L.P. Magalhães. Incorporating multiple distance spaces in optimum-path forest classication to improve feedback-based learning. Computer Vision and Image Understanding (submetido). 4 A.T. Silva, C.C.C. Fernández, Falcão, L.P. Magalhães e P.J. Rezende. Levels of interest based on optimum-path forest classication applied to relevance feedback learning paradigm for CBIR systems. Pattern Recognition Letter (em submissão). André Tavares da Silva (2011) CBIR usando classicador OPF 26 de julho de 2011 40 / 40