RECONHECIMENTO IDENTIFICAÇÃO BASEADA EM APARÊNCIA

RECONHECIMENTO IDENTIFICAÇÃO BASEADA EM APARÊNCIA Envolve a pergunta: É esta parte da imagem uma parte do objeto X? (modelo dado, região da imagem dada) Utiliza imagens ao invés de características como componentes básicos dos modelos de objetos. Representa-se o objeto O com o conjunto de todas as suas aparências possíveis. As imagens são obtidas, idealmente, de todas as possíveis orientações e direções de iluminação.

Um banco de dados simples exemplificando a representação de objetos baseada em aparência. Apenas o ângulo de visão, não a iluminação, foi alterada para se obterem as vistas mostradas. A identificação do objeto passa a ser achar o conjunto contendo a imagem que seja mais parecida com aquela a ser reconhecida.

Problema Dada uma imagem, I, contendo um objeto a ser identificado, e um banco de dados de modelos de objetos, cada um formado por um conjunto de imagens mostrando o objeto em um grande número de orientações de vistas e condições de iluminação, ache o conjunto contendo a imagem que seja mais parecida com I. Uma característica positiva da identificação baseada na aparência é que modelos de objetos podem ser comparados diretamente com os dados de entrada (ambos são imagens). Modelos baseados em características (invariante e árvore de interpretação), ao contrário, exigem que as características sejam detectadas e descritas antes que os dados e o modelo sejam comparados. Entretanto, bancos de dados de imagens consomem muita memória.

Exigem registro global de padrões Não são robustos a agrupamento, oclusão e transformações geométricas.

Autoespaços de Imagens (Eigenspace) Antes da introdução de um algoritmo, seguem-se 3 passos: 1- Define-se um método quantitativo para comparar imagens e introduzir algumas hipóteses necessárias. 2- Introduz-se uma representação de objetos baseada em aparências que seja eficiente, tornando viável a pesquisa em um banco de dados de imagens grande. 3- Adota-se um algoritmo que construa a representação e realize a identificação. Comparando Imagens Pode-se comparar duas imagens, I1 e I2 (N x N) através de sua correlação: 1 N N c I1 I2. I1(i, j).i2(i, j) 1 k i1 j1 onde k = constante de normalização. Quanto maior c, mais parecidas são I1 e I2.

Hipóteses 1- Cada imagem contém um único objeto. 2- Os objetos são visualizados por uma câmara fixa sob perspectiva fraca. 3- As imagens são normalizadas no tamanho, isto é, o quadro da imagem é o menor retângulo envolvendo os limites da imagem do objeto. 4- A energia dos valores de pixel de cada imagem é normalizada em 1; isto é, N i1 N I (i, i1 j) 2 1 5- O objeto é completamente visível e não-ocluso em todas as imagens.

Comparação Eficiente de Imagens com Autoespaços (Pesquisa de modelos) A pesquisa de imagens em um banco de dados de imagens, com vários objetos em várias vistas, pode ser proibitiva. Imagens de um pequeno banco de dados baseado em aparência composto por 12 carros de brinquedo. Apenas uma imagem por objeto é mostrada.

A representação de objetos em autoespaços reduz a imagem 2-D para um vetor 1-D. A representação da imagem como um vetor é feita varrendo-se a imagem de cima para baixo, e 11,X12, X1N,X21,, XNN T x X 2 em que a imagem N x N, X, é representada como um vetor N 2 - dimensional, x. A correlação entre imagens passa a ser o produto escalar entre dois vetores. T 1 X2 x1. c X x 3 2

Teorema: Representação de Autoespaço Sejam x 1,..., x n vetores N 2 -dimensionais, e x pode-se escrever cada x j como x 1 n n. sua média. Dada a matriz N 2 x n x j1 j X ( x x) ( x ) 4 1 n x x m j g ji i1 onde e 1,..., e m são os autovetores da matriz de covariância, Q=X.X T, correspondendo a m (m N 2 ) autovalores (não-nulos entre N 2 ) de Q, e g j =[g 1, g 2,..., g m ] T é o vetor de componentes de x j no autoespaço. e i é um vetor (N 2 x 1).e i 5 Q é uma matriz muito grande N 2 x N 2. Entretanto, apenas as componentes associadas aos valores maiores dos autovalores de Q são significantes para representar as imagens.

Assumindo que os autovalores não nulos m de Q são tais que λ λ... e 0 p/ i > k, então 1 2 λm i k j g ji i i1 x x. e Se k<<m, cada imagem x j é representada por um ponto de coordenadas g j T no autoespaço k-dimensional, muito menor do que o autoespaço m- dimensional. (apenas as componentes nas imagens mais parecidas com x j são importantes) Uma vantagem é que os pontos do autoespaço têm só k coordenadas. Autoespaços permitem o cálculo da correlação da imagem com mais eficiência, usando o fato de que a distância Euclideana no autoespaço é equivalente à correlação da imagem.

2 2 Assumindo os valores de cinza normalizados, ( x 1 x2 1), a correlação pode ser escrita através da distância Euclideana, 2 2 T x1 x2 x1 2. x1.x2 x2 2.(1 x1.x2 2 T ) e maximizar a correlação significa minimizar a distância Euclideana.

A distância entre vetores de imagens ainda pode ser aproximada pela distância no autoespaço k-dimensional, 2 1 g g : 2 2 1 1 2 2 1 2 1 2 1 2 1 1 2 1 2 1 1 2 1 2 2 1 ) ( ). (.... g g e e e e e x x k i i i k i i i i k i k i i i i i m i m i i i i i g g g g g g g g e a correlação pode ser calculada mais eficientemente, pois o espaço O(m) se transforma em um espaço O(k).

Resumo 1- Pontos do autoespaço representam imagens com menos números. 2- Imagens são correlacionadas eficientemente calculando distâncias no autoespaço. 3- Autoespaços sugerem uma forma de armazenar modelos de objetos automaticamente: a) adquire-se um conjunto completo de todas as possíveis vistas de cada objeto O, (p vistas e L iluminações) o o 12 o 1L o 21 x 11, x,..., x, x,..., x pl o b) a dimensão do conjunto acima é reduzida e calcula-se o o 12 o 1L o 21 g 11, g,..., g, g,..., g pl o

c) Para identificar um objeto de uma nova imagem y, projeta-se y no autoespaço (autovetores da matriz de covariância de todos as imagens no banco de dados OPL: objeto, vista, iluminação). d) Obtem-se g y. e) Procura-se g o (p,l) mais próximo de g y. o reconhecimento 3-D baseado em aparência é resolvido como um problema de distância mínima no autoespaço.

Algoritmo EIGENSPACE_LEARN As hipóteses assumidas inicialmente são válidas. Assume-se ainda câmara fixa, condições de iluminação fixas, e imagens de N x N pixeis. 1 Para cada objeto o representado, o = 1...O: a) posicione o objeto sobre uma mesa móvel. b) Adquira um conjunto de n imagens girando a mesa móvel de 360 o /n de cada vez. c) Faça com que o pano de fundo esteja bem destacado da imagem do objeto. d) Segmente o objeto do pano de fundo. e) Normalize as imagens em escala e energia como nas hipóteses. f) Represente os vetores das imagens normalizadas, x o p, onde p é o índice de rotação, p = 1,..., n.

2 Calcule o vetor de imagem médio, x, do banco de dados completo x 1 1 2 2 O 1,..., x n, x1,..., x n,..., x n 3 Forme a matriz de covariância N 2 x N 2, Q = X.X T, como na eq. 4 X x 1 1 X x 1 2 Xx 1 n X x 2 1 Xx O n X 4 Calcule os autovalores de Q, mantenha os primeiros maiores autovalores e os autovetores associados, e1,...,ek. (Podem ser calculados de X T.X pela SVD matriz n x n).

5 Para cada objeto, o: a) calcule os pontos do autoespaço k-dimensional correspondendo às n imagens: g o p e e x x) ; 1 k.( o p o b) armazene a curva discreta do autoespaço g,..., g g representação do objeto o. o p 1,..., o n, como uma Saída: Conjunto de O curvas discretas no autoespaço k-dimensional, cada um representando um objeto 3-D.

Algoritmo EIGENSPACE_IDENTIF As hipóteses assumidas inicialmente são válidas de tal maneira que o objeto possa ser facilmente segmentado do pano de fundo. Assume-se ainda câmara fixa, condições de iluminação fixas. Entrada: Imagem I de N x N pixeis. 1- Segmente o objeto do pano de fundo. 2- Normalize I em escala e energia, e represente a imagem normalizada como um vetor, i. 3- Calcule o ponto do autoespaço k-dimensional correspondente a i: g e e.( i ) 1 k x onde xé o vetor de imagem médio de todo o banco de dados. 4- Ache o ponto do autoespaço, ĝ, criado por EIGENSPACE_LEARN, mais próximo de g.

Exemplo de aplicação Eigenfaces

Abordagem de Janelas Móveis Detecção Reconhecimento Meados nos anos 1990

Abordagem de Janelas Móveis Meados nos anos 1990

Reconhecimento a partir de Características Locais Final nos anos 1990

Busca em Larga Escala Combina características locais, indexação e restrições espaciais

Modelos de Partes e Formas Modelo: Objeto como um conjunto de partes Localização relativa entre partes Aparência da parte Início dos anos 2000

Modelos baseados em partes treinados localmente

Modelos de Cesta de Características (Bag-of-Features) Meados dos anos 2000

Modelos de Cesta de Características Objeto Cesta de palavras

Passos para Cesta de Características 1. Extrair características 2. Aprender vocabulário visual 3. Quantificar características usando vocabulário visual 4. Representar imagens por frequencias de palavras visuais

Descritores Globais de Cenas O essencial de uma cena

Métodos de Dados Dirigidos (data driven)

Métodos de Dados Dirigidos (data driven) J. Tighe and S. Lazebnik, ECCV 2010

Contexto Geométrico Inferência simultanea de identidade de objetos, orientação de superfície e ângulo de vista da câmera usando câmera única e desconhecida. Céu = azul Estrutura vertical = vermelho Solo = verde Tentativa de localizar provável local de pessoa D. Hoiem, A. Efros, and M. Herbert. Putting Objects in Perspective. CVPR 2006.

O que funciona Atualmente Leitura de placas, zip codes, cheques

O que funciona Atualmente Leitura de placas, zip codes, cheques Reconhecimento de impressões digitais

O que funciona Atualmente Leitura de placas, zip codes, cheques Reconhecimento de impressões digitais Detecção de faces

O que funciona Atualmente Leitura de placas, zip codes, cheques Reconhecimento de impressões digitais Detecção de faces Reconhecimento de objetos texturados planos (capas de CDs, capas de livros, etc.)