Descritores de Imagem

Descritores de Imagem André Tavares da Silva 31 de março de 2014 1 Descritores de imagem (continuação) 1.1 Frameworks de detecção de objetos SIFT (scale-invariant features transform) (Lowe, 1999) SIFT é uma técnica de processamento de imagens que permite a detecção e extração de descritores locais, razoavelmente invariáveis a mudanças de iluminação, ruído de imagem, rotação, escala e pequenas mudanças de perspectiva. Proporcionou um passo importante na representação de objetos através de suas partes, gerando um grande avanço em diversas áreas, como, reconhecimento de objetos, navegação automática de robôs, rastreamento e criação de imagens panorâmicas. Utiliza uma representação que se utiliza de uma pilha de imagens contendo níveis de detalhe do espaço de escala linear (gura 1). Essa pilha de imagens em vários níveis de detalhe é geralmente denominada oitavas de Gaussianas. Cada nível f i da pirâmide contém uma oitava obtida através da sub-amostragem sobre oitava f i 1, localizada no nível imediatamente inferior. Esse processo é repetido recursivamente até que se obtenha o nível de representação desejado, geralmente contendo blocos de 8 8 pixels, associado as maiores escalas observáveis. A obtenção de descritores SIFT é feita nas seguintes etapas: - Detecção de extremos (máximos e mínimos): Nesta primeira etapa é feita procura para todas escalas e localizações de uma imagem. Isto é feito utilizando-se a função Diferença de Gaussianas (DoG) de modo a se identicar pontos de interesse invariáveis à escala e rotação. - Localização de pontos chave: Para cada localização em que foi detectado um extremo, um modelo detalhado é ajustado de modo a se determinar localização e escala. Pontos chaves, ou pontos de interesse, são então selecionados baseando-se em medidas de estabilidade. - Denição de orientação: É denida a orientação de cada ponto chave através dos gradientes locais da imagem. Toda operação a partir de então será feita com relação a dados da imagem transformados em relação à orientação, escala e localização de cada ponto chave. Desta maneira se obtém invariância a estas transformações. 1

Figura 1: Representação multiescala usada no SIFT (Lowe, 1999). - Descritor dos pontos chaves: Nesta etapa é feita a construção dos descritores ao se medir gradientes locais em uma região vizinha a cada ponto de interesse. Estas medidas são então transformadas para uma representação que permite níveis signicativos de distorção e mudança na iluminação. Para cada ponto de interesse, são denidas n n regiões, com k k pixels cada, ao redor da localização do ponto chave. Geralmente n = k = 4. Para cada região, é feito um histograma em 8 direções. Este histograma é feito com as magnitudes dos pixels pertencentes a cada região. O descritor é então representado pelos histogramas das regiões. Viola e Jones (2001) O método de detecção de objetos Viola-Jones é o primeiro framework de detecção de objetos para fornecer taxas de detecção competitivos em tempo real. Embora possa ser treinado para detectar uma variedade de classes de objeto, foi motivada principalmente pelo problema de detecção de faces. Este algoritmo é implementado em OpenCV como cvhaardetectobjects(). O recurso empregado pelo framework de detecção utiliza as somas dos pixels da imagem com áreas retangulares (gura 2). Embora tenham alguma semelhança com transformada de Haar, ela é um pouco mais complexa uma vez que os recursos utilizados por Viola e Jones contam com mais de uma área retangular. A gura 2 mostra quatro diferentes tipos de características utilizados no quadro. O valor das características é a soma dos pixels dentro de rectângulos claros subtraídos da soma dos pixels dentro de rectângulos sombreados. Como é de se esperar, essas 2

Figura 2: Tipos de padrões usados em Viola-Jones. características retangulares são bastante primitivos se comparado a alternativas mais modernas. Apesar de serem sensíveis às características verticais e horizontais, o feedback é consideravelmente mais grosseiro. No entanto, com o uso de uma representação global da imagem elas podem ser calculadas on-the-y, o que lhes confere uma vantagem considerável em velocidade diante dos demais. Como cada área retangular em uma característica é sempre do lado de pelo menos outra, qualquer característica de dois retângulos pode ser calculado em seis referências na matriz (imagem), qualquer característica de três retângulos em oito e qualquer característica de quatro retângulo em nove. A velocidade com que as características podem ser calculadas podem não compensar seu número. Por exemplo, em uma sub-janela de 24x24 pixels, há um total de 162.336 características. Seria proibitivamente caro avaliar todos eles. Assim, o framework de detecção de objetos proposto por Viola e Jones utiliza uma variante do algoritmo de aprendizagem AdaBoost tanto para selecionar as melhores características quanto para treinar classicadores utilizam este método. 3

Figura 3: Passos para identicação de pessoas pelo HOG (Dalal e Triggs, 2005). HOG (Histogram of Oriented Gradients) (Dalal e Triggs, 2005) A ideia principal do descritor Histograma de Gradientes Orientados é que a aparência e forma de objetos em uma imagem podem ser descritos através da distribuição dos gradientes de intensidade dos pixels ou pelas direções das bordas. O processo para gerar o descritor pode ser dividido em quatro etapas: cálculo do gradiente em cada pixel, agrupamento dos pixels em células, agrupamento das células em blocos e obtenção do descritor. Primeiro utiliza-se máscaras derivada discreta pontual tanto no eixo vertical como horizontal para o cálculo do gradiente de cada pixel. O passo seguinte é responsável por agrupar os pixels de uma determinada região, criando-se o que se chama de célula. Após a segunda etapa, os blocos são criados através do agrupamento de células de uma certa região. Na etapa nal, cria-se o descritor. O descritor nada mais é do que uma lista dos histogramas de todas as células de todos os blocos. A atenuação do problema das variações locais de iluminação ou de contraste entre o primeiro plano e o plano de fundo, se dá através da normalização de cada histograma de acordo com seus próprios valores. O último passo no reconhecimento de objetos usando HOG é alimentar os descritores em um sistema de reconhecimento baseado em aprendizado supervisionado. No artigo original foi utilizado o classicador SVM (Support Vector Machines) utilizando um núcleo (kernel) linear, sendo usado para detecção de pedestres em vídeo. SURF (Speeded Up Robust Features) (Bay et al., 2008) Bay et al. (2008) propuseram uma versão relaxada do operador DoG na qual wavelets de Haar são usadas para calcular uma aproximação das derivadas de segunda ordem do núcleo Gaussiano. Essa aproximação foi usada pelos autores para a construção do método SURF. De fato, a forma dessas derivadas é muito similar às usadas no trabalho de Viola e Jones (2001). A deteção de pontos-chaves do método SURF explora o uso de imagens integrais para calcular ecientemente uma aproximação do operador DoG em diferentes escalas, o que lhe confere um desempenho de 3 a 7 vezes melhor do que o apresentado no SIFT. As posições detectadas são também renadas usando interpolação realizada no valor do determinante da matriz Hessiana. Como o operador DoG apresenta fortes respostas nos cantos e junções, o número de pontos-chaves detectados pelo SURF geralmente é bem menor do que os reportados pelos operadores LoG (Laplacian of Gaussian) ou DoG. Apesar disso, os autores armam que SURF reporta pontos-chaves tão estáveis quanto aqueles encontrados pelo SIFT. 4

SURF e SIFT apresentam as seguintes diferenças: - SURF usa um modelo aproximativo do espaço de escala, baseado em imagens integrais. - O detector de pontos usado pelo SURF não necessita que o tamanho original da imagem seja alterado; - A detecção dos pontos de interese no SURF é baseada na supressão de nãomáximos do determinante da matriz Hessiana enquanto o SIFT utiliza uma aproximação do traço dessa matriz. Em consequência disto, SURF tende a detectar cantos e regiões com textura enquanto SIFT geralmente tende a detectar bolhas e arestas. Referências Bibliográcas Bay, H., Tuytelaars, T. e Gool, L. V. Surf: Speeded up robust features. In Computer Vision and Image Understanding (CVIU), pages 346359, 2008. Dalal, Navneet e Triggs, Bill. Histograms of oriented gradients for human detection. In Conference on Computer Vision and Pattern Recognition (CVPR), pages 886893, 2005. Lowe, D. G. Object recognition from local scale-invariant features. In IEEE International Conference on Computer Vision (ICCV), volume 2, pages 11501157, 1999. Viola, Paul e Jones, Michael. Rapid object detection using a boosted cascade of simple features. In Conference on Computer Vision and Pattern Recognition (CVPR), pages 511518, 2001. 5