NLOOK: Modelo de Atenção Visual Relativamente Insensível a Transformações Afins

Transcrição

1 NLOOK: Modelo de Atenção Visual Relativamente Insensível a Transformações Afins Milton Roberto Heinen 1 e Paulo Martins Engel 1 1 Instituto de Informática Universidade Federal do Rio Grande do Sul (UFRGS) Caixa Postal 15064, CEP , Porto Alegre-RS, Brasil mrheinen@inf.ufrgs.br, engel@inf.ufrgs.br Abstract. The computational models of visual attention, originally proposed as cognitive models of human attention, nowadays are being used as front-ends in some computational vision systems, but in these kinds of applications the model must be relatively insensitive to affine transformations. In this paper a new visual attention model, called NLOOK, is proposed and validated using several experiments, and the results show that NLOOK is less sensitive to affine transformations than the best known attention model, called NVT. Thus, the proposed model is an excellent tool to be used in computational vision systems. Resumo. Os modelos de atenção visual, originalmente propostos para explicar os mecanismos de atenção biológicos, ultimamente vem sendo utilizados como front-ends em aplicações de visão computacional, porém neste tipo de aplicação o modelo precisa ser relativamente insensível a transformações afins. Neste artigo um novo modelo de atenção visual, chamado de NLOOK, é proposto e validado através de diversos experimentos. Estes experimentos demonstram que o NLOOK é bem menos sensível a transformações afins que o NVT, que é o modelo de atenção visual mais conhecido e utilizado. Assim, o NLOOK é bastante adequado de ser utilizado em aplicações de visão computacional. 1. Introdução A quantidade de informações que chega ao sistema visual dos primatas estimada como sendo da ordem de 10 8 bits por segundo excede em muito a capacidade que o cérebro tem de processá-la e assimilá-la em sua experiência consciente [Itti et al. 1998]. A estratégia utilizada pelos sistemas biológicos para lidar com este excesso de informações é processar de forma detalhada somente algumas partes do campo visual, chamadas de regiões de interesse, e ignorar o restante das informações [Niebur and Koch 1998]. O mecanismo de atenção do seres humanos é influenciado por dois principais tipos de informações: bottom-up ou exógenas (elementos da cena visual que se destacam dos demais) e top-down ou endógenas (informações do córtex cerebral que alteram o foco da atenção). Inspirados nos sistemas de atenção biológicos, é possível desenvolver sistemas de atenção computacionais que sejam capazes de selecionar as regiões de interesse do campo visual a serem completamente processadas, e isto torna possível a análise de cenas complexas em tempo real com recursos limitados de processamento. Embora diversos modelos de atenção visual bottom-up já tenham sido propostos e implementados [Koch and Ullman 1985, Tsotsos et al. 1995, Itti et al. 1998, Orabona et al. 2005,

2 Frintrop 2006], a maioria destes modelos tem como foco principal entender o funcionamento dos mecanismos de atenção dos seres vivos, e como tal têm sido avaliados somente em relação à sua plausibilidade biológica [Draper and Lionelle 2005]. Em um sistema de visão computacional é necessário, entre outras coisas, que o modelo de atenção seja relativamente insensível a transformações afins (rotação, translação, reflexão e escala). Porém, segundo [Draper and Lionelle 2005], o NVT [Itti et al. 1998], que é o modelo de atenção visual mais conhecido e utilizado, é bastante sensível a transformações afins, e portanto não deve ser utilizado em aplicações de visão computacional. Este artigo apresenta um novo modelo de atenção visual, chamado de NLOOK [Heinen and Engel 2008c], que é bem menos sensível a transformações afins que o NVT. Assim, o modelo proposto é uma excelente ferramenta para ser utilizada em tarefas de visão computacional e robótica, como a identificação de objetos e a detecção de landmarks. Este artigo está estruturado da seguinte forma: a Seção 2. descreve o modelo de atenção visual mais conhecido e utilizado, chamado de NVT [Itti et al. 1998]; a Seção 3. descreve o modelo proposto; a Seção 4. descreve os experimentos realizados e os resultados obtidos; e a Seção 5. descreve as conclusões finais e as perspectivas futuras. 2. Trabalhos relacionados O primeiro modelo de atenção visual biologicamente plausível foi proposto originalmente em [Koch and Ullman 1985] e posteriormente aperfeiçoado em [Itti et al. 1998]. Ele é baseado na teoria da integração de feições (Feature Integration Theory FIT) [Treisman and Gelade 1980] e na hipótese de que um mapa de saliências é capaz de fornecer uma estratégia eficiente no controle da atenção utilizando somente informações da própria cena visual (bottom-up) [Itti 2005]. Neste modelo, chamado de NVT, a imagem de entrada é decomposta em três mecanismos de detecção de características pré-atentivas (intensidade, cores e orientações), que operam em paralelo sobre toda a cena visual. Estas três características são posteriormente unidas em um único mapa de saliências, que codifica os estímulos mais importantes da cena visual. Para a criação dos mapas de características, no NVT são utilizadas operações lineares de centro-periferia aplicadas sobre pirâmides gaussianas [Burt et al. 1983] com níveis ϕ [0, 8], onde ϕ = 0 corresponde ao tamanho original da imagem. No modelo de [Itti et al. 1998], as operações lineares de centro-periferia são implementadas através da diferença entre os níveis finos e grosseiros das pirâmides gaussianas, onde o centro corresponde aos níveis c {2, 3, 4} e a periferia aos níveis s = c + δ, com δ {3, 4}. Os mapas resultantes deste processo são então reduzidos para o nível ϕ = 4 (mais grosseiro) e normalizados através do operador de normalização não linear N( ), que intensifica os mapas que possuem poucos picos salientes que se destacam dos demais [Itti et al. 1998], e em seguida estes mapas são combinados em um único mapa de características. Para a criação dos mapas de intensidade I no NVT, inicialmente os canais vermelho (red r), verde (green g) e azul (blue b) são extraídos da imagem colorida original. A partir destes canais é gerada a imagem I = (r + g + b)/3, e sobre esta imagem são aplicadas as operações de centro-periferia. Os mapas de cores C, que codificam a oponência espacial e cromática das cores vermelho/verde (RG) e azul/amarelo (BY ), são criados de forma similar. Inicialmente os canais r, g e b da imagem de entrada são normalizados por I de forma a separar a cor da intensidade. Em seguida quatro canais largamente sintoni-

3 zados R, G, B e Y são criados. A partir destes canais são criadas pirâmides gaussianas e realizadas as operações de centro-periferia, sendo que no centro são utilizadas as pirâmides de uma cor (R ou B) e na periferia as pirâmides de outra (G ou Y ). Para a criação dos mapas de orientação O(θ), são utilizadas pirâmides de Gabor [Greenspan et al. 1994] a partir da imagem I, com as orientações preferenciais θ {0, 45, 90, 135 }. Em seguida estes quatro mapas são unidos em um único mapa de orientações O. Após a construção dos mapas de características, estes são unidos para formarem um único mapa de saliências global S = (N(I) + N(C) + N(O))/3, que codifica os estímulos mais importantes da cena visual. Para a seleção dos focos de atenção (focus of attention FOA), também chamados de fixações, é utilizada uma rede neural do tipo o vencedor leva tudo (winner-take-all WTA). Esta rede neural utiliza neurônios do tipo integra e dispara [Liu and Wang 2001] com forte inibição global, e um mecanismo de inibição de retorno (inhibition of return IOR) [Klein 2000] evita que o foco de atenção (focus of attention FOA) fique sempre preso ao mesmo objeto. Embora este modelo de atenção seja bastante conhecido e biologicamente plausível, segundo [Draper and Lionelle 2005] ele não é muito adequado de ser utilizado em aplicações de visão computacional, pois é muito sensível a transformações afins (reflexão, rotação, translação e escala) na imagem original. Assim, optou-se pela criação de um novo modelo de atenção visual que fosse menos sensível a transformações afins. Este modelo é descrito em detalhes na próxima seção. 3. Modelo proposto A Figura 1 mostra a arquitetura geral do modelo proposto neste artigo, chamado de NLOOK 1 [Heinen and Engel 2008b, Heinen and Engel 2008c, Heinen and Engel 2008a, Heinen and Engel 2009], que é inspirado nos conceitos de scale-space (espaço-escala) [Witkin 1983], também utilizados por Lowe nos descritores SIFT (Scale Invariant Feature Transform) [Lowe 2004]. Ou seja, diferentemente de outros modelos de atenção visual, o NLOOK utiliza scale-spaces ao invés de apenas pirâmides gaussianas para as operações de centro-periferia, o que torna o modelo proposto menos sensível a transformações afins que os demais. Além disso, o modelo proposto consegue selecionar a escala aproximada dos focos de atenção. Figura 1. Arquitetura do modelo proposto Para a criação de um scale-space, a imagem de entrada é inicialmente sub-amostrada em diversos oitavos, e as imagens iniciais de cada oitavo correspondem a uma pi- 1 NLOOK

4 râmide gaussiana, ou seja, cada oitavo possui metade do tamanho de seu antecessor e o oitavo 0 corresponde à imagem original. Em seguida são criadas diversas escalas para cada oitavo através da convolução sucessiva das imagens iniciais com kernels gaussianos. Por último, as diferenças de gaussianas (DoG) são obtidas através da subtração absoluta das escalas adjacentes de cada oitavo. A Figura 2 ilustra este processo [Lowe 2004]. Figura 2. Diferença de gaussianas utilizando scale-spaces O modelo proposto neste artigo utiliza o número máximo possível de oitavos, além do qual a imagem inicial deste oitavo seria menor que os kernels gaussianos. Isto corresponde a cinco oitavos para uma imagem de pixels e seis oitavos para uma imagem de pixels. Segundo [Lowe 2004], o número ideal de escalas por oitavo a ser utilizado é três. Assim, os kernels gaussianos utilizados no NLOOK para as escalas 0, 1 e 2 possuem desvios de , e , respectivamente. Estes são os mesmos valores utilizados nos descritores SIFT de Lowe [Lowe 2004]. Para a criação dos mapas de intensidade, a imagem original é convertida para uma imagem em tons de cinza I, e as diferenças de gaussianas são geradas para esta imagem utilizando scale-spaces. Assim, para uma imagem típica de pixels são criadas 12 diferenças de gaussianas (duas por oitavo). Em seguida cada uma destas diferenças de gaussianas são normalizadas pela subtração da média e divisão do resultado pelo desvio padrão. Diferentemente do NVT, no NLOOK os diferentes oitavos e escalas não são unidos em um único mapa, ou seja, todas as DoGs dos mapas de características são preservadas. Para a criação dos mapas de cores, inicialmente são gerados quatro scale-spaces para os canais de cores largamente sintonizados R (vermelho), G (verde), B (azul) e Y (amarelo). A criação destes canais é descrita de forma detalhada em [Itti et al. 1998]. Em seguida são geradas as diferenças de gaussianas entre os diferentes canais, ou seja, para os mapas RG as subtrações absolutas ocorrem entre os canais R 0 B 1 e R 1 B 2 de cada oitavo (onde 0, 1 e 2 são as escalas), e para os mapas BY ocorrem entre os canais B 0 Y 1 e B 1 Y 2. Assim, são criados dois scale-spaces de cores: RG e BY. Para a criação dos mapas de orientação são utilizados filtros de Gabor [Daugman 1988]. A criação destes mapas é semelhante a dos mapas de intensidade, porém antes da convolução com os kernels gaussianos de cada escala a imagem inicial de cada oitavo é convolucionada com os filtros Gabor. Assim como no NVT, no modelo proposto são utilizadas quatro orientações preferenciais θ {0, 45, 90, 135 }, ou seja, o modelo possui quatro scale-spaces de orientação. As DoGs destes quatro scale-spaces são então normalizadas e somadas, dando origem assim a um único scale-space de orientações.

5 Após a criação dos scale-spaces de características, estes são normalizados e somados em um único scale-space de saliências, que possui diversas DoGs (12 para uma imagem pixels). Estas DoGs são então redimensionadas para a escala 0 (tamanho original da imagem) e somadas, formando assim um único mapa de saliências. Ao contrário do NVT, no qual o mapa de saliências possui escala 4 (mais grosseira), no NLOOK optou-se por expandir as DoGs para a escala 0 para que não houvesse perda de informações. Esta técnica também é adotada em [Frintrop 2006]. A função do mapa de saliências único é servir como um resumo do scale-space de saliências, permitindo assim o uso de um mecanismo de inibição de retorno (IOR) único. Após a criação do mapa de saliências único, este é percorrido pelo foco de atenção da seguinte forma: inicialmente o ponto mais saliente deste mapa é encontrado, e o scale-space de saliências é então analisado para que seja descoberto o oitavo/escala que mais contribuiu para a saliência deste ponto. Em caso de empate é utilizado o menor (mais fino) oitavo/escala. O mecanismo de inibição de retorno, que possui o formato de uma gaussiana invertida, é então aplicado sobre o mapa de saliências único, sendo que o diâmetro deste depende do oitavo/escala mais relevante para o FOA atual, isto é, quanto maior o oitavo/escala (mais grosseiro), maior o diâmetro do IOR. Figura 3. Imagens utilizadas nos experimentos 4. Experimentos realizados Nesta seção são descritos os experimentos realizados visando verificar a sensibilidade do modelo proposto em relação às transformações afins, bem como comparar o seu desempenho com o do NVT. Para isto, foram selecionadas 15 imagens de pixels, mostradas na Figura 3, e sobre estas foram aplicadas as seguintes transformações: Reflexões vertical e horizontal; Rotações de 45 a 315, em intervalos de 45 ; Translação vertical e horizontal de 1, 4, 9 e 16 pixels; Alteração de escala: fatores 1.2, 1.1, 0.9 e 0.8. Totalizando 25 transformações distintas para cada imagem. Um modelo de atenção insensível a transformações afins deverá encontrar as mesmas fixações nas imagens originais e

6 transformadas estas apenas estarão deslocadas de acordo com a transformação aplicada. Para evitar que parte das informações fossem perdidas, cada uma das imagens originais foi acrescida de bordas cinzentas, e a fronteira entre a imagem original e as bordas foi levemente desfocada para evitar que esta região ficasse muito saliente. O tamanho das imagens com bordas é de pixels, e assim foram utilizados 6 oitavos no NLOOK. Para avaliar a performance dos dois modelos de atenção em relação às transformações aplicadas, foram utilizadas as seguintes medidas de desempenho (adaptadas de [Draper and Lionelle 2005]): taxa de erros grosseiros (gross errors GE) e deslocamento médio (mean drift MD). A taxa de erros grosseiros mede o percentual de fixações da imagem original que não são encontradas na imagem transformada, aplicando-se as devidas transformações nas posições dos FOAs originais e levando-se em conta uma margem de erro de 18 pixels (a mesma usada em [Draper and Lionelle 2005]). Já o deslocamento médio mede a distância média em pixels entre a posição desejada para as fixações, que é a posição do FOA na imagem original deslocada de acordo com a transformação aplicada, em relação à posição das fixações obtidas na imagem transformada, ou seja: MD = 1 /N N n=1 D(F d(n), F o(n)) (1) onde N é o número de FOAs utilizado (10 nos experimentos realizados), F d(n) é a posição desejada do FOA n, F o(n) é a posição obtida do FOA n na imagem transformada, e D( ) é a distância euclidiana entre F d(n) e F o(n). A Tabela 1 mostra a média dos resultados obtidos com estas imagens em cada dos modelos de atenção analisados. A primeira coluna descreve a transformação aplicada. As demais colunas trazem a média dos valores do deslocamento médio (MD) e dos erros grosseiros (GE) sobre todas as 15 imagens. Os experimentos da Tabela 1 demonstram que o NVT é bastante sensível a transformações afins, não sendo adequado para ser utilizado em aplicações de visão computacional. Já o NLOOK apresentou resultados melhores que o NVT, ou seja, ele apresenta um sensibilidade a transformações afins muito menor que o NVT. A Figura 4 mostra o desempenho dos dois modelos de atenção utilizando uma imagem original e sua respectiva versão rotacionada em 45 (parte das bordas foi retirada para melhorar a visualização). Percebe-se que os FOAs selecionados pelo NLOOK, levando-se em conta as transformações aplicadas, foram os mesmos em ambas as versões da imagem (original e rotacionada), ou seja, o NLOOK se mostrou insensível à transformação aplicada. Já o NVT selecionou FOAs diferentes para cada versão da imagem. (a) Original NVT (b) Rot. 45 NVT (c) Original NLOOK (d) Rot. 45 NLOOK Figura 4. Comparação visual dos dois modelos de atenção

7 Tabela 1. Resultados obtidos NVT NLOOK Transformação MD GE MD GE Reflexão vertical 123, ,0000% 10,1914 0,6667% Reflexão horizontal 119, ,0000% 1,5288 0,0000% Rotação , ,6667% 13,9553 2,0000% Rotação , ,3333% 2,0000 0,0000% Rotação , ,6667% 18,6985 4,0000% Rotação , ,0000% 3,5418 0,6667% Rotação , ,3333% 13,9964 4,0000% Rotação , ,3333% 2,0016 0,0000% Rotação , ,3333% 12,4510 3,3333% Translação vertical 1 pixels 42,8538 4,0000% 3,1510 0,0000% Translação vertical 4 pixels 81, ,0000% 0,0133 0,0000% Translação vertical 9 pixels 84,2279 9,3333% 3,1443 0,0000% Translação vertical 16 pixels 79, ,6667% 2,4757 0,0000% Translação horizontal 1 pixels 41,9955 3,3333% 4,4449 0,0000% Translação horizontal 4 pixels 84,4627 7,3333% 0,0067 0,0000% Translação horizontal 9 pixels 97,6045 6,6667% 4,4316 0,0000% Translação horizontal 16 pixels 88,4299 8,0000% 0,0067 0,0000% Alteração de escala fator 1,2 122, ,0000% 84, ,6667% Alteração de escala fator 1,1 121, ,6667% 54,3286 9,3333% Alteração de escala fator 0,9 126, ,6667% 60,7751 8,6667% Alteração de escala fator 0,8 125, ,3333% 91, ,6667% Média 108, ,3333% 24,8051 4,8533% Desvio padrão 27, ,8228% 36,2401 8,4097% 5. Conclusões e perspectivas Este artigo apresentou um novo modelo de atenção visual, chamado de NLOOK, desenvolvido para ser utilizado em aplicações de visão computacional e robótica. Este modelo é bem menos sensível às transformações afins que o modelo de atenção mais conhecido e utilizado, chamado de NVT, e assim é mais adequado de ser utilizado em aplicações de visão computacional. As perspectivas futuras incluem a utilização de informações topdown no processo de elaboração dos mapas de características, bem como a utilização do modelo proposto em aplicações de visão computacional como a identificação de objetos. Agradecimentos Agradecemos ao apoio do CNPq que tornou possível a realização deste trabalho. Referências Burt, P. J., Hong, T., and Adelson, E. H. (1983). The laplacian pyramid as a compact image code. IEEE Trans. Communications, 31(4): Daugman, J. G. (1988). Complete discrete 2-d gabor transforms by neural networs for image analysis and compression. IEEE Trans. Acoustics, Speech, and Signal Processing, 36(7):

8 Draper, B. A. and Lionelle, A. (2005). Evaluation of selective attention under similarity transformations. Computer Vision and Image Understanding, 100: Frintrop, S. (2006). VOCUS: A Visual Attention System for Object Detection and Goaldirected Search. PhD thesis, Rheinische Friedrich-Wilhelms-Univ. Bonn, Germany. Greenspan, S., Belongie, S., Goodman, R., Perona, P., Rakshit, S., and Anderson, C. H. (1994). Overcomplete steerable pyramid filters and rotation invariance. In Proc. IEEE Computer Vision and Pattern Recognition (CVPR), pages , Seattle, WA. Heinen, M. R. and Engel, P. M. (2008a). Avaliação de modelos de atenção visual em relação a transformações afins. In Proc. IV Workshop de Visão Computacional (WVC 2008), Bauru, SP. IEEE press. Heinen, M. R. and Engel, P. M. (2008b). Modelo de atenção visual seletiva para aplicações em tempo real. In Proc. IV Workshop on MSc Dissertation and PhD Thesis in Artificial Intelligence (WTDIA 2008), LNCS, Salvador, BH. Springer-Verlag. Heinen, M. R. and Engel, P. M. (2008c). Visual selective attention model for robot vision. In Proc. 5th IEEE Latin American Robotics Symposium (LARS 08), Salvador, BH, Brazil. IEEE press. Heinen, M. R. and Engel, P. M. (2009). Evaluation of visual attention models under 2d similarity transformations. In Proc. 24th Annual ACM Symposium on Applied Computing (SAC 09), Honolulu, Hawaii, USA. ACM press. To appear. Itti, L. (2005). Models of Bottom-Up Attention and Saliency, pages Neurobiology of Attention. Elsevier Press, San Diego, CA. Itti, L., Koch, C., and Niebur, E. (1998). A model of saliency-based visual attention for rapid scene analysis. IEEE Trans. Pattern Analysis and Machine Intell., 20: Klein, R. M. (2000). Inhibition of return. Trends in Cognitive Sciences, 4(4): Koch, C. and Ullman, S. (1985). Shifts in selective visual attention: Toward the underlying neural circuitry. Human Neurobiology, 4(4): Liu, Y.-H. and Wang, X.-J. (2001). Spike-frequency adaptation of a generalized leaky integrate-and-fire model neuron. Journal of Computational Neuroscience, 10: Lowe, D. G. (2004). Distinctive image features from scale-invariant keypoints. Int. Journal of Computer Vision, 60(2): Niebur, E. and Koch, C. (1998). Computational architectures for attention, pages The Attentive Brain. MIT Press, Cambridge, MA. Orabona, F., Metta, G., and Sandini, G. (2005). Object-based visual attention: a model for a behaving robot. In Proc. 3rd Int. Workshop on Attention and Performance in Computational Vision (WAPCV 05), San Diego, CA. Treisman, A. M. and Gelade, G. (1980). A feature-integration theory of attention. Cognitive Psychology, 12: Tsotsos, J. K., Culhane, S. M., Wai, W. Y. K., Lai, Y., Davis, N., and Nuflo, F. (1995). Modeling visual attention via selective tuning. Artificial Intelligence, 78(1-2): Witkin, A. P. (1983). Scale-space filtering. In Proc. Int. Joint Conf. Artificial Intelligence, pages , Karlsruhe, Germany.