LOCALIZAÇÃO DOS OLHOS EM IMAGES FROTAIS DE FACES HUMAAS ATRAVÉS DE AÁLISE DE VARIÂCIA DA ITESIDADE DO BRILHO ATOIO HERIQUE FIGUEIRA LOURO, ADILSO GOZAGA 2 Laboratório de Visão Computacional (LAVI), Departamento de Engenharia Elétrica, Escola de Engenharia de São Carlos (EESC), Universidade de São Paulo (USP), 3566-590, São Carlos, SP, Brasil, tel.(6) 3373-9362 louro@uesc.br, 2 adilson@sel.eesc.usp.br Resumo A extração de características faciais é um passo importante na interpretação visual automática e reconhecimento de faces humanas. Dentre as características faciais, os olhos desempenham um papel de grande importância no processo de reconhecimento. este artigo é apresentada uma abordagem para detectar e localizar os olhos em imagens frontais de faces. As regiões candidatas a olho são identificadas usando-se a técnica de detecção de vales baseada em morfologia matemática. Após essa identificação faz-se uma comparação entre as variâncias de três porções diferentes de cada região candidata a olho (conjunto de pixels pertencentes à região candidata como um todo, conjunto de pixels contidos num retângulo mínimo circunscrito à região candidata e conjunto de pixels da região candidata pertencente a uma faixa horizontal que cruza o centro de massa desta região). O cálculo dessas variâncias considera, também, os canais R,G, e B, bem como a versão em níveis de cinza da imagem de entrada.. Introdução Como uma das características mais salientes da face humana, os olhos desempenham um papel muito importante na interpretação e no entendimento dos desejos, necessidades e estados emocionais de uma pessoa. Formas não intrusivas e robustas de detecção e acompanhamento de olhos são cruciais para interação homem-máquina, monitoramento da atenção do usuário e compreensão dos estados afetivos do ser humano. Além disso, as características geométricas, fotométricas e de movimento do olho fornecem sinais visuais importantes para detecção/reconhecimento de faces e compreensão de expressões faciais []. Diferentes métodos têm sido propostos para a detecção de olhos em imagens de faces humanas. Algumas das técnicas utilizadas foram propostas por Yuille [2], o qual usou templates deformáveis, sendo modificada posteriormente por Xie et al [3] para aumentar a confiabilidade da localização do contorno dos olhos. Huang e Wechsler [4] apresentaram um método para localizar olhos aplicando-se algoritmos de aprendizagem e evolução. Feng e Yuen [5] utilizaram múltiplos sinais extraídos das imagens faciais para detectar as janelas dos olhos. Para cada possível caso, uma função de projeção de variância era usada na detecção e verificação do olho. Tao [6] fez sua localização através da busca por threshold ótimo a fim de destacar os olhos das outras características da face e do background e ixon [7] aplicou a Transformada de Hough para efetuar sua detecção. O método proposto neste artigo é composto por duas fases. a primeira fase os candidatos a olhos são identificados utilizando-se o algoritmo de detecção de vales [8] aplicado nas imagens de faces humanas. Como a região da íris apresenta níveis de cinza de baixa intensidade, ali existirá um vale. a segunda fase, para cada região candidata a olho é medida a variação das intensidades de seus
pixels através do cálculo da variância. Levando-se em conta que a região do olho possui, pelo menos, quatro cores distintas devido aos diferentes tecidos que compõem a região do olho (pele, esclera, íris e pupila) espera-se obter altas variações de brilho. O desempenho deste método foi testado em imagens frontais de faces humanas com iluminação de teto e frontal. 2. Detecção dos Candidatos a Olho A área da face foi previamente detectada, sendo assim, a imagem de entrada possui somente a região da face. O primeiro passo neste método de localização é obter os candidatos a olho através do algoritmo de detecção de vales [8]. Este algoritmo é uma seqüência de operações morfológicas aplicadas diretamente na imagem intensidade. Como as imagens utilizadas na entrada eram do tipo RGB, optou-se, primeiramente, em testar o algoritmo sobre cada um dos canais R, G e B, bem como na imagem em tons de cinza e concluiu-se que o canal R propiciou uma maior separação das regiões candidatas sem diminuir a quantidade de pixels de cada uma, principalmente no que se refere às regiões dos olhos e das sobrancelhas. A Expressão abaixo representa o algoritmo em questão: V ( f ) = ( f B) f Temos: Imagem vale V ( f ) () ( f B) Operação morfológica de fechamento entre a imagem de entrada f e o elemento estruturante B. O fechamento é uma dilatação seguida de uma erosão usando o mesmo elemento B. A imagem vale resultante (ainda em níveis de cinza) é binarizada pelo método de Otsu [9], recebe uma filtragem mediana para excluir pixels isolados e os conjuntos de pixels remanescentes são classificados com nomes únicos (connected component-labeling) a fim de identificar unicamente cada região candidata obtida. Assim, as coordenadas dos pixels de cada região candidata estarão aptas a servir como ponteiros para as respectivas regiões na imagem original, permitindo que os níveis de brilho possam ser extraídos e analisados. A figura apresenta o fluxograma das operações realizadas nesta fase e a figura 2 mostra suas imagens típicas. OBTEÇÃO DA ÁREA DA FACE (CROP) AJUSTE DOS ÍVEIS DE ITESIDADE FILTRAGEM (MEDIAA) SEPARAÇÃO DO CAAL R DETECÇÃO DE VALES COECTED- COMPOET LABELIG FILTRAGEM (MEDIAA) BIARIZAÇÃO Figura. Passos da fase de detecção das regiões candidatas a olho.
a) b) c) d) Figura 2. a) Imagem de entrada, b)canal R, c)imagem vale binária, d)imagem vale filtrada. 3. Análise de Variância esta fase são feitas doze medidas diferentes de variância em cada uma das regiões detectada na fase anterior. Isto é, para cada região candidata são dados três enfoques diferentes e para cada um é calculada a variância nos canais R, G, B e na imagem em níveis de cinza. Esses enfoques, aqui, são chamados de porções e estão listados abaixo: Porção A: Conjunto de pixels pertencentes à região candidata como um todo; Porção B: Conjunto de pixels contidos num retângulo mínimo circunscrito à região candidata (pode conter pixels da região candidata e pixels externos); Porção C: Apenas o conjunto de pixels da região candidata pertencente a uma faixa horizontal que cruza o centro de massa desta região. As porções A e B foram escolhidas por motivos óbvios e a porção C por estar na direção onde ocorre, supostamente, a maior variação na cor dos tecidos que compõem o olho humano. Em todos os três casos, os pixels pertencentes às porções foram dispostos em vetores unidimensionais e aplicado o cálculo da variância. s 2 = n i= ( x i x) ( n ) 2 (2) Para se obter o centro de massa (mx, my) da região candidata, a fim de extrair a porção C, utilizou-se as seguintes expressões: m m x y = Int( = Int( M M b i= j= b i= j= if ( i, j)) b jf ( i, j)) b (3) (4)
4. Resultados Obtidos Para a realização dos testes foi utilizado o software Matlab 7.0 executado num Pentium IV sob ambiente Windows 2000. Os algoritmos desenvolvidos foram aplicados em 00 imagens de faces frontais do banco de imagens AR [0], onde havia imagens obtidas com iluminação frontal intensa e iluminação de teto. As variâncias obtidas foram comparadas dentro de cada porção de mesma cor. Os dois maiores valores resultantes da comparação deveriam coincidir com a região de cada olho. Para a porção A (conjunto de pixels da região candidata) na cor azul obteve-se 92,5 % de classificações corretas. A tabela resume os resultados obtidos. Tabela. - Porcentagem de detecção de olhos executada corretamente dentre um total de 40 imagens, considerando-se a porção e a imagem/canal de cor utilizado. Porção/Imagem íveis de RGB Cinza Vermelho Verde Azul Porção A 80,0% 67,5% 82,5% 92,5% Porção B 52,5% 45,0% 55,0% 70,0% Porção C 72,5% 65,0% 72,5% 80,0% 5. Conclusões Por não terem sido feitas análises em outros bancos de imagens de faces humanas é provável que as conclusões a seguir estejam intimamente relacionadas com o banco utilizado, principalmente com o tamanho das imagens das faces e com o tipo de iluminação utilizada para obtê-las. A técnica de segmentação utilizada para extrair as regiões de interesse comportou-se relativamente bem, principalmente nas imagens que possuíam iluminação frontal. Constatou-se que a detecção de vales feita sobre o canal R apresentou melhor desempenho que as outras três versões (G, B e níveis de cinza) e que o grande responsável pela sobreposição das regiões de interesse foi o canal G, agregando, principalmente, as regiões dos olhos com as regiões das sobrancelhas. Acredita-se que num próximo experimento poder-se-á obter um melhor resultado fazendo-se a união ( ou lógico ) entre as imagens vale (binárias) dos canais R e B. Os resultados obtidos com o uso da variância foram muito estimulantes, observou-se que esta medida de dispersão tem grande poder discriminatório para a tarefa de detecção de olhos, o que incentiva a buscar por novos tipos de janelas (porções) que melhor representem a região do olho ou, ainda, associar uma outra medida que reflita algum tipo de relacionamento espacial entre as regiões detectadas, como, por exemplo, medidas de simetria em relação ao eixo principal da face.
6. Referências Bibliográficas [] Ji, Qiang; Wechsler, Harry; Duchowski, Andrew; Flickner, Myron. Editorial Special issue: eye detection and tracking. Computer Vision and Image Understanding 98 (2005) 3. [2] Yuille, A. L.; Cohen, D.; Hallinan, P.. Deformable templates for face recognition, J. Cogn. eurosci., 99, 3, (), pp. 59-7. [3] Xie, X.; Sudhakar, R.; Zhuang, H.. On improving eye feature extraction using deformable templates, Pattern Recognition, 994, 27, (6), pp. 79-799. [4] Huang, J.; Wechsler, H.. Visual routines for eye location using learning and evolution, IEEE Trans. Evol. Comput., 2000, 4, (), pp. 73-83. [5] Feng, G.C.; Yuen, P.C.. Multi-cues eye detection on gray intensity image, Pattern Recognition, 200, 34, pp. 033-046. [6] Tao, L.. Automatic localization of human eyes in complex background, IEEE Int. Symp. Circuits & Systems, 2002, pp.26-29. [7] ixon, M.. Eye spacing measurement for facial recognition, SPIE Proceedings, Vol. 575: Applications of Digital Image Processing VIII, 985, pp. 279-285. [8] Maragos, P.. Tutorial on advances in morphological image processing and analysis, Opt. Eng., 987, 26 (7), pp. 623-632. [9] Otsu,.. A threshold selection method from grey-level histograms, IEEE Transactions on Systems, Man and Cybernetics, vol. 9, (), pp. 377-393. [0] Martinez, A.M.; Benavente, R.. The AR Face Database. CVC Technical Report no. 24, june 998.