Estudo, Comparação e Aplicação de Metodologias para Imagens de Faces

Documentos relacionados

Faculdade de Engenharia Optimização. Prof. Doutor Engº Jorge Nhambiu

APROG - Civil. Excel. Técnicas de pesquisa de informação em tabelas. Instituto Superior de Engenharia do Porto

Classificação da imagem (ou reconhecimento de padrões): objectivos Métodos de reconhecimento de padrões

EXPERIMENTO N o 6 LENTES CONVERGENTES INTRODUÇÃO

Manual do Utilizador

ICORLI. INSTALAÇÃO, CONFIGURAÇÃO e OPERAÇÃO EM REDES LOCAIS e INTERNET

A VISTA BACKSTAGE PRINCIPAIS OPÇÕES NO ECRÃ DE ACESSO

CAP. I ERROS EM CÁLCULO NUMÉRICO

Que imagens têm ou não têm simetria?

Tarefa Orientada 18 Tabelas dinâmicas

5 Resultados Avaliação Baseada na Taxa de Igual Erro

GESTÃO de PROJECTOS. Gestor de Projectos Informáticos. Luís Manuel Borges Gouveia 1

Considerações Finais. Capítulo Principais conclusões

SISTEMAS DE INFORMAÇÃO PARA GESTÃO

O que é a ciência de dados (data science). Discussão do conceito. Luís Borges Gouveia Universidade Fernando Pessoa Versão 1.

Utilização do SOLVER do EXCEL

Introdução. Capítulo. 1.1 Considerações Iniciais

ISO 9000:2000 Sistemas de Gestão da Qualidade Fundamentos e Vocabulário. As Normas da família ISO As Normas da família ISO 9000

4 Segmentação Algoritmo proposto

Mobilidade na FEUP Deslocamento Vertical

PROJECTOS DE INVESTIGAÇÃO CIENTÍFICA E DESENVOLVIMENTO TECNOLÓGICO

Clip-art Retrieval using Sketches PTDC/EIA-EIA/108077/2008

MANUAL DO UTILIZADOR

COMPETÊNCIAS BÁSICAS EM TIC NAS EB1

SISTEMAS DIGITAIS. Memórias. Prof. Guilherme Arroz Prof. Carlos Sêrro Alterado para lógica positiva por Guilherme Arroz.

yuiopasdfghjklçzxcvbnmqwertyuiopasdfghjklçzxcvbnm qwertyuiopasdfghjklçzxcvbnmqwertyuiopasdfghjklçzxc

Explorações de alunos

Reconhecimento de Padrões

DEPARTAMENTO DE MATEMÁTICA E CIÊNCIAS EXPERIMENTAIS

PRINCÍPIOS DE INFORMÁTICA PRÁTICA OBJETIVO 2. BASE TEÓRICA. 2.1 Criando Mapas no Excel. 2.2 Utilizando o Mapa

PÓS GRADUAÇÃO EM CIÊNCIAS DE FLORESTAS TROPICAIS-PG-CFT INSTITUTO NACIONAL DE PESQUISAS DA AMAZÔNIA-INPA. 09/abril de 2014

ActivALEA. active e actualize a sua literacia

Possui como idéia central a divisão de um universo de dados a ser organizado em subconjuntos mais gerenciáveis.

MICROSOFT POWERPOINT

Modelo Cascata ou Clássico

GDC I AULA TEÓRICA 09

DESENVOLVIMENTO DE UM SOFTWARE NA LINGUAGEM R PARA CÁLCULO DE TAMANHOS DE AMOSTRAS NA ÁREA DE SAÚDE

15 Computador, projeto e manufatura

Documento de preparação do Trabalho Prático de Grupo

x0 = 1 x n = 3x n 1 x k x k 1 Quantas são as sequências com n letras, cada uma igual a a, b ou c, de modo que não há duas letras a seguidas?

1 Introdução. 2 Exemplo de aplicação

INTRODUÇÃO AOS MÉTODOS FACTORIAIS

Departamento de Engenharia Civil, Materiais de Construção I 3º Ano 1º Relatório INDÍCE

6 Construção de Cenários

Desenhador de Escadas

CADEX. Consultoria em Logística Interna. Layout de armazém. Objectivos. Popularidade. Semelhança. Tamanho. Características

Computação Adaptativa

GeoMafra Portal Geográfico

Scale-Invariant Feature Transform

UFGD FCA PROF. OMAR DANIEL BLOCO 6 CLASSIFICAÇÃO DE IMAGENS

Barómetro Regional da Qualidade Avaliação da Satisfação dos Utentes dos Serviços de Saúde

ARTIGO TÉCNICO. Os objectivos do Projecto passam por:

Imagiologia de raios X planar

Codificação/Compressão de Vídeo. Tópico: Vídeo (Codificação + Compressão)

3 Metodologia de Previsão de Padrões de Falha

Controlo de iluminação local multifuncional

Árvores Binárias Balanceadas

Segurança e Higiene no Trabalho

CorelDRAW UM PROGRAMA DE DESIGN

Base de Dados para Administrações de Condomínios

1. Objectivo Durante uma experiência, medem-se certas variáveis, ex.: concentrações, pressões, temperaturas,

Aula 01 - Formatações prontas e condicionais. Aula 01 - Formatações prontas e condicionais. Sumário. Formatar como Tabela

MIEC MESTRADO INTEGRADO EM ENGENHARIA CIVIL 2014/2015 PROPOSTA DE TEMAS PARA DISSERTAÇÃO RAMO DE ESPECIALIZAÇÃO/ ÁREA CIENTÍFICA: ESTRUTURAS

João Manuel R. S. Tavares / JOF

Departamento de Engenharia Civil Implantação de Pontos

Reabilitação e Reforço de Estruturas

por João Gomes, Director Executivo do Instituto de Planeamento e Desenvolvimento do Turismo e Professor Associado da Universidade Fernando Pessoa

Sphinx Scanner Informações gerais V

Banco de Dados BrOffice Base

Manual de implantação

FILTRAGEM ESPACIAL. Filtros Digitais no domínio do espaço

1. Criar uma nova apresentação

EXERCÍCIO - ROMA : Modelar Capitel de uma Coluna Clássica

ZS Rest. Manual Profissional. BackOffice Mapa de Mesas. v2011

FUNCIONAMENTO, VANTAGENS E DESVANTAGENS DAS DIVERSAS TECNOLOGIAS

QualiQuantiSoft Versão 1.3c

Extração de Requisitos

QFD: Quality Function Deployment QFD: CASA DA QUALIDADE - PASSO A PASSO

Reconhecimento de Objectos

Inventário Patrimonial

Microsoft Access: Criar consultas para um novo banco de dados. Vitor Valerio de Souza Campos

Universidade Federal do Rio de Janeiro - IM/DCC & NCE

MICROSOFT ACCESS MICROSOFT ACCESS. Professor Rafael Vieira Professor Rafael Vieira

SMCB: METODOLOGIA PARA A QUANTIZAÇÃO DE CORES EM IMAGENS FACIAIS

Oficina de Construção de Páginas Web

Análise Univariada de Sinais Mioelétricos

Configuração do Ambiente de Trabalho

Dadas a base e a altura de um triangulo, determinar sua área.

4 Avaliação Econômica

OBJETIVO Verificar as leis da Reflexão Verificar qualitativamente e quantitativamente a lei de Snell. Observar a dispersão da luz em um prisma.

Enquadramento 02. Justificação 02. Metodologia de implementação 02. Destinatários 02. Sessões formativas 03

2013 年度通訊博物館電子裝置製作比賽

Gerenciamento de projetos.

Análise Exploratória de Dados

Procedimentos para a divulgação de eventos no site da ECUM

TIPOS DE REFLEXÃO Regular Difusa

Oficina de Multimédia B. ESEQ 12º i 2009/2010

Lidar com números e estatísticas não é fácil. Reunir esses números numa apresentação pode ser ainda mais complicado.

Diagrama de Precedências

Transcrição:

Por: Fernando Jorge Soares Carvalho Estudo, Comparação e Aplicação de Metodologias para Imagens de Faces Junho 004 Faculdade de Ciências da Universidade do Porto Faculdade de Engenharia da Universidade do Porto

Por: Fernando Jorge Soares Carvalho Estudo, Comparação e Aplicação de Metodologias para Imagens de Faces Orientador: João Manuel R. S. Tavares Professor Auxiliar da Faculdade de Engenharia da Universidade do Porto, departamento de Engenharia Mecânica e Gestão Industrial; Investigador no LOME Laboratório de Óptica e Mecânica Experimental do INEGI Instituto de Mecânica e Gestão Industrial, integrado na unidade de investigação Mecânica Experimental e Novos Materiais.

Resumo Este trabalho surge no âmbito da disciplina de Seminário do Mestrado em Métodos Computacionais em Ciências e Engenharia, com o objectivo de fazer o enquadramento na Dissertação que se encontra em curso. O trabalho realizado contém quatro capítulos, no primeiro capítulo são definidos os objectivos, são sucintamente referidas as tarefas a desenvolver e é apresentada uma possível estrutura da dissertação por capítulos. No segundo capítulo é apresentado um estudo geral sobre algumas das técnicas usadas em visão computacional na área das imagens de faces, para determinadas aplicações. O terceiro capítulo descreve com pormenor, uma das técnicas a implementar, usando modelos protótipos deformáveis. No quarto capítulo, são apresentadas as conclusões relativas ao estudo realizado e são referidas perspectivas de realização futuras. Fernando Jorge Soares Carvalho

Conteúdo Capítulo 1...1 Introdução...1 1.1 Motivação... 1 1. Objectivo... 1.3 Tarefas a desenvolver no trabalho de Dissertação... 1.4 Possível Estrutura da Dissertação por Capítulos... 3 Capítulo...5.1 Introdução...5. Fundamentos...5..1 Análise da expressão facial de forma automática... 5..1.1 Detecção da face...6..1. Extracção de dados relativos à expressão facial... 7..1.3 Classificação da expressão facial... 7.. Um sistema ideal para análise de expressões faciais, como aplicação... 8.3 Descrição sucinta de algumas das metodologias existentes...9.3.1 Detecção da face... 9 Tabela 1-Referências de trabalhos, [Pantic, 000]... 9 Tabela - Referências de trabalhos, [Yang, 000]... 10.3.1.1 Detecção da face em imagens faciais, referente à tabela 1... 10.3.1. Detecção da face em imagens arbitrárias, referente à tabela 1... 11.3.1.3 Detecção da face em imagens estáticas, referente à tabela... 1.3. Extracção de dados e representação da face... 14 Tabela 3 Referências a trabalhos relativos à extracção de dados faciais... 14.3..1 Extracção de dados em imagens estáticas método baseado em modelos (Templates)...14.3.. Extracção de dados em imagens estáticas método baseado em características faciais 17.3..3 Extracção de dados em sequências de imagens - método baseado em modelos protótipos..18.3..4 Extracção de dados em sequências de imagens método baseado em características faciais 0.3.3 Classificação de expressões faciais... 0 Tabela 4 Trabalhos relevantes nos métodos de Classificação... 1.3.3.1 Classificação de expressões faciais em imagens estáticas Método baseado em Modelos protótipos... 1.3.3. Classificação de expressões faciais em imagens estáticas Método baseado em redes neuronais..3.3.3 Classificação de expressões faciais em imagens estáticas Método baseado em regras 3 Capítulo 3...5 Introdução...5 3.1 Pré-processamento... 5 3. Modelo protótipo do olho... 6 3..1 Função de energia para o modelo protótipo do olho... 7 3.. Exemplos... 9 3.3 Modelo protótipo da boca... 9 3.3.1 Modelo protótipo que define a boca fechada... 30 3.3. Função de energia para o modelo protótipo da boca fechada... 31 Fernando Jorge Soares Carvalho i

3.3.3 Modelo protótipo que define a boca aberta... 3 3.3.4 Função de energia para o modelo protótipo da boca aberta... 33 3.4 Exemplos... 34 Capítulo 4...36 4.1 Conclusões... 36 4. Perspectivas de Realização Futura... 36 Bibliografia...37 Fernando Jorge Soares Carvalho ii

Capítulo 1 Introdução A idade da informação moderna confronta a humanidade com vários desafios para os quais não existiram respostas capazes noutros tempos. Foi necessário esperar muito tempo para concretizar dois grandes desafios: organização da sociedade e sua segurança. Mas pense-se em segurança, hoje um pouco por todo lado possuímos um vasto leque de métodos de autenticação que se desenvolveram ao sabor do requinte tecnológico que a todos diariamente surpreende. Para corroborar tal surpresa, pense-se, no acesso a entradas dos edifícios, no controle de acesso a computadores, no acesso a caixas multibanco, na investigação criminal, e muitas mais. Existe a latente necessidade de identificação e autenticação que deve ser posta ao serviço de uma sociedade moderna e exigente. A maioria dos métodos existentes para identificação e autenticação tem a desvantagem de um dado utilizador estar dependente de Passwords, códigos PIN, etc, que o obriga a retê-los em memória. Existem métodos automatizados e de um quase transparente uso por parte do utilizador como são, por exemplo, o reconhecimento de voz; as impressões digitais; a retina do olho; etc. E se o meio de autenticação fosse a nossa própria face! A detecção e o reconhecimento de faces como meio de autenticação podem ser utilizadas prosperamente nas tarefas acima mencionadas e dar apoio a outras técnicas, ou até mesmo substitui-las no caso de existirem baixas exigências de segurança. Para além da detecção e reconhecimento de uma face num dado cenário é também possível analisar a chamada expressão facial de dado indivíduo e determinar o seu estado de espírito. Veja-se qual a resposta que uma área tão vasta quanto é a visão por computador nos pode dar. 1.1 Motivação O desenvolvimento de um projecto realizado no âmbito da licenciatura, no módulo de navegação de plataformas móveis, desenvolvidas para futebol robótico, fez-me despertar interesse pela área da visão que é um dos instrumentos fundamentais neste tipo de projecto. A procura de respostas para perguntas do tipo: Como será possível identificar um objecto numa imagem? E uma face humana? Como medir o estado emocional de uma face de forma automática? Como poderá uma máquina identificar/reconhecer um indivíduo? Fernando Jorge Soares Carvalho 1

Quais as técnicas usadas? Como seguir uma face humana numa sequência de imagens? 1. Objectivo Surgiu a ideia desta dissertação intitulada de Estudo, Comparação e Aplicação de Metodologias para Imagens de Faces, com orientação do Prof. João Tavares da FEUP. O primordial objectivo da dissertação a desenvolver baseia-se na comparação e verificação de várias metodologias existentes na área da visão computacional no domínio das imagens de faces. As metodologias a estudar podem ser utilizadas para: 1) Segmentação de faces em imagens; ) Reconhecimento de faces; 3) Classificação de faces; 4) Codificação/Compressão de faces; 5) Análise do movimento de faces; 6) Simulação do estado emocional; etc. 1.3 Tarefas a desenvolver no trabalho de Dissertação A abordagem a seguir ao longo da dissertação a desenvolver, essencialmente reduz-se a cinco etapas, as quais são seguidamente descritas: 1. Estudo, comparação e verificação de aplicações, de várias metodologias existentes no domínio da Visão Computacional para imagens de faces.. Pesquisa das metodologias disponíveis, de domínio público, preferencialmente para a ferramenta Matlab. Ensaio experimental das implementações consideradas e obtenção de algumas conclusões. 3. Selecção de uma metodologia que permita a detecção de faces em imagens e posteriormente a sua caracterização. Implementação da metodologia seleccionada em Matlab. 4. Análise dos resultados experimentais obtidos e elaboração de perspectivas de desenvolvimento futuros. 5. Escrita e elaboração da dissertação. Fernando Jorge Soares Carvalho

1.4 Possível Estrutura da Dissertação por Capítulos Capitulo I Introdução à Dissertação Este capítulo faz uma breve introdução ao tema da Dissertação. Assim, será descrito sucintamente no domínio da Dissertação, os objectivos propostos, bem como as tarefas a desenvolver. Capitulo II Estudo, Comparação e Verificação de Aplicações, de Várias Metodologias Existentes Este capítulo consiste no estudo das várias metodologias existentes. Posteriormente serão verificadas algumas das implementações existentes neste domínio de acesso livre. (Neste relatório é apresentado e descrito o estudo realizado até ao momento.) Capitulo III Apresentação e Descrição das Implementações Estudadas Neste capítulo serão descritas as implementações de domínio publico estudadas e apresentados exemplos de utilização das mesmas. Serão também apresentadas algumas conclusões. Capitulo IV Detecção e Caracterização de Faces usando Protótipos Deformáveis Neste capítulo será descrito em detalhe a metodologia considerada para detectar faces presentes em imagens e posteriormente caracterização das mesmas. A metodologia considerada é baseada em modelos protótipos deformáveis (templates) e será em primeiro lugar aplicada a imagens estáticas e posteriormente em sequências de imagens. Neste capitulo serão também apresentadas e descritas todas as implementações realizadas. Capitulo V Resultados dos Ensaios Experimentais Neste capítulo serão apresentados vários ensaios experimentais obtidos com as implementações realizadas. Os mesmos resultados serão analisados e discutidos. Capitulo VI Conclusões e Perspectivas de Desenvolvimentos Futuros Fernando Jorge Soares Carvalho 3

Neste capítulo serão apresentadas as conclusões finais e definidos possíveis tópicos de continuidade desta dissertação. Bibliografia Toda a bibliografia utilizada. Anexo I Websites considerados WebSites utilizados e outros de interesse a pesquisas futuras. Anexo II Implementações Realizadas Neste anexo será apresentado todo o código realizado ao longo desta Dissertação. Fernando Jorge Soares Carvalho 4

Capítulo.1 Introdução A elaboração deste capítulo permite descrever o estudo realizado sobre as várias metodologias existentes com base em alguns artigos de vários investigadores desta área. Sabe-se que, os humanos detectam e interpretam faces e expressões faciais a partir de uma imagem ou de um pequeno esboço com relativa facilidade. Existem vários problemas relacionados com: a descoberta de uma face numa imagem, extracção de informação relativa à expressão facial, classificação da expressão (por exemplo, em categorias de emoção). Um sistema que execute estas operações automaticamente, com precisão e em tempo real representaria um enorme passo no que diz respeito à interacção entre o homem e a máquina. Neste capítulo pretende-se referir quais os trabalhos na área das imagens de faces, que conduzem um sistema desde a detecção de uma face até à interpretação da expressão facial revelada pela face. Este capítulo teve como principais contributos bibliográficos os textos: Estado da Arte de [Pantic, 000] onde é possível encontrar algumas referências a trabalhos relativos a aplicações como: detecção de faces, extracção de dados faciais e análise da respectiva expressão facial; o survey de [Yang, 00] com referências a técnicas existentes na detecção e reconhecimento de faces. As metodologias existentes são variadas e a escolha pode ser difícil uma vez que qualquer uma delas permite alcançar alguns dos objectivos propostos. Surge também o caso de uma dada técnica ser realizável utilizando outras como auxilio a tarefas prévias.. Fundamentos O Estado da Arte de [Pantic, 000], relata a possibilidade da implementação de um analisador facial automático, onde tal objectivo exige que se superem três fases ditas como essenciais: Detecção da fase numa imagem, extracção de dados relativos à expressão facial e classificação da expressão facial. No trabalho de [Yang, 00], são referidas algumas das técnicas usadas na detecção e reconhecimento de faces...1 Análise da expressão facial de forma automática Em primeiro lugar, antes da análise da expressão facial, é necessário que a face seja detectada no cenário onde poderá localizar-se. De seguida deve ser reconhecida como uma face, Fernando Jorge Soares Carvalho 5

desde já existe a necessidade de verificar se estamos na presença ou não de uma face humana, aqui existe a distinção entre face e não face, entende-se por não face, um segmento de uma imagem que pode assumir características parecidas com uma face, mas não o é, como é exemplo o contorno definido por um balão. Seguidamente são desencadeados mecanismos que permitem extrair informação sobre a expressão facial da imagem observada. Neste ponto são distinguidas dois tipos de imagens, as estáticas e as sequências de imagens. No caso das imagens estáticas o processo refere-se à localização da face e às suas características. Entenda-se por características da face as sobrancelhas, olhos, nariz, queixo e boca. No caso de sequências de imagens o processo faz referência ao seguimento da face e às características que esta ocupa no cenário. Veja-se a diferença entre dois termos importantes: características faciais e características do modelo da face, definindo este último como sendo as características usadas para representar o modelo da face, onde podem figurar todas as características comuns da face, a face como um todo, ou então apenas algumas delas como os olhos e a boca. A face em termos de modelo pode obedecer a três formas de representação: holística, onde a face é vista como um todo; Analítica, onde a face é representada em função de um conjunto de características escolhidas como olhos e boca, por exemplo, [Yullie, 199]; híbrida, onde a este modelo cabe a combinação das duas representações anteriores. O passo seguinte consiste em definir um conjunto de categorias usadas para classificação e interpretação da expressão facial. Dentro deste conjunto de categorização está presente a configuração das diferentes emoções que a face humana demonstra por interacção com o meio...1.1 Detecção da face A detecção da face numa imagem ou numa sequência de imagens é um processo que exige controlo, a face aparece na imagem de uma forma frontal, a sua existência no cenário é um pressuposto assumido, existindo uma ideia global acerca do seu posicionamento. A determinação do local exacto onde esta se insere pode ser um processo complicado uma vez que, a sua orientação, tamanho e oclusão total ou parcial são variáveis muito exigentes para o sistema. O sistema de visão humano procede a uma inspecção casual de um cenário e numa gama alargada de condições, e considera uma face como um todo e não como um conjunto limitado de características faciais como olhos, boca, etc. A essência da detecção humana reside na análise das características faciais bem como na disposição geométrica que elas tem entre si, pode-se também pensar que o sistema de visão humano consegue extrapolar características da face partindo de outras características porque existe simetria. Para uma máquina por mais Fernando Jorge Soares Carvalho 6

poderoso que o algoritmo seja não se pode pensar nisto com um processo transparente, temos aqui o peso das variáveis...1. Extracção de dados relativos à expressão facial Uma vez detectada a face é necessário extrair os dados relativos a essa face. O tipo de representação do modelo da face constitui a aproximação facial. Se o modelo da face segue a aproximação holística, esta é vista como um todo. No caso da aproximação analítica a face é modelada a partir de um conjunto de características faciais como os olhos e a boca. Se a face segue a aproximação híbrida, então aparece como uma combinação das duas representações anteriores. A experiência de [Johansson s, 1978], relativa à exibição do ponto de luz, sugere que as características visuais da face relativas à expressão facial pode ser efectuada descrevendo o movimento dos pontos que dizem respeito às características faciais, fazendo depois uma análise a esses movimentos. A extracção das características faciais está muito condicionada a factores como: a existência de óculos na face, a orientação da face relativamente ao plano da câmara, o tamanho da face relativamente ao cenário onde está inserida (escala), a presença de cabelo ou outros factores que ocultem parcial ou totalmente a face, como obstáculos, iluminação e a presença de bigode ou barba...1.3 Classificação da expressão facial O objectivo base deste ponto reside na identificação da expressão facial de que é portadora a face. Para proceder à classificação da face é necessário recorrer a um mecanismo de categorização, mas antes de mais é necessário referir que uma face pode ser classificada de várias formas: em termos de acções faciais que causam uma determinada expressão; em termos de expressões não protótipo, como o elevar de uma sobrancelha; em termos de expressões protótipo, como são as expressões faciais clássicas. Em [Pantic, 000], refere-se o estudo da actividade facial chamado de FACS (Facial action coding system), desenvolvido com o objectivo de facilitar a medida da actividade facial, foi projectado por observadores de forma a detectarem mudanças subtis causadas pela contracção muscular facial. A categorização das expressões faciais demonstradas pela face humana medem o estado emocional representado pela face, encontram-se divididas em seis categorias básicas: felicidade, tristeza, surpresa, medo, raiva e desgosto. Fernando Jorge Soares Carvalho 7

O problema da caracterização da expressão facial é um processo de difícil controlo por diversas razões, desde já o sistema deve analisar qualquer indivíduo do sexo masculino ou feminino, de qualquer faixa etária e de qualquer etnia, ou seja, deve ser independente da variabilidade fisionómica de cada indivíduo. Uma vez que as expressões faciais estão categorizadas, isto exige que a face exiba uma dada expressão de uma forma extrema para que a classificação se faça de uma forma eficiente, e se encaixe na respectiva categoria, pense-se que poderá existir uma mistura de expressões faciais e isto pode tornar a análise muito complexa e ambígua. Independentemente das categorias de classificação usadas, os métodos mais usados encontram-se divididos em grupos: baseados em regras, em redes neuronais e em modelos protótipos. Se o método de classificação é baseado em modelos protótipos, a expressão facial encontrada é comparada com os modelos definidos para cada categoria de expressão, a melhor semelhança ou emparelhamento decide qual a categoria a que a face pertence. Se o método de classificação for baseado em redes neuronais, a expressão facial é classificada em sintonia com um processo de categorização que a rede neuronal aprende durante a sua fase de treino. Se o método de classificação é baseado em regras básicas, então classificam e examinam expressões faciais em categorias de emoções básicas com acções faciais previamente codificadas e definidas. As expressões faciais protótipo que caracterizam as várias categorias de emoção, são descritas em termos de acções faciais, durante a fase de processamento são comparadas com a aproximação obtida da extracção de dados faciais de forma a classificar esta última numa das categorias existentes... Um sistema ideal para análise de expressões faciais, como aplicação Coloque-se a hipótese de implementar um analisador automático de expressões faciais, onde o ponto de partida para realizar tal objectivo, reside na definição da sua funcionalidade, tendo em linha de conta tudo aquilo que conhecemos acerca do modo como funciona o sistema de visão humano. Contudo, não é possível implementar todas as funcionalidades do sistema humano numa máquina. O sistema terá que conter os três níveis descritos anteriormente: detecção da face, extracção dos dados e análise da expressão facial. Deve mostrar independência de análise ao tipo de sexo, idade, etnia. Deve ser robusto a condições adversas como: luminosidade, presença de óculos, cabelo, bigode e barba, escala e posição facial. Atendendo à possibilidade de existência de movimento o sistema deve lidar com o movimento da cabeça, isto pode ser conseguido empregando um conjunto de câmaras fixas para aquisição de diferentes pontos de visão faciais, aproximando a visão corrente através da interpolação entre visões adquiridas. Este último aspecto pode ser realizado se na cabeça do indivíduo em observação for fixada uma câmara, ou então controlar a partir do exterior as câmaras em função das rotações da face. Fernando Jorge Soares Carvalho 8

Um sistema ideal deveria analisar todas as expressões faciais possíveis e fazer a distinção entre elas..3 Descrição sucinta de algumas das metodologias existentes Vejam-se alguns dos trabalhos que relatam de uma forma sucinta algumas das metodologias usadas para conseguir atingir os objectivos requeridos pelas três fases referidas..3.1 Detecção da face Trabalhos relevantes na detecção da face estão indicados na Tabela 1, referem-se a dois tipos de imagens, as faciais e as arbitrárias, fazendo a separação entre duas das três aproximações possíveis, Holística e Analítica, [Pantic, 000]. Em [Yang, 00], pode-se verificar outras metodologias para detecção de faces numa imagem, faz-se uma classificação diferente dos métodos relativamente a [Pantic, 000]. Assumem-se claramente duas fases importantes na detecção, a localização e o reconhecimento da face. A localização da face referese ao seu posicionamento num dado cenário e o reconhecimento refere-se à identificação da face, como face ou não face. Dividem-se os métodos em quatro grandes grupos: baseados no conhecimento, baseados na aproximação a características invariantes, baseados em modelos protótipos e baseados na aparência. Os métodos baseados no conhecimento têm por base um conjunto de regras que capturam a relação entre características faciais. Os métodos baseados em características invariantes têm por base a procura das características faciais que existem independentemente da variação da posição da face, do ponto de visão e das condições de luminosidade. Os métodos baseados no emparelhamento de modelos protótipos, tem por base o uso de padrões que caracterizam a face e a detecção é conseguida através da correlação entre estes modelos e a face presente num dado cenário. Os métodos baseados na aparência, usam modelos como acontece no método anterior, esses modelos recebem um conjunto de imagens de treino e procuram capturar a variabilidade representativa da aparência da face. Alguns dos trabalhos representativos estão na Tabela. Tabela 1-Referências de trabalhos, [Pantic, 000] Imagens Faciais Bibliografia Tipos de Visão Método Aproximação Holística [Huang, 1997] [Pantic, 000] Frontal Frontal e Perfil Detector de Intensidade de Canny Modelo PDM Aproximação Analítica [Hara, 1997] [Yoneyama,1997] [Kimura, 1997] Frontal Análise da imagem de histogramas com limiar Projecção Integral e Ajuste de redes de potencial Fernando Jorge Soares Carvalho 9

Imagens Arbitrárias Aproximação Holística [Hong, 1998] Frontal Filtragem Espaço-Temporal Algoritmo Estéreo Detector de cor Detector de regiões convexas Filtros de previsão linear [Essa, 1997] Frontal e perfil Filtros Espaço-Temporal Faces próprias Características próprias Aproximação Tabela - Referências de trabalhos, [Yang, 000] Trabalho Representativo Baseados no conhecimento Método baseado em regras de multi-resolução [Yang, 1994] Características Invariantes: Características Faciais Grupo de Orlas [Leung, 1995] Textura Matriz de dependência do espaço de nível Cinzento (SGLD) [Dai, 1996] Cor da Pele Mistura Gaussiana [Yang, 1996] Características Múltiplas Integração da cor da pele, tamanho e forma [Kjeldsen, 1996] Emparelhamento de Modelos: Modelos Pré-definidos Modelos de forma [Craw, 1987] Modelos Deformáveis Modelos de forma Activos [Yuille, 199] Baseados na Aparência: Faces próprias Decomposição de vectores próprios e agrupamento [Turk, 1991] Distribuição Distribuição Gausseana e perceptrão muti-camada [Sung, 1998] Redes Neuronais Redes Neuronais e esquemas arbitrários [Rowley, 1998].3.1.1 Detecção da face em imagens faciais, referente à tabela 1 Em [Huang, 1997], é aplicado o modelo distribuição pontual (PDM), com o objectivo de obter o correcto posicionamento do modelo de pontos distribuídos inicial (PDM inicial), utiliza-se um detector de orlas (extremidades) para estimar a localização da face na imagem. A análise do valor da intensidade dos pixeis entre os lábios e duas extremidades verticais simétricas, representa os limites verticais exteriores da face, gerando uma estimativa da sua localização. Neste método a face não pode ter cabelos faciais nem óculos, não podem existir variações de luminosidade nem movimentos faciais. O PDM, consiste na geração de um modelo protótipo estatístico flexível que deriva de um conjunto de imagens de treino. Cada imagem de treino é representada por um conjunto de pontos que representam marcas, colocadas manualmente em locais estratégicos em regiões a definir. Apresenta duas fases de treino, a primeira fase consiste em segmentar manualmente a imagem posicionando num conjunto de imagens de treino todos os pontos que definem contornos D ou superfícies 3D. Na segunda fase, cria-se um PDM padrão compacto usando um Fernando Jorge Soares Carvalho 10

algoritmo de optimização que permite analisar a localização dos pontos e calcular a sua média posicional. Em [Pantic, 000], para determinar os limites horizontais e verticais da cabeça são usados dois histogramas, um histograma vertical e um horizontal da imagem com ponto de visão frontal. Neste método a localização do contorno da face é conseguido a partir de um algoritmo dedicado chamado HSV color model. Como são usadas duas perspectivas de visão, no ponto de visão em perfil, um algoritmo dedicado representa a aproximação do contorno da face. Em [Hara, 1997], é usada uma câmara CCD em modo monocromático de forma a obter dados acerca da distribuição do brilho da face. Uma distribuição de brilho base é conseguida à custa de uma média de distribuição de brilho, retirada de dez faces. O sistema extrai a posição das cores de referência esperadas e utiliza a correlação cruzada entre os dados que constam na base de dados e os dados adquiridos. Uma vez identificadas as cores de referência esperadas consegue-se a localização da face usando o posicionamento geométrico das características faciais. Em [Yoneyama, 1997], são extraídas de uma forma automática: as extremidades dos olhos, a altura dos olhos e da boca. Após obtenção destas características, o comprimento correspondente à área da face é devidamente normalizado sobrepondo à imagem uma grelha quadrática 8x10. Em [Kimura, 1997], é usada uma rede potencial, Figura 9, para representação da face, a imagem é devidamente normalizada tomando o centro dos olhos e o centro da boca. Este algoritmo utiliza o método de projecção integral que pretende fazer a síntese da informação relativa à extremidade e cor da face. A rede é ajustada à imagem normalizada da face e seu movimento..3.1. Detecção da face em imagens arbitrárias, referente à tabela 1 Em [Essa, 1997], pode-se constatar que é usado o método dos espaços próprios (eigenspace) para localizar a face. O método aplica faces próprias (eigenfaces) aproximadas recorrendo a Análise dos Componentes Principais (PCA), numa amostra que utiliza 18 imagens faciais. As faces próprias (eigenfaces) definem um sub-espaço de imagens amostradas a que dão o nome de espaço da face. Para detecção da presença da face numa única imagem, a distância da imagem observada do espaço de faces é calculada a partir dos coeficientes de projecção. No caso de sequência de imagens a presença da face é conseguida usando uma filtragem espaço-temporal, à imagem filtrada é atribuído um limiar de forma a conseguir analisar o movimento de manchas (Blob), Fernando Jorge Soares Carvalho 11

cada mancha (Blob) identificada corresponde uma potencial face humana sendo depois tratada como uma imagem única..3.1.3 Detecção da face em imagens estáticas, referente à tabela.3.1.3.1 Métodos baseados no conhecimento Em [Yang, 1994], pode-se encontrar um método baseado em regras de multi-resolução. É usado um sistema hierárquico constituído por três níveis de regras. No nível mais elevado é encontrada a potencial face, usando uma janela de varrimento sobre a imagem, é aplicado um conjunto de regras para cada localização facial. No nível mais baixo, as regras analisam de forma detalhada as características faciais. Partindo da imagem original é reduzida a resolução e geradas três imagens, como mostra a Figura 1. Uma das regras usadas no nível mais elevado, nível 1, para localizar a face é o modelo protótipo de tons cinzentos, apresentado na Figura. Este modelo é confrontado por correlação com a imagem de menor resolução, para verificar a possibilidade da existência da face. No nível, é utilizado um detector de orlas de intensidades para representar um histograma local das imagens candidatas a faces. No nível mais baixo, nível 3, são aplicadas mais um conjunto de regras que identificam as características faciais, tais como, olhos e boca. Figura 1 Imagens de diferentes resoluções Figura Modelo protótipo de tons cinzento, [Yang, 1994].3.1.3. Métodos baseados emparelhamento de modelos protótipo Em [Yang, 1994], o princípio básico para encontrar uma face modelo que sirva de comparação com muitas outras, pode ser efectuado manualmente ou parametrizado através de uma função. A informação acerca da existência de uma face é obtida baseada em valores de correlação entre modelos protótipos definidos para determinadas características faciais e o contorno obtido de uma potencial característica facial. Este método é simples de implementar, no entanto pode necessitar de métodos complementares atendendo a condições de escala e Fernando Jorge Soares Carvalho 1

posição da face que podem condicionar o uso deste método, como são: Multi-resolução, Multiescala, Sub-modelos, etc. São definidos dois grupos importantes de métodos, os modelos prédefinidos e modelos deformáveis. Como modelos pré-definidos, em [Sakai, 1969], é utilizado um conjunto de sub-modelos protótipos (subtemplates) para os olhos, nariz, boca e o contorno da face, para modelar a face. Cada sub-modelo protótipo é definido em termos de segmentos de recta extraídos de uma imagem usando a variação do gradiente. Os segmentos são emparelhados nos sub-modelos. Numa primeira fase, a potencial localização da face é conseguida fazendo a correlação entre segmentos da imagem (sub-imagens) e o contorno que define o modelo da face. Na segunda fase, a determinação efectiva da face é conseguida fazendo o emparelhamento dos sub-modelos gerados, com as respectivas características faciais. Em, [Craw, 1987], é apresentado um método de localização baseado num modelo de forma. É aplicado um filtro de Sobel para extrair orlas (extremidades), que agrupadas conseguem definir o modelo da face baseado num conjunto de restrições. Uma vez localizada a face é usado um sistema de diferentes escalas e é aplicado o mesmo processo de filtragem, procura-se definir os olhos, sobrancelhas e lábios. Já em [Tsukamoto, 1993], é apresentado um modelo qualitativo para modelar a face (QMF). Este modelo usa amostras de imagens divididas em blocos e estima qualitativamente as características atribuídas a cada bloco. Para parametrizar o modelo, são definidas propriedades relativas à intensidade luminosa e às orlas (extremidades), como características do modelo. O modelo de blocos obtido é usado para calcular propriedades faciais, em todas as posições da imagem. A face é dada como detectada se a medida das propriedades faciais atingir um determinado limiar. No que diz respeito a modelos deformáveis, em [Yuille, 199], é apresentado um modelo elástico para os olhos e para a boca, o modelo elástico pode ser entendido como, um modelo parametrizado com propriedades deformáveis. Os modelos utilizados são parametrizados e os parâmetros considerados, são os objectos de uma função representativa da energia dispendida para ajustar o modelo a uma dada característica facial. O melhor ajuste é aquele que minimiza a energia dispendida com o posicionamento dos parâmetros, a face é dada como detectada se a energia não ultrapassar um dado limiar. Este modelo permite extrair as características faciais, uma vez que o ajuste final, permite aceder aos parâmetros finais, devidamente ajustados. Fernando Jorge Soares Carvalho 13

.3. Extracção de dados e representação da face Relativamente a este ponto, a extracção de dados faciais em imagens estáticas e em sequências de imagens, são apresentados trabalhos utilizando métodos baseados em modelos protótipos e em características faciais. A Tabela 3 apresenta trabalhos relevantes. Tabela 3 Referências a trabalhos relativos à extracção de dados faciais Aproximação Método Imagens Referência Modelo Holistica Templates Estáticas [ Edwards, 1998] AAM Modelo de Aparência Activa Holistica Templates Estáticas [ Hong, 1998] Grafos Holistica Templates Estáticas [ Huang, 1997] Modelo de distribuição pontual Holistica [ Padgett, 1996] Blocos aleatórios de vectores próprios Holistica Templates Sequências [ Black, 1997] Fluxo óptico (em regiões faciais) Holistica Templates Sequências [Otsuka, 1998] Fluxo óptico (em regiões faciais) Analítica Características Estáticas [Hara, 1997] Modelo FCP S e 13 linhas verticais Analítica Características Estáticas [Pantic, 000] Visão dual, Modelo baseado em pontos Analítica [Zhao, 1996] Visão frontal, Modelo baseado pontos Analítica Características Sequências [Cohn, 1998] Fluxo óptico (pontos faciais) Hibrida Estáticas [Lyons, 1999] Grelha Fiducial e Wavelets de Gabor Hibrida Templates Estáticas [Yoneyama,1997] Rede quadrática de dimensão 8x10 Hibrida [Zhang, 1998] Pontos Fiducias e Wavelets de Gabor Hibrida Templates Sequências [Essa, 1997] Fluxo óptico Hibrida Templates Sequências [Kimura, 1997] Rede Potencial Hibrida Templates Sequências [Wang, 1998] Grafo.3..1 Extracção de dados em imagens estáticas método baseado em modelos (Templates) Em [Edwards, 1998], pode-se verificar o uso da aproximação holística para representar a face, faz-se referência ao modelo AAM (Active Apperance Model). Para implementar este modelo usam-se imagens faciais que são manualmente etiquetadas com 1 pontos localizados em torno das características faciais. Com a intenção de gerar um modelo estatístico de variação de forma, um modelo deformável, é feito o alinhamento de imagens de treino em coordenadas comuns aplicando-se seguidamente o PCA, análise dos componentes principais, para obter o formato facial. Para construir um modelo baseado em níveis de tons cinzento, deformam-se as imagens de treino. É usado seguidamente um algoritmo de triangulação de forma a controlar os pontos localizados. Com a aplicação do PCA à informação referente aos níveis de tons cinzento, extraídos das imagens deformadas, obtêm-se um vector com níveis de cinzento normalizado. Para ajustar o modelo AAM gerado para uma dada imagem em análise, realizam-se duas fases. Fernando Jorge Soares Carvalho 14

Na primeira fase, de treino, para cada uma das 88 imagens treinadas e etiquetadas com 1 pontos, são aplicados modelos deslocados conhecidos e são registados as diferenças. Seguidamente é feita uma análise de múltipla regressão para modelar a relação existente entre o modelo deslocado e a imagem. Na fase de reconhecimento, o modelo de regressão treinado é usado para determinar o movimento da face modelo. Em [Hong, 1998], pode-se encontrar um método que usa um gráfico de etiquetas (grafo), para representar o modelo da face. O grafo é constituído por nodos e cada nodo representa um vector jet. Cada componente de um vector jet é determinada através das Wavelets de Gabor, a partir da imagem facial. Usam Wavelets de 5 frequências e 8 orientações diferentes. Definem dois modelos de grafo, o modelo GFK reduzido e o modelo GFK completo (GFK - General Face Knowledge). O modelo GFK completo contém 50 nodos, e cada nodo 40 componentes jet correspondentes a marcas extraídas da face de 5 indivíduos. O modelo GFK reduzido contém 16 nodos e cada nodo 1 componentes jet correspondentes a marcas extraídas da face de 8 indivíduos. O modelo GFK reduzido é usado para encontrar a localização exacta da face na imagem e o modelo GFK completo é usado para localizar as características da face. Obtido o modelo, utiliza-se o sistema PersonSpotter e o método de emparelhamento elástico de [Wiskott, 1995], para ajustar à face em análise. O modelo GFK reduzido é deslocado e colocado à escala da imagem em análise, até ser encontrado o melhor ajuste. Encontrado o ajuste, a posição exacta da face é derivada do valor do tamanho do gráfico canónico. Seguidamente o modelo GFK completo é ajustado à região da face, sendo aplicado um método de pesagem do nodo. O peso dos nodos é doseado de acordo com importância da sua localização, por exemplo, os nodos situados na região facial referente ao cabelo, tem menos peso do que aqueles que se encontrar localizados nas características faciais importantes, como os olhos e a boca. A Figura 3, exemplifica os modelos GFK. Figura 3 Modelos GFK reduzido e GFK completo Em [Huang, 1997], é utilizado o modelo de distribuição pontual, este modelo estatístico é gerado a partir de 90 pontos posicionados em características faciais que foram manualmente localizados em 90 imagens de 15 indivíduos cuja face apresentou seis categorias básicas de Fernando Jorge Soares Carvalho 15

emoção. Em termos genéricos o modelo facial é uma combinação entre o PDM e o modelo protótipo definido para a boca. Para representar o modelo da boca são usadas 3 curvas parabólicas que permitem definir o seu contorno. Para posicionar o modelo sobre a face, emparelhar, é deformado e deslocado todo o PDM em simultâneo. Aplica-se um método que permite estimar os parâmetros da forma, baseados na análise do gradiente, que permite minimizar globalmente os níveis de cinzento do modelo. Para procurar a boca começa-se por definir uma região de análise em função do ajuste do PDM efectuado. Seguidamente, definemse linhas verticais e procura-se o ponto mais escuro de cada linha com a intenção de definir e localizar a boca. É usado um detector de limiar de níveis cinzentos, de forma a excluir alguns dos pontos fora da região a considerar, segmentação, e em seguida usa-se uma curva parabólica com intenção de aproximar a linha da boca (intercessão entre os lábios). As orlas com elevado gradiente, são usadas para estimar outra curva parabólica correspondente ao lábio superior, o mesmo processo é usado para conseguir o lábio inferior. A Figura 4 mostra o modelo gerado usando PDM, A figura 5 mostra o ajuste do modelo PDM à face. Figura 4 Modelo PDM Figura 5 Ajuste do PDM, [Huang, 1997] Em [Padgett, 1996], é usada a representação holística da face e a extracção dos dados faciais, não é feita de forma automática. É usada uma base de dados com faces representativas de várias expressões faciais, construída por [Ekman, 1978]. Esta base de faces contém 97 imagens categorizadas com seis expressões emocionais básicas, e escaladas de forma a tornar salientes e notáveis as características da face, que ficam localizadas na mesma região da imagem em análise. Para cada imagem, a área em torno de cada olho está dividida verticalmente em dois blocos sobrepostos de 3x3 pixeís e a área em torno da boca está dividida horizontalmente em três blocos sobrepostos de 3x3 pixeís. Conseguem-se gerar vectores próprios, aplicando PCA de blocos aleatórios de 3x3 pixeís retirados da imagem em análise. Fernando Jorge Soares Carvalho 16

Em [Yoneyama, 1997], é usada a aproximação híbrida para representar a face. Ajusta-se uma grelha quadrática de 8x10 à imagem facial normalizada. Utiliza-se um algoritmo de fluxo óptico de [Horn, 1981] e calcula-se o fluxo óptico entre a face de referência e a face examinada de uma dada imagem. A magnitude e a direcção dos fluxos ópticos calculados são simplificados para valores de magnitude na direcção vertical. Em [Zang, 1998], para construir o modelo facial, usam-se 34 pontos faciais para extrair um conjunto de coeficientes das Wavelets de Gabor. As onduletas são emitidas com três frequências e orientações distintas, usam-se imagens normalizadas de 56x56 pixeís..3.. Extracção de dados em imagens estáticas método baseado em características faciais Os métodos seguintes permitem construir o modelo da face à custa de algumas características faciais e não da face como um todo, por essa razão, os modelos da face gerados obedecem à aproximação analítica. Pode-se constatar em [Hara, 1997], a implementação de um modelo geométrico com 30 pontos colocados nas envolventes das características faciais, esses pontos são designados por FCP s (Facial Characteristic points). É utilizada uma câmara CCD em modo monocromático, para obter um conjunto de distribuições de brilho com 13 linhas verticais, de modo a que estas cruzem os FCP s. A imagem é normalizada de forma a que a distância entre tonalidades cromáticas seja de 0 pixeís. A partir da distância entre cores, o comprimento das linhas verticais é determinado. As distribuições de brilho obtidas são depois normalizadas para o alcance [0,1], sendo estes dados posteriormente usados para treino duma rede neuronal com a finalidade de classificar o estado emocional da face. A face não pode conter óculos ou cabelo facial e deve estar a uma distância de 1 metro da câmara. A figura 6, representa o modelo FCP s. Figura 6 Modelo gerado a partir de pontos faciais localizados sobre as características, [Hara, 1997] Fernando Jorge Soares Carvalho 17

Em, [Pantic, 000], é usado um modelo baseado em pontos, mas com dois pontos de visão distintos, visão frontal e em perfil. O modelo frontal é composto por 30 características, 5 são definidas em correspondência com 19 pontos faciais e as restantes dão forma à boca e ao queixo. Na visão em perfil, o modelo é caracterizado por 10 pontos, colocados de uma forma estratégica na curvatura que define o contorno lateral da face. Seguidamente, usam-se detectores de múltiplas características para cada característica facial (sobrancelhas, olhos, nariz, boca e perfil). O modelo está representado na figura 7. Figura 7 Modelo de visão frontal e perfil, [Pantic, 000].3..3 Extracção de dados em sequências de imagens - método baseado em modelos protótipos Em [Otsuka, 1998] é usado um algoritmo de fluxo óptico baseado no gradiente, com a finalidade de estimar o movimento em locais faciais, como a boca e o olho direito. A imagem facial é adquirida com uma câmara montada na cabeça do indivíduo e sub-amostrada por mais 8 câmara em ambas as direcções, do fim para o princípio e do princípio para o fim da sequência. Depois de aplicado o algoritmo do fluxo óptico, usa-se a transformada de Fourier que é aplicada ao campo de velocidade horizontal e vertical, extraindo assim os coeficientes de Fourier referentes às frequências inferiores. Os coeficientes são memorizados num vector 15D de características. Este método tem a vantagem de apoiar-se na simetria da face para analisar o seu movimento, no entanto não tem qualquer sensibilidade aos movimentos realizados pelo olho do lado esquerdo. A Figura 8, mostra a deformação das grelhas do olho e da boca, segundo o vector do movimento obtido. Fernando Jorge Soares Carvalho 18

Figura 8 Indicação do movimento por deformação das grelhas, [Otsuka, 1998] Em [Kimura, 1997], é usada a aproximação híbrida para representar a face. A utilização de uma rede potencial é ajustada à imagem normalizada, começa-se por representar as orlas de intensidade (extremidades) da imagem aplicando um filtro diferencial. Para extrair a força externa que é o gradiente da imagem representativa das orlas de intensidade, aplica-se um filtro gaussiano. A imagem filtrada é chamada de campo potencial no qual o modelo elástico é colocado. Seguidamente a rede é deformada pela força do campo potencial gerado. O modelo gerado pela deformação da rede é comparado com o modelo gerado a partir da face ausente de qualquer expressão facial, a variação da posição dos nodos da rede é usada para posterior processamento. A Figura 9, ilustra o campo potencial e a correspondente rede potencial. Figura 9 Campo potencial representativo de orlas de intensidade e correspondente rede potencial, [Kimura, 1997] Em [Wang, 1998], é usada também a aproximação híbrida para representar a face, são utilizados 19 pontos colocados sobre as características faciais, 7 desses pontos conservam a topologia local da face e são colocados no nariz e nas extremidades dos olhos, os restantes são distribuídos pelos olhos, boca e sobrancelhas. Os pontos faciais são tratados como nodos num grafo, estão interligados através de ligações representativas da distância euclidiana entre nodos. Fernando Jorge Soares Carvalho 19

As ligações são pesadas com um conjunto de parâmetros, que mostram algumas propriedades das características faciais às quais os pontos pertencem. Por exemplo, a boca contém quatro nodos ligados, as ligações são pesadas com pesos inferiores, uma vez que a boca pode sofrer deformações muito acentuadas. A localização exacta dos pontos faciais iniciais é conhecida, o seguimento em termos de sequência de imagens é conseguido usando um sistema composto por dois níveis. As correspondências entre os pontos faciais seguidos entre duas imagens consecutivas, são tratadas como um grafo emparelhado. A imagem anterior é tratada no nível de memória e a imagem corrente é tratada no chamado nível de entrada. O emparelhamento de grafos é visto como um processo dinâmico de difusão nodal. Este método para funcionar correctamente necessita da marcação inicial dos pontos sobre as características faciais, como mostra a Figura 10. O seguimento da sequência de imagens só é garantido se a face estiver desprovida de óculos e cabelo facial. Figura 10 Pontos das características faciais FFP s, [Wang, 1998].3..4 Extracção de dados em sequências de imagens método baseado em características faciais Em [Cohn, 1998], é usado um modelo de marcas facial, localizado em torno das características faciais. As marcas são colocadas manualmente na primeira imagem referente à sequência de imagens. Nas outras imagens é utilizado o método do fluxo óptico hierárquico, para fazer o seguimento do fluxo óptico de janelas de dimensão 13x13, que rodeiam os pontos representativos das marcas. O deslocamento de cada ponto marcado é calculado subtraindo a posição normalizada, na primeira imagem, à posição normalizada da imagem corrente. Os vectores de deslocamentos calculados servem para reconhecer as acções faciais reveladas pela face..3.3 Classificação de expressões faciais Alguns dos métodos usados na determinação do estado emocional apresentado por uma face, referem-se a imagens estáticas e a sequências de imagens, encontram-se divididos entre Fernando Jorge Soares Carvalho 0

métodos baseados em modelos protótipos, em redes neuronais e em regras básicas, como se pode observar na Tabela 4. Tabela 4 Trabalhos relevantes nos métodos de Classificação Referência Método Descrição do Método Imagens [Edwards, 1998] Templates Usam PCA e LDA Análise dos Discriminantes Lineares Estáticas [Hong, 1998] Templates Galerias e emparelhamento de grafos deformáveis Estáticas [Huang, 1997] Templates PCA e classificador de distância mínima Estáticas [Lyons, 1999] Templates PCA e LDA de vectores de grafos Estáticas [Yoneyama,1997] Templates Duas redes 14x14 Hopfield com aprendizagem Estáticas [Hara, 1997] Redes Neuronais 34x50x6 NN com aprendizagem backprogation Estáticas [Padgett, 1996] Redes Neuronais 15x10x7 NN com aprendizagem backprogation Estáticas [Zhang,1998] Redes Neuronais 646x7x7 NN com propagação RPROP Estáticas [Zhao, 1996] Redes Neuronais 10x10x3 NN com aprendizagem backprogation Estáticas [Pantic, 000] Baseado em regras Sistema de regras inteligente Estáticas [Essa, 1997] Templates Espaço-Temporal, modelos movimento-energia Sequências [Kimura, 1997] Templates PCA Análise dos Componentes Principais Sequências [Osuka, 1998] Templates HMM e método de treino Baum-Welch Sequências [Wang, 1998] Templates Média B-splines para trajectórias características e Método para minimização de distância Sequências [Black, 1997] Baseado em regras Consistência temporal de meio nível para descrição do movimento das características faciais. Sequências.3.3.1 Classificação de expressões faciais em imagens estáticas Método baseado em Modelos protótipos [Hong, 1998], supõe que duas pessoas que olham de forma semelhante demonstram uma expressão facial semelhante. Ajusta-se o modelo grafo, da Figura 3, a uma imagem, o melhor emparelhamento conseguido desse modelo com os modelos de uma galeria personalizada é procurado, utilizando o método do emparelhamento do grafo deformável. As galerias personalizadas, contém 9 faces de diferentes indivíduos. Cada galeria contém 8 imagens, com 4 imagens por expressão facial. A galeria, ao qual corresponde o melhor emparelhamento, com menores custos de energia, é usada para julgar qual a categoria correspondente à expressão facial observada. Curiosamente, os resultados do emparelhamento melhoram se as galerias comportarem indivíduos da mesma família, piorando quando é composta por indivíduos sem relação familiar. O desempenho do sistema melhora se a galeria contar com mais indivíduos, segundo [Hong, 1998]. Já em [Huang, 1997], é usado um passo intermédio, calculando 10 parâmetros activos (AP s). A diferença entre os parâmetros das características do modelo encontrada numa face sem aparente expressão facial (Figura 4 e Figura 5) e com uma dada expressão facial Fernando Jorge Soares Carvalho 1

demonstrada pelo mesmo indivíduo, gera os AP s. Usa-se seguidamente, um classificador de distância mínima para agrupar os dois principais parâmetros activos, os que tem maior variação, a partir de 90 amostras de imagens de treino em seis grupos, representativos das seis expressões básicas de emoção. O algoritmo baseia-se na correlação das distribuições das componentes principais entre a expressão em análise e as expressões dos grupos categorizados, a melhor nível de correlação permite decidir o grupo a que pertence dada expressão. Em [Yoneyama, 1997], são extraídos 80 parâmetros referentes ao movimento facial e descrita a mudança entre a face ausente de qualquer movimento facial, e a expressão facial corrente de qualquer indivíduo. São reconhecidos 4 tipos de expressões faciais: tristeza, surpresa, raiva e felicidade. Utilizam-se duas de redes neuronais de Hopfield, iguais. A primeira rede NN1, é treinada com 40 dados representativos das quatro expressões faciais demonstradas por 10 indivíduos, a segunda rede NN é treinada com dados que representam de uma forma clara as 4 expressões faciais. Para cada imagem examinada, a saída de NN1 é emparelhada com todos os exemplos que lhe serviram de treino, sendo calculada a distância euclidiana. É depois tomada a média por cada expressão. O algoritmo diz que se a diferença entre duas distâncias médias mínimas é maior que a unidade, então a categoria fica decidida, caso contrário, a NN cabe essa decisão, emparelhando a sua saída com os dados usados para a seu treino..3.3. Classificação de expressões faciais em imagens estáticas Método baseado em redes neuronais Em [Hara, 1997], pode-se encontrar um método de classificação baseado em redes neuronais. A rede neuronal usada é back-propagation 34x50x6, representa 6 categorias básicas de expressão facial. As unidades da camada de entrada correspondem a dados referentes à distribuição do brilho, que foi conseguida a partir da imagem em análise, e as 6 unidades da camada de saída representam as 6 categorias de expressões básicas. A rede foi treinada com 90 imagens resultantes do manifesto de 6 expressões básicas de 15 indivíduos. Em [Zhang, 1998], é usada uma rede neuronal de 680x7x7, a entrada da rede é a posição geométrica de 34 pontos faciais (Figura 10), e 18 amostras dos coeficientes das Wavelets de Gabor de cada um dos pontos. A rede neuronal processa a redução não linear da dimensionalidade e faz a decisão estatística acerca da categoria da expressão observada. As unidades de saída fornecem uma estimativa em probabilidade da expressão examinada pertencente a uma dada categoria. Um conjunto de 13 imagens com diferentes expressões faciais demonstradas por nove indivíduos, serviu de treino para a rede. Fernando Jorge Soares Carvalho