Estudo, Comparação e Aplicação de Metodologias para...

Por: Fernando Jorge Soares Carvalho

Estudo, Comparação e Aplicação de Metodologias para Imagens

de Faces

Junho 2004

FacuFaculd

ldade de Ciências da Unade de Engenharia da U

iversidade do Porto niversidade do Porto

Por: Fernando Jorge Soares Carvalho

Estudo, Comparação e Aplicação

de Metodologias para Imagens de Faces

Orientador:

João Manuel R. S. Tavares

Professor Auxiliar da Faculdade de Engenharia da Universidade do Porto, departamento de Engenharia Mecânica e Gestão Industrial;

Investigador no LOME – Laboratório de Óptica e Mecânica Experimental do INEGI – Instituto de Mecânica e Gestão Industrial, integrado na unidade

de investigação “Mecânica Experimental e Novos Materiais”.

Estudo, Comparação e Aplicação de Metodologias para Imagens de Faces

Resumo

Este trabalho surge no âmbito da disciplina de Seminário do Mestrado em

Métodos Computacionais em Ciências e Engenharia, com o objectivo de fazer o

enquadramento na Dissertação que se encontra em curso.

O trabalho realizado contém quatro capítulos, no primeiro capítulo são definidos

os objectivos, são sucintamente referidas as tarefas a desenvolver e é apresentada uma

possível estrutura da dissertação por capítulos. No segundo capítulo é apresentado um

estudo geral sobre algumas das técnicas usadas em visão computacional na área das

imagens de faces, para determinadas aplicações. O terceiro capítulo descreve com

pormenor, uma das técnicas a implementar, usando modelos protótipos deformáveis. No

quarto capítulo, são apresentadas as conclusões relativas ao estudo realizado e são

referidas perspectivas de realização futuras.

Fernando Jorge Soares Carvalho

Conteúdo

Capítulo 1 ..................................................................................................... 1 Introdução.................................................................................................... 1 1.1 Motivação................................................................................................................................ 1 1.2 Objectivo ................................................................................................................................. 2 1.3 Tarefas a desenvolver no trabalho de Dissertação .................................................................. 2 1.4 Possível Estrutura da Dissertação por Capítulos..................................................................... 3 Capítulo 2 ..................................................................................................... 5 2.1 Introdução............................................................................................... 5 2.2 Fundamentos .......................................................................................... 5 2.2.1 Análise da expressão facial de forma automática ............................................................ 5 2.2.1.1 Detecção da face ........................................................................................................ 6 2.2.1.2 Extracção de dados relativos à expressão facial ........................................................ 7 2.2.1.3 Classificação da expressão facial............................................................................... 7 2.2.2 Um sistema ideal para análise de expressões faciais, como aplicação............................. 8 2.3 Descrição sucinta de algumas das metodologias existentes................ 9 2.3.1 Detecção da face .............................................................................................................. 9 Tabela 1-Referências de trabalhos, [Pantic, 2000]........................................................................ 9 Tabela 2 - Referências de trabalhos, [Yang, 2000] ..................................................................... 10 2.3.1.1 Detecção da face em imagens faciais, referente à tabela 1 ...................................... 10 2.3.1.2 Detecção da face em imagens arbitrárias, referente à tabela 1 ................................ 11 2.3.1.3 Detecção da face em imagens estáticas, referente à tabela 2................................... 12 2.3.2 Extracção de dados e representação da face................................................................... 14 Tabela 3 – Referências a trabalhos relativos à extracção de dados faciais.................................. 14 2.3.2.1 Extracção de dados em imagens estáticas – método baseado em modelos (Templates)………………………………………………………………………………….…..14 2.3.2.2 Extracção de dados em imagens estáticas – método baseado em características faciais……………………………………………………………………………………………17 2.3.2.3 Extracção de dados em sequências de imagens - método baseado em modelos protótipos………………………………………………………………………………………..18 2.3.2.4 Extracção de dados em sequências de imagens – método baseado em características faciais……………………………………………………………………………………………20 2.3.3 Classificação de expressões faciais ................................................................................ 20 Tabela 4 – Trabalhos relevantes nos métodos de Classificação.................................................. 21 2.3.3.1 Classificação de expressões faciais em imagens estáticas – Método baseado em Modelos protótipos...................................................................................................................... 21 2.3.3.2 Classificação de expressões faciais em imagens estáticas – Método baseado em redes neuronais………………………………………………………………………………….22 2.3.3.3 Classificação de expressões faciais em imagens estáticas – Método baseado em regras……………………………………………………………………………………………23 Capítulo 3 ...................................................................................................25 Introdução..................................................................................................25 3.1 Pré-processamento................................................................................................................ 25 3.2 Modelo protótipo do olho ..................................................................................................... 26 3.2.1 Função de energia para o modelo protótipo do olho ...................................................... 27 3.2.2 Exemplos........................................................................................................................ 29 3.3 Modelo protótipo da boca..................................................................................................... 29 3.3.1 Modelo protótipo que define a boca fechada ................................................................. 30

Fernando Jorge Soares Carvalho i

3.3.2 Função de energia para o modelo protótipo da boca fechada ........................................ 31

3.3.3 Modelo protótipo que define a boca aberta .................................................................... 32 3.3.4 Função de energia para o modelo protótipo da boca aberta ........................................... 33 3.4 Exemplos .............................................................................................................................. 34 Capítulo 4 ...................................................................................................36 4.1 Conclusões............................................................................................................................ 36 4.2 Perspectivas de Realização Futura........................................................................................ 36 Bibliografia.................................................................................................37

Fernando Jorge Soares Carvalho ii

Capítulo 1

Introdução

A idade da informação moderna confronta a humanidade com vários desafios para os

quais não existiram respostas capazes noutros tempos. Foi necessário esperar muito tempo para

concretizar dois grandes desafios: organização da sociedade e sua segurança.

Mas pense-se em segurança, hoje um pouco por todo lado possuímos um vasto leque de

métodos de autenticação que se desenvolveram ao sabor do requinte tecnológico que a todos

diariamente surpreende. Para corroborar tal surpresa, pense-se, no acesso a entradas dos

edifícios, no controle de acesso a computadores, no acesso a caixas multibanco, na investigação

criminal, e muitas mais. Existe a latente necessidade de identificação e autenticação que deve

ser posta ao serviço de uma sociedade moderna e exigente.

A maioria dos métodos existentes para identificação e autenticação tem a desvantagem

de um dado utilizador estar dependente de Passwords, códigos PIN , etc, que o obriga a retê-los

em memória. Existem métodos automatizados e de um quase transparente uso por parte do

utilizador como são, por exemplo, o reconhecimento de voz; as impressões digitais; a retina do

olho; etc.

E se o meio de autenticação fosse a nossa própria face! A detecção e o reconhecimento

de faces como meio de autenticação podem ser utilizadas prosperamente nas tarefas acima

mencionadas e dar apoio a outras técnicas, ou até mesmo substitui-las no caso de existirem

baixas exigências de segurança.

Para além da detecção e reconhecimento de uma face num dado cenário é também possível

analisar a chamada expressão facial de dado indivíduo e determinar o seu estado de espírito.

Veja-se qual a resposta que uma área tão vasta quanto é a visão por computador nos pode dar.

1.1 Motivação

O desenvolvimento de um projecto realizado no âmbito da licenciatura, no módulo de

navegação de plataformas móveis, desenvolvidas para futebol robótico, fez-me despertar

interesse pela área da visão que é um dos instrumentos fundamentais neste tipo de projecto.

A procura de respostas para perguntas do tipo:

• Como será possível identificar um objecto numa imagem? E uma face humana?

• Como medir o estado emocional de uma face de forma automática?

• Como poderá uma máquina identificar/reconhecer um indivíduo?

Fernando Jorge Soares Carvalho 1

• Quais as técnicas usadas?

• Como seguir uma face humana numa sequência de imagens?

1.2 Objectivo

Surgiu a ideia desta dissertação intitulada de “Estudo, Comparação e Aplicação de

Metodologias para Imagens de Faces”, com orientação do Prof. João Tavares da FEUP.

O primordial objectivo da dissertação a desenvolver baseia-se na comparação e

verificação de várias metodologias existentes na área da visão computacional no domínio das

imagens de faces. As metodologias a estudar podem ser utilizadas para:

1) Segmentação de faces em imagens;

2) Reconhecimento de faces;

3) Classificação de faces;

4) Codificação/Compressão de faces;

5) Análise do movimento de faces;

6) Simulação do estado emocional; etc.

1.3 Tarefas a desenvolver no trabalho de Dissertação

A abordagem a seguir ao longo da dissertação a desenvolver, essencialmente reduz-se a

cinco etapas, as quais são seguidamente descritas:

1. Estudo, comparação e verificação de aplicações, de várias metodologias existentes

no domínio da Visão Computacional para imagens de faces.

2. Pesquisa das metodologias disponíveis, de domínio público, preferencialmente para

a ferramenta Matlab. Ensaio experimental das implementações consideradas e

obtenção de algumas conclusões.

3. Selecção de uma metodologia que permita a detecção de faces em imagens e

posteriormente a sua caracterização. Implementação da metodologia seleccionada

em Matlab.

4. Análise dos resultados experimentais obtidos e elaboração de perspectivas de

desenvolvimento futuros.

5. Escrita e elaboração da dissertação.

1.4 Possível Estrutura da Dissertação por Capítulos

Capitulo I Introdução à Dissertação

Este capítulo faz uma breve introdução ao tema da Dissertação. Assim, será descrito

sucintamente no domínio da Dissertação, os objectivos propostos, bem como as tarefas a

desenvolver.

Capitulo II Estudo, Comparação e Verificação de Aplicações, de Várias Metodologias Existentes

Este capítulo consiste no estudo das várias metodologias existentes. Posteriormente

serão verificadas algumas das implementações existentes neste domínio de acesso livre.

(Neste relatório é apresentado e descrito o estudo realizado até ao momento.)

Capitulo III Apresentação e Descrição das Implementações Estudadas

Neste capítulo serão descritas as implementações de domínio publico estudadas e

apresentados exemplos de utilização das mesmas. Serão também apresentadas algumas

conclusões.

Capitulo IV Detecção e Caracterização de Faces usando Protótipos Deformáveis

Neste capítulo será descrito em detalhe a metodologia considerada para detectar faces

presentes em imagens e posteriormente caracterização das mesmas. A metodologia considerada

é baseada em modelos protótipos deformáveis (templates) e será em primeiro lugar aplicada a

imagens estáticas e posteriormente em sequências de imagens.

Neste capitulo serão também apresentadas e descritas todas as implementações realizadas.

Capitulo V Resultados dos Ensaios Experimentais

Neste capítulo serão apresentados vários ensaios experimentais obtidos com as

implementações realizadas. Os mesmos resultados serão analisados e discutidos.

Capitulo VI Conclusões e Perspectivas de Desenvolvimentos Futuros

Neste capítulo serão apresentadas as conclusões finais e definidos possíveis tópicos de

continuidade desta dissertação.

Bibliografia

Toda a bibliografia utilizada.

Anexo I Websites considerados

WebSites utilizados e outros de interesse a pesquisas futuras.

Anexo II Implementações Realizadas

Neste anexo será apresentado todo o código realizado ao longo desta Dissertação.

Capítulo 2

2.1 Introdução

A elaboração deste capítulo permite descrever o estudo realizado sobre as várias

metodologias existentes com base em alguns artigos de vários investigadores desta área.

Sabe-se que, os humanos detectam e interpretam faces e expressões faciais a partir de

uma imagem ou de um pequeno esboço com relativa facilidade.

Existem vários problemas relacionados com: a descoberta de uma face numa imagem,

extracção de informação relativa à expressão facial, classificação da expressão (por exemplo,

em categorias de emoção). Um sistema que execute estas operações automaticamente, com

precisão e em tempo real representaria um enorme passo no que diz respeito à interacção entre o

homem e a máquina.

Neste capítulo pretende-se referir quais os trabalhos na área das imagens de faces, que

conduzem um sistema desde a detecção de uma face até à interpretação da expressão facial

revelada pela face. Este capítulo teve como principais contributos bibliográficos os textos:

“Estado da Arte” de [Pantic, 2000] onde é possível encontrar algumas referências a trabalhos

relativos a aplicações como: detecção de faces, extracção de dados faciais e análise da

respectiva expressão facial; o survey de [Yang, 2002] com referências a técnicas existentes na

detecção e reconhecimento de faces.

As metodologias existentes são variadas e a escolha pode ser difícil uma vez que

qualquer uma delas permite alcançar alguns dos objectivos propostos. Surge também o caso de

uma dada técnica ser realizável utilizando outras como auxilio a tarefas prévias.

2.2 Fundamentos

O “Estado da Arte” de [Pantic, 2000], relata a possibilidade da implementação de um

analisador facial automático, onde tal objectivo exige que se superem três fases ditas como

essenciais: Detecção da fase numa imagem, extracção de dados relativos à expressão facial e

classificação da expressão facial. No trabalho de [Yang, 2002], são referidas algumas das

técnicas usadas na detecção e reconhecimento de faces.

2.2.1 Análise da expressão facial de forma automática

Em primeiro lugar, antes da análise da expressão facial, é necessário que a face seja

detectada no cenário onde poderá localizar-se. De seguida deve ser reconhecida como uma face,

desde já existe a necessidade de verificar se estamos na presença ou não de uma face humana,

aqui existe a distinção entre face e não face, entende-se por não face, um segmento de uma

imagem que pode assumir características parecidas com uma face, mas não o é, como é exemplo

o contorno definido por um balão.

Seguidamente são desencadeados mecanismos que permitem extrair informação sobre a

expressão facial da imagem observada. Neste ponto são distinguidas dois tipos de imagens, as

estáticas e as sequências de imagens. No caso das imagens estáticas o processo refere-se à

localização da face e às suas características. Entenda-se por características da face as

sobrancelhas, olhos, nariz, queixo e boca. No caso de sequências de imagens o processo faz

referência ao seguimento da face e às características que esta ocupa no cenário. Veja-se a

diferença entre dois termos importantes: características faciais e características do modelo da

face, definindo este último como sendo as características usadas para representar o modelo da

face, onde podem figurar todas as características comuns da face, a face como um todo, ou

então apenas algumas delas como os olhos e a boca. A face em termos de modelo pode obedecer

a três formas de representação: holística, onde a face é vista como um todo; Analítica, onde a

face é representada em função de um conjunto de características escolhidas como olhos e boca,

por exemplo, [Yullie, 1992]; híbrida, onde a este modelo cabe a combinação das duas

representações anteriores.

O passo seguinte consiste em definir um conjunto de categorias usadas para

classificação e interpretação da expressão facial. Dentro deste conjunto de categorização está

presente a configuração das diferentes emoções que a face humana demonstra por interacção

com o meio.

2.2.1.1 Detecção da face

A detecção da face numa imagem ou numa sequência de imagens é um processo que

exige controlo, a face aparece na imagem de uma forma frontal, a sua existência no cenário é

um pressuposto assumido, existindo uma ideia global acerca do seu posicionamento. A

determinação do local exacto onde esta se insere pode ser um processo complicado uma vez

que, a sua orientação, tamanho e oclusão total ou parcial são variáveis muito exigentes para o

sistema. O sistema de visão humano procede a uma inspecção casual de um cenário e numa

gama alargada de condições, e considera uma face como um todo e não como um conjunto

limitado de características faciais como olhos, boca, etc. A essência da detecção humana reside

na análise das características faciais bem como na disposição geométrica que elas tem entre si,

pode-se também pensar que o sistema de visão humano consegue extrapolar características da

face partindo de outras características porque existe simetria. Para uma máquina por mais

poderoso que o algoritmo seja não se pode pensar nisto com um processo transparente, temos

aqui o peso das variáveis.

2.2.1.2 Extracção de dados relativos à expressão facial

Uma vez detectada a face é necessário extrair os dados relativos a essa face. O tipo de

representação do modelo da face constitui a aproximação facial. Se o modelo da face segue a

aproximação holística, esta é vista como um todo. No caso da aproximação analítica a face é

modelada a partir de um conjunto de características faciais como os olhos e a boca. Se a face

segue a aproximação híbrida, então aparece como uma combinação das duas representações

anteriores.

A experiência de [Johansson’s, 1978], relativa à exibição do ponto de luz, sugere que as

características visuais da face relativas à expressão facial pode ser efectuada descrevendo o

movimento dos pontos que dizem respeito às características faciais, fazendo depois uma análise

a esses movimentos.

A extracção das características faciais está muito condicionada a factores como: a

existência de óculos na face, a orientação da face relativamente ao plano da câmara, o tamanho

da face relativamente ao cenário onde está inserida (escala), a presença de cabelo ou outros

factores que ocultem parcial ou totalmente a face, como obstáculos, iluminação e a presença de

bigode ou barba.

2.2.1.3 Classificação da expressão facial

O objectivo base deste ponto reside na identificação da expressão facial de que é

portadora a face. Para proceder à classificação da face é necessário recorrer a um mecanismo de

categorização, mas antes de mais é necessário referir que uma face pode ser classificada de

várias formas: em termos de acções faciais que causam uma determinada expressão; em termos

de expressões não protótipo, como o elevar de uma sobrancelha; em termos de expressões

protótipo, como são as expressões faciais clássicas.

Em [Pantic, 2000], refere-se o estudo da actividade facial chamado de FACS (Facial

action coding system), desenvolvido com o objectivo de facilitar a medida da actividade facial,

foi projectado por observadores de forma a detectarem mudanças subtis causadas pela

contracção muscular facial.

A categorização das expressões faciais demonstradas pela face humana medem o estado

emocional representado pela face, encontram-se divididas em seis categorias básicas: felicidade,

tristeza, surpresa, medo, raiva e desgosto.

O problema da caracterização da expressão facial é um processo de difícil controlo por

diversas razões, desde já o sistema deve analisar qualquer indivíduo do sexo masculino ou

feminino, de qualquer faixa etária e de qualquer etnia, ou seja, deve ser independente da

variabilidade fisionómica de cada indivíduo. Uma vez que as expressões faciais estão

categorizadas, isto exige que a face exiba uma dada expressão de uma forma extrema para que a

classificação se faça de uma forma eficiente, e se encaixe na respectiva categoria, pense-se que

poderá existir uma mistura de expressões faciais e isto pode tornar a análise muito complexa e

ambígua. Independentemente das categorias de classificação usadas, os métodos mais usados

encontram-se divididos em grupos: baseados em regras, em redes neuronais e em modelos

protótipos. Se o método de classificação é baseado em modelos protótipos, a expressão facial

encontrada é comparada com os modelos definidos para cada categoria de expressão, a melhor

semelhança ou emparelhamento decide qual a categoria a que a face pertence. Se o método de

classificação for baseado em redes neuronais, a expressão facial é classificada em sintonia com

um processo de categorização que a rede neuronal aprende durante a sua fase de treino. Se o

método de classificação é baseado em regras básicas, então classificam e examinam expressões

faciais em categorias de emoções básicas com acções faciais previamente codificadas e

definidas. As expressões faciais protótipo que caracterizam as várias categorias de emoção, são

descritas em termos de acções faciais, durante a fase de processamento são comparadas com a

aproximação obtida da extracção de dados faciais de forma a classificar esta última numa das

categorias existentes.

2.2.2 Um sistema ideal para análise de expressões faciais, como aplicação

Coloque-se a hipótese de implementar um analisador automático de expressões faciais,

onde o ponto de partida para realizar tal objectivo, reside na definição da sua funcionalidade,

tendo em linha de conta tudo aquilo que conhecemos acerca do modo como funciona o sistema

de visão humano. Contudo, não é possível implementar todas as funcionalidades do sistema

humano numa máquina. O sistema terá que conter os três níveis descritos anteriormente:

detecção da face, extracção dos dados e análise da expressão facial. Deve mostrar

independência de análise ao tipo de sexo, idade, etnia. Deve ser robusto a condições adversas

como: luminosidade, presença de óculos, cabelo, bigode e barba, escala e posição facial.

Atendendo à possibilidade de existência de movimento o sistema deve lidar com o movimento

da cabeça, isto pode ser conseguido empregando um conjunto de câmaras fixas para aquisição

de diferentes pontos de visão faciais, aproximando a visão corrente através da interpolação entre

visões adquiridas. Este último aspecto pode ser realizado se na cabeça do indivíduo em

observação for fixada uma câmara, ou então controlar a partir do exterior as câmaras em função

das rotações da face.

Um sistema ideal deveria analisar todas as expressões faciais possíveis e fazer a

distinção entre elas.

2.3 Descrição sucinta de algumas das metodologias existentes Vejam-se alguns dos trabalhos que relatam de uma forma sucinta algumas das

metodologias usadas para conseguir atingir os objectivos requeridos pelas três fases referidas.

2.3.1 Detecção da face

Trabalhos relevantes na detecção da face estão indicados na Tabela 1, referem-se a dois

tipos de imagens, as faciais e as arbitrárias, fazendo a separação entre duas das três

aproximações possíveis, Holística e Analítica, [Pantic, 2000]. Em [Yang, 2002], pode-se

verificar outras metodologias para detecção de faces numa imagem, faz-se uma classificação

diferente dos métodos relativamente a [Pantic, 2000]. Assumem-se claramente duas fases

importantes na detecção, a localização e o reconhecimento da face. A localização da face refere-

se ao seu posicionamento num dado cenário e o reconhecimento refere-se à identificação da

face, como face ou não face. Dividem-se os métodos em quatro grandes grupos: baseados no

conhecimento, baseados na aproximação a características invariantes, baseados em modelos

protótipos e baseados na aparência. Os métodos baseados no conhecimento têm por base um

conjunto de regras que capturam a relação entre características faciais. Os métodos baseados em

características invariantes têm por base a procura das características faciais que existem

independentemente da variação da posição da face, do ponto de visão e das condições de

luminosidade. Os métodos baseados no emparelhamento de modelos protótipos, tem por base o

uso de padrões que caracterizam a face e a detecção é conseguida através da correlação entre

estes modelos e a face presente num dado cenário. Os métodos baseados na aparência, usam

modelos como acontece no método anterior, esses modelos recebem um conjunto de imagens de

treino e procuram capturar a variabilidade representativa da aparência da face. Alguns dos

trabalhos representativos estão na Tabela 2.

Tabela 1-Referências de trabalhos, [Pantic, 2000]

Imagens Faciais Bibliografia Tipos de Visão Método Aproximação Holística [Huang, 1997]

[Pantic, 2000] Frontal Frontal e Perfil

Detector de Intensidade de Canny Modelo PDM

Aproximação Analítica

[Hara, 1997] [Yoneyama,1997] [Kimura, 1997]

Frontal

Análise da imagem de histogramas com limiar Projecção Integral e Ajuste de redes de potencial

Imagens Arbitrárias Aproximação

Holística

[Hong, 1998] [Essa, 1997]

Frontal

Frontal e perfil

Filtragem Espaço-Temporal Algoritmo Estéreo Detector de cor Detector de regiões convexas Filtros de previsão linear Filtros Espaço-Temporal Faces próprias Características próprias

Tabela 2 - Referências de trabalhos, [Yang, 2000] Aproximação Trabalho Representativo

Baseados no conhecimento Método baseado em regras de multi-resolução [Yang, 1994] Características Invariantes: Características Faciais Grupo de Orlas [Leung, 1995]

Textura Matriz de dependência do espaço de nível Cinzento (SGLD) [Dai, 1996] Cor da Pele Mistura Gaussiana [Yang, 1996]

Características Múltiplas Integração da cor da pele, tamanho e forma [Kjeldsen, 1996] Emparelhamento de Modelos:

Modelos Pré-definidos Modelos de forma [Craw, 1987] Modelos Deformáveis Modelos de forma Activos [Yuille, 1992]

Baseados na Aparência: Faces próprias Decomposição de vectores próprios e agrupamento [Turk, 1991] Distribuição Distribuição Gausseana e perceptrão muti-camada [Sung, 1998] Redes Neuronais Redes Neuronais e esquemas arbitrários [Rowley, 1998]

2.3.1.1 Detecção da face em imagens faciais, referente à tabela 1

Em [Huang, 1997], é aplicado o modelo distribuição pontual (PDM), com o objectivo

de obter o correcto posicionamento do modelo de pontos distribuídos inicial (PDM inicial),

utiliza-se um detector de orlas (extremidades) para estimar a localização da face na imagem. A

análise do valor da intensidade dos pixeis entre os lábios e duas extremidades verticais

simétricas, representa os limites verticais exteriores da face, gerando uma estimativa da sua

localização. Neste método a face não pode ter cabelos faciais nem óculos, não podem existir

variações de luminosidade nem movimentos faciais.

O PDM, consiste na geração de um modelo protótipo estatístico flexível que deriva de

um conjunto de imagens de treino. Cada imagem de treino é representada por um conjunto de

pontos que representam marcas, colocadas manualmente em locais estratégicos em regiões a

definir. Apresenta duas fases de treino, a primeira fase consiste em segmentar manualmente a

imagem posicionando num conjunto de imagens de treino todos os pontos que definem

contornos 2D ou superfícies 3D. Na segunda fase, cria-se um PDM padrão compacto usando um

algoritmo de optimização que permite analisar a localização dos pontos e calcular a sua média

posicional.

Em [Pantic, 2000], para determinar os limites horizontais e verticais da cabeça são

usados dois histogramas, um histograma vertical e um horizontal da imagem com ponto de

visão frontal. Neste método a localização do contorno da face é conseguido a partir de um

algoritmo dedicado chamado “HSV color model”. Como são usadas duas perspectivas de visão,

no ponto de visão em perfil, um algoritmo dedicado representa a aproximação do contorno da

Em [Hara, 1997], é usada uma câmara CCD em modo monocromático de forma a obter

dados acerca da distribuição do brilho da face. Uma distribuição de brilho base é conseguida à

custa de uma média de distribuição de brilho, retirada de dez faces. O sistema extrai a posição

das cores de referência esperadas e utiliza a correlação cruzada entre os dados que constam na

base de dados e os dados adquiridos. Uma vez identificadas as cores de referência esperadas

consegue-se a localização da face usando o posicionamento geométrico das características

faciais.

Em [Yoneyama, 1997], são extraídas de uma forma automática: as extremidades dos

olhos, a altura dos olhos e da boca. Após obtenção destas características, o comprimento

correspondente à área da face é devidamente normalizado sobrepondo à imagem uma grelha

quadrática 8x10.

Em [Kimura, 1997], é usada uma rede potencial, Figura 9, para representação da face, a

imagem é devidamente normalizada tomando o centro dos olhos e o centro da boca. Este

algoritmo utiliza o método de projecção integral que pretende fazer a síntese da informação

relativa à extremidade e cor da face. A rede é ajustada à imagem normalizada da face e seu

movimento.

2.3.1.2 Detecção da face em imagens arbitrárias, referente à tabela 1

Em [Essa, 1997], pode-se constatar que é usado o método dos espaços próprios

(eigenspace) para localizar a face. O método aplica faces próprias (eigenfaces)

aproximadas recorrendo a Análise dos Componentes Principais (PCA), numa amostra

que utiliza 128 imagens faciais. As faces próprias (eigenfaces) definem um sub-espaço

de imagens amostradas a que dão o nome de espaço da face. Para detecção da presença

da face numa única imagem, a distância da imagem observada do espaço de faces é

calculada a partir dos coeficientes de projecção. No caso de sequência de imagens a

presença da face é conseguida usando uma filtragem espaço-temporal, à imagem filtrada

é atribuído um limiar de forma a conseguir analisar o movimento de manchas (Blob),

cada mancha (Blob) identificada corresponde uma potencial face humana sendo depois

tratada como uma imagem única.

2.3.1.3 Detecção da face em imagens estáticas, referente à tabela 2

2.3.1.3.1 Métodos baseados no conhecimento

Em [Yang, 1994], pode-se encontrar um método baseado em regras de multi-resolução.

É usado um sistema hierárquico constituído por três níveis de regras. No nível mais elevado é

encontrada a potencial face, usando uma janela de varrimento sobre a imagem, é aplicado um

conjunto de regras para cada localização facial. No nível mais baixo, as regras analisam de

forma detalhada as características faciais. Partindo da imagem original é reduzida a resolução e

geradas três imagens, como mostra a Figura 1. Uma das regras usadas no nível mais elevado,

nível 1, para localizar a face é o modelo protótipo de tons cinzentos, apresentado na Figura 2.

Este modelo é confrontado por correlação com a imagem de menor resolução, para verificar a

possibilidade da existência da face. No nível 2, é utilizado um detector de orlas de intensidades

para representar um histograma local das imagens candidatas a faces. No nível mais baixo, nível

3, são aplicadas mais um conjunto de regras que identificam as características faciais, tais como,

olhos e boca.

Figura 1 – Imagens de diferentes resoluções

Figura 2 – Modelo protótipo de tons cinzento, [Yang, 1994]

2.3.1.3.2 Métodos baseados emparelhamento de modelos protótipo

Em [Yang, 1994], o princípio básico para encontrar uma face modelo que sirva de

comparação com muitas outras, pode ser efectuado manualmente ou parametrizado através de

uma função. A informação acerca da existência de uma face é obtida baseada em valores de

correlação entre modelos protótipos definidos para determinadas características faciais e o

contorno obtido de uma potencial característica facial. Este método é simples de implementar,

no entanto pode necessitar de métodos complementares atendendo a condições de escala e

posição da face que podem condicionar o uso deste método, como são: Multi-resolução, Multi-

escala, Sub-modelos, etc. São definidos dois grupos importantes de métodos, os modelos pré-

definidos e modelos deformáveis.

Como modelos pré-definidos, em [Sakai, 1969], é utilizado um conjunto de sub-modelos

protótipos (subtemplates) para os olhos, nariz, boca e o contorno da face, para modelar a face.

Cada sub-modelo protótipo é definido em termos de segmentos de recta extraídos de uma

imagem usando a variação do gradiente. Os segmentos são emparelhados nos sub-modelos.

Numa primeira fase, a potencial localização da face é conseguida fazendo a correlação entre

segmentos da imagem (sub-imagens) e o contorno que define o modelo da face. Na segunda

fase, a determinação efectiva da face é conseguida fazendo o emparelhamento dos sub-modelos

gerados, com as respectivas características faciais.

Em, [Craw, 1987], é apresentado um método de localização baseado num modelo de

forma. É aplicado um filtro de Sobel para extrair orlas (extremidades), que agrupadas

conseguem definir o modelo da face baseado num conjunto de restrições. Uma vez localizada a

face é usado um sistema de diferentes escalas e é aplicado o mesmo processo de filtragem,

procura-se definir os olhos, sobrancelhas e lábios.

Já em [Tsukamoto, 1993], é apresentado um modelo qualitativo para modelar a face

(QMF). Este modelo usa amostras de imagens divididas em blocos e estima qualitativamente as

características atribuídas a cada bloco. Para parametrizar o modelo, são definidas propriedades

relativas à intensidade luminosa e às orlas (extremidades), como características do modelo. O

modelo de blocos obtido é usado para calcular propriedades faciais, em todas as posições da

imagem. A face é dada como detectada se a medida das propriedades faciais atingir um

determinado limiar.

No que diz respeito a modelos deformáveis, em [Yuille, 1992], é apresentado um

modelo elástico para os olhos e para a boca, o modelo elástico pode ser entendido como, um

modelo parametrizado com propriedades deformáveis. Os modelos utilizados são

parametrizados e os parâmetros considerados, são os objectos de uma função representativa da

energia dispendida para ajustar o modelo a uma dada característica facial. O melhor ajuste é

aquele que minimiza a energia dispendida com o posicionamento dos parâmetros, a face é dada

como detectada se a energia não ultrapassar um dado limiar. Este modelo permite extrair as

características faciais, uma vez que o ajuste final, permite aceder aos parâmetros finais,

devidamente ajustados.

2.3.2 Extracção de dados e representação da face

Relativamente a este ponto, a extracção de dados faciais em imagens estáticas e em

sequências de imagens, são apresentados trabalhos utilizando métodos baseados em modelos

protótipos e em características faciais. A Tabela 3 apresenta trabalhos relevantes.

Tabela 3 – Referências a trabalhos relativos à extracção de dados faciais

Aproximação Método Imagens Referência Modelo

Holistica Templates Estáticas [ Edwards, 1998] AAM – Modelo de Aparência Activa

Holistica Templates Estáticas [ Hong, 1998] Grafos

Holistica Templates Estáticas [ Huang, 1997] Modelo de distribuição pontual

Holistica [ Padgett, 1996] Blocos aleatórios de vectores próprios

Holistica Templates Sequências [ Black, 1997] Fluxo óptico (em regiões faciais)

Holistica Templates Sequências [Otsuka, 1998] Fluxo óptico (em regiões faciais)

Analítica Características Estáticas [Hara, 1997] Modelo FCP’S e 13 linhas verticais

Analítica Características Estáticas [Pantic, 2000] Visão dual, Modelo baseado em pontos

Analítica [Zhao, 1996] Visão frontal, Modelo baseado pontos

Analítica Características Sequências [Cohn, 1998] Fluxo óptico (pontos faciais)

Hibrida Estáticas [Lyons, 1999] Grelha Fiducial e Wavelets de Gabor

Hibrida Templates Estáticas [Yoneyama ,1997] Rede quadrática de dimensão 8x10

Hibrida [Zhang, 1998] Pontos Fiducias e Wavelets de Gabor

Hibrida Templates Sequências [Essa, 1997] Fluxo óptico

Hibrida Templates Sequências [Kimura, 1997] Rede Potencial

Hibrida Templates Sequências [Wang, 1998] Grafo

2.3.2.1 Extracção de dados em imagens estáticas – método baseado em modelos (Templates)

Em [Edwards, 1998], pode-se verificar o uso da aproximação holística para representar

a face, faz-se referência ao modelo AAM (Active Apperance Model). Para implementar este

modelo usam-se imagens faciais que são manualmente etiquetadas com 122 pontos localizados

em torno das características faciais. Com a intenção de gerar um modelo estatístico de variação

de forma, um modelo deformável, é feito o alinhamento de imagens de treino em coordenadas

comuns aplicando-se seguidamente o PCA, análise dos componentes principais, para obter o

formato facial. Para construir um modelo baseado em níveis de tons cinzento, deformam-se as

imagens de treino. É usado seguidamente um algoritmo de triangulação de forma a controlar os

pontos localizados. Com a aplicação do PCA à informação referente aos níveis de tons cinzento,

extraídos das imagens deformadas, obtêm-se um vector com níveis de cinzento normalizado.

Para ajustar o modelo AAM gerado para uma dada imagem em análise, realizam-se duas fases.

Na primeira fase, de treino, para cada uma das 88 imagens treinadas e etiquetadas com 122

pontos, são aplicados modelos deslocados conhecidos e são registados as diferenças.

Seguidamente é feita uma análise de múltipla regressão para modelar a relação existente entre o

modelo deslocado e a imagem. Na fase de reconhecimento, o modelo de regressão treinado é

usado para determinar o movimento da face modelo.

Em [Hong, 1998], pode-se encontrar um método que usa um gráfico de etiquetas

(grafo), para representar o modelo da face. O grafo é constituído por nodos e cada nodo

representa um vector jet. Cada componente de um vector jet é determinada através das Wavelets

de Gabor, a partir da imagem facial. Usam Wavelets de 5 frequências e 8 orientações diferentes.

Definem dois modelos de grafo, o modelo GFK reduzido e o modelo GFK completo (GFK -

General Face Knowledge). O modelo GFK completo contém 50 nodos, e cada nodo 40

componentes jet correspondentes a marcas extraídas da face de 25 indivíduos. O modelo GFK

reduzido contém 16 nodos e cada nodo 12 componentes jet correspondentes a marcas extraídas

da face de 8 indivíduos. O modelo GFK reduzido é usado para encontrar a localização exacta da

face na imagem e o modelo GFK completo é usado para localizar as características da face.

Obtido o modelo, utiliza-se o sistema PersonSpotter e o método de emparelhamento elástico de

[Wiskott, 1995], para ajustar à face em análise. O modelo GFK reduzido é deslocado e colocado

à escala da imagem em análise, até ser encontrado o melhor ajuste. Encontrado o ajuste, a

posição exacta da face é derivada do valor do tamanho do gráfico canónico. Seguidamente o

modelo GFK completo é ajustado à região da face, sendo aplicado um método de pesagem do

nodo. O peso dos nodos é doseado de acordo com importância da sua localização, por exemplo,

os nodos situados na região facial referente ao cabelo, tem menos peso do que aqueles que se

encontrar localizados nas características faciais importantes, como os olhos e a boca. A Figura

3, exemplifica os modelos GFK.

Figura 3 – Modelos GFK reduzido e GFK completo

Em [Huang, 1997], é utilizado o modelo de distribuição pontual, este modelo estatístico

é gerado a partir de 90 pontos posicionados em características faciais que foram manualmente

localizados em 90 imagens de 15 indivíduos cuja face apresentou seis categorias básicas de

emoção. Em termos genéricos o modelo facial é uma combinação entre o PDM e o modelo

protótipo definido para a boca. Para representar o modelo da boca são usadas 3 curvas

parabólicas que permitem definir o seu contorno. Para posicionar o modelo sobre a face,

emparelhar, é deformado e deslocado todo o PDM em simultâneo. Aplica-se um método que

permite estimar os parâmetros da forma, baseados na análise do gradiente, que permite

minimizar globalmente os níveis de cinzento do modelo. Para procurar a boca começa-se por

definir uma região de análise em função do ajuste do PDM efectuado. Seguidamente, definem-

se linhas verticais e procura-se o ponto mais escuro de cada linha com a intenção de definir e

localizar a boca. É usado um detector de limiar de níveis cinzentos, de forma a excluir alguns

dos pontos fora da região a considerar, segmentação, e em seguida usa-se uma curva parabólica

com intenção de aproximar a linha da boca (intercessão entre os lábios). As orlas com elevado

gradiente, são usadas para estimar outra curva parabólica correspondente ao lábio superior, o

mesmo processo é usado para conseguir o lábio inferior. A Figura 4 mostra o modelo gerado

usando PDM, A figura 5 mostra o ajuste do modelo PDM à face.

Figura 4 – Modelo PDM Figura 5 – Ajuste do PDM, [Huang, 1997]

Em [Padgett, 1996], é usada a representação holística da face e a extracção dos dados

faciais, não é feita de forma automática. É usada uma base de dados com faces representativas

de várias expressões faciais, construída por [Ekman, 1978]. Esta base de faces contém 97

imagens categorizadas com seis expressões emocionais básicas, e escaladas de forma a tornar

salientes e notáveis as características da face, que ficam localizadas na mesma região da

imagem em análise. Para cada imagem, a área em torno de cada olho está dividida verticalmente

em dois blocos sobrepostos de 32x32 pixeís e a área em torno da boca está dividida

horizontalmente em três blocos sobrepostos de 32x32 pixeís. Conseguem-se gerar vectores

próprios, aplicando PCA de blocos aleatórios de 32x32 pixeís retirados da imagem em análise.

Em [Yoneyama, 1997], é usada a aproximação híbrida para representar a face. Ajusta-se

uma grelha quadrática de 8x10 à imagem facial normalizada. Utiliza-se um algoritmo de fluxo

óptico de [Horn, 1981] e calcula-se o fluxo óptico entre a face de referência e a face examinada

de uma dada imagem. A magnitude e a direcção dos fluxos ópticos calculados são simplificados

para valores de magnitude na direcção vertical.

Em [Zang, 1998], para construir o modelo facial, usam-se 34 pontos faciais para extrair

um conjunto de coeficientes das Wavelets de Gabor. As onduletas são emitidas com três

frequências e orientações distintas, usam-se imagens normalizadas de 256x256 pixeís.

2.3.2.2 Extracção de dados em imagens estáticas – método baseado em características faciais Os métodos seguintes permitem construir o modelo da face à custa de algumas

características faciais e não da face como um todo, por essa razão, os modelos da face gerados

obedecem à aproximação analítica.

Pode-se constatar em [Hara, 1997], a implementação de um modelo geométrico com 30

pontos colocados nas envolventes das características faciais, esses pontos são designados por

FCP’s (Facial Characteristic points). É utilizada uma câmara CCD em modo monocromático,

para obter um conjunto de distribuições de brilho com 13 linhas verticais, de modo a que estas

cruzem os FCP’s. A imagem é normalizada de forma a que a distância entre tonalidades

cromáticas seja de 20 pixeís. A partir da distância entre cores, o comprimento das linhas

verticais é determinado. As distribuições de brilho obtidas são depois normalizadas para o

alcance [0,1], sendo estes dados posteriormente usados para treino duma rede neuronal com a

finalidade de classificar o estado emocional da face. A face não pode conter óculos ou cabelo

facial e deve estar a uma distância de 1 metro da câmara. A figura 6, representa o modelo

FCP’s.

Figura 6 – Modelo gerado a partir de pontos faciais localizados sobre as características,

[Hara, 1997]

Em, [Pantic, 2000], é usado um modelo baseado em pontos, mas com dois pontos de

visão distintos, visão frontal e em perfil. O modelo frontal é composto por 30 características, 25

são definidas em correspondência com 19 pontos faciais e as restantes dão forma à boca e ao

queixo. Na visão em perfil, o modelo é caracterizado por 10 pontos, colocados de uma forma

estratégica na curvatura que define o contorno lateral da face. Seguidamente, usam-se detectores

de múltiplas características para cada característica facial (sobrancelhas, olhos, nariz, boca e

perfil). O modelo está representado na figura 7.

Figura 7 – Modelo de visão frontal e perfil, [Pantic, 2000]

2.3.2.3 Extracção de dados em sequências de imagens - método baseado em modelos protótipos

Em [Otsuka, 1998] é usado um algoritmo de fluxo óptico baseado no gradiente, com a

finalidade de estimar o movimento em locais faciais, como a boca e o olho direito. A imagem

facial é adquirida com uma câmara montada na cabeça do indivíduo e sub-amostrada por mais 8

câmara em ambas as direcções, do fim para o princípio e do princípio para o fim da sequência.

Depois de aplicado o algoritmo do fluxo óptico, usa-se a transformada de Fourier que é aplicada

ao campo de velocidade horizontal e vertical, extraindo assim os coeficientes de Fourier

referentes às frequências inferiores. Os coeficientes são memorizados num vector 15D de

características. Este método tem a vantagem de apoiar-se na simetria da face para analisar o seu

movimento, no entanto não tem qualquer sensibilidade aos movimentos realizados pelo olho do

lado esquerdo. A Figura 8, mostra a deformação das grelhas do olho e da boca, segundo o

vector do movimento obtido.

Figura 8 – Indicação do movimento por deformação das grelhas, [Otsuka, 1998]

Em [Kimura, 1997], é usada a aproximação híbrida para representar a face. A utilização

de uma rede potencial é ajustada à imagem normalizada, começa-se por representar as orlas de

intensidade (extremidades) da imagem aplicando um filtro diferencial. Para extrair a força

externa que é o gradiente da imagem representativa das orlas de intensidade, aplica-se um filtro

gaussiano. A imagem filtrada é chamada de campo potencial no qual o modelo elástico é

colocado. Seguidamente a rede é deformada pela força do campo potencial gerado. O modelo

gerado pela deformação da rede é comparado com o modelo gerado a partir da face ausente de

qualquer expressão facial, a variação da posição dos nodos da rede é usada para posterior

processamento. A Figura 9, ilustra o campo potencial e a correspondente rede potencial.

Figura 9 – Campo potencial representativo de orlas de intensidade e correspondente rede

potencial, [Kimura, 1997]

Em [Wang, 1998], é usada também a aproximação híbrida para representar a face, são

utilizados 19 pontos colocados sobre as características faciais, 7 desses pontos conservam a

topologia local da face e são colocados no nariz e nas extremidades dos olhos, os restantes são

distribuídos pelos olhos, boca e sobrancelhas. Os pontos faciais são tratados como nodos num

grafo, estão interligados através de ligações representativas da distância euclidiana entre nodos.

As ligações são pesadas com um conjunto de parâmetros, que mostram algumas propriedades

das características faciais às quais os pontos pertencem. Por exemplo, a boca contém quatro

nodos ligados, as ligações são pesadas com pesos inferiores, uma vez que a boca pode sofrer

deformações muito acentuadas. A localização exacta dos pontos faciais iniciais é conhecida, o

seguimento em termos de sequência de imagens é conseguido usando um sistema composto por

dois níveis. As correspondências entre os pontos faciais seguidos entre duas imagens

consecutivas, são tratadas como um grafo emparelhado. A imagem anterior é tratada no nível de

memória e a imagem corrente é tratada no chamado nível de entrada. O emparelhamento de

grafos é visto como um processo dinâmico de difusão nodal. Este método para funcionar

correctamente necessita da marcação inicial dos pontos sobre as características faciais, como

mostra a Figura 10. O seguimento da sequência de imagens só é garantido se a face estiver

desprovida de óculos e cabelo facial.

Figura 10 – Pontos das características faciais FFP’s, [Wang, 1998]

2.3.2.4 Extracção de dados em sequências de imagens – método baseado em características faciais

Em [Cohn, 1998], é usado um modelo de marcas facial, localizado em torno das

características faciais. As marcas são colocadas manualmente na primeira imagem referente à

sequência de imagens. Nas outras imagens é utilizado o método do fluxo óptico hierárquico,

para fazer o seguimento do fluxo óptico de janelas de dimensão 13x13, que rodeiam os pontos

representativos das marcas. O deslocamento de cada ponto marcado é calculado subtraindo a

posição normalizada, na primeira imagem, à posição normalizada da imagem corrente. Os

vectores de deslocamentos calculados servem para reconhecer as acções faciais reveladas pela

2.3.3 Classificação de expressões faciais

Alguns dos métodos usados na determinação do estado emocional apresentado por uma

face, referem-se a imagens estáticas e a sequências de imagens, encontram-se divididos entre

métodos baseados em modelos protótipos, em redes neuronais e em regras básicas, como se

pode observar na Tabela 4.

Tabela 4 – Trabalhos relevantes nos métodos de Classificação

Referência Método Descrição do Método Imagens

[Edwards, 1998] Templates Usam PCA e LDA – Análise dos Discriminantes Lineares

Estáticas

[Hong, 1998] Templates Galerias e emparelhamento de grafos deformáveis Estáticas

[Huang, 1997] Templates PCA e classificador de distância mínima Estáticas

[Lyons, 1999] Templates PCA e LDA de vectores de grafos Estáticas

[Yoneyama,1997] Templates Duas redes 14x14 Hopfield com aprendizagem Estáticas

[Hara, 1997] Redes Neuronais 234x50x6 NN com aprendizagem backprogation Estáticas

[Padgett, 1996] Redes Neuronais 15x10x7 NN com aprendizagem backprogation Estáticas

[Zhang,1998] Redes Neuronais 646x7x7 NN com propagação RPROP Estáticas

[Zhao, 1996] Redes Neuronais 10x10x3 NN com aprendizagem backprogation Estáticas

[Pantic, 2000] Baseado em regras Sistema de regras inteligente Estáticas

[Essa, 1997] Templates Espaço-Temporal, modelos movimento-energia Sequências

[Kimura, 1997] Templates PCA – Análise dos Componentes Principais Sequências

[Osuka, 1998] Templates HMM e método de treino Baum-Welch Sequências

[Wang, 1998] Templates Média B-splines para trajectórias características e Método para minimização de distância

Sequências

[Black, 1997] Baseado em regras Consistência temporal de meio nível para descrição do movimento das características faciais.

Sequências

2.3.3.1 Classificação de expressões faciais em imagens estáticas – Método baseado em Modelos protótipos

[Hong, 1998], supõe que duas pessoas que olham de forma semelhante demonstram

uma expressão facial semelhante. Ajusta-se o modelo grafo, da Figura 3, a uma imagem, o

melhor emparelhamento conseguido desse modelo com os modelos de uma galeria

personalizada é procurado, utilizando o método do emparelhamento do grafo deformável. As

galerias personalizadas, contém 9 faces de diferentes indivíduos. Cada galeria contém 28

imagens, com 4 imagens por expressão facial. A galeria, ao qual corresponde o melhor

emparelhamento, com menores custos de energia, é usada para julgar qual a categoria

correspondente à expressão facial observada. Curiosamente, os resultados do emparelhamento

melhoram se as galerias comportarem indivíduos da mesma família, piorando quando é

composta por indivíduos sem relação familiar. O desempenho do sistema melhora se a galeria

contar com mais indivíduos, segundo [Hong, 1998].

Já em [Huang, 1997], é usado um passo intermédio, calculando 10 parâmetros activos

(AP’s). A diferença entre os parâmetros das características do modelo encontrada numa face

sem aparente expressão facial (Figura 4 e Figura 5) e com uma dada expressão facial

demonstrada pelo mesmo indivíduo, gera os AP’s. Usa-se seguidamente, um classificador de

distância mínima para agrupar os dois principais parâmetros activos, os que tem maior variação,

a partir de 90 amostras de imagens de treino em seis grupos, representativos das seis expressões

básicas de emoção. O algoritmo baseia-se na correlação das distribuições das componentes

principais entre a expressão em análise e as expressões dos grupos categorizados, a melhor nível

de correlação permite decidir o grupo a que pertence dada expressão.

Em [Yoneyama, 1997], são extraídos 80 parâmetros referentes ao movimento facial e

descrita a mudança entre a face ausente de qualquer movimento facial, e a expressão facial

corrente de qualquer indivíduo. São reconhecidos 4 tipos de expressões faciais: tristeza,

surpresa, raiva e felicidade. Utilizam-se duas de redes neuronais de Hopfield, iguais. A primeira

rede NN1, é treinada com 40 dados representativos das quatro expressões faciais demonstradas

por 10 indivíduos, a segunda rede NN2 é treinada com dados que representam de uma forma

clara as 4 expressões faciais. Para cada imagem examinada, a saída de NN1 é emparelhada com

todos os exemplos que lhe serviram de treino, sendo calculada a distância euclidiana. É depois

tomada a média por cada expressão. O algoritmo diz que se a diferença entre duas distâncias

médias mínimas é maior que a unidade, então a categoria fica decidida, caso contrário, a NN2

cabe essa decisão, emparelhando a sua saída com os dados usados para a seu treino.

2.3.3.2 Classificação de expressões faciais em imagens estáticas – Método baseado em redes neuronais Em [Hara, 1997], pode-se encontrar um método de classificação baseado em redes

neuronais. A rede neuronal usada é back-propagation 234x50x6, representa 6 categorias básicas

de expressão facial. As unidades da camada de entrada correspondem a dados referentes à

distribuição do brilho, que foi conseguida a partir da imagem em análise, e as 6 unidades da

camada de saída representam as 6 categorias de expressões básicas. A rede foi treinada com 90

imagens resultantes do manifesto de 6 expressões básicas de 15 indivíduos.

Em [Zhang, 1998], é usada uma rede neuronal de 680x7x7, a entrada da rede é a

posição geométrica de 34 pontos faciais (Figura 10), e 18 amostras dos coeficientes das

Wavelets de Gabor de cada um dos pontos. A rede neuronal processa a redução não linear da

dimensionalidade e faz a decisão estatística acerca da categoria da expressão observada. As

unidades de saída fornecem uma estimativa em probabilidade da expressão examinada

pertencente a uma dada categoria. Um conjunto de 213 imagens com diferentes expressões

faciais demonstradas por nove indivíduos, serviu de treino para a rede.

2.3.3.3 Classificação de expressões faciais em imagens estáticas – Método baseado em regras

Em [Pantic, 2000], encontra-se a codificação da acção facial de uma forma automática e

para isso é usado o modelo que obteve na Figura 7. É calculada a diferença entre as

características detectadas do modelo corrente adquirido, e as mesmas características detectadas

na face sem aparente expressão facial, referente ao mesmo indivíduo. As regras existentes

classificam a deformação do modelo em classes AUs (31 classes de unidades de acção facial,

que são expressões que separam as acções faciais). A classificação baseia-se na comparação do

código AU (unidades de acção facial) descrito por uma expressão facial, com o código AU

descrito pelas seis expressões emocionais básicas.

2.3.3.4 Classificação de expressões faciais em sequências de imagens – Método baseado em modelos (Templates) Em [Cohn, 1998], aplicam-se em separado, funções discriminante para análise de

movimento das regiões faciais como sobrancelhas, olhos e boca. Usam-se duas funções

discriminante para três acções na área das sobrancelhas, duas funções discriminante para três

acções na área dos olhos, e cinco funções discriminante para nove acções faciais na área do

nariz e da boca. Em sintonia com a descrição 2.3.2.2, é calculado o deslocamento dos pontos

entre a imagem inicial e a imagem corrente, gerando-se grupos separados de variância-

covarância, usados para classificação.

Em [Essa, 1997], podemos encontrar o método control-theoretic que permite extrair a

representação espaço-temporal da energia de movimento, relativo a uma dada expressão facial.

Geram-se modelos spatio-temporal para seis expressões diferentes, duas para acções faciais

(sorriso e elevar de sobrancelhas) e quatro para expressões representativas do estado emocional

(surpresa, tristeza, raiva e desgosto). A norma euclidiana da diferença entre a energia de

movimento do modelo e a energia de movimento da imagem observada, é usada para determinar

a semelhança/discrepância existente. A Figura 11, representa um modelo protótipo espaço-

temporal, onde a surpresa é a expressão facial manifestada pela face.

Figura 11 – Representação do modelo espaço-temporal, [Essa, 1997]

Em [Kimura, 1997], é construído um espaço de emoção aplicando a Análise dos

Componentes Principais (PCA), com seis sequências de imagens de três expressões faciais

básicas, angústia, felicidade e surpresa. O espaço próprio (eigenspace) atravessado pelas três

componentes principais foram usados como um espaço de emoção sobre o qual é projectado

uma imagem onde é possível quantificar a classificação emocional manifestada pela face.

Em [Wang, 1998], já foi descrito em 2.3.2.1, a geração de pontos marcados sobre as

características faciais, FEFP’s (Facial Feature Points). Para as categorias de emoção (raiva,

felicidade e surpresa), é usada a média de doze curvas B-spline apoiados nos pontos FEFP’s

marcados, para construção do modelo. Na fase de análise, cada curva gerada ao longo do

movimento descreve a relação entre as mudanças de expressão e dos deslocamentos dos pontos

colocados em torno das características faciais. Cada modelo de expressão foi definido a partir

duma sequência de dez imagens expressas por cinco indivíduos. A categoria da expressão fica

definida, determinando a distância mínima entre a curva actual determinada e a curva definida

pelo modelo.

Capítulo 3

Introdução Depois de uma análise sucinta às metodologias existentes é necessário tomar decisões

sobre a metodologia a seguir. Os modelos protótipos deformáveis fazem parte dessa decisão,

neste capítulo pretende-se descrever modelos protótipos existentes para a boca e para os olhos.

Estes modelos protótipos, como aplicações, permitem detectar a face e extrair características

faciais. Os modelos protótipos deformáveis são parametrizados e interagem dinamicamente com

a imagem, e por alteração e actualização dos valores dos seus parâmetros, deformam-se

permitindo o ajuste às características faciais presentes na imagem. A convergência do valor dos

parâmetros dos modelos deformáveis permitem extrair as características faciais. Uma função de

energia permite determinar o custo energético do ajuste dos modelos protótipos às

características faciais. Define-se um limiar de energia que permite decidir se o ajuste se realiza

sobre a característica facial procurada, em caso afirmativo espera-se um custo energético

reduzido. A função de energia é definida por orlas (ou extremidades), picos e vales de

intensidade de imagem.

3.1 Pré-processamento

Os modelos protótipos deformáveis necessitam de representações a partir da imagem

original, que se obtém extraindo propriedades da imagem original, como orlas, picos e vales de

intensidade de imagem. Das representações consideradas, obtém-se três campos representativos

de forças, extraídos de operações morfológicas, ( ),e x yΨ , ( ),v x yΨ , ( ),p x yΨ , para orlas, vales

e picos de intensidades respectivamente. Os campos representativos das forças obtidos são

suavizados de forma a homogeneizar tons de cinzentos, através da convolução com uma função

exponencial 2 2x yρ− +e , onde ρ representa um parâmetro constante, resultando:

( ) ( )

x ye e

x yv v

x yp p

x y e x y

Adicionalmente é utilizado o campo ( ),i x yφ representativo da intensidade da imagem ( ),I x y .

3.2 Modelo protótipo do olho

O modelo protótipo de [Yuille, 1992], para o olho é constituído pelas seguintes

características:

• Um círculo de raio r , centrado no ponto cx . Este círculo define o contorno que separa a

parte branca, do íris e pupila do olho. O contorno do círculo é atraído para orlas de

intensidade de imagem, enquanto que a parte interior é atraída para os baixos valores de

intensidade de imagem, (vales). A parte exterior ao círculo caracteriza-se por elevados

valores de intensidade de imagem, (picos).

• O contorno limite do olho é modelado à custa de duas parábolas, representativas das

partes superior e inferior do olho. O vértice das parábolas contém a abcissa do ponto ex

e a abertura é regulada pelo valor do coeficiente director, associado ao termo de maior

grau, que assume um valor calculado em função de b .

• O modelo contém dois pontos correspondentes aos centros das partes brancas dos olhos,

que são atraídos para picos de intensidade. Estes pontos representam-se por

( ) ( )( )1 cos ,ex p senθ θ+ e ( ) ( )( )2 cos ,ex p senθ θ+ , onde , e 1 0p e p≥ ≤2 0 θ

representa o ângulo de orientação que permite a rotação do olho relativamente ao centro

• A região do olho delimitada pelo contorno, exterior ao círculo e interior às parábolas é a

parte branca do olho, que é atraída para elevados valores de intensidade, (picos). Em

[Yuille, 1992], formam-se três tipos de forças: forças que obrigam cx e ex a

encontrarem-se; forças que obrigam 2 a tomar valores até quatro vezes o valor do raio

do íris e pupila do olho; forças que obrigam os centros

r ( ) ( )( )1 cosex p sen,θ θ+ e

( ) ( )( )2 cos ,x p sene θ θ+ a serem o centro limite do olho.

Na Figura 12, pode ver-se o modelo protótipo do olho que integra onze parâmetros:

1 2, , , , , , , ,c ex x p p r a b c θ

Figura 12 – Um modelo protótipo parametrizado para o olho com 0θ = , [Yuille, 1989]

Para representar o modelo no plano cartesiano, definem-se dois vectores

( ) ( )( )1 cos ,e senθ θ e ( ) ( )( )2 , cose sen θ θ− , que definem a orientação do olho. O ponto x é

representado no espaço pelas coordenadas ( )1 2,x x , onde 1 21 2x x e x e= + .

As parábolas que definem o contorno exterior do olho são representadas no domínio [ ],b b− ,

sabendo que ( )22 1 01 01x k x x y= − + e tomando as coordenadas do vértice ( )0,a e o ponto ( ),0b

obtém-se: ( )20 0k b a k= − + ⇔ 2

= − de onde: 1

ax x ab

= − + . O mesmo procedimento para o

contorno inferior permite obter a seguinte equação: 1

cx x cb

= − .

3.2.1 Função de energia para o modelo protótipo do olho

Considerando 1 2( , , , , , , , , )c ef x x p p r a b c θ= , a função de energia é representada por

( ) ( )1 2 , , , , ,p r a b c, , ,c c c eE f E x x p θ= , mais precisamente internac v e p iE E E E E E= + + + + :

• Energia das baixas intensidades, (vales):

(Interior do círculo)

circulo

cE xArea

φ= − ∫∫ dA , onde

Área – Área do círculo,

R_circulo – Região de intensidades do círculo.

• Energia das orlas de intensidade:

(Contorno do circulo e das parábolas)

( ) ( )32

_ _e e e

c circulo c parabolas

ccE x dSLc Lp

φ φ= − −∫ ∫ x dS , onde

LC – Comprimento do contorno do círculo,

c_circulo – Limites de contorno definido para o círculo,

LC – Comprimento do contorno das parábolas,

c_parabolas – Limites de contorno definido para as parábolas.

• Energia das elevadas intensidades, (picos):

(Determinada em dois pontos 1 1ex p e+ e 2 2ex p e+ )

( ) ( )( )6 1 1p p e p eE c x p e x p eφ φ= + + + 2 1.

• Energia de brilho, minimiza o brilho dentro do círculo:

circulo

cE xArea

φ= ∫∫ dA , onde

Área – Área do círculo,

R_circulo – Região de intensidades do círculo.

• Energia de brilho, maximiza o brilho delimitado pelo círculo e pelas parábolas:

cE xArea

φ= − ∫∫ dA , onde

Área – Área delimitada pelo círculo e pelas parábolas,

RCP – Região delimitada pelo círculo e as parábolas.

• Energia interna:

( ) ( ) ( ) ( )2 2

2 231 2 2interna 1 2

1 1 22 2 2 2 2 2e c

kk k kE x x p r b p r b b = − + − + + + + + −

As constantes ( )1 2 3 4 5 6 1 2 3, , , , , , , ,c c c c c c k k k são obtidas a partir de valores experimentais,

segundo [Yuille, 1992] os valores típicos são:

1 2 3 4 5 6 1 2 34000, 50, 50, 125, 150, 50, 10, 1, 0.05c c c c c c k k k= = = = = = = = = .

É aplicado um algoritmo de optimização (Steepest Descendent) descrito em [Chapra,

1988] e [Press, 1992], para minimizar a função de energia ao longo das iterações de ajuste.

3.2.2 Exemplos

Figura 13 - Representação das imagens dos campos de forças das orlas, vales e picos de

intensidades, a partir da imagem original. A imagem original no canto superior esquerdo,

orlas de intensidades na canto superior direito, vales de intensidade no canto inferior

esquerdo e picos de intensidade no canto inferior direito, de [Yuille, 1992].

Figura 14 - Representação da sequência dinâmica de ajuste do modelo deformável na

imagem original, de [Yuille, 1989].

3.3 Modelo protótipo da boca

No caso da boca, são definidos dois modelos protótipos, para boca aberta e boca

fechada.

No modelo representativo da boca aberta, os lábios superior e inferior são atraídos por

baixos valores de intensidade, (vales). Já as orlas de intensidade localizam-se nos contornos,

superior e inferior dos lábios. No modelo representativo da boca aberta, os lábios são atraídos

para baixos valores de intensidades, (vales), mas os dentes são atraídos para elevados valores de

intensidade, (picos).

3.3.1 Modelo protótipo que define a boca fechada

O modelo protótipo definido para a boca fechada apresenta as seguintes características:

• O seu centro encontra-se localizado no ponto mx ;

• A extremidade do lábio superior é modelada a partir de duas parábolas , cuja

intercessão é feita no ponto

( )upper iP

mx . Os coeficientes u e u contribuem para a

caracterização da curva embora não tenham nenhuma interpretação geométrica

definida:

21 11 12

22 22 22

h a u by x x u x a hb

h a u by x x u x ab

− += + − −

• O lábio inferior é modelado a partir de uma parábola downP :

( ) ( )( )

b by x a c xb b

− = + − − + ;

• A intercessão dos lábios superior e inferior é modelado pela parábola vP :

( )( )

b by x a xb b

− = − − +

Na Figura 4, pode ver-se o modelo protótipo definido para a boca fechada, que integra

dez parâmetros 1 2 1 2, , , , , , , ,x a b b u u h c θ

Figura 15 - Representação do modelo definido para a boca fechada com 0θ = , [Yuille,

3.3.2 Função de energia para o modelo protótipo da boca fechada

Este modelo protótipo integra dez parâmetros, considerando 1 2 1 2( , , , , , , , , )f x a b b u u h c θ= , a

função de energia é representada por ( )_ _M close M clos 1 2 1 2( , , , , , , , , )eE f E x a b b u u h c θ= , mais

precisamente _ chM open v e u bE E E E E pE E= + + + + + .

A energia obriga a que as duas parábolas representativas do lábio superior sejam iguais, a

energia obriga a que o centro da boca esteja sempre posicionado entre os seus cantos, a

energia obriga a que a excursão do lábio inferior seja

E λ vezes superior ao lábio superior e a

energia pE previne que o lábio superior passe para junto do nariz.

• Energia das baixas intensidades, vales, calculada ao longo de ( )vy x :

cE xPv

φ= − ∫ dS , onde

Pv– Comprimento do contorno da parábola,

c_Pv – Limites de contorno definido para a parábola,

(Adicionalmente esta energia poderá ser multiplicada por um factor de escala de forma

a aumentar a largura da boca).

• Energia das orlas de intensidades, calculada ao longo de ( ) ( ) ( )1 2, eu u dy x y x y x :

( ) ( )32

_ _e e e

c Pu c Pd

ccE x dSPu Pd

φ φ= − −∫ ∫ x dS , onde

Pu– Comprimento do contorno das parábolas , ( )upper iP

c_Pu – Limites de contorno definido pelas parábolas , ( )upper iP

Pd – Comprimento do contorno da parábola downP ,

c_Pd – Limites de contorno definido pela parábola downP .

• Energias internas:

kE u u

kE b b

kE c h

k hEb b

As constantes ( )1 2 3 4 5 6 1 2 3, , , , , , , ,c c c c c c k k k são obtidas a partir de valores experimentais,

segundo [Yuille, 1992], os valores típicos são:

1 2 3 1 2 3 31000, 100, 15, 2, 0.1, 1, 0.1, 1000c c c k k k kλ= = = = = = = = .

3.3.3 Modelo protótipo que define a boca aberta

O modelo protótipo que define boca aberta, é obtido não considerando uma parábola

apenas, onde os lábios se intercessão, mas considerando duas parábolas. As equações das curvas

apresentadas no caso anterior mantêm-se, não obstante de pequenas alterações de nomenclatura.

• Extremidade inferior do lábio superior:

( )( )

1 21 2

412v t

b by x a xb b

− = − − + ;

• Extremidade superior do lábio inferior:

( )( )

2 21 2

412v b

b by x a xb b

− = − − + .

Na Figura 4, pode ver-se o modelo protótipo definido para a boca fechada, que integra

dez parâmetros 1 2 1 2, , , , , , , ,x a b b u u h c θ .

Figura 16 - Representação do modelo definido para a boca aberta com 0θ = , [Yuille,

3.3.4 Função de energia para o modelo protótipo da boca aberta

Este modelo protótipo integra onze parâmetros, seja 1 2 1 2( , , , , , , , , , )t b t bf x a a b b u u h h c θ= ,

a função de energia é representada por ( )_ _M open M openE f E 1 2 1 2( , , , , , , , , , )t b t bx a a b b u u h h c θ= , mais

precisamente _ bM open v e t uE E E E h p aE E E E E= + + + + + + + :

• Energia das baixas intensidades, vales, calculada ao longo de ( ) ( )1 2ev vy x y x :

( ) ( )1 2

_ 1 _ 21 2v v vc Pv c Pv

c cE x dSPv Pv

φ φ= − −∫ ∫ x dS , onde

Pv1 e Pv2– Comprimento do contorno das parábolas,

c_Pv1 e c_Pv2 – Limites de contorno definido pelas parábolas.

• Energia das orlas de intensidades, calculada ao longo de ( ) ( ) ( )1 2, eu u dy x y x y x :

( ) ( )3 4

_ _e e e

c Pu c Pd

c cE x dSPu Pd

φ φ= − −∫ ∫ x dS ,

Pu– Comprimento do contorno das parábolas , ( )upper iP

c_Pu – Limites de contorno definido pelas parábolas , ( )upper iP

Pd – Comprimento do contorno da parábola downP ,

c_Pd – Limites de contorno definido pela parábola downP .

• Energia da região ocupada pelos dentes (Maximização da intensidade média):

( ) ( )( )5

t p et c R

φ λφ= − +∫∫ x dA , onde

tR – área ocupada pelos dentes,

_ tc R – Região delimitada por ( ) ( )1 2ev vy x y x .

• Energias internas:

kE u u

kE b b

kE c h

k hEb b

E k a a

= + = −

A energia interna , permite forçar o fecho da boca na ausência de dentes aE

• Adicionalmente é usada uma energia que permite a abertura da boca, actualizar os

parâmetros e a , ta b 1rF e 2rF respectivamente.

( ) ( )( )61

r p et c R

kF x xR

φ λφ= − +∫∫ dA ,

( ) ( )( )62

r p et c R

kF x xR

φ λφ= +∫∫ dA , onde

tR – área ocupada pelos dentes,

_ tc R – Região delimitada por ( ) ( )1 2ev vy x y x .

3.4 Exemplos

Figura 17 – Representação das imagens dos campos de forças das orlas, vales e picos de

intensidades, a partir da imagem original para o caso da boca fechada. A imagem original

no canto superior esquerdo, vales de intensidades na canto superior direito, picos de

intensidade no canto inferior esquerdo as orlas de intensidade no canto inferior direito,

retirado de [Yuille, 1992].

Figura 18 - Representação da sequência dinâmica do ajuste do modelo deformável com a

imagem original para o caso da boca fechada e aberta, retirado de [Yuille, 1992].

Capítulo 4

Conclusões e Perspectivas de Realização Futura

4.1 Conclusões

O trabalho realizado até data permitiu tomar conhecimentos sobre algumas das

metodologias existentes em visão computacional para imagens de faces. O estudo permitiu

analisar de uma forma sucinta o princípio de funcionamento dessas metodologias aliadas a toda

a problemática que está em torno da sua implementação. A solução encontrada relativa ao uso

de modelos protótipos deformáveis, parece interessante porque é aplicável a outros casos como,

automóveis e outros tipos de objectos. Permite detectar e caracterizar uma face ou um objecto e

pode ainda ser estendido ao seguimento de imagens.

4.2 Perspectivas de Realização Futura

Em termos futuros cabe a esta dissertação:

• A continuação do estudo referente às várias metodologias existentes.

• O desenvolvimento de software em ambiente MatLab, em que se pretende

implementar o método de detecção da face e a caracterização de faces, usando os

modelos protótipos deformáveis sucintamente descritos no capítulo anterior.

• Realização de ensaios experimentais para testar de robustez do software e analisar

resultados.

• Verificar a possibilidade de aplicar este método ao seguimento de faces numa

sequência de imagens utilizando a metodologia dos modelos protótipos deformáveis

com filtragem estocástica, como por exemplo, filtragem de Kalman, filtros de

condensação ou filtros de partículas.

Bibliografia

Livros: Blake and Isard, Andrew and Michel, 1998 : “Active Contours” , Springer

[Press, 1992] – William H. Press, Saul A. Teukolsky, William T. Vetterling, Brian P. Flannery Numerical Recipes in C - The Art of Scientific Computing Cambridge University Press – 1992

[Chapra, 1988] – Steven C. Chapra, Raymond P. Canale Numerical Methods for Engineers McGraw-Hill – 1988

Artigos Científicos:

[Yuille, 1992] – A. Yuille, P. Hallinan, and D. Cohen, “Feature Extraction from Faces Using Deformable Templates,” Int’l J. Computer Vision, vol. 8, no. 2, pp. 99-111, 1992. [Pantic, 2000] – Maja Pantic, Stdent Member,IEEE, and leon J.M.RothKrantz, “Automatic Analysis of Facial Expressions: The state of art” vol.22, no 12, December 2000. [Yang, 2002] – Ming Yang, Member, IEEE, David J. Kriegman, Senior Member, IEEE, and

Narendra Ahuja, Fellow, IEEE , “Detecting Faces in Images: A Survey” vol 24, no 1, January 2002.

[Johansson’s, 1978] – J.N. Bassili, ™Facial Motion in the Perception of Faces and of Emotional Expression,º J. Experimental Psychology 4, pp. 373-379, 1978.

[Huang, 1997] – C.L. Huang and Y.M. Huang, ™Facial Expression Recognition

Using Model-Based Feature Extraction and Action Parameters Classification,º J. Visual Comm. and Image Representation, vol. 8, no. 3, pp. 278-290, 1997.

[Pantic, 2000] – M. Pantic and L.J.M. Rothkrantz, ™Expert System for Automatic Analysis of Facial Expression,º Image and Vision Computing J., vol. 18, no. 11, pp. 881-905, 2000.

[Hara, 1997] – H. Kobayashi and F. Hara, ™Facial Interaction between Animated 3D Face Robot and Human Beings,º Proc. Int'l Conf. Systems, Man, Cybernetics,, pp. 3,732-3,737, 1997.

[Yoneyama, 1997] – M. Yoneyama, Y. Iwano, A. Ohtake, and K. Shirai, ™Facial Expressions Recognition Using Discrete Hopfield Neural Networks, º Proc. Int'l Conf. Information Processing, vol. 3, pp. 117-120, 1997. [Kimura, 1997] – S. Kimura and M. Yachida, ™Facial Expression Recognition and Its

Degree Estimation,º Proc. Computer Vision and Pattern Recognition,pp. 295-300, 1997. [Hong, 1998] – H. Hong, H. Neven, and C. von der Malsburg, ™Online Facial

Expression Recognition Based on Personalized Galleries,º Proc. Int'l Conf. Automatic Face and Gesture Recognition, pp. 354-359, 1998.

[Essa, 1997] – I. Essa and A. Pentland, ™Coding, Analysis Interpretation,

Recognition of Facial Expressions,º IEEE Trans. Pattern Analysis and Machine Intelligence, vol. 19, no. 7, pp. 757-763, July 1997.

[Edwards, 1998] – G.J. Edwards, T.F. Cootes, and C.J. Taylor, ™Face Recognition

Using Active Appearance Models,º Proc. European Conf. Computer Vision, vol. 2, pp. 581-695, 1998.

[Padgett, 1996] – C. Padgett and G.W. Cottrell, ™Representing Face Images for

Emotion Classification,º Proc. Conf. Advances in Neural Information Processing Systems, pp. 894-900, 1996.

[Black, 1997] – M.J. Black and Y. Yacoob, ™Recognizing Facial Expressions in

Image Sequences Using Local Parameterized Models of Image Motion,º lnt'l J. Computer Vision, vol. 25, no. 1, pp. 23-48, 1997.

[Otsuka, 1998] – T. Otsuka and J. Ohya, ™Spotting Segments Displaying Facial

Expression from Image Sequences Using HMM,º Proc. Int'l Conf. Automatic Face and Gesture Recognition, pp. 442-447, 1998.

[Zhao, 1996] – J. Zhao and G. Kearney, ™Classifying Facial Emotions by

Backpropagation Neural Networks with Fuzzy Inputs,º Proc. Conf. Neural Information Processing, vol. 1, pp. 454-457, 1996.

[Cohn, 1998] – J.F. Cohn, A.J. Zlochower, J.J. Lien, and T. Kanade, ™Feature-Point

Tracking by Optical Flow Discriminates Subtle Differences in Facial Expression,º Proc. Int'l Conf. Automatic Face and Gesture Recognition, pp. 396-401, 1998.

[Lyons, 1999] – M.J. Lyons, J. Budynek, and S. Akamatsu, ™Automatic Classification

of Single Facial Images,º IEEE Trans. Pattern Analysis and Machine Intelligence, vol. 21, no. 12, pp. 1,357-1,362, 1999.

[Zhang, 1998] – Z. Zhang, M. Lyons, M. Schuster, and S. Akamatsu, ™Comparison

between Geometry-Based and Gabor Wavelets-Based Facial Expression Recognition Using Multi-Layer Perceptron,º Proc. Int'l Conf. Automatic Face and Gesture Recognition, pp. 454-459, 1998.

[Wang, 1998] – M. Wang, Y. Iwai, and M. Yachida, ™Expression Recognition from Time-Sequential Facial Images by Use of Expression Change

Model,º Proc. Int'l Conf. Automatic Face and Gesture Recognition, pp. 324-329, 1998.

[Yang, 1994] – G. Yang and T. S. Huang, “Human Face Detection in Complex Background,” Pattern Recognition, vol. 27, no. 1, pp. 53-63, 1994. [Leung, 1995] – T.K. Leung, M.C. Burl, and P. Perona, “Finding Faces in Cluttered

Scenes Using Random Labeled Graph Matching,” Proc. Fifth IEEE Int’l Conf. Computer Vision, pp. 637-644, 1995.

[Dai, 1996] – Y. Dai and Y. Nakano, “Face-Texture Model Based on SGLD and

Its Application in Face Detection in a Color Scene,” Pattern Recognition, vol. 29, no. 6, pp. 1007-1017, 1996.

[Yang, 1996] – J. Yang and A. Waibel, “A Real-Time Face Tracker,” Proc. Third

Workshop Applications of Computer Vision, pp. 142-147, 1996. [Kjeldsen, 1996] – R. Kjeldsen and J. Kender, “Finding Skin in Color Images,” Proc.

Second Int’l Conf. Automatic Face and Gesture Recognition, pp. 312-317, 1996. [Craw, 1987] – I. Craw, H. Ellis, and J. Lishman, “Automatic Extraction of Face

Features,” Pattern Recognition Letters, vol. 5, pp. 183-187, 1987. [Turk, 1991] – M. Turk and A. Pentland, “Eigenfaces for Recognition,” J. Cognitive

Neuroscience, vol. 3, no. 1, pp. 71-86, 1991. [Sung, 1998] – K.-K. Sung and T. Poggio, “Example-Based Learning for View-

Based Human Face Detection,” IEEE Trans. Pattern Analysis and Machine Intelligence, vol. 20, no. 1, pp. 39-51, Jan. 1998.

[Rowley, 1998] – H. Rowley, S. Baluja, and T. Kanade, “Neural Network-Based Face

Detection,” IEEE Trans. Pattern Analysis and Machine Intelligence, vol. 20, no. 1, pp. 23-38, Jan. 1998.

[Sakai, 1969] – T. Sakai, M. Nagao, and S. Fujibayashi, “Line Extraction and

Pattern Detection in a Photograph,” Pattern Recognition, vol. 1,pp. 233-248, 1969. [Tsukamoto, 1993] – A. Tsukamoto, C.-W. Lee, and S. Tsuji, “Detection and Tracking of Human Face with Synthesized Templates,” Proc. First Asian Conf. Computer Vision, pp. 183-186, 1993. [Ekman, 1970] – P. Ekman and W.V. Friesen, Facial Action Coding System (FACS):

Manual. Palo Alto: Consulting Psychologists Press, 1978. [Horn, 1981] – B. Horn and B. Schunck, ™Determining Optical Flow,º Artificial

Intelligence, vol. 17, pp. 185-203, 1981.

Estudo, Comparação e Aplicação de Metodologias para...

Documents

Transcript of Estudo, Comparação e Aplicação de Metodologias para...

Pilhas usadas

Distribuciones comúnmente usadas

Relatorios da Lucimar

Relatorios Do 2 Semestre

PILAS USADAS

Relatorios de inorgânica experimental

Locomotivas Usadas Brasil

Relatorios Com BIRT

Normas Dos Relatorios Finais

Relatorios Gerenciais

Relatorios Web

Descricao Dos Relatorios Emitidos Pelo Aplicativo Relatorios Sinan Net - Versao 4.8

RELATORIOS DE GESTÃO FISCAL

Relatorios Dos Arranques

Modelos Relatorios Imobilizado (1)

Detecção Sorológicas

4° ANO RELATORIOS

Relatorios tempo directo

Frases Usadas Ojo

Acotta-Relatorios EC 2012