Post on 11-Aug-2020
Por: Fernando Jorge Soares Carvalho
Estudo, Comparação e Aplicação de Metodologias para Imagens
de Faces
Junho 2004
FacuFaculd
ldade de Ciências da Unade de Engenharia da U
iversidade do Porto niversidade do Porto
Por: Fernando Jorge Soares Carvalho
Estudo, Comparação e Aplicação
de Metodologias para Imagens de Faces
Orientador:
João Manuel R. S. Tavares
Professor Auxiliar da Faculdade de Engenharia da Universidade do Porto, departamento de Engenharia Mecânica e Gestão Industrial;
Investigador no LOME – Laboratório de Óptica e Mecânica Experimental do INEGI – Instituto de Mecânica e Gestão Industrial, integrado na unidade
de investigação “Mecânica Experimental e Novos Materiais”.
Estudo, Comparação e Aplicação de Metodologias para Imagens de Faces
Resumo
Este trabalho surge no âmbito da disciplina de Seminário do Mestrado em
Métodos Computacionais em Ciências e Engenharia, com o objectivo de fazer o
enquadramento na Dissertação que se encontra em curso.
O trabalho realizado contém quatro capítulos, no primeiro capítulo são definidos
os objectivos, são sucintamente referidas as tarefas a desenvolver e é apresentada uma
possível estrutura da dissertação por capítulos. No segundo capítulo é apresentado um
estudo geral sobre algumas das técnicas usadas em visão computacional na área das
imagens de faces, para determinadas aplicações. O terceiro capítulo descreve com
pormenor, uma das técnicas a implementar, usando modelos protótipos deformáveis. No
quarto capítulo, são apresentadas as conclusões relativas ao estudo realizado e são
referidas perspectivas de realização futuras.
Fernando Jorge Soares Carvalho
Estudo, Comparação e Aplicação de Metodologias para Imagens de Faces
Conteúdo
Capítulo 1 ..................................................................................................... 1 Introdução.................................................................................................... 1 1.1 Motivação................................................................................................................................ 1 1.2 Objectivo ................................................................................................................................. 2 1.3 Tarefas a desenvolver no trabalho de Dissertação .................................................................. 2 1.4 Possível Estrutura da Dissertação por Capítulos..................................................................... 3 Capítulo 2 ..................................................................................................... 5 2.1 Introdução............................................................................................... 5 2.2 Fundamentos .......................................................................................... 5 2.2.1 Análise da expressão facial de forma automática ............................................................ 5 2.2.1.1 Detecção da face ........................................................................................................ 6 2.2.1.2 Extracção de dados relativos à expressão facial ........................................................ 7 2.2.1.3 Classificação da expressão facial............................................................................... 7 2.2.2 Um sistema ideal para análise de expressões faciais, como aplicação............................. 8 2.3 Descrição sucinta de algumas das metodologias existentes................ 9 2.3.1 Detecção da face .............................................................................................................. 9 Tabela 1-Referências de trabalhos, [Pantic, 2000]........................................................................ 9 Tabela 2 - Referências de trabalhos, [Yang, 2000] ..................................................................... 10 2.3.1.1 Detecção da face em imagens faciais, referente à tabela 1 ...................................... 10 2.3.1.2 Detecção da face em imagens arbitrárias, referente à tabela 1 ................................ 11 2.3.1.3 Detecção da face em imagens estáticas, referente à tabela 2................................... 12 2.3.2 Extracção de dados e representação da face................................................................... 14 Tabela 3 – Referências a trabalhos relativos à extracção de dados faciais.................................. 14 2.3.2.1 Extracção de dados em imagens estáticas – método baseado em modelos (Templates)………………………………………………………………………………….…..14 2.3.2.2 Extracção de dados em imagens estáticas – método baseado em características faciais……………………………………………………………………………………………17 2.3.2.3 Extracção de dados em sequências de imagens - método baseado em modelos protótipos………………………………………………………………………………………..18 2.3.2.4 Extracção de dados em sequências de imagens – método baseado em características faciais……………………………………………………………………………………………20 2.3.3 Classificação de expressões faciais ................................................................................ 20 Tabela 4 – Trabalhos relevantes nos métodos de Classificação.................................................. 21 2.3.3.1 Classificação de expressões faciais em imagens estáticas – Método baseado em Modelos protótipos...................................................................................................................... 21 2.3.3.2 Classificação de expressões faciais em imagens estáticas – Método baseado em redes neuronais………………………………………………………………………………….22 2.3.3.3 Classificação de expressões faciais em imagens estáticas – Método baseado em regras……………………………………………………………………………………………23 Capítulo 3 ...................................................................................................25 Introdução..................................................................................................25 3.1 Pré-processamento................................................................................................................ 25 3.2 Modelo protótipo do olho ..................................................................................................... 26 3.2.1 Função de energia para o modelo protótipo do olho ...................................................... 27 3.2.2 Exemplos........................................................................................................................ 29 3.3 Modelo protótipo da boca..................................................................................................... 29 3.3.1 Modelo protótipo que define a boca fechada ................................................................. 30
Fernando Jorge Soares Carvalho i
3.3.2 Função de energia para o modelo protótipo da boca fechada ........................................ 31
Estudo, Comparação e Aplicação de Metodologias para Imagens de Faces
3.3.3 Modelo protótipo que define a boca aberta .................................................................... 32 3.3.4 Função de energia para o modelo protótipo da boca aberta ........................................... 33 3.4 Exemplos .............................................................................................................................. 34 Capítulo 4 ...................................................................................................36 4.1 Conclusões............................................................................................................................ 36 4.2 Perspectivas de Realização Futura........................................................................................ 36 Bibliografia.................................................................................................37
Fernando Jorge Soares Carvalho ii
Estudo, Comparação e Aplicação de Metodologias para Imagens de Faces
Capítulo 1
Introdução
A idade da informação moderna confronta a humanidade com vários desafios para os
quais não existiram respostas capazes noutros tempos. Foi necessário esperar muito tempo para
concretizar dois grandes desafios: organização da sociedade e sua segurança.
Mas pense-se em segurança, hoje um pouco por todo lado possuímos um vasto leque de
métodos de autenticação que se desenvolveram ao sabor do requinte tecnológico que a todos
diariamente surpreende. Para corroborar tal surpresa, pense-se, no acesso a entradas dos
edifícios, no controle de acesso a computadores, no acesso a caixas multibanco, na investigação
criminal, e muitas mais. Existe a latente necessidade de identificação e autenticação que deve
ser posta ao serviço de uma sociedade moderna e exigente.
A maioria dos métodos existentes para identificação e autenticação tem a desvantagem
de um dado utilizador estar dependente de Passwords, códigos PIN , etc, que o obriga a retê-los
em memória. Existem métodos automatizados e de um quase transparente uso por parte do
utilizador como são, por exemplo, o reconhecimento de voz; as impressões digitais; a retina do
olho; etc.
E se o meio de autenticação fosse a nossa própria face! A detecção e o reconhecimento
de faces como meio de autenticação podem ser utilizadas prosperamente nas tarefas acima
mencionadas e dar apoio a outras técnicas, ou até mesmo substitui-las no caso de existirem
baixas exigências de segurança.
Para além da detecção e reconhecimento de uma face num dado cenário é também possível
analisar a chamada expressão facial de dado indivíduo e determinar o seu estado de espírito.
Veja-se qual a resposta que uma área tão vasta quanto é a visão por computador nos pode dar.
1.1 Motivação
O desenvolvimento de um projecto realizado no âmbito da licenciatura, no módulo de
navegação de plataformas móveis, desenvolvidas para futebol robótico, fez-me despertar
interesse pela área da visão que é um dos instrumentos fundamentais neste tipo de projecto.
A procura de respostas para perguntas do tipo:
• Como será possível identificar um objecto numa imagem? E uma face humana?
• Como medir o estado emocional de uma face de forma automática?
• Como poderá uma máquina identificar/reconhecer um indivíduo?
Fernando Jorge Soares Carvalho 1
Estudo, Comparação e Aplicação de Metodologias para Imagens de Faces
• Quais as técnicas usadas?
• Como seguir uma face humana numa sequência de imagens?
1.2 Objectivo
Surgiu a ideia desta dissertação intitulada de “Estudo, Comparação e Aplicação de
Metodologias para Imagens de Faces”, com orientação do Prof. João Tavares da FEUP.
O primordial objectivo da dissertação a desenvolver baseia-se na comparação e
verificação de várias metodologias existentes na área da visão computacional no domínio das
imagens de faces. As metodologias a estudar podem ser utilizadas para:
1) Segmentação de faces em imagens;
2) Reconhecimento de faces;
3) Classificação de faces;
4) Codificação/Compressão de faces;
5) Análise do movimento de faces;
6) Simulação do estado emocional; etc.
1.3 Tarefas a desenvolver no trabalho de Dissertação
A abordagem a seguir ao longo da dissertação a desenvolver, essencialmente reduz-se a
cinco etapas, as quais são seguidamente descritas:
1. Estudo, comparação e verificação de aplicações, de várias metodologias existentes
no domínio da Visão Computacional para imagens de faces.
2. Pesquisa das metodologias disponíveis, de domínio público, preferencialmente para
a ferramenta Matlab. Ensaio experimental das implementações consideradas e
obtenção de algumas conclusões.
3. Selecção de uma metodologia que permita a detecção de faces em imagens e
posteriormente a sua caracterização. Implementação da metodologia seleccionada
em Matlab.
4. Análise dos resultados experimentais obtidos e elaboração de perspectivas de
desenvolvimento futuros.
5. Escrita e elaboração da dissertação.
Fernando Jorge Soares Carvalho 2
Estudo, Comparação e Aplicação de Metodologias para Imagens de Faces
1.4 Possível Estrutura da Dissertação por Capítulos
Capitulo I Introdução à Dissertação
Este capítulo faz uma breve introdução ao tema da Dissertação. Assim, será descrito
sucintamente no domínio da Dissertação, os objectivos propostos, bem como as tarefas a
desenvolver.
Capitulo II Estudo, Comparação e Verificação de Aplicações, de Várias Metodologias Existentes
Este capítulo consiste no estudo das várias metodologias existentes. Posteriormente
serão verificadas algumas das implementações existentes neste domínio de acesso livre.
(Neste relatório é apresentado e descrito o estudo realizado até ao momento.)
Capitulo III Apresentação e Descrição das Implementações Estudadas
Neste capítulo serão descritas as implementações de domínio publico estudadas e
apresentados exemplos de utilização das mesmas. Serão também apresentadas algumas
conclusões.
Capitulo IV Detecção e Caracterização de Faces usando Protótipos Deformáveis
Neste capítulo será descrito em detalhe a metodologia considerada para detectar faces
presentes em imagens e posteriormente caracterização das mesmas. A metodologia considerada
é baseada em modelos protótipos deformáveis (templates) e será em primeiro lugar aplicada a
imagens estáticas e posteriormente em sequências de imagens.
Neste capitulo serão também apresentadas e descritas todas as implementações realizadas.
Capitulo V Resultados dos Ensaios Experimentais
Neste capítulo serão apresentados vários ensaios experimentais obtidos com as
implementações realizadas. Os mesmos resultados serão analisados e discutidos.
Capitulo VI Conclusões e Perspectivas de Desenvolvimentos Futuros
Fernando Jorge Soares Carvalho 3
Estudo, Comparação e Aplicação de Metodologias para Imagens de Faces
Neste capítulo serão apresentadas as conclusões finais e definidos possíveis tópicos de
continuidade desta dissertação.
Bibliografia
Toda a bibliografia utilizada.
Anexo I Websites considerados
WebSites utilizados e outros de interesse a pesquisas futuras.
Anexo II Implementações Realizadas
Neste anexo será apresentado todo o código realizado ao longo desta Dissertação.
Fernando Jorge Soares Carvalho 4
Estudo, Comparação e Aplicação de Metodologias para Imagens de Faces
Capítulo 2
2.1 Introdução
A elaboração deste capítulo permite descrever o estudo realizado sobre as várias
metodologias existentes com base em alguns artigos de vários investigadores desta área.
Sabe-se que, os humanos detectam e interpretam faces e expressões faciais a partir de
uma imagem ou de um pequeno esboço com relativa facilidade.
Existem vários problemas relacionados com: a descoberta de uma face numa imagem,
extracção de informação relativa à expressão facial, classificação da expressão (por exemplo,
em categorias de emoção). Um sistema que execute estas operações automaticamente, com
precisão e em tempo real representaria um enorme passo no que diz respeito à interacção entre o
homem e a máquina.
Neste capítulo pretende-se referir quais os trabalhos na área das imagens de faces, que
conduzem um sistema desde a detecção de uma face até à interpretação da expressão facial
revelada pela face. Este capítulo teve como principais contributos bibliográficos os textos:
“Estado da Arte” de [Pantic, 2000] onde é possível encontrar algumas referências a trabalhos
relativos a aplicações como: detecção de faces, extracção de dados faciais e análise da
respectiva expressão facial; o survey de [Yang, 2002] com referências a técnicas existentes na
detecção e reconhecimento de faces.
As metodologias existentes são variadas e a escolha pode ser difícil uma vez que
qualquer uma delas permite alcançar alguns dos objectivos propostos. Surge também o caso de
uma dada técnica ser realizável utilizando outras como auxilio a tarefas prévias.
2.2 Fundamentos
O “Estado da Arte” de [Pantic, 2000], relata a possibilidade da implementação de um
analisador facial automático, onde tal objectivo exige que se superem três fases ditas como
essenciais: Detecção da fase numa imagem, extracção de dados relativos à expressão facial e
classificação da expressão facial. No trabalho de [Yang, 2002], são referidas algumas das
técnicas usadas na detecção e reconhecimento de faces.
2.2.1 Análise da expressão facial de forma automática
Em primeiro lugar, antes da análise da expressão facial, é necessário que a face seja
detectada no cenário onde poderá localizar-se. De seguida deve ser reconhecida como uma face,
Fernando Jorge Soares Carvalho 5
Estudo, Comparação e Aplicação de Metodologias para Imagens de Faces
desde já existe a necessidade de verificar se estamos na presença ou não de uma face humana,
aqui existe a distinção entre face e não face, entende-se por não face, um segmento de uma
imagem que pode assumir características parecidas com uma face, mas não o é, como é exemplo
o contorno definido por um balão.
Seguidamente são desencadeados mecanismos que permitem extrair informação sobre a
expressão facial da imagem observada. Neste ponto são distinguidas dois tipos de imagens, as
estáticas e as sequências de imagens. No caso das imagens estáticas o processo refere-se à
localização da face e às suas características. Entenda-se por características da face as
sobrancelhas, olhos, nariz, queixo e boca. No caso de sequências de imagens o processo faz
referência ao seguimento da face e às características que esta ocupa no cenário. Veja-se a
diferença entre dois termos importantes: características faciais e características do modelo da
face, definindo este último como sendo as características usadas para representar o modelo da
face, onde podem figurar todas as características comuns da face, a face como um todo, ou
então apenas algumas delas como os olhos e a boca. A face em termos de modelo pode obedecer
a três formas de representação: holística, onde a face é vista como um todo; Analítica, onde a
face é representada em função de um conjunto de características escolhidas como olhos e boca,
por exemplo, [Yullie, 1992]; híbrida, onde a este modelo cabe a combinação das duas
representações anteriores.
O passo seguinte consiste em definir um conjunto de categorias usadas para
classificação e interpretação da expressão facial. Dentro deste conjunto de categorização está
presente a configuração das diferentes emoções que a face humana demonstra por interacção
com o meio.
2.2.1.1 Detecção da face
A detecção da face numa imagem ou numa sequência de imagens é um processo que
exige controlo, a face aparece na imagem de uma forma frontal, a sua existência no cenário é
um pressuposto assumido, existindo uma ideia global acerca do seu posicionamento. A
determinação do local exacto onde esta se insere pode ser um processo complicado uma vez
que, a sua orientação, tamanho e oclusão total ou parcial são variáveis muito exigentes para o
sistema. O sistema de visão humano procede a uma inspecção casual de um cenário e numa
gama alargada de condições, e considera uma face como um todo e não como um conjunto
limitado de características faciais como olhos, boca, etc. A essência da detecção humana reside
na análise das características faciais bem como na disposição geométrica que elas tem entre si,
pode-se também pensar que o sistema de visão humano consegue extrapolar características da
face partindo de outras características porque existe simetria. Para uma máquina por mais
Fernando Jorge Soares Carvalho 6
Estudo, Comparação e Aplicação de Metodologias para Imagens de Faces
poderoso que o algoritmo seja não se pode pensar nisto com um processo transparente, temos
aqui o peso das variáveis.
2.2.1.2 Extracção de dados relativos à expressão facial
Uma vez detectada a face é necessário extrair os dados relativos a essa face. O tipo de
representação do modelo da face constitui a aproximação facial. Se o modelo da face segue a
aproximação holística, esta é vista como um todo. No caso da aproximação analítica a face é
modelada a partir de um conjunto de características faciais como os olhos e a boca. Se a face
segue a aproximação híbrida, então aparece como uma combinação das duas representações
anteriores.
A experiência de [Johansson’s, 1978], relativa à exibição do ponto de luz, sugere que as
características visuais da face relativas à expressão facial pode ser efectuada descrevendo o
movimento dos pontos que dizem respeito às características faciais, fazendo depois uma análise
a esses movimentos.
A extracção das características faciais está muito condicionada a factores como: a
existência de óculos na face, a orientação da face relativamente ao plano da câmara, o tamanho
da face relativamente ao cenário onde está inserida (escala), a presença de cabelo ou outros
factores que ocultem parcial ou totalmente a face, como obstáculos, iluminação e a presença de
bigode ou barba.
2.2.1.3 Classificação da expressão facial
O objectivo base deste ponto reside na identificação da expressão facial de que é
portadora a face. Para proceder à classificação da face é necessário recorrer a um mecanismo de
categorização, mas antes de mais é necessário referir que uma face pode ser classificada de
várias formas: em termos de acções faciais que causam uma determinada expressão; em termos
de expressões não protótipo, como o elevar de uma sobrancelha; em termos de expressões
protótipo, como são as expressões faciais clássicas.
Em [Pantic, 2000], refere-se o estudo da actividade facial chamado de FACS (Facial
action coding system), desenvolvido com o objectivo de facilitar a medida da actividade facial,
foi projectado por observadores de forma a detectarem mudanças subtis causadas pela
contracção muscular facial.
A categorização das expressões faciais demonstradas pela face humana medem o estado
emocional representado pela face, encontram-se divididas em seis categorias básicas: felicidade,
tristeza, surpresa, medo, raiva e desgosto.
Fernando Jorge Soares Carvalho 7
Estudo, Comparação e Aplicação de Metodologias para Imagens de Faces
O problema da caracterização da expressão facial é um processo de difícil controlo por
diversas razões, desde já o sistema deve analisar qualquer indivíduo do sexo masculino ou
feminino, de qualquer faixa etária e de qualquer etnia, ou seja, deve ser independente da
variabilidade fisionómica de cada indivíduo. Uma vez que as expressões faciais estão
categorizadas, isto exige que a face exiba uma dada expressão de uma forma extrema para que a
classificação se faça de uma forma eficiente, e se encaixe na respectiva categoria, pense-se que
poderá existir uma mistura de expressões faciais e isto pode tornar a análise muito complexa e
ambígua. Independentemente das categorias de classificação usadas, os métodos mais usados
encontram-se divididos em grupos: baseados em regras, em redes neuronais e em modelos
protótipos. Se o método de classificação é baseado em modelos protótipos, a expressão facial
encontrada é comparada com os modelos definidos para cada categoria de expressão, a melhor
semelhança ou emparelhamento decide qual a categoria a que a face pertence. Se o método de
classificação for baseado em redes neuronais, a expressão facial é classificada em sintonia com
um processo de categorização que a rede neuronal aprende durante a sua fase de treino. Se o
método de classificação é baseado em regras básicas, então classificam e examinam expressões
faciais em categorias de emoções básicas com acções faciais previamente codificadas e
definidas. As expressões faciais protótipo que caracterizam as várias categorias de emoção, são
descritas em termos de acções faciais, durante a fase de processamento são comparadas com a
aproximação obtida da extracção de dados faciais de forma a classificar esta última numa das
categorias existentes.
2.2.2 Um sistema ideal para análise de expressões faciais, como aplicação
Coloque-se a hipótese de implementar um analisador automático de expressões faciais,
onde o ponto de partida para realizar tal objectivo, reside na definição da sua funcionalidade,
tendo em linha de conta tudo aquilo que conhecemos acerca do modo como funciona o sistema
de visão humano. Contudo, não é possível implementar todas as funcionalidades do sistema
humano numa máquina. O sistema terá que conter os três níveis descritos anteriormente:
detecção da face, extracção dos dados e análise da expressão facial. Deve mostrar
independência de análise ao tipo de sexo, idade, etnia. Deve ser robusto a condições adversas
como: luminosidade, presença de óculos, cabelo, bigode e barba, escala e posição facial.
Atendendo à possibilidade de existência de movimento o sistema deve lidar com o movimento
da cabeça, isto pode ser conseguido empregando um conjunto de câmaras fixas para aquisição
de diferentes pontos de visão faciais, aproximando a visão corrente através da interpolação entre
visões adquiridas. Este último aspecto pode ser realizado se na cabeça do indivíduo em
observação for fixada uma câmara, ou então controlar a partir do exterior as câmaras em função
das rotações da face.
Fernando Jorge Soares Carvalho 8
Estudo, Comparação e Aplicação de Metodologias para Imagens de Faces
Um sistema ideal deveria analisar todas as expressões faciais possíveis e fazer a
distinção entre elas.
2.3 Descrição sucinta de algumas das metodologias existentes Vejam-se alguns dos trabalhos que relatam de uma forma sucinta algumas das
metodologias usadas para conseguir atingir os objectivos requeridos pelas três fases referidas.
2.3.1 Detecção da face
Trabalhos relevantes na detecção da face estão indicados na Tabela 1, referem-se a dois
tipos de imagens, as faciais e as arbitrárias, fazendo a separação entre duas das três
aproximações possíveis, Holística e Analítica, [Pantic, 2000]. Em [Yang, 2002], pode-se
verificar outras metodologias para detecção de faces numa imagem, faz-se uma classificação
diferente dos métodos relativamente a [Pantic, 2000]. Assumem-se claramente duas fases
importantes na detecção, a localização e o reconhecimento da face. A localização da face refere-
se ao seu posicionamento num dado cenário e o reconhecimento refere-se à identificação da
face, como face ou não face. Dividem-se os métodos em quatro grandes grupos: baseados no
conhecimento, baseados na aproximação a características invariantes, baseados em modelos
protótipos e baseados na aparência. Os métodos baseados no conhecimento têm por base um
conjunto de regras que capturam a relação entre características faciais. Os métodos baseados em
características invariantes têm por base a procura das características faciais que existem
independentemente da variação da posição da face, do ponto de visão e das condições de
luminosidade. Os métodos baseados no emparelhamento de modelos protótipos, tem por base o
uso de padrões que caracterizam a face e a detecção é conseguida através da correlação entre
estes modelos e a face presente num dado cenário. Os métodos baseados na aparência, usam
modelos como acontece no método anterior, esses modelos recebem um conjunto de imagens de
treino e procuram capturar a variabilidade representativa da aparência da face. Alguns dos
trabalhos representativos estão na Tabela 2.
Tabela 1-Referências de trabalhos, [Pantic, 2000]
Imagens Faciais Bibliografia Tipos de Visão Método Aproximação Holística [Huang, 1997]
[Pantic, 2000] Frontal Frontal e Perfil
Detector de Intensidade de Canny Modelo PDM
Aproximação Analítica
[Hara, 1997] [Yoneyama,1997] [Kimura, 1997]
Frontal
Análise da imagem de histogramas com limiar Projecção Integral e Ajuste de redes de potencial
Fernando Jorge Soares Carvalho 9
Estudo, Comparação e Aplicação de Metodologias para Imagens de Faces
Imagens Arbitrárias Aproximação
Holística
[Hong, 1998] [Essa, 1997]
Frontal
Frontal e perfil
Filtragem Espaço-Temporal Algoritmo Estéreo Detector de cor Detector de regiões convexas Filtros de previsão linear Filtros Espaço-Temporal Faces próprias Características próprias
Tabela 2 - Referências de trabalhos, [Yang, 2000] Aproximação Trabalho Representativo
Baseados no conhecimento Método baseado em regras de multi-resolução [Yang, 1994] Características Invariantes: Características Faciais Grupo de Orlas [Leung, 1995]
Textura Matriz de dependência do espaço de nível Cinzento (SGLD) [Dai, 1996] Cor da Pele Mistura Gaussiana [Yang, 1996]
Características Múltiplas Integração da cor da pele, tamanho e forma [Kjeldsen, 1996] Emparelhamento de Modelos:
Modelos Pré-definidos Modelos de forma [Craw, 1987] Modelos Deformáveis Modelos de forma Activos [Yuille, 1992]
Baseados na Aparência: Faces próprias Decomposição de vectores próprios e agrupamento [Turk, 1991] Distribuição Distribuição Gausseana e perceptrão muti-camada [Sung, 1998] Redes Neuronais Redes Neuronais e esquemas arbitrários [Rowley, 1998]
2.3.1.1 Detecção da face em imagens faciais, referente à tabela 1
Em [Huang, 1997], é aplicado o modelo distribuição pontual (PDM), com o objectivo
de obter o correcto posicionamento do modelo de pontos distribuídos inicial (PDM inicial),
utiliza-se um detector de orlas (extremidades) para estimar a localização da face na imagem. A
análise do valor da intensidade dos pixeis entre os lábios e duas extremidades verticais
simétricas, representa os limites verticais exteriores da face, gerando uma estimativa da sua
localização. Neste método a face não pode ter cabelos faciais nem óculos, não podem existir
variações de luminosidade nem movimentos faciais.
O PDM, consiste na geração de um modelo protótipo estatístico flexível que deriva de
um conjunto de imagens de treino. Cada imagem de treino é representada por um conjunto de
pontos que representam marcas, colocadas manualmente em locais estratégicos em regiões a
definir. Apresenta duas fases de treino, a primeira fase consiste em segmentar manualmente a
imagem posicionando num conjunto de imagens de treino todos os pontos que definem
contornos 2D ou superfícies 3D. Na segunda fase, cria-se um PDM padrão compacto usando um
Fernando Jorge Soares Carvalho 10
Estudo, Comparação e Aplicação de Metodologias para Imagens de Faces
algoritmo de optimização que permite analisar a localização dos pontos e calcular a sua média
posicional.
Em [Pantic, 2000], para determinar os limites horizontais e verticais da cabeça são
usados dois histogramas, um histograma vertical e um horizontal da imagem com ponto de
visão frontal. Neste método a localização do contorno da face é conseguido a partir de um
algoritmo dedicado chamado “HSV color model”. Como são usadas duas perspectivas de visão,
no ponto de visão em perfil, um algoritmo dedicado representa a aproximação do contorno da
face.
Em [Hara, 1997], é usada uma câmara CCD em modo monocromático de forma a obter
dados acerca da distribuição do brilho da face. Uma distribuição de brilho base é conseguida à
custa de uma média de distribuição de brilho, retirada de dez faces. O sistema extrai a posição
das cores de referência esperadas e utiliza a correlação cruzada entre os dados que constam na
base de dados e os dados adquiridos. Uma vez identificadas as cores de referência esperadas
consegue-se a localização da face usando o posicionamento geométrico das características
faciais.
Em [Yoneyama, 1997], são extraídas de uma forma automática: as extremidades dos
olhos, a altura dos olhos e da boca. Após obtenção destas características, o comprimento
correspondente à área da face é devidamente normalizado sobrepondo à imagem uma grelha
quadrática 8x10.
Em [Kimura, 1997], é usada uma rede potencial, Figura 9, para representação da face, a
imagem é devidamente normalizada tomando o centro dos olhos e o centro da boca. Este
algoritmo utiliza o método de projecção integral que pretende fazer a síntese da informação
relativa à extremidade e cor da face. A rede é ajustada à imagem normalizada da face e seu
movimento.
2.3.1.2 Detecção da face em imagens arbitrárias, referente à tabela 1
Em [Essa, 1997], pode-se constatar que é usado o método dos espaços próprios
(eigenspace) para localizar a face. O método aplica faces próprias (eigenfaces)
aproximadas recorrendo a Análise dos Componentes Principais (PCA), numa amostra
que utiliza 128 imagens faciais. As faces próprias (eigenfaces) definem um sub-espaço
de imagens amostradas a que dão o nome de espaço da face. Para detecção da presença
da face numa única imagem, a distância da imagem observada do espaço de faces é
calculada a partir dos coeficientes de projecção. No caso de sequência de imagens a
presença da face é conseguida usando uma filtragem espaço-temporal, à imagem filtrada
é atribuído um limiar de forma a conseguir analisar o movimento de manchas (Blob),
Fernando Jorge Soares Carvalho 11
Estudo, Comparação e Aplicação de Metodologias para Imagens de Faces
cada mancha (Blob) identificada corresponde uma potencial face humana sendo depois
tratada como uma imagem única.
2.3.1.3 Detecção da face em imagens estáticas, referente à tabela 2
2.3.1.3.1 Métodos baseados no conhecimento
Em [Yang, 1994], pode-se encontrar um método baseado em regras de multi-resolução.
É usado um sistema hierárquico constituído por três níveis de regras. No nível mais elevado é
encontrada a potencial face, usando uma janela de varrimento sobre a imagem, é aplicado um
conjunto de regras para cada localização facial. No nível mais baixo, as regras analisam de
forma detalhada as características faciais. Partindo da imagem original é reduzida a resolução e
geradas três imagens, como mostra a Figura 1. Uma das regras usadas no nível mais elevado,
nível 1, para localizar a face é o modelo protótipo de tons cinzentos, apresentado na Figura 2.
Este modelo é confrontado por correlação com a imagem de menor resolução, para verificar a
possibilidade da existência da face. No nível 2, é utilizado um detector de orlas de intensidades
para representar um histograma local das imagens candidatas a faces. No nível mais baixo, nível
3, são aplicadas mais um conjunto de regras que identificam as características faciais, tais como,
olhos e boca.
Figura 1 – Imagens de diferentes resoluções
Figura 2 – Modelo protótipo de tons cinzento, [Yang, 1994]
2.3.1.3.2 Métodos baseados emparelhamento de modelos protótipo
Em [Yang, 1994], o princípio básico para encontrar uma face modelo que sirva de
comparação com muitas outras, pode ser efectuado manualmente ou parametrizado através de
uma função. A informação acerca da existência de uma face é obtida baseada em valores de
correlação entre modelos protótipos definidos para determinadas características faciais e o
contorno obtido de uma potencial característica facial. Este método é simples de implementar,
no entanto pode necessitar de métodos complementares atendendo a condições de escala e
Fernando Jorge Soares Carvalho 12
Estudo, Comparação e Aplicação de Metodologias para Imagens de Faces
posição da face que podem condicionar o uso deste método, como são: Multi-resolução, Multi-
escala, Sub-modelos, etc. São definidos dois grupos importantes de métodos, os modelos pré-
definidos e modelos deformáveis.
Como modelos pré-definidos, em [Sakai, 1969], é utilizado um conjunto de sub-modelos
protótipos (subtemplates) para os olhos, nariz, boca e o contorno da face, para modelar a face.
Cada sub-modelo protótipo é definido em termos de segmentos de recta extraídos de uma
imagem usando a variação do gradiente. Os segmentos são emparelhados nos sub-modelos.
Numa primeira fase, a potencial localização da face é conseguida fazendo a correlação entre
segmentos da imagem (sub-imagens) e o contorno que define o modelo da face. Na segunda
fase, a determinação efectiva da face é conseguida fazendo o emparelhamento dos sub-modelos
gerados, com as respectivas características faciais.
Em, [Craw, 1987], é apresentado um método de localização baseado num modelo de
forma. É aplicado um filtro de Sobel para extrair orlas (extremidades), que agrupadas
conseguem definir o modelo da face baseado num conjunto de restrições. Uma vez localizada a
face é usado um sistema de diferentes escalas e é aplicado o mesmo processo de filtragem,
procura-se definir os olhos, sobrancelhas e lábios.
Já em [Tsukamoto, 1993], é apresentado um modelo qualitativo para modelar a face
(QMF). Este modelo usa amostras de imagens divididas em blocos e estima qualitativamente as
características atribuídas a cada bloco. Para parametrizar o modelo, são definidas propriedades
relativas à intensidade luminosa e às orlas (extremidades), como características do modelo. O
modelo de blocos obtido é usado para calcular propriedades faciais, em todas as posições da
imagem. A face é dada como detectada se a medida das propriedades faciais atingir um
determinado limiar.
No que diz respeito a modelos deformáveis, em [Yuille, 1992], é apresentado um
modelo elástico para os olhos e para a boca, o modelo elástico pode ser entendido como, um
modelo parametrizado com propriedades deformáveis. Os modelos utilizados são
parametrizados e os parâmetros considerados, são os objectos de uma função representativa da
energia dispendida para ajustar o modelo a uma dada característica facial. O melhor ajuste é
aquele que minimiza a energia dispendida com o posicionamento dos parâmetros, a face é dada
como detectada se a energia não ultrapassar um dado limiar. Este modelo permite extrair as
características faciais, uma vez que o ajuste final, permite aceder aos parâmetros finais,
devidamente ajustados.
Fernando Jorge Soares Carvalho 13
Estudo, Comparação e Aplicação de Metodologias para Imagens de Faces
2.3.2 Extracção de dados e representação da face
Relativamente a este ponto, a extracção de dados faciais em imagens estáticas e em
sequências de imagens, são apresentados trabalhos utilizando métodos baseados em modelos
protótipos e em características faciais. A Tabela 3 apresenta trabalhos relevantes.
Tabela 3 – Referências a trabalhos relativos à extracção de dados faciais
Aproximação Método Imagens Referência Modelo
Holistica Templates Estáticas [ Edwards, 1998] AAM – Modelo de Aparência Activa
Holistica Templates Estáticas [ Hong, 1998] Grafos
Holistica Templates Estáticas [ Huang, 1997] Modelo de distribuição pontual
Holistica [ Padgett, 1996] Blocos aleatórios de vectores próprios
Holistica Templates Sequências [ Black, 1997] Fluxo óptico (em regiões faciais)
Holistica Templates Sequências [Otsuka, 1998] Fluxo óptico (em regiões faciais)
Analítica Características Estáticas [Hara, 1997] Modelo FCP’S e 13 linhas verticais
Analítica Características Estáticas [Pantic, 2000] Visão dual, Modelo baseado em pontos
Analítica [Zhao, 1996] Visão frontal, Modelo baseado pontos
Analítica Características Sequências [Cohn, 1998] Fluxo óptico (pontos faciais)
Hibrida Estáticas [Lyons, 1999] Grelha Fiducial e Wavelets de Gabor
Hibrida Templates Estáticas [Yoneyama ,1997] Rede quadrática de dimensão 8x10
Hibrida [Zhang, 1998] Pontos Fiducias e Wavelets de Gabor
Hibrida Templates Sequências [Essa, 1997] Fluxo óptico
Hibrida Templates Sequências [Kimura, 1997] Rede Potencial
Hibrida Templates Sequências [Wang, 1998] Grafo
2.3.2.1 Extracção de dados em imagens estáticas – método baseado em modelos (Templates)
Em [Edwards, 1998], pode-se verificar o uso da aproximação holística para representar
a face, faz-se referência ao modelo AAM (Active Apperance Model). Para implementar este
modelo usam-se imagens faciais que são manualmente etiquetadas com 122 pontos localizados
em torno das características faciais. Com a intenção de gerar um modelo estatístico de variação
de forma, um modelo deformável, é feito o alinhamento de imagens de treino em coordenadas
comuns aplicando-se seguidamente o PCA, análise dos componentes principais, para obter o
formato facial. Para construir um modelo baseado em níveis de tons cinzento, deformam-se as
imagens de treino. É usado seguidamente um algoritmo de triangulação de forma a controlar os
pontos localizados. Com a aplicação do PCA à informação referente aos níveis de tons cinzento,
extraídos das imagens deformadas, obtêm-se um vector com níveis de cinzento normalizado.
Para ajustar o modelo AAM gerado para uma dada imagem em análise, realizam-se duas fases.
Fernando Jorge Soares Carvalho 14
Estudo, Comparação e Aplicação de Metodologias para Imagens de Faces
Na primeira fase, de treino, para cada uma das 88 imagens treinadas e etiquetadas com 122
pontos, são aplicados modelos deslocados conhecidos e são registados as diferenças.
Seguidamente é feita uma análise de múltipla regressão para modelar a relação existente entre o
modelo deslocado e a imagem. Na fase de reconhecimento, o modelo de regressão treinado é
usado para determinar o movimento da face modelo.
Em [Hong, 1998], pode-se encontrar um método que usa um gráfico de etiquetas
(grafo), para representar o modelo da face. O grafo é constituído por nodos e cada nodo
representa um vector jet. Cada componente de um vector jet é determinada através das Wavelets
de Gabor, a partir da imagem facial. Usam Wavelets de 5 frequências e 8 orientações diferentes.
Definem dois modelos de grafo, o modelo GFK reduzido e o modelo GFK completo (GFK -
General Face Knowledge). O modelo GFK completo contém 50 nodos, e cada nodo 40
componentes jet correspondentes a marcas extraídas da face de 25 indivíduos. O modelo GFK
reduzido contém 16 nodos e cada nodo 12 componentes jet correspondentes a marcas extraídas
da face de 8 indivíduos. O modelo GFK reduzido é usado para encontrar a localização exacta da
face na imagem e o modelo GFK completo é usado para localizar as características da face.
Obtido o modelo, utiliza-se o sistema PersonSpotter e o método de emparelhamento elástico de
[Wiskott, 1995], para ajustar à face em análise. O modelo GFK reduzido é deslocado e colocado
à escala da imagem em análise, até ser encontrado o melhor ajuste. Encontrado o ajuste, a
posição exacta da face é derivada do valor do tamanho do gráfico canónico. Seguidamente o
modelo GFK completo é ajustado à região da face, sendo aplicado um método de pesagem do
nodo. O peso dos nodos é doseado de acordo com importância da sua localização, por exemplo,
os nodos situados na região facial referente ao cabelo, tem menos peso do que aqueles que se
encontrar localizados nas características faciais importantes, como os olhos e a boca. A Figura
3, exemplifica os modelos GFK.
Figura 3 – Modelos GFK reduzido e GFK completo
Em [Huang, 1997], é utilizado o modelo de distribuição pontual, este modelo estatístico
é gerado a partir de 90 pontos posicionados em características faciais que foram manualmente
localizados em 90 imagens de 15 indivíduos cuja face apresentou seis categorias básicas de
Fernando Jorge Soares Carvalho 15
Estudo, Comparação e Aplicação de Metodologias para Imagens de Faces
emoção. Em termos genéricos o modelo facial é uma combinação entre o PDM e o modelo
protótipo definido para a boca. Para representar o modelo da boca são usadas 3 curvas
parabólicas que permitem definir o seu contorno. Para posicionar o modelo sobre a face,
emparelhar, é deformado e deslocado todo o PDM em simultâneo. Aplica-se um método que
permite estimar os parâmetros da forma, baseados na análise do gradiente, que permite
minimizar globalmente os níveis de cinzento do modelo. Para procurar a boca começa-se por
definir uma região de análise em função do ajuste do PDM efectuado. Seguidamente, definem-
se linhas verticais e procura-se o ponto mais escuro de cada linha com a intenção de definir e
localizar a boca. É usado um detector de limiar de níveis cinzentos, de forma a excluir alguns
dos pontos fora da região a considerar, segmentação, e em seguida usa-se uma curva parabólica
com intenção de aproximar a linha da boca (intercessão entre os lábios). As orlas com elevado
gradiente, são usadas para estimar outra curva parabólica correspondente ao lábio superior, o
mesmo processo é usado para conseguir o lábio inferior. A Figura 4 mostra o modelo gerado
usando PDM, A figura 5 mostra o ajuste do modelo PDM à face.
Figura 4 – Modelo PDM Figura 5 – Ajuste do PDM, [Huang, 1997]
Em [Padgett, 1996], é usada a representação holística da face e a extracção dos dados
faciais, não é feita de forma automática. É usada uma base de dados com faces representativas
de várias expressões faciais, construída por [Ekman, 1978]. Esta base de faces contém 97
imagens categorizadas com seis expressões emocionais básicas, e escaladas de forma a tornar
salientes e notáveis as características da face, que ficam localizadas na mesma região da
imagem em análise. Para cada imagem, a área em torno de cada olho está dividida verticalmente
em dois blocos sobrepostos de 32x32 pixeís e a área em torno da boca está dividida
horizontalmente em três blocos sobrepostos de 32x32 pixeís. Conseguem-se gerar vectores
próprios, aplicando PCA de blocos aleatórios de 32x32 pixeís retirados da imagem em análise.
Fernando Jorge Soares Carvalho 16
Estudo, Comparação e Aplicação de Metodologias para Imagens de Faces
Em [Yoneyama, 1997], é usada a aproximação híbrida para representar a face. Ajusta-se
uma grelha quadrática de 8x10 à imagem facial normalizada. Utiliza-se um algoritmo de fluxo
óptico de [Horn, 1981] e calcula-se o fluxo óptico entre a face de referência e a face examinada
de uma dada imagem. A magnitude e a direcção dos fluxos ópticos calculados são simplificados
para valores de magnitude na direcção vertical.
Em [Zang, 1998], para construir o modelo facial, usam-se 34 pontos faciais para extrair
um conjunto de coeficientes das Wavelets de Gabor. As onduletas são emitidas com três
frequências e orientações distintas, usam-se imagens normalizadas de 256x256 pixeís.
2.3.2.2 Extracção de dados em imagens estáticas – método baseado em características faciais Os métodos seguintes permitem construir o modelo da face à custa de algumas
características faciais e não da face como um todo, por essa razão, os modelos da face gerados
obedecem à aproximação analítica.
Pode-se constatar em [Hara, 1997], a implementação de um modelo geométrico com 30
pontos colocados nas envolventes das características faciais, esses pontos são designados por
FCP’s (Facial Characteristic points). É utilizada uma câmara CCD em modo monocromático,
para obter um conjunto de distribuições de brilho com 13 linhas verticais, de modo a que estas
cruzem os FCP’s. A imagem é normalizada de forma a que a distância entre tonalidades
cromáticas seja de 20 pixeís. A partir da distância entre cores, o comprimento das linhas
verticais é determinado. As distribuições de brilho obtidas são depois normalizadas para o
alcance [0,1], sendo estes dados posteriormente usados para treino duma rede neuronal com a
finalidade de classificar o estado emocional da face. A face não pode conter óculos ou cabelo
facial e deve estar a uma distância de 1 metro da câmara. A figura 6, representa o modelo
FCP’s.
Figura 6 – Modelo gerado a partir de pontos faciais localizados sobre as características,
[Hara, 1997]
Fernando Jorge Soares Carvalho 17
Estudo, Comparação e Aplicação de Metodologias para Imagens de Faces
Em, [Pantic, 2000], é usado um modelo baseado em pontos, mas com dois pontos de
visão distintos, visão frontal e em perfil. O modelo frontal é composto por 30 características, 25
são definidas em correspondência com 19 pontos faciais e as restantes dão forma à boca e ao
queixo. Na visão em perfil, o modelo é caracterizado por 10 pontos, colocados de uma forma
estratégica na curvatura que define o contorno lateral da face. Seguidamente, usam-se detectores
de múltiplas características para cada característica facial (sobrancelhas, olhos, nariz, boca e
perfil). O modelo está representado na figura 7.
Figura 7 – Modelo de visão frontal e perfil, [Pantic, 2000]
2.3.2.3 Extracção de dados em sequências de imagens - método baseado em modelos protótipos
Em [Otsuka, 1998] é usado um algoritmo de fluxo óptico baseado no gradiente, com a
finalidade de estimar o movimento em locais faciais, como a boca e o olho direito. A imagem
facial é adquirida com uma câmara montada na cabeça do indivíduo e sub-amostrada por mais 8
câmara em ambas as direcções, do fim para o princípio e do princípio para o fim da sequência.
Depois de aplicado o algoritmo do fluxo óptico, usa-se a transformada de Fourier que é aplicada
ao campo de velocidade horizontal e vertical, extraindo assim os coeficientes de Fourier
referentes às frequências inferiores. Os coeficientes são memorizados num vector 15D de
características. Este método tem a vantagem de apoiar-se na simetria da face para analisar o seu
movimento, no entanto não tem qualquer sensibilidade aos movimentos realizados pelo olho do
lado esquerdo. A Figura 8, mostra a deformação das grelhas do olho e da boca, segundo o
vector do movimento obtido.
Fernando Jorge Soares Carvalho 18
Estudo, Comparação e Aplicação de Metodologias para Imagens de Faces
Figura 8 – Indicação do movimento por deformação das grelhas, [Otsuka, 1998]
Em [Kimura, 1997], é usada a aproximação híbrida para representar a face. A utilização
de uma rede potencial é ajustada à imagem normalizada, começa-se por representar as orlas de
intensidade (extremidades) da imagem aplicando um filtro diferencial. Para extrair a força
externa que é o gradiente da imagem representativa das orlas de intensidade, aplica-se um filtro
gaussiano. A imagem filtrada é chamada de campo potencial no qual o modelo elástico é
colocado. Seguidamente a rede é deformada pela força do campo potencial gerado. O modelo
gerado pela deformação da rede é comparado com o modelo gerado a partir da face ausente de
qualquer expressão facial, a variação da posição dos nodos da rede é usada para posterior
processamento. A Figura 9, ilustra o campo potencial e a correspondente rede potencial.
Figura 9 – Campo potencial representativo de orlas de intensidade e correspondente rede
potencial, [Kimura, 1997]
Em [Wang, 1998], é usada também a aproximação híbrida para representar a face, são
utilizados 19 pontos colocados sobre as características faciais, 7 desses pontos conservam a
topologia local da face e são colocados no nariz e nas extremidades dos olhos, os restantes são
distribuídos pelos olhos, boca e sobrancelhas. Os pontos faciais são tratados como nodos num
grafo, estão interligados através de ligações representativas da distância euclidiana entre nodos.
Fernando Jorge Soares Carvalho 19
Estudo, Comparação e Aplicação de Metodologias para Imagens de Faces
As ligações são pesadas com um conjunto de parâmetros, que mostram algumas propriedades
das características faciais às quais os pontos pertencem. Por exemplo, a boca contém quatro
nodos ligados, as ligações são pesadas com pesos inferiores, uma vez que a boca pode sofrer
deformações muito acentuadas. A localização exacta dos pontos faciais iniciais é conhecida, o
seguimento em termos de sequência de imagens é conseguido usando um sistema composto por
dois níveis. As correspondências entre os pontos faciais seguidos entre duas imagens
consecutivas, são tratadas como um grafo emparelhado. A imagem anterior é tratada no nível de
memória e a imagem corrente é tratada no chamado nível de entrada. O emparelhamento de
grafos é visto como um processo dinâmico de difusão nodal. Este método para funcionar
correctamente necessita da marcação inicial dos pontos sobre as características faciais, como
mostra a Figura 10. O seguimento da sequência de imagens só é garantido se a face estiver
desprovida de óculos e cabelo facial.
Figura 10 – Pontos das características faciais FFP’s, [Wang, 1998]
2.3.2.4 Extracção de dados em sequências de imagens – método baseado em características faciais
Em [Cohn, 1998], é usado um modelo de marcas facial, localizado em torno das
características faciais. As marcas são colocadas manualmente na primeira imagem referente à
sequência de imagens. Nas outras imagens é utilizado o método do fluxo óptico hierárquico,
para fazer o seguimento do fluxo óptico de janelas de dimensão 13x13, que rodeiam os pontos
representativos das marcas. O deslocamento de cada ponto marcado é calculado subtraindo a
posição normalizada, na primeira imagem, à posição normalizada da imagem corrente. Os
vectores de deslocamentos calculados servem para reconhecer as acções faciais reveladas pela
face.
2.3.3 Classificação de expressões faciais
Alguns dos métodos usados na determinação do estado emocional apresentado por uma
face, referem-se a imagens estáticas e a sequências de imagens, encontram-se divididos entre
Fernando Jorge Soares Carvalho 20
Estudo, Comparação e Aplicação de Metodologias para Imagens de Faces
métodos baseados em modelos protótipos, em redes neuronais e em regras básicas, como se
pode observar na Tabela 4.
Tabela 4 – Trabalhos relevantes nos métodos de Classificação
Referência Método Descrição do Método Imagens
[Edwards, 1998] Templates Usam PCA e LDA – Análise dos Discriminantes Lineares
Estáticas
[Hong, 1998] Templates Galerias e emparelhamento de grafos deformáveis Estáticas
[Huang, 1997] Templates PCA e classificador de distância mínima Estáticas
[Lyons, 1999] Templates PCA e LDA de vectores de grafos Estáticas
[Yoneyama,1997] Templates Duas redes 14x14 Hopfield com aprendizagem Estáticas
[Hara, 1997] Redes Neuronais 234x50x6 NN com aprendizagem backprogation Estáticas
[Padgett, 1996] Redes Neuronais 15x10x7 NN com aprendizagem backprogation Estáticas
[Zhang,1998] Redes Neuronais 646x7x7 NN com propagação RPROP Estáticas
[Zhao, 1996] Redes Neuronais 10x10x3 NN com aprendizagem backprogation Estáticas
[Pantic, 2000] Baseado em regras Sistema de regras inteligente Estáticas
[Essa, 1997] Templates Espaço-Temporal, modelos movimento-energia Sequências
[Kimura, 1997] Templates PCA – Análise dos Componentes Principais Sequências
[Osuka, 1998] Templates HMM e método de treino Baum-Welch Sequências
[Wang, 1998] Templates Média B-splines para trajectórias características e Método para minimização de distância
Sequências
[Black, 1997] Baseado em regras Consistência temporal de meio nível para descrição do movimento das características faciais.
Sequências
2.3.3.1 Classificação de expressões faciais em imagens estáticas – Método baseado em Modelos protótipos
[Hong, 1998], supõe que duas pessoas que olham de forma semelhante demonstram
uma expressão facial semelhante. Ajusta-se o modelo grafo, da Figura 3, a uma imagem, o
melhor emparelhamento conseguido desse modelo com os modelos de uma galeria
personalizada é procurado, utilizando o método do emparelhamento do grafo deformável. As
galerias personalizadas, contém 9 faces de diferentes indivíduos. Cada galeria contém 28
imagens, com 4 imagens por expressão facial. A galeria, ao qual corresponde o melhor
emparelhamento, com menores custos de energia, é usada para julgar qual a categoria
correspondente à expressão facial observada. Curiosamente, os resultados do emparelhamento
melhoram se as galerias comportarem indivíduos da mesma família, piorando quando é
composta por indivíduos sem relação familiar. O desempenho do sistema melhora se a galeria
contar com mais indivíduos, segundo [Hong, 1998].
Já em [Huang, 1997], é usado um passo intermédio, calculando 10 parâmetros activos
(AP’s). A diferença entre os parâmetros das características do modelo encontrada numa face
sem aparente expressão facial (Figura 4 e Figura 5) e com uma dada expressão facial
Fernando Jorge Soares Carvalho 21
Estudo, Comparação e Aplicação de Metodologias para Imagens de Faces
demonstrada pelo mesmo indivíduo, gera os AP’s. Usa-se seguidamente, um classificador de
distância mínima para agrupar os dois principais parâmetros activos, os que tem maior variação,
a partir de 90 amostras de imagens de treino em seis grupos, representativos das seis expressões
básicas de emoção. O algoritmo baseia-se na correlação das distribuições das componentes
principais entre a expressão em análise e as expressões dos grupos categorizados, a melhor nível
de correlação permite decidir o grupo a que pertence dada expressão.
Em [Yoneyama, 1997], são extraídos 80 parâmetros referentes ao movimento facial e
descrita a mudança entre a face ausente de qualquer movimento facial, e a expressão facial
corrente de qualquer indivíduo. São reconhecidos 4 tipos de expressões faciais: tristeza,
surpresa, raiva e felicidade. Utilizam-se duas de redes neuronais de Hopfield, iguais. A primeira
rede NN1, é treinada com 40 dados representativos das quatro expressões faciais demonstradas
por 10 indivíduos, a segunda rede NN2 é treinada com dados que representam de uma forma
clara as 4 expressões faciais. Para cada imagem examinada, a saída de NN1 é emparelhada com
todos os exemplos que lhe serviram de treino, sendo calculada a distância euclidiana. É depois
tomada a média por cada expressão. O algoritmo diz que se a diferença entre duas distâncias
médias mínimas é maior que a unidade, então a categoria fica decidida, caso contrário, a NN2
cabe essa decisão, emparelhando a sua saída com os dados usados para a seu treino.
2.3.3.2 Classificação de expressões faciais em imagens estáticas – Método baseado em redes neuronais Em [Hara, 1997], pode-se encontrar um método de classificação baseado em redes
neuronais. A rede neuronal usada é back-propagation 234x50x6, representa 6 categorias básicas
de expressão facial. As unidades da camada de entrada correspondem a dados referentes à
distribuição do brilho, que foi conseguida a partir da imagem em análise, e as 6 unidades da
camada de saída representam as 6 categorias de expressões básicas. A rede foi treinada com 90
imagens resultantes do manifesto de 6 expressões básicas de 15 indivíduos.
Em [Zhang, 1998], é usada uma rede neuronal de 680x7x7, a entrada da rede é a
posição geométrica de 34 pontos faciais (Figura 10), e 18 amostras dos coeficientes das
Wavelets de Gabor de cada um dos pontos. A rede neuronal processa a redução não linear da
dimensionalidade e faz a decisão estatística acerca da categoria da expressão observada. As
unidades de saída fornecem uma estimativa em probabilidade da expressão examinada
pertencente a uma dada categoria. Um conjunto de 213 imagens com diferentes expressões
faciais demonstradas por nove indivíduos, serviu de treino para a rede.
Fernando Jorge Soares Carvalho 22
Estudo, Comparação e Aplicação de Metodologias para Imagens de Faces
2.3.3.3 Classificação de expressões faciais em imagens estáticas – Método baseado em regras
Em [Pantic, 2000], encontra-se a codificação da acção facial de uma forma automática e
para isso é usado o modelo que obteve na Figura 7. É calculada a diferença entre as
características detectadas do modelo corrente adquirido, e as mesmas características detectadas
na face sem aparente expressão facial, referente ao mesmo indivíduo. As regras existentes
classificam a deformação do modelo em classes AUs (31 classes de unidades de acção facial,
que são expressões que separam as acções faciais). A classificação baseia-se na comparação do
código AU (unidades de acção facial) descrito por uma expressão facial, com o código AU
descrito pelas seis expressões emocionais básicas.
2.3.3.4 Classificação de expressões faciais em sequências de imagens – Método baseado em modelos (Templates) Em [Cohn, 1998], aplicam-se em separado, funções discriminante para análise de
movimento das regiões faciais como sobrancelhas, olhos e boca. Usam-se duas funções
discriminante para três acções na área das sobrancelhas, duas funções discriminante para três
acções na área dos olhos, e cinco funções discriminante para nove acções faciais na área do
nariz e da boca. Em sintonia com a descrição 2.3.2.2, é calculado o deslocamento dos pontos
entre a imagem inicial e a imagem corrente, gerando-se grupos separados de variância-
covarância, usados para classificação.
Em [Essa, 1997], podemos encontrar o método control-theoretic que permite extrair a
representação espaço-temporal da energia de movimento, relativo a uma dada expressão facial.
Geram-se modelos spatio-temporal para seis expressões diferentes, duas para acções faciais
(sorriso e elevar de sobrancelhas) e quatro para expressões representativas do estado emocional
(surpresa, tristeza, raiva e desgosto). A norma euclidiana da diferença entre a energia de
movimento do modelo e a energia de movimento da imagem observada, é usada para determinar
a semelhança/discrepância existente. A Figura 11, representa um modelo protótipo espaço-
temporal, onde a surpresa é a expressão facial manifestada pela face.
Figura 11 – Representação do modelo espaço-temporal, [Essa, 1997]
Fernando Jorge Soares Carvalho 23
Estudo, Comparação e Aplicação de Metodologias para Imagens de Faces
Em [Kimura, 1997], é construído um espaço de emoção aplicando a Análise dos
Componentes Principais (PCA), com seis sequências de imagens de três expressões faciais
básicas, angústia, felicidade e surpresa. O espaço próprio (eigenspace) atravessado pelas três
componentes principais foram usados como um espaço de emoção sobre o qual é projectado
uma imagem onde é possível quantificar a classificação emocional manifestada pela face.
Em [Wang, 1998], já foi descrito em 2.3.2.1, a geração de pontos marcados sobre as
características faciais, FEFP’s (Facial Feature Points). Para as categorias de emoção (raiva,
felicidade e surpresa), é usada a média de doze curvas B-spline apoiados nos pontos FEFP’s
marcados, para construção do modelo. Na fase de análise, cada curva gerada ao longo do
movimento descreve a relação entre as mudanças de expressão e dos deslocamentos dos pontos
colocados em torno das características faciais. Cada modelo de expressão foi definido a partir
duma sequência de dez imagens expressas por cinco indivíduos. A categoria da expressão fica
definida, determinando a distância mínima entre a curva actual determinada e a curva definida
pelo modelo.
Fernando Jorge Soares Carvalho 24
Estudo, Comparação e Aplicação de Metodologias para Imagens de Faces
Capítulo 3
Introdução Depois de uma análise sucinta às metodologias existentes é necessário tomar decisões
sobre a metodologia a seguir. Os modelos protótipos deformáveis fazem parte dessa decisão,
neste capítulo pretende-se descrever modelos protótipos existentes para a boca e para os olhos.
Estes modelos protótipos, como aplicações, permitem detectar a face e extrair características
faciais. Os modelos protótipos deformáveis são parametrizados e interagem dinamicamente com
a imagem, e por alteração e actualização dos valores dos seus parâmetros, deformam-se
permitindo o ajuste às características faciais presentes na imagem. A convergência do valor dos
parâmetros dos modelos deformáveis permitem extrair as características faciais. Uma função de
energia permite determinar o custo energético do ajuste dos modelos protótipos às
características faciais. Define-se um limiar de energia que permite decidir se o ajuste se realiza
sobre a característica facial procurada, em caso afirmativo espera-se um custo energético
reduzido. A função de energia é definida por orlas (ou extremidades), picos e vales de
intensidade de imagem.
3.1 Pré-processamento
Os modelos protótipos deformáveis necessitam de representações a partir da imagem
original, que se obtém extraindo propriedades da imagem original, como orlas, picos e vales de
intensidade de imagem. Das representações consideradas, obtém-se três campos representativos
de forças, extraídos de operações morfológicas, ( ),e x yΨ , ( ),v x yΨ , ( ),p x yΨ , para orlas, vales
e picos de intensidades respectivamente. Os campos representativos das forças obtidos são
suavizados de forma a homogeneizar tons de cinzentos, através da convolução com uma função
exponencial 2 2x yρ− +e , onde ρ representa um parâmetro constante, resultando:
( ) ( )
( ) ( )
( ) ( )
2 2
2 2
2 2
, ,
, ,
, ,
x ye e
x yv v
x yp p
x y e x y
x y e x y
x y e x y
ρ
ρ
ρ
φ
φ
φ
− +
− +
− +
= Ψ
= Ψ
= Ψ
,
,
.
Adicionalmente é utilizado o campo ( ),i x yφ representativo da intensidade da imagem ( ),I x y .
Fernando Jorge Soares Carvalho 25
Estudo, Comparação e Aplicação de Metodologias para Imagens de Faces
3.2 Modelo protótipo do olho
O modelo protótipo de [Yuille, 1992], para o olho é constituído pelas seguintes
características:
• Um círculo de raio r , centrado no ponto cx . Este círculo define o contorno que separa a
parte branca, do íris e pupila do olho. O contorno do círculo é atraído para orlas de
intensidade de imagem, enquanto que a parte interior é atraída para os baixos valores de
intensidade de imagem, (vales). A parte exterior ao círculo caracteriza-se por elevados
valores de intensidade de imagem, (picos).
• O contorno limite do olho é modelado à custa de duas parábolas, representativas das
partes superior e inferior do olho. O vértice das parábolas contém a abcissa do ponto ex
e a abertura é regulada pelo valor do coeficiente director, associado ao termo de maior
grau, que assume um valor calculado em função de b .
• O modelo contém dois pontos correspondentes aos centros das partes brancas dos olhos,
que são atraídos para picos de intensidade. Estes pontos representam-se por
( ) ( )( )1 cos ,ex p senθ θ+ e ( ) ( )( )2 cos ,ex p senθ θ+ , onde , e 1 0p e p≥ ≤2 0 θ
representa o ângulo de orientação que permite a rotação do olho relativamente ao centro
ex .
• A região do olho delimitada pelo contorno, exterior ao círculo e interior às parábolas é a
parte branca do olho, que é atraída para elevados valores de intensidade, (picos). Em
[Yuille, 1992], formam-se três tipos de forças: forças que obrigam cx e ex a
encontrarem-se; forças que obrigam 2 a tomar valores até quatro vezes o valor do raio
do íris e pupila do olho; forças que obrigam os centros
b
r ( ) ( )( )1 cosex p sen,θ θ+ e
( ) ( )( )2 cos ,x p sene θ θ+ a serem o centro limite do olho.
Na Figura 12, pode ver-se o modelo protótipo do olho que integra onze parâmetros:
1 2, , , , , , , ,c ex x p p r a b c θ
Figura 12 – Um modelo protótipo parametrizado para o olho com 0θ = , [Yuille, 1989]
Fernando Jorge Soares Carvalho 26
Estudo, Comparação e Aplicação de Metodologias para Imagens de Faces
Para representar o modelo no plano cartesiano, definem-se dois vectores
( ) ( )( )1 cos ,e senθ θ e ( ) ( )( )2 , cose sen θ θ− , que definem a orientação do olho. O ponto x é
representado no espaço pelas coordenadas ( )1 2,x x , onde 1 21 2x x e x e= + .
As parábolas que definem o contorno exterior do olho são representadas no domínio [ ],b b− ,
sabendo que ( )22 1 01 01x k x x y= − + e tomando as coordenadas do vértice ( )0,a e o ponto ( ),0b
obtém-se: ( )20 0k b a k= − + ⇔ 2
ab
= − de onde: 1
22 2
ax x ab
= − + . O mesmo procedimento para o
contorno inferior permite obter a seguinte equação: 1
22 2
cx x cb
= − .
3.2.1 Função de energia para o modelo protótipo do olho
Considerando 1 2( , , , , , , , , )c ef x x p p r a b c θ= , a função de energia é representada por
( ) ( )1 2 , , , , ,p r a b c, , ,c c c eE f E x x p θ= , mais precisamente internac v e p iE E E E E E= + + + + :
• Energia das baixas intensidades, (vales):
(Interior do círculo)
( )1
R_v v
circulo
cE xArea
φ= − ∫∫ dA , onde
Área – Área do círculo,
R_circulo – Região de intensidades do círculo.
• Energia das orlas de intensidade:
(Contorno do circulo e das parábolas)
( ) ( )32
_ _e e e
c circulo c parabolas
ccE x dSLc Lp
φ φ= − −∫ ∫ x dS , onde
LC – Comprimento do contorno do círculo,
c_circulo – Limites de contorno definido para o círculo,
LC – Comprimento do contorno das parábolas,
c_parabolas – Limites de contorno definido para as parábolas.
Fernando Jorge Soares Carvalho 27
Estudo, Comparação e Aplicação de Metodologias para Imagens de Faces
• Energia das elevadas intensidades, (picos):
(Determinada em dois pontos 1 1ex p e+ e 2 2ex p e+ )
( ) ( )( )6 1 1p p e p eE c x p e x p eφ φ= + + + 2 1.
• Energia de brilho, minimiza o brilho dentro do círculo:
( )4
R_i i
circulo
cE xArea
φ= ∫∫ dA , onde
Área – Área do círculo,
R_circulo – Região de intensidades do círculo.
• Energia de brilho, maximiza o brilho delimitado pelo círculo e pelas parábolas:
( )5
Ri i
CP
cE xArea
φ= − ∫∫ dA , onde
Área – Área delimitada pelo círculo e pelas parábolas,
RCP – Região delimitada pelo círculo e as parábolas.
• Energia interna:
( ) ( ) ( ) ( )2 2
2 231 2 2interna 1 2
1 1 22 2 2 2 2 2e c
kk k kE x x p r b p r b b = − + − + + + + + −
r
As constantes ( )1 2 3 4 5 6 1 2 3, , , , , , , ,c c c c c c k k k são obtidas a partir de valores experimentais,
segundo [Yuille, 1992] os valores típicos são:
1 2 3 4 5 6 1 2 34000, 50, 50, 125, 150, 50, 10, 1, 0.05c c c c c c k k k= = = = = = = = = .
É aplicado um algoritmo de optimização (Steepest Descendent) descrito em [Chapra,
1988] e [Press, 1992], para minimizar a função de energia ao longo das iterações de ajuste.
Fernando Jorge Soares Carvalho 28
Estudo, Comparação e Aplicação de Metodologias para Imagens de Faces
3.2.2 Exemplos
Figura 13 - Representação das imagens dos campos de forças das orlas, vales e picos de
intensidades, a partir da imagem original. A imagem original no canto superior esquerdo,
orlas de intensidades na canto superior direito, vales de intensidade no canto inferior
esquerdo e picos de intensidade no canto inferior direito, de [Yuille, 1992].
Figura 14 - Representação da sequência dinâmica de ajuste do modelo deformável na
imagem original, de [Yuille, 1989].
3.3 Modelo protótipo da boca
No caso da boca, são definidos dois modelos protótipos, para boca aberta e boca
fechada.
Fernando Jorge Soares Carvalho 29
Estudo, Comparação e Aplicação de Metodologias para Imagens de Faces
No modelo representativo da boca aberta, os lábios superior e inferior são atraídos por
baixos valores de intensidade, (vales). Já as orlas de intensidade localizam-se nos contornos,
superior e inferior dos lábios. No modelo representativo da boca aberta, os lábios são atraídos
para baixos valores de intensidades, (vales), mas os dentes são atraídos para elevados valores de
intensidade, (picos).
3.3.1 Modelo protótipo que define a boca fechada
O modelo protótipo definido para a boca fechada apresenta as seguintes características:
• O seu centro encontra-se localizado no ponto mx ;
• A extremidade do lábio superior é modelada a partir de duas parábolas , cuja
intercessão é feita no ponto
( )upper iP
mx . Os coeficientes u e u contribuem para a
caracterização da curva embora não tenham nenhuma interpretação geométrica
definida:
1 2
( )
( )
21 11 12
1
22 22 22
2
u
u
h a u by x x u x a hb
h a u by x x u x ab
− += + − −
= +
h
+ −
+ −
;
• O lábio inferior é modelado a partir de uma parábola downP :
( ) ( )( )
22 1
21 2
412d
b by x a c xb b
− = + − − + ;
• A intercessão dos lábios superior e inferior é modelado pela parábola vP :
( )( )
22 1
21 2
412v
b by x a xb b
− = − − +
Na Figura 4, pode ver-se o modelo protótipo definido para a boca fechada, que integra
dez parâmetros 1 2 1 2, , , , , , , ,x a b b u u h c θ
Fernando Jorge Soares Carvalho 30
Estudo, Comparação e Aplicação de Metodologias para Imagens de Faces
Figura 15 - Representação do modelo definido para a boca fechada com 0θ = , [Yuille,
1992]
3.3.2 Função de energia para o modelo protótipo da boca fechada
Este modelo protótipo integra dez parâmetros, considerando 1 2 1 2( , , , , , , , , )f x a b b u u h c θ= , a
função de energia é representada por ( )_ _M close M clos 1 2 1 2( , , , , , , , , )eE f E x a b b u u h c θ= , mais
precisamente _ chM open v e u bE E E E E pE E= + + + + + .
A energia obriga a que as duas parábolas representativas do lábio superior sejam iguais, a
energia obriga a que o centro da boca esteja sempre posicionado entre os seus cantos, a
energia obriga a que a excursão do lábio inferior seja
uE
b
ch
E
E λ vezes superior ao lábio superior e a
energia pE previne que o lábio superior passe para junto do nariz.
• Energia das baixas intensidades, vales, calculada ao longo de ( )vy x :
( )1
_v v
c Pv
cE xPv
φ= − ∫ dS , onde
Pv– Comprimento do contorno da parábola,
c_Pv – Limites de contorno definido para a parábola,
(Adicionalmente esta energia poderá ser multiplicada por um factor de escala de forma
a aumentar a largura da boca).
• Energia das orlas de intensidades, calculada ao longo de ( ) ( ) ( )1 2, eu u dy x y x y x :
( ) ( )32
_ _e e e
c Pu c Pd
ccE x dSPu Pd
φ φ= − −∫ ∫ x dS , onde
Pu– Comprimento do contorno das parábolas , ( )upper iP
c_Pu – Limites de contorno definido pelas parábolas , ( )upper iP
Fernando Jorge Soares Carvalho 31
Estudo, Comparação e Aplicação de Metodologias para Imagens de Faces
Pd – Comprimento do contorno da parábola downP ,
c_Pd – Limites de contorno definido pela parábola downP .
• Energias internas:
( )
( )
( )
211 2
221 2
23
2
4
1 2
;2
;2
;2
.2
u
b
ch
p
kE u u
kE b b
kE c h
k hEb b
λ
= +
= −
= −
= +
As constantes ( )1 2 3 4 5 6 1 2 3, , , , , , , ,c c c c c c k k k são obtidas a partir de valores experimentais,
segundo [Yuille, 1992], os valores típicos são:
1 2 3 1 2 3 31000, 100, 15, 2, 0.1, 1, 0.1, 1000c c c k k k kλ= = = = = = = = .
3.3.3 Modelo protótipo que define a boca aberta
O modelo protótipo que define boca aberta, é obtido não considerando uma parábola
apenas, onde os lábios se intercessão, mas considerando duas parábolas. As equações das curvas
apresentadas no caso anterior mantêm-se, não obstante de pequenas alterações de nomenclatura.
• Extremidade inferior do lábio superior:
( )( )
22 1
1 21 2
412v t
b by x a xb b
− = − − + ;
• Extremidade superior do lábio inferior:
( )( )
22 1
2 21 2
412v b
b by x a xb b
− = − − + .
Na Figura 4, pode ver-se o modelo protótipo definido para a boca fechada, que integra
dez parâmetros 1 2 1 2, , , , , , , ,x a b b u u h c θ .
Fernando Jorge Soares Carvalho 32
Estudo, Comparação e Aplicação de Metodologias para Imagens de Faces
Figura 16 - Representação do modelo definido para a boca aberta com 0θ = , [Yuille,
1992]
3.3.4 Função de energia para o modelo protótipo da boca aberta
Este modelo protótipo integra onze parâmetros, seja 1 2 1 2( , , , , , , , , , )t b t bf x a a b b u u h h c θ= ,
a função de energia é representada por ( )_ _M open M openE f E 1 2 1 2( , , , , , , , , , )t b t bx a a b b u u h h c θ= , mais
precisamente _ bM open v e t uE E E E h p aE E E E E= + + + + + + + :
• Energia das baixas intensidades, vales, calculada ao longo de ( ) ( )1 2ev vy x y x :
( ) ( )1 2
_ 1 _ 21 2v v vc Pv c Pv
c cE x dSPv Pv
φ φ= − −∫ ∫ x dS , onde
Pv1 e Pv2– Comprimento do contorno das parábolas,
c_Pv1 e c_Pv2 – Limites de contorno definido pelas parábolas.
• Energia das orlas de intensidades, calculada ao longo de ( ) ( ) ( )1 2, eu u dy x y x y x :
( ) ( )3 4
_ _e e e
c Pu c Pd
c cE x dSPu Pd
φ φ= − −∫ ∫ x dS ,
Pu– Comprimento do contorno das parábolas , ( )upper iP
c_Pu – Limites de contorno definido pelas parábolas , ( )upper iP
Pd – Comprimento do contorno da parábola downP ,
c_Pd – Limites de contorno definido pela parábola downP .
• Energia da região ocupada pelos dentes (Maximização da intensidade média):
( ) ( )( )5
_ t
t p et c R
cE xR
φ λφ= − +∫∫ x dA , onde
tR – área ocupada pelos dentes,
Fernando Jorge Soares Carvalho 33
Estudo, Comparação e Aplicação de Metodologias para Imagens de Faces
_ tc R – Região delimitada por ( ) ( )1 2ev vy x y x .
• Energias internas:
( )
( )
( )
211 2
221 2
23
2
4
1 2
5
;2
;2
;2
;2
.
u
b
h
p
a b t
kE u u
kE b b
kE c h
k hEb b
E k a a
λ
= +
= −
= −
= + = −
A energia interna , permite forçar o fecho da boca na ausência de dentes aE
• Adicionalmente é usada uma energia que permite a abertura da boca, actualizar os
parâmetros e a , ta b 1rF e 2rF respectivamente.
( ) ( )( )61
_ t
r p et c R
kF x xR
φ λφ= − +∫∫ dA ,
( ) ( )( )62
_ t
r p et c R
kF x xR
φ λφ= +∫∫ dA , onde
tR – área ocupada pelos dentes,
_ tc R – Região delimitada por ( ) ( )1 2ev vy x y x .
3.4 Exemplos
Figura 17 – Representação das imagens dos campos de forças das orlas, vales e picos de
intensidades, a partir da imagem original para o caso da boca fechada. A imagem original
Fernando Jorge Soares Carvalho 34
Estudo, Comparação e Aplicação de Metodologias para Imagens de Faces
no canto superior esquerdo, vales de intensidades na canto superior direito, picos de
intensidade no canto inferior esquerdo as orlas de intensidade no canto inferior direito,
retirado de [Yuille, 1992].
Figura 18 - Representação da sequência dinâmica do ajuste do modelo deformável com a
imagem original para o caso da boca fechada e aberta, retirado de [Yuille, 1992].
Fernando Jorge Soares Carvalho 35
Estudo, Comparação e Aplicação de Metodologias para Imagens de Faces
Capítulo 4
Conclusões e Perspectivas de Realização Futura
4.1 Conclusões
O trabalho realizado até data permitiu tomar conhecimentos sobre algumas das
metodologias existentes em visão computacional para imagens de faces. O estudo permitiu
analisar de uma forma sucinta o princípio de funcionamento dessas metodologias aliadas a toda
a problemática que está em torno da sua implementação. A solução encontrada relativa ao uso
de modelos protótipos deformáveis, parece interessante porque é aplicável a outros casos como,
automóveis e outros tipos de objectos. Permite detectar e caracterizar uma face ou um objecto e
pode ainda ser estendido ao seguimento de imagens.
4.2 Perspectivas de Realização Futura
Em termos futuros cabe a esta dissertação:
• A continuação do estudo referente às várias metodologias existentes.
• O desenvolvimento de software em ambiente MatLab, em que se pretende
implementar o método de detecção da face e a caracterização de faces, usando os
modelos protótipos deformáveis sucintamente descritos no capítulo anterior.
• Realização de ensaios experimentais para testar de robustez do software e analisar
resultados.
• Verificar a possibilidade de aplicar este método ao seguimento de faces numa
sequência de imagens utilizando a metodologia dos modelos protótipos deformáveis
com filtragem estocástica, como por exemplo, filtragem de Kalman, filtros de
condensação ou filtros de partículas.
Fernando Jorge Soares Carvalho 36
Estudo, Comparação e Aplicação de Metodologias para Imagens de Faces
Bibliografia
Livros: Blake and Isard, Andrew and Michel, 1998 : “Active Contours” , Springer
[Press, 1992] – William H. Press, Saul A. Teukolsky, William T. Vetterling, Brian P. Flannery Numerical Recipes in C - The Art of Scientific Computing Cambridge University Press – 1992
[Chapra, 1988] – Steven C. Chapra, Raymond P. Canale Numerical Methods for Engineers McGraw-Hill – 1988
Artigos Científicos:
[Yuille, 1992] – A. Yuille, P. Hallinan, and D. Cohen, “Feature Extraction from Faces Using Deformable Templates,” Int’l J. Computer Vision, vol. 8, no. 2, pp. 99-111, 1992. [Pantic, 2000] – Maja Pantic, Stdent Member,IEEE, and leon J.M.RothKrantz, “Automatic Analysis of Facial Expressions: The state of art” vol.22, no 12, December 2000. [Yang, 2002] – Ming Yang, Member, IEEE, David J. Kriegman, Senior Member, IEEE, and
Narendra Ahuja, Fellow, IEEE , “Detecting Faces in Images: A Survey” vol 24, no 1, January 2002.
[Johansson’s, 1978] – J.N. Bassili, ™Facial Motion in the Perception of Faces and of Emotional Expression,º J. Experimental Psychology 4, pp. 373-379, 1978.
[Huang, 1997] – C.L. Huang and Y.M. Huang, ™Facial Expression Recognition
Using Model-Based Feature Extraction and Action Parameters Classification,º J. Visual Comm. and Image Representation, vol. 8, no. 3, pp. 278-290, 1997.
[Pantic, 2000] – M. Pantic and L.J.M. Rothkrantz, ™Expert System for Automatic Analysis of Facial Expression,º Image and Vision Computing J., vol. 18, no. 11, pp. 881-905, 2000.
[Hara, 1997] – H. Kobayashi and F. Hara, ™Facial Interaction between Animated 3D Face Robot and Human Beings,º Proc. Int'l Conf. Systems, Man, Cybernetics,, pp. 3,732-3,737, 1997.
[Yoneyama, 1997] – M. Yoneyama, Y. Iwano, A. Ohtake, and K. Shirai, ™Facial Expressions Recognition Using Discrete Hopfield Neural Networks, º Proc. Int'l Conf. Information Processing, vol. 3, pp. 117-120, 1997. [Kimura, 1997] – S. Kimura and M. Yachida, ™Facial Expression Recognition and Its
Degree Estimation,º Proc. Computer Vision and Pattern Recognition,pp. 295-300, 1997. [Hong, 1998] – H. Hong, H. Neven, and C. von der Malsburg, ™Online Facial
Expression Recognition Based on Personalized Galleries,º Proc. Int'l Conf. Automatic Face and Gesture Recognition, pp. 354-359, 1998.
[Essa, 1997] – I. Essa and A. Pentland, ™Coding, Analysis Interpretation,
Recognition of Facial Expressions,º IEEE Trans. Pattern Analysis and Machine Intelligence, vol. 19, no. 7, pp. 757-763, July 1997.
[Edwards, 1998] – G.J. Edwards, T.F. Cootes, and C.J. Taylor, ™Face Recognition
Fernando Jorge Soares Carvalho 37
Estudo, Comparação e Aplicação de Metodologias para Imagens de Faces
Using Active Appearance Models,º Proc. European Conf. Computer Vision, vol. 2, pp. 581-695, 1998.
[Padgett, 1996] – C. Padgett and G.W. Cottrell, ™Representing Face Images for
Emotion Classification,º Proc. Conf. Advances in Neural Information Processing Systems, pp. 894-900, 1996.
[Black, 1997] – M.J. Black and Y. Yacoob, ™Recognizing Facial Expressions in
Image Sequences Using Local Parameterized Models of Image Motion,º lnt'l J. Computer Vision, vol. 25, no. 1, pp. 23-48, 1997.
[Otsuka, 1998] – T. Otsuka and J. Ohya, ™Spotting Segments Displaying Facial
Expression from Image Sequences Using HMM,º Proc. Int'l Conf. Automatic Face and Gesture Recognition, pp. 442-447, 1998.
[Zhao, 1996] – J. Zhao and G. Kearney, ™Classifying Facial Emotions by
Backpropagation Neural Networks with Fuzzy Inputs,º Proc. Conf. Neural Information Processing, vol. 1, pp. 454-457, 1996.
[Cohn, 1998] – J.F. Cohn, A.J. Zlochower, J.J. Lien, and T. Kanade, ™Feature-Point
Tracking by Optical Flow Discriminates Subtle Differences in Facial Expression,º Proc. Int'l Conf. Automatic Face and Gesture Recognition, pp. 396-401, 1998.
[Lyons, 1999] – M.J. Lyons, J. Budynek, and S. Akamatsu, ™Automatic Classification
of Single Facial Images,º IEEE Trans. Pattern Analysis and Machine Intelligence, vol. 21, no. 12, pp. 1,357-1,362, 1999.
[Zhang, 1998] – Z. Zhang, M. Lyons, M. Schuster, and S. Akamatsu, ™Comparison
between Geometry-Based and Gabor Wavelets-Based Facial Expression Recognition Using Multi-Layer Perceptron,º Proc. Int'l Conf. Automatic Face and Gesture Recognition, pp. 454-459, 1998.
[Wang, 1998] – M. Wang, Y. Iwai, and M. Yachida, ™Expression Recognition from Time-Sequential Facial Images by Use of Expression Change
Model,º Proc. Int'l Conf. Automatic Face and Gesture Recognition, pp. 324-329, 1998.
[Yang, 1994] – G. Yang and T. S. Huang, “Human Face Detection in Complex Background,” Pattern Recognition, vol. 27, no. 1, pp. 53-63, 1994. [Leung, 1995] – T.K. Leung, M.C. Burl, and P. Perona, “Finding Faces in Cluttered
Scenes Using Random Labeled Graph Matching,” Proc. Fifth IEEE Int’l Conf. Computer Vision, pp. 637-644, 1995.
[Dai, 1996] – Y. Dai and Y. Nakano, “Face-Texture Model Based on SGLD and
Its Application in Face Detection in a Color Scene,” Pattern Recognition, vol. 29, no. 6, pp. 1007-1017, 1996.
[Yang, 1996] – J. Yang and A. Waibel, “A Real-Time Face Tracker,” Proc. Third
Workshop Applications of Computer Vision, pp. 142-147, 1996. [Kjeldsen, 1996] – R. Kjeldsen and J. Kender, “Finding Skin in Color Images,” Proc.
Second Int’l Conf. Automatic Face and Gesture Recognition, pp. 312-317, 1996. [Craw, 1987] – I. Craw, H. Ellis, and J. Lishman, “Automatic Extraction of Face
Features,” Pattern Recognition Letters, vol. 5, pp. 183-187, 1987. [Turk, 1991] – M. Turk and A. Pentland, “Eigenfaces for Recognition,” J. Cognitive
Neuroscience, vol. 3, no. 1, pp. 71-86, 1991. [Sung, 1998] – K.-K. Sung and T. Poggio, “Example-Based Learning for View-
Based Human Face Detection,” IEEE Trans. Pattern Analysis and Machine Intelligence, vol. 20, no. 1, pp. 39-51, Jan. 1998.
[Rowley, 1998] – H. Rowley, S. Baluja, and T. Kanade, “Neural Network-Based Face
Fernando Jorge Soares Carvalho 38
Estudo, Comparação e Aplicação de Metodologias para Imagens de Faces
Fernando Jorge Soares Carvalho 39
Detection,” IEEE Trans. Pattern Analysis and Machine Intelligence, vol. 20, no. 1, pp. 23-38, Jan. 1998.
[Sakai, 1969] – T. Sakai, M. Nagao, and S. Fujibayashi, “Line Extraction and
Pattern Detection in a Photograph,” Pattern Recognition, vol. 1,pp. 233-248, 1969. [Tsukamoto, 1993] – A. Tsukamoto, C.-W. Lee, and S. Tsuji, “Detection and Tracking of Human Face with Synthesized Templates,” Proc. First Asian Conf. Computer Vision, pp. 183-186, 1993. [Ekman, 1970] – P. Ekman and W.V. Friesen, Facial Action Coding System (FACS):
Manual. Palo Alto: Consulting Psychologists Press, 1978. [Horn, 1981] – B. Horn and B. Schunck, ™Determining Optical Flow,º Artificial
Intelligence, vol. 17, pp. 185-203, 1981.