Deteccion de Emociones en Voz Espontanea

download Deteccion de Emociones en Voz Espontanea

of 132

  • date post

    20-Jul-2015
  • Category

    Documents

  • view

    79
  • download

    0

Embed Size (px)

Transcript of Deteccion de Emociones en Voz Espontanea

Universidad Autonoma de Madrid Escuela Politecnica Superior

Proyecto fin de carrera

DETECCION DE EMOCIONES EN VOZ ESPONTANEA

Ingenier Superior en Telecomunicacin a o

Carlos Ortego ResaJulio 2009

DETECCION DE EMOCIONES EN VOZ ESPONTANEA

2

DETECCION DE EMOCIONES EN VOZ ESPONTANEA

AUTOR: Carlos Ortego Resa TUTOR: Ignacio Lpez Moreno o

Grupo ATVS Dpto. de Ingenier Informtica a a Escuela Politcnica Superior e Universidad Autnoma de Madrid o Julio 2009

1

DETECCION DE EMOCIONES EN VOZ ESPONTANEA

2

ResumenResumenEn este proyecto de n de carrera se presentan nuevos mtodos adems del estado del e a arte de las tcnicas existentes para el reconocimiento automtico de emocin en el habla. Se e a o emplean tcnicas discriminativas como SVM (Support Vector Machines) y estad e sticas como GMM (Gaussian Mixture Models). A partir de estas tcnicas se implementan dos tipos de e sistemas: front-end y back-end. Los primeros usan la seal de voz como entrada y producen a n la salida unas puntuaciones. Los segundos utilizan como entrada las puntuaciones de salida del sistema front-end para obtener a la salida otras puntuaciones. Se realizar adems un examen completo de estos sistemas, desde el conjunto de datos de a a entrenamiento y test, inuencia de distintas variables en los modelos entrenados, fusin de o sistemas, normalizacin de puntuaciones, etc. o En la parte experimental del proyecto se llevan a cabo experimentos independientes y dependientes de locutor con el n de valorar la variabilidad de locutor sobre los sistemas. En la memoria se describe el funcionamiento de un sistema automtico de reconocimiento a de patrones as como los modos de funcionamiento. Tambin se explican los principios bsicos e a de las emociones y cmo afectan stas al habla. Adems, se hace un repaso de las disciplinas o e a ms empleadas en el reconocimiento de emociones. a Por ultimo se realiza un anlisis del trabajo extrayendo conclusiones y proponiendo futuras a l neas de investigacin. o Los resultados obtenidos en este proyecto de n de carrera han sido aceptados y a la espera de ser publicados en 2 congresos internacionales en los art culos: Lopez-Moreno, I., Ortego-Resa C., Gonzalez-Rodriguez J., Ramos D. , Speaker dependent emotion recognition using prosodic supervectors, 2009. Ortego-Resa C., Lopez-Moreno, I., Gonzalez-Rodriguez J., Ramos D. , Anchor model fusion for emotion recognition in speech, 2009.

Palabras ClaveReconocimiento automtico de emociones en el habla, pitch, T-norm, Mquinas de Vectores a a Soporte, Modelos de Mezcla de Gaussianas, base de datos SUSAS, parametrizacin prosdica, o o Fusin de Anchor Models. o

3

DETECCION DE EMOCIONES EN VOZ ESPONTANEA

AbstractIn this masters thesis we present new methods besides the state of the art of the existing techniques for automatic emotion recognition in speech. Discriminative techniques such as SVM (Support Vector Machines) and statistic ones such as GMM (Gaussian Mixture Models) are employed. With these techniques two kind of systems are developed: front-end and back-end. The rst one uses voice signal as input signal and a set of scores are obtained as output signal. The second one uses the output scores from front-end system as input signal and makes another set of scores as output. We report a study of these systems regarding training and testing set selection, system behavior acording to some variables, fusion techniques, scores normalizations, etc. Along the experimental section of the masters thesis several speaker independent and dependent experiments are showing with the purpose of evaluating the speaker variability about systems. The report describes the operation of an automatic patterns recognition system. It also explains the basic principles of emotions and how they aect speech. In addition, an overview of the disciplines used in emotion recognition is made. Finally, an analysis of work and conclusions are drawn, and future researchs are proposed. Results from this masters thesis have been accepted in international congresses and now it is waiting for being published: Lopez-Moreno, I., Ortego-Resa C., Gonzalez-Rodriguez J., Ramos D. , Speaker dependent emotion recognition using prosodic supervectors, 2009. Ortego-Resa C., Lopez-Moreno, I., Gonzalez-Rodriguez J., Ramos D. , Anchor model fusion for emotion recognition in speech, 2009.

Key wordsAutomatic emotion recognition in speech, pitch, T-norm, Support Vector Machines, Gaussian Mixture Models, SUSAS database, prosodic parametrization, Anchor Models Fusion.

4

AgradecimientosPrimero dar las gracias a toda la gente que me ha servido de ayuda durante estos ultimos aos. En especial a mis padres pues ellos son mi modelo a seguir. A mis tios y primos por lo n bien que se han portado conmigo. Y a mis abuelos por el apoyo incondicional hacia su nieto. Tambin me gustar agradecer a mi tutor Ignacio Lpez Moreno por su apoyo y dedicacin e a o o en mi proyecto al igual que al resto del grupo ATVS. Adems, agradecer a Joaqu Gonzlez a n a Rodr guez por darme la oportunidad de formar parte del grupo ATVS. No quiero olvidarme de todos los buenos compaeros que he hecho durante estos 5 aos en n n la EPS: Angel, Jess, Jorge, Soci, David, Pablo, Javi,... u Por ultimo, agradecer a mis amigos de toda la vida por lo mucho que me ayudais y me haceis reir. Carlos Ortego Resa Julio de 2009

5

DETECCION DE EMOCIONES EN VOZ ESPONTANEA

6

Indice General

Indice de Figuras Indice de Tablas 1. Introduccin o 1.1. Motivacin . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . o 1.2. Objetivos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1.3. Organizacin de la Memoria . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . o 2. Sistema automtico de reconocimiento de patrones a 2.1. Introduccin . . . . . . . . . . . . . . . . . . . . . . . . . . . o 2.2. Estructura General . . . . . . . . . . . . . . . . . . . . . . . 2.3. Modos de Operacin . . . . . . . . . . . . . . . . . . . . . . o 2.3.1. Identicacin . . . . . . . . . . . . . . . . . . . . . . o 2.3.2. Vericacin . . . . . . . . . . . . . . . . . . . . . . . o 2.4. Evaluacin de los Sistemas Automticos de Reconocimiento o a 2.5. Normalizacin de Puntuaciones . . . . . . . . . . . . . . . . o 3. Estado del arte en Reconocimiento de Emociones 3.1. Introduccin . . . . . . . . . . . . . . . . . . . . . . o 3.2. Aplicaciones . . . . . . . . . . . . . . . . . . . . . . 3.3. Naturaleza de las Emociones . . . . . . . . . . . . 3.4. Emociones en el Habla . . . . . . . . . . . . . . . . 3.4.1. Pitch . . . . . . . . . . . . . . . . . . . . . . 3.4.2. Duracin . . . . . . . . . . . . . . . . . . . o 3.4.3. Calidad de Voz . . . . . . . . . . . . . . . . 3.4.4. Pulso Glotal y Tracto Vocal . . . . . . . . . 3.5. Clasicacin de las Emociones . . . . . . . . . . . . o 3.6. Implicaciones Jur dicas . . . . . . . . . . . . . . . . 3.7. Tcnicas de Reconocimiento de Emociones . . . . . e 3.7.1. GMM . . . . . . . . . . . . . . . . . . . . . 3.7.2. SVM . . . . . . . . . . . . . . . . . . . . . . 3.7.3. SVMs basados en supervectores GMMs . . 3.7.4. Anchor Models . . . . . . . . . . . . . . . . 3.7.5. Otras: LDA, HMM . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

8 10 13 14 14 15 17 18 18 19 19 20 20 22 23 24 24 24 25 26 27 27 28 28 30 31 31 33 38 38 40 43 44 44 50 51 51 52 56

4. Dise o y Desarrollo n 4.1. Medios disponibles (BBDD, software, mquinas...) . . . . . . . . . . a 4.1.1. Bases de Datos Utilizadas . . . . . . . . . . . . . . . . . . . . 4.1.2. Software y Mquinas . . . . . . . . . . . . . . . . . . . . . . . a 4.2. Diseo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . n 4.2.1. Parametrizacin del audio . . . . . . . . . . . . . . . . . . . . o 4.2.2. Subsistemas front-end (SVM con estad sticos y GMM-SVM) 4.2.3. Sistema back-end (Fusion Anchor Models) . . . . . . . . . . . 7

DETECCION DE EMOCIONES EN VOZ ESPONTANEA 5. Pruebas y Resultados 5.1. Pruebas y Resultados independientes de locutor . . . . 5.1.1. Experimentos Intra-Base de datos: Evaluacin o frente a modelos de la misma Base de Datos . . 5.1.2. Experimentos Inter -Base de datos: Evaluacin o frente a modelos de todas las Bases de Datos . 5.2. Pruebas y Resultados dependientes de locutor . . . . . 59 . 60 . 60 . 84 . 87

. . de . . de . . . .

. . . cada . . . cada . . . . . .

. . . . . . . . . Base de Datos . . . . . . . . . Base de Datos . . . . . . . . . . . . . . . . . .

6. Conclusiones y Trabajo futuro 101 6.1. Conclusiones . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 102 6.2. Trabajo futuro . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 104 Glosario de acrnimos o A. Anexo: publicaciones B. Presupuesto C. Pliego de condiciones 109 111 125 127

8

INDICE GENERAL

Indice de Figuras1. 2. 3. 4. 5. 6. 7. 8. 9. 10. 11. 12. 13. 14. 15. Esquema de funcionamiento de un sistema de rec