Deteccion de Emociones en Voz Espontanea

download Deteccion de Emociones en Voz Espontanea

of 132

Transcript of Deteccion de Emociones en Voz Espontanea

Universidad Autonoma de Madrid Escuela Politecnica Superior

Proyecto fin de carrera

DETECCION DE EMOCIONES EN VOZ ESPONTANEA

Ingenier Superior en Telecomunicacin a o

Carlos Ortego ResaJulio 2009

DETECCION DE EMOCIONES EN VOZ ESPONTANEA

2

DETECCION DE EMOCIONES EN VOZ ESPONTANEA

AUTOR: Carlos Ortego Resa TUTOR: Ignacio Lpez Moreno o

Grupo ATVS Dpto. de Ingenier Informtica a a Escuela Politcnica Superior e Universidad Autnoma de Madrid o Julio 2009

1

DETECCION DE EMOCIONES EN VOZ ESPONTANEA

2

ResumenResumenEn este proyecto de n de carrera se presentan nuevos mtodos adems del estado del e a arte de las tcnicas existentes para el reconocimiento automtico de emocin en el habla. Se e a o emplean tcnicas discriminativas como SVM (Support Vector Machines) y estad e sticas como GMM (Gaussian Mixture Models). A partir de estas tcnicas se implementan dos tipos de e sistemas: front-end y back-end. Los primeros usan la seal de voz como entrada y producen a n la salida unas puntuaciones. Los segundos utilizan como entrada las puntuaciones de salida del sistema front-end para obtener a la salida otras puntuaciones. Se realizar adems un examen completo de estos sistemas, desde el conjunto de datos de a a entrenamiento y test, inuencia de distintas variables en los modelos entrenados, fusin de o sistemas, normalizacin de puntuaciones, etc. o En la parte experimental del proyecto se llevan a cabo experimentos independientes y dependientes de locutor con el n de valorar la variabilidad de locutor sobre los sistemas. En la memoria se describe el funcionamiento de un sistema automtico de reconocimiento a de patrones as como los modos de funcionamiento. Tambin se explican los principios bsicos e a de las emociones y cmo afectan stas al habla. Adems, se hace un repaso de las disciplinas o e a ms empleadas en el reconocimiento de emociones. a Por ultimo se realiza un anlisis del trabajo extrayendo conclusiones y proponiendo futuras a l neas de investigacin. o Los resultados obtenidos en este proyecto de n de carrera han sido aceptados y a la espera de ser publicados en 2 congresos internacionales en los art culos: Lopez-Moreno, I., Ortego-Resa C., Gonzalez-Rodriguez J., Ramos D. , Speaker dependent emotion recognition using prosodic supervectors, 2009. Ortego-Resa C., Lopez-Moreno, I., Gonzalez-Rodriguez J., Ramos D. , Anchor model fusion for emotion recognition in speech, 2009.

Palabras ClaveReconocimiento automtico de emociones en el habla, pitch, T-norm, Mquinas de Vectores a a Soporte, Modelos de Mezcla de Gaussianas, base de datos SUSAS, parametrizacin prosdica, o o Fusin de Anchor Models. o

3

DETECCION DE EMOCIONES EN VOZ ESPONTANEA

AbstractIn this masters thesis we present new methods besides the state of the art of the existing techniques for automatic emotion recognition in speech. Discriminative techniques such as SVM (Support Vector Machines) and statistic ones such as GMM (Gaussian Mixture Models) are employed. With these techniques two kind of systems are developed: front-end and back-end. The rst one uses voice signal as input signal and a set of scores are obtained as output signal. The second one uses the output scores from front-end system as input signal and makes another set of scores as output. We report a study of these systems regarding training and testing set selection, system behavior acording to some variables, fusion techniques, scores normalizations, etc. Along the experimental section of the masters thesis several speaker independent and dependent experiments are showing with the purpose of evaluating the speaker variability about systems. The report describes the operation of an automatic patterns recognition system. It also explains the basic principles of emotions and how they aect speech. In addition, an overview of the disciplines used in emotion recognition is made. Finally, an analysis of work and conclusions are drawn, and future researchs are proposed. Results from this masters thesis have been accepted in international congresses and now it is waiting for being published: Lopez-Moreno, I., Ortego-Resa C., Gonzalez-Rodriguez J., Ramos D. , Speaker dependent emotion recognition using prosodic supervectors, 2009. Ortego-Resa C., Lopez-Moreno, I., Gonzalez-Rodriguez J., Ramos D. , Anchor model fusion for emotion recognition in speech, 2009.

Key wordsAutomatic emotion recognition in speech, pitch, T-norm, Support Vector Machines, Gaussian Mixture Models, SUSAS database, prosodic parametrization, Anchor Models Fusion.

4

AgradecimientosPrimero dar las gracias a toda la gente que me ha servido de ayuda durante estos ultimos aos. En especial a mis padres pues ellos son mi modelo a seguir. A mis tios y primos por lo n bien que se han portado conmigo. Y a mis abuelos por el apoyo incondicional hacia su nieto. Tambin me gustar agradecer a mi tutor Ignacio Lpez Moreno por su apoyo y dedicacin e a o o en mi proyecto al igual que al resto del grupo ATVS. Adems, agradecer a Joaqu Gonzlez a n a Rodr guez por darme la oportunidad de formar parte del grupo ATVS. No quiero olvidarme de todos los buenos compaeros que he hecho durante estos 5 aos en n n la EPS: Angel, Jess, Jorge, Soci, David, Pablo, Javi,... u Por ultimo, agradecer a mis amigos de toda la vida por lo mucho que me ayudais y me haceis reir. Carlos Ortego Resa Julio de 2009

5

DETECCION DE EMOCIONES EN VOZ ESPONTANEA

6

Indice General

Indice de Figuras Indice de Tablas 1. Introduccin o 1.1. Motivacin . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . o 1.2. Objetivos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1.3. Organizacin de la Memoria . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . o 2. Sistema automtico de reconocimiento de patrones a 2.1. Introduccin . . . . . . . . . . . . . . . . . . . . . . . . . . . o 2.2. Estructura General . . . . . . . . . . . . . . . . . . . . . . . 2.3. Modos de Operacin . . . . . . . . . . . . . . . . . . . . . . o 2.3.1. Identicacin . . . . . . . . . . . . . . . . . . . . . . o 2.3.2. Vericacin . . . . . . . . . . . . . . . . . . . . . . . o 2.4. Evaluacin de los Sistemas Automticos de Reconocimiento o a 2.5. Normalizacin de Puntuaciones . . . . . . . . . . . . . . . . o 3. Estado del arte en Reconocimiento de Emociones 3.1. Introduccin . . . . . . . . . . . . . . . . . . . . . . o 3.2. Aplicaciones . . . . . . . . . . . . . . . . . . . . . . 3.3. Naturaleza de las Emociones . . . . . . . . . . . . 3.4. Emociones en el Habla . . . . . . . . . . . . . . . . 3.4.1. Pitch . . . . . . . . . . . . . . . . . . . . . . 3.4.2. Duracin . . . . . . . . . . . . . . . . . . . o 3.4.3. Calidad de Voz . . . . . . . . . . . . . . . . 3.4.4. Pulso Glotal y Tracto Vocal . . . . . . . . . 3.5. Clasicacin de las Emociones . . . . . . . . . . . . o 3.6. Implicaciones Jur dicas . . . . . . . . . . . . . . . . 3.7. Tcnicas de Reconocimiento de Emociones . . . . . e 3.7.1. GMM . . . . . . . . . . . . . . . . . . . . . 3.7.2. SVM . . . . . . . . . . . . . . . . . . . . . . 3.7.3. SVMs basados en supervectores GMMs . . 3.7.4. Anchor Models . . . . . . . . . . . . . . . . 3.7.5. Otras: LDA, HMM . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

8 10 13 14 14 15 17 18 18 19 19 20 20 22 23 24 24 24 25 26 27 27 28 28 30 31 31 33 38 38 40 43 44 44 50 51 51 52 56

4. Dise o y Desarrollo n 4.1. Medios disponibles (BBDD, software, mquinas...) . . . . . . . . . . a 4.1.1. Bases de Datos Utilizadas . . . . . . . . . . . . . . . . . . . . 4.1.2. Software y Mquinas . . . . . . . . . . . . . . . . . . . . . . . a 4.2. Diseo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . n 4.2.1. Parametrizacin del audio . . . . . . . . . . . . . . . . . . . . o 4.2.2. Subsistemas front-end (SVM con estad sticos y GMM-SVM) 4.2.3. Sistema back-end (Fusion Anchor Models) . . . . . . . . . . . 7

DETECCION DE EMOCIONES EN VOZ ESPONTANEA 5. Pruebas y Resultados 5.1. Pruebas y Resultados independientes de locutor . . . . 5.1.1. Experimentos Intra-Base de datos: Evaluacin o frente a modelos de la misma Base de Datos . . 5.1.2. Experimentos Inter -Base de datos: Evaluacin o frente a modelos de todas las Bases de Datos . 5.2. Pruebas y Resultados dependientes de locutor . . . . . 59 . 60 . 60 . 84 . 87

. . de . . de . . . .

. . . cada . . . cada . . . . . .

. . . . . . . . . Base de Datos . . . . . . . . . Base de Datos . . . . . . . . . . . . . . . . . .

6. Conclusiones y Trabajo futuro 101 6.1. Conclusiones . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 102 6.2. Trabajo futuro . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 104 Glosario de acrnimos o A. Anexo: publicaciones B. Presupuesto C. Pliego de condiciones 109 111 125 127

8

INDICE GENERAL

Indice de Figuras1. 2. 3. 4. 5. 6. 7. 8. 9. 10. 11. 12. 13. 14. 15. Esquema de funcionamiento de un sistema de reconocimiento. . . . . . . . . . . Sistema de reconocimiento automtico en modo de identicacin. Figura adapa o tada de [1]. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Sistema de reconocimiento automtico en modo de vericacin. Figura adaptada a o de [1]. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Densidades y distribuciones de probabilidad de intentos target y non-target. . . Curvas ROC y DET. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Ejemplo de distribucin de probabilidad de pitch para un locutor masculino. . o Distribucin F0 hombre/mujer. . . . . . . . . . . . . . . . . . . . . . . . . . . . o GMM bidimensional de 4 Gaussianas. . . . . . . . . . . . . . . . . . . . . . . . Concepto de un SVM. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . a) Muestras clasicadas incorrectamente con un valor hi asociado. b) Muestras clasicadas correctamente pero con un error hi . . . . . . . . . . . . . . . . . . . Mapeo de los vectores x 2-dimensionales a b(x) 3-dimensionales. . . . . . . . . Construccin de un supervector GMM a partir de una locucin de voz. . . . . . o o Ejemplo de construccin de un supervector GMM a partir de 3 mezclas gaussianas o bidimensionales. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Sx agrupa las puntuaciones de similitud del vector x frente a cada modelo mi . . Diagrama de funcionamiento del AMF. El vector de parmetros nal de la locua cin x es la concatenacin de las puntuaciones de similitud de x frente a cada o o modelo de emocin mi para cada uno de los Nsist sistemas. . . . . . . . . . . . o . 18 . 19 . 20 . 20 . 21 . . . . 26 27 32 35

. 36 . 37 . 38 . 39 . 39 . 41 49 50 52 52 53 54 55 56 57

16. 17. 18. 19. 20. 21. 22. 23. 24. 25. 26. 27. 28.

Ejemplo de una locucin de la base de datos SUSAS Simulated. . . . . . . . . . . o a) Locucin de Ah3R1 de entrenamiento (120sg) del locutor 23 y emocin neutroo o exaltado. b) Locucin nmero 4 de test de Ah3R1 del locutor 23 y emocin neutro. o u o a) Ventanas temporales ms utilizadas para el enventanado de la seal de voz. a n b) Enventanado y vectores de energ e y pitch p de la seal de voz. . . . . . . . a n Diagrama de bloques de la extraccin de parmetros prosdicos de la seal de voz. o a o n Diagrama de bloques del clasicador SVM utilizando estad sticos globales. . . . . Esquema de distribucin de los datos de entrenamiento en un clasicador SVM o para vectores de entrada l(uptrain ). . . . . . . . . . . . . . . . . . . . . . . . . . . Diagrama de bloques del clasicador GMM-SVM. . . . . . . . . . . . . . . . . . . Esquema de distribucin de los datos de entrenamiento en un clasicador SVM o para supervectores de entrada SV (uptrain ). . . . . . . . . . . . . . . . . . . . . . . Uso de las puntuaciones de dos sistemas front-end para conformar el sistema back-end para la base de datos SUSAS Simulated. . . . . . . . . . . . . . . . . . . Esquema de las pruebas independientes de locutor para el sistema SUSAS Simulated - SVM con estad sticos. . . . . . . . . . . . . . . . . . . . . . . . . . . Curvas DET del sistema SUSAS Simulated - SVM con estad sticos para diferentes costes de entrenamiento. . . . . . . . . . . . . . . . . . . . . . . . . . . . Esquema de las pruebas independientes de locutor para SUSAS Simulated GMM-SVM. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Curvas DET del sistema SUSAS Simulated - GMM-SVM para varios nmeros u de Gaussianas. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 9

. 61 . 62 . 63 . 64

DETECCION DE EMOCIONES EN VOZ ESPONTANEA 29. 30. 31. 32. 33. 34. 35. 36. 37. 38. 39. 40. 41. 42. 43. 44. 45. 46. 47. 48. 49. 50. 51. 52. 53. 54. 55. 56. 57. 58. 59. 60. 61. 62. 63. 64. 65. 66. Curvas DET para varios valores de coste en SUSAS Simulated - GMM-SVM. . Curvas DET de SUSAS Simulated - SVM con estad sticos, GMM-SVM y fusin o suma. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Esquema de las pruebas independientes de locutor para SUSAS Simulated - AMF. Curvas DET de SUSAS Simulated - AMF para varios valores de coste. . . . . . Curvas DET de la SUSAS Simulated - fusin suma y AMF. . . . . . . . . . . . o Esquema de las pruebas independientes de locutor para SUSAS Actual - SVM con estad sticos. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Curvas DET del sistema SUSAS Actual - SVM con estad sticos para diferentes costes. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Esquema de las pruebas independientes de locutor para SUSAS Actual - GMMSVM. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Curvas DET del sistema SUSAS Actual - GMM-SVM para diferentes costes. . . Curvas DET para SUSAS Actual - SVM con estad sticos, GMM-SVM y fusin o suma. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Esquema de las pruebas independientes de locutor para SUSAS Actual - AMF. Curvas DET para SUSAS Actual - AMF para varios valores de coste. . . . . . . Curvas DET para SUSAS Actual - fusin suma y AMF. . . . . . . . . . . . . . o Esquema de las pruebas independientes de locutor para Ah3R1 - SVM con estad sticos. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Curvas DET del sistema Ah3R1 - SVM con estad sticos para diferentes costes. . Esquema de las pruebas independientes de locutor para Ah3R1 - GMM-SVM. . Curvas DET para varios costes para Ah3R1 - GMM-SVM. . . . . . . . . . . . . Curvas DET para Ah3R1 - GMM-SVM segn la normalizacin de los vectores u o de parmetros prosdicos. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . a o Curvas DET de Ah3R1 - SVM con estad sticos, GMM-SVM y fusin suma. . . o Esquema de las pruebas independientes de locutor para Ah3R1 - AMF. . . . . . Curvas DET del sistema Ah3R1 - AMF segn la variable coste. . . . . . . . . . u Curvas DET para Ah3R1 - fusin suma y AMF. . . . . . . . . . . . . . . . . . . o Esquema de evaluacin de los modelos de las 3 bases de datos. . . . . . . . . . . o Uso de las puntuaciones de dos subsistemas front-end y de la fusin suma para o conformar el nuevo sistema back-end de AMF. . . . . . . . . . . . . . . . . . . . Esquema de la evaluacin de las pruebas dependientes de locutor para SUSAS o Simulated - SVM con estad sticos. . . . . . . . . . . . . . . . . . . . . . . . . . . Curvas DET del sistema SUSAS Simulated - SVM con estad sticos para diferentes costes de entrenamiento. . . . . . . . . . . . . . . . . . . . . . . . . . . . . Curvas DET para SUSAS Simulated - GMM-SVM variando el coste. . . . . . . Curva DET de SUSAS Simulated - SVM con estad sticos, GMM-SVM y fusin o suma. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Esquema de las pruebas dependientes de locutor para SUSAS Simulated - AMF. Curvas DET para SUSAS Simulated - AMF y varios costes. . . . . . . . . . . . Curvas DET para SUSAS Simulated - fusin suma y AMF. . . . . . . . . . . . o Curva DET para la fusin suma por emocin. . . . . . . . . . . . . . . . . . . . . o o Curvas DET por emocin para SUSAS Simulated - AMF. . . . . . . . . . . . . o Curvas DET para SUSAS Actual - SVM con estad sticos, GMM-SVM y fusin o suma. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Curvas DET para SUSAS Actual - AMF y varios costes. . . . . . . . . . . . . . Curvas DET para SUSAS Actual - fusin suma y AMF. . . . . . . . . . . . . . o Curvas DET por emocin para SUSAS Actual - fusin suma. . . . . . . . . . . o o Curvas DET por emocin para SUSAS Actual - AMF. . . . . . . . . . . . . . . o 65 66 66 67 68 69 70 71 72 73 73 74 75 76 77 79 80 80 81 82 83 83 85 86 88 89 89 90 91 91 92 93 94 97 97 98 98 99

10

INDICE DE FIGURAS

Indice de Tablas

1. 2.

Emociones y caracter sticas del habla. . . . . . . . . . . . . . . . . . . . . . . . . 28 Recopilacin de bases de datos de habla emocional. Tabla adaptada de [2]. Abreo viaturas de emociones: Dn: Diversin, Aa: Antipat Eo: Enfado, Ma: Molestia, o a, An: Aprobacin, An: Atencin, Ad: Ansiedad, Ao: Aburrimiento, In: Insatisfao o cin, Dom: Dominio, Dn: Depresin, Dt: Disgusto, Fd: Frustracin, Mo: Miedo, o o o Fd: Felicidad, Ie: Indiferencia, Iy: Iron Ag: Alegr Nl: Neutra, Pc: Pnico, Pn: a, a, a Prohibicin, Se: Sorpresa, Tz: Tristeza, Ss: Estrs, Tz: Timidez, Sk: Shock, Co: o e Cansancio, Tl: Tarea con carga de estrs, Pn: Preocupacin. Abreviaturas para e o otras seales: PS: Presin sangu n o nea, ES: Examinacin de sangrue, EEG: Eleco troencefalograma, G: Respuesta cutnea galvnica, H: Tasa latido corazn, IR: a a o Cmara infrarroja, LG: Laringgrafo, M: Miograma de la cara, R: Respiracin, a o o V: Video. Otras abreviaturas: C/F: Caliente/Frio, Ld e.: efecto Lombard, Astress, P-stress, C-stress: stress Real, F sico y Cognitivo, respectivamente, Sim.: Simulado, Prov.:Provocado, N/A: No disponible. . . . . . . . . . . . . . . . . . . 48 Coecientes estad sticos calculados por cada trama prosdica. . . . . . . . . . . 53 o Distribucin de locutores para experimentos independientes de locutor en SUSAS o Simulated. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Resultados SUSAS Simulated - SVM con estad sticos dependiendo del valor de la variable coste de entrenamiento. . . . . . . . . . . . . . . . . . . . . . . . . . . Conguracin y resultados optimizados para SUSAS Simulated - SVM con eso tad sticos. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Resultados para SUSAS Simulated - GMM-SVM dependiendo del nmero de u gaussianas M. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Resultados dependiendo del coste para SUSAS Simulated - GMM-SVM. . . . . Conguracin y resultados optimizados para SUSAS Simulated - GMM-SVM. . o Resultados para varios costes para SUSAS Simulated - AMF. . . . . . . . . . . EER ( %) por emocin para SUSAS Simulated - fusin suma y AMF. . . . . . . o o Distribucin de locutores para experimentos independientes de locutor en SUSAS o Actual . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Resultados para SUSAS Actual - SVM con estad sticos dependiendo del coste. . Conguracin y resultados optimizados para SUSAS Actual - SVM con estad o sticos. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Resultados del sistema SUSAS Actual - GMM-SVM dependiendo del coste. . . Conguracin y resultados optimizados para SUSAS Actual - GMM-SVM. . . . o Resultados dependiendo del coste SUSAS Actual - AMF. . . . . . . . . . . . . . EER ( %) por emocin para SUSAS Actual - fusin suma y AMF. . . . . . . . . o o Resultados dependiendo del valor del coste para Ah3R1 - SVM con estad sticos. Resultados para Ah3R1 - SVM con estad sticos dependiendo de los vectores de parmetros prosdicos normalizados. . . . . . . . . . . . . . . . . . . . . . . . . . a o Conguracin y resultados optimizados para Ah3R1 - SVM con estad o sticos. . . Resultados para Ah3R1 - GMM-SVM variando el nmero de gaussinas. . . . . u Resultados dependiendo del coste para Ah3R1 - GMM-SVM. . . . . . . . . . . 11 60 62 62 64 65 65 67 68 69 70 71 72 72 74 75 77 78 78 78 79

3. 4. 5. 6. 7. 8. 9. 10. 11. 12. 13. 14. 15. 16. 17. 18. 19. 20. 21. 22. 23.

DETECCION DE EMOCIONES EN VOZ ESPONTANEA 24. 25. 26. 27. 28. 29. 30. 31. 32. 33. 34. 35. 36. 37. 38. 39. 40. 41. 42. 43. 44. 45. 46. Resultados dependiendo de los vectores de parmetros prosdicos normalizados a o para Ah3R1 - GMM-SVM. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Conguracin y resultados optimizados para Ah3R1 - GMM-SVM. . . . . . . . o Resultados dependiendo del coste para Ah3R1 - AMF. . . . . . . . . . . . . . . EER ( %) por emocin para Ah3R1 - fusin suma y AMF. . . . . . . . . . . . . o o EERmedio ( %) para las 3 bases de datos para experimentos independientes de locutor. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . EERs ( %) de los sistemas front-end y back-end para experimentos inter-Base de Datos. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . EERs ( %) para los dos tipos de sistemas AMF. . . . . . . . . . . . . . . . . . . . Distribucin de locutores para experimentos dependientes de locutor en SUSAS o Simulated. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Resultados dependiendo del valor del coste para SUSAS Simulated - SVM con estad sticos. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Resultados para SUSAS Simulated - GMM-SVM para varios costes. . . . . . . . Conguracin y resultados optimizados para SUSAS Simulated - SVM con eso tad sticos y GMM-SVM. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Resultados dependiendo del coste para SUSAS Simulated - AMF. . . . . . . . . EER ( %) por emocin para SUSAS Simulated - fusin suma y AMF. . . . . . . o o Distribucin de locutores para experimentos dependientes de locutor en SUSAS o Actual . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . EER global dependiendo de los vectores de parmetros prosdicos normalizados a o para SUSAS Actual - GMM-SVM. . . . . . . . . . . . . . . . . . . . . . . . . . EER global para SUSAS Actual - GMM-SVM dependiendo del nmero de gausu sinas. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . EER global para SUSAS Actual - GMM-SVM dependiendo del coste. . . . . . . EER global para SUSAS Actual - SVM con estad sticos segn los vectores u prosdicos normalizados. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . o EER global dependiendo del coste para SUSAS Actual - SVM con estad sticos. Conguracin y resultados optimizados para SUSAS Actual - SVM con estad o sticos y GMM-SVM. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Resultados para varios costes para SUSAS Actual - AMF. . . . . . . . . . . . . EER ( %) por emocin para SUSAS Actual - fusin suma y AMF. . . . . . . . . o o EERmedio ( %) para las 3 bases de datos para experimentos dependientes de locutor.

80 81 82 83 84 86 87 87 89 90 90 92 93 94 95 95 95 96 96 96 97 98 99

12

INDICE DE TABLAS

Introduccin o

1

13

DETECCION DE EMOCIONES EN VOZ ESPONTANEA

1.1.

Motivacin o

El reconocimiento de emociones a partir de la seal de voz es una disciplina que est ganann a do inters en la interaccin hombre-mquina. Tiene como objetivo identicar automticamente e o a a el estado emocional o f sico del ser humano a travs de su voz. A los estados emocionales y e f sicos del locutor se les conoce como aspectos emocionales de la voz y forman parte de los llamados aspectos paraling usticos del habla. Aunque el estado emocional no altera el contenido ling ustico, ste es un factor importante en la comunicacin humana, ya que proporciona ms e o a informacin que la meramente semntica acerca del interlocutor. o a Con el progreso de las nuevas tecnolog y la introduccin de sistemas interactivos, se as o ha incrementado enormemente la demanda de interfaces amigables para comunicarse con las mquinas. Existe un amplio rango de aplicaciones en las tecnolog del habla tales como, call a as centers, sistemas inteligentes de automvil o en la industria del entretenimiento. Por ejemplo, o el proyecto SmartKom desarrolla un sistema de reserva de entradas que emplea un reconocedor automtico del habla siendo capaz de reconocer el nivel de enfado o frustracin de un usuario a o cambiando su respuesta correspondientemente. El reconocimiento automtico de emociones en a el habla puede ser empleado por terapeutas como una herramienta de diagnstico en medicina. o En psicolog los mtodos de reconocimiento de voz emocional pueden hacer frente con la a, e enorme cantidad de datos en tiempo real, obteniendo de forma sistemtica las caracter a sticas del habla que transmiten emocin. o El estudio de las caracter sticas emocionales del habla no tiene como unico objetivo el reconocimiento de emociones. Otro de estos objetivos es la s ntesis de voz emocional enfocada principalmente para la comunicacin de discapacitados. Tambin, tareas como el o e reconocimiento del habla emocional o el reconocimiento de locutor a partir de voz emocionada son otras de las disciplinas hacia las que est enfocada el estudio de las emociones en el habla. a Por lo general, las emociones no son genuinas o prot picas, sino que se aparecen como combinacin de varias. Esto hace de su clasicacin una tarea ardua y dada a la subjetividad. o o Sin embargo, la mayor de los investigadores han tratado con emociones protot a picas o completas pues es la unica manera de poder discriminar entre unas emociones y otras. En este proyecto se profundiza en el reconocimiento automtico de emociones en el habla. a Esta tarea consiste en un problema de clasicacin multiclase, donde una locucin de habla o o dada es clasicada entre un conjunto de n emociones. Sin embargo, tambin resulta de inters e e detectar una emocin determinada en un segmento de habla, lo cual justica el uso de un o enfoque de vericacin o deteccin. o o

1.2.

Objetivos

El objetivo del presente proyecto es evaluar el funcionamiento de un conjunto tcnicas e existentes para el reconocimiento de emociones as como de nuevas tcnicas presentadas e en el mismo. Dichas tcnicas se evaluarn tanto para experimentos independientes como e a dependientes de locutor. En concreto, los sistemas estn basados en Modelos de Mezcla de a Gaussianas y Mquinas de Vectores Soporte. El proyecto estudia la forma de optimizar los a resultados. Para el entrenamiento de los modelos y para la evaluacin de los sistemas, se hace uso de o la bases de datos SUSAS Simulated, SUSAS Actual y Ahumada III. El uso de varias bases de datos para la evaluacin de nuestros sistemas va a suponer una mayor variabilidad de o 14 CAP ITULO 1. INTRODUCCION

DETECCION DE EMOCIONES EN VOZ ESPONTANEA emociones y locutores haciendo que los resultados obtenidos sean ms real a sticos.

1.3.

Organizacin de la Memoria o

La memoria consta de los siguientes cap tulos: 1. Introduccin: motivacin y objetivos del proyecto. o o 2. Sistemas automticos de reconocimiento de patrones: repasa la estructura y los difea rentes tipos de sistemas de reconocimiento de patrones. 3. Estado del arte en Reconocimiento de Emociones: realiza un repaso de las principales tcnicas utilizadas para esta disciplina. e 4. Diseo y Desarrollo: describe las bases de datos y sistemas empleados para realizar n los experimentos. 5. Pruebas y Resultados: describe las pruebas y optimiza los resultados. 6. Conclusiones y trabajo futuro: Evala los resultados obtenidos y propone nuevas l u neas de investigacin y mejora. o

CAP ITULO 1. INTRODUCCION

15

DETECCION DE EMOCIONES EN VOZ ESPONTANEA

16

CAP ITULO 1. INTRODUCCION

Sistema automtico de reconocimiento de patrones an patrn es una coleccin de descriptores con los cuales representamos los rasgos de una o o clase. As un sistema automtico de reconocimiento de patrones es una tcnica que mediante , a e el anlisis de las caracter a sticas de cierto elemento, asigna una etiqueta, que representa a una clase, a un patrn concreto. o Un tipo de sistema de reconocimiento automtico de patrones es la biometr o recoa a nocimiento biomtrico. Este, se basa en los rasgos f e sicos intr nsecos o conductuales para el reconocimiento unico de humanos. Estas caracter sticas o comportamientos humanos forman parte de lo que conocemos como rasgos biomtricos. e Otro tipo de sistema de reconocimiento de patrones automtico, aunque no propiamente a perteneciente al reconocimiento biomtricos, es el reconocimiento automtico de emociones. e a Este tipo de sistema se basa en el anlisis de las caracter a sticas particulares de las emociones para clasicar unas frente a otras. La percepcin del estado an o mico humano puede provenir de varios canales, siendo los dos principales las expresiones faciales obtenidas a partir del canal visual y las expresiones lxico-fonticas provenientes del habla. e e

2

U

17

DETECCION DE EMOCIONES EN VOZ ESPONTANEA

2.1. 2.2.

Introduccin o Estructura General

La estructura que sigue un sistema automtico de reconocimiento de patrones es generala mente la misma y es la que aparece en la Figura 1. A partir de ahora nos centramos en los sistemas de reconocimiento automtico que utilizan la informacin emocional de la voz como a o base para la creacin de los patrones para dicho reconocimiento. o Desde que la seal de voz emocionada se expone al sistema hasta que el sistema la reconoce, n verica o rechaza existen una serie de etapas intermedias que se pasan a describir. Por norma general el usuario slo tiene acceso al sensor, mediante el cual se extraer la o a seal de voz. Dicha frontera viene determinada por la l n nea discontinua de la Figura 1. Los mdulos que aparecen con l o neas continuas son aquellos que conforman el sistema base de reconocimiento automtico, mientras que los mdulos con l a o neas discontinuas son opcionales y se suelen usar como complemento de los primeros.

Figura 1: Esquema de funcionamiento de un sistema de reconocimiento. La primera tarea consiste en la captura por parte de un micrfono de la seal de voz, que o n transforma la seal acstica en seal elctrica. n u n e El siguiente paso es la parametrizacin de la seal de voz o extraccin de sus caracter o n o sticas que consiste en su codicacin para que el sistema de reconocimiento sea capaz de medirla y o evaluarla cuantitativamente. La parametrizacin puede venir precedida de un preprocesado de o la seal. Esta etapa opcional esta formada por todos aquellas transformaciones que sufre la n seal y que facilitan su posterior parametrizacin o que la hace ms eciente. Un ejemplo de n o a preprocesado es la eliminacin de ruido de la seal de voz aplicando diversos tipos de ltros. o n Las etapas anteriores son comunes tanto para el proceso de registro como para el de reconocimiento o test. En la etapa de registro, el usuario ofrece su voz al sistema. Esta es 18 CAP ITULO 2. SISTEMA AUTOMATICO DE RECONOCIMIENTO DE PATRONES

DETECCION DE EMOCIONES EN VOZ ESPONTANEA parametrizada y modelada mediante la fase de entrenamiento para obtener como resultado las diferentes clases (emociones) en que va a poder ser clasicado una muestra de test. Estos modelos se almacenan en una base de datos para la posterior etapa de reconocimiento. En la etapa de identicacin se utiliza un comparador para obtener la similitud de nuestro o rasgo parametrizado con respecto a las emociones modeladas en el entrenamiento. Como salida a dicha etapa tenemos una puntuacin (score en ingls). o e La etapa de decisin depender del modo de operacin del sistema. Si se trabaja en modo o a o de vericacin nos har falta prejar un umbral que nuestra puntuacin ha de sobrepasar para o a o considerar que la emocin de la seal de voz de test pertenece a la emocin objetivo. o n o

2.3.

Modos de Operacin o

Desde el punto de vista de los modos de funcionamiento de los sistemas automticos de a reconocimiento, se puede diferenciar dos perspectivas de trabajo. Sistemas de reconocimiento en modo identicacin o Sistemas de reconocimiento en modo vericacin o

2.3.1.

Identicacin o

El modo de identicacin es el que usan los sistemas de reconocimiento automtico o a de locutor e idioma. El objetivo en este tipo de funcionamiento es el de clasicar una realizacin determinada de un rasgo biomtrico como perteneciente a uno de las N posibles o e clases. Para ello se lleva a cabo una comparacin uno a varios [Figura 2]. El sistema o decidir si el rasgo de test pertenece a alguna de las clases modeladas en la etapa de entrea namiento o a ninguna. Dentro de estos sistemas debemos de diferenciar entre dos posibles casos. Identicacin en conjunto cerrado: en este caso, el resultado del proceso es una o asignacin a una de las clases modeladas por el sistema. Existen, por lo tanto, N posibles o decisiones de salida posibles. Identicacin en conjunto abierto: aqu debemos de considerar una posibilidad o adicional a las N del caso anterior: que el rasgo que pretende ser identicado no pertenezca al grupo de clases que contiene la base de datos, con lo que el sistema de identicacin debe de o contemplar la posibilidad de no clasicar la realizacin de entrada como perteneciente a las N o posibles.

Figura 2: Sistema de reconocimiento automtico en modo de identicacin. Figura adaptada de a o [1]. CAP ITULO 2. SISTEMA AUTOMATICO DE RECONOCIMIENTO DE PATRONES 19

DETECCION DE EMOCIONES EN VOZ ESPONTANEA

2.3.2.

Vericacin o

Los sistemas de vericacin, por el contrario llevan a cabo comparaciones uno a uno y o por ello suponen un menor coste computacional que el sistema de identicacin. [Ver Figura 3]. o Este tipo de sistemas necesitan dos entradas: una realizacin del rasgo de test y una solicitud o de identidad a vericar. El sistema busca en la base de datos el modelo de dicha identidad para enfrentarlo a la realizacin de test facilitada. o

Figura 3: Sistema de reconocimiento automtico en modo de vericacin. Figura adaptada de a o [1]. De este modo las dos unicas salidas o decisiones posibles del sistema son la aceptacin o o rechazo del rasgo de test como aquel que pretende ser. La decisin de aceptacin o rechazo o o depender de si la puntuacin obtenida en la identicacin supera o no un determinado umbral a o o de decisin. o Los sistemas de vericacin pueden ser vistos como un caso particular de identicacin en o o conjunto abierto, en el que N=1.

2.4.

Evaluacin de los Sistemas Automticos de Reconocimieno a to

Una de las tareas ms importantes a la hora de disear un sistema de reconocimiento a n automtico es obtener una medida able y precisa de su rendimiento. Gracias a ello vamos a a poder determinar si nuestro sistema cumple unas especicaciones m nimas de funcionamiento, evaluar posibles mejoras o compararlo con otros sistemas.

Figura 4: Densidades y distribuciones de probabilidad de intentos target y non-target. En primer lugar hay que tener claro que son pruebas target y pruebas non-target. Se 20 CAP ITULO 2. SISTEMA AUTOMATICO DE RECONOCIMIENTO DE PATRONES

DETECCION DE EMOCIONES EN VOZ ESPONTANEA denomina intento target cuando se comparara una muestra de una clase con el patrn de o la misma clase, si la muestra y el patrn son de clases distintas, al intento se le denomina o non-target. Cuanto mayor sea el nmero de intentos de tanto pruebas target como non-target, u ms able ser la medida del rendimiento del sistema. Las puntuaciones obtenidas en pruebas a a target sern puntuaciones de usuarios vlidos mientras que las obtenidas en pruebas non-target a a sern puntuaciones de usuarios impostores. El comportamiento del sistema depender del valor a a de umbral a partir del cual aceptar la muestra de prueba como perteneciente a la clase de e referencia. Podemos tener dos tipos de errores, bien que una muestra autntica sea rechazada, lo e que llamaremos tasa de Falso Rechazo (FR), o que una muestra falsa sea aceptada, lo que llamaremos tasa de Falsa Aceptacin (FA). o El umbral es un valor que inuye directamente en la tasa de falsa aceptacin y falso rechazo. o Segn se puede ver en la Figura 4, un valor alto de umbral hace que pocas pruebas non-target u sean aceptadas y por lo tanto la FA descender, a costa de incrementar la FR. Por el contrario, a un valor pequeo de umbral hace que aumente la FA manteniendo bajo la FR. Como vemos, n existe un compromiso entre FR y FA que se debe evaluar acorde a la aplicacin a la que vaya o dirigido nuestro sistema. As por ejemplo, en un control de acceso de alta seguridad ser , a adecuado trabajar con un elevado valor de umbral impidiendo de este modo una tasa alta de FA. Se considera el valor de error igual, EER (Equal Error Rate), a aquel punto donde las curvas de falsa aceptacin y falso rechazo se cruzan. Esta tasa se suele usar para comparar sistemas. o

Figura 5: Curvas ROC y DET. Otro forma de representar grcamente el rendimiento del sistema es mediante las curvas de a la Figura 5. En ellas se enfrenta la probabilidad de FA y FR en una grca. As podemos ver a , que valores de probabilidad de FA y FR tenemos para cada umbral escogido. A esta curva se le llama curva ROC (Receiver Operating Curve). Otra alternativa son las curvas DET (Detection Error Tradeo), cuya unica diferencia con las curvas ROC es un cambio de escala en los ejes [3]. Sern las curvas DET las que se usarn en la seccin de experimentos para mostrar los a a o resultados de forma grca. a Junto a cada una de estas curvas se incluir una tabla con tres valores importantes a la a hora de evaluar un sistema. Estos valores sern: el DCF m a nimo (Detection Cost Function), EER global (en %) y EER medio (en %). CAP ITULO 2. SISTEMA AUTOMATICO DE RECONOCIMIENTO DE PATRONES 21

DETECCION DE EMOCIONES EN VOZ ESPONTANEA

El EER medio se calcula como el valor medio de los EERs por modelo. As EER medio , diferir del EER global cuando los modelos no tengan todos el mismo nmero de intentos o a u puntuaciones. La funcin de coste es otra forma habitual de medir el rendimiento de los sistemas. Se o dene como: CDET (i) = CM iss PM iss|T arget PT arget + CF alseAlarm PF alseAlarm|N onT arget (1 PT arget ) Donde CM iss es el coste asociado a un falso rechazo, CF alseAlarm es el coste asociado a una falsa aceptacin, PT arget es la probabilidad de que un chero dado pertenezca a la emocin o o en cuestin (establecida a priori), PM iss|T arget es el porcentaje de falsos rechazos (dado por el o sistema) y PF alseAlarm|N onT arget es la probabilidad de una falsa aceptacin (dada por el sistema). o Los valores jados para la evaluacin de locutor NIST SRE 2006 son: Cmiss =1, o CF alseAlarm =10 y PT arget =0.01. Estos valores son los que vamos a utilizar para nuestro trabajo pues se ajustan tambin a nuestra tarea de evaluacin de reconocimiento de emociones. e o Una falsa aceptacin se penaliza 10 veces ms que un falso rechazo. La probabilidad de que o a el locutor experimenta una cierta emocin es de 0.01 pues lo habitual es encontrarnos en un o estado de excitacin normal. o De esta forma, con el porcentaje de falsa aceptacin y falso rechazo, PM iss|T arget y o PF alseAlarm|N onT arget , obtenido de nuestro sistema podremos evaluar la funcin de coste, obteo niendo lo que se conoce como DCF. El DCF m nimo ser el m a nimo valor de la DCF.

2.5.

Normalizacin de Puntuaciones o

Los sistemas de reconocimiento automtico de patrones producen como salida una serie de a puntuaciones que evalan la similitud entre las muestras de test y las clases o modelos. u Mediante las normalizaciones lo que se pretende es proyectar las puntuaciones tanto de pruebas target como non-target sobre un espacio acotado de media cero y varianza unidad, de tal modo que las puntuaciones queden acotadas. Con dicha proyeccin o escalado de las puntuaciones, lo que se pretende es buscar un umbral o global para la tarea de decisin ya que puede ocurrir que durante la fase de autenticacin, o o las puntuaciones de un determinado usuario, tanto las del propio usuarios como las de los impostores, estn en un rango de valores distinto al de otros usuarios. Este efecto se conoce e como desalineamiento. La normalizacin de puntuaciones son el conjunto de tcnicas y o e algoritmos que permiten aumentar el rendimiento y robustez del sistemas compensando este desalineamiento. La normalizacin de puntuaciones es tambin importante para la posterior fusin de o e o sistemas pues sita las puntuaciones de sistemas individuales en rangos homlogos. u o Las tcnicas ms corrientes de normalizacin de puntuaciones son la T-norm y la Z-norm. e a o La T-norm (Test Normalization) [4] es una normalizacin dependiente de la muestra de test, o mientras que la Z-norm (Zero Normalization) [4] es dependiente del modelo o usuario.

22 CAP ITULO 2. SISTEMA AUTOMATICO DE RECONOCIMIENTO DE PATRONES

Estado del arte en Reconocimiento de Emociones

3

El reconocimiento automtico de emociones es sin duda una tarea multidisciplinar que a involucra diferentes campos de investigacin tales como psicolog ling o a, ustica, anlisis de voz, a anlisis de imgenes y aprendizaje automtico. El progreso en el reconocimiento automtico de a a a a emociones est condicionado al progreso en cada uno de los campos. a Por ello, un sistema reconocedor deber de realizar un anlisis multimodal en el cual a a interviniese informacin procedente de diferentes sensores. Hay muchas seales humanas a o n partir de las cuales se puede sacar informacin sobre el estado emocional de la persona, como o por ejemplo, la voz, la imagen facial, gestos y posturas, ritmo de respiracin y latido del corazn, o o etc. Las tareas ms estudiadas actualmente son el reconocimiento de emociones en el habla y en a imgenes faciales. Si bien este proyecto slo analizar el reconocimiento de emociones en el habla. a o a

23

DETECCION DE EMOCIONES EN VOZ ESPONTANEA

3.1.

Introduccin o

En la comunicacin humana se puede distinguir dos canales diferenciados. Uno de ellos o se encarga de transmitir el mensaje de forma expl cita, es decir, el contenido meramente semntico. El otro tipo de canal no expl a cito hace enriquecer la comunicacin humano-humano o y es el que transmite informacin impl o cita como edad, sexo, estado emocional del usuario, etc. Es en ste en el que se centra el reconocimiento automtico de emociones. La importancia e a de estudiar el reconocimiento emocional y aadirlo a una interfaz automtica es grande ya n a que es la base de las relaciones humanas, y se fundamenta en la interpretacin de las seales o n transmitidas de forma inconsciente y que no siempre son verbales. El paradigma de la comunicacin hombre-mquina sugiere que las interfaces futuras se o a deben centrar en el humano y ser capaces de anticiparse, como por ejemplo, teniendo la habilidad de detectar cambios en el comportamiento del usuario, especialmente su comportamiento emocional.

3.2.

Aplicaciones

Los sistemas de reconocimiento automtico de emociones estn orientados hacia una amplia a a gama de aplicaciones. Se podr diferenciar entre dos tipos de campos de aplicaciones; aquellas a que mejoran la calidad de vida, y las que sirven para mejorar investigaciones relacionadas con la emocin [5]. o Entre las aplicaciones cuya nalidad es mejorar la calidad de vida tenemos servicios al cliente sensibles a la emocin, call centers, sistemas de automviles inteligente capaces de deo o tectar fatiga en el conductor, aplicaciones orientadas a la industria del juego y entretenimiento o sistemas de s ntesis de habla emocional para discapacitados. Estos sistemas cambiarn la a manera en que interaccionamos con las mquinas. Por ejemplo, un servicio de call center a automtico con detector de emocin ser capaz de producir una respuesta apropiada o pasar a o a el control a un operador humano. La mayor de los sintetizadores de habla actuales ofrecen a voz neutra que resulta montona y rutinaria. El proveer a estos sistemas de voz personalizada o ser de gran ayuda para personas disminuidas. a El otro grupo importante de aplicaciones est orientado a la mejora de investigaciones (por a ejemplo, en psicolog psiquiatr comportamiento humano o neurolog a, a, a), donde este tipo de sistemas puede mejorar la calidad de la investigacin obteniendo mayor abilidad en las o medidas y mayor velocidad en tareas manuales de procesado de datos sobre el comportamiento emocional. Las reas de investigacin en las que se puede obtener un benecio sustancial son a o investigaciones en la conducta social (como el grado de inters de un sujeto en la comunicacin e o [6]) y emocional, la relacin madre-hijo, trastornos psiquitricos y el estudio de expresiones o a afectivas (por ejemplo, decepcin). o

3.3.

Naturaleza de las Emociones

En cada instante experimentamos algn tipo de emocin o sentimiento. Nuestro estado u o emocional var a lo largo del d en funcin de lo que nos ocurre y de los est a a o mulos que percibimos. Otra cosa es que tengamos siempre conciencia de ello, es decir, que sepamos y podamos expresar con claridad que emocin experimentamos en un momento dado. o Las emociones son experiencias muy complejas y para expresarlas utilizamos una gran variedad de trminos, adems de gestos y actitudes. Debido a su complejidad ser imposible e a a 24 CAP ITULO 3. ESTADO DEL ARTE EN RECONOCIMIENTO DE EMOCIONES

DETECCION DE EMOCIONES EN VOZ ESPONTANEA hacer una descripcin y clasicacin de todas las emociones que podemos experimentar. Sin o o embargo, el vocabulario usual para describir las emociones es reducido y ello permite que las personas de un mismo entorno cultural puedan compartirlas. La complejidad con la que podemos expresar nuestras emociones nos hace pensar que la emocin es un proceso multifactorial o multidimensional. Uno siempre tiene la impresin o o de que le faltan palabras para describir con precisin sus emociones. La emocin no es un o o fenmeno simple, sino que muchos factores contribuyen a ello. Se experimentan a veces cuando o algo inesperado sucede y los efectos emocionales empiezan a tener control en esos momentos. Emocin y estado emocional son conceptos diferentes: mientras que las emociones surgen o repentinamente en respuesta a un determinado est mulo y duran unos segundos o minutos, los estados de nimo son ms ambiguos en su naturaleza, perdurando durante horas o d a a as. Las emociones pueden ser consideradas ms claramente como algo cambiante y los estados de a a nimo son ms estables. Aunque el principio de una emocin puede ser fcilmente distinguible a o a de un estado de nimo, es imposible denir cuando una emocin se convierte en un estado de a o a nimo; posiblemente por esta razn, el concepto de emocin es usado como un trmino general o o e que incluye al del estado de nimo. a Como trmino ms general al de estado de nimo y emocin, est el rasgo a largo plazo de e a a o a personalidad, que puede denirse como el tono emocional caracter stico de una persona a lo largo del tiempo. Muchos de los trminos utilizados para describir emociones y sus efectos son necesariamente e difusos y no estn claramente denidos. Esto es atribuible a la dicultad en expresar en palabras a los conceptos abstractos de los sentimientos, que no pueden ser cuanticados. Por ello, para describir caracter sticas de las emociones se utilizan un conjunto de palabras emotivas, siendo seleccionadas la mayor de ellas por eleccin personal en vez de comunicar un signicado a o estndar. a

3.4.

Emociones en el Habla

La voz es el principal modo de comunicacin entre humanos y por consiguiente a lo largo o de las ultimas dcadas se ha estudiado las maneras en que funciona el tracto vocal a la hora de e producir voz. Durante este tiempo se ha investigado la manera de disear sistemas capaces de n sintetizar y reconocer voz electrnicamente. o Uno de los mayores problemas con los que se ha encontrado la comunidad cient ca a la hora de estudiar los mecanismos del habla es la variabilidad de sta. Muchos estudios han e demostrado que por medio de la voz se es capaz de reconocer varios aspectos del estado f sico, tales como la edad, sexo, apariencia y del estado emocional [7], [8]. Todo este conjunto de factores, diferentes para cada locutor, contribuyen a la variabilidad del habla. El problema por ejemplo en los sintetizadores de habla es que no ofrecen esta variabilidad en el habla y producen por lo tanto un habla no natural. La variabilidad en el habla supone tambin un e problema en el reconocimiento de habla haciendo as que un contenido semntico como por a ejemplo una palabra pueda ser expresada de un nmero incalculable de maneras dependiendo u de las condiciones de cada locutor, sexo, edad, estado emocional, etc. Para implementar con xito los reconocedores de emociones en el habla hay que tener e en cuenta dos factores fundamentales: el conocimiento de como pueden distinguirse las caracter sticas emocionales de la voz y como pueden describirse dichas caracter sticas usando los mtodos de procesado de voz convencionales. e CAP ITULO 3. ESTADO DEL ARTE EN RECONOCIMIENTO DE EMOCIONES 25

DETECCION DE EMOCIONES EN VOZ ESPONTANEA Si consideramos el conjunto de caracter sticas del habla que puedan ser analizadas en habla emocionada (bajo estrs), la frecuencia fundamental o pitch es una de las que ms se ha e a estudiado histricamente. Uno de los primeros y ms amplios trabajos sobre el anlisis de las cao a a racter sticas del habla fue Williams y Stevens [9], al cual le fueron sucediendo ms con el tiempo. a Los efectos de las emociones en el habla han sido estudiados por investigadores acsticos u que han analizado la seal de voz, por lingistas que han estudiado los efectos lxicos y n u e prosdicos y por psiclogos. Gracias a estos esfuerzos se ha conseguido identicar muchos de los o o componentes del habla que se utilizan para expresar emociones, dentro de los cuales se consideran los ms importantes: pitch, duracin, calidad de voz y forma del pulso glotal y tracto vocal. a o

3.4.1.

Pitch

El pitch o frecuencia fundamental es la frecuencia a la que vibran las cuerdas vocales, tambin llamada frecuencia fundamental o F0. Es uno de los parmetros que caracterizan la e a voz de un locutor. Se considera que las caracter sticas del pitch son unas de las principales portadoras de la informacin emocional. o Las caracter sticas de la frecuencia fundamental incluyen contorno, media, variabilidad y distribucin. o El valor medio del pitch depende del locutor y expresa el nivel de excitacin del locutor. o Podemos armar que una media elevada de F0 indica un mayor grado de excitacin. o El rango del pitch es la distancia entre el valor mximo y m a nimo de la frecuencia fundamental. Reeja tambin el grado de exaltacin del locutor. Un rango ms extenso que el e o a normal reeja una excitacin emocional o psicolgica. o o Las uctuaciones en el pitch descritas como la velocidad de la uctuaciones entre valores altos y bajos y si son abruptas o suaves son producidas psicolgicamente. En general, la curva o de tono es discontinua para las emociones consideradas como negativas (miedo, enfado) y es suave para las emociones positivas (por ejemplo la alegr a).

Figura 6: Ejemplo de distribucin de probabilidad de pitch para un locutor masculino. o 26 CAP ITULO 3. ESTADO DEL ARTE EN RECONOCIMIENTO DE EMOCIONES

DETECCION DE EMOCIONES EN VOZ ESPONTANEA La distribucin de pitch describe el rango de valores de pitch as como la probabilidad o de que un cierto valor est dentro de un subconjunto de dicho rango. Dicha distribucin es e o precisamente lo que modelaremos posteriormente en nuestro sistema GMM-SVM. La Figura 6 corresponde con un ejemplo de distribucin de pitch de un locutor masculino. Una de las o maneras ms fcil de distinguir entre voz masculina y femenina es a travs de la distribucin a a e o del pitch. As el gnero femenino posee una frecuencia fundamental media aproximadamente , e el doble a la del hombre y una desviacin tambin mucho mayor [Figura 7], es decir, existe o e mayor diversidad de tono de voz en mujeres que en hombres.

Figura 7: Distribucin F0 hombre/mujer. o

3.4.2.

Duracin o

La duracin es la componente de la prosodia descrita por la velocidad del habla y la o situacin de los acentos, y cuyos efectos son el ritmo y la velocidad. El ritmo en el habla deriva o de la situacin de los acentos y de la combinacin de las duraciones de las pausas y de los o o fonemas. Para ciertas condiciones de estrs, la duracin de las palabras o de los fonemas, los cambios e o entre vocales frente a consonantes o la presencia de consonantes juegan un papel importante en la habilidad de los oyentes a la hora de recibir la informacin del locutor [10]. o Las emociones pueden distinguirse por una serie de parmetros que conciernen a la a duracin, como son: o velocidad de locucin: generalmente un locutor en estado de excitacin acortar la o o a duracin de las s o labas, con lo que la velocidad de locucin medida en s o labas por segundo o en palabras por minuto se incrementar. a nmero de pausas y su duracin: un locutor exaltado tender a hablar rpidamente u o a a con menos pausas y ms cortas, mientras que un locutor deprimido hablar ms lentamente, a a a introduciendo pausas ms largas. a

3.4.3.

Calidad de Voz

La calidad de voz puede marcar la diferencia entre unas emociones y otras. Existen numerosas variables fonticas relacionadas con la calidad de voz: cociente de abertura de e las cuerdas vocales, timbre e irregularidades de la voz, ruido, distribucin de la energ o a (intensidad), laringerizacin, etc. o CAP ITULO 3. ESTADO DEL ARTE EN RECONOCIMIENTO DE EMOCIONES 27

DETECCION DE EMOCIONES EN VOZ ESPONTANEA

3.4.4.

Pulso Glotal y Tracto Vocal

Las caracter sticas espectrales producidas como respuesta al tracto vocal y glotal tambin e se ven modicadas durante la produccin de habla bajo estrs. o e Caracter sticas de la forma del pulso glotal como la pendiente, centro de masas o nivel medio espectral, tambin han sido analizadas como potenciales rasgos acsticos correlados con e u el habla emocional. Tambin han sido investigadas la media, varianza y la localizacin y ancho e o de banda de los formantes para estudiar el efecto del habla bajo condiciones de estrs [11]. e

La Tabla 1 presenta un resumen de las relaciones entre las emociones y los parmetros del a discurso. Como se puede observar en la tabla unicamente aparecen cinco emociones. Como veremos en la seccin 3.5, stas corresponden con las emociones primarias o bsicas. El resto o e a de emociones modican y combinan estas emociones bsicas y son las que llamamos emociones a secundarias. Ira Ligeramente acelerada Procedente del pecho Alta Pendiente fuerte y alto ancho banda Felicidad Acelerada o retardada Estridente Alta Pendiente fuerte Tristeza Pausada Resonante Baja Pendiente suave y ancho banda estrecho. Miedo Muy acelerada Irregular Normal Pendiente muy fuerte y gran ancho banda Disgusto Mucho ms a acelerada Retumbante Baja Pendiente fuerte

Veloc. Habla Calidad voz Intensidad Pulso glotal

Tabla 1: Emociones y caracter sticas del habla. Existe en general una relacin conocida entre el habla y las emociones primarias. Las o medidas del habla que parecen ser buenas indicadoras de estas emociones son medidas acsticas u continuas, tales como las relacionadas con la variacin del discurso, el rango, la intensidad y o la duracin del mismo. Sin embargo esta relacin suele no ser suciente. Una de las l o o neas de investigacin en el reconocimiento automtico de emociones es la mejora de nuestra capacidad o a para identicar la correlacin entre las seales acsticas en el discurso y el amplio rango de o n u emociones producidas por el hablante. Los sistemas diseados para llevar a cabo esta tarea, por n lo general, son extremadamente sensibles a la variabilidad introducida por el hablante. Esta variabilidad se debe, especialmente a variaciones en la voz y en estilo causadas por ejemplo por diferentes estados de nimo del hablante [12]. a

3.5.

Clasicacin de las Emociones o

En la mayor de los casos, las emociones no son genuinas o prot a picas, sino que se dan como mezcla de varias. Esto provoca que la clasicacin de las emociones sea una tarea ardua o y totalmente expuesta a las subjetividad. Sin embargo, la mayor de los investigadores han a tratado siempre con emociones protot picas o completas pues es la unica manera de poder discriminar entre unas emociones y otras. Basndonos en el grado en que las emociones afectan al comportamiento del sujeto podemos a clasicar las emociones como positivas o negativas. Cada emocin expresa una cantidad o o 28 CAP ITULO 3. ESTADO DEL ARTE EN RECONOCIMIENTO DE EMOCIONES

DETECCION DE EMOCIONES EN VOZ ESPONTANEA magnitud en una escala positivo/negativo. As experimentamos emociones positivas y negativas , en grados variables y de intensidad diversa. Podemos experimentar cambios de intensidad emocional bruscos o graduales, bien hacia lo positivo o bien hacia lo negativo. Es decir, toda emocin representa una magnitud o medida a lo largo de un continuo, que puede tomar valores o positivos o negativos. En el lenguaje cotidiano, expresamos nuestras emociones dentro de una escala positivonegativo y en magnitudes variables, como me siento bien, me siento muy bien, me siento extraordinariamente bien(intensidades o grados del polo positivo) o me siento mal, me siento muy mal, me siento extraordinariamente mal(intensidades o grados del polo negativo). Segn sea la situacin que provoca la emocin, escogemos unas palabras u otras como u o o amor, amistad, temor, incertidumbre, respeto, etc., que, adems, seala su signo (positivo a n o negativo). Y segn sea la intensidad de la emocin escogemos palabras como nada, poco, u o bastante, muy, etc. y as componemos la descripcin de una emocin. Decimos, por ejemplo, , o o me siento muy comprendido(positiva) o me siento un poco defraudado(negativa). En consecuencia, podemos reconocer en toda emocin dos componentes bien diferenciados. o Por un lado, un componente cualitativo que se expresa mediante la palabra que utilizamos para describir la emocin (amor, amistad, temor, inseguridad, etc.) y que determina su signo o positivo o negativo. Por otro lado, toda emocin posee un componente cuantitativo que se o expresa mediante palabras de magnitud (poco, bastante, mucho, gran, algo, etc.), tanto para las emociones positivas como negativas. Otro tipo de clasicacin es la que diferencia entre emociones primarias y emociones o secundarias. Las primeras son las emociones fundamentales mientras que las secundarias son todas las dems que modican y combinan estas emociones bsicas. Sin embargo, no hay a a consenso sobre cules constituyen las emociones bsicas. a a Emociones primarias - Enfado: El enfado ha sido ampliamente estudiado en la literatura sobre emociones. Hay contradicciones entre los efectos recogidos en estos escritos, aunque esto puede ser debido a que el enfado puede ser expresado de varias maneras. El enfado se dene como la impresin o desagradable y molesta que se produce en el nimo. El enfado se caracteriza por un tono a medio alto (229 Hz), un amplio rango de tono y una velocidad de locucin rpida (190 palabras o a por minuto), con un 32 % de pausas. - Alegr Se maniesta en un incremento en el tono medio y en su rango, as como un a: incremento en la velocidad de locucin y en la intensidad. o - Tristeza: El habla triste exhibe un tono medio ms bajo que el normal, un estrecho rango a y una velocidad de locucin lenta. o - Miedo: Comparando el tono medio con los otras cuatros emociones primarias estudiadas, se observ el tono medio ms elevado (254Hz), el rango mayor, un gran nmero de cambios en o a u la curva del tono y una velocidad de locucin rpida (202 palabras por minuto). o a - Disgusto/odio: Se caracteriza por un tono medio bajo, un rango amplio y la velocidad de locucin ms baja, con grandes pausas. o a Emociones secundarias - Pena: es una forma extrema de tristeza, generalmente causada por una aiccin. Se o CAP ITULO 3. ESTADO DEL ARTE EN RECONOCIMIENTO DE EMOCIONES 29

DETECCION DE EMOCIONES EN VOZ ESPONTANEA caracteriza por un bajo tono medio, el rango de tono ms estrecho, la pendiente de la curva de a tono ms baja, una velocidad de locucin baja y un alto porcentaje de pausas. a o - Ternura: se expresa con un alto nivel de tono que no ucta excesivamente. u - Iron caracterizada por una velocidad de locucin baja y una acentuacin muy marcada. a: o o - Sorpresa: con un tono medio mayor que la voz normal, una velocidad igual a la normal y un rango amplio. Otras emociones secundarias: como el temor, la queja, el anhelo, el aburrimiento, la satisfaccin, la impaciencia, el ensueo, la coqueter han sido tambin objeto de estudio. o n a e Autores como J. Davitz, Osgood, Suci y Tannembaum clasicaron las emociones utilizando para ello tres dimensiones del espacio semntico: potencia, valencia y actividad [13]. a Potencia o fuerza: corresponde a la atencin rechazo. Ayuda a distinguir entre o emociones iniciadas por el sujeto a aquellas que surgen del ambiente (desde el desprecio al temor o la sorpresa). Tambin se le ha llamado fuerza o dominio. e Valencia, agrado o valoracin: se reere al grado de positividad o negatividad de la o emocin (desde la alegr hasta el enfado). o a Actividad: corresponde al grado de intensidad en la emocin. Tambin se la conoce o e como intensidad o dimensin de intensidad. o En varios estudios se ha descubierto que se confunden ms entre s las emociones con un a nivel similar de actividad (como por ejemplo la alegr y el enfado) que las que presentan a similitud en trminos de valencia o de fuerza. Tambin estn relacionados el ritmo y la valencia e e a de forma que los sentimientos positivos son expresados con un ritmo ms regular que los a sentimientos negativos. Esto lleva a la conclusin que la dimensin de la actividad est ms o o a a correlacionada con las variables auditivas relativamente ms simples de la voz, como pueden a ser el tono y la intensidad, mientras que la valencia y la fuerza son probablemente comunicados por modelos ms sutiles y complejos. a Algunos investigadores han utilizado otra clasicacin, dividiendo las emociones en: o Pasivas: Se caracterizan por una velocidad de locucin lenta, un volumen bajo, un tono o bajo y un timbre ms resonante. a Activas: Caracterizadas por una velocidad de locucin rpida, alto volumen, alto tono y o a un timbre encendido.

3.6.

Implicaciones Jur dicas

Existen varias reas donde el reconocimiento de emociones puede inuir en una sentencia a legal. En lineas generales, estas reas incluyen valoracin de emociones en los dems, emociones a o a y memoria (credibilidad de testigos), emociones y cultura (efectos en investigaciones forenses), y conocimiento legal y emociones [14]. Valoracin de emociones en los dems o a 30 CAP ITULO 3. ESTADO DEL ARTE EN RECONOCIMIENTO DE EMOCIONES

DETECCION DE EMOCIONES EN VOZ ESPONTANEA La capacidad de detectar emociones y el grado de las mismas a travs de rasgos acsticos e u de la seal de voz puede ser de gran utilidad en el sistema jur n dico. Por ejemplo, las fuerzas de la ley se pueden beneciar conociendo que emociones experimenta un sospechoso en un interrogatorio para as evaluar su credibilidad. O un jurado puede dar credibilidad o no a un testigo bajo el conocimiento de cambios en su habla. Emociones y memoria Errneamente, los tribunales depositan demasiada conanza en los testigos visuales o o auditivos. Para calcular de forma ms acertada la abilidad de los testimonios de los testigos, a stos deber deber ser analizados computacional, como por ejemplo, incluir una valoracin e an an o del estado emocional del testigo. Se necesita de un mejor entendimiento de las emociones pues stas juegan un papel crucial en la memoria. Los psiclogos cognitivos suelen distinguir entre e o formacin, codicado, asociacin y reconstruccin de la memoria. Todos estos procesos pueden o o o ser afectados por la emocin. Se piensa que por ejemplo, los sucesos emocionales conllevan o alguna preferencia en su procesado y por lo tanto son ms estables y los recordamos con mayor a precisin. o Emociones y cultura Las diferencias entre las emociones entre culturas puede suponer un serio problema en las investigaciones forenses. Por ejemplo, se ha visto que las interpretaciones de una lengua fornea en interrogatorios policiales generan problemas, especialmente si el intrprete no ha a e sido entrenado correctamente o si el polic acta como intrprete. Las traducciones literales a u e de lenguas extrajeras deber ser enfatizadas para dar un entendimiento global de lo que se an quiere comunicar. Sin embargo, no puede ser del todo posible debido a la ambigedad entre el u gran nmero de traducciones hay entre idiomas y culturas. u Emociones y conocimiento legal El sistema judicial reconoce a las emociones como una parte ntegra del mismo. El propio sistema est basado en normas morales, las cuales, se basan en valores emocionales. Por a ejemplo, los cr menes se castigan, adems de por su carcter intr a a nseco, por la actitud del culpable sobre la v ctima. As el castigo se grada por las emociones que el culpable padece , u en los momentos que rodean al acontecimiento. Por lo tanto, las emociones se entrelazan intr nsecamente con la ley.

3.7.

Tcnicas de Reconocimiento de Emociones e

En esta seccin se van a mostrar las tcnicas de reconocimiento de emociones en el habla o e ms importantes que se estudian en la actualidad. La mayor de las tcnicas usadas ahora a a e para el reconocimiento de emociones anteriormente vienen de ofrecer buenos resultados en tareas de reconocimiento de tanto locutor como de idioma.

3.7.1.

GMM

La tcnica de Modelos de Mezcla de Gaussianas (GMM o Gaussian Mixture Models) e aplicada al reconocimiento automtico de emociones [15] se basa en el principio de que las a emociones tienen diferentes sonidos y que la frecuencia de aparicin de los sonidos es diferente o de una emocin a otra. Los GMM modelan la distribucin de probabilidad de los parmetros o o a (x) de un fragmento de audio. Los parmetros que ms se usan son los MFCC (Mel Frequency a a Cepstral Coecients) o SDC (Shifted Delta Cepstral ) como parmetros acsticos y contornos a u CAP ITULO 3. ESTADO DEL ARTE EN RECONOCIMIENTO DE EMOCIONES 31

DETECCION DE EMOCIONES EN VOZ ESPONTANEA de energ y pitch para parmetros prosdicos. a a o El modelado de la distribucin de probabilidad de los parmetros se realiza a partir de un o a modelo de suma de M funciones de densidad Gaussianas, pi (x), cada una parametrizada por el vector de medias Dx1 , i , y una matriz de covarianzas DxD, i ;

M

p(x|) =i=1

wi pi (x) x exp[ 1 (x i )T 21 i (x M i=1 wi

donde pi (x) =

1 (2)D/2 |i |1/2

i )].

Los pesos de la mezcla, wi , satisfacen la limitacin o = {wi , i , i }, donde i = 1, ..., M .

= 1. El modelo se dene como

Normalmente se suelen usar matrices de covarianza diagonales por varias razones. Los GMMs con M > 1 con matrices de covarianza diagonales modelan distribuciones de vectores de caracter sticas con elementos correlados. Tambin GMMs con matrices diagonales son e computacionalmente ms ecientes que matrices de covarianza completas, las cuales requieren a de repetidas inversiones de matrices DxD.

Figura 8: GMM bidimensional de 4 Gaussianas. Dada una coleccin de vectores de entrenamiento, se estiman los parmetros de los modelos o a usando el algoritmo iterativo de mxima-expectacin (EM, Expectation-Maximization en a o ingls) [16] (EM , expectation-maximization en ingls). Dicho algoritmo iterativamente rena e e los parmetros del GMM. Por ejemplo, para la iteracin k y k + 1, p(X|k+1 ) > p(X|k ). a o Normalmente con 5 iteraciones es suciente para la convergencia de los parmetros. a Para unos vectores de caracter sticas desconocidos X = {x1 , ..., xT } (se asumen que son independientes), el modelo GMM asigna una puntuacin relacionada con su verosimilitud o frente a un modelo que se calcula como:T

log p(X|) =t=1

log p(xt |)

32

CAP ITULO 3. ESTADO DEL ARTE EN RECONOCIMIENTO DE EMOCIONES

DETECCION DE EMOCIONES EN VOZ ESPONTANEA Existen dos hiptesis: o H0 : que el conjunto de vectores X pertenezca a la clase C. H1 : que el conjunto de vectores X no pertenezca a la clase C. As basndonos en el teorema de Bayes, la decisin ptima se toma a partir del cociente de , a o o las dos probabilidades: p(X|H0 ) p(X|H1 ) Donde p(X|H1 ) es la probabilidad de que la clase C no haya generado la muestra x, y sin embargo haya sido cualquier otra clase. Si dicho cociente supera un umbral , entonces se acepta la hiptesis H0 , sino se rechaza o aceptando por lo tanto H1 . Para estimar p(x|H1 ) se hace uso de los que se conoce como modelos UBM (Universal Background Model). Un UBM es un modelo GMM estndar pero que ha sido entrenado a partir a de observaciones de todos las clases (o un conjunto representativo de las mismas). Los UBM estiman la densidad de probabilidad de las observaciones, sobre todas las clases existentes. Por tanto, la verosimilitud frente al UBM mide la probabilidad de que la observacin haya podido o ser generada por una clase cualquiera. En el sistema GMM UBM, el modelo se calcula mediante la adaptacin de los parmetros o a de UBM usando los datos de entrenamiento de cada clase y un tipo de adaptacin Bayesiana o llamada estimacin de mximo a posteriori (MAP, maximum a posteriori ). o a Los Modelos de mezclas Gaussianas son tcnicas que originalmente fueron aplicadas al ree conocimiento automtico de locutor e idioma. El que dichas tcnicas se hayan extendido al a e reconocimiento de emociones viene motivado por la similitud entre el reconocimiento de emocin e idioma y por los buenos resultados que los GMMs lograron en locutor e idioma. As se o , puede encontrar en la literatura gran cantidad de art culos que aplican el enfoque estad stico (generativo) en el reconocimiento de emociones en el habla [15] [17] [18].

3.7.2.

SVM

Las Maquinas de Vectores Soporte (SVM o Support Vector Machines) son un tipo de clasicador de patrones binarios cuyo objetivo es asignar cada patrn a una clase [19]. A o diferencia de los mtodos tradicionales (generativos) los cuales modelan la probabilidad de una e clase, los SVM son tcnicas discriminativas, cuyo objetivo es modelar el plano de separacin e o entre una clase y el conjunto de clases impostoras. Planteamiento del problema de optimizacin o El problema consiste en construir un hiperplano de separacin que divida el espacio Rn o en dos regiones. Supongamos que tenemos dicho hiperplano, las muestras que caigan en una regin pertenecern a clase -1 y las que caigan en la otra a la clase 1. A este hiperplano se le o a conoce como hiperplano de separacin. o Los vectores x que pertenecen al hiperplano de separacin cumplirn la ecuacin: w x+d=0, o a o donde: w es un vector normal al hiperplano de separacin. o d es una constante. CAP ITULO 3. ESTADO DEL ARTE EN RECONOCIMIENTO DE EMOCIONES 33

DETECCION DE EMOCIONES EN VOZ ESPONTANEA|d| La distancia ||w|| es la distancia perpendicular desde el hiperplano al origen. Llamaremos d+ y d a las distancias entre el hiperplano de separacin y las muestras ms cercanas a la o a clase +1 y -1 respectivamente. Con todo ello, el margen del hiperplano ser la distancia entre a las muestras ms cercanas de las clases: a

m = d+ + d Para el caso de datos linealmente separables, el objetivo es encontrar el hiperplano de separacin que hace mximo este margen. o a A la hora de formular formalmente el problema supondremos que todos los datos de entrenamiento cumplen una de las siguientes restricciones: xi w + d +1 si yi = +1 xi w + d +1 si yi = 1 donde: yi = {1, 1} representa la etiqueta de la clase a la que pertenece cada vector. i = {1, ..., N } N es el nmero de vectores de entrenamiento. u Combinando estas dos restricciones tenemos que: yi (xi w+d)-10 i A los puntos ms cercanos al hiperplano de separacin se les conoce como vectores soporte, a o y estn contenidos en los dos planos: a H1: xi w+d=+1 H2: xi w+d=-1 Ambos planos H1 y H2 son pararelos entre s y a su vez paralelos al hiperplano de separacin. Por lo tanto su componente normal seguir siendo w [ver Figura 9] y sus respectivas o a distancias al origen sern: a|1b| ||w|| |1b| ||w||

para H1 para H21 ||w||

Cumpliendo todas las restricciones anteriores, las distancias d+ y d sern a 1 1 2 el margen m=d+ +d = ||w|| + ||w|| = ||w||

por lo que

El objetivo de los SVM es encontrar el hiperplano que maximice el margen de separacin. o Por lo tanto el problema se reduce a minimizar ||w|| sujeto a la restriccin de: o yi (xi w + d) 1 0 i. 34 CAP ITULO 3. ESTADO DEL ARTE EN RECONOCIMIENTO DE EMOCIONES

DETECCION DE EMOCIONES EN VOZ ESPONTANEA

Figura 9: Concepto de un SVM. Si los datos son linealmente separables, la resolucin del problema obtiene un m o nimo global, sino, el problema no es resoluble. Existen mtodos computacionalmente ecientes para e resolver problemas cuadrticos con mltiples restricciones lineales. Uno de ellos es mediante la a u formulacin de Lagrange. o La formulacin de Lagrange permite resolver un problema de optimizacin, como es nuestro o o caso, bajo una serie de restricciones mediante la introduccin de unas nuevas variables, los o multiplicadores de Lagrange, i . Puede demostrarse que es posible obtener el hiperplano o ptimo de separacin, w, mediante una combinacin lineal de los vectores soporte. El peso de o o cada uno de estos vectores se obtiene mediante los multiplicadores de Lagrange. Como solucin al problema se obtiene que el vector w se puede escribir en funcin de los o o vectores de entrenamiento, xi como:N

w=i=1

i yi x i

Cada vector de entrenamiento tendr asociado un multiplicador de Lagrange, i . Los a vectores soporte tendrn un i asociado 0, mientras que el resto de vectores que no caen a en los hiperplanos H1 o H2 tendrn un i =0 y por lo tanto no tendrn relevancia en el a a entrenamiento. Clasicacin del SVM o Una vez tenemos denido el hiperplano de separacin entre las 2 clases, lo siguiente es eno contrar una funcin que clasique las muestras de test xt en su clase correspondiente. La funcin o oN

f (xt ) = w xt +d => f (xt ) =i=1

i yi x i x t + d

calcula la distancia del vector de test xt al hiperplano de separacin. Dicha funcin o o tomar valores positivos para las muestras pertenecientes a la clase +1 y negativos para las de a la clase -1. CAP ITULO 3. ESTADO DEL ARTE EN RECONOCIMIENTO DE EMOCIONES 35

DETECCION DE EMOCIONES EN VOZ ESPONTANEA Se puede dar el caso en que algn vector (xi ,yi ) viole la restriccin u o yi (xi w+d)-10 i. Para afrontar este problema lo que se debe hacer es relajar la restriccin. Para ello se o introduce unos mrgenes de error hi . i = {1, ..., N } con hi 0 i. La restriccin ser ahora a o a yi (xi w + d) 1 hi con i = {1, ..., N } con hi 0 i. As si 0 hi 1 la clasicacin ser correcta pero si a su vez hi > 0, la muestra estar co, o a a rrectamente clasicada pero con un error asociado. Por otro lado, si hi 1, la clasicacin o ser incorrecta.[Ver Figura 10] a

Figura 10: a) Muestras clasicadas incorrectamente con un valor hi asociado. b) Muestras clasicadas correctamente pero con un error hi . Al aadir esta nueva variable pasaremos de uno a dos criterios a la hora de encontrar el n hiperplano de separacin: o Maximizar el margen entre clases (criterio que ya ten amos anteriormente). Minimizar la funcin de prdidas que ser proporcional a las muestras incorrectamente o e a clasicadas. La relevancia de un criterio frente al otro se controla a travs de una variable, a la que e llamaremos coste, C. La variable coste ser usada para dar ms relevancia a un criterio frente a a al otro. As cuanto mayor sea el coste mayor importancia daremos a minimizar la funcin , o de prdidas. Mientras que un valor pequeo de coste premiar en maximizar el margen entre e n a clases. La variable coste ser ajustada en la seccin de pruebas para obtener los mejores a o resultados. Hasta ahora hemos visto el funcionamiento de las Mquinas de Vectores Soporte en el modo a de Clasicacin (SVC) y para datos linealmente separables. Pero, qu ocurre si los datos no o e cumplen esta premisa? Separacin no lineal de los datos o Un dato que hay que tener en cuenta es que, como se puede ver en la Figura 11, los datos que a priori no son separables en un espacio n-dimensional, s pueden serlo en un espacio de mayor dimensin n . As por lo tanto, deniremos una funcin b(x) que mapea el espacio de o o 36 CAP ITULO 3. ESTADO DEL ARTE EN RECONOCIMIENTO DE EMOCIONES

DETECCION DE EMOCIONES EN VOZ ESPONTANEA entrada n-dimensional (donde se sita x) en un espacio de dimensin expandida n u o

b(): Rn Rn x

Figura 11: Mapeo de los vectores x 2-dimensionales a b(x) 3-dimensionales. Este es el momento de introducir la funcin kernel. Esta funcin nos permite calcular el o o producto interno de dos vectores sin necesidad de conocer expl citamente el vector mapeo en el espacio transformado.

K(xi , xj )=b(xi )b(xj ) A la hora de elegir la funcin kernel, sta debe de satisfacer el teorema de Mercer. El o e teorema de Mercer nos dice si un kernel K(, ) cumple las propiedades del producto escalar y por lo tanto util para un SVM. No nos dice sin embargo como construir dicha funcin K(, ). o La eleccin de una buena funcin kernel debe satisfacer dos premisas. Debe ser tal, que o o dadas dos locuciones xi y xj , obtenga un valor de similitud entre ambas. Tambin debe de ser e computacionalmente eciente ya que durante el proceso de entrenamiento y test se van a llevar a cabo muchos productos internos. Las Mquinas de Vectores Soporte es una herramienta novedosa que ha aparecido en la a ultima dcada en la clasicacin automtica de patrones. Ha llegado a ser muy popular debido e o a a su capacidad de solventar muchos de los problemas de los ANNs (Articial Neural Networks) y de los HMMs (Hidden Markov Models) gracias a su efectiva capacidad de discriminacin. En o contraposicin con los ANNs, tienen la ventaja de tratar con muestras de muy alta dimensin. o o Estas caracter sticas han hecho a los SVMs muy populares y existosos en muchos campos de aplicacin. No obstante, existen algunas limitaciones a la hora de usar los SVMs. Una de estas o limitaciones es que los SVMs estn restringidos a trabajar con vectores de entrada de longitud a ja. Otra limitacin es que los SVMs slo clasican, pero no dan una medida able de la o o probabilidad de la correcta o incorrecta clasicacin. o Los SVMs presentan muy buen rendimiento en tareas de procesado vocal como reconocimiento de idioma y locutor. Es por eso por lo que tambin se usan para reconocimiento e automtico de emociones en el habla y como muestra de ello se pueden ver [20], [17], [21] y [22] a donde se usan los rasgos acsticos y prosdicos del habla para modelar los SVMs. u o CAP ITULO 3. ESTADO DEL ARTE EN RECONOCIMIENTO DE EMOCIONES 37

DETECCION DE EMOCIONES EN VOZ ESPONTANEA

3.7.3.

SVMs basados en supervectores GMMs

Los SVMs basados en supervectores GMMs son tcnicas de clasicacin de patrones que e o aunan las ventajas de los sistemas generativos, como son los GMMs, con las de los sistemas discriminativos como son los SVMs [23]. Un supervector GMM se construye apilando los vectores medios d-dimensionales de las M componentes gaussianas. El supervector GMM puede ser considerado como una funcin kernel o SV (x) que mapea los vectores de caracter sticas x en un vector de mayor dimensin L = M d. o En este espacio L-dimensional del supervector es donde se entrena un SVM para as conseguir un modelo we . Para este caso, la funcin de puntuacin s (we , SV (xtest )) se dene como: o oT

s (we , SV (xtest )) = we SV (xtest )

Suponemos que tenemos un modelo de UBM el cual es adaptado (MAP) a partir de los vectores de parmetros de una locucin. Dicha adaptacin conforma un modelo de mezclas a o o gaussianas denido como: = {wi , i , i }, donde i = 1, ..., M con M el nmero de mezclas unimodales Gaussianas. A u partir de este modelo, se forma el supervector GMM. Este proceso se muestra en la Figura 12

Figura 12: Construccin de un supervector GMM a partir de una locucin de voz. o o Como ejemplo de construccin de un supervector GMM podemos ver la Figura 13 donde o d = 2, M = 3 y L = M d = 6. En este caso, vectores de parmetros bidimensionales modelan a 3 componentes gaussianas. Como se puede ver, los vectores medios bidimensionales de las 3 componentes gaussianas conforman el supervector SV = [1 2 3 ] = [11 12 21 22 31 32 ] Se ha visto que esta tcnica de SVM basados en supervectores GMM ha dado excelentes e resultados en tareas de reconocimiento de locutor [24] e idioma usando el nivel acstico del habla. u A parte del reconocimiento de locutor e idioma, tambin se ha extendido al reconocimiento e de emociones. As [23] propone un SVM basado en supervectores GMMs a partir de rasgos , espectrales mientras que en [25] lo proponemos a partir de rasgos prosdicos del habla para el o reconocimiento de emociones.

3.7.4.

Anchor Models

El espacio de proyeccin de los Anchor Models es una funcin que mapea cada locucin o o o de habla desde el espacio de caracter sticas original en un nuevo espacio anchor model. Las dimensiones de este nuevo espacio son puntuaciones de similitud de cada locucin frente a o modelos previamente entrenados m = {m1 ...mN }. Estos modelos han sido entrenado mediante tcnicas de clasicacin como GMMs, SVMs, etc. Este espacio de similitud permite obtener e o el comportamiento de una locucin x frente a los modelos m obteniendo as un vector de o puntuaciones de similitud: Sx = [sx,m1 ...sx,mN ] 38 CAP ITULO 3. ESTADO DEL ARTE EN RECONOCIMIENTO DE EMOCIONES

DETECCION DE EMOCIONES EN VOZ ESPONTANEA

Figura 13: Ejemplo de construccin de un supervector GMM a partir de 3 mezclas gaussianas o bidimensionales. donde se apilan las puntuaciones individuales del vector x frente a cada uno de los modelos mi [Figura 14]. A partir de entonces, se puede considerar el vector Sx,m como el vector de parmetros de a la locucin x y un nuevo modelo mi puede ser generado en el espacio del anchor model usando o tcnicas de aprendizaje como GMMs, SVMs, n-gramas, etc. e

Figura 14: Sx agrupa las puntuaciones de similitud del vector x frente a cada modelo mi . El valor de N dene la dimensin del espacio de los anchor models y la puntuacin del o o vector x frente a cada modelo mi dene la distancia a cada uno de los ejes de este nuevo espacio dimensional. De la teor de Vapnik-Chervonenkis [26] se deduce que cuanto mayor sea a el valor de N, mayor dimensin ser el espacio de caracter o a sticas del anchor model y por ello ms a fcil ser encontrar un comportamiento caracter a a stico de la locucin x. En el reconocimiento de o emociones N estar limitada por el nmero de emociones disponibles. a u CAP ITULO 3. ESTADO DEL ARTE EN RECONOCIMIENTO DE EMOCIONES 39

DETECCION DE EMOCIONES EN VOZ ESPONTANEA Fusin de Anchor Models o La funcin de similitud o puntuacin sx,mi nos ofrece una medida de similitud entre el o o vector x y el modelo mi . Cada tcnica usada para construir los modelos usa una funcin de e o similitud diferente. As por ejemplo, los SVMs usan la distancia algebraica mientras que los , p(X|H0 ) GMMs, como ya hemos visto, usan un criterio de similitud estad stica . Mediante el p(X|H1 ) uso de varias funciones de similitud sx,mi , la informacin obtenida puede ser complementaria y o con ello se puede obtener una mejora de los resultados. La fusin de anchor models (en ingls AMF, Anchor Model Fusion) es una tcnica o e e novedosa ideada por el ATVS [27], [28] que ha logrado dar muy buenos resultados pues obtiene informacin complementaria procedente de varios subsistemas. Consiste en usar varias tcnicas o e de entrenamiento (y con ello varias funciones de similitud) como pueden ser los SVMs, GMMs, etc. para generar los modelos mi . En el caso de reconocimiento de emociones, el vector m incluyen los n modelos de emociones pre-entrenadas por cada uno de los sistemas de reconocimiento de emociones a fusionar. As , el vector de parmetros generado a partir de las puntuaciones de la locucin x frente a cada a o modelo de m por cada uno de los Nsist sistemas es:1 Nsist Sm,x = [Sm,x , ..., Sm,x ]

La Figura 15 muestra una versin esquemtica de AMF. Para este caso, la dimensin del o a o espacio de los anchor models es N = n Nsist .

3.7.5.

Otras: LDA, HMM

Anlisis de Discriminacin Lineal a o El Anlisis de Discriminacin Lineal (en ingls LDA, Linear discriminant analysis) y la a o e discriminacin lineal de Fisher relacionada son mtodos usados en estad o e stica y en aprendizaje automtico cuyo objetivo es encontrar la combinacin lineal de caracter a o sticas que mejor separa 2 o ms clases. a LDA est muy relacionado con ANOVA (anlisis de varianza) y con el anlisis en a a a regresin, que tambin intentan expresar una variable como combinacin lineal de otros o e o rasgos o caracter sticas. Mientras que en estos dos ultimos mtodos la variable dependiente se e cuantica numricamente, en LDA es una variables categrica (por ejemplo, la clase emocin 1 ). e o o LDA ha sido usado satisfactoriamente como tcnica de reduccin dimensional en muchos e o problemas de clasicacin, como reconocimiento de habla, reconocimiento de cara o recuperao cin de informacin multimedia. En [20] se usa LDA como clasicador de emociones. o o El reconocimiento de emociones en el habla es un pequeo ejemplo de las aplicaciones en n las que se hace uso de la tcnica LDA. Otra es el reconocimiento facial. Cada cara se representa e por un gran nmero de valores de p u xeles. En este caso se usa LDA para reducir el nmero de u caracter sticas a un nmero ms manejable antes de la clasicacin. Cada dimensin nueva es u a o o combinacin lineal de los valores de los p o xeles. [29] Estos son slo dos ejemplos de las innumerables tareas en las que la aplicacin de LDA o o puede emplearse con xito. e 40 CAP ITULO 3. ESTADO DEL ARTE EN RECONOCIMIENTO DE EMOCIONES

DETECCION DE EMOCIONES EN VOZ ESPONTANEA

Figura 15: Diagrama de funcionamiento del AMF. El vector de parmetros nal de la locucin a o x es la concatenacin de las puntuaciones de similitud de x frente a cada modelo de emocin o o mi para cada uno de los Nsist sistemas. Modelos Ocultos de Markov Un HMM (en ingls, Hidden Markov Models) o modelo oculto de Markov es un modelo e estad stico en el que se asume que el sistema a modelar es un proceso de Markov de parmetros a desconocidos. El objetivo es determinar los parmetros desconocidos (u ocultos, de ah el a nombre) de dicha cadena a partir de los parmetros observables. Los parmetros extra a a dos se pueden emplear para llevar a cabo sucesivos anlisis, por ejemplo en aplicaciones de reconoa cimiento de patrones. Un HMM se puede considerar como la red bayesiana dinmica ms simple. a a En un modelo de Markov normal, el estado es visible directamente para el observador, por lo que las probabilidades de transicin entre estados son los unicos parmetros. En un modelo o a oculto de Markov, el estado no es visible directamente, sino que slo lo son las variables inuidas o por el estado. Cada estado tiene una distribucin de probabilidad sobre los posibles s o mbolos de salida. Consecuentemente, la secuencia de s mbolos generada por un HMM proporciona cierta informacin acerca de la secuencia de estados. o Los modelos ocultos de Markov son especialmente aplicados a reconocimiento de formas CAP ITULO 3. ESTADO DEL ARTE EN RECONOCIMIENTO DE EMOCIONES 41

DETECCION DE EMOCIONES EN VOZ ESPONTANEA temporales, como reconocimiento del habla, de escritura manual, de gestos, etiquetado gramatical o en bioinformtica. a Dado el buen funcionamiento de esta tcnica en tareas como el reconocimiento de habla, e tambin se ha aplicado al reconocimiento de emociones [20] combinado con otras tcnicas de e e clasicacin como los GMM o SVM [30]. o

42

CAP ITULO 3. ESTADO DEL ARTE EN RECONOCIMIENTO DE EMOCIONES

Diseo y Desarrollo n

4

Este cap tulo comienza haciendo un anlisis de las bases de datos de voz emoci