Projet Ultraspeech II

DAM/DIF

Implémentation d’une interface decommunication

silencieuse en temps réel :Projet Ultraspeech II

Maël Pouget3ème année Sicom

sp. Traitement De la Parole et Traitement d’ImagesGrenoble INP - Phelma

Projet de fin d’étudesdu 6 Février au 27 Juillet 2012

Tutoré auGipsa-Lab par M. Thomas HueberSuivi à Phelma par Mme Barbara NicolasJury présidé par M. Jocelyn Chanussot

Abstract

English

The aim of the internship is the design of a “real time silent speech interface”, or systempermitting voice communication without vocalization. The system developed is based oncapturing articulatory activity via ultrasound and video imaging. The problem addressedin this work is that of transforming multimodal observations of articulatory gestures intoan audio speech signal. This “visuo-acoustic” conversion is achieved using machine lear-ning methods requiring the construction of audiovisual training databases. Discrete cosinetransform (DCT) is used in order to extract visual features and Mel-Generalized Cepstralanalysis (MGC) for acoustic features extraction. The visuo-acoustic converstion is basedon direct mapping between visual and acoustic features using neural networks and Gaus-sian mixture Regression (GMR). Finally, a Mel Log Sectrum Analysis based vocodeur isused in order to synthetize the obtained signal. After a study using Matlab, the real-timemodules are developed on the real time platform : Max/MSP.

Key words : Machine learning, Gaussian Model Regression, Artificial Neural Network,Discret Cosine Transform, Cepstral Analysis, Real Time.

Français

L’objectif de ce stage est l’implémentation d’une “interface de communication en pa-role silencieuse”, système permettant de communiquer en parlant sans émettre de son. Ilfonctionne par analyse de l’activité articulatoire via une caméra vidéo et une sonde ultra-sons. La problématique abordée est celle de la transformation d’observation multimodalede configuration articulatoire en signal de parole. Cette transformation est rendue pos-sible grâce à aux techniques d’apprentissage supervisé nécessitant l’acquisition de corpusd’apprentissage audio-visuel. Afin d’extraire les caractéristiques visuelles, on utilise lestechniques de Transformée en Cosinus Discrète et pour les caractéristiques acoustiques,on utilise l’analyse mel-cepstrale généralisée. La conversion visuo-acoustique est réaliséegrâce à la Regression par Mélange de Gaussienne et l’utilisation de réseaux de neuronesartificiels. Enfin, un vocodeur MLSA est utilisé afin de générer le signal obtenu. Aprèsune étude sur Matlab de tout ces modules, une version temps réel est developpée sur uneplateforme dédiée au temps réel : Max/MSP

Mots-clefs : Apprentissage supervisé, Regression par Modèle de Gaussiennes, Réseauxde Neurones Artificiels, Transformée en Cosinus Discrète, Analyse Cepstrale, Temps-Réel.

3

Table des matières

1 Introduction 7

2 La parole silencieuse 92.1 Production de parole. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 9

2.1.1 Analogie source-filtre. . . . . . . . . . . . . . . . . . . . . . . . . . . 92.1.2 Les différents articulateurs de la parole. . . . . . . . . . . . . . . . . 92.1.3 La coarticulation. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 12

2.2 État de l’art . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 132.3 Le temps réel . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 14

3 Acquisition. 153.1 Génération de corpus et statistiques . . . . . . . . . . . . . . . . . . . . . . 15

3.1.1 Les corpus utilisés . . . . . . . . . . . . . . . . . . . . . . . . . . . . 153.2 Le logiciel : Ultraspeech . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 163.3 Acquisition audio et vidéo . . . . . . . . . . . . . . . . . . . . . . . . . . . . 16

3.3.1 Le casque . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 163.3.2 Caméra . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 173.3.3 Ultrasons . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 173.3.4 Audio . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 17

4 Extraction des caractéristiques 194.1 Extraction des caractéristiques visuelles . . . . . . . . . . . . . . . . . . . . 19

4.1.1 La Transformation en Cosinus Discrète . . . . . . . . . . . . . . . . 194.2 Extraction des caractéristiques acoustiques . . . . . . . . . . . . . . . . . . 20

4.2.1 Analyse mel-cepstrale . . . . . . . . . . . . . . . . . . . . . . . . . . 204.2.2 Analyse du voisement . . . . . . . . . . . . . . . . . . . . . . . . . . 22

5 Conversion Visuo-Acoustique. 235.1 Utilisation du corpus dans le cadre d’un apprentissage . . . . . . . . . . . . 235.2 Prise en compte du contexte . . . . . . . . . . . . . . . . . . . . . . . . . . . 23

5.2.1 L’Analyse en Composantes Principales . . . . . . . . . . . . . . . . . 245.3 Régression par Mélange de Gaussiennes . . . . . . . . . . . . . . . . . . . . 25

5.3.1 Principe général de la Régression par Mélange de Gaussienne. . . . . 255.3.2 Influence du nombre de gaussiennes sur les performances . . . . . . . 27

5.4 Estimation du voisement . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 285.4.1 Les réseaux de neurones artificiels . . . . . . . . . . . . . . . . . . . 285.4.2 Calcul du seuillage optimal : Courbe ROC . . . . . . . . . . . . . . . 295.4.3 Architecture du réseau . . . . . . . . . . . . . . . . . . . . . . . . . . 30

5.5 Évalutation du modèle. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 30

5

5.5.1 Génération du corpus utilisé lors du test perceptif . . . . . . . . . . 315.5.2 Résultats . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 31

6 Implémentation sur plateforme temps-réel 336.1 Max/MSP . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 336.2 Modules Réalisés . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 34

7 Conclusion et perspectives. 37

6

Chapitre 1

Introduction

La parole est le vecteur principal de l’interaction entre les humains et les pathologies del’appareil vocal sont à l’origine d’importants handicaps. Une des pathologies les plus gravesest le cancer du larynx, l’organe qui abrite les cordes vocales et qui joue le rôle d’aiguilleurentre les voix respiratoire et digestive. Le traitement de ce cancer peut impliquer l’abla-tion complète de l’organe (on parle alors de laryngectomie totale). L’intervention laisse lepatient dans l’incapacité de parler ; ce dernier est capable d’articuler normalement (c’està dire bouger sa langue, ses lèvres, son voile du palais et sa mâchoire) mais n’est pluscapable de rediriger l’air pulmonaire vers son “ résonateur ”, c’est à dire ses cavités orales(buccale et nasale).

Depuis les années 2000, plusieurs groupes de recherche en traitement automatique dela parole tentent de concevoir un dispositif permettant aux personnes laryngectomisées,de parler à nouveau. Les différentes technologies proposées visent (1) à capturer les indicesnon-audibles de la production de la parole, tels que les mouvements des articulateurs (Hue-ber & Denby[2], Fagan[3]), les activités nerveuses ou musculaires (Jorgensen[4], Jou[5]),les très faibles déplacements d’air à l’intérieur de la cavité buccale (Nakajima[6], Toda[7]),etc. et (2), à transformer ces informations en un signal de parole audible et intelligible, ens’appuyant sur des techniques de modélisation par apprentissage statistique et de synthèsesonore.

Les applications de ce type de technologies dépassent le cadre médicale. En effet, ellespourraient permettre l’émergence d’un “ téléphone silencieux ” utilisable par tous pour descommunications discrètes (ou furtives). Dans ce cas, l’utilisateur parlerait silencieusement,c’est à dire qu’il bougerait sa langue et ses lèvres normalement, mais ne vocaliserait aucunson.

Ce stage s’inscrit dans le cadre de ces recherches sur ce que les chercheurs ont appelé desinterfaces de communication en parole silencieuse (ou silent speech interface en anglais),et plus précisément dans le cadre de l’approche proposée par Hueber et Denby[2]. Cettedernière est basée sur la capture de l’activité articulatoire à l’aide d’un double systèmed’imagerie constitué d’une sonde ultrasonore (échographique) placée sous la mâchoire dulocuteur, et d’une caméra placée devant les lèvres de ce dernier.

Dans sa thèse, Hueber[1] a proposé différentes approches pour convertir un flux d’imagesultrasonores et video en un signal de parole audible. Cependant, l’ensemble des expériencesont été menées en temps différé, la synthèse du signal sonore ne débutant qu’une fois latotalité du mouvement articulatoire acquis.

L’objectif de se stage est de réaliser une implémentation temps réel d’une des techniquesde conversion visuo-acoustique proposée par Hueber[1], (approche par GMM), et d’évaluerle prototype réalisé dans une situation de communication réaliste.

7

Dans ce rapport, nous détaillerons successivement le protocole d’acquisition de donnéesmultimodales, l’analyse des données acquises (extraction des descripteurs visuels et acous-tiques), les techniques de mapping visuo-accoustique et enfin l’adaptation de ces procédésau temps réel.

8

Chapitre 2

La parole silencieuse

L’usage quotidien distingue deux modes de production de parole.– La parole modale, classique, est le mode de production qui est utilisé de façon nor-male dans une conversation en face à face.

– La voix chuchotée est utilisée pour parler dans un environnement silencieux sansdéranger les personnes proches.En parole chuchotée, les organes qui permettent la production d’un son particulieront, en premiere approximation, la même position qu’en voix modale, mais, dans lecas de la parole chuchotée, les cordes vocales ne vibrent pas.

Dans le contexte de l’étude, on peut également parler de parole silencieuse. Ce mode deproduction n’est pas considéré comme un mode de production classique puisqu’il consisteà activer les organes responsables de la parole de la même façon qu’en parole classique ouchuchotée mais en bloquant tout flux d’air en provenance des poumons. Aucun son n’estémis en parole silencieuse.

La production de la parole est un phénomène très complèxe qui met en jeu de nombreuxmuscles et organes. Ainsi, les éléments des systèmes respiratoires (poumons, nez), digestifs(langue, dents) ou même à l’interface de ces deux systèmes (larynx, epiglotte, lèvres) sontutilisés pour l’émission de sons complexes dans le cadre de la parole.

2.1 Production de parole.

2.1.1 Analogie source-filtre.

L’appareil phonatoire est souvent comparé, en traitement de la parole, à un systèmesource-filtre. Les poumons insufflent de l’air dans le larynx qui, selon l’ouverture ou nondes plis vocaux le transforme en un bruit blanc ou un train d’impulsions. le couple pou-mons/larynx agit donc comme une source. Le flux d’air parvient ensuite dans la partiesupérieure des voies aériennes. Le mouvement des cordes vocales ou l’absence de mouve-ment va mettre en forme ce flux d’air qui va ensuite “résonner” dans les cavités orales(buccale et nasale). Les propriétés acoustiques de notre résonnateur dépendent de sa géo-métrie, que nous faisons varier en changeant la position de nos articulateurs.

2.1.2 Les différents articulateurs de la parole.

La production de sons s’effectue via la modulation du flux d’air en provenance despoumons par les différents articulateurs. Chaque articulateur possède son rôle propre le

9

long du conduit vocal. En s’appuyant sur Le Huche[8] et de Boite et al.[9], on décritl’appareil vocal humain et les fonctions des différents articulateurs qui le composent.

Figure 2.1 – Schéma de l’appareil phonatoire humain, coupe sagittale médiane

Le Larynx

Afin de produire un son, il est nécessaire d’insuffler de l’air dans le conduit vocal. Lepremier élément que rencontre l’air en sortant des poumons est le larynx. Celui-ci se situeau point de rencontre entre les voies digestive et aérienne. Il permet donc d’aiguiller l’airvers les poumons et les aliments vers le système digestif par le biais de l’épiglotte. En outre,les différents muscles du larynx permettent de déterminer le caractère voisé ou non de lavoix. En effet, les plis vocaux (communément appelés cordes vocales) sont des musclesqui, s’ils sont ouverts, laissent passer le flux d’air tel quel, non perturbé, et qui, s’ils sontfermés, vont être forcés à s’ouvrir lorsque la pression de l’air sera trop importante. Aussitôtla pression de l’air redescendue, ils se ferment de nouveau. Ce phénomène d’ouverturepériodique des plis vocaux donne son caractère voisé à la voix : les plis vocaux d’unchanteur qui produit un la440 s’ouvrent et se referment à une fréquence de 440Hz.

Ce trait de voisement permet de produire les voyelles d’une part et les consonnes voiséesd’autre part :

– [b] de bateau– [d] de demi– [v] de voiture– [z] de zeste– [zh] de jouer

10

– [g] de guitare– [r] de rue– [l] de litLes sons ci-dessus sont dits voisés ou sonores car leur prononciation implique une vibra-

tion des plis vocaux. Ils possèdent par ailleurs pour la plupart leur homologue non voisé :en première approximation, la forme du conduit vocal est identique que l’on prononce un[p] ou un [b] mais dans le cas du [b], les plis vocaux vibrent tandis que la glotte restegrande ouverte lors de la prononciation du [p]. On peut ainsi opposer les sons suivants :

– [p] de pain (analogue au [b])– [t] de tente (analogue au [d])– [f] de faux (analogue au [v])– [s] de santé (analogue au [z])– [sh] de chat (analogue au [zh])– [k] de cou (analogue au [g])Ces consonnes prononcées sans le voisement sont appelées consonnes sourdes. Ainsi,

si l’on prononce par exemple [aba] et [apa] en chuchotant, comme les cordes vocales nevibrent pas, il sera, a priori, impossible de les distinguer.

Le résonateur

L’air sortant du larynx, peut ainsi être mis en forme par le conduit vocal grâce auxdifférents articulateurs qui composent le conduit vocal.

La cavité nasaleLe velum, ou voile du palais, ainsi que la luette, peuvent s’abaisser afin de permettreà l’air de passer à la fois par la bouche et par le nez. On parle alors de sons nasauxqui se composent de voyelles (lin, clan, long, jungle) et de consonnes (mat, nid,parking, oignon)La langueLa langue est un organe du système digestif dont la fonction première est la déglu-tition. Elle joue cependant un rôle prépondérant dans la production des voyelles.On classe d’ailleurs les voyelles en fonction de deux critères : le “lieu d’articulation”de la langue qui décrit la position la langue dans la bouche et permet de qualifierles voyelles ainsi émises d’antérieures, de centrales ou de postérieures. L’“aperture”,elle, décrit l’espace existant entre la langue et le palais distinguant ainsi les voyellesdites hautes de celles dites basses.Si les voyelles se distinguent par la position et le volume de l’espace de résonance,les consonnes, elles, se distinguent par le lieu d’obstruction permettant la générationde bruit. Les détails de la production de consonnes sont renseignées dans le tableaufigure 2.2

Les lèvresLa langue et les lèvres sont les deux articulateurs principaux du système de produc-tion de la parole. Les lèvres permettent la production des consonnes dites bilabiales :[p], [b], [m] ; et des consonnes “labiodentales” (contact entre la lèvre supérieure etles dents de la mâchoire inférieure) : [f], [v].

On peut donc constater que la production de parole est rendue possible possible grâceà l’action coordordonnée plusieurs organes. De plus, l’aspect dynamique de la productionde la parole entraine de potentielles confusions liés au phénomène dit de coarticulation.

11

Figure 2.2 – tableau détaillant la production des consonnes en fonction du lieu d’articu-lation.

2.1.3 La coarticulation.

La coarticulation est un phénomène dynamique qui consiste à anticiper le lieu d’ar-ticulation suivant. On peut ainsi avoir différents placements de la langue pour émettreun même son. L’exemple figure 2.3 montre une acquisition ultrason de la langue et uneimage des lèvres pendant la prononciation des logatomes iki et uku (il s’agit de l’écriturephonétique, à prononcer “oukou”)au moment de la prononciation du son [k]. L’acquisitionultrasonore doit être comprise comme une coupe de la cavité buccale dans le plan sagittalmédian (vue de profil), le bout de la langue se trouvant à droite de l’image. Le trait rougereprésente la partie supérieure de la langue qui vient, dans les deux cas, toucher le palais.

Ce phénomène de coarticulation, mis en évidence dans cet exemple, permet de constaterque la trajectoire des articulateurs dépend beaucoup du contexte dans lequel est placéela cible (ici, le son [k]) et qu’on peut donc avoir différentes positions des lèvres et de lalangue pour l’articulation d’un même son. Visible ici sur la coarticulation du son [k], cephénomène apparaît sur la quasi totalité des consonnes du français.

Au regard de ce rapide récapitulatif sur la physiologie de l’appareil vocal et des mé-canismes qui sous-tendent la production de la parole, on constatera que le problème dela “parole silencieuse” est particulièrement mal posé. En effet, en parole silencieuse, au-cune information sur l’activité laryngée n’est disponible, il sera donc a priori difficile dereconnaitre si une consonne est voisée ou sourde. De plus, dans l’approche étudiée, ne sontaccessibles que les mouvements de la langue et ceux des lèvres. Aussi, il sera a priori éga-lement difficile de distinguer les sons faisant intervenir le voile du palais ([p]/[m], [t]/[n],etc.) Enfin, la restitution d’un contenu prosodique acceptable, c’est-à-dire l’intonationd’une phrase (qui dépend notamment des variations de la fréquence de vibration moyennedes cordes vocales à l’échelle d’un groupe de souffle) est un point très problématique enparole silencieuse (qui ne sera pas abordé dans le cadre de ce travail).

12

iki uku

Figure 2.3 – Différentes positions de la langue et des lèvres lors de la prononciation d’unemême son [k] selon le contexte

2.2 État de l’art

Ce travail s’inscrit à la suite des travaux de Hueber[1]. Le schéma-bloc figure 2.4 décritles différents modules de l’interface de communication silencieuse qu’il a établi.

Figure 2.4 – Schéma bloc résumant les différentes étapes de la conversion d’images versde la parole.

Deux approches ont été proposées par Hueber[1] pour effectuer l’étape de conversionvisuo-acoustique. Elles s’appuient sur l’utilisation de techniques de modélisation par ap-prentissage statistique, pour construire une fonction de régression de l’espace des para-mètres visuels vers l’espace des paramètres acoustiques. La première approche, dite “di-

13

recte” s’appuie sur une modélisation des données audiovisuelles par un modèle de mélangede gaussiennes (GMR, gaussian mixture regression). C’est cette approche qui sera utiliséedans le cadre de ce travail, pour la conception d’un prototype temps-réel.

La seconde approche proposée par Hueber, est dite ‘indirecte”, car elle introduit, enamont du processus de synthèse du signal audio, une étape de “classification”, qui consisteà reconnaître dans le mouvement articulatoire observé, une séquence (discrète) d’étiquettesphonétiques. Cette étape permet notamment l’introduction de connaissances linguistiquesa priori (comme par exemple, une liste de mots “autorisés”). Cette seconde approchefournit de meilleurs résultats que l’approche directe, mais nécessite, dans sa définitionactuelle, l’observation de la totalité du mouvement articulatoire avant de pouvoir débuterla synthèse du signal audio. Cette approche n’est donc, pour l’instant, pas adaptée pourune implémentation temps réel, et n’a donc pas été retenue dans le cadre de ce travail.

2.3 Le temps réelPar définition, un système est dit temps réel si le temps de traitement des données

est constant. Dans notre système de conversion visuo-acoustique, nous visons un temps detraitement inférieur à 50ms car il s’agit de la durée limite pour parler sans que le retour desa propre parole ne soit perturbant (provoquant un bégaiement). Une application tempsréel présente deux principaux avantages :

1. Bien que moins performant que le système analogue en temps différé, il permet aulocuteur d’avoir un retour quasi direct de ce qui est censé être prononcé. Le locuteurpeut donc tenter d’apprendre à utiliser le système pour l’amener à faire ce qu’ilsouhaite même si l’articulation en parole silencieuse est plus difficile à réaliser quel’articulation en parole vocalisée.

2. Lors d’une interaction face à face, il est important que la conversation ait une cer-taine dynamique. Un système temps réel avec un court temps de traitement desinformations permet d’assurer cette dynamique dans l’échange et donc rendre laconversation plus vivante.

14

Chapitre 3

Acquisition.

3.1 Génération de corpus et statistiques

3.1.1 Les corpus utilisés

La mise en place du modèle utilisé pour la conversion visuo-acoustique s’effectue parapprentissage supervisé. Ceci necessite donc l’enregistrement d’une base de données, quiassocie des séquences visuelles de mouvements articulatoires (ultrasonores et vidéo) avecles sons associés. Afin de couvrir de façon optimal les espaces articulatoires et acoustiques,nous avons constitué un large corpus de phrases comportant :

– Les phrases de combescures[10] qui ont été enregistrées sont au nombre de 100. Ellesont, par groupe de 10 phrases, phonétiquement équilibrées. C’est à dire que les motssont choisis de façon à ce que la fréquence d’apparition de chaque phonème dans laphrase soit la même qu’en français.

– Les phrases tirées du Monde sont au nombre de 288 et sont également phonétique-ment équilibrées.

Les logatomes sont des suites de sons ou de syllabes sans signification particulière. Ilssont en général constitués d’une suite de voyelles (V) et de consonnes (C) du type VCV(comme [aka]) ou CVC (comme [pop]). Bien qu’ils puissent également être plus long, lecorpus ne contient que des VCV et des CVC. On retrouve donc les 14 voyelles du françaiset les 18 consonnes du français pour les CVC, les voyelles et 15 consonnes pour les VCV(les 3 semis consonnes ,[j] de yeux,[w] de fouet et [u] de lui avaient été retiré du corpusdans un premier temps). On compte donc 224 VCV et et 252 CVC. Certains VCV ayantété réenregistrés pour des besoins de test, on a un total de 224 + 160 = 384 VCV.

Des voyelles tenues ont été enregistrées. Elles sont au nombre de 20 (14 voyelles et 6transitions entre les voyelles les plus communes) et ont été répétées 2 fois.

Des mots isolés ont également été enregistrés. Ils sont issus du test d’oppositions deconsonnes mis au point par Rossi[14] et sont au nombre de 181 mots. De plus 30 motset phrases (répétés 2 fois) qui ont servi au départ à tester le système et qui sont ensuitevenus s’intégrer à la base de données ont également été enregistrés.

On peut constater qu’en début et en fin d’enregistrement, il y a un court temps delatence durant lequel aucun son n’est émis. Afin de ne pas avoir trop de trame de silencedans notre corpus, une étape de marquage des silences en vue de leur suppression estajoutée au moment de l’acquisition. Ce marquage se fait par detection d’un dépassementd’amplitude. Le premier et le dernier dépassement d’un seuil correspondent au début età la fin d’une phrase . on constate après enregistrement du corpus en entier que sa duréetotale est de 63 minutes dont 13 minutes de silence (soit près de 20%). Le détail du temps

15

de chaque sous-corpus est précisé figure 3.1

Nom du corpus TempsPhrases de combescure 4 minutes 35 secondesLe Monde 13 minutes 27 secondesVCV 11 minutes 29 secondesCVC 6 minutes 52 secondesVoyelles tenues 7 minutes 12 secondesTest d’opposition de Rossi 4 minutes 20 secondesPhrases de test 2 minutes 27 secondesTotal 50 minutes et 22 secondes

Figure 3.1 – Temps de parole effective par sous-corpus

3.2 Le logiciel : UltraspeechAfin d’acquérir les différents flux, on utilise le logiciel ultraspeech, développé par Tho-

mas Hueber [1]. Il permet, en particulier, de synchroniser l’acquisition des différents mé-dias : audio, vidéo et ultrason. En effet, il est primordial que les différents flux soientparfaitement synchronisés afin d’associer une configuration articulatoire au son qu’ellepermet de générer.

3.3 Acquisition audio et vidéo

3.3.1 Le casque

Pour permettre un positionnement précis des capteurs video et ultrasonore entre lesdifférentes sessions d’acquisition de données, on utilise un casque moulé selon la tête dulocuteur. Ce casque a été réalisé en collaboration avec l’ESPCI ParisTech et le LPP Uni-versité Paris et est présenté figure 3.2.

(a)-caméra filmant les lèvres (b)-enregistrement Ultra-sonore

Figure 3.2 – Photographies du casque permettant d’acquérir les enregistrements des dif-férents articulateurs porté par M. Thomas Hueber

16

3.3.2 Caméra

Afin d’enregistrer le mouvement des lèvres, une caméra est fixée à l’extrémité du casqueet pointe vers une zone un peu plus large que la bouche. La caméra réalise un acquisitionà raison de 60 images par secondes, en noir et blanc avec une résolution de 640x480 pixels.On peut voir un exemple de l’image acquise sur l’illustration de gauche de la figure 3.3-(a).Afin de s’affranchir des variations de luminosité, on utilise un système de LED couplé avecun filtre afin de de récupérer que les composantes infrarouges du spectre.

Bien que l’image de gauche de la figure 3.3-(a) ait été acquise dans le noir complet, onpeut voir que le résultat permet de faire de très nombreuses d’interprétations et qu’il est,a priori, possible d’étudier le mouvement des lèvres à partir de cette image.

3.3.3 Ultrasons

Le mouvement de la langue est lui enregistré à l’aide d’une sonde à ultrasons placéesous la mâchoire comme le montre la photo, figure 3.2-(b). On enregistre les donnéesultrasonores à une fréquence de 60 images par secondes, et les images ont une résolutionde 320x240 pixels. La bande passante de la sonde est 4-8 Mhz. L’ouverture angulaire est de140 , la profondeur maximale d’exploration est fixée à 7cm. Avec ces réglages, la résolutionspatiales est de l’ordre d’un demi-millimètre.

L’image obtenue par ce dispositif est celle visible sur la partie droite de la figure 3.3.

(a)-Image type acquise par la caméra (b)-Image type acquise par la sonde Ultra-sonore

Figure 3.3 – Images types acquises par les dispositifs de capture du casque.

Il est important de toujours avoir la même vue de la langue comme de la bouche. Ainsi,afin de permettre à l’utilisateur de reprendre entre chaque session la même prise de vue, ilest nécessaire d’enregistrer des images de calibration. En pratique, la calibration des lèvresse fait en comparant la vidéo à une image des lèvres au repos. Celle de la langue se faiten comparant l’ultrason à une image de la langue en train de d’articuler la voyelle [i]. Lesimages de calibration sont celles présentées figure 3.3

3.3.4 Audio

Pour procéder à l’enregistrement, on place le sujet dont on souhaite acquérir la voixdans une chambre anéchoïque. Une telle salle est étudiée pour minimiser autant que pos-sible les réverbérations en plaçant au mur, au plafond et au sol des pyramides à base carrée

17

en mousse. Ainsi, le signal acoustique ne se réverbère quasiment pas et aucun son para-site lié à la production de parole n’est enregistré. Toujours dans une optique de réductionde bruit, les appareils électriques tels que les ordinateurs sont délocalisés dans une salleconnexe. Le signal est enregistré avec une fréquence d’échantillonage de 44100Hz.

18

Chapitre 4

Extraction des caractéristiques

Afin de procéder à l’association entre images et son, il est nécessaire de trouver desdescripteurs de chaque média qui le décrivent fidèlement et en peu de coefficients. Eneffet, si l’analyse des images se faisait en ne s’appuyant que sur le niveau de gris de chaquepixel individuellement, on aurait de nombreuses redondances au sein des descripteurs.Afin de réaliser une correspondance entre une trame de video et un échantillon audio, ilest nécessaire de choisir des caractéristiques telles que peu de descripteurs puissent porterun maximum d’information. On cherche donc à réduire le nombre de paramètres pour, parexemple, passer de 640 ∗ 480 + 240 ∗ 320 = 384000 descripteurs (nombre de pixels dansles images de la caméra et de l’ultrason) à une cinquantaine par couple d’image. L’étaped’extraction des caractéristiques à pour but d’extraire des données brutes l’informationqui nous semble pertinentes dans chacune des modalités (visuelle et audio), en vue del’étape de modélisation visuo-acoustique. Cette étape peut également être perçue commeune étape de compression des données.

4.1 Extraction des caractéristiques visuellesUne approche qui avait été choisie par Hueber[1] et d’autres équipes travaillant sur

une problématique similaire est le calcul des coefficients TCD (Transformation en CosinusDiscrète - Discret Cosine Transform (DCT) en anglais) de l’image. Dans le cadre d’une ap-proche par TCD, l’information pertinente est celle qui est portée par les basses fréquencesspatiales.

4.1.1 La Transformation en Cosinus Discrète

La Transformation en Cosinus Discrète est une technique très utilisée, en particulierdans le format de compression JPEG. Elle permet notamment d’obtenir un signal bidimen-sionnel dans le domaine des fréquences spatiales. De même que la transformée de Fourier,la Transformation en Cosinus Discrète n’implique pas la perte d’information, elle trans-forme donc une image NxN du domaine spatial en une image de même taille du domainedes fréquences spatiales selon la formule (4.1) et est réversible.

DCT (u, v) =N∑

i=1

M∑j=1

I(i, j) cos[π

N(i− 1

2)(u− 1)]

cos[π

N(j − 1

2)(v − 1)]

(4.1)

L’image ainsi obtenue se lit depuis le pixel situé en haut à gauche qui représente lavaleur de la composante continue (moyenne de l’intensité des pixels de l’image) puis se

19

parcourt en zigzag, chaque “fréquel” - équivalent fréquentiel du pixel, par analogie avecl’opposition temps/fréquence - renseignant les variations d’intensité plus ou moins rapidesselon sa position par rapport à l’origine. L’illustration figure 4.1 illustre la transformationd’une image vers l’espace des fréquences spatiales.

(a) Image originale filtrée et re-dimensionnée (32x32 pixels)

(b) Transformée en cosinus discrète et extraction des coefficientscorrespondant aux basses fréquences spatiales (parcours “zigzag” )

Figure 4.1 – Transformée en Cosinus Discrète : extraction des coefficients DCT

Afin de déterminer le nombre de coefficients qu’il est intéressant de conserver, il estpossible de calculer l’erreur de reconstruction que l’on obtient en ne gardant que les n pre-miers coefficients de la TCD. En effet selon (4.2), on peut estimer En, l’erreur quadratiquede reconstruction d’une image dont on a conservé seulement les n premiers coefficients.

En = ‖I − In‖2

‖I‖2 =∑N2

k=n+1 α2k∑N2

k=1 α2k

(4.2)

Afin de réduire le temps de calcul, on commence par un sous-échantillonnage de l’image.En effet, sous-échantillonner une image correspond, dans le domaine fréquentiel, à dimi-nuer la fréquence d’échantillonnage. L’information basse fréquence qui nous intéresse (defréquence inférieure à la nouvelle fréquence d’échantillonnage) est elle, complètement in-changée mais le calcul de la TCD sera par contre beaucoup plus rapide. On procède donc,avant de calculer la TCD, à un filtrage puis un sous-échantillonnage de l’image pour l’ame-ner à une taille de 32x32 pixels.

Hueber [1] a montré que si l’on souhaite obtenir une image reconstruite conservant80% à 90% de l’énergie initiale, il suffit de conserver les 30 premiers coefficients de la TCD(soit seulement 3% des coefficents).

De plus, afin de ne pas analyser les parties qui ne fournissent pas d’informations sur lesmouvements mis en jeux, il est également intéressant de mettre en place des régions d’in-térêt sur les image obtenues. On peut donc, toujours avec le même nombre de coefficientsne décrire que les parties variables des images analysées.

4.2 Extraction des caractéristiques acoustiques

4.2.1 Analyse mel-cepstrale

Pour l’extraction du contenu spectral du signal de parole acoustiques, nous avonsadopté une approche classique en traitement du signal de parole : l’analyse mel-cepstrale.

Comme expliqué précédemment, le signal de parole peut être décrit comme le résultatde l’excitation, par un signal source, d’un filtre résonnant dont les caractéristiques varientau cours du temps. Cependant, les images ultrasonores et vidéos ne renseignent que sur

20

l’état du conduit vocal (le filtre), et non sur celui de l’appareil excitateur (la source). Aussi,il semble préférable, pour la modélisation visuo-acoustique, d’opter pour une technique dedescription du signal acoustique qui isole les contributions du filtre de celles de la source.Cette déconvolution “source-filtre” peut être effectuée par analyse cepstrale.

Le cepstre réel est défini comme la transformée de Fourier inverse, du logarithme duspectre (déconvolution homomorphique).

En reconnaissance de la parole, l’analyse cepstrale est utilisée pour l’extraction descoefficients dits MFCC (pour Mel Frequency Cepstral Coefficient). Il s’agit alors d’évaluerle contenu spectral du signal sur une échelle fréquentielle non-linéaire, dite échelle de Mel,qui rend compte des caractéristiques propres à la perception des sons par l’oreille humaine.Ce traitement est généralement effectué dans le domaine fréquentiel, en multipliant lemodule de la TFD par le gabarit d’un banc de filtres triangulaires répartis sur l’échelle deMel, puis en intégrant les coefficients résultants sur chacun des intervalles définis par cebanc de filtres. Un schéma récapitulatif de la procédure couramment utilisée pour le calculdes coefficients mel-cepstraux est proposé à la figure 4.2.

Ce schéma de calcul, très utilisé dans le cadre de la reconnaissance de la parole, n’est pasapplicable dans un contexte de synthèse. En effet, il est impossible de retrouver l’enveloppespectrale originale à partir des coefficients mel-cepstraux calculés selon ce schéma pourdeux raisons. D’une part le filtrage par banc de filtres effectue, sur chacun de ces filtres,une moyenne du spectre : il s’agit d’une opération destructrice, donc irréversible. D’autrepart ce schéma de calcul est basé sur l’utilisation du cepstre réel. Ce dernier ne considèreque le spectre d’amplitude sans tenir compte des informations fournies par le spectre dephase.

Pour permettre une transformation réversible utilisable dans un contexte de synthèse,un autre schéma de calcul, basé sur le cepstre complexe, a été proposé par Imai [12]. C’estce shéma de calcul (dont les détails ne seront pas rappelés ici par soucis de concision) quenous avons adopté pour l’extration des caractéristiques acoustiques.

Figure 4.2 – Schéma-bloc de l’analyse MFCC d’un signal

Imai [12], est parvenu à contourner le problème de non-inversibilité du filtrage en trou-vant une bijection entre un signal audio et un jeu de coefficients. Il a donc développé unvocodeur qui fonctionne avec les coefficients dits mel-cepstraux généralisés. Le vocodeurMel Log Spectrum Approximation (mlsa) permet donc non seulement d’extraire des coeffi-cients décrivant un flux audio mais aussi de générer un signal audio à partir de coefficients.

Le synthétiseur de parole mis au point par Imai fonctionne selon le modèle source-filtreexpliqué en introduction. Un filtre est créé a partir des coefficients extraits et l’excitationde ce filtre permet de générer un signal de parole. Si on souhaite générer un signal voiséde fréquence fondamentale f0, l’excitation sera alors un train d’impulsions de fréquence

21

f0. Si le signal n’est pas voisé, on excite alors le filtre par un bruit blanc. Le résultat estalors semblable à de la parole chuchotée.

Dans notre étude, le signal est préalablement sous-echantillonné à 16kHz, la taille defenêtre d’analyse (Hanning) est fixée à 20ms, et la fréquence d’analyse à 200 Hz (décalagede 5ms). Le nombre de coefficients est fixé à 25. L’extraction des caractéristiques se faitensuite via la toolbox SPTK, Speech Processing Tool Kit, développée par Imai et al[12]qui permet, à partir d’un fichier d’extension .wav de renvoyer un fichier binaire contenantles coefficients mel-cepstraux décrivant le signal.

Echelle de melDue à la forme de la cochlée, organe de l’audition, la résolution auditive suit une échelle

logarithmique. Cela se traduit par le fait qu’un sujet sera capable de distinguer la différenceentre 100Hz et 110Hz alors qu’il n’entendra pas de différence entre 8000Hz et 8010Hz. Afinde pallier cette caractéristique de la perception, l’échelle de mel, adaptée à l’oreille humaine,a été créée par Stevens et al. [11]. Cette échelle est telle qu’une différence de 10mel seratoujours perçue de la même manière, que ce soit en basses ou en hautes fréquences. Laconversion mel/Hertz se fait selon la relation 4.3

m = 1127 ln(1 + f

700) avec m : fréquence en mel et f fréquence en Hz (4.3)

4.2.2 Analyse du voisement

En plus du contenu spectral, nous extrayons également la caractéristique voisée/non-voisée à l’aide d’un algorithme de mesure de la périodicité du signal (disponible dans latoolbox SPTK). Les paramètres de l’analyse par fenêtre glissante sont similaires à ceuxutilisés pour l’analyse mel-cepstrale.

22

Chapitre 5

Conversion Visuo-Acoustique.

5.1 Utilisation du corpus dans le cadre d’un apprentissage

Lorsque l’on effectue un apprentissage supervisé, il est important de diviser le corpusdont on se sert en plusieurs sous-corpus. En effet, on distingue généralement :

– Un corpus dit d’apprentissage, qui sert à estimer les paramètres du modèle.– Un corpus de validation qui sert à fixer la compléxité du modèle. Il sert également àfixer la capacité de généralisation du modèle en fournissant un critère d’arrêt en casd’algorithme itératif (pour éviter d’apprendre le corpus d’apprentissage par cœur).

– Un corpus de test qui sert à réaliser une évaluation objective des performances dumodèle estimé. Dans le cas où la sortie est un média audio, écouter les fichiers générésà partir de l’ensemble de test permet d’évaluer subjectivement l’apprentissage.

5.2 Prise en compte du contexte

Comme expliqué dans la section 2.1.3, il est fréquent, dans le processus de productionde la parole d’avoir différentes configurations articulatoires correspondant à un son et, in-versement, plusieurs sons qui peuvent correspondre à une seule configuration articulatoire,faute d’informations sur les autres articulateurs. Afin d’outrepasser ce problème, il est pos-sible d’associer à un son l’image correspondante mais également de donner des informationssur ses variations par rapport aux images précédentes et suivantes. La prise en compte ducontexte visuel peut donc s’opérer via la simple concaténation des caractéristiques desimages suivant et précédant l’image traitée. On parle alors d’ajout de contexte.

Le principal problème qu’entraîne cette pratique est la multiplication des dimensionsen entrée. En effet, on a vu que si l’on souhaite garder 80 à 90% de l’information contenuedans une image, il est nécessaire de conserver les 30 premiers coefficients de la Transforméeen Cosinus Discrète. Avec deux flux à traiter (lèvres et langue), cela représente déjà 60coefficients. Si on souhaite ajouter une trame de contexte dans le futur et une tramede contexte dans le passé, on passe à 180 coefficients pour l’espace des caractéristiquesvisuelles. Il est cependant important que l’espace des caractéristiques visuelles ne soitpas de dimension trop élevée, faute de quoi, le temps de calcul est décuplé. Il est doncintéressant d’utiliser des techniques de réduction de dimension pour revenir à un nombrede coefficients acceptable.

23

5.2.1 L’Analyse en Composantes Principales

L’analyse en composantes principales est une technique qui permet de décorréler desvariables liées entre elles. Cette technique permet de calculer quelles sont les composantesqui véhiculent le plus d’information au sein d’un corpus de données et d’en faire les axesporteurs de l’information. Ainsi, au sein d’un corpus, on peut calculer une famille vecteurstels que la variance selon chaque direction soit aussi grande que possible. On peut voir,figure 5.1, que cette nouvelle base, liée au données, permet de les décrire avec des descrip-teurs pertinents. Bien qu’elle n’ait, a priori, pas de réalité physique, cette base est plusadaptée aux données puisqu’elle décrit l’écart d’un point à la moyenne.

Figure 5.1 – Vecteurs décrivant le la mieux la répartition de la variance des données

En plus de créer une base davantage adaptée aux données, l’analyse en composantesprincipales ordonne les différents vecteurs de la base qu’elle crée selon la variance portéepar chacun d’eux. Ainsi, on peut choisir de ne garder qu’un certain nombre de vecteurs dela base pour réduire la dimension de l’espace tout en conservant un maximum de variance.Dans l’exemple figure 5.1, on peut choisir de ne conserver que le premier vecteur de labase, supprimant ainsi un peu d’information mais simplifiant énormément la descriptiondes données.

L’exemple figure 5.1 montre un jeu de données d’un espace de dimension 2 projetéessur un espace de dimension 2 pour qu’il soit illustrable mais en pratique, on peut allerd’un espace de dimension n quelconque vers un espace de dimension m < n.

Dans nos expériences, on ajoute en général le contexte jusqu’à 3 images dans le passéet 3 images dans le futur. En conservant 30 coefficients TCD, cela représente tout de même420 coefficients. La figure 5.2 montre que conserver 30 coefficients sur 420 (un zoom a étéréalisé sur la courbe pour faciliter la lecture) permet de conserver 98.5% de la variance.

24

Figure 5.2 – Variance cumulée en fonction du nombre de composantes conservées

L’ajout de contexte en temps différé permet d’augmenter considérablement les per-formances de la reconstruction. Cependant, en temps réel l’utilisation du contexte futurentraîne un retard égal au nombre de trames futures prises en compte.

5.3 Régression par Mélange de GaussiennesAfin d’inférer une enveloppe spectrale à partir d’une image (ou d’un contexte visuel),

on utilise une technique de régression non linéaire dite de régression par mélange de gaus-siennes.

5.3.1 Principe général de la Régression par Mélange de Gaussienne.

Dans une modélisation par mélange de gaussiennes, chaque réalisation x est considéréecomme une réalisation aléatoire de probabilité p(x|Θ) (Θ étant l’ensemble des paramètresdu modèle). Cette probabilité est une somme des contributions de m gaussiennes et s’ex-prime donc sous la forme :

p(x|Θ) =m∑

i=1αipi(x|θi) (5.1)

avec– x = [x1, x2, . . . , xd] un vecteur aléatoire de dimension d.– θi = {µi,Σi} les paramètres d’une distribution normale de moyennes µi = [µi1, µi2, . . . , µid]et de matrices de covariance Σi ∈Md,d(R)

On a donc, (5.2) :

pi(x|θi) = N(x, µi,Σi)avec

N(x, µi,Σi) = 1(2π)−d/2 |Σ|

−1/2exp[−1

2(x− µi)T Σ−1i (x− µi)

] (5.2)

25

Les paramètres αi, i = 1, . . . ,m sont appelés probabilités a priori et représentent laprobabilité qu’un point de l’espace se situe dans la gaussienne i. On a ∀i ∈ [1,m] 0 ≤ αi ≤ 1et∑m

i=1 αi = 1.En plus des probabilités a priori {αi}i=1,...,m, entraîner le modèle consiste aussi à cal-

culer les moyennes µi et les matrices de covariance Σi de chacune des gaussiennes.L’ensemble des paramètres optimaux, est obtenu à partir d’un ensemble d’observations,

à l’aide de l’algorithme EM (Expectation-Maximization). Les détails de fonctionnementd’un tel algorithme ne seront pas fournis dans ce rapport mais peuvent être trouvés dansles travaux de Stylianou[15].

Pour l’élaboration de la fonction de conversion visuo-acoustique, nous adoptons l’ap-proche mise en œuvre par Kain dans [16]. Cette dernière est basée sur la modélisation, parun mélange de gaussiennes Θ , de la densité conjointe p(X,Y ) , où X et Y représentent lesvariables aléatoires associées respectivement aux espaces source et cible. Les paramètresdu modèle sont estimés a l’aide de l’algorithme EM, à partir d’une matrice d’observations“conjointes”, notée Z ∈Mdvisuel+dacoustique,N (R) , définie par (eq. (5.3)) :

Z =[XY

]=

x1,1 . . . x1,N... . . .

...xd1,1 . . . xd1,N

y1,1 . . . y1,N... . . .

...yd2,1 . . . yd2,N

(5.3)

Dans notre cas, X ∈ Md1,N (R) et Y ∈ Md2,N (R) sont deux ensembles constituésrespectivement de N observations visuelles et acoustiques

Initialisation de l’algorithme EM : K-moyennesOn retiendra que préalablement à l’apprentissage, afin de placer approximativement les

moyennes des gaussiennes dans l’espace, on effectue une classification des données grâce àl’algorithme dit des K-moyennes. Cet algorithme consiste à créer m classes parmi N pointsd’un espace de dimension quelconque. Cette classification se fait par minimisation d’unedistance définie pour l’espace considéré de façon à ce que chaque point de la classe i soitle plus proche du point moyen µi. On cherche donc les µi tels que

≡m∑

i=1

∑xj∈Si

‖ xj − µi ‖2 soit minimum. (5.4)

µi étant le barycentre des points appartenant à la classe i.

Inférence des coefficients mel-cepstrauxStylianou[15] a montré qu’après calculs des paramètres des lois normales grâce à l’al-

gorithme EM, l’estimation des paramètres acoustiques y est une somme de régressionslinéaires pondérées par la probabilité a posteriori que la réalisation ait été produite par laieme gaussienne.

y = F (x) =m∑

i=1(Wix + bi).P (ci|x) (5.5)

Avec m le nombre de gaussiennes, P (ci|x) la probabilité conditionnelle a posteriori(la probabilité qu’on se situe dans la ieme gaussienne connaissant x), Wi la matrice detransformation et bi le vecteur biais associés à ci, la ieme gaussienne.

26

Wi = ΣY Xi (ΣXX

i )−1

bi = µYi − ΣY X

i (ΣXi X)−1µX

i

P (ci|x) = αiN(x, µXi ,ΣXX

i∑mp=1 αpN(x, µX

p ,ΣXXp )

Avec Σi =[ΣXX

i ΣXYi

ΣY Xi ΣY Y

i

]et µi =

[µX

i

µYi

](5.6)

En exploitant les équations (5.5) et (5.6), on arrive au résultat (5.7) qui est employé telquel pour calculer le résultat du mapping en temps réel comme on le verra dans la section6 consacrée à l’implémentation du système.

y =M∑

m=1

[[µY

m + ΣY Xm (ΣXX

m )−1(x− µXm)].p(cm|x)

](5.7)

5.3.2 Influence du nombre de gaussiennes sur les performances

On associe la capacité du système à générer un signal intelligible à la distorsion mel-cepstrale que l’on peut calculer en comparant les coefficients estimés à partir du signal ori-ginal et les coefficients prédits par le modéle visuo-acoustique (equation (5.8)). L’utilisationde la distorsion mel-celpstrale comme mesure de l’erreur est justifiée par Kominek[17].

DMC(s, s) = 1N

N−1∑n=0

α

√√√√ M∑i=1

(Ki(n)− Ki(n)

)2

Avec M le nombre de coefficients mel-cestrauxN le nombre de trames de signal que l’on teste.

α = 10√

2ln 10 coefficient de normalisation [17] [18]

Ki(n) le ieme coefficients mel cepstral de la nieme trameKi(n) sa valeur estimée grâce au mapping.

(5.8)

Dans le cadre de cette étude, nous ne prenons pas en compte l’erreur commise sur lepremier coefficient mel-cepstral, qui correspond à l’énergie moyenne du signal. En effet,cette information n’est pas disponible dans le cadre d’une “production silencieuse”, etn’est pas, en première approximation, décisive pour garantir l’intelligibilité du signal desynthèse.

En pratique, on constate qu’un signal de synthèse présentant une distortion mel-cepstrale de l’ordre de 7dB commence à être intelligible.

La figure 5.3 montre l’évolution de la distorsion mel-cepstrale en fonction du nombrede gaussiennes dans le modèle pour différents nombres de trames de contexte dans le futur(le nombre de trames dans le passé étant fixé à 3).

Ces différents résultats montrent deux points importants.– On atteint un minimum de distorsion mel-cepstrale autour de 100 gaussiennes

27

Figure 5.3 – Évolution de la distorsion mel-cepstrale en fonction du nombre de gaussienneset du nombre de trames utilisées.

– L’utilisation du futur ne permet pas (ou peu, pour une seule trame dans le futur)d’améliorer l’efficacité du système. Ce point permet donc de se rassurer quant auproblème soulevé précédemment lié au retard inhérent à l’utilisation de trames dansle futur. Ces calculs ayant été faits en fin de stage, faute de temps, ils n’ont d’unepart pas pu être confirmés par des tests sur d’autres corpus, d’autre part, ils n’ontpas pu être complétés par une étude du nombre de trames dans le passé.

5.4 Estimation du voisement

Dans cette étude, nous nous sommes également intéressé à la prédiction de la caracté-ristique de voisement à partir uniquement des configurations articulatoires, observées parimagerie ultrasonore et vidéo.

Bien que la position des cordes vocales ne soit évidemment pas visible dans nos imagesultrasonores et vidéos, nous faisons l’hypothèse qu’il est, dans une certaine mesure, possiblede prédire la caractéristique voisée/non-voisée à partir de la position de la langue et deslèvres. Par exemple, il est probable que la configuration articulatoire associée à une voyelle,position qui est généralement tenue plus longtemps et qui est propre à la production devoyelles, sera voisée.

La prédiction de la caractéristique (binaire) voisée/non-voisée à partir des images ul-trasonores et vidéos étant une tâche de classification, nous nous proposons de l’aborder àl’aide d’un réseau de neurones artificiels.

5.4.1 Les réseaux de neurones artificiels

Le réseau de neurones est un outil de classification couramment utilisé qui trouve sonprincipe de fonctionnement sur le système neuronal humain.

Les Réseaux de Neurones Artificiels (RNA) sont des combinaisons de fonctions non

28

linéaires élémentaires appelées “neurones formels” ou simplement “neurones”. Un neuroneréalise une fonction non linéaire bornée de ses entrées :

y = F

(n∑

i=1ωixi + β

)Où {xi}i∈[1..n] sont les variables (les entrées){ωi}i∈[1..n] les paramètres (poids synaptiques)β est le biais

(5.9)

Il existe de multiples façons d’agencer ces neurones élémentaires et construire ainsi desréseaux complexes. Nous utilisons dans cette étude un perceptron multicouche, dont lastructure est illustrée par la figure 5.4. Dans nos expériences, la fonction d’activation estde la forme log-sigmoïde.

Figure 5.4 – Schéma d’un réseau de neurone du type perceptron multi-couche permettantde prendre des décisions binaires. source : [19]

Le théorème d’approximation de Cybenko[20] stipule que toute fonction peut êtreapprochée en théorie par un perceptron multicouche possédant une seule couche cachée.Le nombre de neurone de la couche cachée peut cependant être très important.

5.4.2 Calcul du seuillage optimal : Courbe ROC

Le signal en sortie du réseau de neurones est un signal continu et borné entre 0 et 1. Afinde le discrétiser, il est nécessaire de trouver le seuil optimal. Ce seuil peut être déterminégrâce à la courbe dite courbe ROC (Receiver Operating Characteristic - caractéristique deperformance du récepteur). Cette courbe permet de contrôler la spécificité et la sensibilitéd’un classifieur en fonction du seuil.

En classification binaire, on peut se retrouver dans 4 situations : une information a étéclassifiée comme vraie et elle l’était réellement. On parle alors de Vrai Positif. Si elle nel’était pas, on parle de Faux Positif. Si elle à été classifiée comme fausse et qu’elle l’était,on parle de Vrai Négatif et si elle ne l’était pas, on parle de Faux Négatif. En ayant établice vocabulaire, on peut donc calculer spécificité et sensibilité qui permettent d’évaluer unclassifieur de façon précise.

29

– Pour le classifieur qui détermine si une trame est voisée ou non, la sensibilité estla probabilité que l’on a de dire qu’une trame est voisé quand elle est censée l’être.On a donc : Sensibility = V P

V P +F N– la spécificité est la probabilité de prédire une trame non voisée sachant qu’elle estcensée être non voisée : Specificity = V N

V N+F PLa courbe ROC comporte en abscisse l’anti-spécificité (1−spécificité) et en ordonnéesla sensibilité. Ainsi, le point (0,0) correspond à une sensibilité nulle et une spécificitémaximum : on sort toujours un signal non voisé ainsi, on prédit correctement les momentoù le signal n’est effectivement pas voisé. La situation inverse se produit au point (1,1)et le but est donc d’atteindre le point (0,1) : point où la sensibilité et la spécificité sontmaximum : toutes les prédictions s’avère correctes. A chaque valeur de seuil testé, on peutcalculer la sensibilité et la spécificité associées et on peut donc placer un point de la courbe.On choisit donc un ensemble de valeurs de seuils à tester et le point de la courbe le plusproche du point (0,1) sera le seuil optimal. Le figure 5.5 (avec les mesures ramenées enpourcentage) montre l’aspect classique d’une courbe ROC.

Figure 5.5

5.4.3 Architecture du réseau

Pour selectionner le modèle, c’est à dire fixer la structure du réseau et plus spécifique-ment le nombre de neurones sur la couche cachée, on utilise une procédure de validationcroisée : Le modèle est entraîné en faisant varier le nombre de neurones cachés et celuiqui donne les meilleurs résultats (au sens des moindres carrés) est choisi. En réalisantl’apprentissage plusieurs fois et sur deux corpus de validation, on parvient à la conclusionque le meilleur modèle s’obtient avec 15 neurones cachés.

5.5 Évalutation du modèle.Dans nos expériences, les critères que sont la distortion mel-cepstrale ou la précision

du classifieur mis en oeuvre pour l’estimation de la caractéristique de voisement, ne nousont pas parus capables de rendre compte systématiquement et fidèlement du niveau d’in-telligibilité d’un signal de synthése. Aussi, nous avons mis en oeuvre un test perceptif,visant à évaluer plus objectivement les performances de notre système.

30

5.5.1 Génération du corpus utilisé lors du test perceptif

Le test perceptif a servi à évaluer deux critères importants : l’intelligibilité des consonneset l’apport de la vision dans la perception. Il est possible de classer les consonnes seloncertains traits : oral/nasal, compact/diffus, grave/aigu, interrompu/continu, sonore/sourdet voisé/non voisé. Rossi[14] a exploité ces particularités en créant un test consistant à dis-criminer les consonnes qui ne se différencient que par une seule de ces propriétés. Ce test,dit DRT (Diagnostic Rhyme Test), permet de detecter les indices acoustiques pertinentsdans les oppositions consonantiques et établit un diagnostique sur le fonctionnement dessystèmes de synthèse vocale. Nous avons, afin de tester la qualité de la synthèse de notrevocodeur, adapté ce test à des VCV en conservant les mêmes oppositions consonantiques.L’opposition voisé/non voisé a cependant été volontairement retirée du corpus car ellen’est, par essence, pas déterminable dans le cas de la parole silencieuse.

Dans le test mis en œuvre, le sujet se voit proposé une série de 30 stimuli, de la formeVCV, avec V= [a,i,u] et C=[p,t,k,f,s,sh,m,n,r,l]. Les stimuli sont soit uniquement sonores,soit uniquement visuels (video des lèvres du locuteur prononçant le stimulus), soit au-diovisuels (son+video des lèvres). Après présentation de chaque stimulus, le sujet se voitprésenté deux propositions (exemple : aka ou ara) et doit choisir laquelle correspond austimulus qu’il vient de percevoir. L’ordre de présentation des stimuli est rendu aléatoireainsi que la position sur l’écran du texte correspondant à la proposition correcte. La pas-sation du test s’effectue avec le logiciel Neurobs Presentation, dans la chambre anéchoïquedu GIPSA-lab.

Benoit et al[21] avaient déjà évalué l’apport de la vision dans la perception d’un sonbruité. Dans la même optique, cette évaluation sert à montrer que l’apport de la modaliévisuelle contribue grandement à l’intelligibilité globale.

5.5.2 Résultats

Le test ayant été finalisé l’avant-dernier jour du stage, le nombre de participants àl’étude (10 sujets) n’est pas assez important pour tirer des conclusions définitives sur lesrésultats obtenus. Cependant, aucun des sujets venus participer à l’expérimentation n’avaitd’expérience en traitement de la parole et les résultats sont donc fiables du point de vuedu biais qu’entraîne l’implication de professionnels du traitement de la parole.

Les résultats figure 5.6 nous montrent que la modalité audio + vidéo permet de ga-gner beaucoup en intelligibilité malgré le bruit et les imperfections du vocodeur. En effet,on constate que les modalités audio seul et video seule rencontre un taux de reconnais-sance inférieur à celui de la modalité audio + video. Ce résultat confirme celui de Benoitet al.[21] qui avaient montré qu’avoir de l’information visuelle en plus de l’audio bruitéaidait grandement à la compréhension. En entrant dans le détail des résultats par typed’opposition entendu, on se rend compte que les consonnes nasales sont les plus duresà distinguer : [m]/[p], [n]/[l], [n]/[t]. Cette constatation était cependant attendue dés ledébut car, comme expliqué en début de rapport, nous ne disposions d’aucune informationsur la position du velum. Les autres oppositions nous montrent que dans tous les cas, lareconnaissance en se servant du contexte audio-visuel est toujours meilleure que l’audioet la vidéo seuls. En revanche, certaines oppositions sont plus simples à reconnaitre avecl’audio qu’avec la video : grave/aigu ([m]/[n], [f]/[s], [p]/[t]) et compact/diffus ([sh]/[s],[r]/[l], [k]/[p], [k]/[t]). À l’inverse, d’autres oppositions sont plus simples à reconnaitreavec l’audio qu’avec la video : Vocalique/non vocalique([r]/[k], [r]/[t], [r]/[sh]) et interrom-pue/continue ([r]/[k], [k]/[sh], [t]/[s], [p]/[f]). Le taux de reconnaissance est globalement

31

Figure 5.6 – Analyse des résultats de l’expérience selon la modalité

Figure 5.7 – Résultats de l’expérience perceptive selon la modalité et les oppositions

élevé pour toutes les modalités mais ceci est lié au fait qu’il faille choisir 1 propositionparmi 2 : un choix aléatoire mène à une reconnaissance de 50% (et c’est d’ailleurs la raisonpour laquelle les axes des ordonnées des deux graphiques commencent à 50).

32

Chapitre 6

Implémentation sur plateformetemps-réel

En plus de l’étude des techniques qui allaient être utilisées en temps réel et qui peuventêtre différentes de celles du temps différé - la Regression par Melange de Gaussiennes n’estpas la technique la plus performante pour inférer l’audio mais elle a le mérite de se faireen temps-réel - le stage consistait à porter ces modules sur un logiciel dédié au traitementen temps réel : max/MSP.

6.1 Max/MSP

Max/MSP est un logiciel développé par l’équipe cycling’74 dédié à la création d’appli-cations multimédia interactives. Chaque fonction que l’on utilise est représentée par uneboîte qui contient un bout de code destiné à agir sur le signal qu’il reçoit en générant duson, de la vidéo ou en réalisant des calculs allant de l’opération de logique à la densitéspectrale de puissance d’un signal. Les boîtes représentant les fonctions sont reliées entreelles par des traits (à la manière de simulink). Max dispose d’un grand nombre de fonctionsqui permettent de réaliser enormément de “programmes” complexes et certaines équipesdéveloppent leur propres modules (appelés externals) et les proposent en libre accés surinternet. Cependant, il est également possible de développer soi-même ses propres modulesen respectant le mode de fonctionnement propre à Max.

Figure 6.1 – Interface graphique de Max/MSP mettant en avant l’utilisation de boîtesreliées entre elles par des “câbles”

33

Développement d’externals de Max/MSPLe développement d’externals est est proches langages de programmation orientés objet.

En effet, lorsqu’on souhaite créer une fonction, on implémente en réalité un objet, dotéd’attributs et de méthodes. On peut donc instancier plusieurs fois un même objet, créantainsi plusieurs zones mémoire pour stocker les valeurs des attributs sans que les instancesinterfèrent entre elles.

Un objet Max se construit donc de la même façon qu’on constuirait par exemple unobjet en Java :

– Il possède des attributs, variables globales propres à l’objet qui peuvent être modi-fiées par toutes les fonctions de l’objet. Ces attributs peuvent être de toute nature(booléens, entiers, tableaux ou même structures) et peuvent être soit des variables quiservent au fonctionnement interne, soit des données, soit les résultats. Par exemple,dans le cas des modules dont la théorie a été présentée précédemment, comme il yen a beaucoup qui fonctionnent par apprentissage préalable, les données sont sys-tématiquement lues et stockées dans de grands tableaux qui sont des attributs desobjets.Les objets de Max/MSP possèdent cependant également des entrées et des sortiesqui sont référencées parmi les attributs de l’objet à l’aide d’un type spécial propre àMax/MSP.

– Un objet en Max/MSP possède un constructeur, qui permet d’initialiser les attributset un destructeur qui permet de libérer la mémoire proprement lorsque la “boîte”est supprimée.

– Un objet en Max/MSP possède des méthodes qui permettent de réaliser les opéra-tions mathématiques souhaitées. Cependant, comme Max/MSP permet de créer desapplications interactives, il est important d’utiliser la méthode adaptée à la naturedu message reçu. Ainsi, contrairement aux objets que l’on peut programmer en Java,la création d’un objet Max/MSP va entrainer l’appel du constructeur puis va appelerune fonction main. Cette fonction va avoir pour but de lier chaque méthode à untype de message. Ainsi, si un entier arrive en entrée de l’instance, la méthode trai-tant les entiers va être appelée. Le main crée donc ces liens puis se met en positiond’attente de nouveau message.

La programmation des externals demande beaucoup de rigueur. En effet, il est neces-saire de porter beaucoup d’attention tant au niveau des spécificités de Max/MSP énoncéesci-dessus qu’au niveau de l’optimisation du code pour réduire les temps de calcul et pourlimiter les lectures/écritures sur le disque. Cependant, l’utilisation de ces externals dansl’application Max/MSP est très intuitive et la rigueur investie dans le codage de ces fonc-tions se transformant en facilité d’utilisation, il est très intéressant de coder ses propresmodules. De plus, le comportement du module est ainsi parfaitement maitrisé et peut êtremodifié le cas échéant.

6.2 Modules Réalisés

L’ensemble de la chaîne permettant de produire de la parole à partir d’un coupled’images a été implémenté en temps réel. Le logiciel Ultraspeech, introduit précédemment,réalise la capture et l’extraction des caractéristiques visuelles. Ces données sont envoyéessur un réseau (selon le protocole UDP), et captées par une fonction de Max/MSP quipermet d’écouter sur le réseau. Après concaténation, les données passent successivementpar différent modules codés spécialement pour le projet Ultraspeech II. La plupart des

34

modules décrits dans les sections précédentes nécessitant une phase d’apprentissage horsligne, il est important de préciser que celle-ci est réalisée sous Matlab et que les résultatssont stockés dans des fichiers binaires lus par les externals sous Max/MSP.

– SegmentalFeatures :Un module permettant d’ajouter du contexte passé et/ou futur à une trame et ensuitede projeter ce vecteur ainsi obtenu sur un espace de dimension inférieur a été misen place. Le module commence par lire un fichier qui le renseigne sur le nombre detrames de contexte passé, le nombre de trames de contexte futur et la matrice deprojection. Ce fichier est généré lors du calcul de la matrice de projection, durantl’analyse en composante principales sous Matlab. En stockant les données parmi sesattributs, le module procède à la concaténation et à la projection.

– GmmMap :Afin de déterminer la forme de l’enveloppe spectrale, un deuxième module, permet-tant d’effectuer la régression par Mélange de Gaussiennes a été codé. Encore unefois, en lisant tous les paramètres (probabilités à priori, moyennes, matrices de cova-riances) dans un fichier généré lors de l’entrainement du modèle, le module va calculerles coefficients mel-cepstraux associés aux caractéristiques visuelles en appliquant laformules (5.7).

– ann :De même, si on souhaite déterminer si la trame est voisé ou non, toujours par lecturedes poids, des biais et du seuil dans un fichier, on peut, en appliquant la formule(5.9), déterminer si la sortie est voisée et ainsi exciter le vocodeur avec un bruitblanc (non voisé) ou avec un peigne de Dirac (voisé)

– vocoder :Enfin, le vocodeur, codé pour recevoir des coefficients extraits par la toolbox SPTK,prend en entrée un jeu de coefficients qui décrivent précisément l’enveloppe spectraleet un signal excitateur. Il génère un signal audio qui est ensuite joué par Max/MSP.Afin de réaliser ce vocodeur, on s’appuie sur les travaux réalisés par Imai[12] pourcoder les fonctions de SPTK. Le code permettant la synthèse de signal est transforméafin d’être adapté au temps réel mais l’essentiel du programme est conservé.

Test du système.Afin de tester les différents modèles, il est impératif d’équiper le casque, d’aller idéale-

ment dans la même salle que pour l’acquisition, sous les mêmes conditions d’éclairage, etd’articuler silencieusement des voyelles, des syllabes ou des phrases et de voir commentréagit le système. Cependant, il n’est pas toujours possible d’aller réaliser des tests ensalle anéchoïque où les conditions sont idéales, ainsi, j’ai implémenté, sous max, un utili-taire qui permet de lire un jeu de coefficients TCD afin de simuler l’utilisation du casquepour valider le codage des différents modules et afin de tester des apprentissages. Bien quemoins fiable qu’une utilisation du système dans sa globalité, ce système permet au moinsd’écarter certains apprentissage.

La détermination de la validité d’un apprentissage s’est faite, en générale de manièretotalement subjective. Afin de juger un modèle, M.Hueber, sujet sur lequel l’ensembledes données a été acquis, articulait des phrases silencieusement dans la chambre sourdependant que j’écoutais et tentais de lui répéter ce qu’il avait dit. De même que pour le testperceptif, la vision des lèvres était disponible ou non pour voir si la composante visuelleapportait beaucoup d’aide à l’intélligibilité globale.

En testant le système, nous sommes parvenus à échanger quelques mots grâce à l’in-terface de communication en parole silencieuse développée au cours de ce stage. Bien que

35

partiel, ce résultat positif traduit un succés dans la voie de la conversion d’images vers dela parole en temps réel.

36

Chapitre 7

Conclusion et perspectives.

Dans ce stage, nous avons implémenté un premier prototype temps réel d’une interfacede communication en parole silencieuse. Cette dernière est basée sur l’observation desmoubvements de la langue et des lèvres par imagerie ultrasonore et video. L’estimationdu contenu spectral cible à partir des images du conduit vocal, s’effectue à l’aide d’unetechnique dite de regression par GMM (modèles de mélanges gaussians). L’estimationde la caractéristique de voisement est effectué à l’aide d’un réseau de neurone artificiel.Les différentes étapes du système ont été implémenté dans l’environnement temps-réelMax/MSP. Un test perceptif a été mis en oeuvre pour évaluer la performance du système.Cependant, certains points nécessitent d’être approfondis afin d’améliorer la qualité de lasynthèse. Le point le plus urgent à améliorer étant la qualité de la synthèse par le vocodeur.De plus, bien qu’un test ait été réalisé, les extrait audio proposés ont été générés à partird’enregistrement hors ligne et ne représentent permettent pas de tester la composantetemps réel développée au cours de ce stage. Il serait intéressant de construire un testd’interaction entre un locuteur parlant avec le système de conversion visuo-acoustique etun sujet naif devant répondre à des questions simples.

Enfin, pour permettre une vrai progression dans l’efficacité de la conversion, il faudraitessayer d’adapter au temps réel des techniques de traitements propres au temps diféré telque l’approche indirecte de conversion visuo-acoustique proposée par Hueber dans [1], etbasée sur une modélisation par modèles de Markov cachés (HMM).

37

Bibliographie

[1] Hueber, T. (2009). Reconstitution de la parole par imagerie ultrasonore et vidéo del’appareil vocal : vers une communication parlée silencieuse. PhD, Université Pierre etMarie Curie, Paris

[2] Hueber, T., Benaroya, E.L., Chollet, G., Denby, B., Dreyfus, G., Stone, M., (2009).Development of a silent speech interface driven by ultrasound and optical images of thetongue and lips Speech Communication

[3] Fagan, M. J., Ell, S. R., Gilbert, J. M., Sarrazin, E., and Chapman, P. M. (2008).Development of a (silent) speech recognition system for patients following laryngectomyMedical Engineering & Physics 30, 419-425.

[4] Jorgensen, C., Lee, D. D., and Agabon, S. (2003). Sub auditory speech recognition basedon EMG signals International Joint Conference on Neural Networks, pp. 3128-3133.

[5] Jou, S. C., Maier-Hein, L., Schultz, T., and Waibel, A. (2006). Articulatory featureclassification using surface electromyography ICASSP, pp. 605-608.

[6] Nakajima, Y., Kashioka, H., Shikano, K., and Campbell, N. (2003). Non-audible mur-mur recognition input interface using stethoscopic microphone attached to the skinCASSP (Hong Kong), pp. 708-711.

[7] Toda, T., and Tomoki, S. (2005). NAM-to-Speech Conversion with Gaussian MixtureModels Interspeech (Lisbon, Portugal), pp. 1957-1960.

[8] Le Huche, F., Allali, A., (2001). La Voix. Anatomie et physiologie des organes de lavoix et de la parole. Masson, Paris

[9] Boite, R., Bourlard, H., Dutoit, T., Hancq, J., and Leich, H. (2000). Traitement de laparole Presses Polytechniques et Universitaires Romandes, Lausanne

[10] Combescure, P. (1981). “20 listes de dix phrases phonétiquement équilibrées”. Revued’Acoustique, no 56, jan 1981, p. 34-38.

[11] Stevens S.S., Volkmann J. (1940). The relation of pitch to frequency : A revised scale.The American journal of psychology

[12] Imai S., Sumita K., Furuichi C. (1983) Mel Log Spectrum Approximation (MLSA)filter for speech synthesis Electronics and Communications in Japan (Part I : Commu-nications) Volume 66, Issue 2, pages 10-18, 1983

[13] Bogert B. P., Healy M. J. R., Tukey J. W. (1963) The Quefrency Alanysis of TimeSeries for Echoes : Cepstrum, Pseudo Autocovariance, Cross-Cepstrum and Saphe Cra-cking. New York : Wiley

[14] Rossi, M. (en collaboration avec J.P. Peckels) (1973). Le test de diagnostic par pairesminimales. Revue d’Acoustique , 27,6, 245-263.

[15] Stylianou, I. (1990). Harmonic plus Noise Models for Speech, combined with StatisticalMethods, for Speech and Speaker Modification. PhD, Signal et Image, ENST Paris,Paris.

39

[16] Kain, A., (2001). High-resolution voice transformation PhD, OGI School of Science& Engineering, Oregon Health & Science University

[17] Kominek J., Black A. W., Schultz T. (2008). Synthesizer voice quality of new lan-guages calibrated with mean Mel-Cepstral Distortion Language Technologies Institute,Carnegie Mellon University, USAhttp://www.cs.cmu.edu/~awb/papers/sltu2008/kominek_black.sltu_2008.pdf

[18] Mashimo, M., Toda, T., Shikano, K., Campbell, N., (2001). Evaluation of Cross-language Voice Conversion based on GMM and STRAIGHT Eurospeech 2001, Aalborg,Denmark.

[19] http://membres.multimania.fr/datamining/neurone.htm

[20] Cybenko G., (1989). Approximations by superpositions of sigmoidal functionsSpringer-Verlag, New york

[21] Benoit C., Kandel S., Mohamadi T. (1994) Effect of Phonetic Context On Audio-Visual Intelligibility of French Journal of Speech and Hearing Research

40

Projet Ultraspeech II

Documents

Transcript of Projet Ultraspeech II