Indices prosodiques caractérisant un style d'élocution et ses variantes individuelles Jean-Sylvain...

16
Indices prosodiques Indices prosodiques caractérisant un style caractérisant un style d'élocution d'élocution et ses variantes et ses variantes individuelles individuelles Jean-Sylvain Liénard Martine Adda-Decker LIMSI CNRS MIDL 29-30 nov 2004 Paris

Transcript of Indices prosodiques caractérisant un style d'élocution et ses variantes individuelles Jean-Sylvain...

Page 1: Indices prosodiques caractérisant un style d'élocution et ses variantes individuelles Jean-Sylvain Liénard Martine Adda-Decker LIMSI CNRS MIDL 29-30 nov.

Indices prosodiquesIndices prosodiques caractérisant un style caractérisant un style

d'élocutiond'élocutionet ses variantes individuelleset ses variantes individuelles

Jean-Sylvain Liénard

Martine Adda-Decker

LIMSI CNRS

MIDL 29-30 nov 2004 Paris

Page 2: Indices prosodiques caractérisant un style d'élocution et ses variantes individuelles Jean-Sylvain Liénard Martine Adda-Decker LIMSI CNRS MIDL 29-30 nov.

Peut-on identifier une langue ou un dialecte à partir de la Peut-on identifier une langue ou un dialecte à partir de la prosodie ?prosodie ? Il faut d'abord savoir de quel type de parole il s'agit Problématique générale de la variabilité

Les contenus (ou types d'information) du signal de paroleLes contenus (ou types d'information) du signal de parole- le contenu linguistique (celui qui fait l'objet d'un code

linguistique reconnu par une collectivité)mais aussi, dans le même signal:

- les caractéristiques physiques du locuteur: sexe, taille, âge …

- ses caractéristiques psychiques et physiologiques- son origine linguistique, sa langue et son dialecte- le contexte de l'interaction parlée, l'interlocuteur supposé- les rôles socioculturels joués par chacun des interlocuteurs- les conditions acoustiques de la communication …

Tout cela se traduit par d'énormes variations variations prosodiquesprosodiques;;

Il faut savoir lesquelles sont pertinentes pour le problème posé

Position du problèmePosition du problème

Page 3: Indices prosodiques caractérisant un style d'élocution et ses variantes individuelles Jean-Sylvain Liénard Martine Adda-Decker LIMSI CNRS MIDL 29-30 nov.

PrioritésPriorités

-identifier les contenusidentifier les contenus présents dans le signal

-identifier les indices acoustiquesidentifier les indices acoustiques ou leurs combinaisons qui servent de support à chaque contenu

- un guide utile: la notion de style d'élocutionstyle d'élocution, qui permet de catégoriser l'infinie diversité des situations de communication:

-Exemples

- commentaire sportif

- cours en amphi

- débat entre pairs

- lecture à voix haute en ambiance scolaire

- brève de comptoir

- etc

Page 4: Indices prosodiques caractérisant un style d'élocution et ses variantes individuelles Jean-Sylvain Liénard Martine Adda-Decker LIMSI CNRS MIDL 29-30 nov.

Caractériser un style d'élocution "lecture à voix haute"

- même texte- ensemble homogène de lecteurs- mêmes conditions d'élocution- même consigne

Et ses variations- existe-t-il une "réalisation

moyenne" ?- où se placent les variations

individuelles ?

Objectif et corpusObjectif et corpus

Corpus LeblancCorpus Leblanc- 48 locutrices, étudiantes psycho

Nanterre- 2 élocutions- texte présenté en un seul

paragraphe

Texte

Les Français, qui consacrent une partie appréciable de leur journée à la poignée de main, passent également un temps considérable à se prier réciproquement d'entrer dans leurs maisons. Les uns prient les autres d'entrer, les autres jurent qu'ils n'en feront rien. Les premiers disent : "Moi non plus". Et, de fil en aiguille, les Français ont passé (environ) trois siècles et demi depuis Charlemagne sur le pas de leurs portes. On est même étonné d'en trouver quelques-uns chez eux.

Extrait de: Pierre Daninos Les carnets du major Thompson

séquence référence (07)

Page 5: Indices prosodiques caractérisant un style d'élocution et ses variantes individuelles Jean-Sylvain Liénard Martine Adda-Decker LIMSI CNRS MIDL 29-30 nov.

L'objectifL'objectif- comparer les indices prosodiques des 96 séquences

alignées

Première approche:Première approche: utiliser la transcription phonétique- Aligner chaque séquence sur sa transcription phonétique

par reconnaissance automatique- Problème: trop de variations segmentales individuelles

- pauses- transcription normative ou réaliste ?- quelles unités segmentales ?

Seconde approche:Seconde approche: partir du seul signal acoustique- Le but étant l'étude de la prosodie, on ne s'intéresse

qu'aux segments vocaliques et aux pauses- Alignement des séquences et mesure des indices

prosodiques sont effectués sans référence à la transcription phonétique

De l'approche phonétique à l'approche De l'approche phonétique à l'approche acoustiqueacoustique

Page 6: Indices prosodiques caractérisant un style d'élocution et ses variantes individuelles Jean-Sylvain Liénard Martine Adda-Decker LIMSI CNRS MIDL 29-30 nov.

Répartition des pausesRépartition des pauses

histogramme du nb de pauses (sf début et fin)

0

510

1520

2530

35

3 4 5 6 7 8 9 10 11

La majorité des locutrices observe 6 ou 7 pauses, correspondant aux principales ponctuations

respect majoritaire de la norme imposée par le texte

Hors de cette norme chaque locutrice ajoute ou supprime des pauses, mais pas n'importe où

sur ponctuations secondaires

sur ruptures de sens sur ruptures syntaxiques

Le choix des pauses effectives est une manière d'interpréter le texte

Pause: chûte du niveau sonore d'au moins Pause: chûte du niveau sonore d'au moins 12 dB par rapport à la moyenne (en 12 dB par rapport à la moyenne (en énergie) de la séquence, et durant énergie) de la séquence, et durant plus que 1,8 fois la durée moyenne plus que 1,8 fois la durée moyenne des Groupes Vocaliques, soit environ des Groupes Vocaliques, soit environ 300 ms.300 ms.

Valeurs non critiques, modulées en Valeurs non critiques, modulées en fonction du débit moyen de la fonction du débit moyen de la locutricelocutrice

Page 7: Indices prosodiques caractérisant un style d'élocution et ses variantes individuelles Jean-Sylvain Liénard Martine Adda-Decker LIMSI CNRS MIDL 29-30 nov.

Noyau vocalique NVNoyau vocalique NV- segment centré sur un maximum de la fonction d'énergie

BF (<1 kHz) évaluée sur fenêtre 50 ms.- limites à –3 dB- ce n'est pas une "voyelle phonétique"

Groupe vocalique GVGroupe vocalique GV- segment compris entre deux minima d'énergie BF, hors

pauses - approximation: mi-distance de deux centres NV successifs- ce n'est pas une "syllabe phonétique"

Indices prosodiques Indices prosodiques (définis pour chaque GV)- F0F0 au centre du NV sur fenêtre 100 ms, en

demi-tons/100 Hz- dF0 dF0 différence F0 (fin NV) – F0 (début NV)- intensité intensité au centre du NV, en dB- DuréeDurée durée du GV

Noyaux et groupes vocaliques, indices Noyaux et groupes vocaliques, indices prosodiquesprosodiques

Page 8: Indices prosodiques caractérisant un style d'élocution et ses variantes individuelles Jean-Sylvain Liénard Martine Adda-Decker LIMSI CNRS MIDL 29-30 nov.

Exemple: début séquence 01

Noyaux et groupes vocaliques, indices Noyaux et groupes vocaliques, indices prosodiquesprosodiques

Time (s)0 8.25075

25.32

84.42

30

40

50

60

70

80

0 1 2 3 4 5 6 7 8

Time (s)0 8.25075

0

5000

Ici le spectrogramme de la séquence ci-dessus (début séquence 01

En bleu: intensité BF

En rouge: F0 interpolé

Page 9: Indices prosodiques caractérisant un style d'élocution et ses variantes individuelles Jean-Sylvain Liénard Martine Adda-Decker LIMSI CNRS MIDL 29-30 nov.

Choix d'une séquence de référenceChoix d'une séquence de référence par écoute critique: écarter toute séquence entachée de défauts trop apparents (reprises, hésitations, erreurs de lecture, voix trop lente, trop rapide, accent régional...)

AlignementAlignement de tous les tableaux de GV sur cette séquence de référence par programmation dynamique sur critères spectraux (8 mfcc)

MoyennageMoyennage des 96 tableaux alignés temporellement pour obtenir le tableau prosodique représentant la séquence moyenne (notion abstraite)

Ne pas confondre Ne pas confondre séquence de référence, séquence moyenne, prototype stylistique

Etiquetage Etiquetage (pour interprétation visuelle)

Rétro-étiquetageRétro-étiquetage possible: connaissant un étiquetage segmental de la séquence moyenne, on peut l'appliquer à toutes les séquences du corpus

Calcul d'une prosodie moyenneCalcul d'une prosodie moyenne

Page 10: Indices prosodiques caractérisant un style d'élocution et ses variantes individuelles Jean-Sylvain Liénard Martine Adda-Decker LIMSI CNRS MIDL 29-30 nov.

Al

Q

9

10

11

12

13

14

15

16

17F0 (st)

-2

-10

1

2 dF0 (st)

70

75

80

85

90int (dB)

0,10

0,15

0,20

0,25

0,30

dur (s)

F0 double déclinaison - marqueur de fin de groupe - dF0 - corrélation int/F0 - évolution durée

Page 11: Indices prosodiques caractérisant un style d'élocution et ses variantes individuelles Jean-Sylvain Liénard Martine Adda-Decker LIMSI CNRS MIDL 29-30 nov.

Trois grands types de groupes prosodiques pour ce corpus

Grands groupesGrands groupes (entre deux pauses: "groupes de souffle" ?)découpage visible sur tous les indicesdouble déclinaison (F0, intensité)marqueur de fin de groupe, sur les derniers GV

Petits groupes:Petits groupes: "mots prosodiques" ?concerne un petit nombre de GV: 1 à 4se manifeste surtout dans F0 et duréestructure unitaire propre à la langue ou au dialecte ?

Groupes intermédiaires: Groupes intermédiaires: "groupes de sens" ?soumis à considérations linguistiques: syntaxe, sémantique,

et à l'interprétation du texte par la locutriceces groupes intermédiaires peuvent évoluer selon

l'interprétation, allant du mot prosodique au groupe de souffle

Prosodie moyenneProsodie moyenne

Page 12: Indices prosodiques caractérisant un style d'élocution et ses variantes individuelles Jean-Sylvain Liénard Martine Adda-Decker LIMSI CNRS MIDL 29-30 nov.

Pour chaque indice, deux types de dissemblances entre séquences: deux types de dissemblances entre séquences:

DécalageDécalage ou écart en moyenne: différence des moyennes de l'indice sur chaque séquence

Profil Profil ou écart des valeurs: covariance, ou distance entre valeurs correspondantes (centrées) dans les deux séquences

Pour chacun des indices prosodiques on a défini deux mesuresdeux mesures: en décalage (DF0, DdF0, Dint, Ddur)en profil (PF0, PdF0, Pint, Ddur)

Même chose pour la forme d'ensemble du spectreforme d'ensemble du spectre, par le biais des 4 premiers mfcc: Dcc1 … Dcc4, Pcc1 … Pcc4

Décalages différences "statiques" entre séquences (F0 moyen, débit moyen, spectre à long terme…) indépendantes du contenu et de l'élocution

Profils différences "dynamiques" (évolution de F0, int, durée, forme spectrale), liées au contenu linguistique (ici: le même) et à l'élocution

Variantes individuellesVariantes individuelles

Page 13: Indices prosodiques caractérisant un style d'élocution et ses variantes individuelles Jean-Sylvain Liénard Martine Adda-Decker LIMSI CNRS MIDL 29-30 nov.

Cohérence des mesuresCohérence des mesures

13,6

Ddur

Dint DF0 DdF0

16,1 17,8

Dcc1 Dcc2 Dcc3 Dcc4

33,5 16,5 12,1 13,2 14,5

Cohérence obtenue avec chaque mesure prise Cohérence obtenue avec chaque mesure prise isolémentisolément 

Pdur Pint PF0 PdF0

Pcc1 Pcc2 Pcc3 Pcc4

17,8 24,8 14,7 23,3 24,5 16,3 20,8 16,0

Cohérence obtenue avec chaque groupe de 4 mesures (3 dans le premier Cohérence obtenue avec chaque groupe de 4 mesures (3 dans le premier groupe)groupe)

décalage prosodique

décalage spectral

profil prosodiqu

e

profil spectral

13,6 13,8 21,0 17,5

Cohérence d'une mesure:Cohérence d'une mesure: différence des rangs (1 à 96) dans le classement de deux séquences jumelles (issues de la même locutrice) comparées à la séquence moyenne, pour l'indice ou l'ensemble d'indices considérés (chance 48)

Remarque: la séquence (07) choisie comme référence pour l'alignement n'apparaît jamais comme la plus proche de la séquence moyenne, ce qui justifie a posteriori la méthode proposée

Page 14: Indices prosodiques caractérisant un style d'élocution et ses variantes individuelles Jean-Sylvain Liénard Martine Adda-Decker LIMSI CNRS MIDL 29-30 nov.

Exemples de variationsExemples de variations

5

10

15

20

25

Evolution de F0 (demi-tons)

pour les séquences 52 (la plus proche de la moyenne, toutes mesures confondues - en trait épais)

et 40 (la plus éloignée - en trait fin)

Les premiers disent: "Moi non plus". Et, de fil en aiguille…

(52) (40)

Page 15: Indices prosodiques caractérisant un style d'élocution et ses variantes individuelles Jean-Sylvain Liénard Martine Adda-Decker LIMSI CNRS MIDL 29-30 nov.

Exemples de variationsExemples de variations

5

10

15

20

25

Evolution de F0 (demi-tons) pour les séquences 52 (la plus proche de la moyenne, toutes mesures confondues - en trait épais)

et 79 (la plus proche de la moyenne pour les mesures de profil prosodique - en trait fin)

Les premiers disent: "Moi non plus". Et, de fil en aiguille…

(52) (79)

Noter que F0 ne suffit pas à expliquer les différences perçues, il faut aussi dF0 et durée

Page 16: Indices prosodiques caractérisant un style d'élocution et ses variantes individuelles Jean-Sylvain Liénard Martine Adda-Decker LIMSI CNRS MIDL 29-30 nov.

L'approche proposéeL'approche proposéeVise à permettre une étude comparative de séquences ayant

sensiblement le même contenu segmentalEt à mettre en correspondance des indices acoustiques avec

des contenus (rôle de la perception)

Style d'élocutionStyle d'élocutionImportance du placement des pauses (grands groupes)Intérêt d'étudier la transition grands groupes groupes

intermédiairesStructures multi-indicielles des 3 types de groupes

Langue, dialecteLangue, dialecteVoir du côté des mots prosodiques Rôle des facteurs spectraux à approfondir (interférence avec

l'aspect segmental)

ConclusionsConclusions