Indices prosodiques caractérisant un style d'élocution et ses variantes individuelles Jean-Sylvain...
-
Upload
berthe-david -
Category
Documents
-
view
105 -
download
2
Transcript of Indices prosodiques caractérisant un style d'élocution et ses variantes individuelles Jean-Sylvain...
Indices prosodiquesIndices prosodiques caractérisant un style caractérisant un style
d'élocutiond'élocutionet ses variantes individuelleset ses variantes individuelles
Jean-Sylvain Liénard
Martine Adda-Decker
LIMSI CNRS
MIDL 29-30 nov 2004 Paris
Peut-on identifier une langue ou un dialecte à partir de la Peut-on identifier une langue ou un dialecte à partir de la prosodie ?prosodie ? Il faut d'abord savoir de quel type de parole il s'agit Problématique générale de la variabilité
Les contenus (ou types d'information) du signal de paroleLes contenus (ou types d'information) du signal de parole- le contenu linguistique (celui qui fait l'objet d'un code
linguistique reconnu par une collectivité)mais aussi, dans le même signal:
- les caractéristiques physiques du locuteur: sexe, taille, âge …
- ses caractéristiques psychiques et physiologiques- son origine linguistique, sa langue et son dialecte- le contexte de l'interaction parlée, l'interlocuteur supposé- les rôles socioculturels joués par chacun des interlocuteurs- les conditions acoustiques de la communication …
Tout cela se traduit par d'énormes variations variations prosodiquesprosodiques;;
Il faut savoir lesquelles sont pertinentes pour le problème posé
Position du problèmePosition du problème
PrioritésPriorités
-identifier les contenusidentifier les contenus présents dans le signal
-identifier les indices acoustiquesidentifier les indices acoustiques ou leurs combinaisons qui servent de support à chaque contenu
- un guide utile: la notion de style d'élocutionstyle d'élocution, qui permet de catégoriser l'infinie diversité des situations de communication:
-Exemples
- commentaire sportif
- cours en amphi
- débat entre pairs
- lecture à voix haute en ambiance scolaire
- brève de comptoir
- etc
Caractériser un style d'élocution "lecture à voix haute"
- même texte- ensemble homogène de lecteurs- mêmes conditions d'élocution- même consigne
Et ses variations- existe-t-il une "réalisation
moyenne" ?- où se placent les variations
individuelles ?
Objectif et corpusObjectif et corpus
Corpus LeblancCorpus Leblanc- 48 locutrices, étudiantes psycho
Nanterre- 2 élocutions- texte présenté en un seul
paragraphe
Texte
Les Français, qui consacrent une partie appréciable de leur journée à la poignée de main, passent également un temps considérable à se prier réciproquement d'entrer dans leurs maisons. Les uns prient les autres d'entrer, les autres jurent qu'ils n'en feront rien. Les premiers disent : "Moi non plus". Et, de fil en aiguille, les Français ont passé (environ) trois siècles et demi depuis Charlemagne sur le pas de leurs portes. On est même étonné d'en trouver quelques-uns chez eux.
Extrait de: Pierre Daninos Les carnets du major Thompson
séquence référence (07)
L'objectifL'objectif- comparer les indices prosodiques des 96 séquences
alignées
Première approche:Première approche: utiliser la transcription phonétique- Aligner chaque séquence sur sa transcription phonétique
par reconnaissance automatique- Problème: trop de variations segmentales individuelles
- pauses- transcription normative ou réaliste ?- quelles unités segmentales ?
Seconde approche:Seconde approche: partir du seul signal acoustique- Le but étant l'étude de la prosodie, on ne s'intéresse
qu'aux segments vocaliques et aux pauses- Alignement des séquences et mesure des indices
prosodiques sont effectués sans référence à la transcription phonétique
De l'approche phonétique à l'approche De l'approche phonétique à l'approche acoustiqueacoustique
Répartition des pausesRépartition des pauses
histogramme du nb de pauses (sf début et fin)
0
510
1520
2530
35
3 4 5 6 7 8 9 10 11
La majorité des locutrices observe 6 ou 7 pauses, correspondant aux principales ponctuations
respect majoritaire de la norme imposée par le texte
Hors de cette norme chaque locutrice ajoute ou supprime des pauses, mais pas n'importe où
sur ponctuations secondaires
sur ruptures de sens sur ruptures syntaxiques
Le choix des pauses effectives est une manière d'interpréter le texte
Pause: chûte du niveau sonore d'au moins Pause: chûte du niveau sonore d'au moins 12 dB par rapport à la moyenne (en 12 dB par rapport à la moyenne (en énergie) de la séquence, et durant énergie) de la séquence, et durant plus que 1,8 fois la durée moyenne plus que 1,8 fois la durée moyenne des Groupes Vocaliques, soit environ des Groupes Vocaliques, soit environ 300 ms.300 ms.
Valeurs non critiques, modulées en Valeurs non critiques, modulées en fonction du débit moyen de la fonction du débit moyen de la locutricelocutrice
Noyau vocalique NVNoyau vocalique NV- segment centré sur un maximum de la fonction d'énergie
BF (<1 kHz) évaluée sur fenêtre 50 ms.- limites à –3 dB- ce n'est pas une "voyelle phonétique"
Groupe vocalique GVGroupe vocalique GV- segment compris entre deux minima d'énergie BF, hors
pauses - approximation: mi-distance de deux centres NV successifs- ce n'est pas une "syllabe phonétique"
Indices prosodiques Indices prosodiques (définis pour chaque GV)- F0F0 au centre du NV sur fenêtre 100 ms, en
demi-tons/100 Hz- dF0 dF0 différence F0 (fin NV) – F0 (début NV)- intensité intensité au centre du NV, en dB- DuréeDurée durée du GV
Noyaux et groupes vocaliques, indices Noyaux et groupes vocaliques, indices prosodiquesprosodiques
Exemple: début séquence 01
Noyaux et groupes vocaliques, indices Noyaux et groupes vocaliques, indices prosodiquesprosodiques
Time (s)0 8.25075
25.32
84.42
30
40
50
60
70
80
0 1 2 3 4 5 6 7 8
Time (s)0 8.25075
0
5000
Ici le spectrogramme de la séquence ci-dessus (début séquence 01
En bleu: intensité BF
En rouge: F0 interpolé
Choix d'une séquence de référenceChoix d'une séquence de référence par écoute critique: écarter toute séquence entachée de défauts trop apparents (reprises, hésitations, erreurs de lecture, voix trop lente, trop rapide, accent régional...)
AlignementAlignement de tous les tableaux de GV sur cette séquence de référence par programmation dynamique sur critères spectraux (8 mfcc)
MoyennageMoyennage des 96 tableaux alignés temporellement pour obtenir le tableau prosodique représentant la séquence moyenne (notion abstraite)
Ne pas confondre Ne pas confondre séquence de référence, séquence moyenne, prototype stylistique
Etiquetage Etiquetage (pour interprétation visuelle)
Rétro-étiquetageRétro-étiquetage possible: connaissant un étiquetage segmental de la séquence moyenne, on peut l'appliquer à toutes les séquences du corpus
Calcul d'une prosodie moyenneCalcul d'une prosodie moyenne
Al
Q
9
10
11
12
13
14
15
16
17F0 (st)
-2
-10
1
2 dF0 (st)
70
75
80
85
90int (dB)
0,10
0,15
0,20
0,25
0,30
dur (s)
F0 double déclinaison - marqueur de fin de groupe - dF0 - corrélation int/F0 - évolution durée
Trois grands types de groupes prosodiques pour ce corpus
Grands groupesGrands groupes (entre deux pauses: "groupes de souffle" ?)découpage visible sur tous les indicesdouble déclinaison (F0, intensité)marqueur de fin de groupe, sur les derniers GV
Petits groupes:Petits groupes: "mots prosodiques" ?concerne un petit nombre de GV: 1 à 4se manifeste surtout dans F0 et duréestructure unitaire propre à la langue ou au dialecte ?
Groupes intermédiaires: Groupes intermédiaires: "groupes de sens" ?soumis à considérations linguistiques: syntaxe, sémantique,
et à l'interprétation du texte par la locutriceces groupes intermédiaires peuvent évoluer selon
l'interprétation, allant du mot prosodique au groupe de souffle
Prosodie moyenneProsodie moyenne
Pour chaque indice, deux types de dissemblances entre séquences: deux types de dissemblances entre séquences:
DécalageDécalage ou écart en moyenne: différence des moyennes de l'indice sur chaque séquence
Profil Profil ou écart des valeurs: covariance, ou distance entre valeurs correspondantes (centrées) dans les deux séquences
Pour chacun des indices prosodiques on a défini deux mesuresdeux mesures: en décalage (DF0, DdF0, Dint, Ddur)en profil (PF0, PdF0, Pint, Ddur)
Même chose pour la forme d'ensemble du spectreforme d'ensemble du spectre, par le biais des 4 premiers mfcc: Dcc1 … Dcc4, Pcc1 … Pcc4
Décalages différences "statiques" entre séquences (F0 moyen, débit moyen, spectre à long terme…) indépendantes du contenu et de l'élocution
Profils différences "dynamiques" (évolution de F0, int, durée, forme spectrale), liées au contenu linguistique (ici: le même) et à l'élocution
Variantes individuellesVariantes individuelles
Cohérence des mesuresCohérence des mesures
13,6
Ddur
Dint DF0 DdF0
16,1 17,8
Dcc1 Dcc2 Dcc3 Dcc4
33,5 16,5 12,1 13,2 14,5
Cohérence obtenue avec chaque mesure prise Cohérence obtenue avec chaque mesure prise isolémentisolément
Pdur Pint PF0 PdF0
Pcc1 Pcc2 Pcc3 Pcc4
17,8 24,8 14,7 23,3 24,5 16,3 20,8 16,0
Cohérence obtenue avec chaque groupe de 4 mesures (3 dans le premier Cohérence obtenue avec chaque groupe de 4 mesures (3 dans le premier groupe)groupe)
décalage prosodique
décalage spectral
profil prosodiqu
e
profil spectral
13,6 13,8 21,0 17,5
Cohérence d'une mesure:Cohérence d'une mesure: différence des rangs (1 à 96) dans le classement de deux séquences jumelles (issues de la même locutrice) comparées à la séquence moyenne, pour l'indice ou l'ensemble d'indices considérés (chance 48)
Remarque: la séquence (07) choisie comme référence pour l'alignement n'apparaît jamais comme la plus proche de la séquence moyenne, ce qui justifie a posteriori la méthode proposée
Exemples de variationsExemples de variations
5
10
15
20
25
Evolution de F0 (demi-tons)
pour les séquences 52 (la plus proche de la moyenne, toutes mesures confondues - en trait épais)
et 40 (la plus éloignée - en trait fin)
Les premiers disent: "Moi non plus". Et, de fil en aiguille…
(52) (40)
Exemples de variationsExemples de variations
5
10
15
20
25
Evolution de F0 (demi-tons) pour les séquences 52 (la plus proche de la moyenne, toutes mesures confondues - en trait épais)
et 79 (la plus proche de la moyenne pour les mesures de profil prosodique - en trait fin)
Les premiers disent: "Moi non plus". Et, de fil en aiguille…
(52) (79)
Noter que F0 ne suffit pas à expliquer les différences perçues, il faut aussi dF0 et durée
L'approche proposéeL'approche proposéeVise à permettre une étude comparative de séquences ayant
sensiblement le même contenu segmentalEt à mettre en correspondance des indices acoustiques avec
des contenus (rôle de la perception)
Style d'élocutionStyle d'élocutionImportance du placement des pauses (grands groupes)Intérêt d'étudier la transition grands groupes groupes
intermédiairesStructures multi-indicielles des 3 types de groupes
Langue, dialecteLangue, dialecteVoir du côté des mots prosodiques Rôle des facteurs spectraux à approfondir (interférence avec
l'aspect segmental)
ConclusionsConclusions