Post on 20-Jun-2015
description
Encoder l'oral en TEI :démarches, avantages, défis
Lou Burnard (Meet, TGE Adonis)
mai 2012
1/55
Encoder l'oral
Cela veut dire :
saisie d'un signal sonore
sa transcription
sa contextualisation
La saisie de telles ressources est :
techniquement complexe
conceptuellement difficile
coûteuse.
.
. ..
.
.
Pour ces raisons (entre autres) elle devrait se faire en respectant desnormes
2/55
C'est quoi l'Oral ?
expériences d'élicitation linguistique, sous conditionscontrôlées
interviews documentaires
émissions radiophoniques, quasi-scénarisées
enregistrements plus ou moins informels, voire avecmicrophone caché
3/55
L'Oral : quelques défis
Par rapport aux textes écrits, les textes oraux
se produisent dans le temps
n'ont pas de format normalisé
sont incompréhensibles hors de leur contexte
Cf. manuscrits, images
4/55
La transcription
nécessite un acte interprétatif, pas susceptibled'automatisation
implique des décisions difficiles sur l'orthographe, latokenisation, la sélection même des phénomenes à transcrire
implique souvent une réécriture totale du point de vuetemporel
.
.
. ..
.
.
La plupart des systèmes de transcriptions donnent la priorité à lalisibilité (humaine) plutôt qu'au traitement
5/55
Exemple de transcription orale ... factice ?
.
.
. ..
.
.
<div><u who="#DP"> Une minute de réponse s'il vous plaît et on passe vraiment à autre
chose.</u><u who="#NS">Je ne crois pas que monsieur Berlusconi soit mon ami puisqu'il a
semblé souhaiter votre élection.</u><u who="#FH">Il est en tout cas de votre parti au niveau européen.</u><u who="#NS">Non, ça n'est pas exact.</u><u who="#FH">Ne dites pas une contre-vérité. Il est du PPE ou pas ?</u><u who="#NS">Monsieur Berlusconi est berlusconiesque.</u><u who="#FH">Non. Est-ce qu'il est du PPE ou non ? Répondez à ma question.</u><u who="#NS">Je ne suis pas votre élève. J'y répondrai après vous avoir dit ce que
j'ai à vous dire.</u><u who="#FH">Donc, monsieur Berlusconi est au PPE dans le même parti que le
vôtre.</u><u who="#NS">Monsieur Berlusconi n'est pas dans mon parti ni de près ni de loin.</u><u who="#FH">Il l'est au niveau européen.</u>
</div>
6/55
Macro-structure d'une transcription
On peut identifier un continuum du plus au moins structuré :
les débats, les interviews, les interventions ...
les interactions transactionnelles (par exemple, l'achat)
la discussion autour d'une action
la conversation générale
Il y a des controverses sur l'identification des unités de l'oral :
les "turns" : privilègient un seul type de discours enobscurcissant par exemple les discours coopératifs
les "back-channel"
les "actes" constitutifs de l'analyse de discours
7/55
Les objectifs d'une transcription
Distinguo
la transciption lisible
la transcription en vue d'un traitement
avec emphase respectivement sur
le message ... analyse historique ou sociale...
le medium ... analyse linguistique
8/55
Combien de formats standardisés faut-il dans le monde ?
WKWBFY un seul : solution centralisée
NWEUMP aucun : solution anarchiste
FTH autant qu'il en arrive : solution laissez-faire
9/55
Les normes ne s'imposent pas dans la vie intellectuelle
soit elles émergent d'un besoin de le communauté
soit leur usage dérive de la nécessité d'utiliser une technologieparticulière
mais on ne renonce pas volontièrement à son indépendance !
10/55
Standards : un paysage complexe
Agences officielles de standardisation nationales : AFNOR, ANSI,BSI, DIN ; internationales : ISO, IEC, W3C, OASIS, TEI ...
Regroupements des Personnes Interessées Plusieurs... par exemple
LISA (Localisation Industry StandardsAssociation)MPEG (Moving Pictures Expert Group)
Projets ayant des enjeux pré-normatifs En Europe seul, on peutnoter EAGLES, Multext, MATE, ISLE...
Infrastructures de recherche Internationales : Bamboo, DARIAH,CLARIN ; Françaises : Corpus-IR, Adonis
11/55
Standards : on peut s'en passer?
Pour les scientifiques, les standards pourraient constituer uninconvénient :
ils figent un état de la connaissance
leur production est chronophage
... et nécessite des compétences sociales... ..
.
.quand même il y a des "plus" qu'il faut souligner
12/55
Quelques besoins scientifiques
...1 Comment sur le web identifier et retrouver des ressourcesnumériques ayant un intérêt linguistique ?
...2 Comment valider les résultats scientifiques obtenus pard'autres personnes ?
...3 Comment enrichir ou intégrer les ressources existantes avecses propres idées ?
...4 Comment séparer les ressources des outils qui lesgèrent/analysent ?
.
.
. ... .Pour tout cela, les standards restent essentiels
13/55
Quelques besoins techniques
...1 possibilité de recombiner ou de réutiliser les systèmes existants
...2 évolution modulaire des logiciels
...3 réduction des coûts de formation
...4 existence de ‘frequently answered questions’ — des solutionsqui s'appliquent dans plusieurs domaines
.
.
. ...
.Les standards offrent ces possibilités !
14/55
Est-ce qu'on peut arriver à normaliser la transcription ?
‘No transcript is completely theory-neutral or without bias.’(Edwards, 1991)
— Mais elle parle plutôt de la manière de visualiser la transcription,non pas de sa structuration.
To codemorphology and syntax, dozens of coding systemshave been devised and none has yet emerged as standard,since the underlying theory in these areas continues tochange. Similarly, in areas such as speech act analysis orintentional analysis, there aremany detailed systems forcoding, but no single standard.
(MacWhinney, 2001)
15/55
Est-ce qu'on peut arriver à normaliser la transcription ?
... there is, to date, no widely dominantmethod, let alone areal standard, for doing spoken language transcription.However, with the advent of digital research infrastructures,in which corpora from different sources can be combinedand processed together, the need for such a standardbecomesmore andmore obvious.
(Schmidt 2011)
16/55
Influence des outils sur la modélisation de l'oral
Outils de transcription les plus répandus :
Anvil, CHAT, ELAN, EXMARaLDa, FOLKER, Praat, Transcriber...
Schmidt (2011) note que tous ces systèmes proposent un modèlecommun, une simplification d'une annotation graph (Bird &Liberman, 2002)
l'oral existe dans le temps : donc chaque morceau transcrit estassocié à un point de départ et à une fin
ces triplets sont regroupables en ‘tiers’ (couches)
une couche peut être associée à un locuteur, et/ou à un type
17/55
EXMARaLDA, par exemple
EXMARaLDA: “Extensible Markup Language for DiscourseAnnotation” http://www.exmaralda.org/ 18/55
Format interne EXMARaLDA
.
.
. ..
.
.
<common-timeline><tli id="T0" time="0.0"/><tli id="T1" time="1.309974117691172"/><tli id="T2" time="1.899962460773455"/><tli id="T3" time="2.3399537674788866"/> ....
</common-timeline><tier id="TIE0" speaker="SPK0" category="v" type="t" display-name="PRE[v]"><event start="T2" end="T3">Good evening. </event><event start="T5" end="T6">I have with me tonight Ann Elk Mistress Ann
Elk.</event>
</tier>
19/55
Voices of the Holocaust
.
.
. ..
.
.
<div xml:lang="de"><u who="#boderD" start="127.732" end="x">[In German] Also, sagen Sie
mir,wie lautet Ihr Name, Frau Button?</u>
<u who="#buttonE" start="132.669" end="x">Deutsch sprechen?</u><u who="#boderD" start="135.403" end="x">Auf Deutsch.</u><u who="#buttonE" start="137.122" end="x">Ich heiße Eda Button. Ich war
deportiert von Athen im, äh, April '44.</u><u who="#boderD" start="137.122" end="x">Und nach wo wurden sie
deportiert?</u><u who="#buttonE" start="146.903" end="x">Ich war deportiert in äh
Bergen-Belsen.</u><u who="#boderD" start="149.496" end="x">Ja. Also, sagen Sie mal, äh, wo
istIhr Mann?</u>
<u who="#buttonE" start="153.090" end="x">Mein Mann ist, äh, weggelau-war,
äh, in, äh, Palästina, in Tel Aviv.</u></div>
20/55
IFA Dialog Video corpus
.
.
. ..
.
.
<TIME_ORDER><TIME_SLOT TIME_SLOT_ID="ts1" TIME_VALUE="0"/><TIME_SLOT TIME_SLOT_ID="ts2" TIME_VALUE="10"/><TIME_SLOT TIME_SLOT_ID="ts3" TIME_VALUE="462"/><TIME_SLOT TIME_SLOT_ID="ts4" TIME_VALUE="840"/> ...
</TIME_ORDER><ANNOTATION><ALIGNABLE_ANNOTATION ANNOTA-
TION_ID="a1" TIME_SLOT_REF1="ts4" TIME_SLOT_REF2="ts7"><ANNOTATION_VALUE>beginnen we weer opnieuw?</ANNOTATION_VALUE>
</ALIGNABLE_ANNOTATION></ANNOTATION>
21/55
Transcriber
.
.
. ..
.
.
<Turn speaker="spk2" startTime="0.557" endTime="5.851"><Sync time="0.557"/> so what do you know of your family ’s
<Sync time="2.255"/> history like <Sync time="3.410"/> do you know when andwhy they came to Oxford</Turn>
22/55
Au niveau de la transcription...
Même jeu: plusieurs conventions de transcription pour les objetscommuns :
HIAT ((coughs)) You must/ you (should) let • it be. ((laughs)) Pleease!GAT ((coughs)) you must- you (should/could) let (-) it be;
((laughs)) plea:se-CHAT &=coughs you must... you should let # it be. &=laughs please!DT1 (COUGH) you must-- you <X should X> let .. it be. @@ please?cGAT ((coughs)) you must you (should/could) let (-) it be ((laughs))
please
(Table from Schmidt 2011)
23/55
Une version TEI XML
.
.
. ..
.
.
<u><kinesic><desc>coughs</desc>
</kinesic>you must you should let <pause/> it be <vocal>
<desc>laughs</desc></vocal>
please</u>
24/55
Une autre version TEI XML.
.
. ..
.
.
<u who="#locuteur" sync="#T234"><seg type="interrupted"><kinesic><desc>coughs</desc>
</kinesic><w>you</w><w>must</w>
</seg><seg type="declarative"><w>you</w><w>should</w><w>let</w><pause dur="short"/><w>it</w><w>be</w>
</seg><seg type="emphatic"><vocal><desc>laughs</desc>
</vocal><w>please</w>
</seg></u>
25/55
Le modèle TEI de l'oralCe modèle reconnaît plusieurs phénomènes de discours :
des énoncés (utterances) de point de vue lexicaldes pausesdes phénomènes vocalisés mais pas lexicalisés, par exemple latoux, des quasi-mots comme "hein", "uh" etc.des phénomènes kinésiques (non vocalisés, non lexicaux, maisservant à communiquer) notamment les gestesdes événements entièrement non linguistiques, mais ayant uneffet sur le discours, par exemple un camion qui passe etc.des événements écrits par exemple des titres ou desdiapositives affichés pendant une communicationdes changements dans la qualité de la voix, par exemple levolume
.
.
. ..
.
.
.. contrairement aux textes écrits, un texte oral est organisé dans letemps
26/55
En résumé...
27/55
A complèter avec
structuration et segmentation des énoncés
mécanismes d'alignement temporaire
représentation et intégration des métadonnées
28/55
Propositions du module spoken
Des éléments pour la transcription de l’oral <incident>, <kinesic>,<pause>,<shift>, <u>, <vocal>, <writing>
Des mécanismes pour représenter le déroulement dans le temps<timeLine>,@dur @start @end @sync
Des éléments supplémentaires dans l’en-tête <broadcast>,<equipment>, <recording>, <recordingStmt>,<scriptStmt>
29/55
Par exemple....
.
. ..
.
.
<u who="#Jan">mmm delicieux</u><incident><desc>téléphone sonne</desc>
</incident><u who="#Kim">j’y vais</u><u who="#Tom">ya longtemps <vocal>
<desc>tousse</desc></vocal> jne
fume plus</u><u who="#Bob"><vocal><desc>sniffs</desc>
</vocal>il se croit dur</u><vocal who="#Ann"><desc>grognement</desc>
</vocal><u who="#Tom">oueh <kinesic>
<desc> fait un geste avec le doigt </desc></kinesic>
</u><u who="#Bob">donc j’aurais dû <vocal who="#Ann">
<desc>faisant tss-tss</desc></vocal> faire quoi</u>
30/55
Le concept d’"énoncé"
une séquence de discours d’un seul locuteur
peut être regroupé dans des sections <div>
peut être fragmenté dans des segments <seg> ou <s>
l’attribut@who sert à indiquer le locuteur
.
.
. ...
.Chevauchement des énoncés ... pour plus tard ...
31/55
On peut profiter de l'existence d’autres élémentspertinents de la TEI
Notamment :<emph> for linguistic emphasis ...
.
.
. ..
.
.
<u who="#mar">no <emph>mine</emph> isnt oldmine is just um a little dirty</u>
<foreign> for language shift ....
.
. ..
.
.
<u>eh ben peu à peu il devient <foreign xml:lang="de">eine Sache</foreign></u>
<sic>, <corr>, <reg> pour les gestes éditoriaux....
.
. ..
.
.
<u who="#mar">how <reg>about</reg> your cat <pause/></u><u who="#mar">how <sic>bout</sic> your cat <pause/></u>
32/55
... (contd)<unclear> pour les incertitudes
.
.
. ... .ressemble aux disques <unclear>skeuzi</unclear>
<gap> pour les lacunes.
.
. ..
.
.
<u>ensuite il disait <gap type="non-transcrit"><desc>longue déclaration en basque</desc>
</gap></u><u>merci beaucoup <gap type="non-enregistre">
<desc>l'invité joue du piano</desc></gap>
</u>
<choice> pour les choix.
.
. ..
.
.
... you <choice><seg>should</seg><seg>could</seg>
</choice> let ...
(et bien sûr pour les métadonnées...)33/55
Changements de voix (1)
On peut se servir de la balise <shift>, une espèce de <milestone>,pour indiquer les frontières....
.
. ..
.
.
<u who="#LB"><shift feature="volume" new="f"/>Elizabeth
</u><u who="#EB">Yes</u><u who="#LB"><shift feature="volume"/>Come and try this <pause/><shift feature="volume" new="ff"/>come on
<shift feature="code" new="fr-mru"/> 'tin va!
</u><!-- ... -->
34/55
Changements de voix (2)On peut également se servir d'éléments plus spécifiques, ou de<seg> typés :.
.
. ..
.
.
<u who="#LB"><seg type="loud" subtype="f">Elizabeth</seg>
</u><u who="#EB">Yes</u><u who="#LB">Come and try this <pause/><seg type="loud" subtype="ff">come on<foreign xml:lang="fr-mru">tin va</foreign></seg>
</u><listPerson type="speakers"><person xml:id="LB">
<!-- description de la personne LB --></person><person xml:id="EB">
<!-- description de la personne EB --></person>
</listPerson>
35/55
Liste non exhaustive de caractéristiques prosodiques enprose
(basée sur Boase, Survey of English Usage, 1990)
tempo rapide, lent, de plus en plus rapide, de plus en plus lent, etc.volume fort, faible, de plus en plus fort, de plus en plus faiblehauteur aigu, grave,...tension lié, tendu, staccato, legato...rythme régulier, irrégulier...qualité dela voix
murmures, voix enrouée, voix de fausset, gloussements, san-glots, bâillements, soupirs...
.
.
. ..
.
.
Les chercheurs ont besoin de définir/choisir leur propreterminologie selon les besoins de leur projet
36/55
Mélange de l'oral et de l'écrit
.
.
. ..
.
.
<u who="#a">écoutez <shift new="reading"/>Matignon se déclareconfiant que les problèmes financiers actuels serontentièrement maîtrisés fin juin<shift/> mon cul</u>
Ou bien :.
.
. ..
.
.
<u who="#a">écoutez<incident>
<desc>lit à haute voix du journal</desc></incident>mon cul</u>
37/55
<writing> exemple
.
.
. ..
.
.
<u who="#a">regardez ceci</u><writing who="#a" type="newspaper" gradual="false">Matignon se déclare<soCalled>confiant de maîtriser</soCalled> les problèmes financiers actuels</writing><u who="#a">mon cul!</u>
38/55
Questions relatives à la temporalité
pour les pauses : élément <pause>
pour la durée : attribut@dur
synchronisation : attribut@synch
chevauchement : attribut@trans
39/55
<pause> : exemple
.
.
. ..
.
.
<u>Okay <pause dur="PT2M"/>U-m<pause dur="PT75S"/>la scène ouvre<pause dur="PT50S"/> avec <pause dur="PT20S"/> um <pause dur="PT145S"/>on voit un arbre okay?</u>
40/55
Chevauchement
Approche minimale :
Jules: vous avez entendu les - -Jim: les résultats?Jules: quel désastre !Jim: (en même temps) quel miracle!
.
.
. ..
.
.
<u who="#jules">vous avez entendu les</u><u trans="latching" who="#jim">les résultats</u><u who="#jules">quel désastre</u><u who="#jim" trans="overlap">quel miracle </u>
41/55
Synchronisation 1
L'attribut@synch indique un point ou un empan synchronisé avecl'élément qui le porte :.
.
. ..
.
.
<u who="#jules">vous avez entendu <anchor xml:id="T1"/>les</u><u synch="#T1" who="#jim">les résultats</u><u who="#jules" xml:id="T2">quel désastre</u><u who="#jim" synch="#T2">quel miracle </u>
Les attributs@start et@end permettent un peu plus de précision :.
.
. ..
.
.
<u who="#jules" end="#T2">vous avez entendu <anchor xml:id="T1"/> les</u><u start="#T1" who="#jim">les <anchor xml:id="T2"/> résultats</u>
42/55
AlignementLe cas typique : un enregistrement identifié par un flux temporel,avec lequel on veut aligner une (ou plusieurs) transcriptions.
L'élément <timeline> représente un flux temporel, regroupantplusieurs <when>, un pour chaque moment identifiable.Un <when> peut être absolu :.
.
. ..
.
.
<timeline corresp="fichier.wav" units="ms"><when xml:id="t0" absolute="00001728281"/><when xml:id="t1" absolute="00001728285"/><when xml:id="t2" absolute="00001728302"/>
</timeline>
ou relatif :.
.
. ..
.
.
<timeline xml:id="TL01" unit="ms"><when xml:id="TL-w0" absolute="11:30:00"/><when xml:id="TL-w1" interval="unknown" since="#TL-w0"/><when xml:id="TL-w2" interval="100" since="#TL-w1"/><when xml:id="TL-w3" interval="200" since="#TL-w2"/>
<!-- ... --></timeline>
43/55
Usage de <timeline>
Cela permet l'alignement de plusieurs moments synchronisés :.
.
. ..
.
.
<timeline unit="s" origin="#TS-P1"><when xml:id="TS-P1" absolute="12:20:01"/><when xml:id="TS-P2" interval="4:05" since="#TS-P1"/><when xml:id="TS-P3" absolute="12:20:10"/>
</timeline><!-- ... --><u who="#jules" xml:id="TS-U1" start="#TS-P1" end="#TS-P3">vous avez entendu <anchor sync="#TS-P2"/> les</u><u who="#jim" start="#TS-P2">les résultats</u>
.
.
. ...
.NB un <when> représente un instant, et non pas un empan
44/55
Description des participants
Peut être purement documentaire et informelle :.
.
. ..
.
.
<particDesc><listPerson><person xml:id="P-1234" sex="2" age="mid"><p>informateur, sexe féminin, bonne éducation, née à Shropshire
UK, 12 Jan 1950, commerçante parle français couramment. Statutsocio-économique (SSE) : commerçante.</p>
</person></listPerson>
</particDesc><!-- ... --><u who="#P-1234"> Et avec cela? </u>
45/55
Ou bien ...
Pour les entités nommés (personnes, lieux, organisations), ondispose d'une large gamme d'éléments spécifiques etgénériques représentant les états, traits, évenements, etrelations entre ces entités.
Toutes ces informations sont datables, exactement ouapproximativement, au moyen de leurs attributs.
La liaison entre ces descriptions et les énoncés (typiquementl'identifiant du locuteur) permet de rechercher les énoncésregroupés par attributs du locuteur, par exemple : sexe, classesociale, etc.
46/55
Description des participants
.
.
. ..
.
.
<listPerson><person xml:id="jules" sex="1"><persName>Jules</persName><age value="4"/><birth when="1970-02-12"/><nationality key="FR">French</nationality><residence notBefore="2000-10-01"><country>France</country><settlement>Lyon</settlement>
</residence><langKnowledge><langKnown level="first" tag="fr">French mother tongue</langKnown><langKnown level="other" tag="en">Fluent English</langKnown>
</langKnowledge><occupation ref="http://classement.fr/#xyz">cheminot</occupation><education level="superior">DEA Ingenerie</education>
</person></listPerson>
47/55
Description des enregistrements 1
Plusieurs possibilités....
.
. ..
.
.
<recordingStmt><recording type="audio" dur="P10M" corresp="fichier.wav"><equipment><p>Enregistreur numérique avec connexion USB et 512 Mo de mémoire
intégrée</p></equipment>
</recording><recording type="video" dur="P7M" corresp="http://youtube.com/fichier"/>
</recordingStmt>
Des éléments plus spécifiques, membres de la classemodel.recordingPart, sont également disponibles...
48/55
Description des enregistrements 2Par exemple....
.
. ..
.
.
<recordingStmt><recording><broadcast><bibl><title>Questions sur la souffrance et la santé au travail :
pénibilité, stress, dépression, harcèlement, maladies etaccidents...</title>
<author>France Inter</author><respStmt><resp>Présentateur</resp><name>Alain Bédouet</name>
</respStmt><respStmt><resp>Personne interrogée</resp><name> Marie Pezé</name>
</respStmt><note>Marie Pesé est Docteur en psychologie, psychanalyste, expert
judiciaire ; dirige la consultation « souffrance et travail » à l’Hôpitalde Nanterre (92), auteure de <title>ils ne mourraient pas tous mais tousétaient frappés</title>, Editions Pearson.</note>
<series><title>Le Téléphone sonne</title>
</series><note>Première diffusion le <date when="2008-09-24">mercredi 24
septembre2008</date>
</note></bibl>
</broadcast></recording>
</recordingStmt>
49/55
... et pour le contexte
.
.
. ..
.
.
<setting xml:id="KDFSE002" n="063505" who="#PS0M6"><name type="place">Lancashire: Morecambe </name><locale> at home </locale><activity> watching television </activity>
</setting>
50/55
En résumé ...
démarche La TEI met à disposition une gamme de propositionspour l'encodage de la transcription de l'oral, sastructuration et sa description
avantages La TEI propose également des outils aisémentaccessibles et génériques, dans un cadre modifiable,souple, et complet ; de plus c'est un standardpluridisciplinaire et issu de la communauté
défis besoins très spécialisés requérant des outilsspécialisés ; lacunes éventuelles dans le modèle TEI
51/55
Pourquoi s'intéresser toujours à la TEI ?
Deux raisons pour lesquelles les standards échouent :
ils sont basés sur une théorie pas encore assez mûre
"not invented here": la communauté envisagée est tropdiverse ou fragmentée
52/55
Comment faire mûrir une théorie?
Dans son TEI ODD, on peut :
limiter les valeurs possibles d'un attribut plus ou moinsstrictement
proposer des règles "schematron" sur le contenu
enlever quelques éléments facultatifs
ajouter de nouveaux éléments, labellisés dans son propreespace de noms
.
.
. ..
.
.
Donc on peut évoluer et tester sa théorie, en restant toujours"TEI-conforme".
53/55
L'évolution darwinienne, ça marche...
faites vos modifications dans votre espace de noms
documentez-les dans un ODD
faites discuter vos propositions sur la liste TEI-L, ou dans un SIG
à l'issue de cette discussion, proposez des modifications auConseil Scientifique de la TEI, en faisant un "feature request"sur sourceforge
il y a une nouvelle version de TEI P5 deux fois par an...
54/55
Pour en savoir plus
http://www.tei-c.org
http://tei.sf.net
http://listserv.brown.edu/archives/cgi-bin/wa?SUBED1=tei-l&A=1
Plus, quelques références francophones :
tei-fr@cru.fr
http://meet.tge-adonis.fr
http://lespetitescases.net/index102/
http://www.culture.gouv.fr/culture/dglf/riofi/tei.htm
http://artist.inist.fr/article.php3?id_article=122"/>
55/55