Encoder l'oral en TEI : démarches, avantages, défis

Encoder l'oral en TEI :démarches, avantages, défis

Lou Burnard (Meet, TGE Adonis)

mai 2012

Encoder l'oral

Cela veut dire :

saisie d'un signal sonore

sa transcription

sa contextualisation

La saisie de telles ressources est :

techniquement complexe

conceptuellement difficile

coûteuse.

Pour ces raisons (entre autres) elle devrait se faire en respectant desnormes

C'est quoi l'Oral ?

expériences d'élicitation linguistique, sous conditionscontrôlées

interviews documentaires

émissions radiophoniques, quasi-scénarisées

enregistrements plus ou moins informels, voire avecmicrophone caché

L'Oral : quelques défis

Par rapport aux textes écrits, les textes oraux

se produisent dans le temps

n'ont pas de format normalisé

sont incompréhensibles hors de leur contexte

Cf. manuscrits, images

La transcription

nécessite un acte interprétatif, pas susceptibled'automatisation

implique des décisions difficiles sur l'orthographe, latokenisation, la sélection même des phénomenes à transcrire

implique souvent une réécriture totale du point de vuetemporel

La plupart des systèmes de transcriptions donnent la priorité à lalisibilité (humaine) plutôt qu'au traitement

Exemple de transcription orale ... factice ?

<div> Une minute de réponse s'il vous plaît et on passe vraiment à autre

chose.Je ne crois pas que monsieur Berlusconi soit mon ami puisqu'il a

semblé souhaiter votre élection.Il est en tout cas de votre parti au niveau européen.Non, ça n'est pas exact.Ne dites pas une contre-vérité. Il est du PPE ou pas ?Monsieur Berlusconi est berlusconiesque.Non. Est-ce qu'il est du PPE ou non ? Répondez à ma question.Je ne suis pas votre élève. J'y répondrai après vous avoir dit ce que

j'ai à vous dire.Donc, monsieur Berlusconi est au PPE dans le même parti que le

vôtre.Monsieur Berlusconi n'est pas dans mon parti ni de près ni de loin.Il l'est au niveau européen.

</div>

Macro-structure d'une transcription

On peut identifier un continuum du plus au moins structuré :

les débats, les interviews, les interventions ...

les interactions transactionnelles (par exemple, l'achat)

la discussion autour d'une action

la conversation générale

Il y a des controverses sur l'identification des unités de l'oral :

les "turns" : privilègient un seul type de discours enobscurcissant par exemple les discours coopératifs

les "back-channel"

les "actes" constitutifs de l'analyse de discours

Les objectifs d'une transcription

Distinguo

la transciption lisible

la transcription en vue d'un traitement

avec emphase respectivement sur

le message ... analyse historique ou sociale...

le medium ... analyse linguistique

Combien de formats standardisés faut-il dans le monde ?

WKWBFY un seul : solution centralisée

NWEUMP aucun : solution anarchiste

FTH autant qu'il en arrive : solution laissez-faire

Les normes ne s'imposent pas dans la vie intellectuelle

soit elles émergent d'un besoin de le communauté

soit leur usage dérive de la nécessité d'utiliser une technologieparticulière

mais on ne renonce pas volontièrement à son indépendance !

Standards : un paysage complexe

Agences officielles de standardisation nationales : AFNOR, ANSI,BSI, DIN ; internationales : ISO, IEC, W3C, OASIS, TEI ...

Regroupements des Personnes Interessées Plusieurs... par exemple

LISA (Localisation Industry StandardsAssociation)MPEG (Moving Pictures Expert Group)

Projets ayant des enjeux pré-normatifs En Europe seul, on peutnoter EAGLES, Multext, MATE, ISLE...

Infrastructures de recherche Internationales : Bamboo, DARIAH,CLARIN ; Françaises : Corpus-IR, Adonis

Standards : on peut s'en passer?

Pour les scientifiques, les standards pourraient constituer uninconvénient :

ils figent un état de la connaissance

leur production est chronophage

... et nécessite des compétences sociales... ..

.quand même il y a des "plus" qu'il faut souligner

Quelques besoins scientifiques

...1 Comment sur le web identifier et retrouver des ressourcesnumériques ayant un intérêt linguistique ?

...2 Comment valider les résultats scientifiques obtenus pard'autres personnes ?

...3 Comment enrichir ou intégrer les ressources existantes avecses propres idées ?

...4 Comment séparer les ressources des outils qui lesgèrent/analysent ?

. ... .Pour tout cela, les standards restent essentiels

Quelques besoins techniques

...1 possibilité de recombiner ou de réutiliser les systèmes existants

...2 évolution modulaire des logiciels

...3 réduction des coûts de formation

...4 existence de ‘frequently answered questions’ — des solutionsqui s'appliquent dans plusieurs domaines

.Les standards offrent ces possibilités !

Est-ce qu'on peut arriver à normaliser la transcription ?

‘No transcript is completely theory-neutral or without bias.’(Edwards, 1991)

— Mais elle parle plutôt de la manière de visualiser la transcription,non pas de sa structuration.

To codemorphology and syntax, dozens of coding systemshave been devised and none has yet emerged as standard,since the underlying theory in these areas continues tochange. Similarly, in areas such as speech act analysis orintentional analysis, there aremany detailed systems forcoding, but no single standard.

(MacWhinney, 2001)

Est-ce qu'on peut arriver à normaliser la transcription ?

... there is, to date, no widely dominantmethod, let alone areal standard, for doing spoken language transcription.However, with the advent of digital research infrastructures,in which corpora from different sources can be combinedand processed together, the need for such a standardbecomesmore andmore obvious.

(Schmidt 2011)

Influence des outils sur la modélisation de l'oral

Outils de transcription les plus répandus :

Anvil, CHAT, ELAN, EXMARaLDa, FOLKER, Praat, Transcriber...

Schmidt (2011) note que tous ces systèmes proposent un modèlecommun, une simplification d'une annotation graph (Bird &Liberman, 2002)

l'oral existe dans le temps : donc chaque morceau transcrit estassocié à un point de départ et à une fin

ces triplets sont regroupables en ‘tiers’ (couches)

une couche peut être associée à un locuteur, et/ou à un type

EXMARaLDA, par exemple

EXMARaLDA: “Extensible Markup Language for DiscourseAnnotation” http://www.exmaralda.org/ 18/55

Format interne EXMARaLDA

<common-timeline><tli id="T0" time="0.0"/><tli id="T1" time="1.309974117691172"/><tli id="T2" time="1.899962460773455"/><tli id="T3" time="2.3399537674788866"/> ....

</common-timeline><tier id="TIE0" speaker="SPK0" category="v" type="t" display-name="PRE[v]"><event start="T2" end="T3">Good evening. </event><event start="T5" end="T6">I have with me tonight Ann Elk Mistress Ann

Elk.</event>

</tier>

Voices of the Holocaust

<div xml:lang="de">[In German] Also, sagen Sie

mir,wie lautet Ihr Name, Frau Button?

Deutsch sprechen?Auf Deutsch.Ich heiße Eda Button. Ich war

deportiert von Athen im, äh, April '44.Und nach wo wurden sie

deportiert?Ich war deportiert in äh

Bergen-Belsen.Ja. Also, sagen Sie mal, äh, wo

istIhr Mann?

Mein Mann ist, äh, weggelau-war,

äh, in, äh, Palästina, in Tel Aviv.</div>

IFA Dialog Video corpus

<TIME_ORDER><TIME_SLOT TIME_SLOT_ID="ts1" TIME_VALUE="0"/><TIME_SLOT TIME_SLOT_ID="ts2" TIME_VALUE="10"/><TIME_SLOT TIME_SLOT_ID="ts3" TIME_VALUE="462"/><TIME_SLOT TIME_SLOT_ID="ts4" TIME_VALUE="840"/> ...

</TIME_ORDER><ANNOTATION><ALIGNABLE_ANNOTATION ANNOTA-

TION_ID="a1" TIME_SLOT_REF1="ts4" TIME_SLOT_REF2="ts7"><ANNOTATION_VALUE>beginnen we weer opnieuw?</ANNOTATION_VALUE>

</ALIGNABLE_ANNOTATION></ANNOTATION>

Transcriber

<Turn speaker="spk2" startTime="0.557" endTime="5.851"><Sync time="0.557"/> so what do you know of your family ’s

<Sync time="2.255"/> history like <Sync time="3.410"/> do you know when andwhy they came to Oxford</Turn>

Au niveau de la transcription...

Même jeu: plusieurs conventions de transcription pour les objetscommuns :

HIAT ((coughs)) You must/ you (should) let • it be. ((laughs)) Pleease!GAT ((coughs)) you must- you (should/could) let (-) it be;

((laughs)) plea:se-CHAT &=coughs you must... you should let # it be. &=laughs please!DT1 (COUGH) you must-- you <X should X> let .. it be. @@ please?cGAT ((coughs)) you must you (should/could) let (-) it be ((laughs))

please

(Table from Schmidt 2011)

Une version TEI XML

<kinesic><desc>coughs</desc>

</kinesic>you must you should let <pause/> it be <vocal>

<desc>laughs</desc></vocal>

please

Une autre version TEI XML.

<seg type="interrupted"><kinesic><desc>coughs</desc>

</kinesic><w>you</w><w>must</w>

</seg><seg type="declarative"><w>you</w><w>should</w><w>let</w><pause dur="short"/><w>it</w><w>be</w>

</seg><seg type="emphatic"><vocal><desc>laughs</desc>

</vocal><w>please</w>

</seg>

Le modèle TEI de l'oralCe modèle reconnaît plusieurs phénomènes de discours :

des énoncés (utterances) de point de vue lexicaldes pausesdes phénomènes vocalisés mais pas lexicalisés, par exemple latoux, des quasi-mots comme "hein", "uh" etc.des phénomènes kinésiques (non vocalisés, non lexicaux, maisservant à communiquer) notamment les gestesdes événements entièrement non linguistiques, mais ayant uneffet sur le discours, par exemple un camion qui passe etc.des événements écrits par exemple des titres ou desdiapositives affichés pendant une communicationdes changements dans la qualité de la voix, par exemple levolume

.. contrairement aux textes écrits, un texte oral est organisé dans letemps

En résumé...

A complèter avec

structuration et segmentation des énoncés

mécanismes d'alignement temporaire

représentation et intégration des métadonnées

Propositions du module spoken

Des éléments pour la transcription de l’oral <incident>, <kinesic>,<pause>,<shift>, , <vocal>, <writing>

Des mécanismes pour représenter le déroulement dans le temps<timeLine>,@dur @start @end @sync

Des éléments supplémentaires dans l’en-tête <broadcast>,<equipment>, <recording>, <recordingStmt>,<scriptStmt>

Par exemple....

mmm delicieux<incident><desc>téléphone sonne</desc>

</incident>j’y vaisya longtemps <vocal>

<desc>tousse</desc></vocal> jne

fume plus<vocal><desc>sniffs</desc>

</vocal>il se croit dur<vocal who="#Ann"><desc>grognement</desc>

</vocal>oueh <kinesic>

<desc> fait un geste avec le doigt </desc></kinesic>

donc j’aurais dû <vocal who="#Ann">

<desc>faisant tss-tss</desc></vocal> faire quoi

Le concept d’"énoncé"

une séquence de discours d’un seul locuteur

peut être regroupé dans des sections <div>

peut être fragmenté dans des segments <seg> ou <s>

l’attribut@who sert à indiquer le locuteur

.Chevauchement des énoncés ... pour plus tard ...

On peut profiter de l'existence d’autres élémentspertinents de la TEI

Notamment :<emph> for linguistic emphasis ...

no <emph>mine</emph> isnt oldmine is just um a little dirty

<foreign> for language shift ....

eh ben peu à peu il devient <foreign xml:lang="de">eine Sache</foreign>

<sic>, <corr>, <reg> pour les gestes éditoriaux....

how <reg>about</reg> your cat <pause/>how <sic>bout</sic> your cat <pause/>

... (contd)<unclear> pour les incertitudes

. ... .ressemble aux disques <unclear>skeuzi</unclear>

<gap> pour les lacunes.

ensuite il disait <gap type="non-transcrit"><desc>longue déclaration en basque</desc>

</gap>merci beaucoup <gap type="non-enregistre">

<desc>l'invité joue du piano</desc></gap>

<choice> pour les choix.

... you <choice><seg>should</seg><seg>could</seg>

</choice> let ...

(et bien sûr pour les métadonnées...)33/55

Changements de voix (1)

On peut se servir de la balise <shift>, une espèce de <milestone>,pour indiquer les frontières....

<shift feature="volume" new="f"/>Elizabeth

Yes<shift feature="volume"/>Come and try this <pause/><shift feature="volume" new="ff"/>come on

<shift feature="code" new="fr-mru"/> 'tin va!

Changements de voix (2)On peut également se servir d'éléments plus spécifiques, ou de<seg> typés :.

<seg type="loud" subtype="f">Elizabeth</seg>

YesCome and try this <pause/><seg type="loud" subtype="ff">come on<foreign xml:lang="fr-mru">tin va</foreign></seg>

</person><person xml:id="EB">

</person>

</listPerson>

Liste non exhaustive de caractéristiques prosodiques enprose

(basée sur Boase, Survey of English Usage, 1990)

tempo rapide, lent, de plus en plus rapide, de plus en plus lent, etc.volume fort, faible, de plus en plus fort, de plus en plus faiblehauteur aigu, grave,...tension lié, tendu, staccato, legato...rythme régulier, irrégulier...qualité dela voix

murmures, voix enrouée, voix de fausset, gloussements, san-glots, bâillements, soupirs...

Les chercheurs ont besoin de définir/choisir leur propreterminologie selon les besoins de leur projet

Mélange de l'oral et de l'écrit

écoutez <shift new="reading"/>Matignon se déclareconfiant que les problèmes financiers actuels serontentièrement maîtrisés fin juin<shift/> mon cul

Ou bien :.

écoutez<incident>

<desc>lit à haute voix du journal</desc></incident>mon cul

<writing> exemple

regardez ceci<writing who="#a" type="newspaper" gradual="false">Matignon se déclare<soCalled>confiant de maîtriser</soCalled> les problèmes financiers actuels</writing>mon cul!

Questions relatives à la temporalité

pour les pauses : élément <pause>

pour la durée : attribut@dur

synchronisation : attribut@synch

chevauchement : attribut@trans

<pause> : exemple

Okay <pause dur="PT2M"/>U-m<pause dur="PT75S"/>la scène ouvre<pause dur="PT50S"/> avec <pause dur="PT20S"/> um <pause dur="PT145S"/>on voit un arbre okay?

Chevauchement

Approche minimale :

Jules: vous avez entendu les - -Jim: les résultats?Jules: quel désastre !Jim: (en même temps) quel miracle!

vous avez entendu lesles résultatsquel désastrequel miracle

Synchronisation 1

L'attribut@synch indique un point ou un empan synchronisé avecl'élément qui le porte :.

vous avez entendu <anchor xml:id="T1"/>lesles résultatsquel désastrequel miracle

Les attributs@start et@end permettent un peu plus de précision :.

vous avez entendu <anchor xml:id="T1"/> lesles <anchor xml:id="T2"/> résultats

AlignementLe cas typique : un enregistrement identifié par un flux temporel,avec lequel on veut aligner une (ou plusieurs) transcriptions.

L'élément <timeline> représente un flux temporel, regroupantplusieurs <when>, un pour chaque moment identifiable.Un <when> peut être absolu :.

</timeline>

ou relatif :.

</timeline>

Usage de <timeline>

Cela permet l'alignement de plusieurs moments synchronisés :.

</timeline>vous avez entendu <anchor sync="#TS-P2"/> lesles résultats

.NB un <when> représente un instant, et non pas un empan

Description des participants

Peut être purement documentaire et informelle :.

<particDesc><listPerson><person xml:id="P-1234" sex="2" age="mid">informateur, sexe féminin, bonne éducation, née à Shropshire

UK, 12 Jan 1950, commerçante parle français couramment. Statutsocio-économique (SSE) : commerçante.

</person></listPerson>

</particDesc> Et avec cela?

Ou bien ...

Pour les entités nommés (personnes, lieux, organisations), ondispose d'une large gamme d'éléments spécifiques etgénériques représentant les états, traits, évenements, etrelations entre ces entités.

Toutes ces informations sont datables, exactement ouapproximativement, au moyen de leurs attributs.

La liaison entre ces descriptions et les énoncés (typiquementl'identifiant du locuteur) permet de rechercher les énoncésregroupés par attributs du locuteur, par exemple : sexe, classesociale, etc.

Description des participants

<listPerson><person xml:id="jules" sex="1"><persName>Jules</persName><age value="4"/><birth when="1970-02-12"/><nationality key="FR">French</nationality><residence notBefore="2000-10-01"><country>France</country><settlement>Lyon</settlement>

</residence><langKnowledge><langKnown level="first" tag="fr">French mother tongue</langKnown><langKnown level="other" tag="en">Fluent English</langKnown>

</langKnowledge><occupation ref="http://classement.fr/#xyz">cheminot</occupation><education level="superior">DEA Ingenerie</education>

</person></listPerson>

Description des enregistrements 1

Plusieurs possibilités....

<recordingStmt><recording type="audio" dur="P10M" corresp="fichier.wav"><equipment>Enregistreur numérique avec connexion USB et 512 Mo de mémoire

intégrée</equipment>

</recording><recording type="video" dur="P7M" corresp="http://youtube.com/fichier"/>

</recordingStmt>

Des éléments plus spécifiques, membres de la classemodel.recordingPart, sont également disponibles...

Description des enregistrements 2Par exemple....

<recordingStmt><recording><broadcast><bibl><title>Questions sur la souffrance et la santé au travail :

pénibilité, stress, dépression, harcèlement, maladies etaccidents...</title>

<author>France Inter</author><respStmt><resp>Présentateur</resp><name>Alain Bédouet</name>

</respStmt><respStmt><resp>Personne interrogée</resp><name> Marie Pezé</name>

</respStmt><note>Marie Pesé est Docteur en psychologie, psychanalyste, expert

judiciaire ; dirige la consultation « souffrance et travail » à l’Hôpitalde Nanterre (92), auteure de <title>ils ne mourraient pas tous mais tousétaient frappés</title>, Editions Pearson.</note>

<series><title>Le Téléphone sonne</title>

</series><note>Première diffusion le <date when="2008-09-24">mercredi 24

septembre2008</date>

</note></bibl>

</broadcast></recording>

</recordingStmt>

... et pour le contexte

<setting xml:id="KDFSE002" n="063505" who="#PS0M6"><name type="place">Lancashire: Morecambe </name><locale> at home </locale><activity> watching television </activity>

</setting>

En résumé ...

démarche La TEI met à disposition une gamme de propositionspour l'encodage de la transcription de l'oral, sastructuration et sa description

avantages La TEI propose également des outils aisémentaccessibles et génériques, dans un cadre modifiable,souple, et complet ; de plus c'est un standardpluridisciplinaire et issu de la communauté

défis besoins très spécialisés requérant des outilsspécialisés ; lacunes éventuelles dans le modèle TEI

Pourquoi s'intéresser toujours à la TEI ?

Deux raisons pour lesquelles les standards échouent :

ils sont basés sur une théorie pas encore assez mûre

"not invented here": la communauté envisagée est tropdiverse ou fragmentée

Comment faire mûrir une théorie?

Dans son TEI ODD, on peut :

limiter les valeurs possibles d'un attribut plus ou moinsstrictement

proposer des règles "schematron" sur le contenu

enlever quelques éléments facultatifs

ajouter de nouveaux éléments, labellisés dans son propreespace de noms

Donc on peut évoluer et tester sa théorie, en restant toujours"TEI-conforme".

L'évolution darwinienne, ça marche...

faites vos modifications dans votre espace de noms

documentez-les dans un ODD

faites discuter vos propositions sur la liste TEI-L, ou dans un SIG

à l'issue de cette discussion, proposez des modifications auConseil Scientifique de la TEI, en faisant un "feature request"sur sourceforge

il y a une nouvelle version de TEI P5 deux fois par an...

Pour en savoir plus

http://www.tei-c.org

http://tei.sf.net

http://listserv.brown.edu/archives/cgi-bin/wa?SUBED1=tei-l&A=1

Plus, quelques références francophones :

tei-fr@cru.fr

http://meet.tge-adonis.fr

http://lespetitescases.net/index102/

http://www.culture.gouv.fr/culture/dglf/riofi/tei.htm

http://artist.inist.fr/article.php3?id_article=122"/>

Encoder l'oral en TEI : démarches, avantages, défis

Documents

Transcript of Encoder l'oral en TEI : démarches, avantages, défis

L'enseignement de l'oral en tant qu'objet d'apprentissage ...

Dynamiser l'oral en cours d'italien

Les démarches interSCoT

Stratégies d'enseignement de l'oral

Intitulé de l’UE Préparation à l'oral

2 PRO 71RY tei-tei-tei Marché BOX Capac BOX · z-sa 2 PRO 71RY tei-tei-tei Marché BOX Capac BOX . Title: フル ページ写真 Author: 3940 Created Date: 3/1/2017 2:37:21 PM

Vos démarches administratives

De l'Oral à l'Écrit

Les démarches établissement

L'oral FLE

COURS DE PREPARATION A L'ORAL ET A L’ECRIT

Conversations Pratiques de l'Oral

Les leçons de mathématiques à l'oral du CAPES

Les démarches pédagogiques v4 - sti.ac-versailles.fr€¦ · Les démarches pédagogiques Quelles démarches scientifique et technologique pour quelle pédagogie? Journées de mutualisation

L'oral travaillé dans les situations

L’enseignement/apprentissage de l'oral en français dans ...

Concepts et démarches

Treaty Education Initiative (TEI) · TEI Update on K-4 TEI Grades 7-9 TEI Grade 10- 12 TEI News Bites Commissioner Wilson presenting Certificate of Completion First of all, I would

L'oral - les oraux : des parlers aux pratiques langagières ...

Hope and horror real-life TEI the CMS/TEI/XSL/HTML stack using TEI with Sobek avoiding.

2 PRO 71RY tei-tei-tei Marché BOX Capac BOX · z-sa 2 PRO 71RY tei-tei-tei Marché BOX Capac BOX . Title: フルページ写真 Author: 3940 Created Date: 3/1/2017 2:37:21 PM