Post on 03-Apr-2015
Aix-MARSEC : Une proposition de Aix-MARSEC : Une proposition de traitement automatique de corpus traitement automatique de corpus
d’anglais britannique orald’anglais britannique oral
Caroline Bouzon, Cyril AuranCaroline Bouzon, Cyril Auran
& Daniel Hirst& Daniel Hirst
Laboratoire Parole & LangageLaboratoire Parole & Langage
Université de ProvenceUniversité de ProvenceLes corpus oraux en anglais et en français, Toulouse - le Mirail, 15/11/02Les corpus oraux en anglais et en français, Toulouse - le Mirail, 15/11/02
Aix-MARSECAix-MARSEC
PLAN
I) Petit tour d’horizon des Corpus en anglais
1) Des corpus nombreux et variés 2) Les corpus oraux 3) Les corpus oraux britanniques
II) Le corpus Aix-MARSEC 1) Les origines 2) de MARSEC à Aix-MARSEC : traitements 3) perspectives
Les corpus oraux en anglais et en français, Toulouse - le Mirail, 15/11/02Les corpus oraux en anglais et en français, Toulouse - le Mirail, 15/11/02
Aix-MARSEC : Petit tour d’horizon des corpus en anglais Aix-MARSEC : Petit tour d’horizon des corpus en anglais
Des corpus nombreux et variés
A titre d’exemple, on pourra citer les corpus disponibles à l’UCREL :
* The British National Corpus (BNC) * The Lancaster/Oslo-Bergen Corpus (LOB) * The Brown University Corpus * The Kolhapur Corpus * The Longman-Lancaster Corpus * The Lancaster/IBM Spoken English Corpus (SEC) * The London-Lund Corpus * The ET10-63 Corpus * The International Telecommunications Union (ITU) or CRATER Corpus * The Helsinki Corpus (Diachronic Part) * The Lampeter Corpus of Early Modern English Tracts
Diapo 1
Les corpus oraux en anglais et en français, Toulouse - le Mirail, 15/11/02Les corpus oraux en anglais et en français, Toulouse - le Mirail, 15/11/02
Des corpus nombreux et variés
Suite des corpus disponibles à l’UCREL :
* The Lancaster-Leeds Treebank * The Lancaster Parsed Corpus (LPC) • The American Printing House for the Blind Treebank (APHB) * The Associated Press Treebank (AP) * The Canadian Hansard Treebank * The IBM Manuals Treebank * The Anaphoric Treebank * The ACL/DCI CD-ROM * The WordCruncher Disk
Diapo 2
Les corpus oraux en anglais et en français, Toulouse - le Mirail, 15/11/02Les corpus oraux en anglais et en français, Toulouse - le Mirail, 15/11/02
Aix-MARSEC : Petit tour d’horizon des corpus en anglais Aix-MARSEC : Petit tour d’horizon des corpus en anglais
Sans oublier quelques travaux pré-électroniques :
* cruden : Concordance of the Authorized version of the Bible (1736) * Johnson : Dictionary of the english language * The Oxford English Dictionary (1928) * Webster : An American Dictionary of the English Language (1928) * Wright : The English Dialect Dictionary (1898 - 1905) * Ellis : The Existing Phonology of English Dialects (1889) * Thorndike : Teacher’s Workbook (1921) * Thorndike & Lorge : The Teacher’s Workbook of 30,000 words (1944) * Jespersen : A Modern English Grammar on Historical Principles (1909 - 49) * Kruisinga : A Handbook of Present-Day English (1931-32) * Poutsma : A Grammar of Late Modern English (1926-29) * Fries : American English Grammar (1940) * Fries : The Structure of English (1952) * Quirk : The Survey of English Usage (1968)
Des corpus nombreux et variés
Diapo 3
Les corpus oraux en anglais et en français, Toulouse - le Mirail, 15/11/02Les corpus oraux en anglais et en français, Toulouse - le Mirail, 15/11/02
Aix-MARSEC : Petit tour d’horizon des corpus en anglais Aix-MARSEC : Petit tour d’horizon des corpus en anglais
Des corpus nombreux et variés
Corpus Généralistes :
- Brown University Corpus- LOB Corpus
- Brittish National Corpus- Kohlapur Corpus of Indian English
- Wellington Corpus of Written New Zealand English- Australian Corpus of English
- …
Corpus Orientés :
- Oxford Psycholinguistic Database- Child Language Data Exchange System
- European Science Foundation Second Language Databank- International Corpus of Learner’s English
-Canterbury Corpus- BDBRUIT Database
- …
1) Approche généraliste / Orientée (type d’exploitation visé)
Critères de classification utilisables :
Diapo 4
Les corpus oraux en anglais et en français, Toulouse - le Mirail, 15/11/02Les corpus oraux en anglais et en français, Toulouse - le Mirail, 15/11/02
Aix-MARSEC : Petit tour d’horizon des corpus en anglais Aix-MARSEC : Petit tour d’horizon des corpus en anglais
Des corpus nombreux et variés
1) Approche généraliste / Orientée (type d’exploitation visé)
2) Approche Dialectologique (type de population étudiée)
Par pays :
- Wellington Corpus of New zealand English- Corpus of Spoken American English
- Brown University Corpus- Australian Corpus of English
- Corpus of English Canadian Writing- Kohlapur Corpus of Indian English
- …
Par Groupes sociaux ou provinces :
- COLT- IViE
- PAC :o)- …
Critères de classification utilisables :
Diapo 5
Les corpus oraux en anglais et en français, Toulouse - le Mirail, 15/11/02Les corpus oraux en anglais et en français, Toulouse - le Mirail, 15/11/02
Aix-MARSEC : Petit tour d’horizon des corpus en anglais Aix-MARSEC : Petit tour d’horizon des corpus en anglais
Des corpus nombreux et variés
1) Approche généraliste / Orientée (type d’exploitation visé)
2) Approche Dialectologique (type de population étudiée)
3) Approche Stylistique (type de texte)
Critères de classification utilisables :
Par Style de texte :
- Jiao Tang University Corpus of English in Science- COLT (London teenage colloquial English)
- CRATER Corpus (telecom English)- Lampeter Corpus of Early Modern English Tracts
-…
Par modalité de production :
Recours à une échelle de spontanéité
Lecture de mots isolés … Lecture de phrases … MAP Task … Conversation guidée … Parole publique …
conversation libre … Conversation libre enregistrée à l’insu des locuteurs
Diapo 6
Les corpus oraux en anglais et en français, Toulouse - le Mirail, 15/11/02Les corpus oraux en anglais et en français, Toulouse - le Mirail, 15/11/02
Aix-MARSEC : Petit tour d’horizon des corpus en anglais Aix-MARSEC : Petit tour d’horizon des corpus en anglais
Des corpus nombreux et variés
1) Approche généraliste / Orientée (type d’exploitation visé)
2) Approche Dialectologique (type de population étudiée)
3) Approche Stylistique (type de texte)
4) Nature des données enregistrées
Critères de classification utilisables :
Données écrites :
- LOB Corpus- Brown University Corpus
- Kohlapur Corpus- BNC (90 %)
- …
Données orales :
-BNC (10 %)- Lancaster/IBM Spoken English Corpus (SEC)
- London-Lund Corpus- IviE- …
Diapo 7
Les corpus oraux en anglais et en français, Toulouse - le Mirail, 15/11/02Les corpus oraux en anglais et en français, Toulouse - le Mirail, 15/11/02
Aix-MARSEC : Petit tour d’horizon des corpus en anglais Aix-MARSEC : Petit tour d’horizon des corpus en anglais
Des corpus nombreux et variés
1) Approche généraliste / Orientée (type d’exploitation visé)
2) Approche Dialectologique (type de population étudiée)
3) Approche Stylistique (type de texte)
4) Nature des données enregistrées
5) Format des données disponibles (données enregistrées orales)
Critères de classification utilisables :
Transcriptions seules :
- BNC- American National Corpus
- Corpus of Spoken Professional American English-Canadian Hansard Treebank
- …
Transcriptions et fichiers son :
- MULTEXT- ICE (International Corpus of English)
- SBCSAE- IViE- …
Diapo 8
Les corpus oraux en anglais et en français, Toulouse - le Mirail, 15/11/02Les corpus oraux en anglais et en français, Toulouse - le Mirail, 15/11/02
Aix-MARSEC : Petit tour d’horizon des corpus en anglais Aix-MARSEC : Petit tour d’horizon des corpus en anglais
Les corpus Oraux
Corpus Oraux
=Corpus de données orales
Disponibles sous un format audio
Diapo 9
Les corpus oraux en anglais et en français, Toulouse - le Mirail, 15/11/02Les corpus oraux en anglais et en français, Toulouse - le Mirail, 15/11/02
Aix-MARSEC : Petit tour d’horizon des corpus en anglais Aix-MARSEC : Petit tour d’horizon des corpus en anglais
Les corpus Oraux
Disponibles sous un format audio
Corpus Oraux
=Corpus de données orales
Diapo 9
Les corpus oraux en anglais et en français, Toulouse - le Mirail, 15/11/02Les corpus oraux en anglais et en français, Toulouse - le Mirail, 15/11/02
Aix-MARSEC : Petit tour d’horizon des corpus en anglais Aix-MARSEC : Petit tour d’horizon des corpus en anglais
Les corpus Oraux
Disponibles sous un format audio
Mais encore ???Nature des transcriptions ???
Format des Transcriptions ???
Diapo 10
Les corpus oraux en anglais et en français, Toulouse - le Mirail, 15/11/02Les corpus oraux en anglais et en français, Toulouse - le Mirail, 15/11/02
Aix-MARSEC : Petit tour d’horizon des corpus en anglais Aix-MARSEC : Petit tour d’horizon des corpus en anglais
Les corpus OrauxNature des transcriptions ???
Ponctuée / NON Ponctuée
Annotée / Non annotée
Annotée
- Syntaxe (étiquetage “POS” / structures)- Phonétique / Phonologie (segmental / “supra-segmental”)- Infos Conversationnelles (Tours de parole, chevauchements, …)- Infos DISCURSIVES (Structure informationnelle, référentielle,
rhétorique, hiérarchique-fonctionnelle, …)
Orthographique
Diapo 11
Les corpus oraux en anglais et en français, Toulouse - le Mirail, 15/11/02Les corpus oraux en anglais et en français, Toulouse - le Mirail, 15/11/02
Aix-MARSEC : Petit tour d’horizon des corpus en anglais Aix-MARSEC : Petit tour d’horizon des corpus en anglais
Les corpus OrauxNature des transcriptions ???
OrthographiqueNON-Orthographique
Diapo 12
Les corpus oraux en anglais et en français, Toulouse - le Mirail, 15/11/02Les corpus oraux en anglais et en français, Toulouse - le Mirail, 15/11/02
Aix-MARSEC : Petit tour d’horizon des corpus en anglais Aix-MARSEC : Petit tour d’horizon des corpus en anglais
Les corpus OrauxFormat des transcriptions ???
Texte “simple”(Plain Text)
Diapo 13
Fichiers au format ASCII,Non destinés à un logiciel particulier :
Exploitation manuelle facilitéeMais
Traitement exhaustif difficile
Portabilité maximaliséeMais
Traitement automatique direct impossibleLes corpus oraux en anglais et en français, Toulouse - le Mirail, 15/11/02Les corpus oraux en anglais et en français, Toulouse - le Mirail, 15/11/02
Aix-MARSEC : Petit tour d’horizon des corpus en anglais Aix-MARSEC : Petit tour d’horizon des corpus en anglais
Les corpus OrauxFormat des transcriptions ???
Exemple de Texte “simple” : LLC:c
Diapo 14
Version réduite du LLC (cf. Svartvick & Quirk 1980)Les corpus oraux en anglais et en français, Toulouse - le Mirail, 15/11/02Les corpus oraux en anglais et en français, Toulouse - le Mirail, 15/11/02
Aix-MARSEC : Petit tour d’horizon des corpus en anglais Aix-MARSEC : Petit tour d’horizon des corpus en anglais
Les corpus OrauxFormat des transcriptions ???
Exemple de Texte “simple” : MARSEC
Diapo 15
Transcription MARSEC
signal a0101type 0color 121comment created by Caro et Cyrilfont -adobe-helvetica-medium-r-normal--14-140-75-75-p-77-iso8859-1separator ;nfields 1# 0.000000 122 || 0.570000 122 <Good 0.680000 122 `morning 1.160000 122 || 1.780000 122 >`more 1.940000 122 *news 2.281180 122 about 2.500000 122 the 2.630000 122 ~Reverend 2.950000 122 _Sun 3.290000 122 *Myung 3.643588 122 `Moon
Les corpus oraux en anglais et en français, Toulouse - le Mirail, 15/11/02Les corpus oraux en anglais et en français, Toulouse - le Mirail, 15/11/02
Aix-MARSEC : Petit tour d’horizon des corpus en anglais Aix-MARSEC : Petit tour d’horizon des corpus en anglais
Les corpus OrauxFormat des transcriptions ???
Texte “formaté”
Diapo 16
Fichiers au format ASCII ou “compilés”,destinés à un logiciel particulier :
Exploitation manuelle plus difficilEMais
Exploitation exhaustive possible
Portabilité minimaliséeMais
Exploitation directe possible
Les corpus oraux en anglais et en français, Toulouse - le Mirail, 15/11/02Les corpus oraux en anglais et en français, Toulouse - le Mirail, 15/11/02
Aix-MARSEC : Petit tour d’horizon des corpus en anglais Aix-MARSEC : Petit tour d’horizon des corpus en anglais
Les corpus OrauxFormat des transcriptions ???
Exemple de Texte “Formaté” : BNC
Diapo 17
Transcription BNC (Header)
<bncDoc id=BDFX8 n=093802><header type=text creator='natcorp' status=new update=1994-07-13> <fileDesc> <titStmt> <title> General Practitioners Surgery -- an electronic transcription </title> <respStmt> <resp> Data capture and transcription </resp> <name> Longman ELT </name> </respStmt> </titStmt> <ednStmt n=1> Automatically-generated header </ednStmt> <extent kb=7 words=128> </extent>
<u who=FX8PS000><s n=01><w ITJ>Ah <w AV0>there <w PNP>we <w VBB>are<c PUN>, <unclear><c PUN>.<s n=02><w AV0>Right <unclear> <w AJ0>abdominal <w NN1>wound<c PUN>, <w PNP>she<w VBZ>'s<w AT0>a <w AJ0>wee <w NN1>bit <pause> <w VVD>confused<c PUN>.<s n=03><w PNP>She <w VDD>did<w XX0>n't <w VVI>bother <w TO0>to <w VVI>tell <w PNP>me<w CJT>that <w PNP>she<w VHD>'d <w AV0>only <w VVN>got <unclear> <w TO0>to<w VVI>call <w PNP>you<c PUN>, <w AV0>right<c PUN>?<s n=04><w UNC>Erm <w PNP>she <w VBD>was<w XX0>n't <w PRP>in <w DPS>her <w NN1>nightdress<w CJC>but <w PNP>she <w AV0>only <w VVN>dressed <w PNX>herself<c PUN>, <w PNP>she<w VVD>said <ptr t=FX8LC001> <unclear> <ptr t=FX8LC002></u><u who=PS22T><s n=05><ptr t=FX8LC001> <w CJC>And <w PNP>you <unclear> <ptr t=FX8LC002></u>
Transcription BNCLes corpus oraux en anglais et en français, Toulouse - le Mirail, 15/11/02Les corpus oraux en anglais et en français, Toulouse - le Mirail, 15/11/02
Aix-MARSEC : Petit tour d’horizon des corpus en anglais Aix-MARSEC : Petit tour d’horizon des corpus en anglais
Les corpus OrauxFormat des transcriptions ???
Exemple de Texte “Formaté” :IviE dans XWaves
Diapo 18
Transcription IviELes corpus oraux en anglais et en français, Toulouse - le Mirail, 15/11/02Les corpus oraux en anglais et en français, Toulouse - le Mirail, 15/11/02
Aix-MARSEC : Petit tour d’horizon des corpus en anglais Aix-MARSEC : Petit tour d’horizon des corpus en anglais
Les corpus Oraux
Diapo 19
Les transcriptions sont en général :
orthographiques annotées
Texte simple / formaté
+ / - Alignées
Qu’en est-il des principaux corpus oraux d’anglais britannique ???
Les corpus oraux en anglais et en français, Toulouse - le Mirail, 15/11/02Les corpus oraux en anglais et en français, Toulouse - le Mirail, 15/11/02
Aix-MARSEC : Petit tour d’horizon des corpus en anglais Aix-MARSEC : Petit tour d’horizon des corpus en anglais
Les corpus Oraux Britanniques
Diapo 20
Description sommaire de DEUX corpus oraux d’anglais Britannique :
1)ICE
2) IViE
Les corpus oraux en anglais et en français, Toulouse - le Mirail, 15/11/02Les corpus oraux en anglais et en français, Toulouse - le Mirail, 15/11/02
Aix-MARSEC : Petit tour d’horizon des corpus en anglais Aix-MARSEC : Petit tour d’horizon des corpus en anglais
Les corpus Oraux Britanniques
Diapo 21
ICE :The International Corpus of English
Les corpus oraux en anglais et en français, Toulouse - le Mirail, 15/11/02Les corpus oraux en anglais et en français, Toulouse - le Mirail, 15/11/02
Aix-MARSEC : Petit tour d’horizon des corpus en anglais Aix-MARSEC : Petit tour d’horizon des corpus en anglais
Les corpus Oraux BritanNiques
Diapo 22
ICE-GB :LE composant britannique
Début du programme : 1990
Objectif principal : Fournir les données nécessaires à une étude comparative des variantes nationales et régionales
de l’anglais
Nombre de partenaires : 20 centres
Composition : 1 million de mots(200 textes écrits, 300 textes oraux)
Les corpus oraux en anglais et en français, Toulouse - le Mirail, 15/11/02Les corpus oraux en anglais et en français, Toulouse - le Mirail, 15/11/02
Aix-MARSEC : Petit tour d’horizon des corpus en anglais Aix-MARSEC : Petit tour d’horizon des corpus en anglais
Les corpus Oraux BritanNiques
Diapo 23
ICE-GB :LE composant britannique
Format des données : annotation syntaxique complète au format ICECUP (étiquetage +
structure syntaxique)
83.394 arbres au total
59.640 arbres pour la partie orale
Les corpus oraux en anglais et en français, Toulouse - le Mirail, 15/11/02Les corpus oraux en anglais et en français, Toulouse - le Mirail, 15/11/02
Aix-MARSEC : Petit tour d’horizon des corpus en anglais Aix-MARSEC : Petit tour d’horizon des corpus en anglais
Les corpus Oraux BritanNiques
Diapo 24
ICE-GB :LE composant britannique
ICE-GB : un véritable corpus oral ???
Version 1 du corpus : Transcriptions seules …
Version 2 du Corpus : Transcriptions et fichiers son(Alignement ???)
(si oui, QuelLe granularité d’alignement ???)
Les corpus oraux en anglais et en français, Toulouse - le Mirail, 15/11/02Les corpus oraux en anglais et en français, Toulouse - le Mirail, 15/11/02
Aix-MARSEC : Petit tour d’horizon des corpus en anglais Aix-MARSEC : Petit tour d’horizon des corpus en anglais
Les corpus Oraux BritanNiques
Diapo 25
IViE :Intonational Variation in English
Les corpus oraux en anglais et en français, Toulouse - le Mirail, 15/11/02Les corpus oraux en anglais et en français, Toulouse - le Mirail, 15/11/02
Aix-MARSEC : Petit tour d’horizon des corpus en anglais Aix-MARSEC : Petit tour d’horizon des corpus en anglais
Les corpus Oraux BritanNiques
Diapo 26
Début du programme : 1997
Objectif principal : Fournir les données et les outils nécessaires à une étude comparative des variantes
intonatives régionales de l’anglais des îles britanniques
Nombre de points d’enquête : 9
Composition : 36 heures de parole(dont 4h transcrites et 1h disponible en ligne)
IViE :Intonational Variation in English
Les corpus oraux en anglais et en français, Toulouse - le Mirail, 15/11/02Les corpus oraux en anglais et en français, Toulouse - le Mirail, 15/11/02
Aix-MARSEC : Petit tour d’horizon des corpus en anglais Aix-MARSEC : Petit tour d’horizon des corpus en anglais
Les corpus Oraux BritanNiques
Diapo 27
Composition (suite) : 5 modalités de production :
-Conversation- Interaction guidée (Map Task)
- Récit “de mémoire”- Lecture de texte
- Lecture de passages phonétiquement contrôlés
IViE :Intonational Variation in English
Les corpus oraux en anglais et en français, Toulouse - le Mirail, 15/11/02Les corpus oraux en anglais et en français, Toulouse - le Mirail, 15/11/02
Aix-MARSEC : Petit tour d’horizon des corpus en anglais Aix-MARSEC : Petit tour d’horizon des corpus en anglais
Les corpus Oraux BritanNiques
Diapo 28
Format des données
Format Xwaves (Entropic Soft.) sous Unix
Possibilité d’Utilisation avec PitchWorks, WaveSurfer,
Praat, …
IViE :Intonational Variation in English
Les corpus oraux en anglais et en français, Toulouse - le Mirail, 15/11/02Les corpus oraux en anglais et en français, Toulouse - le Mirail, 15/11/02
Aix-MARSEC : Petit tour d’horizon des corpus en anglais Aix-MARSEC : Petit tour d’horizon des corpus en anglais
Les corpus Oraux BritanNiques
Diapo 28
IViE :Intonational Variation in English
Les corpus oraux en anglais et en français, Toulouse - le Mirail, 15/11/02Les corpus oraux en anglais et en français, Toulouse - le Mirail, 15/11/02
Aix-MARSEC : Petit tour d’horizon des corpus en anglais Aix-MARSEC : Petit tour d’horizon des corpus en anglais
Les corpus Oraux BritanNiques
Diapo 29
IViE :Intonational Variation in English
Les corpus oraux en anglais et en français, Toulouse - le Mirail, 15/11/02Les corpus oraux en anglais et en français, Toulouse - le Mirail, 15/11/02
IVIE : un véritable corpus oral d’anglais britannique
Un corpus orienté (intonation, pas d’annotation syntaxique ni de concordance)
Un corpus aligné au niveau du mot (fin d’unité)
Aix-MARSEC : Petit tour d’horizon des corpus en anglais Aix-MARSEC : Petit tour d’horizon des corpus en anglais
Les corpus Oraux BritanNiques
Diapo 30
En Résumé
Les corpus oraux en anglais et en français, Toulouse - le Mirail, 15/11/02Les corpus oraux en anglais et en français, Toulouse - le Mirail, 15/11/02
Les corpus sont nombreux mais rares sont ceux qui sont :
-réellement oraux
- sur l’anglais britannique
- disponibles (cf. CIC)
- Gratuits (ou presque …)
(cf. ICE : 477 € / EUROM 1 : 800-1600 € / …)
Aix-MARSEC : Petit tour d’horizon des corpus en anglais Aix-MARSEC : Petit tour d’horizon des corpus en anglais
1) Les origines
2) de MARSEC à Aix-MARSEC : traitements
3) perspectives
Les corpus oraux en anglais et en français, Toulouse - le Mirail, 15/11/02Les corpus oraux en anglais et en français, Toulouse - le Mirail, 15/11/02
Le corpus Aix-MARSEC
Origines de MARSECOrigines de MARSECMARSEC: MAchine Readable Spoken English Corpus
SEC: Spoken English Corpus (Lancaster, Leeds, IBM)
Corpus d’environ 55 000 mots
Catégories de discours: bulletins d’informations, émissions religieuses, fiction, poésie, dialogues (de type mise en scène), commentaires sportifs).
53 locuteurs (17 locutrices et 36 locuteurs)
Archives de la BBC (début des années 1980)
Diapo 31
Les corpus oraux en anglais et en français, Toulouse - le Mirail, 15/11/02Les corpus oraux en anglais et en français, Toulouse - le Mirail, 15/11/02
Aix-MARSEC : Le corpus Aix-MARSEC Aix-MARSEC : Le corpus Aix-MARSEC
Origines de MARSECOrigines de MARSEC
Durée : 339 minutes et 18 secondes, corpus divisé en fichiers de 60s environ
Alignement (temporel) au niveau du mot
Annotation prosodique: tonetic stress marks (G. Knowles & B. Williams)
80 passages de chevauchement (9% du corpus) pour comparaison
Diapo 32
Les corpus oraux en anglais et en français, Toulouse - le Mirail, 15/11/02Les corpus oraux en anglais et en français, Toulouse - le Mirail, 15/11/02
Aix-MARSEC : Le corpus Aix-MARSEC Aix-MARSEC : Le corpus Aix-MARSEC
annotation prosodique (14 symboles ASCII) :_ low level~ high level< step-down> step-up/’ (high) rise-fall
‘/ high fall-rise/ high rise
\ high fall, low rise‘ low fall,\ (low rise-fall – not used)\, low fall-rise* stressed but unaccented| minor intonation unit boundary|| major intonation unit boundary
Diapo 33
Origines de MARSECOrigines de MARSEC
Les corpus oraux en anglais et en français, Toulouse - le Mirail, 15/11/02Les corpus oraux en anglais et en français, Toulouse - le Mirail, 15/11/02
Aix-MARSEC : Le corpus Aix-MARSEC Aix-MARSEC : Le corpus Aix-MARSEC
DeDe
MARSECMARSEC
àà
AIX-MARSECAIX-MARSEC
Les corpus oraux en anglais et en français, Toulouse - le Mirail, 15/11/02Les corpus oraux en anglais et en français, Toulouse - le Mirail, 15/11/02
Aix-MARSEC : Le corpus Aix-MARSEC Aix-MARSEC : Le corpus Aix-MARSEC
- Conversion des fichiers étiquettes au format ‘textgrid’ (Praat)
- Mise en correspondance des noms de fichiers son avec les noms de fichiers d’étiquettes (correction)
- Suppression des fichiers son défectueux
- Suppression des fichiers avec étiquettes manquantes
- Suppression totale de 3 fichiers
- Élimination des doublons (= fichiers de chevauchement) avec préférence pour BJW (sur GOK)
Homogénéisation du corpus
Diapo 34
Les corpus oraux en anglais et en français, Toulouse - le Mirail, 15/11/02Les corpus oraux en anglais et en français, Toulouse - le Mirail, 15/11/02
TraitementsAix-MARSEC : Le corpus Aix-MARSEC Aix-MARSEC : Le corpus Aix-MARSEC
Vérification des étiquettes
Vérification et correction de la totalité des étiquettes de mot avec PRAAT
Fenêtre minimale de correction: 50ms (pas de modification dans le cas de décalages de moins de 50ms)
Modification d’étiquette dans 82 fichiers
Marquage des fichiers modifiés par ajout de ‘mod’ dans le nom (facilement identifiables)
Diapo 35
Les corpus oraux en anglais et en français, Toulouse - le Mirail, 15/11/02Les corpus oraux en anglais et en français, Toulouse - le Mirail, 15/11/02
TraitementsAix-MARSEC : Le corpus Aix-MARSEC Aix-MARSEC : Le corpus Aix-MARSEC
Prédiction de la durée des phonèmes
Diapo 36
Les corpus oraux en anglais et en français, Toulouse - le Mirail, 15/11/02Les corpus oraux en anglais et en français, Toulouse - le Mirail, 15/11/02
TraitementsAix-MARSEC : Le corpus Aix-MARSEC Aix-MARSEC : Le corpus Aix-MARSEC
Algorithme inspiré de Campbell 1992
Appliqué au niveau du mot
PHONETISATION DU CORPUS
Utilisation du dictionnaire ‘Advanced Learners’ Dictionary’ publié par ‘Oxford University Press’
Dictionnaire de transcription avec 71 000 mots en entrée
Conversion en SAMPA(= computer readable phonetic alphabet)
Fonctionnement général :
Recherche automatique de chaque mot du corpus dans le dictionnaire
SAMPA/ IPA
I
e e{ Q V U @ i: i:eI aI OI u: :@U aU 3: :A: :O: :I@ e@ U@
Utilisation du dictionnaire ‘Advanced Learners’ Dictionary’ publié par Oxford University Press
Dictionnaire de transcription avec 71 000 mots en entrée
Conversion en SAMPA(= computer readable phonetic alphabet)
Diapo 37
Les corpus oraux en anglais et en français, Toulouse - le Mirail, 15/11/02Les corpus oraux en anglais et en français, Toulouse - le Mirail, 15/11/02
TraitementsAix-MARSEC : Le corpus Aix-MARSEC Aix-MARSEC : Le corpus Aix-MARSEC
Différentes étapes de la phonétisation (1)
CODAGE d’un Module perl traitant :
- les nombres et combinaisons de lettres + nombres (codes postaux),
- les suites de majuscules (abréviations),
- les génitifs et les formes contractées.
Diapo 38
Les corpus oraux en anglais et en français, Toulouse - le Mirail, 15/11/02Les corpus oraux en anglais et en français, Toulouse - le Mirail, 15/11/02
TraitementsTraitementsAix-MARSEC : Le corpus Aix-MARSEC Aix-MARSEC : Le corpus Aix-MARSEC
Traitement des formes réduites
• dictionnaire : formes pleines uniquement (ex: « and » est transcrit /{nd/)
• Création d’un dictionnaire avec la liste des formes réduites et leur réalisation ex: « and » est transcrit /@nd/
Diapo 39
Les corpus oraux en anglais et en français, Toulouse - le Mirail, 15/11/02Les corpus oraux en anglais et en français, Toulouse - le Mirail, 15/11/02
TraitementsTraitements
Utilisation de ces formes dès lors qu’elles apparaissent sans marque prosodique
dans le corpus
ex: « ‘/and » = /{nd/
mais
« and » sans marque = /@nd/
Différentes étapes de la phonétisation (2)
Aix-MARSEC : Le corpus Aix-MARSEC Aix-MARSEC : Le corpus Aix-MARSEC
Lors de la phonétisation, 900 mots présents dans le corpus n’apparaissaient pas dans le dictionnaire.
Constitution d’un troisième dictionnaire avec les 900 mots transcrits manuellement (à partir de Wells, 1990) …
… et d’un quatrième avec la transcription des formes "problématiques" (hésitations, coupures en début/ fin de fichier).
But : aucune modification du dictionnaire d’origine pour applications ultérieures
Diapo 40
Les corpus oraux en anglais et en français, Toulouse - le Mirail, 15/11/02Les corpus oraux en anglais et en français, Toulouse - le Mirail, 15/11/02
TraitementsTraitementsDifférentes étapes de la phonétisation (3)
Aix-MARSEC : Le corpus Aix-MARSEC Aix-MARSEC : Le corpus Aix-MARSEC
Problèmes non résolus :
Diapo 41
Les corpus oraux en anglais et en français, Toulouse - le Mirail, 15/11/02Les corpus oraux en anglais et en français, Toulouse - le Mirail, 15/11/02
Aix-MARSEC : Le corpus Aix-MARSEC Aix-MARSEC : Le corpus Aix-MARSEC
TraitementsTraitementsDifférentes étapes de la phonétisation (3)
Doublons
Mots avec deux entrées dans le dictionnaireEx: « object » (nom / verbe) ; « wind » (nom / verbe)
Aucune solution automatique pour l’instant puisqu’on ne tient pas compte de l’accent lexical
en projet
Dates
Nombres entre 1000 et 1999 traités comme des dates (vérification prévue)
Traitement des élisions
Diapo 42
Les corpus oraux en anglais et en français, Toulouse - le Mirail, 15/11/02Les corpus oraux en anglais et en français, Toulouse - le Mirail, 15/11/02
Aix-MARSEC : Le corpus Aix-MARSEC Aix-MARSEC : Le corpus Aix-MARSEC
TraitementsTraitementsDifférentes étapes de la phonétisation (4)
- Observation des élisions dans le corpus
- Établissement de 14 règles phonotactiques
d’élisions
d’après Jones (1990), Wells (1990)
et Cruttenden (1997)
d’après les données
- Application des 14 règles au corpus
- Suppression totale de 4027 phonèmes
But : améliorer la transcription phonématique pour l’alignement automatique
Alignement effectué au laboratoire du LIA (Laboratoire Informatique d’Avignon)
- par Christophe Lévy- sous la direction de Pascal Nocéra
Application d’un « force Viterbi » à partir de la liste de phonèmes fournie
Diapo 43
Les corpus oraux en anglais et en français, Toulouse - le Mirail, 15/11/02Les corpus oraux en anglais et en français, Toulouse - le Mirail, 15/11/02
Aix-MARSEC : Le corpus Aix-MARSEC Aix-MARSEC : Le corpus Aix-MARSEC
TraitementsTraitementsAlignement automatique
Evaluation de l’alignement automatique
Diapo 44
Les corpus oraux en anglais et en français, Toulouse - le Mirail, 15/11/02Les corpus oraux en anglais et en français, Toulouse - le Mirail, 15/11/02
Aix-MARSEC : Le corpus Aix-MARSEC Aix-MARSEC : Le corpus Aix-MARSEC
TraitementsTraitementsAlignement automatique
Erreur moyenne absolue : 22 ms
Erreur moyenne : - 6,29 ms
Aplatissement : 8,15 (forte concentration)
Dyssimétrie : -0,94 (léger biais à gauche)
Evaluation de l’alignement automatique
Diapo 45
Les corpus oraux en anglais et en français, Toulouse - le Mirail, 15/11/02Les corpus oraux en anglais et en français, Toulouse - le Mirail, 15/11/02
Aix-MARSEC : Le corpus Aix-MARSEC Aix-MARSEC : Le corpus Aix-MARSEC
TraitementsTraitementsAlignement automatique
-5
0
5
10
15
20
25
30
-50 -46 -42 -38 -34 -30 -26 -22 -18 -14 -10 -6 -2 2 6 10 14 18 22 26 30 34 38 42 46 50
Series2Poly. (Series2)
Après alignement, regroupement des phonèmes en syllabes
Pour cela, - application de règles phonotactiques de
cooccurrence en fonction du principe d’attaque maximale
- traitement des consonnes syllabiques /n-m-l/
Diapo 46
Les corpus oraux en anglais et en français, Toulouse - le Mirail, 15/11/02Les corpus oraux en anglais et en français, Toulouse - le Mirail, 15/11/02
Aix-MARSEC : Le corpus Aix-MARSEC Aix-MARSEC : Le corpus Aix-MARSEC
TraitementsTraitementsDécoupage syllabique (1)
Application de règles phonotactiques de cooccurrence
Principe de base: principe d’attaque maximale
Les consonnes sont regroupées en position d’attaque si les conditions de cooccurrence sont respectées
Toutes les consonnes exclues par ces restrictions sont placées en position codaïque.
Diapo 47
Les corpus oraux en anglais et en français, Toulouse - le Mirail, 15/11/02Les corpus oraux en anglais et en français, Toulouse - le Mirail, 15/11/02
Aix-MARSEC : Le corpus Aix-MARSEC Aix-MARSEC : Le corpus Aix-MARSEC
Découpage syllabique (2)
TraitementsTraitements
Résumé des contraintes de cooccurrence en attaque
(cruttenden, 1997):
Contraintes de cooccurrence des attaques bi-consonantiques (cruttenden, 1997):
p + l, r, jt + r, j, wk + l, r, j, wb + l, r, jd + r, j, wg + l, r, j, wm + j, wn + jl + jf + l, r, jv + l, r, jT + r, j, ws + l, r, j, w, p, t, k, m, n, f, vS + l, r, w, m, nh + j
Diapo 48
Les corpus oraux en anglais et en français, Toulouse - le Mirail, 15/11/02Les corpus oraux en anglais et en français, Toulouse - le Mirail, 15/11/02
Aix-MARSEC : Le corpus Aix-MARSEC Aix-MARSEC : Le corpus Aix-MARSEC
Découpage syllabique (3)
TraitementsTraitements
Contraintes de cooccurrence des attaques avec trois consonnes:
s + p + l, r, js + t + r, js + k + l, r, j, w
Diapo 49
Les corpus oraux en anglais et en français, Toulouse - le Mirail, 15/11/02Les corpus oraux en anglais et en français, Toulouse - le Mirail, 15/11/02
Aix-MARSEC : Le corpus Aix-MARSEC Aix-MARSEC : Le corpus Aix-MARSEC
TraitementsTraitementsDécoupage syllabique (4)
Traitement des consonnes syllabiques /m-n-l/
• Syllabification selon le principe d’attaque maximale
• Identification de ces consonnes syllabiques en fonction du contexte :
C + /m - n - l/ (+ /z-d/)• Resyllabification: /m-n-l/ deviennent noyaux
syllabiques
Diapo 50
Les corpus oraux en anglais et en français, Toulouse - le Mirail, 15/11/02Les corpus oraux en anglais et en français, Toulouse - le Mirail, 15/11/02
Aix-MARSEC : Le corpus Aix-MARSEC Aix-MARSEC : Le corpus Aix-MARSEC
TraitementsTraitementsDécoupage syllabique (5)
Ex: expectation transcrit /IkspekteISn/découpé en syllabes /Ik.spek.teISn//n/ est syllabique (contexte post-consonantique)resyllabification: /Ik.spek.teI.Sn/ (/n/ = noyau syllabique)
-Codage automatique de l’intonation
- amélioration de l’alignement actuel
Les corpus oraux en anglais et en français, Toulouse - le Mirail, 15/11/02Les corpus oraux en anglais et en français, Toulouse - le Mirail, 15/11/02
Aix-MARSEC : Le corpus Aix-MARSEC Aix-MARSEC : Le corpus Aix-MARSEC
PerspectivesPerspectives
Les corpus oraux en anglais et en français, Toulouse - le Mirail, 15/11/02Les corpus oraux en anglais et en français, Toulouse - le Mirail, 15/11/02
Aix-MARSEC : Le corpus Aix-MARSEC Aix-MARSEC : Le corpus Aix-MARSEC Diapo 51
PerspectivesPerspectivesCodage automatique de l’intonation
1) Segmentation automatique en fonction des pauses
Génération de Segments inter-pauses (sip)2) Modélisation perceptive automatique de la
fréquence fondamentale
algorithme MOMEL (Modélisation Mélodique)
3) Codage automatique des points ciblescodage intsint
Diapo 52
Les corpus oraux en anglais et en français, Toulouse - le Mirail, 15/11/02Les corpus oraux en anglais et en français, Toulouse - le Mirail, 15/11/02
Aix-MARSEC : Le corpus Aix-MARSEC Aix-MARSEC : Le corpus Aix-MARSEC
PerspectivesPerspectivesAmélioration de l’alignement
1) Génération automatique d’un signal de synthèse
Phonétisation alignée + MBROLA
2) Transfert des étiquettes
Utilisation d’un algorithme de programmation dynamique (DTW)
3) Itérations multiples des phases 1 et 2 jusqu’à stabilité
- représente une durée totale d’environ 332 minsoit environ 5 heures et demi de parole ;
- est divisé en 408 fichiers ;
- comporte 54083 mots ;
- 195447 phonèmes (après élisions) ;
- est aligné aux niveaux de l’Unité Intonative, du mot et du phonème ;
- sera disponible sous peu à prix coûtant …
Les corpus oraux en anglais et en français, Toulouse - le Mirail, 15/11/02Les corpus oraux en anglais et en français, Toulouse - le Mirail, 15/11/02
Aix-MARSEC : Le corpus Aix-MARSEC Aix-MARSEC : Le corpus Aix-MARSEC
Aix-MARSEC : BilanAix-MARSEC : BilanAprès homogénéisation, le corpus AIX-MARSEC
Aix-MARSEC : Le corpus Aix-MARSEC Aix-MARSEC : Le corpus Aix-MARSEC
Les corpus oraux en anglais et en français, Toulouse - le Mirail, 15/11/02Les corpus oraux en anglais et en français, Toulouse - le Mirail, 15/11/02
Merci de votre attention
Vous avez bien mérité un petit échantillon …