Amalia Todirascu1 Chaînes de références Amalia Todirascu [email protected].
-
Upload
emmanuel-debray -
Category
Documents
-
view
133 -
download
2
Transcript of Amalia Todirascu1 Chaînes de références Amalia Todirascu [email protected].
Amalia Todirascu 2
Plan Les chaînes de référence systèmes à base de contraintes vs
systèmes d'apprentissage automatique
RefGen : un outil de détection automatique de chaînes de références
propriétés utilisées pour la resolution de la coréférence
Amalia Todirascu 3
Chaînes de réference une séquence de plusieurs
expressions réferentielles et anaphores qui denomment la même entité expression réferentielle: nom propre,
groupe nominal avec article défini, groupe nominal avec article demonstratif
anaphore: pronom personnel, pronom possessif
Amalia Todirascu 4
Exemple M.Barack Obama a tenu un
discours devant le Congrès sur la reforme de l'assurance maladie. Le président des Etats Unis a souligné l'importance qu'il accorde à cette reforme. M.Barack Obama = antécédent de
Le président ... La reforme = antécédent de cette
reforme
Amalia Todirascu 5
Expressions référentielles introduisent des entités du discours exprimées par:
des entités nommées Le président de la République française,
l'ONU, M.Pons par des groupes nominaux définis ou
indéfinis complets un chat noir, les experts de la Commission
pour l'environnement
Amalia Todirascu 6
Anaphores l'entité dont il réfère à été déjà introduite
dans le discours (le président... il ...son) exprimée par le biais d'un élément
antérieur plusieurs catégories (Kleiber, 1994)
anaphore pronominale pronoms personnels (il, elle, lui, leur) pronoms reflexifs (s) possessifs (son)
Amalia Todirascu 7
Anaphores (II) Anaphores nominales
fidèle : coréférence directe groupe nominal avec article demonstratif (Le président ...ce président)
infidèle - différence lexicale hyperonymes/hyponymes (le chien...cet animal) synonymes (le changement...la modification)
associative (L'eglise du village...ce clocher) plurielle (Jean et Marie ...Marie.... Jean ...ils)
Amalia Todirascu 8
Anaphores (III) anaphore conceptuelle
antécédent = phrase anaphore = resumé de l'antécédent
Les footballeurs français ont battu les brésiliens. Cette victoire les a faits champions du monde
anaphore zéro : élement anaphorique elliptique
Amalia Todirascu 9
Contexte et motivation regrouper les expressions référentielles
qui indiquent le même référent = identifier les chaînes de référence souvent deux élements : chaînes
anaphoriques applications TAL
extraction d'informations détection de thèmes resumé automatique systèmes de questions-réponses
Amalia Todirascu 10
Contexte et motivation (II) modèles linguistiques du discours
théorie de l'accessibilité (Ariel, 1990, 1996) expressions réferentielles peu accessibles :
entités nouvelles introduites dans le discours expressions accessibles : pronoms reflexifs,
personnels théorie du centrage (Grosz et Sidner)
notion du centre et des transitions contraintes syntaxiques pour les pronoms
Amalia Todirascu 11
Contexte et motivation (III) rôles des anaphores et de chaînes
de référence dans le discours marqueurs de cohesion textuelle
(Charolles, 1997) fonctionnement des chaînes
(Schnedecker, 1997) thème et chaînes de référence
(Cornish, 2005)
Amalia Todirascu 12
Plan Les chaînes de référence systèmes à base de contraintes vs
systèmes d'apprentissage automatique
RefGen : un outil de détection automatique de chaînes de références
propriétés utilisées pour la resolution de la coréférence
Amalia Todirascu 13
Systèmes automatiques (I) systèmes à base de règles
français(Hernandez, 2004), (Dupont, 2003) (Victorri 2005), (Popescu Belis, 1996), (Longo, Todirascu, 2010)
anglais (Mitkov, 2003), (Bontcheva et al, 2004)
vérification de plusieurs contraintes lexicales, syntaxiques, sémantiques pour trouver les affinités entre les possibles antécédents (entités nommées, groupes nominaux définis)
dépendentes de langue
Amalia Todirascu 14
Systèmes automatiques (II) systèmes de classification
systèmes supervisées (Ng et Cardie, 2002) (Yang et al, 2004) (Weisenbacher & Nazarenko, 2008)
nécessitent des données d'apprentissage de grande taille (500,000 – 1,000,000 tokens) annotées au niveau de relations de coréférence et anaphorique
données disponibles pour EN, DE, NL, ES, IT mais pas pour le français !!! propriétés:
contraintes lexicales, syntaxiques, sémantiques la position dans la phrase, la distance entre les
candidats type d'expressions réferentielles (déterminant, nom
commun/nom propre etc.)
Amalia Todirascu 15
Systèmes automatiques (III) systèmes non-supervisés (Lang et al,
2009) (Ailloud, Klenner, 2009) (Bean et Riloff, 2004), BART (Versley et al, 2008) exploitation des informations morpho-
syntaxiques la position ou la distance le type d'antécédent données : corpus étiquétés lemmatisés,
eventuellement annotés syntaxiquement mais pas besoin d'avoir d'annotation des relations de coréférence
Amalia Todirascu 16
Problèmes systèmes à base de règles
nécessite beaucoup d'effort pour construire les ressources
connaissances complexes : étiquetage, lemmatisation, analyse syntaxique, identification des entitées nommées
systèmes de classification volume important de données données insuffisantes
Amalia Todirascu 17
Plan Les chaînes de référence systèmes à base de contraintes vs
systèmes d'apprentissage automatique
RefGen : un outil de détection automatique de chaînes de références
propriétés utilisées pour la resolution de la coréférence
Amalia Todirascu 18
RefGen Identification automatique de chaînes de
référence pour le français RefGen (Longo et Todirascu, 2010) dépendent du genre textuel ordonner les candidats au premier maillon
(théorie de l'accessibilité (Ariel, 1990)) trouver des pairs antécédent-anaphore
utilisation des filtres (lexicales, syntaxiques, sémantiques)
thèse de L.Longo (RBS) utilisée pour un système de détection
automatique de thèmes
Amalia Todirascu 19
Architecture RefGen
Annotation des groupes nominaux complexes (CNp)
Annotation des Entités Nommées(type Org /Pers)
Annotation du il impersonnel
Annotations
Texte étiquetéTTL (Ion, 2007)
Calcul de la référence
Amalia Todirascu 20
Outils d'annotation TTL (Ion, 2007)
Étiquetage selon le jeu d'étiquettes MULTEXT (Ide & Veronis 2004)
CNP (Longo, Todirascu, 2010) Groupes nominaux complexes
EN Entités nommées (Personne,
Organisation, Lieu) Fonction syntaxique
Amalia Todirascu 21
TTL (Ion, 2007) étiquetage et lemmatization
jeu d'étiquettes MULTEXT disponible pour le français, le roumain,
l'anglais service Web (integré dans la plateforme
Weblicht (développé dans le cadre du projet CLARIN)) format de sortie: Text Corpus Format (TCF) ou
XCES limité dans la taille du fichier
Amalia Todirascu 22
Groupes nominaux complexes
groupes nominaux complexes (plus informatifs) groupes nominaux simples avec plusieurs modifieurs: groupes
prépositionnels, relative utilise les annotations de TTL patrons disponibles pour le français
Amalia Todirascu 23
Entités nommées catégories : personnes,
organisations, lieux patrons qui utilisent des preuves
externes ou internes
Amalia Todirascu 24
"Il" impersonnel plusieurs patrons proposés pour
identifier les tournures impersonnelles (stage de Y.Lutz) verbes et adjectifs météorologiques
(il pleut, il fait beau) adjectifs (il est nécessaire de...) verbes (il faut+Vinf, il s'agit de...) 77% de il impersonnels reconnus
correctement
Amalia Todirascu 25
Named Entities
Lemmas, chunks
Complex noun phrases
Impersonal pronoun « il »
Amalia Todirascu 26
Calcul de la référence
configurationtexte annoté
sélection d'antécédents
liste desmaillons
chaînes de
référencecalcul de la référence
Règles heuristiques pourla fonction syntaxique
Paramètres spécifiquesau genre textuel
contraintes syntaxiques,sémantiques
sélection du1er maillon
recherche demaillons possibles
identification des relations anaphoriques
Comparaison des chaînes avec annotation manuelle
configurationtexte annoté
sélection d'antécédents
liste desmaillons
chaînes de
référencecalcul de la référence
Règles heuristiques pourla fonction syntaxique
Paramètres spécifiquesau genre textuel
contraintes syntaxiques,sémantiques
sélection du1er maillon
recherche demaillons possibles
identification des relations anaphoriques
Comparaison des chaînes avec annotation manuelle
algorithme d’identification des chaînes de référence
Amalia Todirascu 27
Sélection des 1ers maillons
Expression Référentielle
Informativité
Rigidité Atténuation
Accessibilité Globale
Groupe nominal indéfini
110 110 10 230
Np complet avec modifieur
100 100 20 220
Np complet 90 90 30 210
Description définie longue
80 80 40 200
Description définie courte
70 70 50 190
Nom de famille 60 60 60 180
Prénom 50 50 70 170
Démonstratif 40 40 80 160
Pronom 30 30 90 150
Réfléchi 20 20 100 140
Possessif 10 10 110 120
A partir de l’échelle d’Accessibilité d’(Ariel, 1990)
Attribution d’un poids à chaque ER (de 10 à 110) pour chaque critère (inf, rig, att)
Amalia Todirascu 28
Sélection des autres maillons
On détermine les liens de coréférence entre les candidats d’accessibilité haute et ceux d’accessibilité basse
Identification des paires antécédent-anaphore dans la distance moyenne spécifique au genre liste de contraintes à satisfaire = des filtres pour limiter
les candidats Lexicaux Morphosyntaxiques Sémantiques De proximité
Regroupement des anaphores ayant un référent commun pour former les chaînes de référence
Amalia Todirascu 29
Contraintes
(Gegg-Harrison & Byron, 2004) – Optimisation theory (Beaver, 2004)
Paires antécédent-anaphore impossibles Pas d'imbrication possible [la soeur [de Marie]] Si les éléments sont les arguments du même
verbe (La voiture qu'il a achété...) maximum de contraintes
Lexicales Syntaxiques sémantiques
Amalia Todirascu 30
Contraintes (II)
Lexicale Reprise du même tête
Syntaxiques Parallèlisme syntaxique
Sémantique Synonymes hyponymes
Amalia Todirascu 31
Exemple
Amalia Todirascu 32
Exemple (II)
Amalia Todirascu 33
Evaluation
CNpNER reference chains
pairs
0,630,730,890,88f-measure
0,700,780,910,91precision
0,580,690,870,85recall
CalcRef Annotations
0,540,70F-measure
•With newspapers genre parameters:
Amalia Todirascu 34
RefGen évaluation sur d'autres genres
corpus de référence annoté manuellement (E.Vallette d'Osia)
format SEMEVAL système modulaire, extensible
ajout de contraintes sémantiques (ontologies) peu de connaissances extérieures
utilisation pour une annotation automatique de corpus – apprentissage automatique
Amalia Todirascu 35
Plan Les chaînes de référence systèmes à base de contraintes vs
systèmes d'apprentissage automatique
RefGen : un outil de détection automatique de chaînes de références
propriétés utilisées pour la resolution de la coréférence
Amalia Todirascu 36
Quel outil pour la classification?
supervisée vs. semi-supervisée quelle taille de corpus? classification spécialisée
en fonction de types d'antécédents
Amalia Todirascu 37
Coréférence comme une tâche de classification
hypothèse: sur l'ensemble des paires antécédent-anaphore, appliquer un algorithme de classification même chaîne de référence = même
classe chaque paire = caractérisée par
plusieurs propriétés lexicales, syntaxiques, sémantiques
Amalia Todirascu 38
Corpus disponibles - LiLPa
corpus étiquétés et lemmatisés catégorie lexicale informations morpho-syntaxiques lemme possibilité d'obtenir d'autres annotations
corpus corrigés manuellement Journalistiques (500 000 tokens) Textes de loi (500 000 tokens) informatique (500 000 tokens)
Amalia Todirascu 39
Corpus disponibles (LiLPa)
<segments><seg lang="fr"><s id="ttlfr.1"><w lemma="le" chunk="Np#1" ana="Da-fs" coref="1">La</w><w lemma="décision" chunk="Np#1" ana="Ncfs"
coref="1">décision</w><w lemma="aller" chunk="Vp#1" ana="Vmip3s">va</w><w lemma="t" ana="U">-t</w><w lemma="il" ana="Pp3fs" coref="1">-elle</w><w lemma="forcer" ana="Vmn">forcer</w><w lemma="Google" chunk="Np#2" ana="Np" ner="NER#1, Org"
coref="2">Google</w><w lemma="à" chunk="Vp#2" ana="Spa">à</w><w lemma="infléchir" chunk="Vp#2" ana="Vmn">infléchir</w><w lemma="son" chunk="Np#3" ana="Ds3fp" coref="2">ses</w><w lemma="pratique" chunk="Np#3" ana="Ncfp">pratiques</w><c>?</c></s>
Amalia Todirascu 40
Annotations
Catégorie lexicale + propriétés morpho-syntaxiques (attribut “ana”)
Lemme (la forme infinitif du verbe, la forme masculin singulier)(attribut “lemma”)
Chunks (groupes non-recursifs) (attribut “chunk”) Det Nom Adj Prep Det Nom
Amalia Todirascu 41
Autres annotations
Entités nommées, CNP Fonctions syntaxiques Relations sémantiques
Synonymie (French Wordnet) Hyponymie/Hyperonymie (French
WordNet)
Amalia Todirascu 42
Propriétés pour la classification Type d'antécédent Informations morpho-syntaxiques Position dans la phrase Fonction syntaxique autres?
Amalia Todirascu 43
Références Ailloud, E, Klenner, M (2009) Vers des contraintes plus
linguistiques en résolution d de coréférences, TALN 2009 Cornish, (1998). Les “chaînes topicales” : leur rôle dans
la gestion et la structuration du discours, Cahiers de Grammaire, 23 : 19-40.
Dupont M. (2003) Une approche cognitive du calcul de la référence, thèse de l’université de Caen, 308 p.
Lang, J. Qin, B., Liu, T., Li, s. (2009) Unsupervised Coreference Resolution with HyperGraph Partitionning, Computer and Information Science, Vol 2, no 4.
Longo, L, Todirascu, A (2010) RefGen – un module d'identification de chaînes de référence, TALN 2010
Amalia Todirascu 44
Références (II)
Grosz B.J., Weinstein S., Joshi A.K. (1995), “Centering: a framework for modeling the local coherence of discourse”. Computational Linguistics 21(2), 203-225.
Ng V., Cardie C. (2002). Improving machine learning approaches to coreference resolution. Actes de ACL (Association For Computational Linguistics), Morristown, 104-111.
YANG X., SU J., ZHOU G. & TAN C. (2004). An NP-cluster based approach to coreference resolution. Proceedings of COLING'04