1 Nouvelles Technologies Amalia Todirascu [email protected].
Ressources électroniques pour lanalyse syntaxique Amalia Todirascu [email protected].
-
Upload
lucienne-potier -
Category
Documents
-
view
111 -
download
5
Transcript of Ressources électroniques pour lanalyse syntaxique Amalia Todirascu [email protected].
![Page 2: Ressources électroniques pour lanalyse syntaxique Amalia Todirascu todiras@unistra.fr.](https://reader035.fdocuments.net/reader035/viewer/2022062621/551d9d80497959293b8b8cba/html5/thumbnails/2.jpg)
Plan
• Quelles ressources pour une analyse syntaxique «classique»?– Utilisations possibles
• Les grammaires d’arbres adjoints lexicalisés– Lexique– Grammaire
• Un exemple d’analyseur: LTAG
![Page 3: Ressources électroniques pour lanalyse syntaxique Amalia Todirascu todiras@unistra.fr.](https://reader035.fdocuments.net/reader035/viewer/2022062621/551d9d80497959293b8b8cba/html5/thumbnails/3.jpg)
Analyse syntaxique « classique »
• identifier les formes des mots et les parties du discours – un lexique complet (toutes les formes)Ou- un étiqueteur + dérivation de formes fléchies
• construire les arbres syntaxiques pour un texte donné– Un ensemble de règles de grammaires et des
contraintes associés• Accord sujet-prédicat, dépendences à distance etc.• modèles linguistiques
![Page 4: Ressources électroniques pour lanalyse syntaxique Amalia Todirascu todiras@unistra.fr.](https://reader035.fdocuments.net/reader035/viewer/2022062621/551d9d80497959293b8b8cba/html5/thumbnails/4.jpg)
Utilisation des ressources
• analyse syntaxique et sémantique• aide à la traduction
– phénomènes linguistiques à traiter: règles d'accord, verbes transitives et intransitives, dépendences à distance
– lexique (expressions figées)
• traduction automatique– systèmes à base d'arbre syntaxiques
• apprentissage d'une langue etrangère– consulter les règles de grammaire
![Page 5: Ressources électroniques pour lanalyse syntaxique Amalia Todirascu todiras@unistra.fr.](https://reader035.fdocuments.net/reader035/viewer/2022062621/551d9d80497959293b8b8cba/html5/thumbnails/5.jpg)
Lexique
• Informations– Toutes les formes– lemmes– Propriétés
• morphologiques • sémantiques
• unités lexicales vs. mots composés
• exhausitivité
![Page 6: Ressources électroniques pour lanalyse syntaxique Amalia Todirascu todiras@unistra.fr.](https://reader035.fdocuments.net/reader035/viewer/2022062621/551d9d80497959293b8b8cba/html5/thumbnails/6.jpg)
Exemples de lexiques
• Sur le CNRTL (Centre national de ressources textuelles et lexicales) http://www.cnrtl.fr/lexiques/
• Morphalou– 400000 formes fléchies– Format XML– Propriétés mophologiques et lemmes
• Prolex : un lexique de noms propres
![Page 7: Ressources électroniques pour lanalyse syntaxique Amalia Todirascu todiras@unistra.fr.](https://reader035.fdocuments.net/reader035/viewer/2022062621/551d9d80497959293b8b8cba/html5/thumbnails/7.jpg)
Exemples de lexiques
• Anglais– http://www.ahds.ac.uk/litlangling
• Multext-EAST :dictionnaires pour plusieurs langues de l’Europe Centrale et de l’Est– http://nl.ijs.si/ME/V3/
![Page 8: Ressources électroniques pour lanalyse syntaxique Amalia Todirascu todiras@unistra.fr.](https://reader035.fdocuments.net/reader035/viewer/2022062621/551d9d80497959293b8b8cba/html5/thumbnails/8.jpg)
Grammaires
• Plusieurs aspects– organisation du lexique– stratégies d'analyse automatique
• Plusieurs modèles pour la grammaire– GPSG (Generalized Phrase Structure Grammar)
(Gazdar)– LFG (Lexical Function Grammar) (Kaplan)– HPSG (Head Phrase Structure Grammar) (Pollard,
Sag, 1994)– TAG (Joshi, 1985), LTAG (Joshi, 1995)
![Page 9: Ressources électroniques pour lanalyse syntaxique Amalia Todirascu todiras@unistra.fr.](https://reader035.fdocuments.net/reader035/viewer/2022062621/551d9d80497959293b8b8cba/html5/thumbnails/9.jpg)
Exemples de ressources
• Une grammaire HPSG pour plusieurs langues– http://www.delph-in.net/index.php?page=3– ERG: pour l'anglais
• http://www.delph-in.net/erg/
– espagnol http://www.upf.edu/pdi/iula/montserrat.marimon/spanish_resource_grammar.html
• LFG (anglais, allemand, norvégien)– http://decentius.aksis.uib.no/logon/xle.xml
![Page 10: Ressources électroniques pour lanalyse syntaxique Amalia Todirascu todiras@unistra.fr.](https://reader035.fdocuments.net/reader035/viewer/2022062621/551d9d80497959293b8b8cba/html5/thumbnails/10.jpg)
TAG
• Tree Adjoining Grammars (Joshi, 1975, 1995)– l'hypothèse: représenter les contextes
syntaxiques locales (des arbres syntaxiques)– contraintes sur les combinaisons entre ces
arbres syntaxiques – justification linguistique (structure prédicat-
argument)– prise en compte de l'ordre locale des mots
![Page 11: Ressources électroniques pour lanalyse syntaxique Amalia Todirascu todiras@unistra.fr.](https://reader035.fdocuments.net/reader035/viewer/2022062621/551d9d80497959293b8b8cba/html5/thumbnails/11.jpg)
TAG (II)
• La grammaire: un symbole initial, des symboles non-terminaux, des symboles terminaux
• Les règles de réécriture: un ensemble d'arbres – arbre initial: un arbre ayant le noeud racine étiqueté
avec le symbole initial• noeuds feuilles: symboles terminaux
– arbre auxiliaire: un seul noeud feuille étiqueté X, la même étiquete que l'étiquette du noeud racine
![Page 12: Ressources électroniques pour lanalyse syntaxique Amalia Todirascu todiras@unistra.fr.](https://reader035.fdocuments.net/reader035/viewer/2022062621/551d9d80497959293b8b8cba/html5/thumbnails/12.jpg)
Arbre initial et arbre auxiliaire
W
Arbre initial α
Phrase
W T* (T l'ensemble de symboles terminaux)
α :
Arbre auxiliaire
X
W1, W2 T* (T l'ensemble de symboles terminaux)X NT (NT – symbole non-terminal)
:
W1 W2X
![Page 13: Ressources électroniques pour lanalyse syntaxique Amalia Todirascu todiras@unistra.fr.](https://reader035.fdocuments.net/reader035/viewer/2022062621/551d9d80497959293b8b8cba/html5/thumbnails/13.jpg)
Adjonction
Phrase
t – sous arbre avec la racine X
: X :
X
X
t
X' :
X
X
t
![Page 14: Ressources électroniques pour lanalyse syntaxique Amalia Todirascu todiras@unistra.fr.](https://reader035.fdocuments.net/reader035/viewer/2022062621/551d9d80497959293b8b8cba/html5/thumbnails/14.jpg)
Lexicalized Tree Adjoining Grammars (LTAG)
• association entrée lexicale - arbres– description complète de l'environnement
syntaxique– possibilité de traiter les expressions figées
• modifications par rapport au TAG– ancrage lexical– deux opérations: substitution (obligatoire) et
adjonction (facultative)
![Page 15: Ressources électroniques pour lanalyse syntaxique Amalia Todirascu todiras@unistra.fr.](https://reader035.fdocuments.net/reader035/viewer/2022062621/551d9d80497959293b8b8cba/html5/thumbnails/15.jpg)
Arbres LTAG
• Arbres élémentaires – décrivent des arguments obligatoires avec d'autres arbres: tête-complément– au moins un noeud ancre (l'unité lexicale)– des noeuds de substitution ()
• Arbres auxiliaires – relations tête-modifieurs– un noeud ancre– un noeud pied (*), l'étiquette est identique au noeud
racine
![Page 16: Ressources électroniques pour lanalyse syntaxique Amalia Todirascu todiras@unistra.fr.](https://reader035.fdocuments.net/reader035/viewer/2022062621/551d9d80497959293b8b8cba/html5/thumbnails/16.jpg)
Exemples
S
V GN
V
Adv V*
S
V GN GN
GN
Np
nv1: nvn1:
adv1: np1:
![Page 17: Ressources électroniques pour lanalyse syntaxique Amalia Todirascu todiras@unistra.fr.](https://reader035.fdocuments.net/reader035/viewer/2022062621/551d9d80497959293b8b8cba/html5/thumbnails/17.jpg)
Propriétés
• Grammaire lexicalisée:– arbres– unités lexicales associées aux arbres– opérations
• localité– un arbre élémentaire contient tous les arguments
dans la même structure– pour chaque unité lexicale, on associe plusieurs
arbres
• recursivité: arbres auxiliaires
![Page 18: Ressources électroniques pour lanalyse syntaxique Amalia Todirascu todiras@unistra.fr.](https://reader035.fdocuments.net/reader035/viewer/2022062621/551d9d80497959293b8b8cba/html5/thumbnails/18.jpg)
Arbres dérivés et arbres de dérivation• arbres dérivés:
– le résultat obtenu suite aux opération de substitution et d'adjonction, sur les arbres associés aux unités lexicales de la phrase d'entrée
• arbres de dérivation– les noeuds étiquetés avec le nom de l'arbre et l'ancre
(le lemme) – les liens – opérations d'adjonction ou de substitution
• arbre de dépendances– on supprime les noms des arbres dans l'arbre de
dérivation
![Page 19: Ressources électroniques pour lanalyse syntaxique Amalia Todirascu todiras@unistra.fr.](https://reader035.fdocuments.net/reader035/viewer/2022062621/551d9d80497959293b8b8cba/html5/thumbnails/19.jpg)
Ressources
• XTAG (Doran et al, 1994)– grammaire de grande couverture– étiqueteur, analyseur morphologique,
analyseur syntaxique– http://www.cis.upenn.edu/~xtag/
• FTAG (Abeillé, 2002)– grammaire de grande couverture pour le
français
![Page 20: Ressources électroniques pour lanalyse syntaxique Amalia Todirascu todiras@unistra.fr.](https://reader035.fdocuments.net/reader035/viewer/2022062621/551d9d80497959293b8b8cba/html5/thumbnails/20.jpg)
L'analyseur syntaxique LTAG
• développé par Langue et Dialogue, LORIA, INRIA-Lorraine– http://www.loria.fr/~azim/LLP2/help/fr/index.html
• utilise un lexique et une grammaire d'arbres adjoints (Joshi 1995)– chaque mot est associé à une famille d'arbres – un arbre décrit le comportement syntaxique de
chaque mot– grammaire d'arbres adjoints lexicalisée (LTAG)
(Abeillé et al, 2001)– possible extensions pour les structures de traits
![Page 21: Ressources électroniques pour lanalyse syntaxique Amalia Todirascu todiras@unistra.fr.](https://reader035.fdocuments.net/reader035/viewer/2022062621/551d9d80497959293b8b8cba/html5/thumbnails/21.jpg)
L'analyseur syntaxique LTAG (II)
• Combiner les arbres associés aux mots de la phrase – opération de substitution: structure prédicat-
argument– opération d'adjonction: les modifieurs
• coût important d'adaptation des ressources aux domaines nouveaux
![Page 22: Ressources électroniques pour lanalyse syntaxique Amalia Todirascu todiras@unistra.fr.](https://reader035.fdocuments.net/reader035/viewer/2022062621/551d9d80497959293b8b8cba/html5/thumbnails/22.jpg)
Jean dort énormément
Jean
dormir
S
VN
énormément
N
Np
Lexique
Arbres
N
Jean
dort
S
VNS
VN
Jean dort
substitution
adjonctionV
Adv V*
V
AdvV*
énormément
Adv
S
VN
Jean dort énormément
![Page 23: Ressources électroniques pour lanalyse syntaxique Amalia Todirascu todiras@unistra.fr.](https://reader035.fdocuments.net/reader035/viewer/2022062621/551d9d80497959293b8b8cba/html5/thumbnails/23.jpg)
Ressources
• une DTD qui décrit les familles d'arbres, de lemmes et d'unités lexicales
• un arbre: – au moins un noeud ancre (attribut type)– un noeud tête (l'élément central qui porte les
propriétés du constituant)– des noeuds de type substitution (subst) ou adjonction
(foot)
• lien avec le lemme: lexicalisation• unités lexicales: morphoLib
![Page 24: Ressources électroniques pour lanalyse syntaxique Amalia Todirascu todiras@unistra.fr.](https://reader035.fdocuments.net/reader035/viewer/2022062621/551d9d80497959293b8b8cba/html5/thumbnails/24.jpg)
Exemple d'arbre
<tree id="prep_mod_temp">
<node cat="VP">
<node cat="VP" type="foot"/>
<node cat="PP">
<node cat="Prep" name="_head" type="anchor">
</node>
<node cat="N" type="subst">
</node>
</node>
</node>
</tree>
![Page 25: Ressources électroniques pour lanalyse syntaxique Amalia Todirascu todiras@unistra.fr.](https://reader035.fdocuments.net/reader035/viewer/2022062621/551d9d80497959293b8b8cba/html5/thumbnails/25.jpg)
Exemples de ancrage
<lexicalization><family>
<tree id="for_n_adj"/></family>
<anchor noderef="_head">
<lemmaref cat="Prep" name="FOR"/>
</anchor>
</lexicalization>
![Page 26: Ressources électroniques pour lanalyse syntaxique Amalia Todirascu todiras@unistra.fr.](https://reader035.fdocuments.net/reader035/viewer/2022062621/551d9d80497959293b8b8cba/html5/thumbnails/26.jpg)
Exemple d'entrée
<morph lex="for">
<fs>
<f name="cat">
<sym value="prep"/>
</f>
</fs>
<lemmaref cat="Prep" name="FOR"/>
</morph>
![Page 27: Ressources électroniques pour lanalyse syntaxique Amalia Todirascu todiras@unistra.fr.](https://reader035.fdocuments.net/reader035/viewer/2022062621/551d9d80497959293b8b8cba/html5/thumbnails/27.jpg)
Autres outils
• French MetaGrammar parser http://alpage.inria.fr/alpi.fr.html
• autres parseurs– http://alpage.inria.fr/software.fr.html
• XTAG parser (Bangalore, 1997) utilisant des informations statistiques pour réduire le nombre d'arbres
![Page 28: Ressources électroniques pour lanalyse syntaxique Amalia Todirascu todiras@unistra.fr.](https://reader035.fdocuments.net/reader035/viewer/2022062621/551d9d80497959293b8b8cba/html5/thumbnails/28.jpg)
Avantages et Limites
• avantages– modèle opérationnel– adaptable pour l'analyse partielle– motivation linguistique
• limites– coût important pour créer les ressources– nécessite une sélection préalable des arbres
![Page 29: Ressources électroniques pour lanalyse syntaxique Amalia Todirascu todiras@unistra.fr.](https://reader035.fdocuments.net/reader035/viewer/2022062621/551d9d80497959293b8b8cba/html5/thumbnails/29.jpg)
Réferences• Abeillé, A., L. Clément, and F. Toussenel. 2003.
`Building a treebank for French', in A. Abeillé (ed) Treebanks , Kluwer, Dordrecht
• Abeillé, A., Schabes, Y., Joshi, A. 1990. Using Lexicalized Tags for Machine Translation. COLING 1990: 1-6
• Abeillé, A. 2002. Une grammaire électronique du français, CNRS Editions, Paris.
• Doran et al 1994. XTAG System – A Wide Coverage Grammar for English. In Proceedings of COLING'94.
![Page 30: Ressources électroniques pour lanalyse syntaxique Amalia Todirascu todiras@unistra.fr.](https://reader035.fdocuments.net/reader035/viewer/2022062621/551d9d80497959293b8b8cba/html5/thumbnails/30.jpg)
Réferences (II)
• Kaplan, R., Bresnan, J. 1983. Lexical Functional Grammar: A Formal System for Grammatical Representation. In J.Bresnan (ed.) The Mental Representation of Grammatical Relations. MIT Press, Cambridge, Massachusetts
• Joshi, A. 1995. Introduction to Tree Adjoining Grammars. In Computational Intelligence
• Joshi, A., Levy, L., Takahashi, M. 1975. Tree Adjunct Grammars. J. Comput. Syst. Sci. 10(1): 136-163
![Page 31: Ressources électroniques pour lanalyse syntaxique Amalia Todirascu todiras@unistra.fr.](https://reader035.fdocuments.net/reader035/viewer/2022062621/551d9d80497959293b8b8cba/html5/thumbnails/31.jpg)
Sujet
• Réalisez un dossier de 6-8 pages qui présente un outil d'analyse automatique (étiqueteur, analyseur syntaxique) ou une ressources (lexique, grammaire), avec les avantages et les inconvenients de chaque modèle.