9 octobre 2009ATALA1 Lanalyseur syntaxique Fips Eric Wehrli, Luka Nerima LATL-Département de...
-
Upload
hyacinthe-claude -
Category
Documents
-
view
103 -
download
0
Transcript of 9 octobre 2009ATALA1 Lanalyseur syntaxique Fips Eric Wehrli, Luka Nerima LATL-Département de...
9 octobre 2009 ATALA 1
L’analyseur syntaxique Fips
Eric Wehrli, Luka Nerima
LATL-Département de linguistique
Université de Genève
[email protected], [email protected]
http://www.latl.unige.ch
9 octobre 2009 ATALA 2
LATL
La recherche en TAL au LATL
Développement d’une plateforme multilingue pour le traitement automatique des langues
Analyseurs, étiqueteurs, phonétiseurs, extracteurs terminologiques, générateurs de phrases, etc.
Cœur du système : l’analyseur Fips Analyseur syntaxique « profond », basé sur une interprétation
assez libre de la théorie de la grammaire générative chomskyenne
Quelques propriétés de Fips analyseur ascendant, avec une stratégie d’attachement à
droite traitement parallèle des alternatives recours à des heuristiques pour limiter le nombre
d’alternatives
9 octobre 2009 ATALA 3
LATL
Le modèle de grammaire
Basée sur le modèle chomskyen des principes et paramètres, ainsi qu’en partie sur le modèle minimaliste.
Toutes les structures syntaxiques obéissent au même schéma:
où X (∈ {N, V, A, D, P, Adv,Conj}) est la tête de la projection XP, L et R sont des listes de projections maximales (les sous-constituants gauches et droits du syntagme XP).
Les attachements à gauche et à droite sont décrits dans un (pseudo) formalisme, à la fois relativement intuitif et facile à encoder.
[XP L X R ]
9 octobre 2009 ATALA 4
LATL
Crée une projection syntaxique
soit à partir d’un item lexical:
X --> XP X ∈ {N, V, A, D, P, Adv, Conj} projection étendue (métaprojection):
verbe conjugué -->
pronoms et noms propres --> DP
Le mécanisme de projection
VPT
TP
9 octobre 2009 ATALA 5
LATL
Combinaison (merge)
Combine deux projections adjacentes A et B attache A comme sous-constituant de B
(=attachement à gauche) ; attache B comme sous-constituant d’un nœud actif sur l’arête
droite de A (attachement à droite) :
A
B
A B
9 octobre 2009 ATALA 6
LATL
Procédure d’attachement « coin droit »
TP
VPDP
DP
Jean a lu un
Pile de nœuds actifs :
…poème
NP
9 octobre 2009 ATALA 7
LATL
Exemples de règles d’attachement à gauche
AP + NPa.AgreeWith(b, {number, gender})
a.HasFeature( prenominalAdj)
DP + TPa.AgreeWith(b, {number, person})
a.IsArgumentOf(b, subject)
DP + PPb.HasFeature(postposition)
9 octobre 2009 ATALA 8
LATL
Exemples de règles d’attachement à droite
NP + APa.AgreeWith(b, {number, gender})
~b.HasFeature( prenominalAdj)
VP + DPb.IsArgumentOf(a, {directObject})
PP + DPa.HasFeature(preposition)
a.EmptyRight()
9 octobre 2009 ATALA 9
LATL
Grammaire procédurale
La partie procédurale de la grammaire de Fips comprend :
Un mécanisme de construction de chaînes (mouvement-wh, constructions clitiques dans les langues romanes, etc.)
Un mécanisme de traitement des structures prédicat-arguments (verbes, noms, adjectifs prédicatifs) La structure argumentale est spécifiée dans l’entrée
lexicale (nombre et type des arguments – fonction grammaticale et attributs, par ex. type de la préposition pour un argument de catégorie PP, type de phrase pour un argument S, etc.).
9 octobre 2009 ATALA 10
LATL
Opérations sur la structure argumentale
Certains processus grammaticaux modifient la structure argumentale d’un prédicat :
Le passif
peut être vu comme un processus d’absorption du sujet, soit en syntaxe (anglais, langues romanes, etc.), soit dans la morphologie (hongrois, japonais, latin, etc.).
Constructions causatives
En français, la construction faire + Vinf est analysée comme un processus de modification de la structure argumentale du verbe infinitif par l’adjonction d’un argument supplémentaire (le sujet du verbe « faire »), ce qui provoque le reclassement du sujet du verbe infinitif sous la forme d’un objet direct ou d’un objet indirect.
Paul corrige cette épreuve
Jean a fait corriger cette épreuve à Paul
Jean lui a fait corriger cette épreuve
9 octobre 2009 ATALA 11
LATL
Identification des collocations
Les collocations associent deux unités lexicales qui entretiennent un rapport syntaxique étroit, soit de modification, soit de complémentation.
La procédure de reconnaissance intervient au moment de l’attachement d’un constituant.
Paul est un gros fumeur Paul a battu son record du saut en longueur
Le mécanisme de chaînage permet d’exprimer la relation entre position de « surface » et position « profonde ».
Le record qu’elle a battu datait d’une dizaine d’années Ce record, Jean le considère comme difficile à battre
9 octobre 2009 ATALA 12
LATL
Catalogue des lexiques
lexique monolingue mots mots composés (mots contigus)
lexique des collocations combinaison arbitraire et récurrente de mots, non
nécessairement adjacents, nombreuses configurations syntaxiques
p.e. exercer - profession, république bananière, code de la route
contient aussi les idiomes - avaler la pilule, promettre la lune
9 octobre 2009 ATALA 13
LATL
Schéma conceptuel du lexique monolingue
Motchaîne orthographiquechaîne phonétique
Paradigme flexionnel
Nom Verbe Adj Det Adv Conj Interj
pers.tempsmode
genrenombre
genrenombre
Lexème
Nom Verbe Adj
type Vtraits syntraits sem
type Nomtraits Nom
1 *
traits Adj*
forme de base 1
autre forme
Arg N Arg V
Prep
Arg Adj
0..1 (0)1..4 0..1
fct gramfct thematraits sel
fct gramfct thematraits sel
fct gramfct thematraits sel
Prep
type
Det
type
< est réalisé par
association
généralisation (est un)
composition
« xor »
Variantegraphie alternativetype variante
* varie 1
9 octobre 2009 ATALA 14
LATL
Le lexique des collocations
ensemble d'associations binaires d’items lexicaux
Item lexical
associe ^
2
*
Lexème Collocation
chaîne orthographiquetype (configuration syntaxique)traits de figement
définition récursive de la collocation permet de prendre en compte des collocations > 2 termes p.e. tomber en panne sèche, arme de destruction massive
9 octobre 2009 ATALA 15
LATL
Interface monolingue
9 octobre 2009 ATALA 16
LATL
Interface monolingue
9 octobre 2009 ATALA 17
LATL
Interface monolingue - insertion
9 octobre 2009 ATALA 18
LATL
Interface monolingue - insertion
9 octobre 2009 ATALA 19
LATL
Interface monolingue - insertion
9 octobre 2009 ATALA 20
LATL
Interface monolingue - insertion
9 octobre 2009 ATALA 21
LATL
Interface collocation
pour l'entrée manuelle des collocations outil d'assistance sophistiqué
1) analyse de la collocation entrée (Fips) 2) propose les unités lexicales (base et collocatif) 3) détermine le type de la collocation 4) détermine les traits de la collocation
9 octobre 2009 ATALA 22
LATL
Interface collocation - insertion
9 octobre 2009 ATALA 23
LATL
Lexiques - quelques chiffres
lexèmes fr: 40’163 entrées
mots fr: 237’729 entrées
collocations fr: 14’091 entrées
9 octobre 2009 ATALA 24
LATL
Conclusion
L’expérience accumulée avec les différentes versions de l’analyseur Fips a permis d’affiner (et souvent de simplifier) par étapes la structure et l’implémentation de ce modèle d’analyseur, jusqu’à la version actuelle.
Le double choix d’un modèle linguistique abstrait (théorie chomskyenne) et d’une modélisation basée sur la notion d’objets se révèle judicieux pour la réalisation d’un analyseur multilingue.
L’évaluation d’un analyseur syntaxique est une opération difficile, qui n’a pas encore été entreprise pour l’analyseur Fips. En attendant les résultats de la campagne d’évaluation PASSAGE, nous pouvons faire état des quelques chifffres suivants :
> 80% d’analyses complètes (anglais et français) sur des corpus journalistiques ;
~0,2% de mots inconnus (hors noms propres) ; Temps de traitement : 100-250 mots/seconde.