Developing a core Interaction Grammar for French with XMG · adj adjectif adv adverbe aux verbe...
Transcript of Developing a core Interaction Grammar for French with XMG · adj adjectif adv adverbe aux verbe...
-
Developing a core
Interaction Grammar
for French with XMG
Guy PerrierLORIA, Nancyuniversité
-
1 Interaction Grammars
• The starting idea is the metaphor of the chemical molecule (Tesnière
1934).
• Categorial Grammars integrated this idea as a principle of syntactic
composition.
• Interaction Grammars use the same idea with the notion of polarity.
-
1 Interaction Grammars
• Syntactic trees are decorated with polarized features which express their
saturation state and their ability to interact.
o Positive features express available resources.
o Negative features express expected resources.
o Neutral features express properties that do not behave as resources.
o Virtual features need to combine with positive, negative or neutral features to be
realized.
-
1 Interaction Grammars
• Unlike Categorial Grammars, Interaction Grammars are designed in a model
theoretic framework and not in a generativeenumerative framework.
• A grammar is a system of constraints. Parsing a sentence reduces to a constraint
satisfaction problem: we have to find models satisfying a set of constraints which
represent information from the grammar and from the input sentence.
• Constraints representing the grammar are expressed as polarized tree descriptions
and the corresponding models are completely specified syntactic trees, verifying
saturation and minimality properties.
-
1 Interaction Grammars
• Models can be computed by specifying the initial tree descriptions step by step, iterating
on the elementary operation of node merging.
• Node merging is guided by the need of saturating features: positive features must
combine with negative dual features and conversely; virtual features must combine with
positive, negative or neutral features having the same name.
• In a description, node merging entails constraint propagation, so that the process
amounts to a sequence of tree superimpositions guided by polarities.
-
1 Interaction Grammars
• Example of parsing “Jean la voit.(Jean sees her)” : initial description
-
1 Interaction Grammars
• Example of parsing “Jean la voit.” : building the model step by step.
-
1 Interaction Grammars
• Example of parsing “Jean la voit.” : building the model step by step.
-
1 Interaction Grammars
• Example of parsing “Jean la voit.”: building the model step by step.
-
1 Interaction Grammars
• Example of parsing “Jean la voit.”: the final model
-
1 Interaction Grammars
• Our aim is to develop realistic models of natural languages.
• ⇒ close relationship between development of the theory and experimentation.
• A parser based on Interaction Grammars was built in the Calligramme team:
LEOPAR, freely downloadable at URL http://gforge.inria.fr/projects/leopar/
• Currently, LEOPAR works with a relatively large French grammar.
http://gforge.inria.fr/projects/leopar/http://gforge.inria.fr/projects/leopar/http://gforge.inria.fr/projects/leopar/http://gforge.inria.fr/projects/leopar/http://gforge.inria.fr/projects/leopar/http://gforge.inria.fr/projects/leopar/
-
2 The grammar construction method
• Two principles guide the construction of the French grammar: minimize human
cost and maximize reusability.
• We build a syntactic lexicon which is totally independent of the linguistic
formalism. The link lexicongrammar is performed by interfaces in the form of
feature structures.
• The grammar is divided into a source grammar and an object grammar: the
source grammar is written in a high level language in the form of a hierarchy of
modules. Then, it is compiled into the object grammar, which is directly usable in
NLP systems.
-
2 The grammar construction method
• We used XMG to build our grammar.
• We only use two dimensions in order to define our classes: the syntactic
dimension and the interface dimension, which is only used to link the
grammar with the lexicon.
• To combine classes by conjunction, we force some nodes to merge by identifying
their names explicitly.
• To combine classes by disjunction, we use the possibility to access their export
record in order to identify some nodes.
• Each class is documented with a set of examples.
-
3 The architecture of the grammar
3.1 The modular organisation of the grammar
• Currently, the grammar is constituted of 448 classes structured in a hierarchy by
the operations of conjunction and disjunction.
• Classes are put together in families.
• The 121 terminal classes are compiled by XMG into 2059 tree descriptions,
which constitute the object grammar used by the LEOPAR parser.
-
3 The architecture of the grammar
3.1 The modular organisation of the grammar
-
3 The architecture of the grammar
4.2 The link with a lexicon totally independent of the formalism
• Interaction Grammars, in their current implementation, are completely
lexicalized: each elementary description of the grammar has a unique
anchor node which is devoted to be associated with a word of the language.
• Each elementary tree description is associated with an interface,interface, which
describes the syntactic frames of the words able to anchor the description. This
interface is neutral with respect to the formalism.
-
3 The architecture of the grammar
• Lexical entries have the form of feature structures and the format of these
feature structures is the same as the one of the tree description interfaces.
• The link tree descriptions lexicon is performed by unificationunification between their
interfaces and the compatible entries of the lexicon.
• A coindexation mechanism between some feature values of the tree
descriptions and feature values of the corresponding interfaces allows
parametrizationparametrization of some features.
-
3 The architecture of the grammar
• Example: linking a tree description with a lexical entry
Lexical entry for the transitive verb “voit”
Tree description associated with a finite
transitive verb in its canonical construction.
-
3 The architecture of the grammar
• Example: linking a tree description with a lexical entry
Tree description linked with the verb “voit”
-
4 Evaluation on the TSNLP test suite
• Currently, the grammar accepts 88% of the 1690 positive TSNLP sentences and rejects
85% of the 1935 negative TSNLP sentences. The evaluation was performed with the
LEOPAR parser.
• The grammar also covers phenomena that are ignored by the TSNLP (complex
sentences for instance).
• 15% of the negative sentences are wrongly parsed because neither phonological rules
nor semantics are integrated in the grammar.
-
4 Evaluation on the TSNLP test suite
• 12% of the positive sentences are not parsed successfully for the following reasons:
Sentences from the spoken language (no inversion of the subject clitic in
interrogative propositions, incomplete negations…),
Frozen phrases (« A quoi bon ? », « Quoi de neuf ? », « mettre ordre », « avoir lieu », « en mon âme et conscience » …),
Grammatical phenomena which are not yet taken into account (causatives,
superlatives…),
-
5 Short term prospects
• Improve the feature systemthe feature system on two points: dependencies between features
and sets of features sharing the same content.
• To extend the coverage of linguistic phenomena.
• To confront the grammar with real corpora.
-
3 Pouvoir d’expression des grammaires d’interaction
3.1 Dépendances non bornées et relations de domination sousspécifiées
• Exemples :
• Jean [à qui] Pierre a présenté Marie est ingénieur.
• Jean [à la femme de qui] Pierre a présenté Marie est ingénieur.
• Jean [à la femme de qui] Pierre sait qu'on a présenté Marie est ingénieur.
• * Jean [dans l'entreprise de qui] Marie qui travaille le connaît est malade.
• * Jean [dans l'entreprise qui appartient à qui] Marie travaille est malade
-
3 Pouvoir d’expression des grammaires d’interaction
• Description d’arbre associée au pronom relatif « qui » utilisé dans un complément indirect :
-
3 Pouvoir d’expression des grammaires d’interaction
3.2 Utilisation des polarités pour modéliser la négation
• Exemples :
• Jean ne parle à aucun collègue.
• Jean ne parle à la femme d'aucun collègue.
• Aucun collègue de Jean ne parle à sa femme.
-
3 Pouvoir d’expression des grammaires d’interaction
• Descriptions d’arbre associées à la particule « ne » et au déterminant « aucun » :
-
3 Pouvoir d’expression des grammaires d’interaction
3.3 L’adjonction de modificateurs à l’aide de polarités virtuelles
• Exemples :
• Le soir, Jean va rendre visite à Marie.
• Jean, le soir, va rendre visite à Marie.
• Jean va rendre visite le soir à Marie.
• Jean va rendre visite à Marie le soir.
-
3 Pouvoir d’expression des grammaires d’interaction
• Description d’arbre associée à l’expression adverbiale « le soir » :
-
3 La syntaxe des descriptions d’arbres polarisés
• Une description est un ensemble fini de nœuds structurés par deux types de relation: dominationdomination
et précédenceprécédence.
• Relations de dominationRelations de domination :
A → B signifie que A est le père de B.
A → * B signifie que A domine largement B (clôture réflexive et transitive de la précédente relation).
A → * [t1=v1 , …, tn=vn] B signifie en plus que tout nœud dominé par A et dominant B (au sens large) doit être
étiqueté par une structure de traits subsumée par la contrainte [t1=v1 , …, tn=vn].
• Relations de précédenceRelations de précédence :
A >> B signifie que A précéde immédiatement B (relation restreinte à des nœuds frères).
A >> * B signifie que A précède B (clôture transitive de la précédente relation) .
-
3 La syntaxe des descriptions d’arbres
• Les nœudsnœuds sont typéstypés :
EmptyEmpty signifie que le nœud a une forme phonologique vide.
AnchorAnchor représente un nœud ancrant un mot de la langue.
ClosedClosed signifie que l’ensemble des fils du nœud est clos.
Les autres nœuds sont les nœuds ordinaires qui ne sont pas marqués de façon
particulière.
-
3 La syntaxe des descriptions d’arbres
• Les traitstraits étiquetant les nœuds sont polariséspolarisés :
Un trait positiftrait positif t → v représente une ressource linguistique disponible.
Un trait négatiftrait négatif t → v représente une ressource linguistique attendue.
Un trait neutretrait neutre t = v représente une propriété linguistique ne se présentant pas
comme une ressource consommable.
Un trait saturétrait saturé t ←→ v représente une ressource linguistique saturée.
• Les valeurs de traits sont des atomes ou des disjonctionsdisjonctions d’atomes et elles peuvent
être partagéespartagées par un mécanisme de coindexation.
-
4 Les traits morphologiques et syntaxiques
Traits des descriptions d'arbresaux
avoir verbe composé avec l'auxiliaire avoir
cop
etre verbe composé avec l'auxiliaire êtrevoid expression simple
break indique une pause à la fin de l'expression marquée par une virgulefalse absence de pausetrue présence d'une pause
cat catégorie syntaxique de l'expressionadj adjectifadv adverbeaux verbe auxiliaireclit pronom clitiquecoord conjonction de coordination
cpl
det déterminantn nom communnp syntagme nominalpp syntagme prépositionnelpro pronompunct signe de ponctuation
indique si une expression prédicative est effectivement composée à l'aide d'un auxiliaire de temps ou d'une copule
L'ingénieur a accepté l'invitation.expression prédicative composée avec une copule
L'entreprise est grande.
L'ingénieur est sorti.L'ingénieur sort.
Il a plu le soir. Le soir, il a plu.
complémenteur (qui introduit une complétive ou une infinitive)
-
4 Les traits morphologiques et syntaxiques
Traits des descriptions d'arbresaux
avoir verbe composé avec l'auxiliaire avoir
cop
être verbe composé avec l'auxiliaire êtrevoid expression simple
break indique une pause à la fin de l'expression marquée par une virgulefalse absence de pausetrue présence d'une pause
cat catégorie syntaxique de l'expressionadj adjectifadv adverbeaux verbe auxiliaireclit pronom clitiquecoord conjonction de coordination
cpl
det déterminantn nom communnp syntagme nominalpp syntagme prépositionnelpro pronompunct signe de ponctuationprep prépositions proposition finie ou infinitivev verbe
cpl complémenteur introduisant une complétive ou une infinitive
indique si une expression prédicative est effectivement composée à l'aide d'un auxiliaire de temps ou d'une copule
L'ingénieur a accepté l'invitation.expression prédicative composée avec une copule
L'entreprise est grande.
L'ingénieur est sorti.L'ingénieur sort.
Il a plu le soir. Le soir, il a plu.
complémenteur (qui introduit une complétive ou une infinitive)
-
4 Les traits morphologiques et syntaxiques
Traits des descriptions d'arbresaux
avoir verbe composé avec l'auxiliaire avoir
cop
être verbe composé avec l'auxiliaire êtrevoid expression simple
break indique une pause à la fin de l'expression marquée par une virgulefalse absence de pausetrue présence d'une pause
cat catégorie syntaxique de l'expressionadj adjectifadv adverbeaux verbe auxiliaireclit pronom clitiquecoord conjonction de coordination
cpl
det déterminantn nom communnp syntagme nominalpp syntagme prépositionnel
indique si une expression prédicative est effectivement composée à l'aide d'un auxiliaire de temps ou d'une copule
L'ingénieur a accepté l'invitation.expression prédicative composée avec une copule
L'entreprise est grande.
L'ingénieur est sorti.L'ingénieur sort.
Il a plu le soir. Le soir, il a plu.
complémenteur (qui introduit une complétive ou une infinitive)
-
8 L’utilisation par l’analyseur syntaxique LEOPAR
• L’analyse syntaxique est précédée d’une phase de filtrage des entrées lexicales sélectionnées
fondée sur les polarités polarités et utilisant des automatesautomates.
• Le principe du filtrage est un principe de neutralité globaleneutralité globale qui ignore l’ordre des mots mais on peut utiliser les automates pour développer des heuristiques de filtrage utilisant des propriétés de
localité.
• La stratégie initialement implémentée est une stratégie incrémentaleincrémentale qui utilise une borne sur le borne sur le
nombre de polarités activesnombre de polarités actives dans la description en cours de construction (stratégie non complète et non robuste).
• Pour palllier les faiblesses de cette stratégie, sont en cours d’implémentation une stratégie stratégie
ascendanteascendante du type CKY et une stratégie descendantestratégie descendante du type Earley.