Developing a core Interaction Grammar for French with XMG · adj adjectif adv adverbe aux verbe...

35
 Developing a core Interaction Grammar for French with XMG Guy Perrier LORIA, Nancy-université

Transcript of Developing a core Interaction Grammar for French with XMG · adj adjectif adv adverbe aux verbe...

  •    

    Developing a core 

    Interaction Grammar 

    for French with XMG

    Guy PerrierLORIA, Nancyuniversité

  •    

    1  Interaction Grammars

    • The starting idea is the metaphor of the chemical molecule (Tesnière 

    1934).

    • Categorial Grammars integrated this idea as a principle of syntactic 

    composition. 

    • Interaction Grammars  use the same idea with the notion of polarity. 

  •    

    1  Interaction Grammars

    • Syntactic trees are decorated with polarized features  which express their 

    saturation state and their ability to interact.

    o Positive features express available resources. 

    o Negative features express expected resources.

    o Neutral features express properties that do not behave as resources.

    o Virtual features need to combine with positive, negative or neutral features to be 

    realized.

  •    

    1  Interaction Grammars

    • Unlike Categorial Grammars, Interaction Grammars are designed in a model

    theoretic framework and not in a generativeenumerative framework. 

    • A grammar is a system of constraints. Parsing a sentence reduces to a constraint 

    satisfaction problem: we have to find models satisfying a set of constraints which 

    represent information from the grammar and from the input sentence. 

    • Constraints representing the grammar are expressed as polarized tree descriptions 

    and the corresponding models are completely specified syntactic trees, verifying 

    saturation and minimality properties. 

  •    

    1  Interaction Grammars

    • Models can be computed by specifying the initial tree descriptions step by step, iterating 

    on the elementary operation of node merging.

    • Node merging is guided by the need of saturating features: positive features must 

    combine with negative dual features and conversely; virtual features must combine with 

    positive, negative or neutral features having the same name.

    • In a description, node merging entails constraint propagation, so that the process 

    amounts to a sequence of tree superimpositions guided by polarities.

  •    

    1  Interaction Grammars

    • Example of parsing “Jean la voit.(Jean sees her)” : initial description

  •    

    1  Interaction Grammars

    • Example of parsing “Jean la voit.” : building the model step by step.

  •    

    1  Interaction Grammars

    • Example of parsing “Jean la voit.” : building the model step by step.

  •    

    1  Interaction Grammars

    • Example of parsing “Jean la voit.”: building  the model step by step.

  •    

    1  Interaction Grammars

    • Example of parsing “Jean la voit.”: the final model

  •    

    1  Interaction Grammars

    • Our aim is to develop realistic models of natural languages.

    • ⇒ close relationship between development of the theory and experimentation.

    • A parser based on Interaction Grammars was built in the Calligramme team: 

    LEOPAR, freely downloadable at URL  http://gforge.inria.fr/projects/leopar/

    • Currently, LEOPAR works with a relatively large French grammar. 

    http://gforge.inria.fr/projects/leopar/http://gforge.inria.fr/projects/leopar/http://gforge.inria.fr/projects/leopar/http://gforge.inria.fr/projects/leopar/http://gforge.inria.fr/projects/leopar/http://gforge.inria.fr/projects/leopar/

  •    

    2  The grammar construction method

    • Two principles guide the construction of the French grammar: minimize human 

    cost and maximize reusability. 

    • We build a syntactic lexicon which is totally independent of the linguistic 

    formalism. The link lexicongrammar is performed by interfaces in the form of 

    feature structures. 

    • The grammar is divided into a source grammar and an object grammar: the 

    source grammar is written in a high level language in the form of a hierarchy of 

    modules. Then, it is compiled into the object grammar, which is directly usable in 

    NLP systems.

  •    

    2  The grammar construction method

    • We used XMG to build our grammar. 

    • We only use  two dimensions in order to define our classes: the syntactic 

    dimension and the interface dimension, which is only used to link the 

    grammar with the lexicon.

    • To combine classes by conjunction, we force some nodes to merge by identifying 

    their names explicitly.

    • To combine classes by disjunction, we use the possibility to access their export 

    record in order to identify some nodes.

    • Each class is documented with a set of examples.

  •    

    3  The architecture of the grammar

    3.1 The modular organisation of the grammar

    • Currently, the grammar is constituted of 448 classes structured in a hierarchy by 

    the operations of conjunction and disjunction. 

    • Classes are put together in families.

    • The 121 terminal classes are compiled by XMG into 2059 tree descriptions, 

    which constitute the object grammar used by the LEOPAR parser.

  •    

    3  The architecture of the grammar

    3.1 The modular organisation of the grammar

  •    

    3  The architecture of the grammar

    4.2 The link with a lexicon totally independent of the formalism

    • Interaction Grammars, in their current implementation, are completely 

    lexicalized: each elementary description of the grammar has a unique 

    anchor node which is devoted to be associated with a word of the language. 

    • Each elementary tree description is associated with an interface,interface, which 

    describes the syntactic frames of the words able to anchor the description. This 

    interface is neutral with respect to the formalism. 

  •    

    3  The architecture of the grammar

    • Lexical entries have the form of feature structures and the format of these 

    feature structures is the same as the one of the tree description interfaces.

    • The link tree descriptions  lexicon is performed by unificationunification between their 

    interfaces and the compatible entries of the lexicon. 

    • A  coindexation  mechanism  between  some  feature  values  of  the  tree 

    descriptions  and  feature  values  of  the  corresponding  interfaces  allows 

    parametrizationparametrization of some features. 

  •    

    3  The architecture of the grammar

    • Example:  linking a tree description with a lexical entry

    Lexical entry for the transitive verb “voit” 

    Tree description associated with a finite 

    transitive verb in its canonical construction. 

  •    

    3  The architecture of the grammar

    • Example: linking a tree description with a lexical entry

    Tree description linked with the verb “voit”

  •    

    4  Evaluation on the TSNLP test suite

    • Currently, the grammar accepts 88% of the 1690 positive TSNLP sentences  and rejects 

    85%  of  the  1935  negative  TSNLP  sentences.  The  evaluation  was  performed  with  the 

    LEOPAR parser.

    • The  grammar  also  covers  phenomena  that  are  ignored  by  the  TSNLP  (complex 

    sentences for instance). 

    • 15% of  the negative sentences are wrongly parsed because neither phonological  rules 

    nor semantics are integrated in the grammar. 

  •    

    4  Evaluation on the TSNLP test suite

    • 12% of the positive sentences are not parsed successfully for the following reasons: 

    Sentences  from  the  spoken  language  (no  inversion  of  the  subject  clitic  in 

    interrogative propositions, incomplete negations…),

    Frozen  phrases  (« A  quoi  bon  ? »,  « Quoi  de  neuf  ? »,  « mettre  ordre »,            « avoir lieu », « en mon       âme et conscience »  …),

    Grammatical  phenomena  which  are  not  yet  taken  into  account  (causatives, 

    superlatives…),

  •    

    5  Short term prospects

    • Improve  the feature systemthe feature system on two points: dependencies between features 

    and sets of features sharing the same content. 

    • To extend the coverage of linguistic phenomena. 

    • To confront the grammar with real corpora.

  •    

    3  Pouvoir d’expression des grammaires d’interaction

    3.1 Dépendances non bornées et relations de domination sousspécifiées

    • Exemples :

    • Jean [à qui] Pierre a présenté Marie   est ingénieur. 

    • Jean [à la femme de qui] Pierre a présenté Marie  est ingénieur. 

    • Jean [à la femme de qui] Pierre sait qu'on a présenté Marie  est ingénieur. 

    • * Jean [dans l'entreprise de qui]  Marie qui travaille  le connaît est malade.

    • * Jean [dans l'entreprise qui appartient à qui]  Marie travaille  est malade

  •    

    3  Pouvoir d’expression des grammaires d’interaction

    • Description d’arbre associée au pronom relatif « qui » utilisé dans un complément indirect :   

  •    

    3  Pouvoir d’expression des grammaires d’interaction

    3.2 Utilisation des polarités pour modéliser la négation

    • Exemples :

    • Jean  ne parle à  aucun collègue. 

    • Jean ne parle à la femme d'aucun collègue. 

    • Aucun collègue de Jean ne parle à sa femme. 

  •    

    3  Pouvoir d’expression des grammaires d’interaction

    • Descriptions d’arbre associées à la particule « ne » et au déterminant « aucun » :       

  •    

    3  Pouvoir d’expression des grammaires d’interaction

    3.3 L’adjonction de modificateurs à l’aide de polarités virtuelles

    • Exemples :

    •  Le soir, Jean va rendre visite à Marie. 

    • Jean, le soir, va rendre visite à Marie.

    • Jean va rendre visite le soir à Marie.

    • Jean va rendre visite à Marie le soir.

  •    

    3  Pouvoir d’expression des grammaires d’interaction

    • Description d’arbre associée à l’expression adverbiale « le soir » :   

  •    

    3  La syntaxe des descriptions d’arbres polarisés

    • Une description est un ensemble fini de nœuds structurés par deux types de relation: dominationdomination 

    et précédenceprécédence.

    • Relations de dominationRelations de domination : 

    A → B signifie que A est le père de B.

    A → * B signifie que A domine largement B (clôture réflexive et transitive de la précédente relation).

    A → * [t1=v1 , …, tn=vn] B  signifie en plus que tout nœud dominé par A et dominant B (au sens large)  doit être 

    étiqueté par une structure de traits subsumée par la contrainte [t1=v1 , …, tn=vn].

    • Relations de précédenceRelations de précédence :

    A >> B signifie que A précéde immédiatement B (relation restreinte à des nœuds frères).

    A >> * B signifie que A précède  B (clôture  transitive de la précédente relation) .

  •    

    3  La syntaxe des descriptions d’arbres

    • Les nœudsnœuds sont typéstypés : 

    EmptyEmpty  signifie que le nœud a une forme phonologique vide.

    AnchorAnchor représente un nœud ancrant un mot de la langue. 

    ClosedClosed signifie que l’ensemble des fils du nœud est clos.

    Les autres nœuds sont les nœuds ordinaires qui ne sont pas marqués de façon 

    particulière.

  •    

    3  La syntaxe des descriptions d’arbres

    • Les traitstraits étiquetant les nœuds sont polariséspolarisés :

    Un trait positiftrait positif  t → v  représente une ressource linguistique disponible.

    Un trait négatiftrait négatif t → v  représente une ressource linguistique attendue.

    Un trait neutretrait neutre t = v représente une propriété linguistique ne se présentant pas 

    comme une ressource consommable.

    Un trait saturétrait saturé t ←→ v représente une ressource linguistique saturée.

    • Les valeurs de traits sont des atomes ou des disjonctionsdisjonctions d’atomes et elles peuvent 

    être partagéespartagées par un mécanisme de coindexation.

  •    

    4  Les traits morphologiques et syntaxiques

    Traits des descriptions d'arbresaux

    avoir verbe composé avec l'auxiliaire avoir

    cop

    etre verbe composé avec l'auxiliaire êtrevoid expression simple

    break indique une pause à la fin de l'expression marquée par une virgulefalse absence de pausetrue présence d'une pause

    cat catégorie syntaxique de l'expressionadj adjectifadv adverbeaux verbe auxiliaireclit pronom clitiquecoord conjonction de coordination

    cpl

    det déterminantn nom communnp syntagme nominalpp syntagme prépositionnelpro pronompunct signe de ponctuation

    indique si une expression prédicative est effectivement composée à l'aide d'un auxiliaire de temps ou d'une copule

    L'ingénieur a accepté  l'invitation.expression prédicative composée avec une copule

    L'entreprise est grande.

    L'ingénieur est sorti.L'ingénieur sort.

    Il a plu le soir. Le soir, il a plu.

    complémenteur (qui introduit une complétive ou une infinitive)

  •    

    4  Les traits morphologiques et syntaxiques

    Traits des descriptions d'arbresaux

    avoir verbe composé avec l'auxiliaire avoir

    cop

    être verbe composé avec l'auxiliaire êtrevoid expression simple

    break indique une pause à la fin de l'expression marquée par une virgulefalse absence de pausetrue présence d'une pause

    cat catégorie syntaxique de l'expressionadj adjectifadv adverbeaux verbe auxiliaireclit pronom clitiquecoord conjonction de coordination

    cpl

    det déterminantn nom communnp syntagme nominalpp syntagme prépositionnelpro pronompunct signe de ponctuationprep prépositions proposition finie ou infinitivev verbe

    cpl complémenteur introduisant une complétive ou une infinitive

    indique si une expression prédicative est effectivement composée à l'aide d'un auxiliaire de temps ou d'une copule

    L'ingénieur a accepté  l'invitation.expression prédicative composée avec une copule

    L'entreprise est grande.

    L'ingénieur est sorti.L'ingénieur sort.

    Il a plu le soir. Le soir, il a plu.

    complémenteur (qui introduit une complétive ou une infinitive)

  •    

    4  Les traits morphologiques et syntaxiques

    Traits des descriptions d'arbresaux

    avoir verbe composé avec l'auxiliaire avoir

    cop

    être verbe composé avec l'auxiliaire êtrevoid expression simple

    break indique une pause à la fin de l'expression marquée par une virgulefalse absence de pausetrue présence d'une pause

    cat catégorie syntaxique de l'expressionadj adjectifadv adverbeaux verbe auxiliaireclit pronom clitiquecoord conjonction de coordination

    cpl

    det déterminantn nom communnp syntagme nominalpp syntagme prépositionnel

    indique si une expression prédicative est effectivement composée à l'aide d'un auxiliaire de temps ou d'une copule

    L'ingénieur a accepté  l'invitation.expression prédicative composée avec une copule

    L'entreprise est grande.

    L'ingénieur est sorti.L'ingénieur sort.

    Il a plu le soir. Le soir, il a plu.

    complémenteur (qui introduit une complétive ou une infinitive)

  •    

    8  L’utilisation par l’analyseur syntaxique LEOPAR

    • L’analyse  syntaxique  est  précédée  d’une  phase  de  filtrage  des  entrées  lexicales  sélectionnées   

    fondée sur les polarités polarités et utilisant des automatesautomates.

    • Le principe du filtrage est un principe de  neutralité globaleneutralité globale  qui  ignore  l’ordre des mots mais on peut utiliser  les automates pour  développer  des heuristiques de  filtrage utilisant  des propriétés de 

    localité.

    • La stratégie initialement implémentée est une stratégie incrémentaleincrémentale qui utilise une borne sur le borne sur le 

    nombre  de  polarités  activesnombre  de  polarités  actives  dans  la  description  en  cours  de  construction  (stratégie  non complète et non robuste).

    • Pour  palllier  les  faiblesses  de  cette  stratégie,  sont  en  cours  d’implémentation  une  stratégie stratégie 

    ascendanteascendante du type CKY et une stratégie descendantestratégie descendante du type Earley.