1 Découvrir des sens de mots à partir dun réseau de cooccurrences lexicales Olivier Ferret...
-
Upload
roch-mille -
Category
Documents
-
view
107 -
download
5
Transcript of 1 Découvrir des sens de mots à partir dun réseau de cooccurrences lexicales Olivier Ferret...
1
Découvrir des sens de mots à partir d’un réseau de cooccurrences lexicales
Olivier Ferret
Laboratoire d’Ingénierie de la Connaissance Multimédia Multilingue (LIC2M)
CEA – LIST
Fontenay-aux-Roses
2
Problématique
Pré-requis de la désambiguïsation sémantique disposer d’un inventaire des sens des mots
Problèmes posés par les inventaires utilisables en TAL réseaux lexico-sémantiques de type WordNet nature des sens
• distinctions de sens trop fines par rapport à une utilisation en TAL– 41 sens pour le verbe run dans WordNet
• incomplétude des sens– les domaines de spécialité introduisent constamment des sens nouveaux
domaine nucléaire : piscine, crayon
caractérisation des sens• principalement au travers de relations de type hyperonymie, synonymie
• absence de caractérisation des contextes d’occurrence, ce qui est le plus utile pour la désambiguïsation sémantique
– piscine (général) : nageur, natation, maître-nageur, …
– piscine (nucléaire) : réacteur, centrale, combustible, radiation, …
3
Définir des sens à partir d’un corpus
Une solution possible différencier les sens des mots à partir de leur usage dans un corpus
3 types d’approches Classification non supervisée des mots d’un corpus construction de
classes de synonymes (Pantel & Lin)• chaque mot est caractérisé par ses cooccurrents dans le corpus• 1 sens pour chaque classe d’appartenance d’un mot
Classification non supervisée des occurrences d’un mot (Schütze, Pedersen & Bruce, Purandare)
• chaque occurrence est caractérisée par un ensemble de traits : mots environnants, catégorie des mots environnants, …
Classification non supervisée des cooccurrents d’un mot (Véronis, Dorow & Widdows, Rapp)
• cooccurrents regroupés selon les relations qu’ils entretiennent entre eux
4
Principes du travail présenté
Méthode fondée sur la classification des cooccurrents d’un mot (3ème approche)
Point de départ : réseau de cooccurrences lexicales nœud : mot du corpus arête : relation de cooccurrence dans le corpus entre les 2 mots liés
Pour chaque mot mi dont on veut différencier les sens délimitation du sous-graphe constitué des cooccurrents de mi et de
leurs relations construction d’une matrice de similarité des cooccurrents de mi
application d’une variante de l’algorithme Shared Nearest Neighbors (SNN ; Ertöz, Steinbach & Kumar)
• regroupement des cooccurrents de mi en C classes, C n’étant pas fixé a priori C sens
• élimination des cooccurrents sans relation avec les sens distingués
5
Les réseaux de cooccurrences lexicales
Méthode de construction pré-traitement des textes : sélection des mots pleins comptage des cooccurrences au sein d'une fenêtre glissante accent mis sur les relations sémantiques et pragmatiques
• taille : 20 mots (environ 50 mots avant sélection)• pas d'ordre : m1 - m2 équivalent à m2 - m1• respect des frontières de texte
cohésion entre mots : information mutuelle normalisée filtrage des cooccurrences peu fréquentes
• fréquence 13 ; cohésion 0,13
2 réseaux construits français : 24 mois du journal Le Monde
• 19 000 lemmes et 340 000 cooccurrences anglais : 2 ans du journal Los Angeles Times (TREC)
• 23 500 lemmes et 335 000 cooccurrences taille des corpora ~ 40 millions de mots
6
Exemple : graphe des cooccurrents de organe
7
Matrice de similarité entre cooccurrents
2 types de similarité testés similarité fondée sur une cooccurrence de premier ordre similarité plus large, fondée sur une cooccurrence de premier et de
second ordre
Cooccurrence de 1er ordre similarité entre 2 mots : mesure de la cohésion entre ces 2 mots
dans le réseau
Cooccurrence de 1er et de 2nd ordre 2 mots peuvent être proches sans être directement cooccurrents
dans un texte ; souvent le cas avec les synonymes chaque mot est caractérisé par l’ensemble de ses cooccurrents
• pondération de chaque cooccurrent par sa cohésion avec le mot similarité entre 2 mots = mesure de la similarité entre les 2
ensembles les représentant• utilisation de la mesure cosinus
8
Algorithme de classification : vue d’ensemble
Algorithme Shared Nearest Neighbors classification détection de composantes de forte densité dans un
graphe de similarité matrice de similarité entre cooccurrents graphe de similarité non
orienté• similarité non nulle entre 2 cooccurrents arête du graphe
3 grandes phases éclaircissement et transposition du graphe de similarité
détermination des germes des futurs sens et filtrage des cooccurrents sans relation avec ces sens
construction des sens
9
Algorithme de classification : 1ère phase
Éclaircissement du graphe de similarité élimination des arêtes correspondant aux similarités les moins
significatives • en pratique, conservation pour chaque cooccurrent des arêtes en
direction de ses k plus proches voisins
Transposition du graphe de similarité construction du graphe des plus proches voisins partagés
• 2 cooccurrents y sont liés s’ils sont liés dans le graphe initial
• force du lien : nombre de voisins partagés par les 2 cooccurrents abstraction / aux valeurs absolues de similarité, après élimination
des valeurs les plus faibles
raisonnement en termes de densité de liens
10
Algorithme de classification : 2ème phase
Détermination des germes de sens notion de lien fort : 2 cooccurrents sont fortement liés si leur nombre
de voisins partagés dépasse un seuil calcul pour chaque cooccurrent de son nombre de liens forts germe de sens : cooccurrent dont le nombre de liens forts est
supérieur à un seuil
Filtrage des cooccurrents élimination des cooccurrents dont le nombre de liens forts est
inférieur à un seuil
Seuils adaptés aux valeurs considérées exprimés comme des quantiles
de leur distribution liens forts : distribution du nombre de voisins partagés germes et filtrage : distribution du nombre de liens forts
11
Algorithme de classification : 3ème phase
Rattachement des cooccurrents non filtrés aux germes de sens rattachement au germe le plus proche à condition que leur proximité
(i.e. nombre de voisins partagés) soit supérieure à un seuil
Fusion des sens proches possibilité de rattacher un germe de sens à un autre de la même
façon que pour les autres cooccurrents
Suppression des sens faiblement représentés les sens ne rassemblant que peu de cooccurrents sont éliminés
sens le plus souvent très proches de sens plus importants
Élargissement des sens rattachement de cooccurrents moins proches sur des bases plus
solides• proximité moyenne avec les cooccurrents d’un sens > seuil
12
Un exemple : le mot barrage
1.1 manifestant, forces_de_l’ordre, préfecture, agriculteur, protester, incendier, calme, pierre
1.2 conducteur, routier, véhicule, poids_lourd, camion, permis, trafic, bloquer, voiture, autoroute
1.3 fleuve, lac, rivière, bassin, mètre_cube, crue, amont, pollution, affluent, saumon, poisson
1.4 blessé, casque_bleu, soldat, milicien, tir, milice, convoi, évacuer, croate, milicien, combattant
2.1 eau, mètre, lac, pluie, rivière, bassin, fleuve, site, poisson, affluent, montagne, crue, vallée
2.2 conducteur, trafic, routier, route, camion, chauffeur, voiture, chauffeur_routier, poids_lourd
2.3 casque_bleu, soldat, tir, convoi, milicien, blindé, milice, aéroport, blessé, incident, croate
Cooccurrence de 1er ordre
Cooccurrence de 2nd ordre
1.3 – 2.1 barrage hydraulique1.4 – 2.3 barrage frontière
manifestations à caractèreprofessionnel
1.2 – 2.2 barrage routier (camionneurs)1.1 barrage routier (agriculteurs)
13
D’autres exemples (au 1er ordre)
1 patient, transplantation, greffe, malade, thérapeutique, médical, médecine, greffer, rein
2 procréation, embryon, éthique, humain, relatif, bioéthique, corps_humain, gène, cellule
3 constitutionnel, consultatif, constitution, instituer, exécutif, législatif, siéger, disposition
4 article, hebdomadaire, publication, rédaction, quotidien, journal, éditorial, rédacteur
Organe
1 compatible, sofware, computer, machine, user, desktop, pc, graphics, keyboard, device
2 laboratory, researcher, cell, gene, generic, human, hormone, research, scientist, rat
Mouse
1 ballroom, cocktail, champagne, guest, bash, gala, wedding, birthday, invitation, festivity
2 caterer, uninvited, party-goers, black-tie, hostess, buffet, glitches, napkins, catering
3 candidate, democrat, republican, gubernatorial, presidential, partisan, reapportionment
Party
14
Plus globalement
Réseaux de cooccurrences faiblement représentatifs du sens de plus de la moitié des mots
LM-1 LM-2 LAT-1.no LAT-2.no
nombre de mots 17 261 17 261 6 177 6 177
nb. de mots avec au moins 1 sens
7 673(44,4%)
7 376(42,7%)
2 584 (41.8%)
2 406(39%)
nombre de sens par mot
2,8 2,2 1,9 1,5
nombre de mots par sens
16,1 16,3 20,2 18,9
LM-x : réseau issu du Monde
LAT-x.no : réseau issu du LA Times ; noms uniquement
x = 1 : cooccurrence 1er ordre ; x = 2 : cooccurrence 2nd ordre
15
Évaluation : protocole
Principe général comparaison avec une ressource existante, en l’occurrence
WordNet 1.7.1 but : s’assurer que les sens découverts ne sont pas globalement
aberrants évaluation réalisée pour un ensemble de noms en anglais
(LAT-x.no) non ambigus du point de vue morpho-syntaxique
Protocole proposé par Pantel & Lin appariement d’un sens trouvé pour un mot avec un des synsets de
ce mot dans WordNet• mesure de similarité entre un sens et un synset
• appariement si similarité(sens, synset) > seuil
• accord avec un jugement humain : 88% mesure de précision seulement : proportion de sens s’appariant
avec un synset de WordNet
16
Évaluation : appariement sens - synset
Similarité sens - synset moyenne des similarités entre les N (N=4) mots les plus
représentatifs du sens et le synset
Similarité mot – synset S(m) : ensemble des synsets contenant le mot m similarité(m, synset) = max similarité(synset, s)
Similarité de 2 synsets mesure proposée par Lin, fondée sur la seule hyperonymie
s S(m)
)(log)(log
)(log2),(
2121 sPsP
sPsssim
s : synset subsumant les synsets s1 et s2
P(s) : probabilité du synset s dans un corpus de référence (SemCor)
geological-formation (s)
natural-elevation shore
coast (s2)hill (s1)
17
Évaluation : résultats
Choix des N (N=4) mots les plus représentatifs d’un sens(1) nombre de liens forts dans le graphe des voisins partagés
(2) choix optimal permettant de maximiser la précision de l’appariement sens - synset
LAT-1.no LAT-2.no
(1) nombre de liens forts 19,4 20,8
(2) choix optimal 56,2 63,7
Méthode proposée mots les plus représentatifs d’un sens = liés au contexte d’usage
Pantel & Lin précision : 60,8 mots les plus représentatifs d’un sens = synonymes,
hyperonymes ou hyponymes
18
Utilisation pour la désambiguïsation
Stage de DEA effectué par Dany Sérichard
Désambiguïsation sémantique utilisant les sens de mots découverts comme référence
Variante de la méthode de Lesk simplifiée intersection entre la définition des sens candidats et le contexte de
l’occurrence à désambiguïser définition d’un sens de mot : sous-ensemble des co-occurrents du
mot contexte : fenêtre de X mots pleins centrée sur le mot cible à
désambiguïser• contexte optimal : entre 40 et 60 mots
19
Principes de la désambiguïsation
M1 (p1)
M2 (p2)
M3 (p3)
M4 (p4)
M5 (p5)
M6 (p6)
M7 (p7)
M8 (p8)
M9 (p9)
M3 (p24)
M5 (p25)
M6 (p26)
M20 (p20)
M21 (p21)
M22 (p22)
M23 (p23)
M9 (p34)
M30 (p30)
M31 (p31)
M32 (p32)
M33 (p33)
M10 (p10)
M11 (p11)
M12 (p12)
M13 (p13)
Contexte
Sens 1
Sens 2
Sens 3
Scoresens1 = 0
Scoresens2 =
Scoresens3 = p9*p34
p3*p24 +
p5*p25 +
p6*p26
Sens attribué au contexte
=
Sens pour lequel le
score est le plus grand si > seuil
20
Évaluation : constitution d’une référence
Annotation manuelle de phrases avec les sens de mots découverts phrases issues du journal Le Monde et du corpus JOC (cf.
Romanseval)
3 mots• BarrageBarrage hydraulique, routier, militaire
• LancementLancement bourse, média, engin
• FormationFormation groupe musical, dispositif, acquisition de connaissances,
qualification, groupe politique
pour chaque occurrence, choix d’un seul des sens ou du sens Autre mise à l’écart des occurrences pour lesquelles le degré d’accord
entre les annotateurs est insuffisant
21
Évaluation : mesures d’accord entre annotateurs
Degré d’unanimité proportion des cas où tous les annotateurs sont en accord
Taux d’agrément par paires d’annotateurs n : nombre de paires d’annotateurs
TAp = avec
Taux d’agrément corrigé par rapport au hasard mesure Kappa
n
Rn
ii
1
mot du soccurrenced' nombre
identiques sens dechoix de nombreiR
hasard
hasardp
TA
TATAK
1
22
Évaluation : résultats des mesures d’accord
Le sens majoritaire représente 57 % des instances restantes de Barrage (barrage hydraulique), 51 % de celles de Lancement (Autre), 79 % de celles de Formation (acquisition de connaissances)
UnanimitéUnanimité TATApp KK RépartitionRépartition Nombre d’instancesNombre d’instances
Barrage (LM) 0,63 0,87 0,830,83 39 9 32 24 Avant : 115 – Après : 104104
Lancement (LM) 0,38 0,74 0,660,66 13 22 27 27 Avant : 96 – Après : 8989Formation (LM) 0,23 0,64 0,580,58 6 0 79 1 14 7 Avant : 116 – Après : 107107
Barrage (JOC) 0,94 0,98 0,970,97 49 0 0 2 Avant : 52 – Après : 5151
Lancement (JOC) 0,94 0,97 0,960,96 0 4 7 38 Avant : 50 – Après : 4949
Formation (JOC) 0,04 0,42 0,330,33 0 8 71 2 0 1 Avant :113 – Après : 8282
Un des usages est très
majoritaire dans tous les sous-
corpus issus du JOC
Les taux d’agrément Les taux d’agrément corrigés sont bons pour corrigés sont bons pour
BarrageBarrage (0,90) et (0,90) et LancementLancement (0,81), mauvais (0,81), mauvais
pour pour Formation Formation (0,455)(0,455)
Le nombre d’instances Le nombre d’instances retirées est faible pour retirées est faible pour
BarrageBarrage (7,2 %) et (7,2 %) et LancementLancement (5,5 %), plus (5,5 %), plus
important pour important pour Formation Formation (17,5 %).(17,5 %).
23
Résultats de la désambiguïsation
Vasilescu & Langlais : Lesk simplifié avec WordNet comme référence
Senseval 2 : Lexical sample task
Mesures
base : choix en faveur du sens majoritaire
Barrage Lancement Senseval 2 non
supervisé
Senseval 2 supervisé
Vasilescu Langlais
Véronis Hyperlex
P 0,73 0,78 0,52 0,71 0,62 0,97R 0,73 0,7 0,52 0,71 0,61Rbase 0,57 0,47 0,39 0,59 0,61 0,73
séesdésambiguï soccurrenced' nombre
correctschoix de nombre(P) Précision
serdésambiguï à soccurrenced' nombre
correctschoix de nombre(R) Rappel
24
Pour conclure
Méthode de découverte de sens fondée sur la classification non supervisée des cooccurrents du mot
cible exploitant des relations de cooccurrence de 1er et 2nd ordre entre les
cooccurrents du mot cible mettant l’accent sur la « stabilité » des sens discriminés
Extensions prise en compte de la catégorie morpho-syntaxique des mots rôle des mots composés
Évaluation utilisation de mesures fondées sur des relations sémantiques plus
variées que celles exploitées par Lin (cf. Banerjee & Pedersen) validation dans un cadre applicatif de l’intérêt des sens discriminés,
par ex. pour l’expansion de requêtes