Un outil d'extraction terminologique endogène et multilingue Jacques Vergne GREYC - Université de...
-
Upload
viviette-thierry -
Category
Documents
-
view
108 -
download
3
Transcript of Un outil d'extraction terminologique endogène et multilingue Jacques Vergne GREYC - Université de...
Un outil d'extraction terminologiqueendogène et multilingue
Jacques VergneGREYC - Université de Caen
http://www.info.unicaen.fr/~jvergne
TALN 2003
atelier : "TALN et multilinguisme"
14/6/2003 © Jacques Vergne Atelier : "TALN et multilinguisme" -2-
• sites de presse --- système ---> revues de presse
• utilisateurs : journalistes, internautes"de quoi et de qui est-il question aujourd'hui dans la
presse de tel espace géographique ou linguistique ?"
• inversion de la problématique des moteurs de recherche
mots-clés (thèmes) ---> documents
espace de recherche ---> thèmes principaux de l'actualité
• les "Unes" des sites de presse ---> hyperliens : URL et code source des "textes" des hyperliens
la Unedu Monde
application cadre (1)
14/6/2003 © Jacques Vergne Atelier : "TALN et multilinguisme" -3-
• "textes" des hyperliens des "Unes" : un choix éditorial des journalistes des sites de presse
• "textes" des hyperliens des "Unes" --extraire--> termes présents sur plusieurs sites
• ---> graphe de termes nœuds = termes pondérés (sites - articles) arcs = relations pondérées entre termes (co-occurrences de 2 termes dans un même texte de lien)
• l'utilisateur navigue dans ce graphe pour accéder à des termes liés et à des articles
la Unedu Monde
application cadre (2)
14/6/2003 © Jacques Vergne Atelier : "TALN et multilinguisme" -4-
interfaceutilisateur
santé
école
été
alcool
suivi
loi
gouvernement
jeunes
milieuscolaire
santédes
jeunes
naviguer dans le graphe des termes
14/6/2003 © Jacques Vergne Atelier : "TALN et multilinguisme" -5-
• corpus des "textes" des hyperliens des "Unes" --extraire--> termes présents sur plusieurs sites
• méthode capable de repérer à la fois :les mots vides rares et les mots pleins très fréquents (tels que guerre ou war )
• pour centrer les termes sur des mots pleins
• dans un corpus multilingue (15 000 à 30 000 mots)
• de langues alphabétiques, non diagnostiquées
• sans analyse syntaxique, ni dictionnaire, ni stoplist
spécifications de l'outil
14/6/2003 © Jacques Vergne Atelier : "TALN et multilinguisme" -6-
• méthodes d'André Salem, Helena Ahonen, François Rousselot :
- recherche de motifs répétés en utilisant des algorithmes extrapolés de l'algorithme glouton
(recherche des n-grammes à partir des n-1-grammes)
- avec, en entrée, les mots vides de la langue traitée pour éviter de les prendre comme termes (stopword-list)
l'existant : motifs répétés
14/6/2003 © Jacques Vergne Atelier : "TALN et multilinguisme" -7-
un outil endogène• terme proposé par Didier Bourigault :
calculer le "rattachement des groupes prépositionnelset des adjectifs ou groupes adjectivaux" dans un corpus monolingueavec dictionnaire et analyse syntaxique
• même sens générique :
utiliser des régularités distributionnelles lexicales dans un corpus pour traiter ce même corpus
• mais sens spécifique différent :
repérer à la fois les mots vides rares et les mots pleins très fréquentsdans un corpus multilinguesans analyse syntaxique, ni dictionnaire, ni stoplist
14/6/2003 © Jacques Vergne Atelier : "TALN et multilinguisme" -8-
• fréquence des mots => silence sur les mots pleins fréquents
• Zipf : "the principle of least effort" plus un mot est fréquent, plus il est courtles mots courts et fréquents sont les mots vides
• Saussure : "dans la langue, il n'y a que des différences"
• => se servir des différences de longueur et d'effectif de 2 mots contigus
• pas d'autre ressource que le corpus traité lui-même, sans se préoccuper de la langue
comment poser le problème (1)
14/6/2003 © Jacques Vergne Atelier : "TALN et multilinguisme" -9-
• texte : suite de mots vides et de mots pleins
Manifestazioni per la pace in tutto il mondo
résultat recherché :
comment poser le problème (2)
Manifestazioni per la pace in tutto il mondo
P P P Pv v v v
14/6/2003 © Jacques Vergne Atelier : "TALN et multilinguisme" -10-
• critères de différence entre 2 mots contigus :
- différence de longueur en nombre de lettres :
il mondo (2 lettres - 5 lettres)
- différence d'effectif dans le corpus :
il mondo (19 occurrences - 3 occurrences)
comment poser le problème (3)
14/6/2003 © Jacques Vergne Atelier : "TALN et multilinguisme" -11-
• rechercher 2 types de séquences de mots, où 1 ou 2 mots vides sont encadrés par 2 mots pleins :
tutto il mondo Manifestazioni per la pace
solution proposée : principe
séquence PvP
du la of im ne il le lui y en
séquence PvvP
de la of the aus dem que des ist ein a étén'a is the qui ne
P P P Pv v v
14/6/2003 © Jacques Vergne Atelier : "TALN et multilinguisme" -12-
1) Étudier le corpus pour en extraire les mots vides
2) Générer les termes candidats
solution proposée : processus (0)
14/6/2003 © Jacques Vergne Atelier : "TALN et multilinguisme" -13-
1) Étudier le corpus pour en extraire les mots vides
• segmenter le corpus sur les limites de textes de liens
et sur les ponctuations --> virgulots
• pour chaque virgulot,
rechercher les séquences PvP et PvvP
à partir des différences de longueur et d'effectif
solution proposée : processus (1)
14/6/2003 © Jacques Vergne Atelier : "TALN et multilinguisme" -14-
déductions Plein vide vide Plein Plein vide Plein
effectifs 1 < 10 207 > 2 62 3 < 19 > 3
profil rare fréquent fréquent rare rare fréquent rare
• pour chaque virgulot, rechercher les séquences PvP et PvvP
Manifestazioni per la pace in tutto il mondo
longueurs 14 > 3 2 < 4 2 5 > 2 < 5
profil long court court long long court long
solution proposée : processus (2)
14/6/2003 © Jacques Vergne Atelier : "TALN et multilinguisme" -15-
2) Générer les termes candidats
• selon les motifs :
P+ Manifestazioni pace
tutto mondo
P+ v+P+ Manifestazioni per la pace
pace in tutto
tutto il mondo
P+ v+P+ v+P+ Manifestazioni per la pace in
tutto pace in tutto il mondo
solution proposée : processus (3)
14/6/2003 © Jacques Vergne Atelier : "TALN et multilinguisme" -16-
de : 340la : 207l' : 153
le : 113d' : 107à : 107
du : 103et : 99
des : 88en : 87les : 84
a : 82
un : 80Le : 74La : 72L' : 62in : 62
une : 56
Les : 55's : 55to : 53
pour : 43au : 41
sur : 41
résultats (1)
espace de recherche 2 :
une centaine de sites publiés par Google News, environ la moitié étant des sites nord-américains(http://news.google.fr/news/)
163 Ko, 28 500 mots
2435 occurrences de 820 termes candidats (de 47 à 2 occurrences / terme)
espace de recherche
corpus
termescandidats
mots vides les plus
fréquents
(15 mars 2003)
to : 327in : 280of : 237
the : 230's : 166
de : 154
for : 144on : 143and: 138
a : 126The :118
en : 76
la : 75by : 55Al : 53
with : 52is : 41A : 38
from: 36at : 34
i : 34't : 32
un : 31à : 31
espace de recherche 1 :
22 sites de la presse française nationale et régionale, 17 sites de la presse européenne (Suisse, Belgique, Allemagne, Italie, Espagne, UK, Irlande), et 4 sites de presse nord-américaine, chaque langue étant représentée par au moins 2 sites
84 Ko, 14 800 mots
1566 occurrences de 584 termes candidats (de 42 à 2 occurrences / terme)
14/6/2003 © Jacques Vergne Atelier : "TALN et multilinguisme" -17-
espace de recherche 1 :
résultats (2)
espace de recherche 2 :
termes candidats
les plus fréquents
silence sur les mots vides =>
bruit sur les termes
candidats
article : 42guerre : 21Jean-Luc Lagardère :
17monde : 12Açores : 11
Weitere Artikel : 10
mort : 10Bagdad : 8empire : 8
semaine : 8Lettre : 7
Plan : 7fin : 7
guerra : 7procès : 7
réforme : 7sommet : 7
Echos : 6
Was : 5Tutti : 4vous : 3About: 2Alors : 2
Ein : 2Have : 2
If : 2Mais : 2
Qu' : 2Wie : 2Wo : 2
avant : 2contra: 2
could : 2depuis:2encore:2
faut : 2mieux: 2nous : 2now : 2
plusieurs: 2
that : 2tout : 2
tutto : 2
25/584 = 4,3% des 584 termes candidats extraits
Läs mer: 47ÉÑ Ä : 29
Laden : 24war : 22
Kabul : 20Qaeda : 20China : 18
Statement : 17
Sep 12 : 15Pak : 14Press
Secretary : 13
Sep 11 : 13Northern
Alliance: 12guerra : 12
Irak : 11Kandahar :
11
This: 12How : 7Don' : 6
It : 6Most : 4
contra: 4
won' : 4Alla : 3My : 3auf : 3
One : 2Wer : 2
Where:2Why : 2
après : 2down : 2einer : 2
enough:2only : 2they : 2
when : 2which: 2
22/820 = 2,7% des 820 termes candidats extraits
14/6/2003 © Jacques Vergne Atelier : "TALN et multilinguisme" -18-
espace de recherche 1 :
résultats (3)
espace de recherche 2 :
bruit sur les mots vides => silence
sur les termes
candidats
termes retenus les
plus fréquents
(nb de sites - nb d'articles)
guerre (12-24)Lagardère (11-16)
Jean-Luc Lagardère (9-12)
monde (8-13)15 (7-10)
16 (7-9)Aznar (7-8)
Açores (7-10)empire (7-8)
semaine (7-8)Chirac (6-6)
Premier ministre (6-7)
fin (6-9)français (6-9)
mort (6-10)pays (6-10)
site (6-8)sommet (6-6)
Policy (19-23)U.S. (18-39)
China (14-29)war (14-71)
Special (12-24)This (12-24)
United (12-18)Privacy Policy
(11-11)Week (11-14)
East (10-12)American (9-14)
Information (9-13)Press (9-25)
Saddam (9-13)Azores (8-8)
How (8-10)Index (8-8)
Middle East (8-8)Money (8-8)
War : 9paix : 7soir : 7war : 7aide : 4
dimanche: 4Photo : 3baisse : 3
Aide : 2Groupe : 2
attendu : 2home : 2
turn : 2voie : 2
world : 2
News : 77New: 43
news : 23killed : 18
Home : 17
Help : 16Free : 10Global : 9
Air : 8help : 8
make : 8First : 7Get : 7get : 7
groups : 7
15/584 = 2,6% des 584 termes candidats extraits
88/820 = 10,7% des 820 termes candidats extraits
14/6/2003 © Jacques Vergne Atelier : "TALN et multilinguisme" -19-
résultats (4)
• les mots vides rares et les mots pleins très fréquents
sont-ils correctement repérés ?
calcul fondé sur des différences entre mots et non des valeurs absolues
(aucun seuil)
=> détection des mots vides ou pleins presque indépendante de leur effectif
article (42), guerre (21), monde (12), mort (10), guerra (9) : mots pleins
von (8), con (7), della (6), sous (5), vom (4), zum (3), einer (2), grâce (1) :
mots vides
il suffit qu'un seul contexte ait pu les détecter au moyen des différences adéquates
14/6/2003 © Jacques Vergne Atelier : "TALN et multilinguisme" -20-
conclusion
• méthode originale n'utilisant ni analyse syntaxique, ni dictionnaire, ni stoplist- capable de repérer à la fois les mots vides rares et les mots pleins fréquents- dans un corpus multilingue, de langues alphabétiques, inconnues a priori, mélangées dans le corpus, et non diagnostiquées dans les calculs
• calculs indépendants des langues, insensibles à l'ajout d'une nouvelle langue, ni aux proportions entre langues différentes
• bonne qualité des résultats et adéquation de la méthode à la tâche => des propriétés linguistiques très générales sont exploitées :
les différences (ou valeurs relatives) l'optimisation du code : plus un mot est fréquent, plus il est court
14/6/2003 © Jacques Vergne Atelier : "TALN et multilinguisme" -21-
vos questions ?
14/6/2003 © Jacques Vergne Atelier : "TALN et multilinguisme" -22-