Comparaison de mesures de similarité translingues pour le...
Transcript of Comparaison de mesures de similarité translingues pour le...
Comparaison de mesures de similarite
translingues pour le clustering de textes
multilingues
Manuela Yapomo
LiLPa - Linguistique, Langues, ParoleICube - Laboratoire des sciences de l’Ingenieur, de l’Informatique et de l’Imagerie
Universite de Strasbourg
Atelier FDC – 27 janvier 2015linguistique, langues, parole
OLOSDlinguistique, langues, parole
lilpa
linguistique, langues, parole
lilpalinguistiquelanguesparole
linguistiquelanguesparole
linguistiquelanguesparole
lilpalinguistiquelanguesparole
linguistique, langues, parole
linguistiquelanguesparolelilpa
ƐLJŵďŽůĞĐŽŵŵƵŶŝĐĂƟŽŶͺͺͺ;нƌĂƉƉĞůůŝŐŶĞĚĞŵĠƚƌŽͿ
i = 1
linguistique, langues, parole
linguistiquelanguesparole
linguistiquelanguesparole
linguistiquelanguesparole
linguistiquelanguesparole
linguistique, langues, parole
linguistiquelanguesparole
linguistiquelanguesparole
linguistiquelanguesparole
linguistiquelanguesparole
lilpalilpalinguistique, langues, parole
Introduction Problematique Ressources et Methode Conclusion
Plan
1 Introduction
2 Problematique
3 Ressources et Methode
4 Conclusion
Manuela Yapomo Comparaison de mesures de similarite translingues pour le clustering de textes multilingues 2 / 33
Introduction Problematique Ressources et Methode Conclusion
Plan
1 IntroductionContexteObjectifObjectif
2 Problematique
3 Ressources et Methode
4 Conclusion
Manuela Yapomo Comparaison de mesures de similarite translingues pour le clustering de textes multilingues 3 / 33
Introduction Problematique Ressources et Methode Conclusion
Corpus multilingues
Corpus paralleles
corpus constitues de textes sources et leurs traductions[McEnery et Xiao, 2007]
Corpus comparables
Ces corpus regroupent des documents de differentes languesayant des caracteristiques communes [Skadina et al., 2010].
Applications
Extraction de lexiques
Recherche d’information interlingue
Traduction automatique
Manuela Yapomo Comparaison de mesures de similarite translingues pour le clustering de textes multilingues 4 / 33
Introduction Problematique Ressources et Methode Conclusion
Exemples (biogaz – Wikipedia)
FRLe biogaz est le gaz produit par la fermentation de matieres organiques
animales ou vegetales en l’absence d’oxygene. Cette fermentation appelee
aussi methanisation se produit naturellement (dans les marais) ou
spontanement dans les decharges contenant des dechets organiques, [...].
ENBiogas typically refers to a mixture of gases produced by the breakdown
of organic matter in the absence of oxygen. Biogas can be produced from
regionally available raw materials such as recycled waste.
DEBiogas ist ein brennbares Gas, das durch Vergarung von Biomasse jeder
Art entsteht. Es wird in Biogasanlagen hergestellt, wozu sowohl Abfalle
als auch nachwachsende Rohstoffe vergoren werden.
Manuela Yapomo Comparaison de mesures de similarite translingues pour le clustering de textes multilingues 5 / 33
Introduction Problematique Ressources et Methode Conclusion
Objectifs
Comparer les performances d’une mesure de similaritebasee sur des concepts a celles de trois autres mesurebasees sur les formes/le lexique.
Evaluer la capacite de ces mesures a distinguer differentsdegres de comparabilite de textes multilingues sur lememe theme.
Manuela Yapomo Comparaison de mesures de similarite translingues pour le clustering de textes multilingues 6 / 33
Introduction Problematique Ressources et Methode Conclusion
Objectifs II
Comparer les performances d’une mesure de similaritebasee sur des concepts a celles de trois autres mesurebasees sur les formes/le lexique.
Evaluer la capacite de ces mesures a distinguer differentsdegres de comparabilite de textes multilingues sur lememe theme.
Les mesures de similarite doivent avoir une fortecorrelation avec le jugement humain
Manuela Yapomo Comparaison de mesures de similarite translingues pour le clustering de textes multilingues 7 / 33
Introduction Problematique Ressources et Methode Conclusion
Plan
1 Introduction
2 Problematique
3 Ressources et Methode
4 Conclusion
Manuela Yapomo Comparaison de mesures de similarite translingues pour le clustering de textes multilingues 8 / 33
Introduction Problematique Ressources et Methode Conclusion
Plan
1 Introduction
2 ProblematiqueSimilarite basee sur la traductionSimilarite a partir de conceptsApproches hybrides
3 Ressources et Methode
4 Conclusion
Manuela Yapomo Comparaison de mesures de similarite translingues pour le clustering de textes multilingues 9 / 33
Introduction Problematique Ressources et Methode Conclusion
Problematique
Comment regrouper des textes de langues differentes enfonction de leur similarite thematique ?
Comment definir la similarite dans un contextetranslingue ?
Comment detecter des differences fines de comparabilite(textes d’un domaine specifique) ?
Manuela Yapomo Comparaison de mesures de similarite translingues pour le clustering de textes multilingues 10 / 33
Introduction Problematique Ressources et Methode Conclusion
Problematique
Approches basees sur les formes (lexiques)
Approche de TA (Traduction Automatique)Approche dictionnairique
Approches basees sur les concepts
Approches hybrides
Les documents sont compares sur la base de leurs equivalentsde traduction (lexique, mots-cles) et/ou concepts communs
Manuela Yapomo Comparaison de mesures de similarite translingues pour le clustering de textes multilingues 11 / 33
Introduction Problematique Ressources et Methode Conclusion
Plan
1 IntroductionContexteObjectifObjectif
2 ProblematiqueSimilarite basee sur la traductionSimilarite a partir de conceptsApproches hybrides
3 Ressources et MethodeAgrovoc – MauiCorpus et evaluation
4 Conclusion
Manuela Yapomo Comparaison de mesures de similarite translingues pour le clustering de textes multilingues 12 / 33
Introduction Problematique Ressources et Methode Conclusion
Similarite basee sur la traductionTraduction automatique
Langue A Langue B Langue A|B|C
traducteur
Google/Bing
D1____
______
______
______
______
D2____
______
______
______
______
Similarité
monolingue
D1 D2
Avantages
traduction en contexte
synonymie
Inconvenients
outillage complexe
qualite de traduction
genericite
mots OOV(out-of-vocabulary)
Manuela Yapomo Comparaison de mesures de similarite translingues pour le clustering de textes multilingues 13 / 33
Introduction Problematique Ressources et Methode Conclusion
Similarite basee sur la traduction (I)Lexique bilingue
Langue A Langue B Langue A|B|C (listes de mots)
Lexique bilingue
D1____
______
______
______
______
D2____
______
______
______
______
Similarité
monolingue D1 D2
Avantages
ressource simple
Inconvenients
ambiguıte
genericite
mots OOV(out-of-vocabulary)
Manuela Yapomo Comparaison de mesures de similarite translingues pour le clustering de textes multilingues 14 / 33
Introduction Problematique Ressources et Methode Conclusion
Similarite basee sur la traduction (II)Lexique bilingue
- Lexiques construits a partir du corpus Europarl[koehn, P., 2005] avec Anymalign [Lardilleux et al., 2012].- Exclusion des mots/groupes de mots avec moins de 10occurrences- Exclusion de traductions candidates avec une probabilite demoins de 0.3 [Su and Babych, 2012].
EN-FR : 25 945 alignements
DE-FR : 19 694 alignements
Manuela Yapomo Comparaison de mesures de similarite translingues pour le clustering de textes multilingues 15 / 33
Introduction Problematique Ressources et Methode Conclusion
Similarite basee sur la traduction (III)Lexique bilingue
[Su and Babych, 2012]
[Li et Gaussier, 2010]
Manuela Yapomo Comparaison de mesures de similarite translingues pour le clustering de textes multilingues 16 / 33
Introduction Problematique Ressources et Methode Conclusion
Plan
1 IntroductionContexteObjectifObjectif
2 ProblematiqueSimilarite basee sur la traductionSimilarite a partir de conceptsApproches hybrides
3 Ressources et MethodeAgrovoc – MauiCorpus et evaluation
4 Conclusion
Manuela Yapomo Comparaison de mesures de similarite translingues pour le clustering de textes multilingues 17 / 33
Introduction Problematique Ressources et Methode Conclusion
Similarite a partir de concepts
Langue A Langue B Thesaurus/ontologie Représentation conceptuelle
D1___
_____
_____
_____
_____
_____
___
D2___
_____
_____
_____
_____
_____
___
Similarité
textuelle D1 D2
Avantages
reseau semantique
specificite
Inconvenients
outillage complexe
ambiguıte
mots OOV(out-of-vocabulary)
Manuela Yapomo Comparaison de mesures de similarite translingues pour le clustering de textes multilingues 18 / 33
Introduction Problematique Ressources et Methode Conclusion
Similarite a partir de concepts I
Le nombre moyen de descripteurs/concepts assignes au textesdu corpus biogaz est de :
112 pour DE
247 pour EN
129 pour FR
La similarite de documents d1 et d2 avec l’index de Jaccard :
J(A,B) =|A ∩ B ||A ∪ B |
Manuela Yapomo Comparaison de mesures de similarite translingues pour le clustering de textes multilingues 19 / 33
Introduction Problematique Ressources et Methode Conclusion
Plan
1 IntroductionContexteObjectifObjectif
2 ProblematiqueSimilarite basee sur la traductionSimilarite a partir de conceptsApproches hybrides
3 Ressources et MethodeAgrovoc – MauiCorpus et evaluation
4 Conclusion
Manuela Yapomo Comparaison de mesures de similarite translingues pour le clustering de textes multilingues 20 / 33
Introduction Problematique Ressources et Methode Conclusion
Approches hybrides
Combinaison des approches basees sur :
la traduction
traducteur automatique
lexique bilingue
des concepts interlingues
thesaurus
ontologie
Manuela Yapomo Comparaison de mesures de similarite translingues pour le clustering de textes multilingues 21 / 33
Introduction Problematique Ressources et Methode Conclusion
Plan
1 Introduction
2 Problematique
3 Ressources et MethodeAgrovoc – MauiCorpus et evaluation
4 Conclusion
Manuela Yapomo Comparaison de mesures de similarite translingues pour le clustering de textes multilingues 22 / 33
Introduction Problematique Ressources et Methode Conclusion
Plan
1 IntroductionContexteObjectifObjectif
2 ProblematiqueSimilarite basee sur la traductionSimilarite a partir de conceptsApproches hybrides
3 Ressources et MethodeAgrovoc – MauiCorpus et evaluation
4 Conclusion
Manuela Yapomo Comparaison de mesures de similarite translingues pour le clustering de textes multilingues 23 / 33
Introduction Problematique Ressources et Methode Conclusion
Source des concepts – Thesaurus Agrovoc
http://aims.fao.org/fr/standards/agrovoc
28 000 concepts dont les termes sont disponibles dans 22langues dans des domaines tels que l’environnement, lanutrition, l’agriculture, arboriculture, etc.
Les concepts sont interconnectes par differents types derelations dont les principales sont :
related term (RT) – terme lie
broader term (BT) – hyperonyme du terme
narrower term (NT) – hyponyme du terme
used for (UF) – synonyme
Manuela Yapomo Comparaison de mesures de similarite translingues pour le clustering de textes multilingues 24 / 33
Introduction Problematique Ressources et Methode Conclusion
Thesaurus Agrovoc (I)
Figure : Directives d’annotation
Manuela Yapomo Comparaison de mesures de similarite translingues pour le clustering de textes multilingues 25 / 33
Introduction Problematique Ressources et Methode Conclusion
Comment identifier les concepts ? – Maui
http://maui-indexer.appspot.com/
L’indexeur Maui [Medelyan, Eibe et Witten, 2009] identifieautomatiquement les concepts dans des textes.Ces concepts sont principalement des :
noms
groupes nominaux
Donnees d’entree :
Vocabulaire d’une ressource ontologique (ici Agrovoc)
Manuela Yapomo Comparaison de mesures de similarite translingues pour le clustering de textes multilingues 26 / 33
Introduction Problematique Ressources et Methode Conclusion
Comment identifier les concepts ? (I)
Exemple 1 – indexation automatique
Il convient d’observer le poids—poids—poids des investissements commis
dans cette technologie en Europe en 2012 ainsi que les previsions etablies
[...] l’energie solaire—energie solaire photovoltaıque represente 37% des
nouvelles capacites installees en Europe.
Exemple 1a – indexation automatique corrigee
Il convient d’observer le poids—poids—poids des investissements commis
dans cette technologie en Europe en 2012 ainsi que les previsions etablies
[...] l’energie solaire—energie solaire photovoltaıque represente 37% des
nouvelles capacites installees en Europe.
Manuela Yapomo Comparaison de mesures de similarite translingues pour le clustering de textes multilingues 27 / 33
Introduction Problematique Ressources et Methode Conclusion
Plan
1 IntroductionContexteObjectifObjectif
2 ProblematiqueSimilarite basee sur la traductionSimilarite a partir de conceptsApproches hybrides
3 Ressources et MethodeAgrovoc – MauiCorpus et evaluation
4 Conclusion
Manuela Yapomo Comparaison de mesures de similarite translingues pour le clustering de textes multilingues 28 / 33
Introduction Problematique Ressources et Methode Conclusion
Corpus biogaz
Cadre :
Sources des documents : presse en ligne
Langues : francais, anglais, allemand
Theme : biogaz Biogaz (79)
DE (26) EN (23)
FR (30)
Evaluation de la capacite des mesures de similarite a identifierles differents degres de similarite de documents multilingues etmonothematiques :
Manuela Yapomo Comparaison de mesures de similarite translingues pour le clustering de textes multilingues 29 / 33
Introduction Problematique Ressources et Methode Conclusion
Etude preliminaire (II)
Methods Dictionary-based metric MT-based metric Thesaurus indexing[Li et Gaussier, 2010] [Su and Babych, 2012]
Language pair DE-FR EN-FR DE-FR EN-FR DE-FR EN-FR DE-FR EN-FR
Parallel 0.473 0.573 0.533 0.616 0.540 0.614 0.176 0.268
Very comparable 0.166 0.196 0.376 0.327 0.266 0.333 0.072 0.099
Less comparable 0.141 0.169 0.328 0.289 0.208 0.245 0.049 0.090
Unrelated 0.073 0.110 0.198 0.118 0.114 0.095 0.034 0.054
Correlation 0.467 0.625 0.276 0.582 0.445 0.678 0.437 0.535
Table : scores de similarite moyens avec valeurs de correlation
Methodes Mesures basee sur un dictionnaire Mesure basee sur la TA Indexation par thesaurus([Li et Gaussier, 2010] [Su and Babych, 2012]
paire de langues DE-FR EN-FR DE-FR EN-FR DE-FR EN-FR DE-FR EN-FR
TC/Par 0.350 0.342 0.705 0.530 0.492 0.542 0.409 0.369
MC/TC 0.849 0.862 0.872 0.883 0.781 0.735 0.680 0.909
Table : Ratios entre moyennes de categories proches
Manuela Yapomo Comparaison de mesures de similarite translingues pour le clustering de textes multilingues 30 / 33
Introduction Problematique Ressources et Methode Conclusion
Plan
1 Introduction
2 Problematique
3 Ressources et Methode
4 Conclusion
Manuela Yapomo Comparaison de mesures de similarite translingues pour le clustering de textes multilingues 31 / 33
Introduction Problematique Ressources et Methode Conclusion
Suite des travaux
Exploitation des relations semantiques entre conceptsdans l’ontologie
Clustering multilingue et monothematiquesur un corpusde textes plus grand du domaine des energiesrenouvelables (deja construit)
Evaluation extrinseque : extraction de terminologiesmultilingues
Manuela Yapomo Comparaison de mesures de similarite translingues pour le clustering de textes multilingues 32 / 33
Introduction Problematique Ressources et Methode Conclusion
References – Bibliographie
koehn, P. (2005).
Europarl : A parallel corpus for statistical machine translation,Proceedings of the Tenth Machine Translation Summit, vol 5
Kurtz, C. (2012).
Une distance hierarchique basee sur la semantique pour la comparaison d’histogrammes nominaux.Actes de Conference Internationale Francophone sur l’Extraction et la Gestion de Connaissance, pages77–88, Bordeaux, France.
Lardilleux, A., Francois, Y., et Lepage, Y. (2012)
Hierarchical Sub-sentential Alignment with Anymalign,Proceedings of the 16th annual conference of the European Association for Machine Translation (EAMT2012), pages 279–286
Li, B. et Gaussier, E. (2010).
Improving Corpus Comparability for Bilingual Lexicon Extraction from Comparable Corpora.In Proceedings of the 23rd International Conference on Computational Linguistics, pages 644–652, Beijing,China.McEnery, A. M. et Xiao, R. Z. (2007).
Parallel and Comparable Corpora : what are they up to ?In Incorporating Corpora : Translation and the Linguist. Anderman, G. & Rogers, M., Clevedon, UK,Multilingual Matters edition.
Medelyan, O., Eibe, F. et Witten, I. H. (2009).
Human-competitive tagging using automatic keyphrase extractionIn Proceedings of the 2009 Conference on Empirical Methods in Natural Language Processing, vol. 3, pages1318—1327.Medelyan, O. et Witten, I. H. (2008).
Domain-independent automatic keyphrase indexing with small training setsIn Journal of the American Society for Information Science and Technology, vol. 59, no7, pages 183–197.
Manuela Yapomo Comparaison de mesures de similarite translingues pour le clustering de textes multilingues 33 / 33
Introduction Problematique Ressources et Methode Conclusion
References – Bibliographie II
Skadina, I., Aker, A., Giouli, V., Tufis, D., Gaizauskas, R., Mierina, M. et Mastropavlos, N. (2010).
A Collection of Comparable Corpora for Under-resourced Languages.In Proceedings of the Fourth International Conference Baltic HLT, pages 161–168, Riga, Latvia.
Su, F. and Babych, B. (2012).
Measuring comparability of documents in non-parallel corpora for efficient extraction of (semi-) paralleltranslation equivalents.In Proceedings of the 13th Conference of the European Chapter of the Association for ComputationalLinguistics, pages 10–19, Avignon, France.
Manuela Yapomo Comparaison de mesures de similarite translingues pour le clustering de textes multilingues 34 / 33