Comparaison de mesures de similarité translingues pour le...

Comparaison de mesures de similarite

translingues pour le clustering de textes

multilingues

Manuela Yapomo

LiLPa - Linguistique, Langues, ParoleICube - Laboratoire des sciences de l’Ingenieur, de l’Informatique et de l’Imagerie

Universite de Strasbourg

[email protected]

Atelier FDC – 27 janvier 2015linguistique, langues, parole

OLOSDlinguistique, langues, parole

lilpa

linguistique, langues, parole

lilpalinguistiquelanguesparole

linguistiquelanguesparole


lilpalinguistiquelanguesparole


linguistiquelanguesparolelilpa

ƐǇŵďŽůĞĐŽŵŵƵŶŝĐĂƟŽŶͺͺͺ;нƌĂƉƉĞůůŝŐŶĞĚĞŵĠƚƌŽͿ

i = 1











lilpalilpalinguistique, langues, parole

Introduction Problematique Ressources et Methode Conclusion

Plan

1 Introduction

2 Problematique

3 Ressources et Methode

4 Conclusion

Manuela Yapomo Comparaison de mesures de similarite translingues pour le clustering de textes multilingues 2 / 33


Plan

1 IntroductionContexteObjectifObjectif

2 Problematique


4 Conclusion



Corpus multilingues

Corpus paralleles

corpus constitues de textes sources et leurs traductions[McEnery et Xiao, 2007]

Corpus comparables

Ces corpus regroupent des documents de differentes languesayant des caracteristiques communes [Skadina et al., 2010].

Applications

Extraction de lexiques

Recherche d’information interlingue

Traduction automatique



Exemples (biogaz – Wikipedia)

FRLe biogaz est le gaz produit par la fermentation de matieres organiques

animales ou vegetales en l’absence d’oxygene. Cette fermentation appelee

aussi methanisation se produit naturellement (dans les marais) ou

spontanement dans les decharges contenant des dechets organiques, [...].

ENBiogas typically refers to a mixture of gases produced by the breakdown

of organic matter in the absence of oxygen. Biogas can be produced from

regionally available raw materials such as recycled waste.

DEBiogas ist ein brennbares Gas, das durch Vergarung von Biomasse jeder

Art entsteht. Es wird in Biogasanlagen hergestellt, wozu sowohl Abfalle

als auch nachwachsende Rohstoffe vergoren werden.



Objectifs

Comparer les performances d’une mesure de similaritebasee sur des concepts a celles de trois autres mesurebasees sur les formes/le lexique.

Evaluer la capacite de ces mesures a distinguer differentsdegres de comparabilite de textes multilingues sur lememe theme.



Objectifs II

Comparer les performances d’une mesure de similaritebasee sur des concepts a celles de trois autres mesurebasees sur les formes/le lexique.

Evaluer la capacite de ces mesures a distinguer differentsdegres de comparabilite de textes multilingues sur lememe theme.

Les mesures de similarite doivent avoir une fortecorrelation avec le jugement humain



Plan

1 Introduction

2 Problematique


4 Conclusion



Plan

1 Introduction

2 ProblematiqueSimilarite basee sur la traductionSimilarite a partir de conceptsApproches hybrides


4 Conclusion



Problematique

Comment regrouper des textes de langues differentes enfonction de leur similarite thematique ?

Comment definir la similarite dans un contextetranslingue ?

Comment detecter des differences fines de comparabilite(textes d’un domaine specifique) ?



Problematique

Approches basees sur les formes (lexiques)

Approche de TA (Traduction Automatique)Approche dictionnairique

Approches basees sur les concepts

Approches hybrides

Les documents sont compares sur la base de leurs equivalentsde traduction (lexique, mots-cles) et/ou concepts communs



Plan



3 Ressources et MethodeAgrovoc – MauiCorpus et evaluation

4 Conclusion



Similarite basee sur la traductionTraduction automatique

Langue A Langue B Langue A|B|C

traducteur

Google/Bing

D1____

______

______

______

______

D2____

______

______

______

______

Similarité

monolingue

D1 D2

Avantages

traduction en contexte

synonymie

Inconvenients

outillage complexe

qualite de traduction

genericite

mots OOV(out-of-vocabulary)



Similarite basee sur la traduction (I)Lexique bilingue

Langue A Langue B Langue A|B|C (listes de mots)

Lexique bilingue

D1____

______

______

______

______

D2____

______

______

______

______

Similarité

monolingue D1 D2

Avantages

ressource simple

Inconvenients

ambiguıte

genericite




Similarite basee sur la traduction (II)Lexique bilingue

- Lexiques construits a partir du corpus Europarl[koehn, P., 2005] avec Anymalign [Lardilleux et al., 2012].- Exclusion des mots/groupes de mots avec moins de 10occurrences- Exclusion de traductions candidates avec une probabilite demoins de 0.3 [Su and Babych, 2012].

EN-FR : 25 945 alignements

DE-FR : 19 694 alignements



Similarite basee sur la traduction (III)Lexique bilingue

[Su and Babych, 2012]

[Li et Gaussier, 2010]



Plan




4 Conclusion



Similarite a partir de concepts

Langue A Langue B Thesaurus/ontologie Représentation conceptuelle

D1___

_____

_____

_____

_____

_____

___

D2___

_____

_____

_____

_____

_____

___

Similarité

textuelle D1 D2

Avantages

reseau semantique

specificite

Inconvenients

outillage complexe

ambiguıte




Similarite a partir de concepts I

Le nombre moyen de descripteurs/concepts assignes au textesdu corpus biogaz est de :

112 pour DE

247 pour EN

129 pour FR

La similarite de documents d1 et d2 avec l’index de Jaccard :

J(A,B) =|A ∩ B ||A ∪ B |



Plan




4 Conclusion



Approches hybrides

Combinaison des approches basees sur :

la traduction

traducteur automatique

lexique bilingue

des concepts interlingues

thesaurus

ontologie



Plan

1 Introduction

2 Problematique


4 Conclusion



Plan




4 Conclusion



Source des concepts – Thesaurus Agrovoc

http://aims.fao.org/fr/standards/agrovoc

28 000 concepts dont les termes sont disponibles dans 22langues dans des domaines tels que l’environnement, lanutrition, l’agriculture, arboriculture, etc.

Les concepts sont interconnectes par differents types derelations dont les principales sont :

related term (RT) – terme lie

broader term (BT) – hyperonyme du terme

narrower term (NT) – hyponyme du terme

used for (UF) – synonyme


http://aims.fao.org/fr/standards/agrovoc


Thesaurus Agrovoc (I)

Figure : Directives d’annotation



Comment identifier les concepts ? – Maui

http://maui-indexer.appspot.com/

L’indexeur Maui [Medelyan, Eibe et Witten, 2009] identifieautomatiquement les concepts dans des textes.Ces concepts sont principalement des :

noms

groupes nominaux

Donnees d’entree :

Vocabulaire d’une ressource ontologique (ici Agrovoc)


http://maui-indexer.appspot.com/


Comment identifier les concepts ? (I)

Exemple 1 – indexation automatique

Il convient d’observer le poids—poids—poids des investissements commis

dans cette technologie en Europe en 2012 ainsi que les previsions etablies

[...] l’energie solaire—energie solaire photovoltaıque represente 37% des

nouvelles capacites installees en Europe.

Exemple 1a – indexation automatique corrigee

Il convient d’observer le poids—poids—poids des investissements commis

dans cette technologie en Europe en 2012 ainsi que les previsions etablies

[...] l’energie solaire—energie solaire photovoltaıque represente 37% des

nouvelles capacites installees en Europe.



Plan




4 Conclusion



Corpus biogaz

Cadre :

Sources des documents : presse en ligne

Langues : francais, anglais, allemand

Theme : biogaz Biogaz (79)

DE (26) EN (23)

FR (30)

Evaluation de la capacite des mesures de similarite a identifierles differents degres de similarite de documents multilingues etmonothematiques :



Etude preliminaire (II)

Methods Dictionary-based metric MT-based metric Thesaurus indexing[Li et Gaussier, 2010] [Su and Babych, 2012]

Language pair DE-FR EN-FR DE-FR EN-FR DE-FR EN-FR DE-FR EN-FR

Parallel 0.473 0.573 0.533 0.616 0.540 0.614 0.176 0.268

Very comparable 0.166 0.196 0.376 0.327 0.266 0.333 0.072 0.099

Less comparable 0.141 0.169 0.328 0.289 0.208 0.245 0.049 0.090

Unrelated 0.073 0.110 0.198 0.118 0.114 0.095 0.034 0.054

Correlation 0.467 0.625 0.276 0.582 0.445 0.678 0.437 0.535

Table : scores de similarite moyens avec valeurs de correlation

Methodes Mesures basee sur un dictionnaire Mesure basee sur la TA Indexation par thesaurus([Li et Gaussier, 2010] [Su and Babych, 2012]

paire de langues DE-FR EN-FR DE-FR EN-FR DE-FR EN-FR DE-FR EN-FR

TC/Par 0.350 0.342 0.705 0.530 0.492 0.542 0.409 0.369

MC/TC 0.849 0.862 0.872 0.883 0.781 0.735 0.680 0.909

Table : Ratios entre moyennes de categories proches



Plan

1 Introduction

2 Problematique


4 Conclusion



Suite des travaux

Exploitation des relations semantiques entre conceptsdans l’ontologie

Clustering multilingue et monothematiquesur un corpusde textes plus grand du domaine des energiesrenouvelables (deja construit)

Evaluation extrinseque : extraction de terminologiesmultilingues



References – Bibliographie

koehn, P. (2005).

Europarl : A parallel corpus for statistical machine translation,Proceedings of the Tenth Machine Translation Summit, vol 5

Kurtz, C. (2012).

Une distance hierarchique basee sur la semantique pour la comparaison d’histogrammes nominaux.Actes de Conference Internationale Francophone sur l’Extraction et la Gestion de Connaissance, pages77–88, Bordeaux, France.

Lardilleux, A., Francois, Y., et Lepage, Y. (2012)

Hierarchical Sub-sentential Alignment with Anymalign,Proceedings of the 16th annual conference of the European Association for Machine Translation (EAMT2012), pages 279–286

Li, B. et Gaussier, E. (2010).

Improving Corpus Comparability for Bilingual Lexicon Extraction from Comparable Corpora.In Proceedings of the 23rd International Conference on Computational Linguistics, pages 644–652, Beijing,China.McEnery, A. M. et Xiao, R. Z. (2007).

Parallel and Comparable Corpora : what are they up to ?In Incorporating Corpora : Translation and the Linguist. Anderman, G. & Rogers, M., Clevedon, UK,Multilingual Matters edition.

Medelyan, O., Eibe, F. et Witten, I. H. (2009).

Human-competitive tagging using automatic keyphrase extractionIn Proceedings of the 2009 Conference on Empirical Methods in Natural Language Processing, vol. 3, pages1318—1327.Medelyan, O. et Witten, I. H. (2008).

Domain-independent automatic keyphrase indexing with small training setsIn Journal of the American Society for Information Science and Technology, vol. 59, no7, pages 183–197.



References – Bibliographie II

Skadina, I., Aker, A., Giouli, V., Tufis, D., Gaizauskas, R., Mierina, M. et Mastropavlos, N. (2010).

A Collection of Comparable Corpora for Under-resourced Languages.In Proceedings of the Fourth International Conference Baltic HLT, pages 161–168, Riga, Latvia.

Su, F. and Babych, B. (2012).

Measuring comparability of documents in non-parallel corpora for efficient extraction of (semi-) paralleltranslation equivalents.In Proceedings of the 13th Conference of the European Chapter of the Association for ComputationalLinguistics, pages 10–19, Avignon, France.


Comparaison de mesures de similarité translingues pour le...

Documents

Transcript of Comparaison de mesures de similarité translingues pour le...