Invited speaker, ATALA 2014 Ph. D. Thesis award

Post on 04-Jun-2015

324 views 3 download

Tags:

Transcript of Invited speaker, ATALA 2014 Ph. D. Thesis award

Traduction assistee par ordinateur et corpuscomparables

Conference invitee : Prix de these ATALA 2014

Estelle DelpechResponsable scientifique, Nomao

www.nomao.com/labs

Travaux de these effectues au LINA sous la direction de B. Daille et E. Morin

TALN’14 – 2 juillet 2014 – Marseille, France

Traduction assistee par ordinateur et corpus comparables

Introduction

Contexte

Lingua et Machina logiciels de Traduction Assistee par Ordinateuret Traduction Automatique[Brown de Colstoun et al., 2011]

ANR Metricc exploitation des corpus comparables pour:

I recherche d’information interlingueI categorisation multilingueI traduction assistee par ordinateur

2 / 41

Traduction assistee par ordinateur et corpus comparables

Introduction

La Traduction Assistee par Ordinateur (TAO)

TAO Technologies permettant aux humains de mieuxtraduire

I pre-traductionI logiciels de gestion terminologiqueI memoires de traduction

6= TA Traduction sans intervention humaine

3 / 41

Traduction assistee par ordinateur et corpus comparables

Introduction

Materiau de base : historique de traductions (corpusparallele)

4 / 41

Traduction assistee par ordinateur et corpus comparables

Introduction

Limite des corpus paralleles

I DisponibiliteI nouveaux domaines ?I langues peu dotees ?

I Risque qualitatifI Partie Cible : variante de la langue cible appelee translecte

(“translationese”)[Baker, 1996, Zanettin, 1998, Mc Enery and Xiao, 2007]

5 / 41

Traduction assistee par ordinateur et corpus comparables

Introduction

Solution possible : corpus comparables

Texte FR cancer du sein Texte EN cancer du sein

Ipsen is participating in studiesconducted under the auspices of theIBCSG for the treatment ofpremenopausal breast cancer. Thesestudies compare conventionaltreatment methods with hormonetherapy combining Decapeptyl R©with estrogen suppressor agents.Their findings could lead to arevision of treatment guidelines forbreast cancer in pre-menopausalwomen expressing hormonalreceptors.

HormonotherapieDans environ deux tiers des cancersdu sein, les cellules cancereusespresentent des recepteurshormonaux en exces. La tumeur estalors dite hormonosensible car lesœstrogenes stimulent la proliferationcancereuse par l’intermediaire desrecepteurs. Les traitements agirontsoit en diminuant le tauxd’œstrogenes dans le sang, soit enbloquant les recepteurs hormonaux

6 / 41

Traduction assistee par ordinateur et corpus comparables

Introduction

Solution possible : corpus comparables

Texte FR cancer du sein Texte EN cancer du sein

Ipsen is participating in studiesconducted under the auspices of theIBCSG for the treatment ofpremenopausal breast cancer.These studies compare conventionaltreatment methods with hormonetherapy combining Decapeptyl R©with estrogen suppressor agents.Their findings could lead to arevision of treatment guidelines forbreast cancer in pre-menopausalwomen expressing hormonalreceptors.

HormonotherapieDans environ deux tiers des cancersdu sein, les cellules cancereusespresentent des recepteurshormonaux en exces. La tumeur estalors dite hormonosensible car lesœstrogenes stimulent laproliferation cancereuse parl’intermediaire des recepteurs. Lestraitements agiront soit endiminuant le taux d’œstrogenes dansle sang, soit en bloquant lesrecepteurs hormonaux

6 / 41

Traduction assistee par ordinateur et corpus comparables

Introduction

Exploitation des corpus comparables

TA extraction de lexiques pour l’adaptation au domaine :+0.02 a 0.03 BLEU [Carpuat et al., 2012]

CLIR augmentation du lexique bilingue utilise par lesysteme de RI : +0.016 MAP [Li et al., 2011]

Traduction non assistee ameliorations qualitatives[Zanettin, 1998, Friedbichler and Friedbichler, 1997,Mc Enery and Xiao, 2007]

TAO ?

7 / 41

Traduction assistee par ordinateur et corpus comparables

Introduction

Exploitation des corpus comparables

TA extraction de lexiques pour l’adaptation au domaine :+0.02 a 0.03 BLEU [Carpuat et al., 2012]

CLIR augmentation du lexique bilingue utilise par lesysteme de RI : +0.016 MAP [Li et al., 2011]

Traduction non assistee ameliorations qualitatives[Zanettin, 1998, Friedbichler and Friedbichler, 1997,Mc Enery and Xiao, 2007]

TAO ?

7 / 41

Traduction assistee par ordinateur et corpus comparables

Introduction

Exploitation des corpus comparables

TA extraction de lexiques pour l’adaptation au domaine :+0.02 a 0.03 BLEU [Carpuat et al., 2012]

CLIR augmentation du lexique bilingue utilise par lesysteme de RI : +0.016 MAP [Li et al., 2011]

Traduction non assistee ameliorations qualitatives[Zanettin, 1998, Friedbichler and Friedbichler, 1997,Mc Enery and Xiao, 2007]

TAO ?

7 / 41

Traduction assistee par ordinateur et corpus comparables

Introduction

Exploitation des corpus comparables

TA extraction de lexiques pour l’adaptation au domaine :+0.02 a 0.03 BLEU [Carpuat et al., 2012]

CLIR augmentation du lexique bilingue utilise par lesysteme de RI : +0.016 MAP [Li et al., 2011]

Traduction non assistee ameliorations qualitatives[Zanettin, 1998, Friedbichler and Friedbichler, 1997,Mc Enery and Xiao, 2007]

TAO ?

7 / 41

Traduction assistee par ordinateur et corpus comparables

Introduction

Exploitation des corpus comparables

TA extraction de lexiques pour l’adaptation au domaine :+0.02 a 0.03 BLEU [Carpuat et al., 2012]

CLIR augmentation du lexique bilingue utilise par lesysteme de RI : +0.016 MAP [Li et al., 2011]

Traduction non assistee ameliorations qualitatives[Zanettin, 1998, Friedbichler and Friedbichler, 1997,Mc Enery and Xiao, 2007]

TAO ?

7 / 41

Traduction assistee par ordinateur et corpus comparables

Introduction

Objectifs de la these

1. Evaluer l’interet des corpus comparables pour la TAO

2. Ameliorer/Proposer des modalites d’exploitation pour la TAO

8 / 41

Traduction assistee par ordinateur et corpus comparables

Introduction

Plan

1. Methode classique d’extraction de lexiques bilingues a partir decorpus comparables

2. Evaluation applicative des lexiques bilingues destines a latraduction humaine

3. Extraction de lexiques bilingues par l’approche compositionnelle

Conclusion

9 / 41

Traduction assistee par ordinateur et corpus comparables

1. Methode classique d’extraction de lexiques bilingues a partir de corpus comparables

Plan

1. Methode classique d’extraction de lexiques bilingues a partir decorpus comparables

2. Evaluation applicative des lexiques bilingues destines a latraduction humaine

3. Extraction de lexiques bilingues par l’approche compositionnelle

Conclusion

10 / 41

Traduction assistee par ordinateur et corpus comparables

1. Methode classique d’extraction de lexiques bilingues a partir de corpus comparables

Methode d’extraction classique

11 / 41

Traduction assistee par ordinateur et corpus comparables

1. Methode classique d’extraction de lexiques bilingues a partir de corpus comparables

Alignement par similarite contextuelle

I Premiers travaux : [Rapp, 1999, Fung, 1997]

I Hypothese distributionnelle : deux mots de sens prochetendent a apparaıtre dans des contextes similaires

biallelic : {instability : 5.14, tamoxifen: 2.13, cell-type: 2.1 ...}{instabilite: 5.14, tamoxifene: 2.13, ?: 2.1 ...}

l calcul similarite : 0.34

biallelique : {instabilite: 5.78, traitement : 6.33, tamoxifene: 1.2 ...}

12 / 41

Traduction assistee par ordinateur et corpus comparables

1. Methode classique d’extraction de lexiques bilingues a partir de corpus comparables

Alignement par similarite contextuelle

I Premiers travaux : [Rapp, 1999, Fung, 1997]

I Hypothese distributionnelle : deux mots de sens prochetendent a apparaıtre dans des contextes similaires

biallelic : {instability : 5.14, tamoxifen: 2.13, cell-type: 2.1 ...}

{instabilite: 5.14, tamoxifene: 2.13, ?: 2.1 ...}

l calcul similarite : 0.34

biallelique : {instabilite: 5.78, traitement : 6.33, tamoxifene: 1.2 ...}

12 / 41

Traduction assistee par ordinateur et corpus comparables

1. Methode classique d’extraction de lexiques bilingues a partir de corpus comparables

Alignement par similarite contextuelle

I Premiers travaux : [Rapp, 1999, Fung, 1997]

I Hypothese distributionnelle : deux mots de sens prochetendent a apparaıtre dans des contextes similaires

biallelic : {instability : 5.14, tamoxifen: 2.13, cell-type: 2.1 ...}

{instabilite: 5.14, tamoxifene: 2.13, ?: 2.1 ...}

l calcul similarite : 0.34

biallelique : {instabilite: 5.78, traitement : 6.33, tamoxifene: 1.2 ...}

12 / 41

Traduction assistee par ordinateur et corpus comparables

1. Methode classique d’extraction de lexiques bilingues a partir de corpus comparables

Alignement par similarite contextuelle

I Premiers travaux : [Rapp, 1999, Fung, 1997]

I Hypothese distributionnelle : deux mots de sens prochetendent a apparaıtre dans des contextes similaires

biallelic : {instability : 5.14, tamoxifen: 2.13, cell-type: 2.1 ...}{instabilite: 5.14, tamoxifene: 2.13, ?: 2.1 ...}

l calcul similarite : 0.34

biallelique : {instabilite: 5.78, traitement : 6.33, tamoxifene: 1.2 ...}

12 / 41

Traduction assistee par ordinateur et corpus comparables

1. Methode classique d’extraction de lexiques bilingues a partir de corpus comparables

Alignement par similarite contextuelle

I Premiers travaux : [Rapp, 1999, Fung, 1997]

I Hypothese distributionnelle : deux mots de sens prochetendent a apparaıtre dans des contextes similaires

biallelic : {instability : 5.14, tamoxifen: 2.13, cell-type: 2.1 ...}{instabilite: 5.14, tamoxifene: 2.13, ?: 2.1 ...}

l calcul similarite : 0.34

biallelique : {instabilite: 5.78, traitement : 6.33, tamoxifene: 1.2 ...}

12 / 41

Traduction assistee par ordinateur et corpus comparables

1. Methode classique d’extraction de lexiques bilingues a partir de corpus comparables

Evaluation et performances

I Precision sur le TopN : % de termes avec un traductioncorrecte parmi les N premieres traductions candidates

I Corpus specialises <700k mots : 41% a 76% sur Top20I Difficulte (vs. corpus paralleles) :

I espace de recherche tres vasteI traduction peut etre absente

I Evaluation par reference :I capacite a reproduire un lexique construit a prioriI quid de l’apport en contexte d’utilisation reel ?

13 / 41

Traduction assistee par ordinateur et corpus comparables

1. Methode classique d’extraction de lexiques bilingues a partir de corpus comparables

Evaluation et performances

I Precision sur le TopN : % de termes avec un traductioncorrecte parmi les N premieres traductions candidates

I Corpus specialises <700k mots : 41% a 76% sur Top20I Difficulte (vs. corpus paralleles) :

I espace de recherche tres vasteI traduction peut etre absente

I Evaluation par reference :I capacite a reproduire un lexique construit a prioriI quid de l’apport en contexte d’utilisation reel ?

13 / 41

Traduction assistee par ordinateur et corpus comparables

1. Methode classique d’extraction de lexiques bilingues a partir de corpus comparables

Evaluation et performances

I Precision sur le TopN : % de termes avec un traductioncorrecte parmi les N premieres traductions candidates

I Corpus specialises <700k mots : 41% a 76% sur Top20

I Difficulte (vs. corpus paralleles) :I espace de recherche tres vasteI traduction peut etre absente

I Evaluation par reference :I capacite a reproduire un lexique construit a prioriI quid de l’apport en contexte d’utilisation reel ?

13 / 41

Traduction assistee par ordinateur et corpus comparables

1. Methode classique d’extraction de lexiques bilingues a partir de corpus comparables

Evaluation et performances

I Precision sur le TopN : % de termes avec un traductioncorrecte parmi les N premieres traductions candidates

I Corpus specialises <700k mots : 41% a 76% sur Top20I Difficulte (vs. corpus paralleles) :

I espace de recherche tres vasteI traduction peut etre absente

I Evaluation par reference :I capacite a reproduire un lexique construit a prioriI quid de l’apport en contexte d’utilisation reel ?

13 / 41

Traduction assistee par ordinateur et corpus comparables

1. Methode classique d’extraction de lexiques bilingues a partir de corpus comparables

Evaluation et performances

I Precision sur le TopN : % de termes avec un traductioncorrecte parmi les N premieres traductions candidates

I Corpus specialises <700k mots : 41% a 76% sur Top20I Difficulte (vs. corpus paralleles) :

I espace de recherche tres vasteI traduction peut etre absente

I Evaluation par reference :I capacite a reproduire un lexique construit a prioriI quid de l’apport en contexte d’utilisation reel ?

13 / 41

Traduction assistee par ordinateur et corpus comparables

2. Evaluation applicative des lexiques bilingues destines a la traduction humaine

Plan

1. Methode classique d’extraction de lexiques bilingues a partir decorpus comparables

2. Evaluation applicative des lexiques bilingues destines a latraduction humaine

3. Extraction de lexiques bilingues par l’approche compositionnelle

Conclusion

14 / 41

Traduction assistee par ordinateur et corpus comparables

2. Evaluation applicative des lexiques bilingues destines a la traduction humaine

Lexique evalue

I Extrait d’un corpus comparable cancer du sein EN-FR

I Interface riche [Delpech and Daille, 2010]: acces auxcontextes, recherche en corpus, variantes orthographiques,termes proches, frequence, etc.

15 / 41

Traduction assistee par ordinateur et corpus comparables

2. Evaluation applicative des lexiques bilingues destines a la traduction humaine

Methodologie d’evaluation[Delpech, 2011a, Delpech, 2011b]

16 / 41

Traduction assistee par ordinateur et corpus comparables

2. Evaluation applicative des lexiques bilingues destines a la traduction humaine

Methodologie d’evaluation

I Objet evalue : expressions problematiques

I Mesure : % de traductions exactes, acceptables, fausses

17 / 41

Traduction assistee par ordinateur et corpus comparables

2. Evaluation applicative des lexiques bilingues destines a la traduction humaine

Resultats

18 / 41

Traduction assistee par ordinateur et corpus comparables

2. Evaluation applicative des lexiques bilingues destines a la traduction humaine

Difficultes d’usage et resistances

I Trop de termes sources non couverts

⇒ collecte du corpus

I Pas assez d’information pour choisir la bonne traduction

⇒ contextualiser les traductions

I Pas assez precis, trop de traductions candidates

⇒ diminuer le nombre de traductions⇒ approche compositionnelle [Morin and Daille, 2010]

19 / 41

Traduction assistee par ordinateur et corpus comparables

2. Evaluation applicative des lexiques bilingues destines a la traduction humaine

Difficultes d’usage et resistances

I Trop de termes sources non couverts

⇒ collecte du corpus

I Pas assez d’information pour choisir la bonne traduction

⇒ contextualiser les traductions

I Pas assez precis, trop de traductions candidates

⇒ diminuer le nombre de traductions⇒ approche compositionnelle [Morin and Daille, 2010]

19 / 41

Traduction assistee par ordinateur et corpus comparables

2. Evaluation applicative des lexiques bilingues destines a la traduction humaine

Difficultes d’usage et resistances

I Trop de termes sources non couverts

⇒ collecte du corpus

I Pas assez d’information pour choisir la bonne traduction

⇒ contextualiser les traductions

I Pas assez precis, trop de traductions candidates

⇒ diminuer le nombre de traductions⇒ approche compositionnelle [Morin and Daille, 2010]

19 / 41

Traduction assistee par ordinateur et corpus comparables

2. Evaluation applicative des lexiques bilingues destines a la traduction humaine

Difficultes d’usage et resistances

I Trop de termes sources non couverts

⇒ collecte du corpus

I Pas assez d’information pour choisir la bonne traduction

⇒ contextualiser les traductions

I Pas assez precis, trop de traductions candidates

⇒ diminuer le nombre de traductions⇒ approche compositionnelle [Morin and Daille, 2010]

19 / 41

Traduction assistee par ordinateur et corpus comparables

3. Extraction de lexiques bilingues par l’approche compositionnelle

Plan

1. Methode classique d’extraction de lexiques bilingues a partir decorpus comparables

2. Evaluation applicative des lexiques bilingues destines a latraduction humaine

3. Extraction de lexiques bilingues par l’approche compositionnelle

Conclusion

20 / 41

Traduction assistee par ordinateur et corpus comparables

3. Extraction de lexiques bilingues par l’approche compositionnelle

Principe

“ab” “blue dye”Decomposition {a, b} {blue, dye}

Traduction {A, B} {bleu, colorant}Recomposition {AB, BA} {bleu colorant, colorant bleu}Selection “BA” “colorant bleu”

21 / 41

Traduction assistee par ordinateur et corpus comparables

3. Extraction de lexiques bilingues par l’approche compositionnelle

Principe

“ab” “blue dye”

Decomposition {a, b} {blue, dye}Traduction {A, B} {bleu, colorant}Recomposition {AB, BA} {bleu colorant, colorant bleu}Selection “BA” “colorant bleu”

21 / 41

Traduction assistee par ordinateur et corpus comparables

3. Extraction de lexiques bilingues par l’approche compositionnelle

Principe

“ab” “blue dye”Decomposition {a, b} {blue, dye}

Traduction {A, B} {bleu, colorant}Recomposition {AB, BA} {bleu colorant, colorant bleu}Selection “BA” “colorant bleu”

21 / 41

Traduction assistee par ordinateur et corpus comparables

3. Extraction de lexiques bilingues par l’approche compositionnelle

Principe

“ab” “blue dye”Decomposition {a, b} {blue, dye}

Traduction {A, B} {bleu, colorant}

Recomposition {AB, BA} {bleu colorant, colorant bleu}Selection “BA” “colorant bleu”

21 / 41

Traduction assistee par ordinateur et corpus comparables

3. Extraction de lexiques bilingues par l’approche compositionnelle

Principe

“ab” “blue dye”Decomposition {a, b} {blue, dye}

Traduction {A, B} {bleu, colorant}Recomposition {AB, BA} {bleu colorant, colorant bleu}

Selection “BA” “colorant bleu”

21 / 41

Traduction assistee par ordinateur et corpus comparables

3. Extraction de lexiques bilingues par l’approche compositionnelle

Principe

“ab” “blue dye”Decomposition {a, b} {blue, dye}

Traduction {A, B} {bleu, colorant}Recomposition {AB, BA} {bleu colorant, colorant bleu}Selection “BA” “colorant bleu”

21 / 41

Traduction assistee par ordinateur et corpus comparables

3. Extraction de lexiques bilingues par l’approche compositionnelle

Interet pour les corpus comparables

I Peu/pas dependant de la frequence des termes

I Meilleure precision : 88% sur Top1 vs. 20% sur Top20[Morin and Daille, 2010]

I Concerne de nombreux cas :I 60% des nouveaux termes sont complexes

[Namer and Baud, 2007]I 48,7% des composes Nom Nom ont une traduction

compositionnelle [?]I 75,1% des unites polylexicales ont une traduction

compositionnelle [Robitaille et al., 2006]

22 / 41

Traduction assistee par ordinateur et corpus comparables

3. Extraction de lexiques bilingues par l’approche compositionnelle

Interet pour les corpus comparables

I Peu/pas dependant de la frequence des termes

I Meilleure precision : 88% sur Top1 vs. 20% sur Top20[Morin and Daille, 2010]

I Concerne de nombreux cas :I 60% des nouveaux termes sont complexes

[Namer and Baud, 2007]I 48,7% des composes Nom Nom ont une traduction

compositionnelle [?]I 75,1% des unites polylexicales ont une traduction

compositionnelle [Robitaille et al., 2006]

22 / 41

Traduction assistee par ordinateur et corpus comparables

3. Extraction de lexiques bilingues par l’approche compositionnelle

Interet pour les corpus comparables

I Peu/pas dependant de la frequence des termes

I Meilleure precision : 88% sur Top1 vs. 20% sur Top20[Morin and Daille, 2010]

I Concerne de nombreux cas :I 60% des nouveaux termes sont complexes

[Namer and Baud, 2007]I 48,7% des composes Nom Nom ont une traduction

compositionnelle [?]I 75,1% des unites polylexicales ont une traduction

compositionnelle [Robitaille et al., 2006]

22 / 41

Traduction assistee par ordinateur et corpus comparables

3. Extraction de lexiques bilingues par l’approche compositionnelle

Interet pour les corpus comparables

I Peu/pas dependant de la frequence des termes

I Meilleure precision : 88% sur Top1 vs. 20% sur Top20[Morin and Daille, 2010]

I Concerne de nombreux cas :I 60% des nouveaux termes sont complexes

[Namer and Baud, 2007]I 48,7% des composes Nom Nom ont une traduction

compositionnelle [?]I 75,1% des unites polylexicales ont une traduction

compositionnelle [Robitaille et al., 2006]

22 / 41

Traduction assistee par ordinateur et corpus comparables

3. Extraction de lexiques bilingues par l’approche compositionnelle

Travaux existantsGestion de la variation

I Morpho-syntaxique [Cartoni, 2009, Morin and Daille, 2010]I gene therapy Õ therapie genique

I Divergence lexicale [Robitaille et al., 2006, S. Vintar, 2010]I machine translation Õ traduction automatique

I Fertilite :

I composes nominaux allemands Õ SN [Weller et al., 2011]I [ML] composes neoclassiques [Claveau and Kijak, 2011] :

alignements de type 菌 Õ {bacterie, bacterio, bacteri}

⇒ Ameliorer le traitement de la fertilite dans l’approchecompositionnelle

23 / 41

Traduction assistee par ordinateur et corpus comparables

3. Extraction de lexiques bilingues par l’approche compositionnelle

Travaux existantsGestion de la variation

I Morpho-syntaxique [Cartoni, 2009, Morin and Daille, 2010]I gene therapy Õ therapie genique

I Divergence lexicale [Robitaille et al., 2006, S. Vintar, 2010]I machine translation Õ traduction automatique

I Fertilite :

I composes nominaux allemands Õ SN [Weller et al., 2011]I [ML] composes neoclassiques [Claveau and Kijak, 2011] :

alignements de type 菌 Õ {bacterie, bacterio, bacteri}

⇒ Ameliorer le traitement de la fertilite dans l’approchecompositionnelle

23 / 41

Traduction assistee par ordinateur et corpus comparables

3. Extraction de lexiques bilingues par l’approche compositionnelle

Travaux existantsGestion de la variation

I Morpho-syntaxique [Cartoni, 2009, Morin and Daille, 2010]I gene therapy Õ therapie genique

I Divergence lexicale [Robitaille et al., 2006, S. Vintar, 2010]I machine translation Õ traduction automatique

I Fertilite :

I composes nominaux allemands Õ SN [Weller et al., 2011]I [ML] composes neoclassiques [Claveau and Kijak, 2011] :

alignements de type 菌 Õ {bacterie, bacterio, bacteri}

⇒ Ameliorer le traitement de la fertilite dans l’approchecompositionnelle

23 / 41

Traduction assistee par ordinateur et corpus comparables

3. Extraction de lexiques bilingues par l’approche compositionnelle

Travaux existantsGestion de la variation

I Morpho-syntaxique [Cartoni, 2009, Morin and Daille, 2010]I gene therapy Õ therapie genique

I Divergence lexicale [Robitaille et al., 2006, S. Vintar, 2010]I machine translation Õ traduction automatique

I Fertilite :

I composes nominaux allemands Õ SN [Weller et al., 2011]I [ML] composes neoclassiques [Claveau and Kijak, 2011] :

alignements de type 菌 Õ {bacterie, bacterio, bacteri}⇒ Ameliorer le traitement de la fertilite dans l’approche

compositionnelle

23 / 41

Traduction assistee par ordinateur et corpus comparables

3. Extraction de lexiques bilingues par l’approche compositionnelle

Travaux existantsGestion de la variation

I Morpho-syntaxique [Cartoni, 2009, Morin and Daille, 2010]I gene therapy Õ therapie genique

I Divergence lexicale [Robitaille et al., 2006, S. Vintar, 2010]I machine translation Õ traduction automatique

I Fertilite :I composes nominaux allemands Õ SN [Weller et al., 2011]

I [ML] composes neoclassiques [Claveau and Kijak, 2011] :alignements de type 菌 Õ {bacterie, bacterio, bacteri}

⇒ Ameliorer le traitement de la fertilite dans l’approchecompositionnelle

23 / 41

Traduction assistee par ordinateur et corpus comparables

3. Extraction de lexiques bilingues par l’approche compositionnelle

Travaux existantsGestion de la variation

I Morpho-syntaxique [Cartoni, 2009, Morin and Daille, 2010]I gene therapy Õ therapie genique

I Divergence lexicale [Robitaille et al., 2006, S. Vintar, 2010]I machine translation Õ traduction automatique

I Fertilite :I composes nominaux allemands Õ SN [Weller et al., 2011]I [ML] composes neoclassiques [Claveau and Kijak, 2011] :

alignements de type 菌 Õ {bacterie, bacterio, bacteri}

⇒ Ameliorer le traitement de la fertilite dans l’approchecompositionnelle

23 / 41

Traduction assistee par ordinateur et corpus comparables

3. Extraction de lexiques bilingues par l’approche compositionnelle

Travaux existantsGestion de la variation

I Morpho-syntaxique [Cartoni, 2009, Morin and Daille, 2010]I gene therapy Õ therapie genique

I Divergence lexicale [Robitaille et al., 2006, S. Vintar, 2010]I machine translation Õ traduction automatique

I Fertilite :I composes nominaux allemands Õ SN [Weller et al., 2011]I [ML] composes neoclassiques [Claveau and Kijak, 2011] :

alignements de type 菌 Õ {bacterie, bacterio, bacteri}⇒ Ameliorer le traitement de la fertilite dans l’approche

compositionnelle

23 / 41

Traduction assistee par ordinateur et corpus comparables

3. Extraction de lexiques bilingues par l’approche compositionnelle

Traitement de la fertilite [Delpech et al., 2012b]Propositions

I Decoupage en morphemesI antioxydant Õ anti+oxydantI mouthwash Õ mouth+wash

I Equivalence morpheme lie → morpheme libreI tumorectomy Õ ablation (de la) tumeurI randomly Õ (de) maniere randomiseeI postmenopause Õ apres (la) menopause

I Ne pas necessairement conserver la frontiere de morpheme :I mouth+wash Õ bain (de) bouche

24 / 41

Traduction assistee par ordinateur et corpus comparables

3. Extraction de lexiques bilingues par l’approche compositionnelle

Traitement de la fertilite [Delpech et al., 2012b]Propositions

I Decoupage en morphemesI antioxydant Õ anti+oxydantI mouthwash Õ mouth+wash

I Equivalence morpheme lie → morpheme libreI tumorectomy Õ ablation (de la) tumeurI randomly Õ (de) maniere randomiseeI postmenopause Õ apres (la) menopause

I Ne pas necessairement conserver la frontiere de morpheme :I mouth+wash Õ bain (de) bouche

24 / 41

Traduction assistee par ordinateur et corpus comparables

3. Extraction de lexiques bilingues par l’approche compositionnelle

Traitement de la fertilite [Delpech et al., 2012b]Propositions

I Decoupage en morphemesI antioxydant Õ anti+oxydantI mouthwash Õ mouth+wash

I Equivalence morpheme lie → morpheme libreI tumorectomy Õ ablation (de la) tumeurI randomly Õ (de) maniere randomiseeI postmenopause Õ apres (la) menopause

I Ne pas necessairement conserver la frontiere de morpheme :I mouth+wash Õ bain (de) bouche

24 / 41

Traduction assistee par ordinateur et corpus comparables

3. Extraction de lexiques bilingues par l’approche compositionnelle

Traitement de la fertilite [Delpech et al., 2012b]Propositions

I Decoupage en morphemesI antioxydant Õ anti+oxydantI mouthwash Õ mouth+wash

I Equivalence morpheme lie → morpheme libreI tumorectomy Õ ablation (de la) tumeurI randomly Õ (de) maniere randomiseeI postmenopause Õ apres (la) menopause

I Ne pas necessairement conserver la frontiere de morpheme :I mouth+wash Õ bain (de) bouche

24 / 41

Traduction assistee par ordinateur et corpus comparables

3. Extraction de lexiques bilingues par l’approche compositionnelle

Traitement de la fertilite

Limite : fertilite “de surface” (bijection entre morphemes sourceset cibles)

traite non traite

25 / 41

Traduction assistee par ordinateur et corpus comparables

3. Extraction de lexiques bilingues par l’approche compositionnelle

Traitement de la fertilite

Limite : fertilite “de surface” (bijection entre morphemes sourceset cibles)

traite non traite

25 / 41

Traduction assistee par ordinateur et corpus comparables

3. Extraction de lexiques bilingues par l’approche compositionnelle

Travaux existantsStructures traitees

I SN Õ SN [Robitaille et al., 2006, Leon, 2008]

I N N Õ N N [Baldwin and Tanaka, 2004]

I N Adj Õ N Adj ou N N [Morin and Daille, 2010]

I compose neoclassique Õ compose neoclassique[Harastani, 2014]

I prefixe Õ prefixe [Cartoni, 2009]

I compose nominal Õ compose nominal ou SN[Weller et al., 2011]

⇒ Ameliorer la genericite

26 / 41

Traduction assistee par ordinateur et corpus comparables

3. Extraction de lexiques bilingues par l’approche compositionnelle

Travaux existantsStructures traitees

I SN Õ SN [Robitaille et al., 2006, Leon, 2008]

I N N Õ N N [Baldwin and Tanaka, 2004]

I N Adj Õ N Adj ou N N [Morin and Daille, 2010]

I compose neoclassique Õ compose neoclassique[Harastani, 2014]

I prefixe Õ prefixe [Cartoni, 2009]

I compose nominal Õ compose nominal ou SN[Weller et al., 2011]

⇒ Ameliorer la genericite

26 / 41

Traduction assistee par ordinateur et corpus comparables

3. Extraction de lexiques bilingues par l’approche compositionnelle

Travaux existantsStructures traitees

I SN Õ SN [Robitaille et al., 2006, Leon, 2008]

I N N Õ N N [Baldwin and Tanaka, 2004]

I N Adj Õ N Adj ou N N [Morin and Daille, 2010]

I compose neoclassique Õ compose neoclassique[Harastani, 2014]

I prefixe Õ prefixe [Cartoni, 2009]

I compose nominal Õ compose nominal ou SN[Weller et al., 2011]

⇒ Ameliorer la genericite

26 / 41

Traduction assistee par ordinateur et corpus comparables

3. Extraction de lexiques bilingues par l’approche compositionnelle

Travaux existantsStructures traitees

I SN Õ SN [Robitaille et al., 2006, Leon, 2008]

I N N Õ N N [Baldwin and Tanaka, 2004]

I N Adj Õ N Adj ou N N [Morin and Daille, 2010]

I compose neoclassique Õ compose neoclassique[Harastani, 2014]

I prefixe Õ prefixe [Cartoni, 2009]

I compose nominal Õ compose nominal ou SN[Weller et al., 2011]

⇒ Ameliorer la genericite

26 / 41

Traduction assistee par ordinateur et corpus comparables

3. Extraction de lexiques bilingues par l’approche compositionnelle

Travaux existantsStructures traitees

I SN Õ SN [Robitaille et al., 2006, Leon, 2008]

I N N Õ N N [Baldwin and Tanaka, 2004]

I N Adj Õ N Adj ou N N [Morin and Daille, 2010]

I compose neoclassique Õ compose neoclassique[Harastani, 2014]

I prefixe Õ prefixe [Cartoni, 2009]

I compose nominal Õ compose nominal ou SN[Weller et al., 2011]

⇒ Ameliorer la genericite

26 / 41

Traduction assistee par ordinateur et corpus comparables

3. Extraction de lexiques bilingues par l’approche compositionnelle

Travaux existantsStructures traitees

I SN Õ SN [Robitaille et al., 2006, Leon, 2008]

I N N Õ N N [Baldwin and Tanaka, 2004]

I N Adj Õ N Adj ou N N [Morin and Daille, 2010]

I compose neoclassique Õ compose neoclassique[Harastani, 2014]

I prefixe Õ prefixe [Cartoni, 2009]

I compose nominal Õ compose nominal ou SN[Weller et al., 2011]

⇒ Ameliorer la genericite

26 / 41

Traduction assistee par ordinateur et corpus comparables

3. Extraction de lexiques bilingues par l’approche compositionnelle

Travaux existantsStructures traitees

I SN Õ SN [Robitaille et al., 2006, Leon, 2008]

I N N Õ N N [Baldwin and Tanaka, 2004]

I N Adj Õ N Adj ou N N [Morin and Daille, 2010]

I compose neoclassique Õ compose neoclassique[Harastani, 2014]

I prefixe Õ prefixe [Cartoni, 2009]

I compose nominal Õ compose nominal ou SN[Weller et al., 2011]

⇒ Ameliorer la genericite

26 / 41

Traduction assistee par ordinateur et corpus comparables

3. Extraction de lexiques bilingues par l’approche compositionnelle

Travaux existantsStructures traitees

I SN Õ SN [Robitaille et al., 2006, Leon, 2008]

I N N Õ N N [Baldwin and Tanaka, 2004]

I N Adj Õ N Adj ou N N [Morin and Daille, 2010]

I compose neoclassique Õ compose neoclassique[Harastani, 2014]

I prefixe Õ prefixe [Cartoni, 2009]

I compose nominal Õ compose nominal ou SN[Weller et al., 2011]

⇒ Ameliorer la genericite

26 / 41

Traduction assistee par ordinateur et corpus comparables

3. Extraction de lexiques bilingues par l’approche compositionnelle

Amelioration de la genericite

I Pas d’a priori sur les structures : pas de patrons de traductionsI Approche par “force brute”:

I generation de toutes les traductions possiblesI filtrage sur le corpus cible + ranking

27 / 41

Traduction assistee par ordinateur et corpus comparables

3. Extraction de lexiques bilingues par l’approche compositionnelle

Amelioration de la genericite

I Pas d’a priori sur les structures : pas de patrons de traductions

I Approche par “force brute”:I generation de toutes les traductions possiblesI filtrage sur le corpus cible + ranking

27 / 41

Traduction assistee par ordinateur et corpus comparables

3. Extraction de lexiques bilingues par l’approche compositionnelle

Amelioration de la genericite

I Pas d’a priori sur les structures : pas de patrons de traductionsI Approche par “force brute”:

I generation de toutes les traductions possiblesI filtrage sur le corpus cible + ranking

27 / 41

Traduction assistee par ordinateur et corpus comparables

3. Extraction de lexiques bilingues par l’approche compositionnelle

Generation [Delpech et al., 2012a]

28 / 41

Traduction assistee par ordinateur et corpus comparables

3. Extraction de lexiques bilingues par l’approche compositionnelle

Generation [Delpech et al., 2012a]

28 / 41

Traduction assistee par ordinateur et corpus comparables

3. Extraction de lexiques bilingues par l’approche compositionnelle

Generation [Delpech et al., 2012a]

28 / 41

Traduction assistee par ordinateur et corpus comparables

3. Extraction de lexiques bilingues par l’approche compositionnelle

Generation [Delpech et al., 2012a]

28 / 41

Traduction assistee par ordinateur et corpus comparables

3. Extraction de lexiques bilingues par l’approche compositionnelle

Generation [Delpech et al., 2012a]

28 / 41

Traduction assistee par ordinateur et corpus comparables

3. Extraction de lexiques bilingues par l’approche compositionnelle

Generation [Delpech et al., 2012a]

28 / 41

Traduction assistee par ordinateur et corpus comparables

3. Extraction de lexiques bilingues par l’approche compositionnelle

Generation [Delpech et al., 2012a]

28 / 41

Traduction assistee par ordinateur et corpus comparables

3. Extraction de lexiques bilingues par l’approche compositionnelle

Generation [Delpech et al., 2012a]

28 / 41

Traduction assistee par ordinateur et corpus comparables

3. Extraction de lexiques bilingues par l’approche compositionnelle

Generation [Delpech et al., 2012a]

28 / 41

Traduction assistee par ordinateur et corpus comparables

3. Extraction de lexiques bilingues par l’approche compositionnelle

Generation [Delpech et al., 2012a]

28 / 41

Traduction assistee par ordinateur et corpus comparables

3. Extraction de lexiques bilingues par l’approche compositionnelle

Filtrage

cytotoxic↓

toxique cellule

↓toxique (prep|det|num|conj){0,3} cellule

Projection corpus :

I “...substance est toxique pour les cellules de cancer...”

I “...medicaments toxiques pour la cellule cancereuse...”

⇒toxique/Adj pour/Prep le/Det cellule/Nom

29 / 41

Traduction assistee par ordinateur et corpus comparables

3. Extraction de lexiques bilingues par l’approche compositionnelle

Filtrage

cytotoxic↓

toxique cellule↓

toxique (prep|det|num|conj){0,3} cellule

Projection corpus :

I “...substance est toxique pour les cellules de cancer...”

I “...medicaments toxiques pour la cellule cancereuse...”

⇒toxique/Adj pour/Prep le/Det cellule/Nom

29 / 41

Traduction assistee par ordinateur et corpus comparables

3. Extraction de lexiques bilingues par l’approche compositionnelle

Filtrage

cytotoxic↓

toxique cellule↓

toxique (prep|det|num|conj){0,3} cellule

Projection corpus :

I “...substance est toxique pour les cellules de cancer...”

I “...medicaments toxiques pour la cellule cancereuse...”

⇒toxique/Adj pour/Prep le/Det cellule/Nom

29 / 41

Traduction assistee par ordinateur et corpus comparables

3. Extraction de lexiques bilingues par l’approche compositionnelle

Filtrage

cytotoxic↓

toxique cellule↓

toxique (prep|det|num|conj){0,3} cellule

Projection corpus :

I “...substance est toxique pour les cellules de cancer...”

I “...medicaments toxiques pour la cellule cancereuse...”

⇒toxique/Adj pour/Prep le/Det cellule/Nom

29 / 41

Traduction assistee par ordinateur et corpus comparables

3. Extraction de lexiques bilingues par l’approche compositionnelle

Ranking multi-criteres [Delpech et al., 2012a]

C similarite des Contextes source et cible

F Frequence traduction

P probabilite traduction Parties du discours

M fiabilite Modes de traduction

I Combinaison : C + F + P + M apres standardisation

30 / 41

Traduction assistee par ordinateur et corpus comparables

3. Extraction de lexiques bilingues par l’approche compositionnelle

Experimentation

I Corpus cancer du sein EN FR DE1, '400k mots par langue

I Traduction ENÕ FR et EN Õ DEI Unites monolexicales morphologiquement complexes

I composes neoclassiques : tumorectomyI composes populaires : docetaxel-inducedI prefixes : anti-oestrogenI suffixes : colourless

I Selection :I non traduites par le dictionnaire bilingueI traduction non presente dans le corpus cible

1en collaboration avec Claire Lemaire, Universite Stendhal, Grenoble31 / 41

Traduction assistee par ordinateur et corpus comparables

3. Extraction de lexiques bilingues par l’approche compositionnelle

Experimentation

I Corpus cancer du sein EN FR DE1, '400k mots par langue

I Traduction ENÕ FR et EN Õ DEI Unites monolexicales morphologiquement complexes

I composes neoclassiques : tumorectomyI composes populaires : docetaxel-inducedI prefixes : anti-oestrogenI suffixes : colourless

I Selection :I non traduites par le dictionnaire bilingueI traduction non presente dans le corpus cible

1en collaboration avec Claire Lemaire, Universite Stendhal, Grenoble31 / 41

Traduction assistee par ordinateur et corpus comparables

3. Extraction de lexiques bilingues par l’approche compositionnelle

Experimentation

I Corpus cancer du sein EN FR DE1, '400k mots par langue

I Traduction ENÕ FR et EN Õ DE

I Unites monolexicales morphologiquement complexesI composes neoclassiques : tumorectomyI composes populaires : docetaxel-inducedI prefixes : anti-oestrogenI suffixes : colourless

I Selection :I non traduites par le dictionnaire bilingueI traduction non presente dans le corpus cible

1en collaboration avec Claire Lemaire, Universite Stendhal, Grenoble31 / 41

Traduction assistee par ordinateur et corpus comparables

3. Extraction de lexiques bilingues par l’approche compositionnelle

Experimentation

I Corpus cancer du sein EN FR DE1, '400k mots par langue

I Traduction ENÕ FR et EN Õ DEI Unites monolexicales morphologiquement complexes

I composes neoclassiques : tumorectomyI composes populaires : docetaxel-inducedI prefixes : anti-oestrogenI suffixes : colourless

I Selection :I non traduites par le dictionnaire bilingueI traduction non presente dans le corpus cible

1en collaboration avec Claire Lemaire, Universite Stendhal, Grenoble31 / 41

Traduction assistee par ordinateur et corpus comparables

3. Extraction de lexiques bilingues par l’approche compositionnelle

Experimentation

I Corpus cancer du sein EN FR DE1, '400k mots par langue

I Traduction ENÕ FR et EN Õ DEI Unites monolexicales morphologiquement complexes

I composes neoclassiques : tumorectomyI composes populaires : docetaxel-inducedI prefixes : anti-oestrogenI suffixes : colourless

I Selection :I non traduites par le dictionnaire bilingueI traduction non presente dans le corpus cible

1en collaboration avec Claire Lemaire, Universite Stendhal, Grenoble31 / 41

Traduction assistee par ordinateur et corpus comparables

3. Extraction de lexiques bilingues par l’approche compositionnelle

Evaluation a priori vs. a posteriori [Ozdowska, 2006]

A priori I utilisation d’un lexique de referenceI ideal pour comparaisonI evaluation du rappel⇒ vision biaisee des performances en situation

d’utilisation : traduction se trouve dans lapartie cible

A posteriori I annotation des sorties par des jugesI plus subjectifI seuls couverture et precision evaluables⇒ plus fidele a la performances en situation

d’utilisation

32 / 41

Traduction assistee par ordinateur et corpus comparables

3. Extraction de lexiques bilingues par l’approche compositionnelle

Evaluation a priori vs. a posteriori [Ozdowska, 2006]

A priori I utilisation d’un lexique de referenceI ideal pour comparaisonI evaluation du rappel⇒ vision biaisee des performances en situation

d’utilisation : traduction se trouve dans lapartie cible

A posteriori I annotation des sorties par des jugesI plus subjectifI seuls couverture et precision evaluables⇒ plus fidele a la performances en situation

d’utilisation

32 / 41

Traduction assistee par ordinateur et corpus comparables

3. Extraction de lexiques bilingues par l’approche compositionnelle

Evaluation a priori vs. a posteriori [Ozdowska, 2006]

A priori I utilisation d’un lexique de referenceI ideal pour comparaisonI evaluation du rappel⇒ vision biaisee des performances en situation

d’utilisation : traduction se trouve dans lapartie cible

A posteriori I annotation des sorties par des jugesI plus subjectifI seuls couverture et precision evaluables⇒ plus fidele a la performances en situation

d’utilisation

32 / 41

Traduction assistee par ordinateur et corpus comparables

3. Extraction de lexiques bilingues par l’approche compositionnelle

Evaluation a prioriResultats

UMLSR Pmax P@1 alea P@1 rank F1 @1 rank

EN-FR .52 .80 .65 .75 .61

EN-DE .51 .70 .53 .58 .54

UMLS + annotations juges, ex. : bioavailable Õ biodisponibiliteR Pmax P@1 alea P@1 rank F1 @1 rank

EN-FR .63 .95 .92 .95 .76

EN-DE .66 .89 .81 .87 .75

33 / 41

Traduction assistee par ordinateur et corpus comparables

3. Extraction de lexiques bilingues par l’approche compositionnelle

Evaluation a prioriResultats

UMLSR Pmax P@1 alea P@1 rank F1 @1 rank

EN-FR .52 .80 .65 .75 .61

EN-DE .51 .70 .53 .58 .54

UMLS + annotations juges, ex. : bioavailable Õ biodisponibiliteR Pmax P@1 alea P@1 rank F1 @1 rank

EN-FR .63 .95 .92 .95 .76

EN-DE .66 .89 .81 .87 .75

33 / 41

Traduction assistee par ordinateur et corpus comparables

3. Extraction de lexiques bilingues par l’approche compositionnelle

Evaluation a prioriTravaux similaires

Compositionnelle P R F1[Robitaille et al., 2006] SN .81 .82 .81

[Baldwin and Tanaka, 2004] N N .51 .47 .49

+ trad. acceptables .78 .72 .75

[Cartoni, 2009] prefixes .42-.94

[Morin and Daille, 2010] N ADJ .88 .13 .23

[Harastani, 2014] neoclassique .95-1 .2-.12 .5-.22

ML P R F1[Claveau and Kijak, 2011] neoclassique .63 .45 .53

+ autres ressources .89 .64 .74

34 / 41

Traduction assistee par ordinateur et corpus comparables

3. Extraction de lexiques bilingues par l’approche compositionnelle

Evaluation a posteriori

I Mesures :

PrecisionCouverture % termes sources avec au moins 1 traduction

(qq soit sa qualite)Utilisabilite % termes sources avec au moins 1 traduction

correcte (C× P)

I Resultats :

C P UEN-FR .40 .59 .24

EN-DE .36 .48 .18

PA UA

.69 .28

.56 .20

35 / 41

Traduction assistee par ordinateur et corpus comparables

3. Extraction de lexiques bilingues par l’approche compositionnelle

Evaluation a posteriori

I Mesures :

PrecisionCouverture % termes sources avec au moins 1 traduction

(qq soit sa qualite)Utilisabilite % termes sources avec au moins 1 traduction

correcte (C× P)

I Resultats :

C P UEN-FR .40 .59 .24

EN-DE .36 .48 .18

PA UA

.69 .28

.56 .20

35 / 41

Traduction assistee par ordinateur et corpus comparables

3. Extraction de lexiques bilingues par l’approche compositionnelle

Evaluation a posteriori

I Mesures :

Precision

Couverture % termes sources avec au moins 1 traduction(qq soit sa qualite)

Utilisabilite % termes sources avec au moins 1 traductioncorrecte (C× P)

I Resultats :

C P UEN-FR .40 .59 .24

EN-DE .36 .48 .18

PA UA

.69 .28

.56 .20

35 / 41

Traduction assistee par ordinateur et corpus comparables

3. Extraction de lexiques bilingues par l’approche compositionnelle

Evaluation a posteriori

I Mesures :

PrecisionCouverture % termes sources avec au moins 1 traduction

(qq soit sa qualite)

Utilisabilite % termes sources avec au moins 1 traductioncorrecte (C× P)

I Resultats :

C P UEN-FR .40 .59 .24

EN-DE .36 .48 .18

PA UA

.69 .28

.56 .20

35 / 41

Traduction assistee par ordinateur et corpus comparables

3. Extraction de lexiques bilingues par l’approche compositionnelle

Evaluation a posteriori

I Mesures :

PrecisionCouverture % termes sources avec au moins 1 traduction

(qq soit sa qualite)Utilisabilite % termes sources avec au moins 1 traduction

correcte (C× P)

I Resultats :

C P UEN-FR .40 .59 .24

EN-DE .36 .48 .18

PA UA

.69 .28

.56 .20

35 / 41

Traduction assistee par ordinateur et corpus comparables

3. Extraction de lexiques bilingues par l’approche compositionnelle

Evaluation a posteriori

I Mesures :

PrecisionCouverture % termes sources avec au moins 1 traduction

(qq soit sa qualite)Utilisabilite % termes sources avec au moins 1 traduction

correcte (C× P)

I Resultats :

C P UEN-FR .40 .59 .24

EN-DE .36 .48 .18

PA UA

.69 .28

.56 .20

35 / 41

Traduction assistee par ordinateur et corpus comparables

3. Extraction de lexiques bilingues par l’approche compositionnelle

Evaluation a posteriori

I Mesures :

PrecisionCouverture % termes sources avec au moins 1 traduction

(qq soit sa qualite)Utilisabilite % termes sources avec au moins 1 traduction

correcte (C× P)

I Resultats :

C P UEN-FR .40 .59 .24

EN-DE .36 .48 .18

PA UA

.69 .28

.56 .20

35 / 41

Traduction assistee par ordinateur et corpus comparables

Conclusion

Plan

1. Methode classique d’extraction de lexiques bilingues a partir decorpus comparables

2. Evaluation applicative des lexiques bilingues destines a latraduction humaine

3. Extraction de lexiques bilingues par l’approche compositionnelle

Conclusion

36 / 41

Traduction assistee par ordinateur et corpus comparables

Conclusion

Peut-on utiliser les corpus comparables pour extraire deslexiques bilingues utiles pour les traducteurs ?

I Approche par similarite contextuelle :I forte couverture mais lexiques trop ambigus

I Approche compositionnelle :I reduit le nombre de traductions mais cantonnee aux elements

avec traduction compositionnelleI 20% a 28% avec une traduction correcte

37 / 41

Traduction assistee par ordinateur et corpus comparables

Conclusion

Tres ambitieux en l’etat actuel

I Lexique obtenu tres reduit ou trop ambiguI Difficile d’augmenter le corpus

I thematique fine, forte comparabiliteI peu de textes specialises

I Difficulte inherente aux corpus comparables :I seulement une partie du vocabulaire en commun

38 / 41

Traduction assistee par ordinateur et corpus comparables

Conclusion

Perspectives I

I Peu utile pour la phase de traduction proprement dite

I Utile pour :I phase d’exploration / familiarisation avec le domaine

[Durieux, 2010]I assistance a la consistution de ressources lexicales

specialisees/terminologiques

39 / 41

Traduction assistee par ordinateur et corpus comparables

Conclusion

Perspectives II

I Conclusion : aider a l’exploration de corpus comparablesI extraction, alignement de contextes pertinentsI outils de recherche avances, concordanciersI travailler avec les traducteurs/terminologues : automatiser les

techniques

I Projet ANR CRISTAL : extraction de contextes richesen connaissance dans les corpus comparables (LINA,Lingua et Machina, CLLE-ERSS, FTI)

40 / 41

Merci pour votre attention

Slides complementaires

Traduction assistee par ordinateur et corpus comparables

Taille donnees

Donnees evaluation

S termes sources

R reference a priori

P reference aposterioriR ∩ P 6= ∅

T donneesapprentissagerankkingT = P \ R

E donneesevaluation dumod rankingE = P ∩ R

43 / 41

Traduction assistee par ordinateur et corpus comparables

Taille donnees

Lexiques evaluation

EN-FR EN-DE

1839 1824

Table: Termes sources a traduire

EN-FR EN-DE

126 Õ 163 90 Õ 104

Table: Lexique evaluation a priori

EN-FR EN-DE

730 Õ 2129 654 Õ 2016

Table: Lexique evaluation a posteriori

44 / 41

Traduction assistee par ordinateur et corpus comparables

Apport modele generique

Genericite du modele : methodes testees

I Prefixation : pretreatment Õ pre-traitement

I Composition savante : hypercalcaemia Õ hypercalcemie

I Composition populaire : acute-phase Õ Akutphase, akutenPhase

I Cognat : t-test Õ t-Test

45 / 41

Traduction assistee par ordinateur et corpus comparables

Apport modele generique

Genericite du modele : resultats

I Composition savante, prefixation : methodes tres precises(>0.92) mais petite couverture (<0.03)

I Composition populaire : petite couverture, moyennementprecise (0.62 a 0.65)

I Cognats : meilleure couverture (0.10 a 0.13), precisionmoyenne a bonne (0.66 a 0.81)

I Notre methode :I large couverture : 0.36 a 0.40I precision moyenne : 0.68 a 0.56I utilisabilite meilleure : 0.20 a 0.28 vs. cognats 0.07 a 0.10

46 / 41

Genericite I

C PE UE PEA UEA

Composition savante (18%) ,03 ,95 ,03 1 ,03Cognat ,13 ,66 ,08 ,81 ,10Composition populaire (48 %) ,05 ,63 ,03 ,65 ,03Prefixation (31%) ,02 ,90 ,02 ,97 ,02

Notre methode ,40 ,59 ,24 ,69 ,28

Table: anglais Õ francais

Genericite II

C PE UE PEA UEA

Composition savante (18%) ,03 ,96 ,02 ,98 ,02Cognat ,10 ,58 ,06 ,66 ,07Composition populaire (49 %) ,04 ,55 ,02 ,62 ,03Prefixation (32%) ,03 ,86 ,02 ,92 ,03

Notre methode ,36 ,48 ,17 ,56 ,20

Table: anglais Õ allemand

Traduction assistee par ordinateur et corpus comparables

Apport modele generique

Genericite du modele : discussion

I Variation morphologique : pretreatment Õ pretraiter,cardiotoxicityÕ cardiotoxique, time-consumingÕ consommateur de temps

I Fertilite : pretreatment Õ avant le traitement,hypercalcaemia Õ zu viel calcium in das blut

I Cognats : aromatase-inhibiting Õ hemmung deraromatase‘inhibition de l’aromatase’

I Suffixes : colorless Õ sans colorant, randomly Õ (de)maniere randomisee

I Strategie de repli : ribosome Õ ribosomique

49 / 41

Traduction assistee par ordinateur et corpus comparables

Apport ressources linguistiques

Apport des ressources linguistiques

Systeme de base : dictionnaire generaliste et table de traductiondes morphemes

I Synonymes : pas adaptes (bloodstream Õ courant sanguinÕ circulation sanguine)

I Familles morphologiques : +0.09 a 0.11 de couverture ; +0.04a 0.06 d’utilisabilite

I Cognats : + 0.12 de couverture ; +0.06 a 0.09 d’utilisabilite

I Combinaison : + 0.17 a 0.24 couverture ; +0.10 a 0.16utilisabilite

50 / 41

Ressources linguistiques I

C PE UE PEA UEA

Base ,16 ,73 ,12 ,77 ,12Base + dictionnaire de cognats ,28 ,71 ,19 ,77 ,21Base + familles morphologiques ,27 ,56 ,15 ,66 ,18Base + dictionnaire synonymes ,17 ,69 ,12 ,72 ,13

Toutes les ressources ,40 ,59 ,24 ,69 ,28

Table: anglais Õ francais

Ressources linguistiques II

C PE UE PEA UEA

Base ,15 ,60 ,09 ,63 ,10Base + dictionnaire de cognats ,27 ,56 ,15 ,61 ,16Base + familles morphologiques ,24 ,48 ,12 ,57 ,14Base + dictionnaire synonymes ,17 ,55 ,09 ,60 ,10

Toutes les ressources ,36 ,48 ,17 ,56 ,20

Table: anglais Õ allemand

Traduction assistee par ordinateur et corpus comparables

Apport traductions fertiles

Apport des traductions fertiles

I Traductions fertiles nettement moins precises (-0.20 a -0.39)I Combinaison aux traductions non fertiles interessante (+6 a 10

points utilisabilite)

53 / 41

Traductions fertiles I

C PE UE PEA UEA

Traductions non fertiles ,24 ,58 ,14 ,75 ,18Traductions fertiles ,24 ,52 ,12 ,55 ,13

Traductions non fertiles ,24 ,58 ,14 ,75 ,18Toutes les traductions ,40 ,59 , 24 ,69 ,28

Table: anglais Õ francais

Traductions fertiles II

C PE UE PEA UEA

Traductions non fertiles ,24 ,58 ,14 ,69 ,16Traductions fertiles ,20 ,26 ,05 ,30 ,06

Traductions non fertiles ,24 ,58 ,14 ,69 ,16Toutes les traductions ,36 ,48 ,17 ,56 ,20

Table: anglais Õ allemand

Traduction assistee par ordinateur et corpus comparables

Experiences ranking

Nombre de traductions candidates

56 / 41

Traduction assistee par ordinateur et corpus comparables

Experiences ranking

Donnees experimentales

57 / 41

Traduction assistee par ordinateur et corpus comparables

Experiences ranking

Resultats

I Comparaison des criteres :I Contextes : moins bon critere (0.80 a 0.88 Top1)I Fiabilite des modes de traduction : meilleur critere (0.82 a

0.93 Top1)

I Meilleures methodes (0.85 a 0.93, +5 a 9 points vs. aleatoire,Top1) :

I Combinaison non pondereeI Combinaison pondereeI Coordinate Ascent, AdaRank

58 / 41

Traduction assistee par ordinateur et corpus comparables

Experiences ranking

Resultats anglais Õ francais

Top1 Top2 Top3 RPM

Meilleure precision possible ,94 ,94 ,94 1

Combinaison non ponderee ,928 ,94 ,94 2Combinaison ponderee ,928 ,94 ,94 2Coordinate Ascent ,928 ,94 ,94 2Lambda MART ,928 ,94 ,94 2M ,928 ,94 ,94 2F ,916 ,928 ,94 3

AdaRank ,892 ,904 ,928 4

P ,892 ,904 ,928 4

C ,88 ,904 ,928 4

Aleatoire ,836 ,898 ,928 13

59 / 41

Traduction assistee par ordinateur et corpus comparables

Experiences ranking

Resultats anglais Õ allemand

Top1 Top2 Top3 RPM

Meilleure precision possible ,879 ,879 ,879 1

Combinaison ponderee ,848 ,879 ,879 2Lambda MART ,848 ,864 ,864 5Combinaison non ponderee ,833 ,864 ,879 3Coordinate Ascent ,833 ,864 ,879 3F ,833 ,848 ,879 3AdaRank ,833 ,848 ,848 17

P ,833 ,848 ,848 17

M ,818 ,864 ,879 3C ,803 ,864 ,864 28

Aleatoire ,77 ,832 ,846 28

60 / 41

Traduction assistee par ordinateur et corpus comparables

References

Principales publications

I TheseFR Delpech (2013) : “Traduction assistee par ordinateur et corpus comparables”,

These de doctorat en Informatique, Universite de Nantes, France, 265 pages.EN Delpech (2014) : “Comparable Corpora and Computer-assisted Translation”, ISTE

Wiley, London, 287 pages.

I Evaluation applicativeFR, long Delpech (2011) : “Un protocole d’evaluation applicative des terminologies bilingues

destinees a la traduction specialisee”, Revue des Nouvelles Technologies del’Information (RNTI), vol. RNTI-E-22, pp. 23–48.

EN, court Delpech (2011) : “Evaluation of Terminologies acquired from Comparable Copora:an Application Perspective”, Proc. of the 18th Nordic Conference of ComputationalLinguistics (NODALIDA), pp. 66–73, Riga, Lettonie.

I Generation de lexiques bilinguesEN, Fertilite Delpech et al. (2012) : “Identification of Fertile Translation in Medical Comparable

Corpora”, 10th biennial Conference of the Association for Machine Translation inthe Americas (AMTA’12), 10 pages, San Diego, CA.

EN,Generation+Ranking Delpech et al. (2012) : “Extraction of domain-specific bilingual lexicon fromcomparable corpora: compositional translation and ranking”, Proc. of the 24thInternational Conference on Computational Linguistics, Long papers (COLING’12),pp. 745–762, Mumbia, India.

61 / 41

References I

Baker, M. (1996).

Corpus-based translation studies: The challenges that lie ahead.In Somers, H., editor, Terminology, LSP and Translation: Studies in Language Engineering in Honour ofJuan C. Sager. John Benjamins, Amsterdam, Pays-Bas et Philadelphia, Etats-Unis d’Amerique.

Baldwin, T. and Tanaka, T. (2004).

Translation by machine of complex nominals.In Proceedings of the ACL 2004 Workshop on Multiword expressions: Integrating Processing, pages 24–31,Barcelona, Spain.

Brown de Colstoun, F., Delpech, E., and Monneret, E. (2011).

Libellex : une plateforme multiservices pour la gestion des contenus multilingues.In Lafourcade, M. and Prince, V., editors, Actes de la 18eme conferences sur le traitement automatique deslangues naturelles, volume 2, page 319, Montpellier, France.

Carpuat, M., III, H. D., Fraser, A., Quirk, C., Braune, F., Clifton, A., Irvine, A., Jagarlamudi, J., Morgan,

J., Razmara, M., Tamchyna, A., Henry, K., and Rudinger, R. (2012).Domain adaptation in machine translation: Final report.In 2012 Johns Hopkins Summer Workshop Final Report.derniere consultation le 01/02/2013.

Cartoni, B. (2009).

Lexical morphology in machine translation: A feasibility study.In Proceedings of the 12th Conference of the European Chapter of the ACL, pages 130–138, Athenes, Grece.

Claveau, V. and Kijak, E. (2011).

Morphological analysis of biomedical terminology with Analogy-Based alignment.In Proceedings of the International Conference Recent Advances in Natural Language Processing 2011,pages 347–354, Hissar, Bulgaria.

References II

Delpech, E. (2011a).

Evaluation of terminologies acquired from comparable corpora : an application perspective.In Pedersen B.S., Nespore G., S. I., editor, Proceedings of the 18th Nordic Conference of ComputationalLinguistics (NODALIDA 2011), volume 11 of NEALT Proceedings Series,, pages 66–73, Riga, Latvia.

Delpech, E. (2011b).

Un protocole d’evaluation applicative des terminologies bilingues destinees a la traduction specialisee.Revue des Nouvelles Technologies de l’Information (RNTI) - Numero special : Evaluation des methodesd’Extraction de Connaissances dans les Donnees (Eval’ECD).

Delpech, E. and Daille, B. (2010).

Dealing with lexicon acquired from comparable corpora : validation and exchange.In Proceedings of the 2010 Terminology and Knowledge Engineering Conference (TKE 2010), pages211–223, Dublin, Ireland.

Delpech, E., Daille, B., Morin, E., and Lemaire, C. (2012a).

Extraction of domain-specific bilingual lexicon from comparable corpora: a compositional translation andranking.In Proceedings of the 24th International Conference on Computational Linguistics, pages 745–762, Mumbai,Inde.

Delpech, E., Daille, B., Morin, E., and Lemaire, C. (2012b).

Identification of fertile translations in medical comparable corpora: a morpho-compositional approach.In Proceedings of the 10th biennial conference of the Association for Machine Translation in the Americas,San Diego, California.

Durieux, C. (2010).

Fondement didactique de la traduction technique.La maison du dictionnaire, Paris, France.

References III

Friedbichler, I. and Friedbichler, M. (1997).

The potential of domain-specific target-language corpora for the translator’s workbench.In First international conference on Corpus Use and Learning to Translate, Bertinoro, Italie.

Fung, P. (1997).

Finding terminology translations from non-parallel corpora.In Proceedings of the 5th Annual Workshop on Very Large Corpora, pages 192–202, Hong Kong.

Harastani, R. (2014).

Alignement lexical en corpus comparables : le cas des composes savants et des adjectifs relationnels.These de doctorat en informatique, Universite de Nantes, Nantes, France.

Leon, S. (2008).

Acquisition automatique de traductions d’unites lexicales complexes a partir du Web.These en sciences du langage - traitement automatique des langues, Universite de Provence - Aix-MarseilleI, Marseille, France.

Li, B., Gaussier, E., Morin, E., and Hazem, A. (2011).

Degre de comparabilite, extraction lexicale et recherche d’information interlingue.In Actes de la 18eme conferences sur le traitement automatique des langues naturelles, pages 283–293,Montpellier, France.

Mc Enery, A. M. and Xiao, R. Z. (2007).

Parallel and comparable corpora: What is happening?In G. Anderman, M. R., editor, Incorporating Corpora: The Linguist and the Translator., TranslatingEurope, pages 18–31. Multilingual Matters, Clevedon, UK.

Morin, E. and Daille, B. (2010).

Compositionality and lexical alignment of multi-word terms.In Rayson, P., Piao, S., Sharoff, S., Evert, S., and B., V., editors, Language Resources and Evaluation(LRE), volume 44 of Multiword expression: hard going or plain sailing, pages 79–95. Springer Netherlands.

References IV

Namer, F. and Baud, R. (2007).

Defining and relating biomedical terms: Towards a cross-language morphosemantics-based system.International Journal of Medical Informatics, 76(2-3):226–33.

Ozdowska, S. (2006).

ALIBI, un systeme d’ALIgnement BIlingue a base de regles de propapagation syntaxique.These de doctorat en sciences du langage, Universite Toulouse II Le Mirail, Toulouse, France.

Rapp, R. (1999).

Automatic Identification of Word Translations from Unrelated English and German Corpora.In Proceedings of the 37th Annual Meeting of the Association for Computational Linguistics (ACL’99),pages 519–526, College Park, MD, USA.

Robitaille, X., Sasaki, X., Tonoike, M., Sato, S., and Utsuro, S. (2006).

Compiling French-Japanese terminologies from the web.In Proceedings of the 11th Conference of the European Chapter of the Association for ComputationalLinguistics, pages 225–232, Trento, Italy.

S. Vintar (2010).

Bilingual term recognition revisited the bag-of-equivalents term alignment approach and its evaluation.Terminology, 16(2):141–158.

Weller, M., Gojun, A., Heid, U., Daille, B., and Harastani, R. (2011).

Simple methods for dealing with term variation and term alignment.In Proceedings of the 9th International Conference on Terminology and Artificial Intelligence, pages 87–93,Paris, France.

Zanettin, F. (1998).

Bilingual comparable corpora and the training of translators.Meta : journal des traducteurs / Meta: Translator’s Journal, 43(4):616–630.