Seminari de Traducció Automàtica Aplicacions del PLN
description
Transcript of Seminari de Traducció Automàtica Aplicacions del PLN
N. Bel & M. Marimon 2005-06N. Bel & M. Marimon 2005-06
Seminari de Traducció AutomàticaAplicacions del PLN
Traducció basada en informació lingüística (2)
N. Bel & M. Marimon 2005-06N. Bel & M. Marimon 2005-06
Traducció basada en informació lingüística
• Característiques tècniques dels sistemes de traducció automàtica (anàlisi, generació, lèxic, parser, etc.)
• L'arquitectura dels sistemes de traducció automàtica: – sistemes de transferència– d’interlingua– explotació estadística d’informació lingüística
N. Bel & M. Marimon 2005-06N. Bel & M. Marimon 2005-06
Nivell d’anàlisi
ParaulesParaules ParaulesParaules
Inf. sintàcticaInf. sintàctica Inf. sintàcticaInf. sintàctica
Inf. semànticaInf. semàntica Inf. semànticaInf. semàntica
INTERLINGUAINTERLINGUA
Traducciódirecte
Transferència
N. Bel & M. Marimon 2005-06N. Bel & M. Marimon 2005-06
TA amb informació lingüística
Traduir és un procés de de-codificar un text en una llengua i tornar-lo a codificar en una altra llengua.
1) Analitzem el text en la LO2) Transferim informació3) Generem la informació en la LA
N. Bel & M. Marimon 2005-06N. Bel & M. Marimon 2005-06
Problemes
Però assolir desxifrar el contingut d’un text en una llengua comportava problemes:
a) com es representava el “contingut”?b) com s’arribava a la representació d’aquest
contingut?c) quina era la informació necessària per poder
traduir?
N. Bel & M. Marimon 2005-06N. Bel & M. Marimon 2005-06
c) Informació necessària per traduir
• Coneixement equivalències entre llengües– Diccionari bilingüe– Construccions sintàctiques diferents:
• Subj Verb Predicat => Subj Predicat Verb• Passiva => Activa
• Coneixement llengua origen:– Reconèixer els constituents i les funcions: subj.
• Coneixement llengua meta:– Construir oracions correctes: la duda / el dubte
N. Bel & M. Marimon 2005-06N. Bel & M. Marimon 2005-06
Un exemple senzill
Anglès Català
You like them Ells t’agraden
1 2 2 1
1= subjecte anglès2= objecte anglès
N. Bel & M. Marimon 2005-06N. Bel & M. Marimon 2005-06
b) Obtenir una representació automàticament
• arribar a una representació amb informació que ens permeti traduir
• Necessitem un mecanisme, un programa que disposi de coneixement sobre la llengua.
• Aquest programa rep una frase i ens torna una representació amb informació lingüística de la frase: una anàlisi gramatical
N. Bel & M. Marimon 2005-06N. Bel & M. Marimon 2005-06
Programa per analitzar
• Necessitem:
1. Gramàtica: dades sobre com són les frases d’una llengua. Exactament, una definició formal del conjunt de frases que pertanyen a una llengua i solament aquestes(Formal = computacionalment tractable: que a partir de un nombre finit de símbols produeixi un nombre infinit d’expressions)
N. Bel & M. Marimon 2005-06N. Bel & M. Marimon 2005-06
Programa per analitzar..
2. La gramàtica conté regles de re-escriptura per descriure el conjunt de les oracions d’una llengua.
O -> PRO SVSV -> V PRO
(Re-escriptura: si es dóna el cas que tenim el que hi ha a la banda dreta de la fletxa, ho podem substituir pel símbol de la banda esquerra)
2. Diccionari amb informació sobre les paraules: el lèxic (pot ser part de la gramàtica)
PRO -> them, youV -> like, ..
N. Bel & M. Marimon 2005-06N. Bel & M. Marimon 2005-06
Programa per analitzar
3. Analitzador (parser): un mecanisme que llegeix, una per una, les paraules de l’oració que volem analitzar i construeix mitjançant les regles de re-escriptura la anàlisi de la fraseConceptualment l’analitzador i la gramàtica són dues coses diferents: la gramàtica és una definició d’un conjunt de frases; l’analitzador és un algorisme, una sèrie d’instruccions precises que compleixen les instruccions de la gramàtica
N. Bel & M. Marimon 2005-06N. Bel & M. Marimon 2005-06
Funcionament
O -> PRO SV
SV -> V PRO
PRO -> they, you
V -> like, ..
N. Bel & M. Marimon 2005-06N. Bel & M. Marimon 2005-06
Generació
• Una gramàtica (amb el lèxic inclós) tal com l’hem definida, pot també fer l’operació inversa a l’anàlisis: genera oracions de la llengua descrita
• O -> PRO SV• PRO -> you, them• SV -> V PRO• V -> like• PRO -> you, them
N. Bel & M. Marimon 2005-06N. Bel & M. Marimon 2005-06
Generador
• Quan una gramàtica i l’analitzador construeixen cadenes de paraules, li direm generador i al procés generacióLa nostra gramàtica ha generat:1. you like them2. you like you3. them like you4. them like them
• Necessitem més informació per poder generar frases correctes...
N. Bel & M. Marimon 2005-06N. Bel & M. Marimon 2005-06
Generador
• Solament volem generar les oracions correctes.• Afegim informació de cas, per que és el que ens pot
ajudar a definir les oracions correctesPRO_NOM -> youPRO_AC -> them
O -> PRO_NOM SVSV -> V PRO_AC
• “you like them”
N. Bel & M. Marimon 2005-06N. Bel & M. Marimon 2005-06
Gramàtica d’anàlisi/generació del català
O -> PRO_NOM SV
SV -> PRO_AC V
PRO_NOM -> ells, elles
PRO_AC -> te
V -> agraden
“ells t’agraden”
“elles t’agraden”
N. Bel & M. Marimon 2005-06N. Bel & M. Marimon 2005-06
Arquitectures de TA
N. Bel & M. Marimon 2005-06N. Bel & M. Marimon 2005-06
Traducció basada en informació lingüística
• Característiques tècniques dels sistemes de traducció automàtica (anàlisi, generació, lèxic, parser, etc.)
• L'arquitectura dels sistemes de traducció automàtica: – sistemes de transferència
– d’interlingua
– explotació estadística d’informació lingüística
N. Bel & M. Marimon 2005-06N. Bel & M. Marimon 2005-06
Transferència i Interlingua
• Transferència: tenen una component amb regles específiques per a cada parell de llengües que transformen la representació del text origen en una representació adequada per al generador de la llengua d’arribada
• Interlingüe: l’anàlisi del text origen dóna una representació en un llenguatge de representació del significat, neutre pel que fa a les llengües
N. Bel & M. Marimon 2005-06N. Bel & M. Marimon 2005-06
Sistemes de transferència
Text LOText LO
Representació LORepresentació LO
Representació LARepresentació LA
Text LAText LA
Anàlisi Generació
Gramàtica i
Lèxic LO
Gramàtica i
Lèxic LO
Gramàtica i
Lèxic LA
Gramàtica i
Lèxic LA
Lèxic LO->LA
Regles de trànsferencia
Lèxic LO->LA
Regles de trànsferencia
N. Bel & M. Marimon 2005-06N. Bel & M. Marimon 2005-06
Sistemes d’interlingua
Text LOText LO
Representació InterlingüeRepresentació Interlingüe Text LAText LA
Anàlisi Generació
Gramàtica i
Lèxic LO
Gramàtica i
Lèxic LO
Gramàtica i
Lèxic LA
Gramàtica i
Lèxic LALèxic
LO->INT>LA
Lèxic
LO->INT>LA
N. Bel & M. Marimon 2005-06N. Bel & M. Marimon 2005-06
Representació Interlingüe al sistema KANT
N. Bel & M. Marimon 2005-06N. Bel & M. Marimon 2005-06
Interlingua
• La traducció és un procés de 2 passes:– Traduir el text origen a una representació del coneixement
universal– Usar la representació per a generar el text d’arribada
• Avantatges:– Per n llengües, necessitem n components (no n2)
• Problemes:– Hem de construir un lèxic universal– Com representem el coneixement?
N. Bel & M. Marimon 2005-06N. Bel & M. Marimon 2005-06
Transferència
• La traducció és un procés de 3 passes:– Analitzar el text origen– Transformar la representació lingüística que ens ha
tornat l’anàlisi en una representació adequada per la generació de la llengua d’arribada
– Usem la representació de la llengua d’arribada per generar una frase correcte
N. Bel & M. Marimon 2005-06N. Bel & M. Marimon 2005-06
Tractament de fenòmens gramaticals• Concordança:
– Subjecte – Verb– Dintre el SN– Amb l’atribut
• Canvi d’ordre dels elements• Diferències en l’estructura:
– Afegir una preposició– Treure una preposició
• Selecció lèxica:– Pel context sintàctic– Per trets semàntics
N. Bel & M. Marimon 2005-06N. Bel & M. Marimon 2005-06
Concordança
• Informació morfològica i la concordança Subj-V • A la gramàtica de generació
o_ca(o_ca(SN,SV)) -->sn_ca(Num,Gen,sn_ca(SN)),sv_ca(Num,Gen,sv_ca(SV)).
• Resultat?- trad([you,like,them],R).R = [ellas, te, gustan] ;R = [ellos, te, gustan] ;
N. Bel & M. Marimon 2005-06N. Bel & M. Marimon 2005-06
Concordança dintre el SN
• Concordança dintre del SN– A la gramàtica de generació:sn_ca(Num,Gen,sn(Det,N)) -->d_ca(Num,Gen,Det),n_ca(Num,Gen,N).
– Resultat:?- trad([the,boys,work],R).R = [los, chicos, trabajan] ;trad([the,girls,work],R).R = [las, chicas, trabajan] ;
N. Bel & M. Marimon 2005-06N. Bel & M. Marimon 2005-06
Concordança amb l’atribut:
• A la gramàtica de generació:sv_ca(Num,Gen,sv(V,SA)) -->
v_ca(Num,_,V),
sa_ca(Num,Gen,SA).• Resultat
?- trad([the,girls,are,pretty],R).R = [las, chicas, son, bonitas] ;
N. Bel & M. Marimon 2005-06N. Bel & M. Marimon 2005-06
Canvi d’ordre dels constituents
• A la gramàtica de trànsfer:• Regla d’inversió d'adjectius
sn(De,SAe,Ne) <=> sn(Dcas,Ncas,SAcas)
• Resultat:?- trad([the,old,tables,are,very,pretty],R).R = [las, mesas, viejas, son, muy, bonitas] ;
N. Bel & M. Marimon 2005-06N. Bel & M. Marimon 2005-06
Diferencies en l’estructura
• Afegir / treure estructura: • Afegir preposicions al trànsfer:
sv(Ve,SN1e,SN2e) <=>sv(Vcas,SN1cas,sp(p(_),SN2cas)):-Ve <=> Vcas,SN2e <=> SN1cas,SN1e <=> SN2cas.
• Resultat?- trad([sam,entered,the,elevator],R).R = [samuel, entró, en, el, ascensor] ;
N. Bel & M. Marimon 2005-06N. Bel & M. Marimon 2005-06
Diferències en l’estructura
• Treure preposicions:sp(Pe,sn(Ne))<=>sn(Ncas) :-Ne <=> Ncas.
• Resultat:?- trad([sam,looks,at,the,table],R).R = [samuel, mira, la, mesa] ;
N. Bel & M. Marimon 2005-06N. Bel & M. Marimon 2005-06
Selecció lèxica pel context
• Selecció de ser/estar?- trad([the,book,is,pretty],R).R = [el, libro, es, bonito] ;
?- trad([the,book,is,at,the,table],R).R = [el, libro, está, en, la, mesa] ;
• Al trànsfer identifiquen les traduccions de les diferents lecturesv(v5,_,_,be) <=> v(v5,_,_,ser).v(v6,_,_,be) <=> v(v6,_,_,estar).
N. Bel & M. Marimon 2005-06N. Bel & M. Marimon 2005-06
Selecció lèxica pel context
• A la gramàtica d’anàlisi usem el context per assignar una lectura:
• Regles a la gramàtica d’anàlisi:sv(e,sv(V,SA)) -->v(e,v5,V),sa(e,SA).
sv(e,sv(V,SP)) -->v(e,v6,V),sp(e,SP).
N. Bel & M. Marimon 2005-06N. Bel & M. Marimon 2005-06
Selecció lèxica amb trets semàntics
• Resultat:?- trad([sam,works],R).R = [samuel, trabaja] ;?- trad([the,elevator,works],R).R = [el, ascensor, funciona] ;• A la gramàtica de trànsferv(_,_,hum,work) <=> v(_,_,_,trabajar).
v(_,_,nhum,work) <=> v(_,_,_,funcionar).
N. Bel & M. Marimon 2005-06N. Bel & M. Marimon 2005-06
Nivell d’anàlisi i transferència
• Transferència lèxica: la cerca del terme equivalent en la llengua d’arribada es realitza a partir d’informació que conté el diccionari.
• Transferència sintàctica: l’arbre d’anàlisis de l’oració d’origen es transforma en un arbre de generació equivalent per a l’oració d’arribada.
• Transferència semàntica: les oracions de la llengua de sortida es transformen en representacions profundes, com patrons de casos, o estructures lògiques.
N. Bel & M. Marimon 2005-06N. Bel & M. Marimon 2005-06
Transfer semàntic
• Planteja la traducció com establir la relació entre representacions que encara són dependents de cada llengua, però on s’ha aconseguit informació semàntica que afavoreix la transferència.
• Les representacions estan orientades cap a la semàntica, per exemple en representacions semàntiques com a Forma Lògica:
N. Bel & M. Marimon 2005-06N. Bel & M. Marimon 2005-06
N. Bel & M. Marimon 2005-06N. Bel & M. Marimon 2005-06
N. Bel & M. Marimon 2005-06N. Bel & M. Marimon 2005-06
Problemes dels sistemes basats en la transferència
• Tenir informació suficient per prendre decisions:– Know => saber – conèixer“I know him” vs. “I know the answer”
• Diferents lexicalitzacions i solapaments de significats de paraules
Luisa got up early => Luisa madrugó• Paraules que tenen traduccions complexes
Ich esse gern => M’agrada menjar
N. Bel & M. Marimon 2005-06N. Bel & M. Marimon 2005-06
Problemes de la transferència
• Frases fetes i col·locacions:I made a decision => Tomé una decisiónI made a cake => Hice un pastel
N. Bel & M. Marimon 2005-06N. Bel & M. Marimon 2005-06
Traducció basada en informació lingüística
• Característiques tècniques dels sistemes de traducció automàtica (anàlisi, generació, lèxic, parser, etc.)
• L'arquitectura dels sistemes de traducció automàtica: – sistemes de transferència
– d’interlingua
– explotació estadística d’informació lingüística
N. Bel & M. Marimon 2005-06N. Bel & M. Marimon 2005-06
Explotació estadística d’informació lingüística
• Hi ha informació que podem aconseguir de corpus per la selecció lèxica
N. Bel & M. Marimon 2005-06N. Bel & M. Marimon 2005-06
Sistema de Microsoft
N. Bel & M. Marimon 2005-06N. Bel & M. Marimon 2005-06
N. Bel & M. Marimon 2005-06N. Bel & M. Marimon 2005-06
N. Bel & M. Marimon 2005-06N. Bel & M. Marimon 2005-06
Memòries de traduccióAutomaticTrans:
• la extracción sanguínea y su análisis
• l'extracció sanguínia i la seva anàlisi
• la extracción sanguínea
y su posterior análisis
• l'extracció sanguínia
i el seu posterior anàlisi
N. Bel & M. Marimon 2005-06N. Bel & M. Marimon 2005-06
Sistemes amb informació lingüística de nivell baix (interNOSTRUM)
• Anàlisi: anàlisi morfològica, desambiguació estadística de categoríes
• Trànsfer: cerca lèxica bilingüe, processament: concordança, re-ordenació, canvis lèxics.
• Generació: generació morfològica, ortografía.
• Finalmente y en relación con el cuarto de los hechos enjuiciados ...
• Finalment i en relació amb la cambra
dels fets jutjats
• Finalmente y en relación con el cuarto de los hechos enjuiciados ...
• Finalment i en relació amb la cambra
dels fets jutjats
N. Bel & M. Marimon 2005-06N. Bel & M. Marimon 2005-06
SN
N[f,p] SA Orel
funciones típicas
SN SV
PR N V SP
[m,s] [m,s] [m,s]
cuyo análisis queda P SN
reservado al tribunal
cuyo = concordança dintre del seu SN
N. Bel & M. Marimon 2005-06N. Bel & M. Marimon 2005-06
SN
N[f,p] Orel
funcions
SN SV
N SP V SP
[f,s] P PR [f,s] P SN
[f,p]
l’anàlisis de les quals queda al tribunal
reservada
les quals = concordança amb l’antecedent
N. Bel & M. Marimon 2005-06N. Bel & M. Marimon 2005-06
Sistemes de traducció automàtica amb informació lingüística
Finalment i en relació amb la
cambra dels fets jutjats, que la seva *autoria s'atribueix en l'escrit d'acusació als tres acusats, de la prova practicada no es desprèn l'existència d'indicis suficients atura enervar respecte als mateixos la presumpció constitucional d'innocència.
Finalmente y en relación con el cuarto de los hechos enjuiciados, cuya autoria se atribuye en el escrito de acusación a los tres acusados, de la prueba practicada no se desprende la existencia de indicios suficientes para enervar respecto de los mismos la presunción constitucional de inocencia.
Finalment i en relació amb el quart dels fets enjudiciats, la qual autoria s'atribueix a l'escrit d'acusació als tres acusats, de la prova practicada no es desprèn l'existència d'indicis suficients per enervar respecte dels mateixos la presumpció
constitucional d'innocència
N. Bel & M. Marimon 2005-06N. Bel & M. Marimon 2005-06
Traducció i versió
• Así por esta mi sentencia, de la que se unirá certificación a los autos, lo pronuncio, mando y firmo.
• Així per aquesta la meva sentència, de la que s'unirà certificació a les actuacions judicials, ho{el} pronuncio, comandament{autoritat} i firmo.
• Aquesta és la meva Sentència. Uniu-ne un certificat a les actuacions. Així ho pronuncio, ho mano i signo.