PARTE PRIMA - esperanto.it · 1 Citazione tratta da A. Duranti, Antropologia del linguaggio,...

i

PARTE PRIMA PREMESSA 1

1. LA TRADUZIONE

1.1 Introduzione 3

1.1.1 Una buona traduzione 4

1.2 Alcuni presupposti linguistici per la traduzione 7

2. NATURAL LANGUAGE PROCESSING

2.1 Introduzione 14

2.2 Livelli di analisi 18

2.2.1 Analisi morfologica 18

2.2.2 Analisi sintattica 22

2.2.3 Analisi semantica 28

2.2.4 Analisi del discorso 34

2.3 Generazione di linguaggio naturale 35

3. LA TRADUZIONE AUTOMATICA

3.1 Introduzione 37

3.2 Storia della traduzione automatica 38

3.3 Modelli di traduzione 46

3.3.1 Approccio Diretto 48

3.3.2 Approccio Transfer 48

3.3.3 Approccio Interlingua 50

3.4 Sistemi di traduzione automatica 54

4. IL LESSICO MULTILINGUE E I DIZIONARI

4.1 Introduzione 67

4.2 Multi-words 68

ii

4.2.1 Frasi idiomatiche 68

4.2.2 Collocazioni 71

4.2.3 Il progetto XMELLT 73

4.3 I Dizionari 75

4.3.1 ISLE 77

4.3.2 PAROLE-SIMPLE 78

4.4 MILE 81

PARTE SECONDA

5. UNIVERSAL NETWORKING LANGUAGE

5.1 Introduzione 88

5.2 Componenti 89

5.2.1 Specifiche : Relazioni ed Attributi 90

5.2.2 Dizionario delle Parole Universali 103

5.2.3 Base di Conoscenza 107

5.3 Master Dictionary 109

5.4 Dizionario di Co-occorrenze 110

5.5 Il Server Linguistico 111

CONCLUSIONI 118

SUMMARY 120

APPENDICE 129

APPENDICE 2 134

BIBLIOGRAFIA 144

iii

RINGRAZIAMENTI

Un ringraziamento sentito va ai ricercatori tutti dell’Istituto di Linguistica Computazionale

del CNR di Pisa ed in modo particolare alla Dott.ssa Irina Prodanof, per il costante e

puntuale supporto; Dott.ssa Gabriella Pardelli, per la pazienza avuta nel consigliarmi e

seguirmi nella ricerca bibliografica; Dott. Vito Pirrelli, Dott. Alessandro Lenci, Dott.ssa

Nicoletta Calzolari; Dott. Alessandro Paccosi; Dott.ssa Daniela Giorgetti; Dott.ssa Claudia

Soria; Dott.ssa Francesca Bertagna; Dott.ssa Francesca Carota.

Un grazie particolare alla Dott.ssa Michela Cislaghi, Dott.ssa Donella Antelmi, Dott.ssa

Frances Hotimsky dell’Università IULM per avermi seguito sempre con grande disponibilità

nella stesura di questo lavoro.

Grazie anche ai miei genitori, che hanno permesso tutto questo, agli amici di sempre e a

quelli nuovi per l’incoraggiamento.

iv

A mio nonno

v

PREMESSA

Lo scopo di questo lavoro è quello di mettere in evidenza quali siano i problemi legati

all’analisi e alla produzione di linguaggio naturale attraverso l’utilizzo di metodi

computazionali. In modo particolare ho rivolto la mia attenzione alla traduzione automatica,

uno strumento che fin dalla nascita dei primi calcolatori è stato oggetto di studio da parte di

studiosi impegnati in ricerche in linguistica computazionale.

Ho inizialmente tentato di individuare alcune teorie linguistiche che sono poi servite come

base teorica allo sviluppo di tecniche computazionali di traduzione (cap. 1); mi sono poi

dedicata all’analisi degli strumenti che la linguistica computazionale ha ideato per la

creazione di modelli adatti all’interpretazione e alla riproduzione di linguaggi naturali

(cap.2).

I capitoli 3 e 4 sono interamente dedicati alla traduzione automatica, presentando le diverse

strategie adottate per la progettazione dei sistemi e alcuni prototipi o sistemi commerciali;

quindi, ho preso in esame uno degli aspetti più spinosi del linguaggio in un contesto di

traduzione automatica: quello delle frasi idiomatiche e delle collocazioni.

Infine ho presentato il progetto UNL (Universal Networking Language) il linguaggio

artificiale che consente applicazioni non solo nel campo della traduzione automatica, ma in

generale studiato per la presentazione multilingue di documenti.

Il progetto, che ho avuto modo di seguire da vicino al CNR di Pisa, ha come fondamento

l’interlingua; si presenta cioè come un linguaggio artificiale autonomo ed indipendente che

funge da passaggio tra due linguaggi naturali; mi preme qui sottolineare che si differenzia da

altri linguaggi artificiali, quali ad esempio l’Esperanto, in quanto la conoscenza dei suoi

vocaboli e sintassi non è necessaria data la presenza di un software apposito per la

conversione e deconversione di UNL da e in linguaggi naturali.

UNL è stato studiato per trovare la sua collocazione in Internet e avere quindi il duplice

vantaggio di lavorare con uno strumento veloce e capillarmente diffuso.

UNL dovrebbe presto diventare una realtà commerciale, un mezzo che potrà essere inserito

nei nostri computer per abbattere una delle ultime barriere di Internet, il nostro prediletto

strumento informativo e comunicativo: la diversità linguistica.

vi

La presentazione del sistema Universal Networking Language è stata resa possibile grazie al

supporto fornito dall’Istituto di Linguistica Computazionale del CNR di Pisa, presso il quale

ho avuto l’occasione di trascorrere un periodo di tempo prolungato.

Durante la mia permanenza ho potuto usufruire di tutti gli spazi dell’area, dei mezzi

informatici, della biblioteca e della completa disponibilità dei ricercatori dell’Istituto.

Preziosissmo è stato il supporto datomi dalla Dott.ssa Irina Prodanof, responsabile dello

sviluppo del progetto UNL in Italia, che con competenza, pazienza e costanza mi ha seguito

in ogni fase della stesura di questa tesi, consigliandomi materiale bibliografico, tenendomi

sempre aggiornata sulle evoluzioni che interessavano il progetto, aiutandomi inoltre a

comprendere gli aspetti più tecnici che si accompagnano al trattamento del linguaggio

naturale.

1

1. LA TRADUZIONE

1.1 INTRODUZIONE

Quando si pensa alla traduzione, si ha l’immagine di un processo quasi meccanico per cui un

testo scritto in una determinata lingua viene trasformato in un testo equivalente, ma in una

lingua differente. Portare avanti una convinzione del genere è riduttivo ed estremamente

superficiale, sia per quanto riguarda la “filosofia” della traduzione, sia perché i processi

concreti di traduzione si configurano come un elaborato insieme di conoscenze linguistiche

che devono essere apprese nella loro totalità e combinate a seconda delle esigenze (mi

riferisco alla sintassi, semantica, morfologia e fonetica delle lingue del mondo).

Quando parlo di “filosofia della traduzione” mi riferisco a tutte quelle riflessioni di carattere

filologico-culturale necessarie per capire che cosa sia esattamente una traduzione, come si

inserisca in un contesto mondiale multilingue e in che modo si configuri come elemento di

trasmissione culturale.

La traduzione deve essere considerata come un mezzo privilegiato per venire in contatto con

culture diverse, che si manifestano attraverso sistemi linguistici differenti che sono

un’espressione della propria esperienza, una particolare visione del mondo.

Tale idea è stata proposta dal linguista tedesco Wilhelm von Humboldt che, nel suo trattato

del 1836 “La variabilità linguistica e lo sviluppo intellettuale”, presenta la prima

affermazione sistematica relativa alla lingua come visione del mondo:

“ogni lingua traccia intorno al popolo cui appartiene un cerchio da cui è possibile

uscire solo passando, nel medesimo istante, nel cerchio di un’altra lingua.

L’apprendimento di una lingua straniera dovrebbe essere pertanto l’acquisizione di

una nuova prospettiva nella visione del mondo fino allora vigente e lo è in effetti in

un certo grado, dato che ogni lingua contiene l’intera trama dei concetti e la

maniera di rappresentazione di una parte dell’umanità. Solo perché in una lingua

straniera si trasporta sempre, in misura maggiore o minore, la propria visione del

mondo, anzi la visione della propria lingua, si ha la sensazione di non aver

raggiunto un risultato pieno e assoluto”.1

1 Citazione tratta da A. Duranti, Antropologia del linguaggio, Maltemi, Roma, 2000, pg. 65

2

La traduzione è una strategia comunicativa, che propone un’analisi intelligente di un testo2

per portarlo in una nuova dimensione culturale senza la presunzione di sostituirsi ad esso.

Infatti, quando si parla di traduzione di un testo, non dobbiamo pensare ad una sola

traduzione, ma a più possibili traduzioni: un processo traduttivo non è solo linguistico, ma

anche mentale che aiuta al rinnovamento della lingua, che la fa evolvere.

Il fine ultimo che deve essere rintracciato nella riproduzione di un messaggio non è solo

quello di rispettare una certa correttezza dal punto di vista formale, ma anche saper trasporre

elementi culturali e pragmatici caratteristici della comunità che parla una determinata lingua

e che trasmette attraverso il suo proprio sistema linguistico.

1.1.1 UNA BUONA TRADUZIONE

A questo punto è però necessario chiedersi che cosa voglia dire tradurre e quali siano i

parametri che consentono di stabilire il grado di esattezza di una traduzione (quando cioè il

significato del testo nella lingua di partenza è uguale a quello della lingua di arrivo).

Per capire questo possiamo costruire una similitudine con il sistema fonologico, per cui si

dice che due foni sono equivalenti se hanno in comune gli stessi tratti minimi che li

costituiscono; allo stesso modo possiamo dire che due espressioni linguistiche – della stessa

lingua3 o di lingue diverse – sono equivalenti se hanno lo stesso significato, quando è cioè

possibile ricondurle ad una stessa unità di senso.4

A questo proposito Saumjan5 parla di lingua semantica o genotipica: è una lingua formata da

minime unità di senso che compongono le strutture più complesse; in questo modo, se in una

lingua non esiste il corrispondente di un’espressione complessa, sarà comunque possibile

tradurla componendola in unità semantiche più piccole.

Inoltre lo stesso Saumjan cerca di delineare una correlazione esistente tra lingua e cultura per

cui il sistema semantico di una determinata lingua, nel momento in cui si trova a contatto

con altri sistemi, assume il ruolo di identificare il legame che esiste tra il parlante e la sua

cultura.

2U. Rapallo, La ricerca in linguistica, La Nuova Italia Scientifica, Roma, 1994, pg.221 3 cfr, il pensiero di Jakobson p. 7 4 Ibid. 5 Cfr. E. Rigotti, La traduzione nelle teorie linguistiche contemporanee, in “Processo traduttivi: teorie ed applicazioni”, Atti del seminario su “La traduzione”, Brescia, 19/20 novembre 1981, Editrice La Scuola, Brescia, 1982, p. 93

3

Figura 1: Schematizzazione del processo traduttivo.6

Concretamente, quando un parlante utilizza la propria lingua, fa un’operazione di scelta

all’interno delle numerose possibilità di materiali espressivi che ha a disposizione e questi

differiscono per la funzione che andranno a ricoprire all’interno del testo; queste scelte

vengono effettuate in base al patrimonio culturale del parlante. Risulta chiaro quindi come al

momento della traduzione, nonostante possano essere state utilizzate meticolose perifrasi, il

testo della lingua di arrivo (L2) non possa ritenersi esattamente equivalente a quello di

partenza (L1) in quanto esisteranno diverse funzioni testuali (cioè il rapporto che si crea tra il

significato di ciò che il parlante vuole comunicare e il significato stesso del linguaggio).

6 E. Rigotti, op.cit, pg. 95

Rappresentazione intensionale ed estensionale

Proiezione dell’autore

Proiezione del traduttore

Testo in L1

Decodificazione del traduttore

Testo in L2

Decodificazione del nuovo destinatario

4

Inoltre, risulta importante anche l’apporto del traduttore e del nuovo destinatario del

messaggio (testo) in quanto a loro volta interpreteranno il testo secondo un diverso

patrimonio culturale. Il nodo cruciale resta la base di conoscenza condivisa: l’emittente può

dare per scontato che il ricevente possa facilmente ricostruire le parti non esplicite

dell’enunciato.

In questo senso possiamo dire la traduzione si identifica come un vero e proprio atto

linguistico, nel senso che ogni testo va a modificare in qualche modo il sistema linguistico

introducendo innovazioni all’interno del sistema stesso, come dimostrano i fenomeni del

prestito e del calco.7

L’estensione di una parola indica l’insieme degli oggetti ai quali si può riferire una

determinata parola; ad esempio gli oggetti che hanno una copertina e hanno pagine scritte,

saranno l’estensione della parola “ libro “ (potrebbero infatti essere cataloghi o brochure

informative).

L’intensione di una parola è l’insieme delle proprietà che definiscono un oggetto in modo da

categorizzarli in una specifica estensione; ed esempio il fatto di essere femmina e essere

genitore di un essere animato, è l’intensione della parola “ madre “.

Vedremo poi che l’estensione e l’intensione della parola saranno concetti ripresi ed adattati

alle esigenze della traduzione automatica, in modo particolare per quanto riguarda la

costruzione dell’ontologia.8

Una buona traduzione deve essere in grado di rispettare determinati criteri, quali la

corrispondenza, la stabilità, l’equivalenza e la fedeltà.9

!" Corrispondenza di elementi che si trovano nell’uno e nell’altro sistema, creare cioè una

corrispondenza di strutture;

!" Stabilità : seguire cioè lo stesso metodo traduttivo quando si devono trasformare le stesse

strutture:

7 Con prestito si intende il fenomeno per cui una lingua trae da un’altra un elemento linguistico, generalmente lessicale, assumendolo nella sua forma originaria (es. bar, film, club, etc.) o adattandolo al proprio sistema fonomorfologico (es. “bistecca” dall’inglese “beafsteak”; il calco è invece quel fenomeno per cui un vocabolo, una locuzione o un costrutto di una lingua, vengono riprodotti nei loro elementi costitutivi con le corrispondenti forme in un’altra lingua (es. order of the day = ordine del giorno). 8 Cfr. p. 50 9 R. Titone, Problemi psicologici e psicolinguistici del traduzttore, in “Processi traduttivi: teorie ed applicazioni”, Atti del seminario su “La traduzione”, Brescia, 19/20 novembre 1981, Editrice La Scuola, Brecia, 1982

5

!" Fedeltà : rappresenta la validità dell’equazione che il traduttore stabilisce tra L1 e L2 (è

qui implicito il rapporto significato / significante per cui cambiando i significanti si

mantiene il significato). E’ comunque da rilevare come non esista una equivalenza

perfetta tra due sistemi linguistici diversi – si veda ad esempio il caso in cui è necessario

ricorrere a perifrasi per tradurre parole lessicalizzate (es. francese haranguier, che

corrisponde all’italiano “ barca per la pesca delle aringhe);

!" Equivalenza : per stabilire quanto una traduzione sia fedele si può utilizzare il metodo

della retroversione; in questo modo vengono ripercorse le tappe del processo traduttivo

cambiando però le procedure; nei due processi, quindi, non sarà possibile ottenere delle

perfette equivalenze, quanto meno dal punto di vista lessicale, soprattutto a causa della

frequenza d’uso di termini parzialmente equivalenti (es. italiano scatola = inglese box,

case, tin…).

1.2 ALCUNI PRESUPPOSTI LINGUISTICI PER LA TRADUZIONE

La ricerca linguistica ha trascurato di considerare la traduzione come oggetto di studio per

quasi tutto il secolo passato; la ragione di questo atteggiamento è da rintracciare nella

difficoltà, dal punto di vista teoretico, di inquadrare debitamente il processo traduttivo

all’interno delle concezioni dello strutturalismo classico.

Uno dei concetti fondanti dello strutturalismo, è quello di “ langue “, proposto da Ferdinand

de Saussure secondo cui la langue è la parte sociale che esiste nel linguaggio, cioè un codice,

un insieme di convenzioni essenziali che permettono ad una determinata comunità

linguistica di avere un’efficiente comunicazione.

In quest’ottica la lingua viene rappresentata come un sistema linguistico chiuso e strutturato

in se stesso.10

Partendo da questo presupposto, la traduzione si configura come un procedimento illecito in

quanto, volendo utilizzare una similitudine con il linguaggio matematico, tenta di stabilire

un’equivalenza tra grandezze appartenenti a due sistemi linguistici diversi.11

La posizione di Saussure sembra essere troppo radicale per non sollevare alcune perplessità

di carattere filologico (ad esempio sarebbe impossibile spiegare il fenomeno dei prestiti

linguistici per cui oggi la parola inglese “computer” è entrata a far parte a pieno titolo nei 10 M. Negri (a cura di), Navadhyayi, Ed. Il Calamo, Roma, 1999, pp. 3-4. 11 E. Rigotti, op.cit.

6

lemmi dei dizionari di italiano), ma offre comunque, a mio avviso, un ottimo spunto di

riflessione: possiamo immaginare una lingua come la rappresentazione del mondo fatta dai

parlanti di quella determinata lingua, come un sistema complesso di articolare l’esperienza;

in questo senso quindi non si può pensare di trasferire intatto il significato da una lingua ad

un’altra. Si può semmai parlare di traduzione come il procedimento che trasferisce ciò che è

significativo in una lingua in quello che di significativo esiste nella lingua di arrivo.

Tentativi di ovviare a questa visione limitata di sistema linguistico, ma soprattutto limitativa

se pensiamo ai processi di traduzione, sono stati condotti dagli studi linguistici di Roman

Jakobson, Noam Chomsky, così come dalle proposte della semantica generativa.

Roman Jakobson viene ricordato soprattutto per la sua teoria universalista di descrizione

fonologica attraverso dodici opposizioni binarie (compatto~diffuso; sonoro~non sonoro…)

Tale universalismo è rintracciabile anche nella sua analisi del processo di traduzione: la

traduzione non solo viene riconosciuta e giustificata a livello teorico, ma diventa un

momento estremamente significativo del processo semiotico.

Riprendendo i postulati saussuriani dei due assi associativi della similarità e della contiguità,

in una lingua Roman Jakobson distingueva un asse della selezione, o paradigma, da un asse

della combinazione, o sintagma. Il primo, verticale, permette di selezionare fra le indefinite

possibilità di scelta di un oggetto linguistico, il secondo consente di scegliere la sequenza o

sintassi di combinazione degli elementi. Quando si articola o si scrive la frase: “Il cavallo

corre sul prato” attuo le due possibilità: combino sintatticamente gli elementi che fanno parte

del mio bagaglio linguistico e li metto in un preciso rapporto fra loro in base al loro ordine

reciproco. Sono libero sul piano sintagmatico e paradigmatico: potrei infatti dire ugualmente

“il cane corre sul prato”, ma anche “il personal computer corre sul prato”, “il cavallo

formatta sul floppy”, o persino “sul il cavallo prato corre”. In entrambi i casi, sia che mi

muova verticalmente, sia che mi muova orizzontalmente cambierò radicalmente il senso del

mio enunciato fino a raggiungere risultati imprevedibili, il cui contenuto di informazione

varierà da zero a infinito (valori semiologicamente omologhi).12

In questa prospettiva è importante chiarire cosa il linguista intendesse per interpretazione

dell’enunciato, dato che – come abbiamo visto – è possibile costruire frasi

grammaticalmente corrette, ma comunque incomprensibili; per Jakobson interpretare è

12 tratto dal sito http://www.brocku.ca/commstudies/courses/2F50/jackobson

7

tradurre : dare il significato ad un’espressione vuol dire trasportarlo in un altro segno

sostituibile a quell’espressione.13

Per quanto riguarda Noam Chomsky, è difficile proporre una definizione precisa del suo

lavoro in quanto si interessò di problemi di diversa natura, non sempre seguendo un

percorso lineare; certo è che l’avvento della grammatica generativa, con la pubblicazione di

Syntactic Structure nel 1957, fu una vera rivoluzione scientifica; Chomsky infatti propose di

considerare la lingua dall’interno, come fa la psicologia cognitiva. Lo scopo del linguista

americano era quello di individuare gli elementi che concorrono alla conoscenza del

linguaggio e come tale conoscenza viene appresa.

Uno dei temi centrali della teoria chomskiana è l’ipotesi dell’innatismo sull’origine e il

funzionamento del linguaggio.

Con questa teoria, Chomsky cerca di spiegare il fenomeno per cui il parlante di una qualsiasi

lingua riesce a comprendere e a produrre un numero illimitato di enunciati usando un

numero limitato di regole grammaticali che permettono di formulare gli enunciati stessi: in

ogni persona esisterebbe un meccanismo innato di acquisizione del linguaggio, chiamato

LAD (dall’inglese Language Acquisition Device); questo stesso meccanismo si adatterebbe

poi con il tempo alla lingua parlata nell’ambiente in cui il soggetto si trova a vivere.

La formula che combina innatismo e adattamento, sottintende processi universali che si

attivano nel momento in cui si viene a contatto con una lingua specifica. Tali meccanismi

universali sono rintracciabili riducendo le varie strutture profonde (cioè le regole, le

categorie e le funzioni universali necessarie per l’interpretazione semantica) in strutture

superficiali(cioè le specifiche realizzazioni nelle diverse lingue)

In altre parole, ogni parlante ha una naturale conoscenza della lingua – tratto che Chomsky

definisce come competenza – che si manifesta in modi diversi (l’esecuzione) .

Il problema di fondo che si manifesta a questo punto, è quello di stabilire come riconoscere

frasi corrette e non all’interno di una determinata lingua. Chomsky cerca di dare una

dimostrazione pratica presentando un modello per la struttura dell’enunciato; opera una

distinzione tra frasi nucleari e frasi non nucleari, intendendo con le prime frasi semplici,

assertive e attive; le non nucleari sono le frasi più complesse (negative, passive,

interrogative) derivanti dalla trasformazione delle frasi nucleari.14

13 R. Jackobson, Aspetti linguistici della traduzione, in L. Heilman (a cura di), “Saggi di linguistica generale”, Feltrinelli, Milano, 1966, p. 57 14 F. Antinucci nella traduzione a Noam Chomsky, Syntactic Structure, Editori Laterza, Bari, 1970, p. xxiii.

8

Per l’argomento che qui stiamo trattando, dobbiamo rilevare che Chomsky non parla mai

esplicitamente di traduzione, ma alcuni punti della sua teoria possono esser utili per una

riflessione sui processi che creano la traduzione.

In modo particolare, voglio prendere in esame due aspetti : da un lato l’idea dell’esistenza di

strutture superficiali e profonde e, dall’altro, l’analisi della struttura interna dell’enunciato.

Per quanto riguarda la distinzione superficiale, bisogna rilevare come in quest’ottica la

traduzione si verrebbe a configurare come un semplice strumento meccanico di passaggio fra

le due strutture; si svilirebbe insomma uno degli scopi principali della traduzione, cioè

quello di essere una nuova strategia comunicativa in grado di inserirsi in un altro contesto

culturale (si pensi soprattutto all’immagine di lingua come visione del mondo, come

rappresentazione di esperienza).

Decisamente più significativa è la costruzione del modello di analisi interna dell’enunciato :

in questo modo il traduttore è in grado di ricostruire la struttura della frase tradotta

verificandone l’esattezza, almeno dal punto di vista sintattico, confrontandola con le regole

grammaticali e le relative combinazioni della lingua nella quale si sta traducendo.15

Diamo qui di seguito un esempio dello schema chomskiano di rappresentazione interna

dell’enunciato : “la bambina mangia la mela che ha comprato”:

16

15 Cfr. Noam Chomsky, Le strutture della sintassi, Editori Laterza, Bari, 1970, p.74 16 S = frase; SV = sintagma verbale; SN = sintagma nominale; SP = sintagma preposizionale; V = verbo

S

SN SVLa bambina

V

SN

SP

che mangia la mela

S

SNLa bambina ha comprato

SV

9

Partendo dalle osservazioni di Chomsky in merito alla sintassi, sul finire degli anni ’60 si

sviluppò la teoria linguistica della “semantica generativa”; lo stesso linguista americano in

Syntactic Structure sostiene che uno dei risultati dello studio formale della grammatica, sia

quello di evidenziare uno schema che sostenga l’analisi semantica.17

Il problema di fondo è quello di spiegare come vengano comprese le frasi nucleari,

considerate come “ elementi di contenuto” fondamentali.18

Il legame tra sintassi e semantica viene rintracciato nell’analisi dell’enunciato per cui la

prima ne studia la struttura interna e l’altra ne dà un’interpretazione.

In particolare due aspetti possono considerarsi lontani dai procedimenti traduttivi :

innanzitutto il fatto di limitarsi ad analizzare strutture enunciative, senza prendere in esame

l’intera struttura testuale ; in secondo luogo, manca la contestualizzazione – uno dei punti

cardine della traduzione.

Pensiamo infatti alle primissime fasi del processo traduttivo: due regole universalmente

riconosciute sono quella di compiere inizialmente una lettura generale del testo per avere

un’idea del contenuto complessivo, dell’argomento; quindi cercare di evitare la cosiddetta

traduzione parola per parola per cui si avrebbe una mera trascrizione lessicale senza

precisazioni o trasformazioni di carattere grammaticale o sintattico.

Sempre per quanto riguarda la contestualizzazione, dobbiamo ricordare che, in fase di

traduzione, per poter assegnare un certo significato ad una parola si devono rispettare

determinate regole che agiscono a tutti i livelli linguistici, vengono cioè analizzate tutte le

possibili alternative restringendo via via il campo.

Prendiamo come esempio l’ausiliare inglese “ will” che, all’interno di una frase, può

assumere diverse valenze :

1. corrisponde all’italiano futuro semplice :

!" “ Tomorrow she will be in Rome” = “ domani sarà a Roma”

2. si usa quando si vuole esprimere una decisione presa nell’immediatezza del momento,

per esprimere offerte, richieste, minacce e promesse:

!" I know what I’ll do: I’ll write her a letter = so cosa fare: le scriverò una lettera

!" Will you turn on the light, please? = puoi accendere la luce per favore?

17 Ibid. p. 159 18 Ibid. p. 138

10

!" I’ll break every bone of your body if you don’t shut up! = ti rompo tutte le ossa se

non stai zitto!

!" I’ll give it back to you, I promise = prometto di restituirtelo

3. si usa per indicare un comportamento abituale; in questo caso può essere utilizzato anche

il presente semplice, ma “will” vuole porre più enfasi alla frase:

!" Every time we go there she’ll offer us coffee though she knows we don’t like it =

tutte le volte che andiamo da lei ci offre del caffè anche se sa che non ci piace.

4. Se l’enfasi viene posta sull’ausiliare sta ad indicare una forte determinazione :

!" If you will sit in a draught, you’re bound to catch a cold = se insisti a stare seduto in

mezzo alla corrente, sei sicuro di prenderti un raffreddore.19

Esistono principalmente due modalità di contestualizzazione :

1. esiste ambiguità a livello semantico e quindi la contestualizzazione serve per rendere

univoco il rapporto tra lessema e significato;

2. l’unità linguistica è generica e la contestualizzazione serve per la una specificazione

o determinazione del contenuto.

Questi due processi sono ben distinti dal punto di vista semantico in quanto dal rapporto

univoco è possibile passare alla specificazione mentre non è possibile il contrario; quindi,

per esempio, se dico di avere una casa grande ed una piccola posso dire di avere due case, se

dico di avere incontrato un pastore sardo, un pastore protestante ed un pastore bergamasco,

non posso dire di avere incontrato tre pastori.20

19 Esempi tratti da G. Dowling, A study of the English Verb for Italians, Supernova, Venezia, 1993, pp. 22-28 20 Esempi tratti da E. Rigotti, op. cit., p. 88

11

Segno nella lingua Segno nel testo

"""""""""""""""""""""""""""#################"a

…………. b

…………. i

…………. n

A

Figura 2: schematizzazione di processi di disambiguazione e specificazione21

Le lettere maiuscole rappresentano i significanti (aspetto fonico del segno linguistico),

mentre le minuscole i significati (contenuto semantico del segno linguistico); all’interno

della classe dei significati, l’uguaglianza di lettera vuole indicare l’appartenenza ad uno

stesso genere. Con il processo di disambiguazione si vuole indicare l’esatto significato da

attribuire ad un determinato significante; la specificazione permette invece di ridurre

l’estensione del significante.

In questa breve panoramica ho cercato di mettere in evidenza come l’analisi delle dinamiche

del linguaggio, le problematiche legate alla sua interpretazione e riflessioni legate ai processi

di traduzione siano da molti decenni oggetti di studio della linguistica.

Nei prossimi capitoli vedremo come tutti questi temi siano stati affrontati con l’ausilio dei

calcolatori e quali siano stati i passaggi che hanno portato a pensare alla traduzione

automatica come possibile strumento ideale di comunicazione in un contesto sempre più

multilingue.

21 Tratto da E. Rigotti, op. cit., p.87

A $ Processo di disambiguazione

A i

a1

a2

a3

a4

Processo di specificazione

A a3

12

NATURAL LANGUAGE PROCESSING

2.1 INTRODUZIONE

L’automazione di particolari processi che riguardano l’analisi e la produzione del linguaggio

naturale (Trattamento Automatico del Linguaggio Naturale) si è sviluppato di pari passo con

l’evoluzione tecnologica che ha interessato la nostra società: il crescente valore attribuito alla

comunicazione e all’informazione ha introdotto nuove tecniche che mettono in grado l’uomo

di relazionarsi in modo completo con il resto del mondo.

Possiamo individuare alcuni fattori chiave che hanno rivoluzionato il nostro modo di

utilizzare le lingue:22

!" La rapida evoluzione dei sistemi di comunicazione ha trasformato le società nazionali

in società multilingue e si sono quindi resi necessari strumenti in grado di affrontare

questo nuovo assetto;

!" La crescita tecnologica ha permeato ogni aspetto della società e ha prodotto nuove

attività economiche, molte delle quali si basano su un’efficiente comunicazione e sul

reperimento di informazioni attendibili;

!" Le relazioni politico-internazionali, culturali ed economiche hanno subito una

crescita esponenziale, il che ha richiesto un nuovo modo di concepire la traduzione;

!" Il linguaggio in sé è diventato una merce del mercato culturale e, ora più che mai, in

un momento in cui globalizzazione e individualismo vanno di pari passo, si avverte

la necessità di preservare le differenze linguistiche come simbolo di identità

culturale.

!" Internet: è lo strumento per eccellenza della globalizzazione; attraverso la rete è

possibile accedere a qualsiasi tipo di informazione semplicemente collegandosi con

un computer ad una linea telefonica.

È evidente come uno strumento come Internet, i cui utenti, che parlano le lingue più diverse,

hanno la possibilità di accedere all’informazione, necessiti di un’elasticità linguistica molto

ampia; se è vero che ancora oggi la maggior parte delle pagine Internet è redatta in inglese,

non dobbiamo dimenticare che milioni di persone non hanno ancora ottenuto la preparazione

necessaria per poter comprendere ed utilizzare tale lingua. Se è vero che con Internet è

possibile abbattere le barriere di discriminazione razziale perché strumento fruibile da

22 J.C. Sager, Language Engineering and Translation, Benjamins Translation Library,Amsterdam/Philadelphia, 1993

13

chiunque, lo stesso deve accadere per quanto riguarda la lingua e quindi fornire la possibilità

di ottenere informazioni nel proprio idioma.

In questo senso, si può parlare di una vera e propria “industria del linguaggio” in grado di

produrre tutta una serie di strumenti che consentano una comunicazione più rapida ed

efficace.

L’industria del linguaggio si è potuta evolvere avendo alla base la collaborazione di due

discipline che all’apparenza hanno pochi punti in comune: l’informatica e lo studio delle

lingue; insieme hanno dato vita a quell’area di ricerca chiamata NATURAL LANGUAGE

PROCESSING (vale a dire Elaborazione del Linguaggio Naturale); la linguistica ha fornito

basi teoriche, dati e risorse linguistici, mentre l’informatica ha ideato tutti gli strumenti

computazionali adatti per trattare i dati linguistici stessi.

Inizialmente i calcolatori vennero utilizzati per compiere semplici analisi dei testi, come ad

esempio isolare parole e sistemarle in ordine alfabetico, oppure eseguire calcoli statistici per

determinare la frequenza, all’interno di un particolare testo, di una parola specifica (Text

Processing).

Parallelamente si pensò di poter trattare il linguaggio naturale in modo più complesso ed

approfondito, ideando sistemi in grado di simulare la comprensione e la produzione di

linguaggio naturale.

Da questo secondo filone di ricerca discendono diversi campi di applicazione:23

1. Interazione uomo-macchina

Questo aspetto del Natural Language Processing si occupa della progettazione di sistemi in

grado di offrire determinati servizi all’utente, quali ad esempio l’accesso e la manipolazione

dell’informazione (interrogazione di basi di dati, richiesta di informazioni), o l’insegnamento

(Intelligent Computer Aided Instruction)

Pensiamo ad esempio ad alcuni servizi forniti dalla pubblica amministrazione, oppure alla

Telecom Italia, che ha costruito un’interfaccia interattiva per la ricerca del numero di un

abbonato, o ancora alle Ferrovie dello Stato che forniscono automaticamente informazioni su

destinazioni e orari dei treni dopo aver “dialogato” con l’utente.

23 G. Ferrari, Introduzione al Natural Language Processing, Calderini, Bologna, 1991

14

L’obiettivo che si tenta di raggiungere è quello di instaurare un dialogo tra uomo e macchina

che sia il più naturale possibile; da un punto di vista filosofico, si è tentato di verificare se

una macchina può superare l’intelligenza umana (compiere cioè le stesse azioni);

premettiamo fin da ora che al momento tale verifica ha dato risultati negativi.

Possiamo ricordare in questo senso il “test di Turing” che aveva come scopo quello di

stabilire se le macchine possono pensare. Il test consiste nel disporre in una stanza un uomo

e una donna; in un’altra stanza c’è un interrogatore che può formulare delle domande, per

mezzo di una telescrivente, nel tentativo di identificare chi sia l’uomo e chi la donna,

nonostante gli sforzi dell’uomo di camuffare la propria identità.

Il test consiste nel fatto che, se dall’altra parte la persona non si accorge della sostituzione

della persona con la macchina, allora il test è riuscito e si dimostra che una macchina può

compiere le stesso operazioni “intelligenti” di una persona.

Una valutazione di tali sistemi in termini di rendimento e di esattezza, ha portato a ritenere

soddisfacenti i risultati ottenuti, anche se provengono delle critiche per quanto riguarda

l’ammontare delle risorse economiche impiegate.

È necessario però pensare che, oggi come oggi, in un contesto sempre più multilingue, la

possibilità, e in molti casi la necessità, di accedere a informazioni fornite in linguaggi

naturali diversi (pensiamo ed esempio alle lingue cosiddette marginali, parlate da

popolazioni che non riescono ancora ad avere un alto grado di scolarizzazione), può e deve

giustificare anche lo stanziamento di cospicui fondi per la ricerca in questo settore.

2. Text Understanding

L’esigenza di studiare sistemi in grado di analizzare ed interpretare interi testi e non solo

singole frasi, risponde alle richieste di utenti provenienti da diversi ambiti.

Da un lato la necessità, in ambienti lavorativi molto vasti, di poter gestire un’ingente

quantità di messaggi organizzati secondo principi di accessibilità; può essere il caso di

ambienti militari, oppure, come si sta verificando in tempi recentissimi, la possibilità fornita

da alcuni gestori di posta elettronica di filtrare automaticamente i messaggi che riportano un

particolare contenuto sgradito all’utente.

Dall’altro si ha la necessità di acquisire ed estrarre informazione da libri e manuali, ma anche

e-mail, siti web, giornali, etc.; da qui, la progettazione di sistemi computazionali in grado di

snellire il processo di apprendimento e dotati di capacità di riassumere porzioni di testo.

15

3. Report Generation

In questo settore, il Natural Language Processing viene utilizzato per la produzione

automatica di testi in linguaggio naturale.

È un campo di applicazione che vede implicata la possibilità, da parte dell’utente, di chiedere

informazioni riguardo un determinato argomento, come ad esempio la richiesta di dati

aggiornati ad una specifica data, o la descrizione di una particolare procedura.

4. Traduzione automatica

È l’applicazione che fin dall’inizio dell’impiego di calcolatori in ambito linguistico,

affascinò i ricercatori.

Il primo obiettivo che si posero fu quello di raggiungere un grado qualitativo di traduzione

molto elevato, paragonabile al lavoro svolto da traduttori professionisti.

Le difficoltà oggettive derivanti dalla complessità dei fenomeni riguardanti il linguaggio

naturale, ha spinto i ricercatori verso soluzioni meno ambiziose e più funzionali, come ad

esempio la costruzione di strumenti che aiutassero il traduttore nel suo lavoro (dizionari

bilingui elettronici o database terminologici).

Uno tra i primi sistemi di traduzione automatica, ALPS (1971), forniva un sistema di

traduzione assistita dal calcolatore per cui a richiesta si eseguivano traduzioni di parole,

identificazione di sinonimi ed espressioni idiomatiche, ristretti controlli sintattici e scansione

di un dizionario.

Al giorno d’oggi la tendenza predominante è quella di realizzare sistemi di traduzione

automatica che, pur non riuscendo a raggiungere il grado di accuratezza dato da un

professionista, riescono a rispondere alle esigenze immediate della nostra società, quali ad

esempio una comunicazione veloce e multilingue o la traduzione immediata di pagine

scaricate da Internet.

Da non dimenticare è l’importanza che la traduzione automatica assume all’interno di

organizzazioni internazionali come la Comunità Europea, dove è urgente l’esigenza di

redigere documenti in tutte le lingue dei paesi membri (come ad esempio i sistemi Systran ed

Eurotra).

16

2.2 LIVELLI di ANALISI

Per costruire un efficace sistema computazionale in grado di trattare in modo adeguato il

linguaggio naturale, qualunque sia il campo di applicazione, è necessaria la creazione di un

modello per i diversi livelli linguistici: fonetico (riconoscimento del parlato e sua

sintetizzazione) morfologico, sintattico, semantico e, almeno in parte, del discorso e del

dialogo.

In un contesto di traduzione automatica, ciò che a noi interessa in modo particolare sono i

livelli morfologico, sintattico, semantico e del discorso.

Vediamo ora nel dettaglio quali sono le procedure adatte all’analisi di ogni livello,

precisando che questa panoramica vuole semplicemente fornire un’idea generale sulle

strategie e tecniche utilizzate senza nessuna pretesa di esaustività.

2.2.1 ANALISI MORFOLOGICA24

Il primo passo di analisi del linguaggio naturale, è l’identificazione delle parole; è piuttosto

evidente come non sia sufficiente individuarle prendendo come punto di riferimento gli spazi

tra l’una e l’altra o la punteggiatura; un approccio simile può essere valido nella maggior

parte delle lingue europee, ma non ed esempio per molte lingue asiatiche. È invece

necessario che la parola venga analizzata nei suoi elementi costitutivi : radice, prefissi,

suffissi e desinenze.

Attraverso la consultazione del dizionario si rintracciano anche informazioni riguardanti

alcune proprietà sintattiche della parola; quindi, accanto alle informazioni morfologiche,

abbiamo alcune caratteristiche sintattiche che permettono di definire i “tratti morfosintattici”

della parola presa in esame.

L’identificazione dei tratti e la loro importanza, varia a seconda della lingua: ad esempio

l’inglese richiederà un’analisi morfologica meno ricca rispetto all’italiano dove i suffissi

racchiudono tutta una serie di informazioni essenziali per la comprensione stessa della parola

(come nel caso delle declinazioni dei verbi, dove le desinenze forniscono informazioni

necessarie par la concordanza con il soggetto o l’identificazione del modo e del tempo).

24 Cfr. G. Ferrari, ibid.

17

Il modello più semplice di analisi lessicale è la ricerca tabulare, per cui nel dizionario

vengono inserite tutte le parole senza alcun tipo di suddivisione in parti costituenti

(segmenti); la ricerca avviene secondo una semplice scansione sequenziale.

Parola in input

Scansione dizionario

Categorie grammaticali

Tratti morfosintattici

semantica

La scansione sequenziale del dizionario può avvenire secondo tre modalità; in questo caso

possiamo parlare di una semplice consultazione del dizionario, differente, come vedremo,

dall’utilizzo di un analizzatore morfologico vero e proprio.

!" Lista piena : le parole sono inserite nel dizionario in ordine alfabetico e la scansione

confronta semplicemente la parola in input con quelle contenute nel dizionario ed

estrae quella uguale.

Se ad esempio la parola da ricercare è “seminato”, questo tipo di ricerca darà come

risultato: - seminato, N maschile singolare

- seminato, verbo participio passato di “seminare”.

!" Lista dei segmenti : nel dizionario vengono inserite le parti costitutive, i segmenti di

ciascuna parola; la ricerca viene eseguita in più fasi, cercando di combinare i

segmenti in modo da ricostruire la parola data in input.

1. ato, participio passato

2. semin+

3. -o indicativo presente prima persona singolare

4. -o sostantivo maschile singolare

!" Suddivisione del dizionario : il dizionario viene diviso in modo da contenere,

suddivise in diverse liste, prefissi, radici, suffissi e desinenze. Ogni segmento

contenuto in una specifica lista, porta le informazioni in merito al dizionario nel

18

quale andare ad individuare il successivo segmento. In questo modo si saltano

passaggi di ricerca nel caso in cui il segmento riconosciuto comporti l’esclusione di

qualche lista.

Un altro tipo di ricerca è quella strutturata : si procede sempre per strutture ad albero che

possono avere diversi livelli di complessità.

In questo caso è però necessario un analizzatore morfologico inserito in un più complesso

sistema di analisi del testo; come avremo modo di notare parlando dei vari sistemi di

traduzione automatica, un analizzatore ha il compito di fornire un output che possa essere

utilizzato come stringa di ingresso per gli altri moduli di analisi (sintattico e semantico)

fornendo tutte le informazioni utili per i successivi livelli di analisi.

Il metodo più semplice è quello ad albero binario, in cui il dizionario viene ripartito ad ogni

passaggio e l’algoritmo di ricerca identifica, un livello alla volta, il ramo in cui il segmento

della parola può trovarsi; una volta identificato, si compie una ricerca tabulare.

Un metodo più complesso consiste nel costruire un albero in cui i segmenti vengano

rappresentati carattere per carattere, componendo in fattori le parti comuni.

Da quanto abbiamo detto fin qui, emerge come non sia possibile fermarsi alla prima

rappresentazione della parola; infatti anche a livello morfologico esiste un certo livello di

ambiguità come dimostra il fatto che la parola “seminato” possa essere sia il participio

passato del verbo seminare, sia un sostantivo.

La piena applicazione di questi modelli risulta efficiente solo nel caso in cui, accanto alla

consultazione del dizionario, vengano inserite delle regole morfologiche che rendano conto

del corretto modo di formarsi delle parole, fornendo inoltre informazioni a carattere

sintattico e semantico.

Lo schema di rappresentazione dell’analisi sarà quindi:

19

Parola in input

+ categoria grammaticale

+ tratti morfosintattici

+ semantica

……………………..

Figura 3: Rappresentazione del processo di analisi morfologica25

Ai fini della traduzione, uno degli aspetti più interessanti, e allo stesso tempo problematici,

dell’analisi morfologica, è quello dei composti; con composto si intende indicare una parola

che è formata da due o più morfemi lessicali corrispondenti ad unità significative. Esempi di

composto sono ad esempio le parole “portaombrelli” e “asciugamano”.

I due casi sopra riportati possono essere considerati “motivati”, nel senso che è possibile

derivare il loro significato dall’analisi dei singoli morfemi lessicali di cui sono composti.

Se però pensiamo alla traduzione, dobbiamo constatare il fatto che se in una determinata

lingua una parola viene considerata un composto, questa può non esserlo necessariamente

anche in un altro sistema linguistico.

Per dare dimostrazione di questo fenomeno, riprendiamo gli esempi “portaombrelli” e

“asciugamano” e vediamone la traduzione in inglese e spagnolo: portaombrelli è tradotto in

inglese come umbrella stand (composto) e in spagnolo come paraguero (non composto);

“asciugamano” corrisponde all’inglese towel (non composto) e allo spagnolo toalla (non

composto).

25 Cfr. G. Ferrari, op. cit., p. 98

scansione

Processore di regole

dizionari

regole morfografemiche

tests di compatibilità

20

In pratica, quindi, i composti devono essere considerati delle parole alla stregua di tutte le

altre ed essere inserite nel dizionario come singole unità lessicali; nei dizionari verranno poi

indicati gli equivalenti nelle diverse lingue, indipendentemente dai costituenti.

Un altro aspetto interessante dei composti è quello per cui essi vengono tradotti in altre

lingue con intere frasi, come ad esempio avviene tra l’inglese e l’italiano dove, in alcuni casi,

un composto inglese è tradotto da una frase preposizionale italiana. Più in generale possiamo

affermare che questo fenomeno è piuttosto frequente quando le due lingue implicate nella

traduzione sono una di origine germanica (come l’inglese) e l’altra appartenente al ceppo

delle lingue romanze (italiano o spagnolo).

La preposizione di appoggio cambia a seconda dell’interpretazione del composto; prendiamo

ad esempio i composti inglesi book donation e library donation : nel primo caso la

preposizione italiana reggente è “di” (donazione di libri), mentre nel secondo è “a”

(donazione a una libreria).

In questi casi diventa necessario rendere esplicite le relazioni semantiche che si instaurano

tra i costituenti interni dell’inglese e la corretta preposizione dell’italiano.26

Un altro aspetto interessante riguardante il modo con cui le parole si vengono a formare e

occorrono, è quello delle parole multiple (vale a dire frasi idiomatiche e collocazioni).

Data l’importanza che questo tipo di parole riveste all’interno di un discorso di traduzione

automatica, ho preferito dedicare loro un intero capitolo27, fornendo non solo la teoria

linguistica di base, ma anche le strategie computazionali per la loro risoluzione.

2.2.2 ANALISI SINTATTICA

Compiere l’analisi sintattica di un testo significa identificare le componenti rilevanti

all’interno della frase e descriverle dal punto di vista delle strutture sintagmatiche (struttura

della frase) o funzionale (rappresentazione delle funzioni).

La tecnica computazionale per analizzare una frase e determinarne le relazioni interne in

base ad una grammatica, si chiama parsing.

26 V. Pirrelli, Morphology, Analogy and Machine Translation, Ph. D. Thesis, 1993, Salford University. 27 Cfr. p. 66

21

Il parser è un processore costruito in modo tale che data in input una frase in un determinato

linguaggio naturale e applicando un insieme di regole28, si ottiene in output una struttura (per

esempio ad albero di derivazione), attraverso la quale vengono messe in evidenza le relazioni

interne e di dipendenza della frase stessa.

Se ad esempio la frase in input è “ Laura mangia la mela”, la struttura ad albero che il

calcolatore darà in output sarà

NP VP

NOME V NP

Laura mangia

ART N

La mela

Per produrre la struttura ad albero in modo corretto, il parser deve poter attingere alle

informazioni grammaticali della lingua che sta trattando, in modo da stabilire quali relazioni

siano consentite e quali non lo siano per quel determinato linguaggio naturale:

Frase ---! Processore --! struttura ad albero

grammatica

La grammatica da cui trarre le regole da applicare deve rispettare due caratteristiche di base:

!" deve essere in grado di esprimere la maggior parte dei fenomeni del linguaggio

naturale che deve trattare;

!" deve essere in grado di rappresentare solo le costruzioni corrette di quel determinato

linguaggio naturale.

28 Il parser è un processore che interpreta delle regole di grammatica.

S

22

Il problema di costruire grammatiche adeguate alla generazione, è uno dei nodi cruciali per

ottenere delle produzioni linguistiche corrette.

Alcune tra le grammatiche che hanno ottenuto maggior successo, sono state la Functional

Unification Grammar (FUG) e la Augmented Phrase Structure Grammar (APSG).

La FUG, che ha il vantaggio di poter essere utilizzata sia in fase di analisi sia al momento

della generazione, è costruita per la rappresentazione, in termini di coppie attributo=valore,

della funzione degli elementi costitutivi della frase.

Le coppie, indicate con il termine di features sono rappresentate come negli esempi cat=n

(categoria grammaticale=numero); nb=sg (numero=singolre); gender=masc

(genere=maschile), etc. Sostanzialmente, quindi, ogni coppiaè il risultato di una funzione di

assegnazione dal dominio degli attributi, cioè quelli ammissibili a livello della

rappresentazione, al codominio di tutti i valori che quegli attributi possono assumere; le

opportune restrizioni vengono individuate seguendo regole di compatibilità sintattica e di co-

occorrenza.

L’operazione mediante la quale la grammatica compie la generazione, viene chiamata

unificazione e consiste nell’eguagliare i dati in input –costruiti secondo lo stesso schema

attributo=valore – con le coppie contenute nella grammatica.29

Uno degli attributi più importanti è il PATTERN, quello cioè incaricato di fornire l’ordine

dei costituenti all’interno della frase.

La grammatica APSG, nonostante si stata ideata ormai trent’anni fa, ha posto le basi per lo

sviluppo di altri formalismi grammaticali anche in tempi recenti.

Le regole di tale grammatica sono costruite con uno scheletro di base formato da frasi

strutturate che vengono poi “aumentate” in base a condizioni che devono essere verificate.

Un tipo di grammatica molto semplice utilizzato per i parser è la cosiddetta context-free

aumentate30; nel corso degli anni e con il progredire della ricerca, è stata implementata e resa

più completa, ma viene ancora oggi impiegata in alcuni sistemi di traduzione automatica31;

tale grammatica fornisce le regole, per ogni elemento della frase, che servono per costruire

una corretta rappresentazione della struttura interna della frase stessa.

29 D. Jurafsky, J. H. Martin, Speech and Language Processing, Prentice Hall, New Jersey, 2000 30 Il termine “aumentate” deriva dal concetto di “augmentation”, vale a dire particolari azioni che consentono di assegnare modificatori al soggetto o all’oggetto, di manipolare tratti semantici, di verificare concordanze, etc… Per un confronto si veda p.35 31 Cfr. il progetto Atlas II a p. 61

23

Per meglio capire come sia costruita, torniamo all’esempio della frase “Laura mangia la

mela”; il periodo (S) è costituito inizialmente da una frase nominale (NP) e da una frase

verbale (VP); a sua volta la parte nominale è formata da un sostantivo semplice (NOME); la

frase verbale è composta da un verbo (V) e da un’ulteriore frase nominale (NP) a sua volta

ancora suddivisa in articolo (ART) e sostantivo (N).

La grammatica per questa specifica frase sarà pertanto della forma :

S ! NP VP

VP ! V NP

NP ! NOME

NP ! ART N

NOME ! Laura

V ! mangia

ART ! la

N ! mela

La frase che ho utilizzato qui come esempio, ha una struttura base del tipo soggetto, verbo e

complemento oggetto ed è quindi di facile analisi per il parser; in genere gli enunciati sono

molto più complessi e in alcuni casi presentano anche delle costruzioni ambigue che danno

adito a diverse rappresentazioni.

A seconda di come procede l’algoritmo del parser nella sua analisi, possiamo distinguere due

grandi classi di parser che tengono più o meno conto della presenza di ambiguità:

a) deterministici: ad ogni passo dell’analisi viene fatto seguire un unico passo successivo,

senza quindi offrire eventuali alternative da scegliersi a seguito dell’analisi.

b) non deterministici: ad ogni passo vengono presentate le alternative da scegliere; tali

alternative di analisi si possono presentare tutte insieme (strategia breadth-first) oppure

una alla volta (strategia depth-first); conseguentemente, se una delle alternative dovesse

rivelarsi errata, esiste un meccanismo di ritorno, detto backtrack, per cui è possibile

riprendere l’analisi intraprendendo un’alternativa successiva.

24

Esistono però vari livelli di ambiguità:32

1. Lessicale/categoriale : accade quando una parola appartiene a più di una categoria

morfosintattica, come ad esempio nella frase “la vecchia porta cigola”; la parola “vecchia”

può essere considerata come un aggettivo di porta oppure come sostantivo (persona anziana),

così come “ porta” può essere il sostantivo oppure la terza persona singolare del verbo

portare.

Il parser darà in output due diverse rappresentazioni :

oppure:

S

SN SV

ART NOME porta

La vecchia

SV

cigola

La seconda rappresentazione non corrisponde alle regole sintattiche dell’italiano e verrà

pertanto automaticamente eliminata.

32 G. Ferrari, op.cit.

S

SV

cigola

SN

ART La

ATT vecchia

NOME porta

25

2. strutturale : si presenta quando è possibile attribuire alla stessa frase più di una

struttura sintagmatica, come ad esempio nella frase “la bambina vede il signore con il

binocolo”; l’ambiguità risiede nel fatto che si può intendere sia che la bambina possiede il

binocolo grazie al quale riesce a vedere il signore, sia che è il signore ad avere il binocolo.

Una possibile soluzione a questo tipo di ambiguità si ottiene eseguendo una verifica

preventiva delle restrizioni semantiche; ad esempio, si possono fare osservazioni a carattere

statistico per determinare la posizione all’interno di una frase di un particolare tipo di

complemento (se vicino al nome a cui si riferisce oppure no).

3. funzionale : si verifica quando la caratterizzazione funzionale di un costituente

influisce sulla struttura sintagmatica, come nella frase “Giovanni fu visto da Maria”.

“ Da Maria” può essere complemento d’agente o di luogo; per il parser entrambe le soluzioni

sono accettabili e quindi la risoluzione dell’ambiguità si dovrà basare sulla ricerca all’interno

del testo che permettano di scegliere tra le diverse interpretazioni.

Se prendiamo come punto di riferimento, le strategie che i parser utilizzano per compiere

l’analisi, ne possiamo distinguere due tipi principali: i top-down e i bottom-up.

I parser top-down iniziano la loro analisi partendo dal simbolo S e applicano le regole

grammaticali passando agli elementi sottostanti, fino ad arrivare ad ottenere le singole parole

che costituivano la frase data in input.

La frase che ho utilizzato da esempio, sarebbe quindi rappresentata con un parser di questo

tipo nel modo seguente:

S ! NP VP

NP ! NOME

VP ! V NP

NP ! ART N

I parser bottom-up, sostanzialmente compiono il procedimento inverso rispetto ai top-down:

partono dalle unità minime di informazione date in input e le raggruppa in insieme

ulteriormente riducibili.

La frase del nostro esempio verrà in questo caso rappresentata nel seguente modo:

26

NOME V ART N

NOME ! NP

ART N ! NP

V NP ! VP

VP NP ! S

Il vantaggio di utilizzare un parser ti tipo bottom-up risiede nel fatto che tutte le

interpretazioni vengono portate avanti contemporaneamente; quelle non valide verranno poi

automaticamente scartate nel corso dell’analisi.

Al termine del processo di analisi, la struttura disponibile è un insieme di alberi sintattici, ma

soltanto quelli che contengono un solo nodo S saranno il risultato finale dell’analisi.

2.2.3 ANALISI SEMANTICA

L’analisi sintattica della frase è solo il primo passo verso la sua comprensione; in effetti,

perché una traduzione possa considerarsi efficace e valida, è necessario che il testo venga

interpretato, che ne sia esplicitato il significato.

Il primo passaggio da compiere per un’interpretazione semantica è quello di cercare il

significato di ogni parola in un dizionario; molte parole possono però avere più di un

significato e il processo di disambiguazione viene effettuato associando ad ogni parola

contenuta nel dizionario delle informazioni riguardanti il contesto entro il quale ciascun

significato può presentarsi.

Per quanto riguarda la traduzione automatica non è sufficiente l’ausilio di semplici dizionari

comunemente utilizzati; i processi di disambiguazione, infatti, richiedono tecniche molto

sofisticate ed è per questo che si ricorre all’uso di dizionari speciali, quali ad esempio

WordNet o dizionari concettuali.33

Ogni parola di una frase può contribuire a determinare il contesto entro il quale si identifica

il significato di altre parole34; questo fenomeno è piuttosto visibile se vengono costruiti

dizionari specifici per argomento per cui se si deve affrontare un testo di matrice economica-

33 Per WordNet cfr. p. 32; i dizionari concettuali contengono, anziché parole, i relativi concetti, strutturati in una rete dove vengono esplicitate relazioni complesse (iperonimia, iopnimia, ma anche causa/effetto, parte/tutto, etc.) e il contesto associativo; il senso di una parola è risultato della porzione di rete che questa parola investe (es. cappello+papa= tiara) 34 E. Rich, K. Knight, Artificial Intelligence, Mc-Graw Hill Inc., New York, 1991

27

finanziaria, la parola inglese bank verrà tradotta in italiano con il significato di “banca”,

mentre in un contesto di natura ecologica - ambientale, alla stessa parola bank verrà

attribuito il significato di “argine, riva”.

Nella prospettiva della traduzione automatica, il problema dell’ambiguità semantica del

lessico, assume una rilevanza particolare; nello sviluppo di metodi automatizzati di analisi

dei testi, sarà quindi necessario studiare sistemi in grado di affrontare l’analisi del lessico e

di tenere conto di eventuali ambiguità che una parola porta con sé.

Se è vero quindi che alcune parole possono avere più di un significato, è altrettanto vero che

si possono costruire classi più vaste attraverso cui l’uomo opera una categorizzazione del

mondo; già Aristotele aveva individuato delle classi, quali gli oggetti fisici, qualità, quantità,

relazione, spazio, tempo, posizione, stato e azione.

Nell’analisi del linguaggio naturale dobbiamo però aggiungere ulteriori categorie : eventi,

idee, concetti e programmi; tra queste le più rilevanti ai fini di un’analisi computerizzata

sono gli eventi e le azioni.

Gli eventi risultano importanti ai fini di una teoria semantica in quanto forniscono una

struttura per l’organizzazione e l’interpretazione della frase, mentre le azioni rappresentano

ciò che compie l’agente per causare quel determinato evento.35

Ma perché è importante definire le categorie?

Le categorie in effetti sono l’elemento costitutivo del contesto, cioè il complesso delle

circostanze e situazioni entro il quale si verifica un determinato vento e senza il quale

diventerebbe assai difficile ricostruire il significato di una parola nel caso presenti qualche

livello di ambiguità.

Nel campo del Natural Language Processing, sono stati studiati diversi sistemi automatizzati

per l’analisi semantica, tra cui :

1. Grammatiche semantiche: nella maggioranza dei casi si tratta di grammatiche

context-free che utilizzano categorie legate allo specifico dominio di applicazione,

anziché categorie determinate su base linguistica;

2. Modello basato su Frames (Case Grammars): l’idea di base consiste nel fatto che

il verbo viene considerato il perno di tutta la frase, strettamente associato ad una

struttura di predicati; contemporaneamente agli altri componenti della frase

vengono associati dei ruoli (il case-frame, quali ad esempio Agente (umano),

35 J. Allen, op. cit., pg. 231

28

Strumento (oggetto)) congiuntamente ad alcune restrizioni riguardanti le

caratteristiche degli elementi che possono ricoprire i diversi ruoli.

3. Semantica composizionale (Grammatica di Montague): l’idea di fondo consiste

nell’ipotesi per cui ad ogni rappresentazione sintattica esista una corrispondente

interpretazione semantica (principio fondante della grammatica composizionale;

ogni qual volta costituenti sintattici vanno a formare una unità sintattica più ampia,

le corrispondenti interpretazioni semantiche possono essere combinate per formare

unità semantiche più vaste. Questo è possibile in quanto le regole che sottostanno

alla composizione delle strutture semantiche sono associate con quelle che

consentono la composizione delle strutture sintattiche.36

Il sistema che però, a parere mio, può risolvere la maggioranza dei problemi legati

all’interpretazione semantica anche in una prospettiva di traduzione automatica, è

rappresentato dalle reti semantiche.

La prima formulazione delle reti semantiche viene fatta risalire a Quillian, nel 1968, il quale

se ne servì per rappresentare il significato di parole in inglese.37

Le reti semantiche sono schemi di rappresentazione della conoscenza; tentano di riprodurre i

processi di ragionamento e immagazzinamento delle informazioni umani attraverso il

collegamento tra i concetti appartenenti a specifici domini, a particolari categorie.

Concretamente gli schemi vengono costruiti con “nodi” collegati tra loro da “archi”; questo

permette di realizzare un gran numero di inferenze significative tramite tecniche di ricerca a

grafo. I collegamenti hanno una direzione e vengono “etichettati”, viene cioè dato loro un

nome che corrisponde al tipo di relazione che esiste fra i nodi collegati.

La direzione degli archi è un elemento fondamentale per cui si da la chiave di lettura per

quella specifica relazione.

nodo arco nodo

36 E. Rich, K. Knight, op. cit., p. 410 37 F. Sebastiani, Alcuni approcci alla rappresentazione della conoscenza, Technical Report, Istituto di Linguistica Computazionale, 1986, CNR Pisa, p. 33

29

Perché una rete semantica possa essere un efficace strumento di rappresentazione della

conoscenza ai fini della traduzione automatica, possiamo individuare una dimensione

caratteristica della rete, vale a dire un livello concettuale: a tale livello gli oggetti descritti

risultano essere indipendenti dalle specifiche lingue e i legami si definiscono come relazioni

semantiche o concettuali.38

Come avremo modo di notare più avanti trattando il sistema UNL, risulterà evidente come

quest’ultimo aspetto sia particolarmente rilevante in sistemi che adottano una strategia

interlingua, soprattutto per quanto riguarda la strutturazione e l’organizzazione della

conoscenza del sistema stesso.

Esistono diversi tipi di relazione che si possono instaurare fra i nodi, come ad esempio “

genere di “ (AKO dall’inglese “a kind of “) per cui si identifica una relazione che stabilisce

insiemi e sottoinsiemi, passando dall’elemento particolare a quello generale.

cane ! animale

Oppure una relazione di inclusione ; è un genere di collegamento fra nodi contraria a quella

esaminata in precedenza in quanto si passa dall’elemento generale a quello particolare:

animale! cane

La rappresentazione di un concetto implica l’utilizzo di altri concetti e quindi il diagramma

potrebbe essere ampliato all’infinito :

38 F. Sebastiani, ibid. p 35

cane

pechinese

beagle

dalmata

animale Essere vivente

rettili

uccelli

mammiferi

ako

ako

ako isa

isa

isa

is

30

Ancora, esiste un tipo di relazione chiamata ISA (dall’inglese “is a”) per cui se abbiamo un

cane di razza beagle che si chiama Tom, possiamo affermare – in base a questa rete

semantica – che è un essere vivente.

La caratteristica che emerge con chiarezza, e che rappresenta anche uno dei punti di forza

delle reti semantiche, è che gli oggetti presenti nella parte bassa del diagramma “ereditano”

le caratteristiche dei nodi superiori.

Ma in una prospettiva di traduzione automatica, come si rendono utili le reti semantiche ?

Partiamo dal presupposto che le reti semantiche siano uno strumento in grado di collegare

concetti, intendendo per concetto ciò che la mente umana intende e comprende per mezzo

dell’osservazione, dell’esperienza; sono cioè rappresentazioni mentali, idee di un oggetto.

A questo punto ipotizziamo di dover tradurre un testo e di voler utilizzare le reti semantiche

come metodo di analisi semantica in modo da dare una rappresentazione dei concetti presenti

negli enunciati; prendiamo ad esempio la frase “Giovanni compra un libro per Laura; la rete

semantica dirà solo che Giovanni ISA persona, libro ISA oggetto-fisico, comprare ISA

Azione su ruoli come Agente, Tema, Strumento, etc; cioè indica la natura dei concetti.

Per definire che Laura è un Agente bisogna riconoscere il ruolo di Agente con un oggetto di

tipo Persona.

Si sono quindi individuati i concetti basi che costituiscono la frase; se il nostro scopo è

quello farne la traduzione, è necessario compiere un ulteriore processo di analisi, questa

volta a livello sintattico. Partendo dalle relazioni concettuali stabilite con la rete semantica,

pechinese

beagle

dalmata rettili

uccelli

mammiferi

ako

ako

ako isa

isa

Tom

isa

cane animale Essere vivente

isa

is

31

possiamo utilizzare un parser che ricostruisce la frase nella lingua di arrivo della traduzione

in modo che vengano rispettate le stesse relazioni e, nello stesso tempo queste vengano

ricomposte secondo gli schemi grammaticali consentiti dalla stessa lingua di arrivo.

Una concreta applicazione delle reti semantiche utile per svolgere disambiguazione, è il

dizionario WORDNET.39

Il progetto nasce nel 1985, grazie agli impulsi dati da studi di psicolinguistica nei quali

emerge chiaramente come il processo umano di costruzione del significato si basi su di un

complesso sistema di reti di relazioni.

Per arrivare a questa conclusione, vennero condotti studi sui processi di apprendimento del

linguaggio da parte dei bambini e si scoprì come i concetti venivano assimilati partendo da

categorie molto vaste per poi scendere sempre più nel particolare; in sostanza, si ragiona per

sinonimi posizionati in base ad una gerarchia.

Il cuore di WordNet è proprio un vasto insieme di sinonimi denominato synset, in grado di

rappresentare i concetti e descrivere la matrice lessicale della parola: in pratica avviene una

mappatura tra forma e significato delle parole.

In effetti, però, per ottenere la completa disambiguazione lessicale, ragionare per reti di

sinonimi non è sufficiente in quanto il ruolo più importante per l’individuazione di un

significato viene compiuta dal contesto.

È a questo proposito che emerge la caratteristica più interessante di WordNet: l’analisi del

contesto basato sull’applicazione del concetto di distanza; questo significa cioè che l’affinità

semantica viene misurata in termini di distanza che esiste fra due parole gerarchicamente

collegate all’interno del synset. In effetti, in WordNet è possibile rintracciare, per ogni

parola ricercata, non solo il significato/i, ma anche iponimi (cioè parole che racchiudono un

significato meno esteso, più circoscritto ad uno specifico ambito) e iperonimi (parole che

rappresentano significati dal concetto più vasto) e per ciascuno vengono inoltre indicate frasi

esemplificative sul contesto entro il quale le parole ricercate vengono utilizzate.

Per avere un esempio concreto dei risultati ottenuti con l’utilizzo di WordNet, si veda

l’Appendice Uno.

39 C. Felbaum (ed), WordNet, An Electronic Lexical Database, MIT Press, Cambridge, 1998

32

2.2.4 ANALISI DEL DISCORSO

Fino ad ora abbiamo preso in considerazione i processi di analisi rivolti a singole parole o a

brevi frasi; ma il significato di una frase può dipendere da quelle che precedono e

influenzare il senso di ciò che segue.

Per questo, se si vuole compiere un’analisi accurata, è necessario considerare l’intera

struttura del testo: è indispensabile cioè comprendere i collegamenti interni che mettono in

relazione le singole frasi e, in effetti, non dobbiamo dimenticare che l’oggetto primo della

traduzione automatica è il testo.

Al fine di comprendere i rapporti interni di un testo, il programma di analisi deve fondarsi su

di una solida base di conoscenza e il modo con cui essa viene organizzata rappresenta il nodo

cruciale per un buon funzionamento del sistema stesso.

Per quello che a noi qui interessa, e cioè dare una visione d’insieme delle problematiche

legate alla traduzione automatica, gli elementi che risultano maggiormente implicati nei

sistemi automatici di traduzione, sono l’individuazione della referenza e il contesto40.

La referenza viene definita come la funzione in base alla quale un segno linguistico rimanda

al mondo extra-linguistico; si configura cioè come un problema di conoscenza: l’uomo

utilizza cioè la referenza per interpretare parole, relazioni interne ad un determinato discorso,

il significato implicito nel modo di esprimersi.41

Il primo passo quindi per compiere l’analisi del discorso, sarà quello di individuare il

referente; a questo scopo, la linguistica computazionale ha seguito due diversi approcci: uno

logico, dove l’obiettivo è quello di costruire una struttura logica del discorso entro la quale

individuare i meccanismi di risoluzione della referenza; tale approccio risulta però

abbastanza inadeguato per trattare tutta la complessità implicita nel discorso e si preferisce

quindi utilizzare l’altro sistema, quello strutturale, che risulta più articolato e completo.

L’elemento principale di tale approccio è il focus; con tale termine si vuole indicare

l’insieme delle conoscenze che permetto un’efficace comunicazione.

Possiamo distinguere due tipi di focus : quello globale e il locale. 42

Il focus globale si riferisce alla struttura del discorso o, più precisamente, alla struttura

dell’argomento specifico trattato nel testo; il focus locale è più strettamente legato ai

fenomeni linguistici presenti nel testo stesso.

40 G. Ferrari, op. cit., p. 135 41 Juan Sager, op.cit., p. 97 42 H. Bunt, W. Black (eds), Abduction, Belef and Context in Dialogue, John Benjamins Publishing Company, New York, 2000, p.268

33

Per determinare il focus si possono seguire due strategie:43una, chiamata top-down, più

adatta per l’individuazione del focus globale che è applicabile a testi (dialoghi) task-oriented

(cioè orientati a svolgere un compito) in cui vengono specificate nel dettaglio tutte le

procedure che devono essere seguite per raggiungere un determinato scopo (è questo il caso

di ricette, manuali di assemblaggio di componenti, istruzioni d’uso…); l’altra strategia, la

bottom-up, adatta per identificare il focus locale, consiste nella memorizzazione dei sintagmi

nominali che vengono menzionati nelle sequenze di frasi.

L’identificazione del focus globale, si può ottenere prendendo in considerazione alcune

particolari locuzioni, dette cue-words, quali ad esempio “bene”, “ora…”, “andiamo

avanti”…, che demarcano l’inizio o la fine di un argomento o di un turno di battuta, o anche

elementi non linguistici, come ad esempio la punteggiatura.

Per quanto riguarda il focus locale, la sua determinazione dipende dall’elemento che

all’interno della frase ricopre una importanza maggiore per capire quale sia l’argomento

della frase stessa; quindi per determinare quale sia tale elemento rilevante interno alla

struttura della frase, vengono generalmente utilizzate regole grammaticali, come ad esempio

la posizione del pronome all’interno della frase; in questo modo si tenta di stabilire una

priorità di ricerca dei singoli foci sulla base di parametri sintattci e posizionali.44

La differenza tra i due procedimenti risiede nel modo di immagazzinare le informazioni

contenute nelle frasi, ma l’aspetto più importante si riscontra invece in quello che hanno in

comune: in entrambi i casi l’attenzione è rivolta alla fase di spostamento del focus (focus-

shifting), il momento cioè nel quale si verifica il passaggio da un focus ad un altro.

2.3 GENERAZIONE DI LINGUAGGIO NATURALE

Con il termine “generazione di linguaggio” naturale si vuole indicare quel procedimento in

base al quale, partendo da rappresentazioni fornite dalla fase di analisi, vengono prodotte

frasi in una particolare lingua; il generatore è quindi uno degli elementi essenziali per la

costruzione di sistemi adatti a compiere traduzione automatica.

Un generatore deve essere in grado di compiere alcune scelte:

Lessicali: attraverso la consultazione di un dizionario specifico per la lingua di traduzione,

deve scegliere quale sia il termine più adeguato per descrivere un determinato concetto .

43 G. Ferrari, op. cit. 44 ibid. p. 143

34

Sostanzialmente l’input del generatore consiste in una rappresentazione dei concetti

contenute nelle frasi e da questi risalire ai termini corrispondenti; in linea generale possiamo

dire che quando l’algoritmo del generatore individua il termine corrispondente al dato

concetto, inserisce tale termine nel testo; in caso contrario il generatore sceglie un termine di

gerarchia superiore, un iperonimo, aggiungendo eventualmente modificatori restrittivi.45

Strutturali: il generatore deve essere in grado di strutturare correttamente sia le singole frasi

(con l’ausilio di una grammatica), sia l’intero discorso; non dobbiamo infatti dimenticare che

nelle diverse lingue, il modo di articolare i periodi varia non solo in base a convenzioni

grammaticali, ma anche stilistiche.

Le regole che più interessano per la generazione, sono quelle di codifica, in grado cioè di

trasformare diagrammi (generazione a livello alto) in sequenze di parole (generazione bassa).

Tali regole possono essere considerate come un’estensione delle regole per la descrizione di

grammatiche context-free.46

Prendiamo ad esempio la forma tipica di una regola in grammatiche context-free

S > NP VP

In questo modo non si riesce a intuire come la frase nominale e quella verbale siano derivate

dal diagramma concettuale e non possiamo neppure stabilire come la persona e il numero del

soggetto della frase nominale influenzino la frase verbale.

È a questo punto che interviene l’innovazione della grammatica ASPG: per ogni nodo non

terminale (NP VP), vengono specificati degli attributi che devono esser verificati.

Così avremo :

S (condizioni per applicare tale regola) !

NP (spostare nodo del concetto verso il soggetto;

prendere numero e persona dal concetto)

VP ( spostare il nodo del concetto verso l’AZIONE principale;

copiare numero e persona dal record NP;

copiare modo e tempo dal record S)

In linea generale possiamo dire che S rappresenti lo scopo che deve essere raggiunto, mentre

NP e VP sono dei sottoprocedimenti da attuare.

45 N. Sondheimer, S. Cumming, R. Albano, How to realize a concept: Lexical selection and the conceptual network in text generation, Machine Translation, 1 marzo 1990 46 Cfr p. 23

35

TRADUZIONE AUTOMATICA

3.1 INTRODUZIONE La traduzione automatica, vale a dire la traduzione da un linguaggio naturale ad un altro

attraverso l’uso di computer, è stato uno tra i primi obiettivi che si è posta la linguistica

computazionale.

In linea generale possiamo dire che attualmente quasi tutti i sistemi di traduzione automatica

non si prefiggono come obiettivo quello di raggiungere una completa traduzione automatica

ad alta qualità, ma piuttosto tentano di conseguire un livello qualitativo in grado di

rispondere alle esigenze del consumatore, degli utilizzatori di servizi di traduzione

automatica, che già da qualche tempo stanno diffondendosi gratuitamente anche in rete. Una

traduzione automatica approssimativa ha inoltre il vantaggio di rappresentare una buona base

di partenza per la fase di post-editing, cioè una correzione manuale dell’output dato dal

calcolatore.

I problemi legati alla traduzione automatica sono di diversa natura: innanzitutto bisogna

tenere in considerazione le diversità strutturali che riguardano le diverse lingue; possiamo

infatti catalogare, seppur in modo molto generale, le lingue in base all’ordine nel quale

vengono posizionati soggetto, verbo e oggetto in semplici frasi assertive; avremo così lingue

“preorder”, dalla forma VSO (verbo, soggetto, oggetto), come nel caso dell’arabo o

dell’irlandese; lingue “postorder” dalla forma SOV (soggetto, oggetto, verbo) come nel

giapponese e infine lingue “inorder” con la forma SVO (soggetto, verbo, oggetto) come per

l’inglese o il francese.

In secondo luogo è necessario tenere presenti i vari livelli di ambiguità (semantica,

sintattica), che abbiamo già avuto modo di esaminare nella descrizione della fase di analisi

del linguaggio naturale, e i problemi legati alla generazione; infine esistono delle

considerazioni più a carattere operativo, in modo particolare per quanto riguarda le diverse

strategie ed approcci che si sono seguiti nel corso dei decenni per la costruzione di sistemi

adeguati per la traduzione automatica.

Le difficoltà maggiori si riscontrano soprattutto quando si voglia progettare un sistema in

grado di analizzare un testo di qualsiasi natura, senza cioè aver pensato alla costruzione di un

sistema di traduzione automatica ad hoc per un argomento specifico : infatti, soprattutto agli

albori degli studi sulla traduzione automatica, i sistemi venivano realizzati per rispondere a

36

particolari esigenze di traduzione, come ad esempio previsioni metereologiche o documenti

militari. Se l’argomento della traduzione è ristretto, vengono di molto semplificati i problemi

di ambiguità lessicale, polisemia, ambiguità del contesto. Riprendiamo l’esempio della

parola “bank”47 e consideriamone le sue accezioni di “istituto bancario” e “riva del fiume”;

ora, se avessimo il dizionario di lingua, inserito in un sistema di traduzione automatica,

specifico per il dominio finanziario, il significato “riva del fiume” non sarebbe neppure

contemplato e il sistema tradurrebbe senza alcun problema di ambiguità lessicale la parola

“bank” con il corrispondente “istituto bancario”.

Negli ultimi anni, però la tendenza è stata quella di arrivare a traduzione sempre più

perfezionate e in grado di trattare testi dalla più svariata natura e prova ne è il fatto che,

sistemi gratuiti on-line di traduzione automatica sono in larga diffusione (come ad esempio

quelli dei browser yahoo, google o altavista).

Vediamo quindi quale è stato lo sviluppo delle ricerche nel campo della traduzione

automatica dagli inizi ai nostri giorni.

3.2 STORIA DELLA TRADUZIONE AUTOMATICA48

Le origini della traduzione automatica possono essere fatte risalire al diciassettesimo secolo

con l’idea di trovare linguaggi universali, ma le prime vere proposte apparvero nel 1933 con

i brevetti del francese Georges ARTSROUNI e del russo Petr TROJANSKIJ.

Artsrouni propose un dizionario multilingue automatizzato, mentre il progetto di Trojanskij

si basava sulla codifica e interpretazione delle funzioni grammaticali utilizzando simboli

universali (sulla falsariga dell’Esperanto).

Trojanskij individuò tre fasi nel processo di traduzione automatica: nella prima era

necessario che un esperto della lingua da tradurre predisponesse le forme base della lingua;

quindi il traduttore automatico trasformava tali sequenze base e le strutture grammaticali in

equivalenti strutture funzioni nella lingua di arrivo; da ultimo un esperto della lingua nella

quale è stata eseguita la traduzione, compie una revisione dell’output del testo.

47 Cfr. p. 28 48 J. Hutchins, Machine translation: a brief history, in “Concise History of the language sciences: from the Sumerians to the cognitivists”. Edito da E.F.K. Koerner e R.E Asher, Pergamon, Oxford, 1995, pp. 431-445.

37

La possibilità di usare computer per la traduzione venne ripresentata circa dieci anni dopo,

da Andrew BOOTH e Warren WEAVER, stimolati dallo sviluppo di nuovi software.

Nel 1949 Weaver si concentrò soprattutto nella risoluzione del problema dell’ambiguità

semantica, basandosi sulle sue specifiche conoscenze in crittografia, statistica e logica.

A seguito di questi nuovi impulsi, nel 1951 venne istituito al Massachusetts Institute of

Technology, un gruppo di ricerca sulla traduzione automatica guidata da Yehoshua BAR-

HILLEL e l’anno seguente venne convocata la prima conferenza nella quale vennero

tracciate le linee guida per diversi approcci praticabili in traduzione automatica.

Dalla conferenza emerse chiaramente un punto fondamentale : una completa automazione

del processo traduttivo che portasse a risultati paragonabili a quelli proposti da traduttori

umani, era in pratica impossibile; si rendevano quindi necessarie le fasi di pre e post-editing

(preparazione dell’input e revisione dell’output).

Il 7 gennaio 1954, Leon DOSTERT della Georgetown University, organizzò una

dimostrazione pubblica di un sistema di traduzione automatica costruito in collaborazione

con l’IBM : vennero tradotte dal russo all’inglese un set di 49 frasi usando un dizionario

costituito da sole 250 parole e una grammatica contenente sei regole.

Nonostante lo scarso valore scientifico di tale esperimento, esso ebbe l’indiscusso merito di

sensibilizzare l’opinione pubblica e i governi, soprattutto quello americano, tanto che

ricerche in traduzione automatica vennero iniziate in tutti gli Stati Uniti.

Nel 1954 venne fondata la prima rivista specialistica “Mechanical Translation” e pubblicato

il primo libro che trattava in modo rigoroso i paradigmi di traduzione automatica.

A seguito dei numerosi progetti portati avanti negli Stati Uniti, così come in Unione

Sovietica, si formarono gruppi di ricerca anche in Europa (come ad esempio quello di

Cambridge sotto la guida di Margaret MASTERMAN o a Milano con il coordinamento di

Silvio CECCATO), Cina e Giappone.

Nel corso di tutti gli anni sessanta vennero seguiti soprattutto due filoni di ricerca : uno di

impostazione più empirica, basato sull’analisi statistica in grado di dar conto di regolarità

grammaticali e lessicali; l’altro seguì un approccio più rigoroso nella ricerca linguistica

stretta.

38

Gli empiristi adottano l’approccio della traduzione automatica diretta, per cui il sistema

viene costruito in ogni dettaglio per poter lavorare con una specifica coppia di lingue; i

dizionari bilingui vengono semplificati in modo da proporre per ciascuna parola della lingua

da tradurre un solo equivalente nella lingua di traduzione che coprisse il maggior numero di

significati possibili; sostanzialmente veniva tralasciata l’analisi del contesto e veniva

mantenuto in modo piuttosto fedele l’ordine delle parole della lingua tradotta.

I ricercatori che affrontavano ricerche linguistiche più approfondite, proponevano un

approccio alla traduzione automatica basato sul sistema dell’interlingua; la traduzione

avveniva pertanto in due fasi : dalla lingua da tradurre all’interlingua e quindi

dall’interlingua alla lingua di arrivo; l’interlingua si viene quindi a configurare come un

linguaggio artificiale di passaggio tra due lingue.

Il problema più grosso era però rappresentato dall’inadeguatezza degli strumenti

computazionali a disposizione, per cui gli sforzi si concentrarono soprattutto nello sviluppo

di software e strumenti per il trattamento del linguaggio naturale.49

Nonostante le difficoltà di carattere pratico, il fervore per un ampliamento di nuovi progetti

di traduzione automatica, in modo particolare negli Stati Uniti, non si arrestò e anzi si

cominciò a pensare alle applicazioni più diverse, sia in campo militare, sia per uso privato.

Erwin REIFLER, all’università di Washington, propose un approccio basato sullo sviluppo

di dizionari : le informazioni lessicografiche contenute nei dizionari bilingui venivano

utilizzate non solo per trovare i significati equivalenti in copie di lingue, ma avrebbero anche

dovuto risolvere problemi di carattere grammaticale senza compiere un’analisi sintattica.

Un’applicazione pratica di questo sistema venne utilizzato dall’aviazione statunitense fino al

1970, anno in cui si cominciò a lavorare con Systran.50

Altri ricercatori seguirono modelli basati sull’analisi di testi a più livelli linguistici, come nel

caso del gruppo di ricercatori guidati da Michael ZARECHNAK alla Georgetown

University, che propose il sistema GAT (Georgetown Automatic Translation) : la lingua

naturale veniva analizzata nelle sue componenti morfologiche (inclusa l’identificazione di

idiomi), sintagmatica (concordanza di nomi ed aggettivi, verbi, modificazione di aggettivi) e

sintattica (relazioni tra frasi, soggetti e predicati…).

Alla Harvard University, Anthony OETTINGER preferì seguire un approccio graduale, per

cui in una prima fase ci si concentrò nella compilazione di enormi dizionari bilingui

49 Vedi il precedente capitolo sul Natural Language Processing, p. 13 50 Cfr. p. 53

39

inglese/russo in modo da realizzare una traduzione parola-per-parola; in un secondo

momento si pensò alla progettazione di un analizzatore sintattico in grado di compiere

previsioni di tipo statistico sulle possibili sequenze grammaticali.

Al Massachusetts Institute of Technology, si puntò soprattutto sull’analisi sintattica: in una

prima fase si costruirono grammatiche adeguate alla lingua che si doveva tradurre; quindi

segue una conversione delle strutture individuate nella lingua di partenza in equivalenti

strutture nella lingua di traduzione; infine, una grammatica costruita appositamente per la

lingua di traduzione, produceva frasi in output.

A Berkeley, sotto la direzione di Sydeny LAMB, venne costruita una grammatica

“stratificata” con reti, nodi e relazioni; la traduzione viene considerata come un insieme di

processi di codifica e decodifica: dallo strato grafemico della lingua di partenza, si passa agli

strati morfemici e sememici; il testo nella lingua d’arrivo viene generato passando attraverso

questi diversi strati. Ogni parola viene cioè esaminata in un contesto che non sia

esclusivamente quello del testo, ma il più vasto possibile.

È facile notare come le ricerche americane prediligessero una approccio basato sul transfer51

linguistico per compiere traduzioni automatiche, tralasciando l’aspetto dell’interlingua; tale

secondo approccio venne però seguito in altre parti del mondo.

A Cambridge, il gruppo guidato da Margaret MASTERMAN, adottò due linee essenziali: da

un lato lo sviluppo di un’interlingua che si configurasse come una lingua pidgin (nel senso

di lingua ausiliaria); dall’altro lato si guardò alla costruzione di strumenti per la revisione

degli output (post-editing), in modo particolare sotto forma di complesse reti semantiche

applicate a thesaurus.

A Milano, Silvio CECCATO propose un modello di interlingua basato sull’analisi dei

processi cognitivi52, soprattutto per quanto riguarda le parole (genere, specie, proprietà..) e le

diverse correlazioni esistenti tra le parole all’interno di un testo.

51 Con transfer si intende la trasformazione delle strutture della lingua sorgente in corrispondenti strutture della lingua di arrivo. 52 Attraverso lo studio dei processi cognitivi si tentano di spiegare le attività con le quali l’uomo giunge a conoscere il mondo esterno ed entra in relazione con esso. I processi cognitivi comprendono quindi attenzione, percezione, riconoscimento, memoria, pensiero e, per quello che a noi qui interessa, il linguaggio, sia per i rapporti tra esso e il pensiero, sia per la sua funzione comunicativa.

40

In Unione Sovietica gli studi più interessanti in merito alla creazione di un’interlingua,

vennero portati avanti da MEL’CHUCK, che propose un modello basato sul “significato del

testo” ; l’idea di fondo era quella di poter individuare particolari aspetti di analisi: fonetico,

fonematico, morfemico, sintattico di superficie e profondo, semantico, con particolare

attenzione agli aspetti lessicografici. Infatti vennero identificate 50 funzioni lessicali

universali dal applicare all’interlingua in modo da ricoprire altrettante relazioni

paradigmatiche.

A seguito di questi straordinari e nuovi impulsi alla ricerca, nacquero numerosi altri progetti

in tutta Europa, Cina, Messico e Giappone.

Purtroppo, questo entusiasmo che aveva caratterizzato tutti gli anni cinquanta, fino alla metà

degli anni sessanta, venne notevolmente frenato dal cosiddetto “Rapporto ALPAC”.

Tale rapporto, venne pubblicato nel novembre del 1966 ad opera della Automatic Language

Processing Advisory Committee.

Fin dalle prime battute, apparve evidente il giudizio estremamente negativo dato dalla

commissione nei riguardi della traduzione automatica, ma soprattutto era largamente diffusa

l’opinione per cui non fosse possibile immaginare soluzioni soddisfacenti nel breve periodo.

I punti principali sui quali si concentrò il rapporto, erano la qualità, la velocità e i costi della

traduzione automatica, messi a confronto con quelli che erano i risultati e le spese dei

traduttori umani professionisti; per ciascuno di questi aspetti, la commissione espresse

un’opinione più favorevole verso la traduzione “ manuale”.

La commissione suggerì quindi di concentrare gli sforzi, e le risorse finanziarie, verso lo

sviluppo di strumenti che aiutassero i traduttori professionisti, come ad esempio glossari per

ricerche incrociate in più testi o database terminologici.

In effetti, bisogna riconoscere che il panorama, sia per quanto riguarda i progetti sia per i

risultati ottenuti, era qualitativamente scarso e non si vedevano situazioni risolutive a breve

termine, scoraggiando quindi anche i finanziamenti governativi.

È però altrettanto vero che ci si limitò a pensare alle esclusive esigenze degli enti federali

statunitensi o quantomeno alla quasi esclusiva applicazione della traduzione automatica in

campo militare, tralasciando la possibilità di impiegare tali prodotti per le organizzazioni

internazionali o per la distribuzione su larga scala nelle aziende, soprattutto in un momento

in cui l’economia globale era in piena espansione.

Come prima reazione a seguito del rapporto, le ricerche in traduzione automatica negli Stati

Uniti, cessarono quasi completamente; fortunatamente nuove esigenze in altre parti del

41

mondo continuarono ad alimentare la fiducia nel raggiungimento di buono risultati, come nel

caso del Canada, che seguiva una politica atta a mantenere il bilinguismo anglo-francese, e

dell’Europa, che vedeva in quegli anni lo sviluppo della Comunità Economica Europea.

A Montreal nacque così nel 1970 il progetto TAUM, che perseguiva due obiettivi principali:

innanzitutto vennero poste la basi per la creazione di un linguaggio di programmazione

(PROLOG) da utilizzare per il trattamento del linguaggio naturale, e inoltre la costruzione di

un sistema di traduzione automatica per le previsione meteorologiche (Météo).

In Europa, gli studi più interessanti si ebbero a Grenoble, con lo sviluppo di progetti basati

sull’approccio interlingua. Bernard VAUQUOIS, del Centro per gli Studi sulla Traduzione

Automatica propose un “linguaggio pivot”, un modello cioè in grado di rappresentare

unicamente le proprietà delle relazioni sintattiche, mentre il lessico veniva tradotto da un

semplice sistema bilingue a transfer.

Nonostante i buoni risultati raggiunti con sistemi ad approccio interlingua, verso la metà

degli anni settanta le difficoltà individuate per la costruzione di un linguaggio intermedio,

soprattutto per quanto riguarda i diversi livelli di analisi, fecero optare per soluzioni meno

ambiziose e si puntò soprattutto su un approccio transfer.

Un sistema di questo tipo, che portasse con sé vaste possibilità di applicazione, venne

studiata proprio dal gruppo di Grenoble: ARIANE, che influenzò numerosi altri progetti di

traduzione automatica lungo tutto l’arco degli anni ottanta.

I punti di forza di Ariane erano la flessibilità e la modularità53, ma soprattutto il trasduttore,

dispositivo in grado di manipolare rappresentazioni a grafo orientato: diversi tipi di

rappresentazioni (logiche, della struttura della frase, delle relazioni di dipendenza interna…)

potevano essere ricondotte ad un unico grafo con tutte le informazioni contenute nei vari

moduli.

L’influenza che il gruppo francese ebbe anche su altri progetti, si riscontrò in modo

particolare in Asia; alcune sostanziali somiglianze sono infatti evidenti tra Ariane e Mu, il

sistema sviluppato da MAKOTO NAGAO all’Università di Kyoto: l’analisi grammaticale, le

rappresentazioni ad albero delle relazioni di dipendenza e la metodologia per la scrittura di

grammatiche, avevano alla base la stessa filosofia di modularità.

53 Con modularità si intende indicare la possibilità di scomporre il sistema in moduli, ciascuno dei quali ha una specifica funzione all’interno del processo di traduzione.

42

Un altro progetto che ha dei punti in comune con Ariane è EUROTRA, sviluppato per la

Comunità Europea; il suo scopo era quello di costruire un sistema transfer multilingue per la

traduzione delle lingue dei paesi membri della comunità.

Era un progetto che prevedeva una struttura modulare, disegnato in modo tale da combinare

informazioni riguardanti il lessico, la sintassi e la semantica in interfacce multilivello con un

elevato grado di astrattezza; restava comunque necessario un post-editing da parte di esperti

traduttori.

Nonostante il progetto non ebbe seguito, uno dei suoi meriti fu sicuramente quello di aver

formalizzato teorie sintattiche, di parsing e di analisi del discorso.

Sul finire degli anni ottanta, si assiste ad un ritorno di interesse per sistemi ad approccio

interlingua, in modo particolare per quanto riguarda la creazione di dispositivi costruiti sulla

base della rappresentazione della conoscenza.

Progetti di questo tipo si svilupparono soprattutto in Olanda; il primo di questi fu DLT

(Distributed Language Translation): venne inteso come un sistema multilingue interattivo

che lavorasse attraverso reti di computer; ogni terminale doveva essere la macchina

traduttrice da e verso una specifica lingua; i testi dovevano quindi essere trasmessi in un

linguaggio intermedio (costruito seguendo le linee guida dell’Esperanto).

L’analisi del linguaggio avveniva solo a livello morfologico e sintattico.

Un altro progetto olandese è il ROSETTA, creato dal gruppo guidato da Jan

LANDSBERGER; lo scopo era quello di utilizzare la grammatica di Montague54 in

rappresentazioni interlingua: le rappresentazioni vengono derivate dalle strutture sintattiche

seguendo i principi della composizionalità; per ciascuna struttura di derivazione sintattica

esiste una corrispondente struttura semantica che a sua volta è rappresentazione interlingua.

Un altro aspetto interessante del progetto Rosetta è la possibilità della reversibilità delle

grammatiche: la compilazioni di regole grammaticali e trasformazionali avrebbe lavorato in

un senso per le fasi di analisi sintattica e semantica di una particolare lingua; nell’altra

direzione sarebbe invece servita per la generazione (produzione) di frasi corrette in quella

stessa lingua.

Anche negli Stati Uniti, la ricerca in traduzione automatica riprese vigore, e prova ne è la

creazione alla Carnegie-Mellon University di Pittsburgh, sotto la guida di Jaime

CARBONELL e Sergei NIRENBURG, di sistemi che lavorano su base di conoscenza.

54 Cfr. p. 29

43

I componenti essenziali di tali sistemi erano piccoli dizionari concettuali costruiti per

specifici domini, dizionari per analisi e generazione, parser, mappatori semantici per

l’individuazione dei significati, generatori semantici e sintattici. Tali componenti

confluivano poi nella rappresentazione interlingua di testi sotto forma di reti di proposizioni.

All’inizio degli anni novanta, emerse l’esigenza di creare supporti e strumenti di controllo da

utilizzare durante le varie fasi di analisi e generazione implicate nel processo automatico di

traduzione.

Nacquero così le prime postazioni di lavoro per traduttori, in grado di combinare

l’elaborazione multilingue di parole, software specifico per il trattamento delle terminologie

e soprattutto corpora fraseologici bilingue; tali corpora avevano la specifica funzione di

immagazzinare testi nelle due versioni, originale e tradotto; i due testi venivano quindi

disposti uno accanto all’altro in modo da poter creare e ricercare corrispondenze tra frasi in

lingue diverse.

Il traduttore sarà inoltre in grado di eseguire ricerche per singole frasi o interi periodi e

trovare corrispondenze tra coppie di lingue.

Oltre alle postazioni di lavoro, gli anni novanta sono caratterizzati anche dall’emergere di un

nuovo metodo di eseguire traduzione automatica, cioè quello di basarsi sulla compilazione di

vastissimi corpora linguistici multilingue ai quali affiancare metodi di analisi statistica.55

Un progetto di questo tipo, il Candidate dell’IBM, portò a risultati estremamente

interessanti: circa la metà delle frasi tradotte con questo sistema risultarono identiche a

quelle contenute nel corpus e per la rimanente metà, la traduzione risultava comunque

accettabile.

La nascita di vasti corpora e gli studi in psicologia cognitiva, diedero nuova linfa a progetti

di traduzione automatica ad approccio interlingua, ancora una volta in ambito statunitense.

È interessante notare come in questo periodo, l’attenzione si sposti da studi concentrati

prevalentemente sulla sintassi, ad analisi più approfondite sul lessico: aumenta cioè il

bagaglio di informazioni legato ai lemmi (cioè alle voci) contenuti nei dizionari.

Le informazioni relative ai lemmi non sono più solo di carattere morfologico, sintattico e di

corrispondenza lessicale, ma hanno anche una caratterizzazione semantica.

55 L’utilizzo di vasti corpora favorì anche lo sviluppo di nuovi studi in psicologia cognitiva a scopi linguistici, con particolare attenzione ai meccanismi di produzione del pensiero e reti neurali; ai fini della linguistica computazionale, questi studi permisero di irrobustire i calcolatori grazi e alla realizzazione di collegamenti più stretti fra categorie grammaticali (struttura sintattica) e lessico (reti semantiche).

44

Questo aspetto risulta particolarmente importante ai fini di una traduzione automatica basata

su sistemi di interlingua dove i sistemi fanno uso di una forte componente semantica

(ontologie, dizionari concettuali, relazioni logiche e semantiche…).

Attualmente è possibile individuare due principali filoni di ricerca: il primo tenta di

sviluppare sistemi di traduzione automatica in grado di riconoscere e produrre il parlato e di

fare quindi analisi e generazione linguistica di conversazioni e dialoghi (come ad esempio il

progetto Janus della Carnegie-Mellon University).

In secondo luogo, le ricerche in traduzione automatica hanno dovuto far fronte alla crescita

esponenziale di mezzi per la comunicazione globale, Internet in testa.

L’influenza di Internet si può riscontrare nel fatto che negli ultimi anni sono nati software di

traduzione automatica specifici per applicazioni su Web; precursori sono stati Babelfish, sul

sito del portale Altavista, utilizzabile in ricerca, o CompuServe, sistema applicabile a

messaggi e-mail o chat-room.

Diversi tipi di traduzione automatica vengono oggi studiati per rispondere alle esigenze più

diverse, a partire dalle grandi organizzazioni internazionali e industrie, passando per la

creazione di strumenti sempre più potenti da affiancare ai traduttori professionisti, per

arrivare all’uso privato di tali sistemi di traduzione così da consentire, da un lato, una reale

comunicazione multilingue che rappresenta oggi una delle grandi risorse della nostra società

e, contemporaneamente, preservare le numerosissime varietà linguistiche e culturali che sono

per tutti un valore imprescindibile.

3.2 MODELLI DI TRADUZIONE

Come si è visto da questa breve esposizione, da quando si è sviluppato l’interesse per la

traduzione automatica, sono stati creati sistemi che hanno adottato strategie diverse e trattato

quindi i problemi di analisi e generazione con filosofie spesso agli antipodi.

I modelli adottati per sistemi di traduzione automatica possono essere organizzati

sostanzialmente in tre categorie: modelli per la traduzione diretta, basata su transfer e

interlingua.

Schematicamente, i tre principali approcci possono essere rappresentati dal seguente

triangolo:

45

Figura 4: Raprresentazione dei diversi approcci utilizzati in traduzione automatica

I metodi che si basano sull’analisi della parola, producono traduzioni parola-per-parola; i

metodi transfer costruiscono una rappresentazione strutturata della lingua di partenza a

diversi livelli (sintattico o semantico), la trasformano in una rappresentazione della lingua di

arrivo (usando delle regole specifiche di transfer per ogni livello di analisi) e generano una

stringa di caratteri.

I metodi che si basano su un approccio interlingua, oltre ad utilizzare una rappresentazione

sintattica e semantica della lingua, inseriscono un nuovo livello di astrazione facendo uso di

un linguaggio intermedio ed indipendente dalle lingue coinvolte nel processo di traduzione.56

56 C.D. Manning, H. Schutze, Foundation of Statistical Natural Language Processing, MIT Press, Cambridge, 1999

Interlingua Rappresentazione della conoscenza

Inglese ( rappresentazione

semantica )

Italiano ( rappresentazione

semantica )

Inglese ( parsing sintattico )

Italiano ( parsing sintattico )

Testo in inglese ( stringa di parole )

Testo in italiano ( stringa di parole )

Transfer semantico

Transfer sintattico

Parola per parola

Transfer sintattico

46

3.3.1 APPROCCIO DIRETTO

I sistemi ad approccio diretto possono essere considerati come una semplificazione di

modelli ad approccio transfer; infatti la filosofia di base rimane la stessa e cioè quella di

voler considerare solo una coppia di lingue alla volta e costruire quindi un modello di

traduzione ad hoc per quella specifica coppia

Il risultato di una traduzione operata con questo sistema è una sequenza di parole nella

lingua di arrivo che è stata direttamente sostituita a quella della lingua di partenza, così che

anche l’ordine delle parole nel testo tradotto rispecchia fedelmente quello del testo originale.

Un sistema di traduzione ad approccio diretto si articola in linea generale in diverse fasi,

ciascuna delle quali si concentra su uno specifico problema: analisi morfologica, transfer

lessicale (traduzione parola per parola dei termini), eventuale analisi delle preposizioni (le

preposizioni hanno infatti in diversi casi il compito di stabilire quale verbo deve seguire,

come ad esempio nel caso dei phrasal verbs inglesi), transfer sintattico (ordine delle parole)

e quindi la generazione.

Il problema maggiore che si verifica in questi tipi di sistemi è quello della scelta dei termini:

infatti non è possibile risolvere con un semplice transfer lessicale le varie ambiguità che si

possono presentare, non essendo fatta alcuna analisi semantica vera e propria; se è vero

infatti che un testo poco corretto grammaticalmente può ugualmente essere compreso, lo

stesso non si può dire se manca del tutto un senso logico al discorso.

La mancanza di un’analisi semantica non consente di avere dei risultati di traduzione

soddisfacenti in quanto non viene in alcun modo preso in considerazione il contesto entro il

quale una parola si viene a trovare.

L’unica soluzione è quella di applicare questo tipo di approccio a testi il cui argomento sia

estremamente specifico e costruire quindi dizionari ad hoc, facendo riferimento ai particolari

contesti entro i quali una determinata parola può occorrere.57

3.3.2 APPROCCIO TRANSFER

Anche per quanto riguarda l’approccio transfer, la struttura di base è organizzata in modo da

tradurre da una specifica lingua in un’altra specifica lingua.

57 In effetti, i sistemi diretti fanno spesso uso di collezioni bilingue o multilingue di espressioni fraseologiche, soprattutto se il sistema si rivolge ad un dominio circoscritto.

47

Possiamo identificare tre fasi essenziali: l’analisi, il transfer vero e proprio e la generazione,

dove la fase di transfer rappresenta il collegamento tra gli output derivanti dall’analisi e

l’input del generatore.

Figura 5: Schema dell’approccio transfer58

L’idea di base di tale modello è quello di fornire testi generati correttamente dal punto di

vista grammaticale grazie ad opportune trasformazioni operate a livello della struttura

sintattica o semantica della lingua che si vuole tradurre; si passa quindi dalla struttura

sintattica o semantica della lingua d’origine ad una rispettiva struttura nella lingua di arrivo.

Un concetto simile, si trova anche in modelli interlingua; la differenza risiede nel fatto che il

transfer deve trattare specifiche coppie di lingue, mentre l’interlingua si configura come uno

stadio di passaggio tra una qualsiasi lingua e un’altra qualsiasi lingua avendo un

supplementare livello di astrazione.

Uno dei punti deboli di tali sistemi ad approccio transfer, è proprio quello di dover costruire

regole di trasformazione per ogni coppia di lingue per cui un sistema in grado di tradurre n

numero di lingue, avrà bisogno di nxn insiemi di regole di transfer; un’ulteriore difficoltà

risiede nel fatto che il set di regole costruite per la traduzione dall’inglese all’italiano dovrà

essere completamente riscritto per una traduzione dall’italiano all’inglese. 58 Tratto da D. Jurafsky, J.H. Martin, Speech and Language Processing: An Introduction to Natural Language Processing, Computational Linguistics and Speech Recognition, Prentice Hall, New Jersey, 2000, p. 808

Parole della lingua di partenza

Parole della lingua di arrivo

Parsing Generazione

Struttura ad albero della lingua di partenza

Struttura ad albero della lingua di arrivo

TRANSFER

48

Una caratteristica importante di questi sistemi è quella di poter risolvere un certo grado di

ambiguità lessicale: a partire dall’analisi sintattica, si è in grado di risalire alla categoria

lessicale in cui rientra una determinata parola nella lingua che si vuole tradurre.

Tentare di risolvere un’ambiguità lessicale attraverso le informazioni derivanti dalla sintassi

non è sempre possibile, soprattutto per frasi complesse; si rende quindi necessaria la

compilazione di regole specifiche per il transfer semantico vero e proprio, così da poterle

implementare con le informazioni derivanti dall’analisi sintattica.

Il transfer semantico si fonda soprattutto su considerazioni riguardanti il contesto, con

l’analisi di informazioni di carattere pragmatico e del discorso con l’ausilio anche di

dizionari bilingui completi, che riportino non solo gli equivalenti terminologici, ma diano

anche informazioni di carattere grammaticale e facciano riferimento ai diversi contesti in cui

una parola può occorrere.

3.3.3 APPROCCIO INTERLINGUA

Innanzitutto dobbiamo chiarire cosa si intende per interlingua: l’interlingua si configura

come un metalinguaggio, un livello astratto di passaggio tra due lingue, predisposto come

una rappresentazione autonoma indipendente dalle specifiche delle singole lingue.

I problemi principali affrontati da un sistema ad approccio interlingua ed i traguardi che si

propone di raggiungere sono sostanzialmente l’utilizzo di una base di conoscenza

indipendente dal tipo di lingua che si vuole tradurre, il tentativo di rappresentare il

significato di un testo utilizzando un’interlingua, la volontà di raggiungere un grado di

“universalità” nella descrizione di qualsiasi lingua e la natura astratta, “profonda”, della

rappresentazione interlingua.

Uno degli elementi che si riscontrano con più frequenza in sistemi che adottino un approccio

interlingua per la traduzione, è un insieme prefissato di “ruoli tematici”59, elementi cioè in

grado di descrivere la funzione che i componenti delle frasi assumono all’interno di esse,

indicandone i reciproci collegamenti.

59 D. Jurafsky, J.H. Martin, op. cit., p 812

49

Nel momento in cui si utilizza l’interlingua, i ruoli tematici vengono assunti come universali

del linguaggio.60

La nozione di universale linguistico, nella prospettiva di confrontare strutturalmente due

linguaggi, viene rintracciata attraverso la catalogazione degli elementi che appaiono in tutte

le lingue; questa posizione ritiene che una data caratteristica possa ritenersi universale se

viene rintracciata in tutte le lingue che sono state prese in esame; in questo senso gli

universali si configurano come un insieme di proprietà, una rilevazione e classificazione di

elementi.61

In altre parole, possiamo dire che in ogni lingua ci sono costrutti sintattici che identificano

concetti relativi a persone, oggetti, azioni, eventi, processi… e relazioni generali come

agente di un’azione, tempi, luogo, causa, etc, indipendentemente dalla traduzione che

ciascun specifico termine ha nelle diverse lingue: concetti e relazioni tra concetti sono quindi

identici in ogni sistema linguistico.62

Strettamente legata agli universali è l’ontologia, una complesso sistema per la strutturazione

dei concetti e le loro relative relazioni che possono essere di iperonimia, iponimia,

metonomia, casualità, etc.

L’ontologia si configura come la descrizione di concetti e delle relazioni che intercorrono tra

essi; è quindi una strutturazione della conoscenza.

Lo scopo della costruzione di un’ontologia è quello di rendere fruibile ed utilizzabile la

conoscenza in essa contenuta, soprattutto se inserita in un più complesso sistema di

traduzione automatica, dove le relazioni esplicitate nell’ontologia possono essere parte

integrante dell’intero processo traduttivo.

Il modo con cui viene organizzata l’ontologia, nonostante lasci abbastanza libertà al

progettista del sistema, resta uno dei nodi cruciali per il buon funzionamento del sistema

stesso.63

60 I ruoli tematici sono categorie semantiche per la caratterizzazione di alcuni argomenti dei verbi; essi sono agent, instrument, cause, experiencer, benefactive, goal, path, measure, theme. Ad esempio nella frase “Mario ha rotto la finestra con un martello”, Mario è agent, ha rotto è cause, la finestra è benefactive mentre con il martello è instrument. 61 J. Kess, Introduzione alla psicolinguistica, Franco Angeli Editore, Milano, 1979, pg.111-112 62 A. Lehrer, Semantic fields and Lexical Structure, North Holland Publishing Company, 1974, pg. 151 63 Avremo modo di vedere trattando di UNL come l’organizzazione di una ontologia serva anche per la traduzione vera e propria di termini lessicali

50

In tal modo la parola italiana “uomo” sarà identificata nell’ontologia come “essere umano /

maschio”. A questo punto, nel processo di traduzione si andrà a rintracciare il termine che

abbia le stesse caratteristiche di “essere umano / maschio”.

Questo esempio deve però essere considerato come un’esemplificazione molto generale in

quanto, proprio la parola “uomo” può rappresentare più di un concetto (specie umana,

marito, compagno, persona forte, etc) e per questo trovarsi in più punti diversi all’interno

dell’ontologia.

L’utilità di avere una rappresentazione concettuale non ambigua dei termini (vedi ad

esempio il caso di uomo che si trova in posti diversi dell’ontologia) è particolarmente

evidente quando ci si trova a dover tradurre dei termini che non abbiano una perfetta

corrispondenza in due diverse lingue: in questo caso, grazie all’organizzazione

dell’ontologia (ed è per questo che il modo con cui viene costruita risulta fondamentale), si

può risalire ad un termine gerarchicamente superiore, vale a dire meno specifico, ma che

riproduce ugualmente il concetto che volevamo definire. Un esempio concreto possono

essere le varie definizioni presenti nel lessico delle popolazioni Inuit che designano un

termini particolare per ogni tipo di neve: in questo caso l’ontologia ci permette di definire

genericamente “neve” tutti i termini specifici ad essa correlati.

Si potrebbe obiettare che in casi come quelli appena citati si possono perdere parte delle

informazioni, sia a livello lessicale sia a livello di stile; bisogna però tenere presente che lo

scopo della traduzione automatica non è tanto quello di raggiungere una traduzione

“perfetta”, quanto piuttosto quello di rispondere alle immediate esigenze comunicative

dell’utente; in secondo luogo, l’obiettivo in genere della traduzione è quello di poter

rispettare il più possibile il significato del testo che si vuole tradurre e questo è possibile

anche se si utilizzano sinonimi meno specifici nel tradurre particolari termini.

I meriti principali di un approccio interlingua sono innanzitutto di natura economica: in uno

scenario multilingue nel quale siano coinvolte n lingue, sarà necessario costruire n

analizzatori e generatori, includendo 2n grammatiche e dizionari anziché dover costruire ad

hoc grammatiche, dizionari, analizzatori e generatori da e per una sola coppia di lingue

come accade nei sistemi transfer.

In secondo luogo un sistema basato su interlingua ha il merito di poter decentrare la

costruzione dei sistemi di traduzione automatica; è infatti impossibile pensare di poter

costruire un buon sistema d traduzione senza l’aiuto di persone competenti in merito alle

caratteristiche di ciascuna lingua, in grado quindi di adottare appropriate regole di analisi e

generazione.

51

Nell’approccio interlingua si separano completamente queste due fasi, consentendo in questo

modo lo sviluppo di sistemi di analisi e generazione per una determinata lingua

indipendentemente da quelli per altri sistemi linguistici; come vedremo, questa filosofia è

seguita anche in UNL, dove i server linguistici specializzati per lingua e mantenuti da

personale competente per ciascuna lingua, sono fisicamente dislocati in aree geografiche

diverse e quindi in grado di essere aggiornati con molta più semplicità e rapidità.

Figura 6: Rapporto tra approccio transfer e inaterlingua64

64 Tratto da D. Jurafsky, J.H. Martin, op. cit., p 814

generazione

Struttura ad albero della lingua di partenza

Struttura ad albero della lingua di arrivo

TRANSFER

Parole della lingua di partenza

Parole della lingua di arrivo

parsing

INTERLINGUA

interpretazione generazione

52

3.4 SISTEMI DI TRADUZIONE AUTOMATICA

Vediamo ora nello specifico come alcuni gruppi di ricerca hanno sviluppato sistemi di

traduzione automatica utilizzando i diversi approcci sopra elencati (in modo particolare

transfer e interlingua), prestando particolare attenzione alle soluzioni che sono state trovate

nell’affrontare i problemi di analisi e generazione.

!" SYSTRAN65

Lo sviluppo di Systran iniziò sul finire degli anni Sessanta ed è diventato il sistema di

traduzione automatica utilizzato dalla Comunità Europea.

Le caratteristiche di Systran possono essere così identificate:

- Modularità: determinata dai moduli inseriti nel sistema; ne esistono due diversi tipi, uno

relativo alla costruzione di strumenti per l’utilizzo del sistema indipendenti dalle lingue che

vengono trattate, come ad esempio il modulo di consultazione del dizionario; gli altri sono

invece più rivolti alla traduzione vera e propria e dipendono dalla lingua sorgente e risultano

pertanto modificabili in base alla lingua di arrivo.

In secondo luogo il processo di traduzione è suddiviso in fasi diverse e per ciascuna di esse

esistono programmi specializzati nel trattamento di fenomeni linguistici specifici, quali ad

esempio la risoluzione di omografie o il riconoscimento delle relazioni tra predicato e suoi

argomenti.

Infine, i programmi di traduzione sono suddivisi in tre categorie, specifici per la lingua

sorgente, per la lingua di arrivo e per la particolare coppia che di lingue coinvolte nel

processo di traduzione.

- Componenti linguistici e computazionali: in Systran non viene fatta un’adeguata

separazione tra quelli che sono i dati linguistici e gli algoritmi che devono trattarli; questo

punto risulta essere un problema nel momento in cui si vuole estendere il sistema al

trattamento di nuove lingue.

- Strategia linguistica: la difficoltà riscontrata poc’anzi, rende difficoltoso anche

l’aggiornamento del formalismo dei dati che compaiono nel sistema.

65 P. Whitelock, K. Kilby, Linguistics Techniques in Machine Translation System Design, UCL Press, Cambridge, 1995

53

Le fasi principali in cui Systran suddivise il processo di traduzione sono l’analisi, il transfer

e la generazione; Systran è stato progettato per poter rispondere alle esigenze di traduzione

tra 29 coppie di lingue.

Figura 7: Architettura del sistema Systran

ANALISI

Iniziale scansione

del dizionario

HOMOR

PASS 0

PASS 1

PASS 2

PASS 3

PASS 4 CLSLOOKUP

PREP2

LEX

TRANSFER

ESYN

PREP2

GENERAZIONE

54

Questo schema vuole mettere in evidenza la caratteristica modulare del sistema suddivisa nei

vari passaggi del processo traduttivo; una esaustiva descrizione di ciascun modulo verrà data

nel corso della presentazione del sistema stesso.66

Prima di analizzare i diversi passaggi di traduzione, è interessante vedere con Systran

organizza i dati linguistici: le parole della lingua di partenza vengono immagazzinate in una

particolare area e, grazie ad una iniziale scansione del dizionario, a ciascuna vengono

affiancati dei codici che identificano particolari caratteristiche sintattico-semantiche, quali

l’identificazione della parte del discorso, se si tratta di nome, aggettivo, articolo, verbo, e

ancora genere e numero (se si tratta di un elemento nominale), persona, transitività (per i

verbi), etc…Vedremo come questo tipo di classificazione sarà importante in fase di

traduzione per espressioni come le semantiche limitate o le omografie.

Dizionari

Il database lessicale di Systran è formato da due dizionari bilingui, uno per i lemmi singoli,

mentre l’altro per le espressioni idiomatiche.

Possiamo comunque distinguere diversi tipi di entrate contenute nei dizionari:

- abbreviazioni, segni di punteggiatura, radici di parole e intere parole (stem dictionary);

per quanto riguarda l’inglese, le forme flesse vengono inserite nel dizionario con

riferimento alla parola di base le relative informazioni grammaticali; in questo modo

viene evitata l’analisi morfologica.

- espressioni idiomatiche, nel senso di sequenze di parole che in ogni contesto occorrono

insieme. In Systran vengono inserite come uniche espressioni; nel momento in cui tali

espressioni vengono riconosciute nella lingua sorgente, la sua traduzione nella lingua di

arrivo viene rintracciata e marcata come tradotta; esempi di tali espressioni possono

essere at all costs, by the way, on the one hand.

- espressioni semantiche limitate (LS): differiscono dalle espressioni idiomatiche in

quanto una o più parole dell’espressione possono avere forme flesse; tipi esempi tra

l’inglese e l’italiano sono developing nation / paese in via di sviluppo oppure kitchen

garden /orto.67 Nel dizionario vengono inserite le forme base mentre le forme flesse

vengono rintracciate grazie ai codici identificativi che vengono affiancati alle parole

66 Ripreso e adattato da http://www.fi.muni.cz/usr/teaching/mt/notes/img10/png 67 Da notare che le espressioni semantiche limitate contemplano variazioni soltanto nella parte nominale; le variazioni della parte verbale sono contemplate nelle espressioni semantiche limitate condizionate.

55

durante la scansione iniziale del dizionario; ne consegue che ogni parola costituente delle

espressioni semantiche limitate deve avere un’entrata nello stem dictionary.

a) espressioni semantiche limitate condizionate (CLS): sono un particolare tipo di

espressioni LS, analizzate da un insieme di regole che impongono delle condizioni (che

coinvolgono le relazioni sintattiche o semantiche tra le differenti parole) per le quali si

selezionano specifici significati della lingua di arrivo per particolari espressioni o parole

della lingua sorgente. Prendiamo come esempio l’espressione “to make provision for”,

che corrisponde all’italiano “provvedere a”; le regole per questa espressione ci dicono

che “provision” deve essere l’oggetto di “make” che a sua volta deve governare “for”.

L’eventuale forma flessa viene riconosciuta attraverso i codici attribuiti in fase di

scansione del dizionario.

Per quanto riguarda le relazioni semantiche, in Systran vengono utilizzati dei semplici

indicatori semantici da affiancare ad alcuni categorie lessicali (ad esempio PROF per

professione, FPROD per gli alimenti, GEOLOC per luoghi geografici o MATER per

materiali); è da notare che non c’è stato alcun intento di organizzare tali indicatori in un

determinato ordine gerarchico (caratteristica invece dei sistemi basati sull’interlingua che

utilizzano le ontologie) e la decisione incorporare tali indicatori dipende esclusivamente

dalla loro utilità nel risolvere specifici problemi di analisi o traduzione: ad esempio la parola

inglese “employ” sarà tradotta in italiano con “dare lavoro” piuttosto che con “utilizzare” se

il suo oggetto viene indicato con l’indicatore PROF.

Strettamente legata alla consultazione del dizionario è l’analisi morfologica: viene compiuta

per tutte le lingue tranne per l’inglese in quanto le sue forme vengono inserite nei dizionari

in modo non segmentabile; per le altre lingue esistono due programmi di analisi, uno

dedicato al riconoscimento delle forme flesse di sostantivi e aggettivi, mentre l’altro per le

forme verbali.

In linea generale i programmi consistono in tabelle di terminazioni flessionali accompagnate

da informazioni grammaticali (nome e genere per i nome e aggettivi; persona e tempo per i

verbi).

A seguito dell’analisi morfologica, segue la fase dell’analisi sintattica; tale fase di analisi è

condotta da diversi moduli, ciascuno dei quali ha un compito ben preciso.

56

Vediamo ora i passaggi più significativi dell’analisi:

b) Modulo HOMOR : risoluzione delle omografie attraverso le informazioni assegnate

nell’iniziale scansione del dizionario; in Systran si considerano omografie le parole che

possono fungere da più di una parte del discorso, come ad esempio “caduta” (sostantivo

o participio passato del verbo cadere) o l’inglese “read” ( verbo all’infinito, al passato e

participio e sostantivo).

c) Modulo STRPASS 0 : stabilisce i confini tra i diversi periodi e li suddivider in frasi per il

successivo modulo di analisi; tale operazione viene eseguita attraverso l’individuazione

di pronomi relativi, congiunzioni di dipendenza e punteggiatura.

d) Modulo STRPASS 1 : stabilisce relazioni sintattiche primarie, vele a dire relazioni di

reggenza e qualificazione tra le parole; tali relazioni vengono indicate affiancando le

parole hanno un determinato tipo di legame indicando inoltre il loro codice di riferimento

(ad esempio: 16-26 modificatore aggettivale + sostantivo; 22-32 antecedente + pronome

relativo).

e) Modulo STRPASS 2: amplia le relazioni sintattiche attraverso la creazione di

collegamenti tra gli elementi costitutivi di un periodo; consideriamo ad esempio la frase

“Prendi la macchina fotografica e l’altro l’equipaggiamento necessario”: “macchina

fotografica” e “equipaggiamento” vengono riconosciuti come sostantivi, ma l’aggettivo

“altro” sarà fatto corrispondere ad “equipaggiamento”.

f) Modulo STRPASS 3 : vengono identificati i soggetti e i predicati di ciascuna frase e se

ne indicano le relazioni

g) Modulo STRPASS 4 : vengono identificate le relazioni semantiche, quali ad esempio

verbo-agente, verbo-soggetto; oggetto-modificatore; tali funzioni vengono utilizzate per

completare le informazioni sintattiche e per poter collegare i vari elementi.68

Transfer

Anche per la fase di transfer, come per quella di analisi, possiamo individuare dei moduli

specifici, orientati verso la traduzione di specifiche coppie di lingue; in linea generale essi

riguardano la selezione delle strutture della lingua di arrivo e degli oggetti lessicali sulla base

della delle caratteristiche della lingua sorgente.

È importante notare come questi moduli riprendano in gran parte le procedure che sono già

state utilizzate in fase di analisi; ne consegue che la distinzione tra analisi e transfer in

68 Cfr. espressioni CLS a p. 56

57

Systran risulta meno evidente rispetto ad altri sistemi che non si affidano così marcatamente

all’utilizzo dei dizionari.

Vediamo ora i principali passaggi della fase di transfer:

"#Modulo CLSLOOKUP: viene selezionata l’adeguata traduzione nella lingua di arrivo

rifacendosi alle informazioni già utilizzate per le espressioni semantiche limitate

condizionate.69

"#Modulo PREP2 : seleziona le adeguate traduzioni per ciascuna preposizione della lingua

sorgente.

"#Modulo LEX: vengono richiamati particolari programmi per trattare singole parole e

costruzioni, come ad esempio aggiungere, togliere e riordinare gli elementi in modo da

soddisfare la struttura della lingua di arrivo.

Generazione

Per la fase di generazione vengono utilizzati due moduli specifici:

"#ESYN: traduce ogni oggetto lessicale della frase sulla base delle selezioni operate dai

precedenti moduli; ad esempio vengono scelti i verbi ausiliari, vengono determinati la

persona, il numero, il genere di un sostantivo, il tempo di un verbo e si selezionano le

classi flessionali sulla base di tabelle di paradigmi regolari ed irregolari.

"#REARR: è il modulo che consente di ricostruire il corretto ordine delle parole in base

alle regole della lingua di arrivo.

!" GETA ARIANE-7870

Il sistema Ariane-78, ideato nel 1971 dal gruppo di ricercatori GETA (Groupe d’Etude pour

la Traduction Automatique) dell’Univrsità di Grenoble, nacque per la traduzione di testi

carattere scientifico dal russo al francese; a queste due lingue iniziali se ne sono aggiunte

altre, quali l’inglese, il tedesco, il portoghese e il giapponese.

È un sistema basato sull’approccio transfer e possiamo suddividere l’intero processo di

traduzione in sei fasi principali:

69 Cfr. p. 56 70 J. Slocum, Machine Translation System, Cambridge University Press, Cambridge, 1987

58

- analisi morfologica e analisi preliminare delle strutture sintattiche (ATEF);

- analisi sintattica vera e propria (ROBRA);

- transfer lessicale (TRANSF);

- transfer delle strutture interne alle frasi (ROBRA);

- generazione sintattica (ROBRA);

- generazione morfologica (SYGMOR).

Figura 8: Architettura del sistema Geta-Ariane

L’analisi morfologica e il preliminare esame delle strutture interne della frase consentono di

individuare le parole all’interno del testo dato in input (unità lessicali) e di affiancare a

queste tutta una serie di informazioni che verranno poi utilizzate nelle altre fasi del processo

di traduzione; tali informazioni, tutte estratte a seguito della consultazione di dizionari

specifici, sono di carattere morfo-sintattico, come ad esempio l’individuazione di radici e

Transfer lessicale

(TRANSF)

Analisi sintattica

(ROBRA)

Dizionario

transfer

Regole di

trasformazione

Analisi

morfologica

Grammatica

Dizionari

Transfer

strutturale

Generazione

sintattica

Generazione

morfologica

Grammatica Dizionari

59

suffissi, tempo verbale, numero, persona, la valenza di un verbo o di un aggettivo e proprietà

semantiche.

L’output reso da questa iniziale fase di analisi, ha una struttura ad albero nella quale vengono

messe in evidenza le informazioni linguistiche ricavate dalla consultazione del dizionario; in

secondo luogo, tale rappresentazione serve per impostare una struttura generale del testo, in

cui i nodi terminali dell’albero sono costituiti dalle variabili ( ad esempio i possibili morfemi

riconducibili ad una parola) caratterizzanti le parole.

Un primo livello di interpretazione vera e propria del testo si ottiene attraverso la seconda

fase, quella dell’analisi della struttura interna del testo.

La coerenza morfologica e sintattica (vale a dire la scelta di una variabile sulle altre) viene

risolta con l’utilizzo di una grammatica in grado stabilire la compatibilità di tale forma in

relazione alle quattro forme che precedono e a quella che immediatamente segue.

Il componente ROBRA riceve in input la struttura di ATEF e, grazie a regole di

trasformazione, la struttura iniziale viene modificata in modo da individuare le classi

sintagmatiche, vale a dire il tipo di frase che si sta trattando, (come ad esempio frasi verbali,

nominali, aggettivali); in secondo luogo si stabiliscono le relazioni che esistono tra le parole

in termini di funzioni sintattiche (soggetto, attributo, modificatore…), relazioni logiche (cioè

tra predicato e suoi argomenti) e relazioni semantiche.

Nella fase del transfer lessicale, eseguita dal componente TRANSF, le parole della lingua di

arrivo si sostituiscono a quelle della lingua che si vuole tradurre; la selezione della parola da

sostituire deve sottostare a determinate condizioni che possono riguardare da un lato le

singole parole e dall’altro il contesto entro cui occorrono le parole stesse.

Per quanto riguarda le singole parole possiamo distinguere diversi casi di corrispondenza:

- una unità lessicale sostituita da un’altra unità lessicale;

- unità lessicale sostituita da una locuzione (come ad esempio nel caso “mediante” = “by

means of”);

- locuzione sostituita da una singola unità lessicale o sostituzione tra due locuzioni, come ad

esempio nei casi “computer science” = “informatica” o “let…know” = “informare”.

Per quanto concerne invece il contesto, dobbiamo tenere presente che in lingue diverse può

non mantenersi, ad esempio, la presenza di un argomento predicativo, come nel caso della

frase inlgese “John was given a book” per cui in italiano si utilizza il verbo “ricevere” ( John

ha ricevuto un libro).

In linea generale il transfer si basa sulla consultazione di un dizionario bilingue che lascia

spazio a diverse possibilità di sostituzione che verranno poi risolte nel passaggio successivo,

60

cioè grazie al transfer strutturale; pensiamo ad esempio al verbo inglese “tagliare”: nelle sue

forme del presente, passato e participio passato viene coniugato nello stesso modo “cut”,

mentre in italiano le forme sono “ io taglio”, “io tagliai” “io ho tagliato”, etc.

Il transfer strutturale e la generazione sintattica, utilizzano lo stesso formalismo ROBRA, già

analizzato per la fase di analisi sintattica; grazie a questi due passaggi, da un lato si completa

il transfer lessicale, risolvendo casi come quello mostrato poc’anzi del verbo inglese “cut”

sulla base di caratteristiche semantiche che permettono un’analisi del contesto entro cui le

parole occorrono e, dall’altro, viene fornito il corretto ordine delle parole nella lingua di

arrivo, si generano gli articoli, si rispettano tempi e modi verbali, si generano verbi ausiliari

L’ultima fase è quella della generazione morfologica (formalismo SYGMOR) e ha il

compito di convertire la rappresentazione fornita dalla generazione sintattica in parole e

punteggiatura della lingua di arrivo con l’ausilio di dizionari - in grado di rendere conto ad

esempio delle classi flessionali attraverso le variabili indicanti la persona, il numero o il

tempo – e di una grammatica, in grado di formare le parole in base a radici, prefissi, affissi,

desinenze, etc.

!" ATLAS II

ATLAS II è un sistema di traduzione automatica con una forte impronta semantica nella sua

strutturazione; l’idea di base è quella di raggiungere una traduzione multilingue ad alta

qualità e precisione.

Per fare questo, è stato adottato un approccio interlingua che, riuscendo a separare le fasi di

analisi e generazione, riesce e trattare un gran numero di lingue senza dover apportare

modifiche alla struttura del software.

Il progetto nasce in Giappone nel 1984 con l’idea di costruire un sistema di traduzione

automatica in grado di simulare la traduzione umana; la considerazione di partenza è stata

quella per cui ciascuna lingua viene compresa dal significato delle parole che la esprimono e

dal contesto entro il quale tali parole occorrono.

Un lemma inserito nel dizionario di ATLAS II contiene informazioni relative alle sue

caratteristiche grammaticali e, soprattutto, esprime il concetto al quale è legata quella parola.

La conoscenza necessaria per comprendere i concetti, viene scritta in una formula tale da

poter essere compresa dal computer, chiamata struttura concettuale, cioè l’interlingua; tale

struttura concettuale viene espressa in termini di relazioni binarie, contenute in una base di

61

conoscenza, che collegano concetti: in questo modo la frase in input viene rappresentata

attraverso una rete semantica.71

Abbiamo già detto che ATLAS II si pone come obiettivo quello di simulare la traduzione

umana; così come gli umani fanno uso della loro conoscenza quando deve comprendere una

frase, ATLAS II ricorre alla sua base di conoscenza quando deve tradurre una frase

nell'’nterlingua. La base di conoscenza è strutturata in modo tale da definire ogni possibile

relazione tra concetti; in altre parole, sono contenute tutte le strutture concettuali

significative.

Così, il concetto “gli uccelli volano” viene espressa attraverso le relazioni binarie

UCCELLO, VOLARE, <AGENT>, mentre “gli uccelli volano con le ali” sarà UCCELLO,

VOLARE <AGENT> e ALA, VOLARE <INSTRUMENT>.

Figura 9: Architettura del sistema Atlas

71 Vedremo poi come questi stessi elementi si ritroveranno anche in UNL.

Analisi della frase

Lingua sorgente

Generazione

della frase

Lingua di arrivo

Dizionario di parole

Regole di analisi

Base di conoscenza

Dizionario di parole

Regole di generazion

Relazioni di co-

occorrenza

Struttura concettuale

Regole di transfer

INTERLINGUA

62

Le relazioni devono collegare concetti che sono il più possibile universali, cioè indipendenti

dalle specifiche di lingue particolari e proprio per questo anch’esse devono essere il più

generali possibile; il problema sorge quando un concetto che viene espresso in una

determinata lingua non trova il suo corrispondente in un altro sistema linguistico. In questi

casi, tali concetti dipendenti dalla lingua, vengono inseriti come vocabolario proprio della

lingua e, come vedremo, saranno trattati in modo diverso in fase di generazione.

!" La fase di ANALISI

La fase di analisi consente di produrre una rappresentazione del significato della frase in

un’interlingua.

In questo procedimento sono previsti due moduli: SEGMENT, per l’analisi morfologica, e

ESPER per quella sintattica e semantica.

SEGMENT ha il compito di scomporre le parole nei suoi morfemi costitutivi grazie

all’ausilio di un dizionario e deve verificare le relazioni che intercorrono tra i vari morfemi.

L’output di SEGMENT è rappresentato da una lista di nodi che sarà poi analizzata da

ESPER.

Ogni morfema, al quale vengono affiancate informazioni di tipo sintattico e semantico

recuperate dalla consultazione del dizionario, viene considerato come un nodo terminale di

una più complessa struttura ad albero che si completerà nella fase successiva di analisi

sintattica e semantica.

ESPER ha proprio il compito di proseguire l’analisi del testo dato in input e per fare questo

utilizza sostanzialmente regole context-free aumentate.72

Per quanto riguarda la sintassi, ESPER deve verificare delle condizioni affinché determinate

regole grammaticali possano essere applicate, stabilendo inoltre un grado di priorità riguardo

quale regola debba essere applicata per prima (nei casi in cui possa essere valida più di una

costruzione).

.

!" La fase di GENERAZIONE

Una volta terminata la fase di analisi e verificata la correttezza della struttura concettuale, è

necessario che quest’ultima venga trasformata in una frase in linguaggio naturale.

72 Cfr. p. 23

63

La fase di generazione in ATLAS II è divisa in due procedimenti: il transfer e la

generazione.

La fase di transfer viene utilizzata per la traduzione di espressioni particolari che, se presenti

nella lingua di partenza, non trovano loro i corrispondenti nella lingua di arrivo.

Tali espressioni possono spesso apparire come semplici differenze nel lessico e nella

grammatica, ma più spesso rappresentano differenze culturali, modi di pensare e di vedere il

mondo.

In UNL abbiamo due modalità di risoluzione di problemi di questo tipo: se nella lingua di

arrivo non è contemplato l’oggetto lessicale presente nella lingua sorgente, si ricorre alla

base di conoscenza, dove i concetti sono organizzati gerarchicamente e si può quindi risalire

ad un termine più generale, che comprenda quello specifico di cui si sta svolgendo la

traduzione73; se le differenze tra le due lingue sono di carattere culturale, vedi ad esempio la

distinzione tra i nostri modi di rivolgersi alle persone con il “tu” e il “lei”, la soluzione viene

rintracciata negli attributi, la cui funzione è quella di mettere in evidenza l’attitudine, il punto

di vista del parlante.74

La fase di generazione consiste in una finestra di generazione (lo spazio cioè dove

concretamente avviene la generazione) e in un interprete di regole.

L’interprete attraversa ciascun nodo costituente della struttura concettuale spostando la

finestra di generazione e dà come output la lista con i risultati della traduzione; nel

meccanismo intervengono anche un dizionario, relazioni che intercorrono tra parole e regole

di occorrenza.

Fino ad oggi questo sistema ha tradotto in giapponese, francese, inglese, tedesco, cinese,

innuit e swahili senza che venisse portata alcuna modifica al software.

Quello che mi premeva mettere in rilievo presentando questo sistema non era tanto

analizzare dettagliatamente ogni fase del processo di traduzione (come per i sistemi Systran

e Geta-Ariane), quanto piuttosto evidenziare la rivoluzione dell’approccio che sta alla base

di questo sistema. I presupposti teorici di partenza sono infatti agli antipodi: nei sistemi ad

approccio transfer, ci si basa sostanzialmente sul trasferimento delle strutture interne di

73 Cfr. p. 104 31 Cfr. p. 93

64

superficie alle frasi e necessariamente si devono utilizzare due sole lingue alla volta,

costruendo componenti e processori specifici per quella coppia.

Systran ha l’indubbio vantaggio di avere una struttura modulare, il che consente di

intervenire sui singoli componenti senza intaccare l’intero sistema; Geta-Ariane ha il merito

di impostare fin dalla prima fase di analisi morfologica, una struttura generale del testo

mettendo in evidenza le variabili morfologiche e sintattiche riguardanti ciascuna forma

analizzata sulle quali intervenire nel corso dei successivi passaggi.

Resta però il problema derivante dalla natura stessa di un approccio transfer: si concentra

soprattutto sulle strutture sintattiche e scarse sono le componenti semantiche. Trattando il

capitolo riguardante il Natural Language Processing, abbiamo messo in evidenza come

l’analisi semantica e la disambiguazione fossero dei nodi cruciali per ottenere una buona

traduzione; in Systran non esiste neppure un modulo specifico, ma si utilizzano

all’occorrenza solo degli indicatori per risolvere particolari problemi di traduzione.

Inoltre, se si volesse aggiungere una nuova lingua nel sistema di traduzione, questo dovrebbe

essere riscritto quasi completamente.

I sistemi ad approccio interlingua, invece, basano la loro struttura su di una forte

componente semantica, fra tutte la base di conoscenza e le relazioni tra concetti.

Un’interlingua si propone come un linguaggio artificiale indipendente, in grado di

oltrepassare le caratteristiche specifiche di lingue individuali; il limite dell’interlingua risiede

forse proprio in questa sua tendenza all’”universalità”, ad elevato grado di astrazione e di

analisi profonda dei legami interni di una frase.

Perché quindi preferire un approccio interlingua?

Sostanzialmente per due ordini di motivi: da un lato per la separazione che viene fatta delle

fasi analisi e generazione; si permette così lo sviluppo di sistemi di analisi e generazione per

una lingua indipendentemente da quelli per altre lingue. Ne consegue che i responsabili dello

sviluppo di tali sistemi devono solo conoscere le proprietà dell’interlingua e della lingua da

analizzare o da generare.

In secondo luogo, l’interlingua permette l’uso della conoscenza, elemento necessario per

un’efficace analisi semantica ed essenziale per raggiungere elevati standard qualitativi di

traduzione.

65

IL LESSICO MULTILINGUE E I DIZIONARI

4.1 INTRODUZIONE

Uno degli aspetti più importanti che deve trattare un sistema di traduzione automatica, è

quello del lessico e dell’organizzazione dei dizionari.

I dizionari, infatti, giocano un ruolo che potremmo considerare quasi decisivo per la

costruzione di efficienti sistemi di traduzione automatica: sono in effetti la componente più

grande in termini di quantità di informazioni che possono contenere, e il modo con cui tali

informazioni vengono organizzate e rese consultabili determina il grado di qualità del

sistema stesso.

Ciò che interessa maggiormente è quindi stabilire quale tipo di informazioni sia necessario

attribuire ai lemmi che vogliamo inserire nel dizionario.

Innanzitutto bisogna compiere una distinzione tra le caratteristiche proprie della parola e i

vincoli ad essa posti in virtù di determinate proprietà di selezione sulla base della vicinanza

con altre parole; ad esempio, informazioni in merito al contesto grammaticale entro il quale

una parola può occorrere, riguardano da un lato il contesto sintattico e dall’altro quello più

strettamente semantico.

Uno tra i metodi spesso utilizzati per descrivere le caratteristiche proprie di un parola e

quelle che derivano dalla sua vicinanza con altre, per poter essere poi inserite in un

dizionario facente parte di un sistema di traduzione automatica, è quello di rappresentarle in

termini di attributi e valori; ad esempio la parola “mela” sarà così rappresentata:

lex (lessico) = mela

cat (categoria) = sostantivo

ntype (tipo di sostantivo) = comune

genere = femminile

umano = no

concreto = si

Vero è che esistono molti altri metodi di rappresentazione, come ad esempio abbiamo avuto

modo di mostrare presentando i modelli dei sistemi di traduzione automatica, che

contemplano anche la punteggiatura, le classi flessionali, le radici, relazioni semantiche,

etc.75

75 Cfr. Systran e Geta-Ariane p. 53 e p. 58

66

Proprio per questa varietà nella rappresentazione dei lemmi, ci si sta sempre più sforzando di

creare standard per i lessici e per le caratteristiche da affiancare ai lemmi.76

Inoltre il dizionario deve riportare le caratteristiche morfologiche della parola dalle quali sarà

possibile estrarre informazioni di carattere morfo-sinatattico e semantico; non è escluso

infatti che partendo dall’output reso dalla fase di analisi morfologica, indipendentemente dal

formalismo scelto per la rappresentazione, si possa passare all’analisi sintattica vera e

propria, come abbiamo già avuto modo di vedere nel caso di Systran.77

4.2 MULTI-WORDS

4.2.1 ESPRESSIONI IDIOMATICHE

Nei linguaggi naturali esistono espressioni, identificate con il termine inglese “multi-words”,

che, nonostante siano formate da più parole, devono essere analizzate come un unicuum, allo

scopo di evitare un completo fallimento nell’analisi e nell’interpretazione del loro

significato; in modo particolare mi riferisco a frasi idiomatiche e collocazioni, anche se in

questa categoria di parole rientrano altre tipologie di espressioni, come ad esempio i

composti, dei quali abbiamo già parlato.78

Le multi-words sono da sempre state considerate una sfida nelle ricerche in Natural

Language Processing e in modo particolare per la traduzione automatica; in effetti

comportano particolari problemi nelle fasi di analisi e generazione.79

I lessemi composti sono costituiti da un gruppo piuttosto eterogeneo di espressioni, quali

frasi idiomatiche, verbi di supporto (come ad esempio fare/compiere un’analisi = analizzare),

verbi accompagnati da particolari preposizioni (soprattutto in inglese nel caso dei phrasal

verbs), etc.

In alcuni casi è possibile che un’espressione idiomatica possa essere tradotta in più lingue

mantenendo la stessa struttura e significato; prendiamo ad esempio la frase “prendere il toro

per le corna” (il cui significato è quello di “affrontare un problema con decisione”): in

inglese viene tradotta con “take the bull by the horns” e corrisponde allo spagnolo “coger el

toro por los cuernos”; ma nella maggior parte dei casi non è possibile compiere traduzioni

letterali o utilizzare le normali regole.

76 Cfr. ISLE, PAROLE-SIMPLE, MILE p. 76 77 Cfr. p. 53 78 Cfr. p. 20 79 P. Steffens (ed), Machine Translation and the Lexicon, Springer, London, 1995

67

Per quanto riguarda la traduzione automatica nello specifico, esistono due diverse strategie

per trattare le frasi idiomatiche.80

La prima consiste nel considerare l’idioma come singola unità lessicale contenuta nei

dizionari monolingue, così che il lemma si presenti con la forma “prendere il toro per le

corna”; la fase successiva sarà quella di costruire particolari regole per rappresentare

l’espressione prima che venga compiuta l’analisi sintattica.81.

È chiaro che un procedimento simile implica l’applicazione di sequenze di procedure di

analisi: la consultazione del dizionario non potrà quindi essere compiuta una sola volta, ma

deve permettere alle regole di analisi di sostituire frammenti di struttura attraverso le

informazioni contenute nel dizionario a vari livelli del processo82. Questo significa che la

rappresentazione dell’espressione idiomatica “prendere il toro per le corna” e quella della

frase non idiomatica “prendere il toro per la coda” saranno simili in questo primo livello

dell’analisi, ma successivamente, in una fase più astratta della rappresentazione, tale

espressione sarà contenuta in un solo nodo e quindi analizzata come parola singola.

La complessità della traduzione per questo particolare tipo di espressioni dipende dal grado

di corrispondenza di struttura e lessico tra le due lingue implicate nel procedimento.

Ci sono casi in cui esiste una perfetta corrispondenza strutturale e lessicale, come abbiamo

visto nell’esempio sopracitato, per cui non esistono particolari problemi né per la costruzione

di un’adeguata rappresentazione, né per la traduzione vera e propria.

In molti altri casi si può avere corrispondenza strutturale ma non lessicale, come nel caso

della frase inglese “spill the beans” che corrisponde all’italiano “vuotare il sacco”; in questo

caso interviene il dizionario, nel quale porzioni di frasi idiomatiche sono state

immagazzinate mettendo in evidenza gli equivalenti per quella particolare coppia di lingue

che si sta trattando.

I maggiori problemi sorgono nel momento in cui si trovano espressioni idiomatiche che in

due diverse lingue non hanno alcun tipo di corrispondenza, né strutturale né lessicale. In

questi casi la rappresentazione della struttura dell’espressione nella lingua target, dovrà

necessariamente essere più complessa; una possibile soluzione potrebbe essere quella di

optare per una rappresentazione in termini di relazioni concettuali: questa opzione, tipica dei

80 D. Arnold (et al.), Machine Translation: An Introductory Guide, NCC Blackwell, Manchester-Oxford, 1994, p. 116 81 In effetti molto spesso i sistemi di traduzione automatica utilizzano dizionari specifici di parole multiple che vengono consultati prima di quelli normali; è chiaro come questa soluzione faccia risparmiare in termini di analisi e di correttezza interpretativa. 82 Cfr. ARIANE p. 58

68

sistemi ad approccio interlingua, permette quindi di creare corrispondenze non tanto sulla

base di corrispondenze, ma concettuali.

In questo modo l’espressione inglese “to be over the moon” potrà trovare la sua traduzione

italiana “non stare più nella pelle” in riferimento al concetto che esprimono (essere

contentissimo).

Un altro problema che sorge in frasi che contengono idiomi è il fatto che queste sono

sostanzialmente ambigue, nel senso che può essere possibile un’interpretazione sia letterale

sia idiomatica. Ad esempio l’espressione inglese “kick the bucket” ( che tradotta in italiano

come frase idiomatica diverrebbe “tirare le cuoia”) può realmente avere a che a fare con

l’atto di tirare un calcio ad un secchio.

Una soluzione possibile potrebbe essere quella di dividere il dizionario in sotto-dizionari

specializzati per argomento: in questo caso l’espressione sopracitata avrebbe più probabilità

di essere interpretata come idiomatica se si sta trattando di cronaca nera; allo stesso modo

“prendere il toro per le corna” dovrebbe essere tradotto letteralmente se si fosse in contesto

sportivo, relativo ad esempio ad una corrida.

Un ulteriore problema delle espressioni idiomatiche è rappresentato dal fatto che non tutte

sono espressioni fisse, ma presentano variazioni al loro interno, come ad esempio nel caso di

flessioni.

Un caso tipico è quello che riguarda i verbi, che cambiano relativamente al tempo, alla

persona e al numero; prendiamo ad esempio la frase “vuotare il sacco”: può variare in

“ha/hanno vuotato il sacco, vuoterà/vuoteranno il sacco, dovrebbe/dovrebbero vuotare il

sacco…”. Un altro caso frequente di variazione è quello che riguarda i pronomi possessivi in

espressioni come “to burn one’s bridges” (= tagliarsi i ponti alle spalle); in questa frase la

variazione del pronome concorda il soggetto :

he has burned HIS bridges

she has burned HER bridges

Per trattare tali variazioni possiamo pensare di avere nel dizionario la forma base

dell’espressione “to burn one’s bridges” e di indicare quindi quali elementi sono soggetti a

variazione e quali sono le possibili opzioni (pronomi possessivi, coniugazione del verbo,

etc.).

69

4.2.2 COLLOCAZIONI

Un particolare tipo di multi-words, sono le collocazioni, cioè espressioni formate da due o

più termini che si presentano insieme, il cui significato è deducibile dall’analisi dei singoli

componenti grazie alla caratteristica per cui ogni elemento oltre ad essere un costituente

lessicale è anche costituente semantico.

Il termine “collocazione” è stato definito da Sinclair : “Collocation is the occurance of two

or more words within a short space of each other in a text”.83

Le collocazioni denotano co-occorrenze ripetute con frequenza o significative dal punto di

vista statistico; rappresentano l’evidenza per cui alcune parole non si combinano a caso, ma

seguono delle regole, principi e motivazioni provenienti dal mondo reale.84

Le collocazioni possono essere trattate differentemente dalle frasi idiomatiche in quanto

possiamo pensare ad una porzione specifica dell’espressione come dipendente o prevedibile

dall’analisi delle porzioni contigue.85

Esempi di collocazioni sono “accanito fumatore”, “pioggia torrenziale”, “rosa dei venti”…

Esistono tre diversi approcci per trattare le collocazioni.86

La prima è di carattere puramente lessicografico: i dizionari forniscono le informazione

necessarie per stabilire ciò che non è prevedibile o ciò che invece è caratteristico

dell’espressione.

Frasi del tipo “commettere un omicidio” o “compilare un dizionario sono caratterizzate da

due elementi: uno fisso, base (commettere e compilare) e un altro variabile, “collocato”

(omicidio e dizionario).

La parte fissa è semanticamente autonoma, mentre quella variabile non può essere

semanticamente interpretato come termine isolato. In altre parole, l’insieme delle parti

variabili che si combinano con quelle fisse, non è prevedibile e vanno quindi inserite nel

dizionario con l’indicazione delle collocazioni nelle quali possono occorrere.

Vedremo poi, parlando del dizionario di co-occorrenze del sistema UNL come questo

problema relativo alle collocazioni venga risolto attraverso il collegamento che tale

dizionario instaura con la Basi di Conoscenza.87

83 J. Sinclair, Corpus, Concordance, Collocation, Oxford University Press, Oxford, 1991, p. 170 84 R. Moon, Fixed Expressions and Idioms in English, Clarendon Press, Oxford, 1998, p. 26 85 D. Arnold, ibid. 86 http://budling.nytud.hu/~kalman/reading/siggen94/node4.html 87 Cfr. p. 107

70

In secondo luogo esiste un approccio statistico, per cui è possibile considerare come

collocazioni gli insiemi di parole che appaiono con maggiore frequenza in qualsiasi contesto,

o in domini particolari.

Il terzo approccio, ed è quello che offre una soluzione interessante ai fini della traduzione

automatica in quanto prospetta una specie di interlingua, è quello basato sostanzialmente su

considerazioni di tipo linguistico.

Una proposta specifica in merito al modo di trattare le collocazioni in un modello linguistico,

è stata sviluppata da Mel’!uks: la Meaning-Text Theory (MTT); questa teoria descrive il

linguaggio naturale come una sorta di dispositivo che associa ad ogni significato M l’insieme

di tutti i testi T (intendendosi come testo ogni produzione linguistica, dai morfemi ai

paragrafi) di quella particolare lingua.

In altre parole, la teoria vuole modellare il linguaggio attraverso un insieme di regole in

grado di convertire i significati nei corrispondenti testi.

La conoscenza lessicale viene codificata in un lemma da inserire nell’Explanatory

Combinatorial Dictionary; le informazioni relative a ciascun lemma vengono suddivise in

tre aree principali: una semantica (una rete semantica che rappresenta il significato del

lemma stesso), una sintattica (contenente le proprietà grammaticali) e quella delle

combinazioni lessicali (le funzioni lessicali sono utilizzate per mettere in relazione i

lessemi).

Una funzione lessicale può essere definita come la corrispondenza che associa un termine

con un insieme di altri oggetti lessicali.

Prendiamo l’esempio della funzione lessicale Magn, dove il rapporto tra parole è

caratterizzato da un’intensificazione di significato che un termine ha sull’altro; la funzione

lessicale viene cioè applicata a diverse categorie grammaticali per attribuire un certo valore

alla collocazione.

Ad esempio : Magn (fumatore) = accanito [fumatore]

Magn (largo) = eccessivamente [largo]

Ma come possono essere utili le funzioni lessicali in un contesto di traduzione automatica?

Prendiamo proprio l’esempio di “accanito fumatore”.

In italiano la funzione lessicale Magn indicherà che il corretto aggettivo da affiancare alla

parola fumatore sarà proprio “accanito” e non ad esempio “pesante”; in inglese, invece,

l’aggettivo richiesto sarà heavy, mentre in spagnolo empedernido.

71

Quindi:

Italiano Magn (fumatore) = accanito

Inglese Magn (smoker) = heavy

Spagnolo Magn (fumador) = empedernido

Se a questo punto vogliamo tradurre la frase italiana “accanito fumatore” in inglese,

dovremo mappare “fumatore” in “smoker” congiuntamente all’informazione che al termine

smoker è attribuita la funzione lessicale Magn, così come avviene per l’italiano.

Spetta poi al generatore dell’inglese estrarre il valore di Magn (smoker) = heavy e inserire

quindi correttamente l’aggettivo.

4.2.3 Il progetto XMELLT

Come abbiamo avuto modo di vedere, il ruolo delle parole multiple è di primaria importanza

nella traduzione automatica; nonostante questo, nei dizionari che vengono utilizzati in

sistemi di traduzione automatica, a fronte di consistenti informazioni riguardanti le

caratteristiche morfologiche, sintattiche e semantiche legate ai lemmi, si riscontra una scarsa

presenza di multi-words, anche se i problemi riguardanti la loro struttura e trattamento in

contesto di traduzione automatica è piuttosto sentito.

In effetti esistono dei dizionari di collocazioni e co-occorrenze, ma si tratta per lo più di

dizionari monolingue, quali ad esempio il BBI Dictionary (Combinatory Dictionary of

English: A Guide to Word Cominations) oppure il SEC (Selected English Collocations). In

contesto di traduzione automatica, dove i sistemi sempre più si trovano a dover affrontare

traduzioni multilingue e non solo bilingue, la creazione di dizionari multilingue di

collocazioni e multi-words in genere è più che auspicabile; basti pensare che tali costruzioni

rappresentano circa il 30% del materiale lessicale totale.

È da questi presupposti e considerata l’importanza delle multi-words per le varie

applicazioni del Natural Language Processing, che nasce il progetto XMELLT (Cross-

lingual Multi-word Expresisons Lexicons for Language Technology), il cui scopo è quello di

studiare la possibilità di sviluppare dizionari appositi per le multi-words che contengano sia

informazioni morfosintattiche sia semantiche.

I punti principali della strategia seguita per lo sviluppo del progetto sono:

72

- stabilire standard uniformi per la descrizione di espressioni multiple;

- determinare il tipo e le dimensioni delle informazioni necessarie che meglio servono per le

diverse applicazioni del Natural Language Processing;

- specificare l’architettura generale della multi-word;

- esplorare le possibilità di identificare la struttura del dizionario;

- esplorare la possibilità di creare corpora di multi-words.

La complessità strutturale e la varietà di multi-words, deve essere considerata la possibilità

di variazioni interne in termine di modificatori, determinanti, sostituzione di parole, presenza

di flessioni; il lavoro di ricerca che si trova alla base del progetto, serve per stabilire le linee

guida per la creazione di dizionari di multi-words.88

Tale modello di rappresentazione è stato pensato per risultare compatibile con gli standard

adottati per la creazione di altri dizionari, come ad esempio i PAROLE-SIMPLE.89

A questo punto è necessario vedere quali siano le informazioni linguistiche riguardanti le

entrate lessicali:

- categorizzazione sintattica della parte nominale e di quella verbale della multi-word;

- morfosintassi del gruppo nominale (genere, numero, caso, possibilità di avere aggettivi

qualificativi o relativi, etc.)

- relazioni semantiche e sintattiche (ad esempio la variabilità dei componenti, rapporti di

causalità, rapporto tra verbo e suoi predicati, etc.)

Risulta piuttosto evidente quale potrebbe essere l’applicazione di un dizionario di multi-

words all’interno di più complessi sistemi di traduzione automatica: un tale dizionario

potrebbe infatti essere collegato ai vari moduli impiegati nella traduzione di un testo,

riuscendo così a risolvere la fonte di un considerevole numero di ambiguità lessicali e

semantiche.

88 Il lavoro è stato suddiviso in diverse fasi che hanno coinvolto ricercatori italiani, inglesi, francesi e tedeschi. Si è proceduto inizialmente all’identificazione di cinquanta nomi presi da dizionari PAROLE-SIMPLE; quindi si sono rintracciati i lemmi corrispondenti in dizionari di tedesco, italiano e francese. Quindi sono stati creati verbi di supporto da affiancare ai 50 nomi delle quattro lingue implicate nel progetto. Contemporaneamente, 50 gruppi nominali inglesi sono stati identificati nel dizionario PAROLE-SIMPLE, rintracciando le costruzioni corrispondenti in italiano, francese e tedesco; in questo modo si è realizzata una sorta di banca dati di corrispondenze lessicali tra le lingue considerate. 89 Cfr. p. 77

73

4.3 I DIZIONARI

Come abbiamo visto fino ad ora, il dizionario riveste una particolare importanza e funzione

all’interno di sistemi di traduzione automatica, in quanto da un lato serve per trovare

equivalenti lessicali in diverse lingue e dall’altro fornisce tutta una serie di informazioni

specifiche, dei lemmi che contiene.

Ma la traduzione automatica deve oggi confrontarsi con una nuova realtà linguistica che

interessa non solo lo studio di nuove strategie per la costruzione di sistemi efficienti di

traduzione, ma anche gli strumenti stessi che devono essere inseriti nei sistemi; primo fra

tutti il dizionario.

Mi riferisco alle necessità di una comunicazione che non avviene più solo fra coppie di

lingue, ma coinvolge contemporaneamente utenti di più nazionalità e, quindi, sistemi

linguistici diversi.

La rapida diffusione di Internet come strumento per comunicare e reperire informazioni, ha

visto un aumento esponenziale del numero di lingue utilizzate in rete; al momento della

nascita di questa nuova tecnologia, quasi la totalità dei testi presenti in Internet veniva

presentato in inglese.

Questo era dovuto soprattutto a due fattori di natura diversa: da un lato l’imposizione

dell’inglese come lingua franca per trattare tutti i rapporti commerciali nell’era della

globalizzazione; dall’altro dobbiamo pensare al numero di parlanti: i madrelingua inglese

sono circa 375 milioni, altrettanti milioni lo utilizzano regolarmente come seconda lingua e

circa 750 milioni lo studiano come lingua straniera. L’inglese raggiunge quindi circa un

miliardo e mezzo di parlanti.90

Da cinque anni a questa parte, la tendenza all’utilizzo del solo inglese per la comunicazione

sta cambiando radicalmente: le informazioni contenute in rete vengono pubblicate nella

lingua del paese che fornisce tali informazioni e quasi ogni Stato ha sviluppato motori di

ricerca nella propria lingua nazionale.91

Si stima che per il 2005 circa il 78% degli utenti di Internet non sarà di madrelingua inglese

e solo il 49% delle pagine Web sarà scritta in tale lingua.92

90 R. Lockwood, Global English and Language Market Trends, in “Language International” del 10/04/1998 91 Articolo di C. Peters, P. Sheridan, Multilingual Infotmation Access, 2001, gentilmente fornito dalla Dott.ssa Peters 92 http://www. glreach.com/globstats/index.php3

74

In questa prospettiva emerge chiara l’esigenza da parte di utenti parlanti lingue diverse, di

avere accesso a tutte le informazioni contenute in rete, possibilmente con la facilitazione di

utilizzare la propria lingua.

In questo senso la traduzione automatica sembra rappresentare la risposta più adeguata per

questo nuovo scenario linguistico.

Per potersi adeguare a queste richieste, i sistemi di traduzione automatica devono essere

forniti degli strumenti adatti per poter trattare contemporaneamente più di due lingue.

Come ho già avuto modo di accennare, nei sistemi di traduzione automatica, i dizionari

costituiscono la risorsa linguistica fondamentale, senza la quale non sarebbe possibile

compiere la traduzione stessa.

A questo punto si presenta però il problema di organizzare tali risorse linguistiche per un

contesto multilingue: è così che diversi gruppi di ricerca hanno cominciato a pensare alla

realizzazione di standard di rappresentazione dei lemmi contenuti nei dizionari, in modo che

per ogni parola vengano indicate informazioni a vari livelli linguistici (morfologici,

morfosistattici, sintattici e semantici) che possano valere come rappresentazione per ogni

sistema linguistico.

In modo particolare, vorrei trattare le soluzioni fornite dal progetto ISLE (International

Standards for Language Engineering), che propone standard per la costruzione di dizionari

multilingue, indicando inoltre nel dettaglio quale deve essere l’architettura di un lemma

(MILE).

La funzione di una entrata in un dizionario multilingue è quella di fornire tutte le

informazioni necessarie affinché il sistema possa identificare uno specifico senso da

attribuire ad una parola o frase che si presentano in diversi contesti nella lingua che si vuole

tradurre e associare ciascun contesto con la traduzione più appropriata nella lingua della

traduzione.

Il primo passo è quello di determinare, tra le varie informazioni associate al lemma della

lingua di partenza, quelle che sono più rilevanti per essere codificate, a quale livello di

descrizione e quali elementi devono essere associati nella traduzione.

75

4.3.1 ISLE

Il progetto ISLE è la continuazione di un altro progetto, EAGLES (Expert Advisory Group

for Language Engineering) nato nel 1993 grazie all’impulso dato dalla Comunità Europea.

L’obiettivo principale del progetto è quella di fornire degli standard per il trattamento di

risorse linguistiche diverse, quali possono essere ad esempio la costruzione di corpora o

dizionari computazionali.

In modo particolare, per quello che a noi qui interessa, una delle aree di ricerca seguite da

ISLE è quella di creare e proporre standard per dizionari multilingue, linea portata avanti dal

Computational Language Working Group (CLWG).

La priorità del CLWG nella prima fase di sviluppo del progetto ISLE, è stata quella di

fornire una panoramica riguardo dizionari bilingue e multilingue così da coprire una vasta

gamma di risorse linguistiche. Questa fase viene considerata preliminare e necessaria per

raggiungere l’obiettivo primo del CLWG, vale a dire la definizione di MILE (Multilingual

ISLE Lexical Entry), cioè il tipo di voce lessicale che deve essere inserita in un dizionario

multilingue.

A questo punto devono essere fatte due premesse fondamentali: innanzitutto, parte delle

nozioni base che servono per la costruzione di MILE, vengono rintracciate nelle

informazioni contenute nei dizionari; in secondo luogo l’aspetto multilingue che vuole

caratterizzare MILE, dipende dalle caratteristiche dei lemmi contenuti nei dizionari

monolingue; detto questo, quindi, è importante stabilire quali siano le informazioni che

devono essere estratte dai dizionari in modo da poterle utilizzare, così come si presentano o

modificate, per la creazione di MILE.

Il rapporto tra dizionario monolingue e dizionario multilingue, diventa particolarmente

rilevante ai fini della traduzione automatica, dove sorgono due problemi di diversa natura: da

un lato la necessità di organizzare l’architettura del dizionario multilingue sulla base delle

informazioni contenute nei dizionari monolingue; dall’altro lato, la necessità di creare la

corretta corrispondenza di termini nella fase di traduzione, scegliendo termini contenuti nel

dizionario multilingue.

La funzione di un lemma contenuto in un dizionario multilingue è infatti quella di fornire

sufficienti informazioni da consentire al sistema di identificare un chiaro significato di una

parola nella lingua sorgente, in contesti differenti, e associare quindi ad ogni contesto la

traduzione più appropriata nella lingua di arrivo.

76

Dati questi presupposti, vediamo ora la descrizione di un dizionario computazionale

monolingue e, in seguito una più approfondita analisi della struttura di MILE, soprattutto in

prospettiva di una sua ipotetica realizzazione nel Master Dictionary di UNL e come base di

rappresentazione interlingua.

4.3.2 PAROLE-SIMPLE

PAROLE-SIMPLE è il nome dato a dizionari monolingue nati in seno al CLWG con lo

scopo di formalizzare standard di rappresentazione lessicale in 12 lingue (Catalano, Danese,

Tedesco, Inglese, Finlandese, Olandese, Greco, Italiano, Portoghese, Spagnolo e Svedese).

Inizialmente venne sviluppato il dizionario PAROLE, nel quale ogni lemma viene codificato

secondo le sue caratteristiche morfologiche e sintattiche; in seguito si è aggiunta la

rappresentazione semantica, codificata in SIMPLE.

Sostanzialmente quindi PAROLE-SIMPLE è un modello di dizionario strutturato in tre

strati, dove ogni lemma viene codificato a livello morfologico, sintattico e semantico.

PAROLE contiene circa 20.000 voci, mentre SIMPLE è costituito da circa 10.000 significati

relativi ai lemmi contenuti in PAROLE, ciascuno legato alle descrizioni sintattiche

pertinenti.

Nonostante PAROLE e SIMPLE corrispondano rispettivamente a dizionari morfosintattici e

semantici, devono comunque essere considerati come un unico corpo dove ogni livello di

rappresentazione della parola è strettamente connesso con gli altri; così, ad esempio,

interazioni complesse tra alternanze sintattiche e interpretazioni semantiche, possono essere

facilmente descritte.

Abbiamo detto che in PAROLE sono contenute le proprietà morfosintattiche relative a

ciascuna voce.

Il livello morfologico fornisce informazioni sulle categorie e sottocategorie grammaticali;

genere, numero, persona e modo verbale; classi flessionali.

Il livello sintattico descrive invece le funzioni grammaticali, come ed esempio la

determinazione della posizione che particolari categorie grammaticali ricoprono all’interno

77

di una frase; specifici eventi che si verificano solo se supportati da determinate regole

sintattiche, come ad esempio rendere una frase da attiva a passiva…

Il livello semantico è descritto nel dizionario SIMPLE.

SIMPLE è in grado di rappresentare le diverse dimensioni dei significati relativi ad una

parola.

I significati delle parole vengono codificati in “unità semantiche” (SemU); a ciascuna unità

viene attribuita una “caratteristica semantica” (semantic type) estratta dall’ontologia, con

l’aggiunta di altre informazioni contenute nel relativo template, che contribuisce alla

specificazione di un significato.

Le informazioni semantiche che descrivono in contenuto di ogni SemU, riguardano il

dominio, la classe semantica, le relazioni esistenti tra le varie SemU (polisemie, sinonimi,

collocazioni, Qualia…) e la rappresentazione predicativa (specifica cioè quale predicato

viene associato alla SemU, in termini di struttura argomentale, ruoli semantici, scelta degli

argomenti…).

Figura 10: Organizzazione generale di PAROLE-SIMPLE93

93 Tratto da http://www.cis.upenn.edu/~cmetz/nicoletta.ppt

Copenhagen, Oct. 2001

SemUSemU Predicate, arguments,Predicate, arguments,Selection restrictionsSelection restrictions

PredPred. Layer. Layer

QualiaQualia DerivationDerivation PolysemyPolysemy Event TypeEvent Type

InstantiationInstantiation

…

Italian lexiconItalian lexicon

TypeTypeOntologyOntology%%150 types150 types

TemplateTemplate Catalan lexiconCatalan lexiconDanish lexiconDanish lexicon

Greek lexiconGreek lexicon

Overall OrganizationOverall Organization

......

78

Ogni caratteristica semantica attribuita alla SemU, implica un’informazione strutturata che

viene rappresentata come un template.

Le stesse caratteristiche sono organizzate e immagazzinate nell’ontologia.

La strutturazione delle semantic type, rispetta quattro ruoli Qualia: a) FORMAL: fornisce informazioni che permettono di identificare un particolare oggetto all’interno di

un insieme più vasto; fornisce informazioni riguardo il colore, la forma, le dimensioni dell’oggetto

considerato;

b) AGENTIVE: relativo all’origine;

c) TELIC: relativo alla funzione o allo scopo che generalmente si attribuisce all’oggetto;

d) CONSTITUTIVE: si riferisce alle relazioni che si instaurano tra l’oggetto e i suoi costituenti.

Per esempio la rappresentazione della parola inglese “pudding” risulterà:

Formal: sostanza

Agentive: fare

Telic: mangiare

Constitutive: ingredienti Il template rappresenta uno schema strutturato la cui funzione principale è quella di

descrivere tutte le varie informazioni relative ad un lemma (significato, dominio, struttura

argomentale, polisemie…), così da poter guidare e facilitare il lavoro lessicografico.94

Figura 3: Rappresentazione del template in PAROLE-SIMPLE

94 Tratto da http://cst.ku.dk/projects/spinn/Copehn01.ppt


TemplateTemplate

ContextualContextual//PolysemyPolysemy

InformationInformation

QualiaQualiaStructureStructure

PredicativePredicativeLayerLayer

Type SystemType SystemCoordinatesCoordinates

SemU: Identifier of a SemUSynU: Identifier of the SynU to which the SemU is linkedBC Number: Number of the corresponding Base Concept in

EuroWordNetTemplate_Type: Semantic type of the SemUTemplate_Supertype: Semantic type which dominates the type of the SemU in the

type-hierarchyUnification_path: Unification history of a template (only for unified top-types)Domain: Domain information from ERLI's domain listSemantic Class: One of WordNet Classes used by ERLIGlossa: Lexicographic definitionEvent Type: Event SortPredicativeRepresentation:

Predicate associated with the SemU, and its argumentstructure

Selectional Restr.: Selectional restrictions on the argumentsDerivation: Derivational relations between SemUsFormal: Formal relation between SemUsAgentive: Agentive relations between SemUsConstitutive: ! Constitutive relations between SemUs

! Constitutive semantic featuresTelic: Telic relations between SemUsSynonymy: Synonyms of the SemUCollocates: Collocate informationComplex: Polysemous class of the SemU

“redundancy”“redundancy”

79

4.4 MILE95

MILE deve essere intesa come una meta-entry per dizionari multilingue.

MILE è stata progettata come un layer di rappresentazione comune multilingue, una

rappresentazione valevole per risorse lessicali multilingue.

La sua caratteristica principale è la scomposizione delle informazioni che deve contenere e la

modularità.

Figura 12: Rappresentazione della modularità in MILE96

La modularità si può riscontrare almeno sotto tre aspetti:

a) nella sua macrostruttura e architettura generale (A): adattamento del dizionario, studio

delle interazioni tra i moduli e della struttura nella quale sono inseriti (transfer, interlingua o

sistemi misti);

95 N. Calzolari, A. Lenci, A. Zampolli, N. Bel, M. Villegas, G. Thurmair, The ISLE in the Ocean Translatantic Standards for Multilingual Lexicons (with an eye to Machine Translation), http://www.eamt.org/summitVIII/papers/calzolari/pdf 96 Tratto da http://cst.ku.dk/projects/spinn/Copehn01.ppt


MILE

A. MILE Macrostructure

Meta-information

Architecture

B. MILE Microstructure

1. Monolingual 2. Collocational 3. Multilingual

C. Word-Sense Microstructure

1. Coarse-grained

2. Fine-grained

Modularity in MILEModularity in MILE

80

b) nella microstruttura (B), e cioè nei moduli di rappresentazione monolingue (1), di

informazioni sulle collocazioni (2) (composti, costruzioni fraseologiche, verbi di supporto,

etc) e dell’apparato multilingue (3) (individuazione dei casi più problematici di traduzione,

stabilire le condizioni il tipo di trasformazioni per poter stabilire una corretta mappatura

multilingue, stabilire equivalenze multilingue in relazione al tipo di approccio utilizzato dal

sistema, transfer o interlingua);

c) nelle specifiche relative alle informazioni di tipo semantico (C), sia per quanto riguarda la

rappresentazione monolingue (Coarse-grained), sia per quanto riguarda proprietà

collocazionali e sintagmatiche, utili soprattutto per la traduzione (Fine-grained).

Sono previsti tre componenti principali, di cui diamo di seguito una rappresentazione

schematica:

1) Rappresentazione monolingue: è cioè necessario identificare le informazioni

morfosintattiche, sintattiche e semantiche che caratterizzano MILE in una specifica

lingua, proprietà che sono facilmente estraibili da dizionari, quali ad esempio PAROLE-

SIMPLE.

I tipi di informazione contenuti in questo modulo hanno diversa natura:

!" Morfologico: categoria grammaticale, classi flessionali, modificatori, pluralia tantum,

nomi collettivi, etc.

!" Sintattico: comportamenti non prevedibili in relazione a particolari regole sintattiche (ad

esempio rendere una frase da attiva a passiva), verbi ausiliari, funzioni attributive o

MILE

Informazioni collocazionali

Informazioni monolingue

semantica

morfologia

sintassi

Apparato multilingue

81

predicative, indicazione del grado degli aggettivi, lista di posizioni sintattiche che

costituiscono cornici di sottocategorizzazione, caratteristiche morfosintattiche e lessicali

(concordanze, preposizioni e particelle che introducono complementi).

!" Semantico: caratterizzazione dei significati attraverso un collegamento all’ontologia,

informazioni riguardanti il dominio, struttura argomentale, ruoli semantici, relazioni

semantiche (sinonimi, iperonimi, meronimi), descrizione del senso di una parola in

termini di più specifiche relazioni tra semantica e conoscenza (come ad esempio le

strutture Qualia in SIMPLE), informazioni sulle polisemie, relazioni tra parti del

discorso.

2) Informazioni collocazionali: questo modulo include schemi sintagmatici (collocazioni,

costruzioni fraseologiche e multi-words, composti).

3) Apparato multilingue: rappresenta il cuore del lavoro svolto dal CLWG; lo scopo

principale è quello di proporre uno schema generale per il transfer multilingue.

In questa fase si rende necessario innanzitutto identificare i più comuni casi di transfer; in

secondo luogo verificare quali condizioni devono essere esprimibili e quali trasformazioni

sono necessarie per ottenere una corretta corrispondenza multilingue; quindi, identificare

metodologie per stabilire equivalenze tra la lingua sorgente e quella di arrivo.

In altre parole tale modulo multilingue agisce come un’interfaccia indipendente tra dizionari

monolingue:

APPARATO MULTILINGUE

Dizionario 1 Dizionario 2

Modulo semantico Modulo semantico Modulo sintattico Modulo sintattico

Modulo morfologico Modulo morfologico

Le corrispondenze multilingue in MILE, sono relazioni binarie che interessano un elemento

della lingua sorgente e uno della lingua di arrivo; possiamo identificare diversi aspetti che

influenza l’identificazione di tali corrispondenze.

Innanzitutto la contestualizzazione, cioè la misura in cui il contesto diviene rilevante per la

descrizione del transfer; in fase di transfer semplice, sarà sufficiente sostituire un termine

82

della lingua da tradurre con l’equivalente nella lingua di traduzione. In casi di transfer più

complesso, identificare la corrispondenza adeguata può significare dover apportare

modifiche alla struttura o dell’elemento lessicale (ad esempio può cambiare il genere) o a

livello dell’intera frase.

Per questo il layer multilingue dovrà contenere una serie di condizioni che consentano di

esprimere trasformazioni complesse implicate nella fase di transfer.

In secondo luogo, dobbiamo rilevare che la corrispondenza tra due lingue può avvenire a

qualsiasi livello, sia esso morfologico, sintattico o semantico.

Un ultimo aspetto che influisce nel individuazione di corrispondenze, è la struttura stessa

delle parole che possono presentarsi come singole unità, composti, multi-words.

Parlando dell’analisi morfologica, abbiamo già avuto modo di discutere il problema per cui

una parola composta in una lingua, può non esserlo in quella nella quale si sta traducendo.

Per far fronte a tutti questi aspetti, il layer multilingue è stato ulteriormente suddiviso in tre

parti responsabili della gestione delle corrispondenze:

- test part: è la fase nella quale si stabiliscono le condizioni da verificare perché un

determinato legame possa essere considerato valido.

- action part: riguarda le trasformazioni necessarie affinché avvenga un corretto transfer e

si stabilisca un’adeguata corrispondenza.

Prendiamo ed esempio la frase italiana “Mi piace la musica” e pensiamo di volerla tradurre

in inglese; il risultato dovrà essere “ I like the music”.

In italiano il verbo piacere ha come soggetto la musica, mentre in inglese il soggetto è “I”;

sostanzialmente quindi in questa fase è necessario compiere una trasformazione strutturale

della frase.

- typed links: è la fase che permette di identificare la corretta corrispondenza lessicale;

nella maggior parte dei casi, in due lingue possiamo rintracciare per ciascun termine il

perfetto equivalente; in altri casi però è necessario scegliere iponimi o iperonimi.

Fino ad ora abbiamo visto le applicazioni di MILE in sistemi transfer; è possibile invece

vedere un suo possibile impiego come rappresentazione interlingua; le descrizioni

semantiche sono affidate alle unità semantiche (SemU) e a ciascun lemma vengono

assegnate tante SemU quanti sono i suoi significati. A loro volta le unità semantiche sono

legate alle unità sintattiche (SynU), il cui compito è quello di rendere conto della sintassi dei

83

lemmi stessi; inoltre le SynU sono legate alle unità morfologiche (MU) che esprimono le

proprietà morfologiche del lemma.

Ciascuna unità semantica può essere descritta per mezzo di “oggetti semantici”:

!" tratti semantici: categoria semantica, dominio, restrizioni (ad esempio “umano”,

“oggetto”, etc).

!" concetti (incluse le relazioni che si vengono a determinare tra essi)

!" predicati: struttura argomentale, ruoli semantici (“agente”, “beneficiario” “scopo”, etc)

!" relazioni semantiche: tali relazioni possono unire due unità semantiche, due predicati o

due concetti (meronimia, sinonimia, iponimia, meronimia, qualia, derivazioni,

collocazioni, etc.).

Tali oggetti semantici possono essere attribuiti sia alla dimensione monolinguistica della

parola, sia a quella multilinguistica; nel primo caso, un determinato oggetto semantico ha

una valenza solo in dizionario di una specifica lingua, mentre nella seconda ipotesi l’oggetto

semantico è condiviso in più dizionari. Proprio questa condivisione diviene la base per una

descrizione interlinguistica; in questo modo è possibile far corrispondere al concetto da

“cane” le unità semantiche di lingue specifiche tutte connesse all’unico concetto.

Layer semantico

Layer sintattico

Layer morfologico

SemU

SynU

MU

Unità base per la descrizione delle proprietà semantiche MU in un dato contesto sintattico

Unità base per la descrizione del comportamento sintattico di una MU

Unità base per la descrizione di proprietà morfologiche di flessione e derivazione di una parola

84

Infine, le caratteristiche semantiche possono essere utilizzate per la descrizione di

un’ontologia in cui vengano messe in rilievo quelle che sono le proprietà indipendenti dalle

specifiche delle singole lingue in modo da poter creare corrispondenze multilingue.

In questo capitolo abbiamo messo in evidenza come le caratteristiche proprie del lessico

rappresentino l’ostacolo maggiore per il raggiungimento di una buona qualità di traduzione,

indipendentemente dalle strategie adottate per analizzare e generare linguaggio naturale;

riuscire ad individuare gli strumenti più adatti ad analizzare in profondità le dinamiche del

linguaggio, rappresenta ad oggi la sfida più impegnativa per ottenere buoni risultati in

traduzione automatica.

Abbiamo visto come le multi-words rappresentino un nodo cruciale per la traduzione in

quanto non è sempre possibile proporre le medesime regole di traduzione utilizzate per altri

tipi di costruzioni.

Per quanto riguarda i dizionari, proprio perché rappresentano una delle componenti

principali di sistemi di traduzione automatica – non dimentichiamo infatti che alcuni sistemi,

come ad esempio Systran, basano il loro processo di analisi quasi esclusivamente sulla

consultazione dei dizionari – sono stati oggetto di approfonditi studi perché potessero

rispondere alle esigenze emergenti da un contesto multilingue. Da qui gli standard per la

costruzione di dizionari multilingue e, soprattutto, il tentativo di creare un prototipo di

lemma in grado di rendersi indipendente dalle specifiche delle singole lingue e proporsi

come sistema di rappresentazione multilingue.

CANEconcetto

Cane

Dog

Perro

Chien

I

En

Sp

Fr

85

La tendenza quindi sembra essere quella di voler raggiungere gradi molto astratti e profondi

di rappresentazione del linguaggio, forme cioè in grado di render conto dei meccanismi

“universali” del linguaggio (vedi ad esempio la volontà di MILE di proporsi come base per

l’interlingua).

UNL sembra essere una concreta risposta a queste tendenze; nel sistema tutto tende ad una

rappresentazione che sia il più “universale” possibile: non parole, ma concetti, base di

conoscenza in grado di esprimere tutte le possibili relazioni tra concetti, organizzazione

stessa della base di conoscenza in modo da poter ricostruire il significato di una parola

risalendo al concetto più generale ad esso collegato.

Certo è che se vogliamo inquadrare UNL come sistema di traduzione automatica, bisogna

considerare il fatto che una traduzione è fatta di parole concrete, di specifici significati;

proprio per questo anche in UNL esistono dizionari e grammatiche specifici per lingua, ma

da notare è lo sforzo compiuto dai suoi ideatori e sviluppatori di voler comunque mantenere

legami concettuali, astratti. Prova ne è il Master Dictionary che collega dizionario di lingua

e base di conoscenza; in questo modo UNL riuslta un sistema in grado di gestire tutti quei

problemi linguistici (vedi ad esempio le multi-words) che il multilinguismo impone.

In virtù di queste sue caratteristiche UNL può essere considerato una pura interlingua,

“language-independent”, sempre in evoluzione e aggiornamento e poter così seguire ed

adattarsi alle difficili dinamiche linguistiche.

86

UNIVERSAL NETWORKING LANGUAGE

5.1 INTRODUZIONE

Nel 1973 l’Assemblea Generale delle Nazioni Unite sancì la nascita di una università

virtuale, UNU (United Nations University) con sede a Tokyo, che permettesse a studenti

provenienti da tutto il mondo, di avere accesso all’informazione.

In seno alla United Nations University è nato nel 1995 l’Institute for Advanced Studies

(IAS), un istituto di ricerca ed educazione orientato verso studi a carattere scientifico e

sociale.

UNL nasce nell’aprile del 1996 proprio all’Institute for Advanced Studies come

realizzazione di un’idea nata nei primi anni Novanta da due ricercatori giapponesi:

KAZUHIKO NISHI e HIROSHI UCHIDA; i due ricercatori, esperti di comunicazione e da

anni interessati alla traduzione automatica, pensarono di realizzare un sistema basato sullo

sviluppo di un’interlingua adatta per essere letta da un computer, per la codifica e decodifica

di testi scritti in un linguaggio naturale; UNL è infatti un linguaggio artificiale, sotto forma

di rete semantica, ideato per l’espressione e lo scambio di qualsiasi tipo di informazione.

Lo scopo di UNL è quello di mettere in evidenza non tanto la sua struttura sintattica, quanto

piuttosto il significato profondo del testo; come avremo modo di vedere più avanti, quando

tratteremo dei componenti del sistema, UNL tratta le lingue come complesse reti concettuali

e quindi come sistemi che, in un certo senso, si possono considerare processi universali (in

effetti UNL esprime informazioni attraverso una classificazione sia dell’oggettività sia della

soggettività).

La missione del programma UNL, così come presentata dai suoi stessi ideatori, è quella di

promuovere, un sistema per una comunicazione multilingue, con lo scopo di permettere alle

persone di condividere e accedere ad informazioni e conoscenza ed evitare così esclusione

scientifica, economica e culturale, principi di pari opportunità tra popoli e culture sancito

dalle Nazioni Unite.

Proprio per questo motivo UNL è stato progettato per essere fruito via Internet: riuscire ad

abbattere anche le barriere linguistiche che si presentano navigando in rete dove circa l’80%

dei documenti è redatto in inglese.

87

Il sistema UNL si presenta come un insieme di server distribuiti in rete che condividono lo

stesso linguaggio per la trasmissione e decodifica di un testo; le sue componenti principali

sono le “Specifiche” (relazioni ed attributi che servono per rappresentare gli oggetti del testo

della lingua che si sta analizzando e per indicare il tipo di rapporto che si instaura tra di essi),

un “Dizionario Universale” (dizionario di concetti) e la “Base di Conoscenza” (rete di

relazioni tra concetti).

Il ruolo dei server linguistici è quello di “convertire” e “deconvertire”, attraverso specifici

software,una lingua naturale in linguaggio UNL e da questo in un’altra lingua naturale.

Attualmente, le lingue che sono oggetto di studio per la progettazione di software UNL sono

sedici: arabo, cinese, inglese, francese, russo, spagnolo, tedesco, hindi, italiano, indonesiano,

giapponese, lettone, mongolo, portoghese, swahili e tailandese.

5.2 COMPONENTI

La natura universale del linguaggio UNL, la necessità di poterlo utilizzare nella stessa forma

per tutte le lingue da trattare e la volontà di raggiungere un elevato grado di stabilità del

sistema, sono caratteristiche assicurate dalla condivisione di alcuni elementi costitutivi

fondamentali: le Specifiche, il Dizionario delle Parole Universali e la Base di Conoscenza.

Tutti questi componenti risultano essere tra loro strettamente interconnessi e interdipendenti.

Figura 4: Schema dei componenti di UNL e loro collegamenti97 97 Tratto dal sito http://www.ias.unu.edu

88

5.2.1 SPECIFICHE: RELAZIONI e ATTRIBUTI Le Specifiche (UNL Specifications) rappresentano gli elementi caratterizzanti delle

espressioni scritte in linguaggio UNL.

Possiamo individuare due ordini di elementi : le relazioni e gli attributi.

!" Relazioni Le relazioni di UNL rappresentano un sistema economico e generale per poter collegare in

modo logico due elementi di una determinata espressione che si vuole rappresentare in

linguaggio UNL; per il fatto di collegare i diversi elementi a due a due, le relazioni vengono

anche dette “binarie”.

Si hanno diversi tipi di relazioni, a seconda del rapporto logico che si vuole esprimere tra gli

elementi da collegare, come ad esempio agente, beneficiario, scopo, modificatori, etc.

Ci sono due principi fondamentali che devono essere seguiti al momento di identificare la

corretta relazione esistente tra due concetti; innanzitutto una condizione NECESSARIA:

quando una parola universale (concetto) instaura una relazione con più di due altre parole

universali, ciascuna “etichetta” legata alla relazione deve essere in grado di identificarla con

il presupposto di avere abbastanza conoscenza rispetto al concetto espresso dalla parola

universale.

La seconda è una condizione SUFFICIENTE: ogni relazione deve essere scelta in modo che

il ruolo di ciascuna parola universale possa essere dedotto dal tipo di relazione scelto.

Vediamo ora nel dettaglio le descrizione delle diverse relazioni, suddividendole per tipo:

a) Relazioni riguardanti i partecipanti all’azione:

AGT (agent): esprime il soggetto che compie l’azione; tale soggetto può essere una persona,

un macchinario (dispositivo) o una cosa.

Qualche esempio:

!" Laura mangia una mela : agt(eat.@entry.@present, Laura) !" Il computer sta risolvendo l’equazione : agt(solve.@entry.@progressive,computer.@def) !" La procedura dà buoni risultati: agt(give.@entry.@present,procedura.@def)

89

BEN (beneficiary): esprime il beneficiario o la vittima di un evento; il beneficiario non è

però direttamente relazionato con l’evento stesso. Si può trattare di una persona, una cosa,

un’organizzazione, etc.

Posso portarti le borse?: ben(carry.@entry.@interrogation.@politeness, you)

Matteo lavora per l’università: ben(work.@entry, university)

CAG (co-agent): esprime un soggetto che è posto in secondo piano rispetto a quello

principale e che intraprende parallelamente a questo una nuova situazione.

Vivo qui con lei: agt(live.@entry, I)

cag(live.@entry, she)

plc(live.@entry, here)

COB (affected co-thing): esprime una cosa o un persona che viene direttamente influenzata

da un evento implicito che si sta svolgendo in parallelo rispetto a quello principale.

È caduto in un fiume con la macchina: obj(fall.@entry.@past, he)

gol(fall.@entry.@past, river)

cob(fall.@entry.@past, car)

OBJ (object): definisce l’oggetto che viene direttamente interessato dallo svolgimento

dell’evento.

Ho comprato un libro: agt(buy.@entry.@past, I)

obj(buy.@entry.@past, book)

PTN (partner): definisce la persona o la cosa indispensabili (diversi dal soggetto principale)

perché si compia un’azione.

Claudia è andata a parlare con i professori: agt(talk.@entry.@past, Claudia)

ptn(talk.@entry.@past, teacher.@pl)

b) Relazioni logiche

AOJ (attribute of the object): esprime un attributo o un particolare stato nel quale si trova

una cosa.

Manuela è avvocato : aoj(lawer.@entry,Manuela)

Il giglio è un fiore: aoj(flower.@entry,lily)

90

CAO (co-thing with attribute): esprime una situazione parallela a quella principale

Un cane con delle macchie: cao(spot.@pl, dog)

AND (and): esprime la congiunzione copulativa.

Leoni e leopardi cacciano le gazzelle : agt(chase.@entry.@present, :01)

and :01(lion.@entry.@generic, leopard.@generic)

obj(chase.@entry.@present, gazelle.@generic)

OR (or): rappresenta la disgiunzione tra due concetti.

Puoi fermarti o andare via: agt(:01.@entry, you)

or :01(stay.@entry.@grant.@present, leave.@grant.@present)

CNT (content): mette in relazione due concetti che sono equivalenti.

Mia sorella, Silvia, lavora in un supermercato: cnt(sister.@pos, Silvia)

NAM (name):definisce il nome di una cosa.

La città di Milano: nam(city.@def.@entry, Milan)

c) Relazioni che riguardano la situazione, l’evento:

SRC (source): definisce lo stato in cui si trova un oggetto prima che inizi l’azione.

Il semaforo è diventato da giallo a rosso: obj(change.@entry.@past, light

mod(light, traffic)

src(change.@entry.@past, yellow)

gol(change.@entry.@past, red)

RSN (reason): definisce il motivo per cui vi verifica un evento.

È scappato per paura del cane: rsn(escape.@entry, dog)

Non esce perché si è ammalato: rsn(go.@entry.@present, sick)

GOL (goal: final state): rappresenta lo stato finale nel quale si trova una cosa.

Si sta ristabilendo: obj(get.@entry.@progress, he)

gol(get.@entry.@progress, better)

91

d) Relazioni condizionali:

CON (condition): esprime la persona o la cosa che influenza l’evento o la situazione

principale.

Giovanni mangerebbe meno se stesse male: agt(eat.@entry.@apodosis-real, “Giovanni”)

aoj(be, “Giovanni”)

con(eat.@entry.@apodosis-real, be)

obj(be, sick)

PUR (purpose): definisce lo scopo del soggetto che compie l’azione o il motivo

dell’esistenza di una cosa.

Sono venuto a trovarti: agt(come.@entry.@present, I)

pur(come.@entry, visit)

obj(visit, you)

e) Relazioni di luogo

SCN (scene): identifica un luogo virtuale nel quale si verifica un evento.

Hanno dato questa notizia alla televisione: scn(give.@entry.@present, television)

In sogno, ti ho visto a Roma: agt(see.@entry.@past, I)

obj(see.@entry.@past, you)

plc(you, Rome)

scn(see.@entry.@past, dream)

PLC (place): definisce il luogo nel quale avviene un avvenimento, dove si verifica uno stato

o dove esiste una cosa.

Mio fratello vive in Canada: plc(live.@entry.@present, Canada)

PLF (initial place): definisce il luogo dove un evento inizia o uni stato diventa vero.

Vengo da casa: plf(come.@entry.@present, home)

PLT (final place): definisce il luogo dove termina un evento o uno stato diventa falso.

Viaggeremo fino a Bruxel: agt(travel.@entry.@future, we)

plt(travel.@entry.@future, Bruxel)

92

VIA (via) : identifica un luogo o uno stato intermedio, di passaggio.

Lo ha visto attraverso la finestra: via(see.@entry.@past, window.@def)

agt(see.@entry.@past, she)

obj(see.@entry.@past, he)

OPL (affected place) : identifica il luogo interessato dall’evento.

Gli ho dato una pacca sulla spalla: opl(pat, shoulder)

f) Relazioni di tempo:

TIM (time): definisce il momento in cui si verifica un evento.

È arrivato alle otto: agt(arrive.@entry.@past, he)

tim(arrive.@entry.@past, hour)

mod(hour, 8)

TMF (initial time): definisce il momento preciso in cui comincia un evento.

L’incontro è iniziato alle 10: obj(start.@entry.@past, meeting.@def)

tmf(start.@entry.@past, hour)

mod(hour, 10)

TMT (final time): definisce il momento in cui si conclude un evento.

L’incontro fu posposto al giorno seguente: tmt(postpone.@entry.@past, tomorrow)

obj(postpone.@entry.@past, meeting.@def)

DUR (duration): definisce il periodo di entro entro il quale si svolge un evento o una

situazione.

Lavoro otto ore al giorno: dur(work.@entry, hour.@pl)

SEQ (sequence): identifica la sequenza con la quale si svolgono due eventi.

Prima di attraversare, guarda: seq(cross.@entry, look)

COO (co-occurence): esprime la relazione esistente tra due eventi o situazioni che si

presentano contemporaneamente.

Mentre mangiava un gelato, inciampò: coo(eat.@entry, fall)

93

g) Relazioni circostanziali:

BAS (basis for expressing degree): è la relazione che viene usata per esprimere un grado,

ad esempio in espressioni nelle quali compaiono aggettivi superlativi o comparativi.

Mio fratello è più grande del tuo: bas(elder, you)

Carlo è il più ricco tra tutti noi: bas(most, us)

TO (to): identifica la destinazione di una persona o cosa.

È questo il treno per Monaco?: to(train, Monaco.@entry)

mod(train, this)

INS (instrument): rappresenta il mezzo che si utilizza per raggiungere uno scopo.

L’ho rotto con un martello: agt(break.@entry.@past, I)

ins(break.@entry.@past, hammer)

obj(break.@entry.@past, it)

MAN (manner): definisce il modo con il quale avviene una cosa o identifica le

caratteristiche di un particolare stato.

Parlo troppo: agt(talk.@entry.@present, I)

man(talk.@entry.@present, much)

man(much, too)

MET (method): definisce il modo con il quale si vuole raggiungere uno scopo.

Si può risolvere con un algoritmo: met(solve.@entry, algorithm)

MOD (modification): definisce la relazione che esiste tra una cosa e il suo modificatore.

Questa casa: mod(house.@entry, this)

Capelli castani: mod(hair.@entry, brown)

POF (part of): rappresenta la relazione tra due concetti, di cui uno è parte dell’altro.

Il sedile posteriore dell’auto: pof(seat.@entry.@def, car)

mod(seat.@entry.@def, back)

Le pagine di un libro: pof(page.@entry.@pl.@def, book)

94

POS (possessor): identifica il possessore di un oggetto.

La sua matita: pos(pencil.@entry, she)

FRM (from): definisce l’origine di una cosa.

Ho ricevuto una lettera da Claudia: frm(letter.@entry, Claudia)

h) Relazioni numerali:

FMT (from-to): esprime uno spazio, in termini di distanza, peso, lunghezza, grado…, che

esiste tra due cose.

Ho viaggiato dal Perù alla Colombia: fmt(Perù.@entry, Colombia)

Per andare da casa all’ufficio ci metto mezz’ora: fmt(home.@entry, office)

QUA (quantity): definisce la quantità di una cosa.

Tre metri di stoffa: qua(meter.@pl, 3)

PER (proportion, rate, distribution): definisce un grado di proporzione, una quota di

distribuzione o un valore.

Si fa vedere due volte al giorno: man(appear.@entry, twice)

per(twice.@entry, day)

La coppa America si tiene ogni due anni: per(twice, year.@pl)

!" Attributi

Gli attributi delle parole universali, marcati dal simbolo “@”, servono per descrivere ciò che

di soggettivo c’è nella frase; hanno cioè il compito di mettere in evidenza la prospettiva del

parlante in merito a quanto viene detto, le sue intenzioni, attitudini; inoltre forniscono una

collocazione temporale agli eventi, uno statuto di instanziato (conosciuto) o non-instanziato

(sconosciuto) per gli oggetti di cui si parla e informazioni riguardanti il contesto entro il

quale si sviluppa l’evento stesso.

Quello che è interessante osservare degli attributi, è la loro caratteristica di non esprimere dei

dati linguistici, ma delle informazioni pragmatiche e suprasegmentali che, spesso, possono

caratterizzare delle specifiche convenzioni culturali che si manifestano nel linguaggio.

95

Grazie agli attributi, infatti, è possibile rappresentare il modo con cui ci si esprime in una

particolare lingua in riferimento ad un determinato fatto; dobbiamo infatti ricordare che due

lingue diverse hanno spesso una differente attitudine verso particolari fenomeni sociali:

pensiamo ad esempio al giapponese e ai suoi numerosi modi di esprimere la reverenza in

base allo status sociale o allo spagnolo che scegli di utilizzare un tempo verbale piuttosto che

un altro a seconda della maggiore o minore probabilità che si verifichi un determinato

evento.

Per poter quindi rappresentare le numerose attitudini, che danno luogo e diverse espressioni

in lingue differenti, e proponendosi di coprire la più vasta gamma di possibilità, UNL ha

individuato 61 attributi suddivisi in sette classi.

Occorre notare che la lista degli attributi non è fissa, ma resta aperta: nel momento in cui

nuove lingue volessero entrare a far parte del progetto e avessero particolari necessità di

esprimere specifiche caratteristiche della lingua (ad esempio aspetti verbali), potrebbero

sempre inserirle nella lista.

Vediamo ora quali sono le classi di attributi:

a) posizione temporale dell’evento rispetto al narratore ( da notare che @present, @past,

@future non hanno nulla a che vedere con i tempi linguistici propriamente detti; è questo

il caso del cosiddetto “presente storico. Prendiamo ad esempio la frase “la terra è

rotonda”: tale affermazione è vera sempre, indipendentemente dal tempo considerato. In

questo caso l’espressione di UNL non avrebbe alcuna marca temporale)

b) aspetto

c) referenza

d) enfasi posta su una particolare parte del discorso

e) attitudini del narratore

f) punti di vista del parlante

g) convenzioni

a) La prima classe è costituita da attributi che esprimono le relazioni esistenti tra l’evento e il

tempo in cui si verifica, con riferimento al narratore:

@past: evento che si è svolto in un momento precedente rispetto a quello della narrazione.

Ieri sono andato al cinema: agt(go.@entry@past,I)

@present: evento che si realizza nel momento stesso della narrazione

Mangio una mela: agt(eat.@entry@present.@,I)

@future: l’evento si svolgerà in momento successivo rispetto a quello della narrazione.

96

Luca arriverà domani: agt(arrive.@entry.@future,Luca)

b) Alla seconda classe appartengono gli attributi che esprimono la collocazione temporale di

un evento così come viene percepita dal narratore; è l’enfasi che il narratore pone su una

determinata parte dell’evento.

@begin: indica l’inizio di un evento

Ho cominciato a lavorare: agt(work.@entry.@begin, I)

@complete: indica il momento in cui un evento si è definitivamente concluso.

Ho finito di leggere il romanzo: agt(read.@entry.@complete, I)

@continue: esprime che un evento è in svolgimento.

Ha continuato a parlare per ore: agt(talk.@entry.@continue.@past, he)

@custom: si riferisce ad un evento svolto con abitudine, consueto.

Quando ero bambino studiavo molto: agt(study.@entry.@custom.@past, I)

@end: esprime la fine di un evento [la differenza con @complete ?]

Sta smettendo di piovere: obj(stop.@entry.@end, rain)

@experience: esprime un’esperienza.

Hai mai visitato Londra?: agt(visit.@entry.@experience.@interrogation, you)

obj(visit.@entry.@experience.@interrogation, London)

@progress: esprime un evento in svolgimento

Sto mangiando: agt(est.@entry.@progress, I)

@repeat: esprime la ripetizione di un evento; la differenza con l’attributo @custom consiste

nell’indicare o meno la consuetudine nel ripetere una determinata azione.

La palla continua a rimbalzare: obj(bounce.@entry.@present.@repeat, ball.@def)

man(bounce.@entry.@present.@repeat, still)

@state: identifica gli effetti permanenti che si sono verificati a seguito di un particolare

evento.

Accanto a questi attributi è possibile affiancare dei modificatori che consentono di

specificare meglio l’attributo.

@just: indica se un evento si è appena concluso oppure è appena iniziato.

Ho appena finito di cucinare: agt(cook.@entry.@end.@just, I)

@begin_soon: esprime un evento o una condizione che è sul punto di verificarsi.

Il treno sta per partire : agt(leave.@begin_soon, train)

97

@yet: esprime un evento o una condizione che non è ancora iniziata o non si è ancora

conclusa; viene accompagnato da @not.

Non ho ancora finito i compiti: agt(finish.@entry.@present.@not.@yet, I).

c) Esistono poi attributi che specificano se l’oggetto del quale si sta parlando è conosciuto

(definito), non conosciuto (indefinito) oppure un’entità generica. Questi attributi rendono

esplicita la referenza del parlante.

Pensiamo ad esempio all’espressione “la casa”: non è possibile stabilire se si sta parlando del

genere delle case oppure se ci si sta riferendo ad una casa in particolare. È quindi necessario

specificare il tipo di referenza.

@generic: identifica un oggetto generico.

Il cane è un animale leale: aoj(animal.@entry, dog.@generic)

@def: identifica un oggetto specifico del quale si è già parlato nel testo.

La casa all’angolo è in vendita: plc(corner.@def, house.@def)

@indef: si riferisce ad un oggetto non specificato.

Un amico è venuto a parlarmi: agt(talk.@entry.@past, friend.@indef)

A questi attributi possiamo aggiungere anche:

@not: esprime una negazione e viene affiancato alla parola che nega.

Non è venuto: agt(come.@entry.@past.@not, he)

Non accaduto

Accaduto @progress

@repeat / @continue

@begin_soon

@state

@begin_just

@complete_soon @complete_just

@end_soon

@end @begin

@complete/@experience/@custom

98

Non è Italiano: aoj(italian.@entry.@not, he)

@ordinal: serve per indicare numeri ordinali

Abitiamo al secondo piano: plc(live.@entry.@present, 2.@order)

d) Alla quarta classe appartengono attributi che vengono utilizzati per sottolineare

l’importanza di una parte della frase per mostrare l’importanza che il narratore attribuisce

alla situazione descritta.

@entry: marca il termine a partire dal quale si costruisce tutta l’espressione o lo scope.

Mi promise che sarebbe venuto: agt(come.@intention, he)

obj(promise.@entry.@past, come.@intention)

agt(promise.@entry.@past, he)

@emphasis: pone in evidenza un elemento particolare all’interno della frase.

Velocemente è un avverbio: mod(adverb, it)

aoj(quicky.@emphasis.@entry, adverb)

@qfocus: mette in evidenza una parte particolare dell’espressione; nella maggior parte dei

casi viene utilizzato in frasi interrogative.

Chi è nato a Milano? : obj(be born.@entry.@past.@interrogative, who.@qfocus.@topic)

plc(bear.@entry.@past.@interrogative, Milan)

Stai dipingendo la cucina di verde?: obj(paint.@entry.@continue.@interrogative,

kitchen.@qfocus)

agt(paint.@entry.@past.@interrogative, you)

aoj(kitchen.@qfocus, green)

@title: identifica il titolo di un documento, articolo o paragrafo.

@topic: mette in evidenza l’oggetto di cui si parla nelle frasi passive

a) Alla quinta classe, appartengono attributi che esprimono l’attitudine del narratore e i suoi

sentimenti riguardo l’evento.

@affirmative: esprime un’affermazione.

@confirmation: esprime conferma.

Ti fermi, vero ?

@exclamation: esprime un’esclamazione.

Guarda!

@imperative: indica un ordine.

Sei pregato di lasciare la stanza.

99

@interrogative: esprime una domanda.

Chi è lui?

@invitation: indica l’incoraggiamento a fare qualche cosa.

Vuoi del tè?

@politeness: indica che è stato usato un tono di cortesia nell’espressione

Potresti prendermi la borsa?

@respect: serve per indicare rispetto nei confronti della persona alla quale ci si rivolge

Buongiorno, signore.

@vocative: esprime un’esortazione.

Ragazzi, siate ambiziosi!

f) La sesta classe è tra le più importanti e vaste; è formata dagli attributi che esprimo il

punto di vista del parlante rispetto all’evento che si svolge o all’azione di cui è stato

testimone.

@ability: esprime la capacità di fare qualche cosa

Giovanni parla molto bene il francese: agt(speak.@entry.@ability, Giovanni)

@apodosis-real: indica la frase principale che, all’interno di una proposizione ipotetica, si

relaizzarà.

Se vieni, cucino il tuo piatto preferito:

@apodosis-unreal: all’interno di una proposizione ipotetica, indica la frase che avrebbe

potuto realizzarsi.

Se fossi venuto, ti saresti divertito.

@apodosis-cond: esprime la condizione necessaria alla realizzazione di un evento.

Se non lo limitassi, fumerebbe troppo.

@conclusion: esprime la conseguenza dovuta ad un particolare evento o situazione.

Luca lavora e quindi è impegnato tutto il giorno.

@expectation: esprime le aspettative derivanti da un’azione.

Se glielo domandi , ti aiuterà: agt(help.@entry.@future.@expectation, he)

@grant: indica un consenso.

Puoi andare al cinema: agt(go.@entry.@grant, you)

@insistence: indica un’insistenza nel voler compiere un’azione

Vado io dal panettiere: agt(go.@entry.@present, I.@insistence)

@intention: indica la volontà di fare qualche cosa.

Voglio comprare un libro: agt(buy.@entry.@intention, I)

100

Farei una passeggiata: agt(hike.@entry.@intention, I)

@inevitability: esprime l’inevitabilità della realizzazione di un particolare evento.

@may: indica la possibilità concreta di fare qualche cosa

Potrei andare a casa di Luigi: agt(go.@entry.@may, I)

@obligation: indica un obbligo imposto a qualcuno.

Devi andare dalla nonna: agt(go.@entry.@obligation, you)

@possibility: esprime la possibilità che un evento si realizzi, rispetto a @may ha una

connotazione più positiva, nel senso che la possibilità è più reale.

Può accadere che non si raggiunga un accordo.

@probability: indica una probabilità.

Probabilmente parto domani: agt(leave.@entry.@probability, I)

@should to fell duty: indica l’atteggiamento per cui ci si sente in dovere di fare una

determinata cosa.

Dovrei studiare di più: agt(study.@entry.@should to fell duty, I)

@unexpected- presumption: esprime una supposizione contraria alle aspettative.

Sono spiacente che debba essere accaduto: obj(be disappointed.@entry.@unexpected-

presumption, it)

@unexpected-aspettative: conseguenza contraria rispetto ai propri desideri.

Avrei voluto che l’affare si concludesse.

@will: esprime una volontà; è più forte rispetto a @intention.

g) La classe delle convenzioni rappresenta una classe più marginale rispetto alle altre; a

questa categoria, infatti, appartengono attributi che non servono per specificare stati

d’animo del narratore, i suoi punti di vista o per mettere in evidenza particolari parole

all’interno delle frasi, ma vengono utilizzati per inserire dei simboli.

@pl: serve per indicare che un nome appare nella sua forma plurale.

Due persone: qua(person.@pl.@entry, 2)

@angle_bracket :viene usato > oppure <

@double parenthesis :inserisce (( ))

@double quotation : vengono utilizzate gli apici che indicano un discorso diretto “…”

@parenthesis: inserisce singole parentesi tonde ( )

@single_quotation : vengono usati apici semplici ‘ ’

@sqare_bracket: inserisce singole parentesi quadre [ ]

101

5.2.2 DIZIONARIO delle PAROLE UNIVERSALI

Abbiamo già detto che UNL, per la rappresentazione delle espressioni, utilizza i concetti; tali

concetti sono espressi in base a classi, categorie di oggetti e vengono raccolti nel Dizionario

delle Parole Universali.

Come abbiamo avuto modo di notare presentando alcuni esempi nella sezione relativa alle

relazioni, i concetti sono espressi mediante l’uso convenzionale di parole inglesi, accanto

alle quali vengono indicate tra parentesi le categorie di appartenenza.

Facciamo un esempio pratico: pensiamo di voler scrivere nel linguaggio UNL l’espressione

“Oggi Giovanni compra un libro recente di storia a sua sorella”.

La sua rappresentazione grafica che tenga conto delle relazioni che intercorrono tra gli

elementi sarà:

Vediamo ora come vengono espressi tali concetti con l’utilizzo delle parole universali:

sorella = sister(icl>relationship)

comprare = buy(icl>action)

libro = book(icl>thing)

storia = history(icl>domain)

recente = new published(equ>recent)

recente

libro

storia comprare

oggi (sua) Giovanni

sorella

Giovanni

modalità oggetto

agente

beneficiario

tempo possessore

modalità

102

Quindi la stessa frase sarà scritta nel linguaggio UNL nel seguente modo:

agt(buy(icl>action).@entry.@present, Giovanni)

ogj(buy(icl>action).@entry.@present, book(icl>thing).@indef)

mod(book(icl>thing).@indef, history(icl>domain))

mod(book(icl>thing).@indef, new published(equ>recent))

ben(buy(icl>action).@entry.@present, sister(icl>relationship))

pos(Giovanni, sister(icl>relationship))

La grafica sarà quindi:

Il fatto di definire le caratteristiche di un concetto per meglio determinarne l’esatto

significato, è uno dei punti di forza di UNL, che permette di scrivere una data espressione in

modo non ambiguo. Abbiamo infatti già avuto modo di sottolineare quanto l’ambiguità

semantica rappresenti lo scoglio maggiore da dover superare per poter ottenere dei buoni

risultati in un sistema di traduzione automatica.

Per meglio chiarire questo punto, prendiamo in considerazione la parola “swallow”; nel

dizionario delle parole universali, troviamo tre differenti rappresentazioni:

swallow(icl>bird)

swallow(icl>action)

New published

Book (icl>thing

History (icl>domain

Buy (icl>action

today (he) Giovanni

Sister (icl>relations

mod

mod

obj agt

ben

tim pos

Giovanni

103

swallow(icl>quantity)

Tutte queste rappresentazioni si riferiscono a tre concetti ben distinti: rondine, ingoiare e

boccone.

Proprio per favorire una completa disambiguazione, nel sistema UNL esistono diversi tipi di

parole universali, ciascuno dei quali serve per poter meglio specificare le caratteristiche che

devono essere affiancate al concetto per meglio definirlo.

!" Basic UW: sono le parole inglesi che non comportano alcuna restrizione di significato;

possono essere considerate come un’etichetta che è valida per tutto un insieme di

concetti espressi con quelle parole.

!" Restricted UW: sono ottenute affiancando alle Basic UW delle restrizioni; rappresentano

un sottoinsieme di concetti, concetti più specifici.

Ad esempio, le tre parole universali che vengono utilizzate per rappresentare i concetti legati

a “swallow”, fanno parte di questa categoria.

Le Restricted UW consentono al sistema di identificare correttamente quale sia il concetto

specifico che deve essere applicato in un particolare contesto.

Se in una specifica lingua non si dovesse trovare il corrispondente concetto nel dizionario

delle parole universali, il sistema ha la possibilità di risalire nell’ontologia (Base di

Conoscenza) al concetto superiore, vale a dire meno specifico, che lo include.

Sono state stabilite sette categorie di concetti, ciascuna delle quali contiene delle

sottocategorie; queste sono “thing”, “do”, “occur”, “be”, “how”, “mod<thing” e

“aoj<thing”.

“Thing” include tutti i concetti che si riferiscono agli oggetti; “do” e “occur” contengono i

concetti relativi ai verbi.

“Be” contiene tutti i concetti che si riferiscono allo stato o alla situazione di una cosa in un

particolare momento.

Concetti relativi agli aggettivi sono rappresentati dalle categorie “mod<thing” e

“aoj<thing”, mentre la categoria “how” definisce gli avverbi.

!" Extra UW: sono un particolare tipo di Restricted UW; rappresentano le parole straniere

che non trovano un corrispondente in inglese.

104

La parola straniera viene usata come Basic UW, alla quale vengono poi affiancate le

caratteristiche adeguate per restringere il dominio e identificare il concetto più vasto ai quali

tali parole appartengono.

Ad esempio, la parola giapponese “tatami”, o quella italiana “murano”, non trovano la

corrispondente inglese.

La loro rappresentazione nel linguaggio UNL sarà quindi:

tatami(icl>thing), che indica l’appartenenza alla categoria degli oggetti;

murano(icl>glass, aoj>colourful), cioè tipo di vetro dai molti colori.

!" Compound UW: la particolarità di queste parole universali è quella di non trovarsi nel

dizionario; si tratta infatti di insiemi di parole universali già esistenti che vengono

collegate tra loro attraverso relazioni.

Il motivo per cui le Compound UW si trovano solo nei documenti UNL, risiede nel fatto che

rappresentano dei concetti complessi esistenti solo in determinati contesti.

Prendiamo come esempio la frase “Si dovrebbe chiedere alle donne che indossano grandi

cappelli al cinema di andarsene.

Graficamente tale espressione assumerà la forma:

Vogliamo ora analizzare il nodo “donne che indossano grandi cappelli al cinema”; in esso

sono presenti concetti semplici, quali donna, indossare, grande, cappello e cinema.

Nel linguaggio UNL, ad ogni concetto complesso viene assegnato un codice numerico in

modo che venga analizzato dal sistema come un’unica parola universale.

La frase viene quindi scritta nel seguente modo:

Si dovrebbe chiedere

di andarsene

Donne che indossano grandi

cappelli al cinema

gol

obj agt

105

agt:01(wear(icl>do), woman(icl>person).@pl) donne indossare

obj:01(wear(icl>do), hat(icl>thing)) indossare cappello

aoj:01(big(aoj>thing), hat(icl>thing)) cappello grande

plc:01(wear(icl>do), cinema(ocl>place)) indossare al cinema

È interessante notare come le parole universali “compound” possono essere la base per la

risoluzione delle espressioni idiomatiche; abbiamo infatti avuto modo di vedere quali e

quanti siano i problemi legati alla loro rappresentazione e traduzione (interpretazione

semantica deducibile dal significato dei suoi componenti, parti che flettono, non contiguità

degli elementi, etc).

Trattare le espressioni idiomatiche come “scope” (concetto unico formato da più elementi)

permetterebbe non solo di farne un’accurata analisi semantica (vengono infatti già

rappresentate sulla base dei concetti e relazioni che intercorrono con le altre parti della

frase), ma anche di tenere conto in un unico passaggio di tutte le possibili variazioni che le

interessano.

!" Temporary UW : sono categorie di parole sconosciute che si trovano solo nei documenti

UNL, ma non hanno alcuna entrata nel dizionario delle parole universali o nella base di

conoscenza (ad esempio in nomi propri vengono indicati come “Temporary UW”).

5.2.3 BASE di CONOSCENZA

La Base di Conoscenza (KB) del sistema UNL, si configura come una rete molto estesa che

definisce tutte le possibili relazioni esistenti tra i concetti (la parole universali) utilizzati per

la rappresentazione il linguaggio UNL; ogni concetto assume all’interno della base di

conoscenza una determinata posizione che contribuisce all’organizzazione della

“conoscenza” generale del sistema”.

La funzione principale della base di conoscenza è quella di creare omogeneità nel

trattamento di concetti per tutte le lingue: infatti le risorse linguistiche specifiche per ogni

lingua, vale a dire le grammatiche e i dizionari monolingue, sono strettamente legati sia al

dizionario delle parole universali sia alla base di conoscenza.

106

I concetti rappresentati nella base di conoscenza seguono un’organizzazione gerarchica;

questo aspetto risulta particolarmente importante nel momento in cui un determinato

concetto non viene espresso in una specifica lingua.

Grazie alla struttura gerarchica è possibile risalire al concetto più generale che include quello

meno specifico del quale si vuole identificare il significato.

Per meglio chiarire questo aspetto, presentiamo una schematizzazione della struttura della

base di conoscenza.

Figura 5: Schema dell’organizzazione della Base di Conoscenza98

In altre parole, nella base di conoscenza si può identificare un determinato concetto

seguendo la linea generale>particolare, per cui “cane” viene definito come cosa>oggetto

98 Tratta da F. Cabrini, Universal Networking Language: dal mito della Lingua Universale al “traduttore” globale, Tesi, Università Cattolica, Facoltà di Scienze Politiche, Aprile 2001

thing

time place Concrete thing

event manner state

Abstract thing

action phenomenondomani

scuola

dog do

“bere”

animal pof

occur

nevicare

pof conoscere

lentamente

107

concreto>animale>cane; oppure “scuola” è definita come facente parte delle cose

appartenenti alla categoria dei “luoghi”.

5.3 MASTER DICTIONARY

Il Master Dictionary ha la funzione chiave di raccogliere le informazioni riguardanti i

collegamenti che instaurano tra il Dizionario di Lingua99, il Dizionario delle Parole

Universali e la Base di Conoscenza.

Il dizionario contiene le seguenti informazioni:

1) Lemma (o multi-word) di una lingua specifica

2) Parola Universale (concetto) legato a quel lemma (o multi-word)

3) Caratteristiche morfo-sinattiche

Le relazioni che si instaurano tra parole universali sono definite nella base di conoscenza

secondo un ordine gerarchico; le parole inglesi che vengono utilizzate per descrivere un

concetto possono però essere ambigue in quanto racchiudono tutti possibili significati che la

parola inglese ha; per questo è necessario individuare le opportune restrizioni di significato

sfruttando l’organizzazione gerarchica della Base di Conoscenza.

Da ultimo le informazioni morfo-sintattiche legate alla parola sono descritte in termini di

liste di proprietà riguardo alle classi flessionli, parte del discorso, genere, numero, insieme

ad altre proprietà sintattiche (ad esempio indicazione se il verbo principale è transitivo o

meno, se regge verbi ausiliari oppure no, etc).

Data la sua struttura e il tipo di informazioni che contiene, quindi, il Master Dictionary ha la

funzione principale di fornire indicazioni durante la traduzione nel caso in cui una

determinata parola non venga rintracciata nel dizionario di lingua: è possibile rintracciare

nella base di conoscenza il concetto gerarchicamente superiore (cioè più vasto) legato a

quella determinata parola. Proprio per questa sua funzione, il dizionario consente di

rigenerare il dizionario di lingua e di aggiornare la Base di Conoscenza e il Dizionario delle

Parole Universali.

99 Cfr.p. 108

108

Interessante notare come sia attualmente allo studio la possibilità di utilizzare MILE100 come

possibile entrata del Master Dictionary; ecco uno schema di mappatura:

MASTER DICTIONARY MILE Parole universali Concetti multilingue

Relazioni tra parole universali Relazioni multilingue tra concetti Proprietà morfo-sintattiche Componenti delle SynU e MU

Questo studio dimostra ancora una volta la vocazione del linguaggio UNL di presentarsi

come un sistema in grado di trattare in modo completo e flessibile le problematiche di

rappresentazione legate al multilinguismo.

5.4 DIZIONARIO di CO-OCCORRENZE

Le informazioni contenute nel dizionario di co-occorrenze hanno un carattere pragmatico. In

UNL una parola universale è spesso rappresentata da più di una parola; le informazioni

pragmatiche vengono usate per selezionare la parola adeguata in fase di deconversione.

Tali informazioni pragmatiche vengono fornite attraverso le definizioni delle relazioni di co-

occorrenza che si possono instaurare tra due parole all’interno della stessa frase.

Prendiamo ad esempio le espressioni “Luca guida una macchina” e “Luca guida un

aeroplano”: il verbo guidare può instaurare una relazione di co-occorrenza con la parola

“macchina”, ma non con “aeroplano” per cui si dovrebbe utilizzare il verbo “pilotare”.

Per stabilire quindi quale sia la parola corretta, il Dizionario di Co-occorrenze è strettamente

correlato con il Dizionario di Lingua, il Dizionario di Parole Universali e la Base di

Conoscenza.

Per quanto riguarda la fase di generazione, il dizionario delle co-occorrenze fornisce

informazioni riguardanti la redazione di ciascun linguaggio particolare sulla base delle

relazioni di co-occorrenza tra verbi e sostantivi, tra coppie di sostantivi, preposizioni, etc.

Quando il De-Converter applica una regola nella quale viene indicata una co-occorrenza, il

software consulta il dizionario di co-occorrenze e verifica tutte le possibili combinazioni di

parole; viene scelta quella che ha il più alto grado di plausibilità.

100 Cfr. p. 79

109

Ad esempio la parola “forte” ha come corrispondenti di significato “potente” e “robusto”; la

scelta di una o dell’altra parola dipende dalle proprietà dell’oggetto che va a modificare: il

sostantivo “personalità” ha come modificatore più appropriato “forte” piuttosto che

“potente”, così come “corporatura” instaura una relazione di co-occorrenza più plausibile

con “robusto” piuttosto che con “potente”.

Il collegamento che tale dizionario insatura con la Base di Conoscenza è fondamenatle per la

risoluzione del problema delle collocazioni.101

Abbiamo detto, infatti, che le co-occorrenze si basano sulle relazioni che si creano tra due

parole; la scelta della parte variabile dell’espressione dipende dalle proprietà dell’oggetto

che si va a modificare.

Il collegamento con la Base di Conoscenza permette proprio di selezionare i concetti (e poi

le relative specifiche parole grazie al Dizionario di Lingua) sulla base di determinate

caratteristiche semantiche di certe specifiche relazioni.

5.5 IL SERVER LINGUISTICO102

Fino ad ora abbiamo esaminato gli elementi e la metodologia per costruire espressioni in

linguaggio UNL; a questo punto è necessario descrivere l’esatto funzionamento del sistema.

Il cuore di UNL è costituito da server linguistici, specifici per ogni lingua, che sono collegati

attraverso Internet e contengono i software dedicati alla conversione e deconversione di

linguaggi naturali, accanto alle specifiche risorse linguistiche proprie di lingue particolari

(dizionario e grammatiche).

Legati ai server linguistici, esistono delle interfacce che consentono all’utente di potersi

collegare ai server linguistici stessi; questi sono l’Editor (legato alla fase di conversione) e il

Viewer (per la deconversione).

101 Cfr.p. 70 ss. 102 Immagini tratte da http://www.unl.ias.unu.edu/unlsys/introduction_main.html

110

!" ENCONVERTER

L’Enconverter è un parser indipendente dalle specifiche caratteristiche di lingue particolari il

cui compito è quello di trasformare un testo scritto in un particolare linguaggio naturale in

linguaggio UNL. La sua caratteristica principale è quella di avere una grammatica in grado

contenente pacchetti di regole in grado di riconoscere i vari elementi di un testo quali le frasi

e, all’interno di queste i concetti e le relazioni che si stabiliscono tra essi.

Strettamente legato all’Enconverter a alla grammatica di lingua, sono i Dizionari di Lingua

(un unico dizionario per la fase di conversione e deconversione): essi contengono

informazioni in merito alla radice della parola, la parola universale ad essa legata con le

relative restrizioni, le categorie grammaticali, la morfologia (flessioni), le strutture

argomentali, le reggenze verbali.103

La fase della conversione è il nodo cruciale per il funzionamento del sistema in quanto

fornire delle espressioni UNL corrette e non ambigue influenza la buona riuscita della

deconversione; abbiamo però già avuto modo di notare, trattando le tecniche di analisi

103 Un buono sviluppo dei dizionari di lingua è di fondamentale importanza per la buona riuscita dell’enconversione: infatti, le informazioni relative a ciasun lemma dovrebbero portare ad una disambiguazione sintattica in grado di identificare la giusta relazione tra concetti.

111

semantica104, che il problema della risoluzione dell’ambiguità è ancora aperto e dibattuto

nell’ambito della linguistica computazionale.

Gli enconvertitori attualmente attivi non sono ancora in grado di risolvere appieno tali

difficoltà di interpretazione e si sono quindi studiate strategie alternative per la fase di

deconversione: da un lato, eseguire un post-editing manuale dell’output e, dall’altro

ricorrere ad un Editor105 specializzato La prima soluzione prevede una conoscenza piuttosto

approfondita del linguaggio UNL ed è quindi necessaria la formazione di tecnici

specializzati; nel secondo caso, invece, l’Editor scambia delle informazioni con l’utente

domandando, ad esempio chi è l’agente, se esiste un attributo per il verbo, il soggetto o

l’oggetto, etc. con questa seconda soluzione, l’Editor prende la forma dei numerosi software

che svolgono la funzione di help in linea senza che sia necessaria una preparazione tecnica

approfondita.

Nonostante queste difficoltà, resta il pregio notevole dell’Enconverter di restare indipendente

dalle specifiche delle lingue, mentre abbiamo visto che altri sistemi di traduzione automatica

uytilizzano le regole come parte integrante del software.106

!" DECONVERTER

Il DeConverter è stato pensato come un generatore di linguaggio naturale, indipendente da

specifiche lingue; è in grado di fornire generazione morfologica e sintattica, insieme ad una

selezione di parole fatta sulla base delle co-occorrenze.

In questo modo il DeConverter può deconvertire le espressioni UNL, sviluppate

dall’Enconverter, in un linguaggio naturale facendo uso del Dizionario di lingua, delle

regole della grammatica della lingua e del Dizionario delle Co-occorrenze.

Vediamo ora schematicamente come si sviluppa UNL in rete:

104 Cfr. p. 27 ss. 105 Con Editor si vuole qui indicare u ‘interfaccia di dialogo con l’utente. 106 Cfr. i sistemi Systran e Ariane p. 53 e p. 58

112

1. Il processo di conversione e deconversione vengono forniti dal server linguistico; in

questo caso nel processo di traduzione sono implicati i server dell’arabo e dello

spagnolo.

2. Quando viene sviluppata una pagina in un determinato linguaggio naturale (in questo

caso l’arabo), entra in azione l’Editor che ha il compito di riconoscere il tipo di lingua

che è stato utilizzato per poi mandare il testo al centro linguistico specifico per la

conversione. Una volta che il testo è scritto in UNL, il server rispedisce il testo

all’Editor; a questo punto è possibile inserire la versione di UNL in rete.

113

3. Il Viewer riconosce il contenuto di una pagina scritta in UNL ed invia la richiesta di

deconversione al centro linguistico scelto per la traduzione (in questo caso quello spagnolo).

4 Una volta deconvertito, il testo viene rispedito al Viewer.

114

5. Lo stesso procedimento mostrato per l’arabo e lo spagnolo può essere effettuato per tutte

le altre lingue.

Il sistema UNL può essere utilizzato in molti campi di applicazione; non è difficile

immaginare il suo impiego nel settore dell’ e-commerce, della medicina, del lavoro, delle

librerie e dell’intrattenimento in generale.

Inoltre UNL ha possibilità di impiego in altre tecnologie, quali ad esempio il riconoscimento

automatico della voce, favorendo una comunicazione virtuale (come nelle numerose

università virtuali).

Possiamo comunque individuare delle applicazioni più concrete del sistema, come il

Multilingual Information Access, Information Retrieval, motori di ricerca in Internet, sistemi

esperti e la traduzione automatica, quadro entro il quale UNL è stato inserito in questa

monografia.

Vediamo ora come sono correlati gli elementi presenti nel sistema UNL che abbiamo

trattato:

115

I rapporti esistenti tra i diversi componenti consente al sistema di essere:

1) ASTRATTO: è indipendente dalle specifiche lingue; i software di conversione e

deconversione possono essere utilizzati per qualsiasi lingua;

2) COMPATTO: è formato da pochi elementi; abbiamo visto come in altri sistemi (vedi

Systran), per ciascun passaggio dell’analisi sia necessario un modulo specifico;

3) NON AMBIGUO: si basa sull’universalità della rappresentazione degli oggetti;

4) ESAUSTIVO: comprende tutte le relazioni logiche che si possono stabilire tra i concetti

che rappresentano la conoscenza del mondo; abbiamo infatti visto che la lista degli

attributi è sempre aggiornabile così da poter comprendere ogni aspetto delle lingue che

vengono trattate con questo sistema.

&" SPECIFICHE : !" Relazioni !" Attributi

&" PAROLE UNIVERSALI &" BASE di CONOSCENZA

SERVER LINGUISTICO &" Grammatica &" “Enconverter” &" “Deconverter” &" Dizionario di Lingua

MASTER DICTIONARY DIZIONARIO di CO-OCCORRENZE

116

CONCLUSIONI

In questo lavoro ho voluto mettere in evidenza quale sia il ruolo svolto dalla traduzione

automatica in un contesto multilingue, proprio della nostra società, e le numerose

problematiche di carattere tecnico-scientifico ad essa legate.

La traduzione automatica trova la sua giustificazione nel tentativo di fornire uno strumento

in grado di agevolare una comunicazione multilingue: il livello di professionalità dei

traduttori umani non viene certo messo in discussione, né tantomeno è oggi pensabile

ottenere delle traduzioni automatiche che raggiungano gli stessi risultati qualitativi.

È altrettanto vero, però, che le richieste di traduzioni aumentano oggi in maniera

esponenziale e difficilmente un traduttore professionista può sopperire a tutte le necessità;

inoltre, ci sono lingue che restano escluse dai normali circuiti di comunicazione

internazionale, me hanno lo stesso diritto – in quanto veicolo di cultura ed espressione di

identità di un popolo – di trovare un posto sul mercato.

Per meglio inquadrare il problema, ho prima evidenziato i procedimenti di analisi del

linguaggio naturale proposti dal Natural Language Processing, un campo di ricerca che

coinvolge tecniche computazionali e teoria linguistica. La creazione di un modello

computazionale per l’analisi del linguaggio naturale, deve essere in grado di trattare i diversi

livelli linguistici che riguardano una lingua; quindi, sono stati creati analizzatori morfologici,

sintattici, semantici e del discorso.

L’analisi di questi aspetti è il cuore dei sistemi di traduzione automatica; indipendentemente

dalla strategia adottata per compiere la traduzione (diretta, transfer, interlingua), si è visto

quanto siano diverse le soluzioni adottate per ciascuna di queste fasi di analisi.

In modo particolare è l’interpretazione semantica che costituisce un fattore discriminante di

rilievo per ottenere buoni risultati in traduzione; il metodo che sembra essere più adeguato

per questo scopo è l’utilizzazione delle cosiddette “reti semantiche”; le reti semantiche sono

schemi di rappresentazione della conoscenza attraverso l’identificazione di relazioni logiche

tra concetti. In questo modo si tende a raggiungere una sorta di “universalità” interpretativa

del linguaggio applicabile a tutte le lingue, slegandosi così dalle specifiche proprietà di

lingue particolari.

La volontà di individuare un metodo per la rappresentazione della conoscenza è alla base dei

sistemi di traduzione automatica ad approccio interlingua, che si propongono proprio come

meta-linguaggi di passaggio tra due qualsiasi lingue; la differenza sostanziale tra

l’interlingua e il transfer risiede proprio nei presupposti teorici di base, per cui il transfer si

117

propone di creare moduli di analisi e generazione di linguaggio naturale considerando le

caratteristiche proprie di una sola coppia specifica di lingue.

Nella mia ricerca ho avuto modo di constatare che la tendenza a creare standard di

rappresentazione multilingue, si ritrova non soltanto nei diversi approcci adottati per la

traduzione automatica, ma anche nella costruzione delle risorse linguistiche che entrano a far

parte di tali sistemi; prova ne sono i diversi progetti internazionali per la nascita di dizionari

monolingue che contengono lo stesso genere di informazioni legate ai lemmi e strutturati

secondo i medesimi criteri, ma soprattutto il progetto per l’organizzazione di una entrata

multilingue del dizionario.

Dato che l’argomento principale del lavoro è quello di mostrare gli strumenti di analisi ed

del linguaggio naturale, presentando in modo particolare la traduzione automatica come

strumento in grado di rispondere alle esigenze del multilinguismo, ho voluto esporre un

progetto, tuttora in evoluzione, che si propone come mezzo per la presentazione multilingue

di documenti: UNL (Universal Networking Language).

UNL è un linguaggio elettronico per computer, da usare attraverso Internet, la cui filosofia si

fonda sul presupposto di poter convertire e deconvertire linguaggi naturali passando per un

linguaggio intermedio (interlingua); le risorse linguistiche adottate da tale sistema trattano

primariamente concetti e relazioni che si vengono a creare tra essi, collegandosi a dizionari e

grammatiche specifiche di lingue particolari per poter creare espressioni in UNL e da queste

tradurle in altro linguaggio naturale.

Il fatto di poter essere utilizzato via Internet, il mezzo di comunicazione più diffuso e in

continua crescita, e la sua caratteristica di proporsi come interlingua, fanno di UNL uno

strumento tra i più adeguati per fornire uguaglianza di opportunità economiche, sociali, di

informazione, di progresso, di scambio e conoscenza culturale abbattendo l’ultima barriera

di discriminazione tra popoli: la differenza linguistica.

118

SUMMARY

In this work I tried to focus my attention on the main problems that machine translation

brings as the new way of considering the treatment of natural languages in a multilingual

context. In the first part of my dissertation I tried to show the most remarkable topics

concerning linguistic and theoretical aspects of translation in general, especially the use of

computational methods for the analysis of natural language.

I then outlined the main facts about machine translation: a brief history, the strategies

adopted to develop translation systems (some concrete examples of prototypes and

commercial systems are given), resolution of all the problems strictly connected to the

peculiarities of different languages involved in the translation process; in particular there is a

special section dedicated to multilingual lexicons and the challange for the creation of

standards in building dictionaries whose information about the entries are intended to be

language independent.

In the last part I present the UNL project, the core of the thesis. It’s a system currently being

developed and, above all, created and structured to answer the needs of our multilingual

society.

Translation

When we think about translation, we often consider it as a simple tranfer of words from a

language to another; but we should not forget that a language is the vision of the world given

by a particular population, by the community that uses that specific language: this is why

translation is a priviledged way to communicate culture and should be considered from this

point of view.

So, how can we recognize a good translation?

We can distinguish four criteria:

1. Correspondence of internal structure;

2. Stability in the method of translation;

3. Accuracy in the representation of the text;

4. Equivalence in meaning.

119

Speaking about machine translation can get one think about a totally new process; this is

partially true, but the problem of translation itself can be traced back in the origin of

linguistics. Even if not in a specific way, Saussure pointed out that a language is a set of

social acts, of conventions that allow an efficient communication; in this sense we can think

of translation as the way a people represent its own experiences of the world. Referring to

the translation process in a more explicit way, Roman Jackobson justifies it not only from a

theoretical point of view, but also recognizes it as a fundamental moment of the semiotic

process; in other words, there is a process of translation every time that a person has to

interpret a sentence even if it is pronounced in his native language.

But it is probably Noam Chomsky the one who gave the greatest support to the theory of

translation: in his “Syntactic Structure” he proposed a representation of the sentence that

considers the distinction between superficial and deep structure so that it is possible to

disassemble the sentence into different linked syntagmas; we have to notice that this method

of representation by means of internal and dependency relations between syntagmas is used

in many machine translation systems in the phase of syntactic analysis.

As regards semantics, there is a linguistic theory, Generative Semantics, that treats the

problem of interpretation of sentences; starting from the observations made by Chomsky,

many linguists assumed that representation and identification of meaning could be derived

by the previous syntactic analysis. Even if this theory does not consider one of the cricial

problems of translation, that is contestualization, it is useful to notice that in some machine

translation systems the output of the syntactic analyzer is used as the input for the semantic

module.

Natural Language Processing

Since computers made their appearance on the market, language has been one the most

interesting targets to work on; this is why development and improvement of different Natural

Language Processing applications is necessary to answer the varigated requests of a society

in need of fast, efficient and easier communication, facilities for the management of work,

tools to make information more accessible.

Here are the different fields of research:

1. Human-man interaction for information retrieval using machines able to dialogue with

the user;

120

2. Text Understanding to deal with the analysis and interpretation of texts (for example for

the exclusion of particular massages in e-mails);

3. Report Generation for the automatic production of natural language;

4. Machine translation

Irrespective of the specific application, Natural Language Processing requires a model of

analysis and generation of language; the phase of analysis is divided into different stages that

correspond to the levels of linguistic information characterising lexical items and, in a

broader sense, the context and the general structure of the text.

1. Morphological analysis

The first step to take during the analysis of a natural language is the identification of words

by means of their morphosyntactic features: root, prefix, suffix and ending. The second step

is that to trace these words in a dictionary; this may follow different strategies:

!" Sequential scanning: words can be stored in the dictionary both as unique entries and as

lists of segments (morphemes); in the second case, dictionary check is performed by

verifying the combination of segments according to composition rules; the goal is that to

reassemble the word given in input .

!" Dictionary subdivision: with this technique the dictionary is divided into lists that

correspond to the components of the word; each segment has specific information that

permits scanning of segments in other lists in order to compose the word. Some lists are

excluded from the scanning process if specific composition rules do not permit the

attachment of segments.

!" Structured research: in this case a morphological analyzer is necessary; the analyzer

disassembles the word in order to create an input string for the subsequent modules of

syntactic and semantic analysis.

One of the crucial problems related to morphological analysis is that of compounds; the

most interesting aspect is that compounds do not follow specific rules of formation and when

considering different languages we find that a compound in a language corresponds to a

simple word in another one. Machine translation deals with this item by simply storing

compounds as if they were single lexical items and uses the same rules of translation during

the translation process.

121

2. Syntactic analysis

The computational technique to make syntactic analysis is called “parsing” while “parser” is

the processor; the parser analyses an input string of words and represents the internal

structure of the sentence by showing dependency relations between words.

It is possible to classify parsers according to their method of analysis or to the kind of output

they provide. Following the method they use for the analysis, we distinguish “top-down”

parsers (they start from the initial sentence and, by dividing it in syntagmas, reconstruct the

constituent words) and “bottom-up” parser (they roughly operate in the opposite way). On

the contrary, if we consider the nature of the output, we can speak about “deterministic” and

“non deterministic” parsers: the former give only one representation of the structure of the

sentence, avoiding to consider the potential cases of ambiguity (lexical, structural or

functional) whereas the latter provide all the possible solutions.

Since a parser is an analyzer of grammatical rules, there are grammars linked to it whose

function is to supply grammatical rules for the language involved in the translation process

so as to offer the right construction of the sentence.

3. Semantic analysis

The problem of ambiguity observed for syntactic analysis is rather more contingent and

difficult to deal with from the semantic point of view; the main issue is that a single word

can have more than a meaning and during the translation process the system must choose the

correct one in order to keep the sense of the original text.

The choice of the right meaning is due to the context in which that particular word occurs;

scholars studied many strategies to cope with this problem and proposed a number of

solutions such as “Semantic Grammars” or “Case Grammars” whose characteristic is the

combination of semantic and syntactic information that should contribute to the resolution of

ambiguity. But with the increasing need of automated processes of natural language analysis

these instruments revealed their intrinsic loss of flexibility to deal with many cases of

ambiguity. This is why the strategy that seems to be suitable to this purpose is the creation of

the so called “Semantic Networks” that are schemes of representation of knowledge whose

purpose is the attempt to reproduce the mechanisms of storage and wording of information

performed by humans.

A semantic network involves nodes and arcs between nodes; nodes represent objects or

concepts and arcs represent relations between nodes; links are directed and labelled in order

to show the kind of relation that exists between concepts. In this sense, semantic networks

122

can avoid language dependent characteristics and take the shape of universal semantic

disambiguation tools; thanks to its particular structure and elements (concepts and relations

between them) a semantic nerwork is a strategy used in machine translation systems that are

based on the employment of an interlanguage: the same scheme of semantic representation

can be valid for a great variety of languages.

4. Discourse analysis

The main object of translation is the text; this is why a complete analysis of the whole text

and not only that of separated sentences is necessary; in fact, the meaning of a sentence

often depends on what precedes and follows. In the attempt to reach this goal the first step is

the identification of the “reference”, that is what the speaker or author of the text is speaking

about; for this purpose, computational techniques suggest a structural approach whose main

characteristic is the identification of the “focus”, that is the set of information that allow

efficient communication.

There are two types of focus: global focus, which refers to discourse structure, and local

focus that is connected to the linguistic phenomena present in the text; to identify global

focus, we use the top-down approach, suitable for task-oriented texts in which all the

procedures to achieve a particular goal are specified whereas a bottom-up approach is useful

to trace the local focus since it ivolves the storage of the nominal syntagmas that are present

in the text. The importance of the focus is evident in the moment of its shifting, so that it is

possible to determine all the arguments related to one another.

5. Generation of natural language

By “generation” we want to indicate the reverse process performed in the phase of analysis;

this means that a generator produces output strings of natural language starting from the

representations created by morphological, syntactic and semantic analyzers.

A generator inserted in a machine translation system must operate lexical and structural

choices to form sentences in the target language according to the amount of information

received by the modules of analysis; thus, the process is performed thanks to the

employment of specific grammars that are used to put together the words of the target

language according to the rules of that language.

123

Machine Translation

Machine Translation means the translation from one natural language into another by means

of computerized systems and has been a particularly difficult problem in the area of

Artificial Intelligence for nearly fourty years. Early approaches aimed at reaching the

standards of quality of professional human translators, but in more recent years research

turned to the development of systems that can provide translations that suit the basic needs

of the user; this means that a post-editing phase (a revision performed by human translators)

is desirable.

The first suggestions concerning machine translation were made by the Russian Smirnov-

Troyansky and the French Astsouni during the early 1930’s; however, the first serious

discussions took place in 1946 when Warren Weaver put forward the first tentative ideas for

using newly invented computers for translating natural languages. Since then, many attempts

have been made, especially in the United States and Europe, to automate the various steps of

the translation process, as the increasing development of machine translation systems during

the 1950’s and the 1960’s demonstrates.

A serious setback occured in 1964 with the ALPAC report that discouraged researches in

this field because of scientific and economic reasons and in fact the report caused a drastic

reduction of funds destined to research in machine translation. But in the early 1970’s a new

wave of optimism grew thanks to a new policy in Canada (a bilingual country) and in the

European Community: the impelling exigency of translation paved the way to new

researches and this attitude continues even today, especially in a context of multilingual

society.

1. Machine Translation approaches

We can distinguish between three major approaches that interest the strategies of

development of machine translation systems:

!" Direct: it is always between two pairs of languages; it is based on well-organized

glossaries and morphological analysis.

!" Transfer: it is still used today, in competition with the interlingua approach. First of all,

the source language is parsed into a representation that shows all the relations between

the components of the sentence; then the transfer module responsible for the creation of

structural correspondences with the target language is transferred and finally target

language sentences are generated.

124

Both direct and transfer approaches have been criticised since they require separate analysis

and generation softwares for each pair of languages with a consequent loss of time and

money.

!" Interlingua: it is the most advanced system; the rationale behind it is the creation of an

artificial language (the interlingua) able to include all the differences and peculiarities of

all languages. The translation process is roughly devided into two steps: an analyzer

transforms the source language text into the interlingua and a generator transforms the

interlingua into the target language text; in this way there is a drastic reduction of

analyzers and generators: only one analyzer and one generator are required, no matter

how many languages there are. This simplification is due to the presence of an

“ontology” which is the most important element of the interlingua approach. It is a

complex system of related concepts that are stored following hierarchical order and

relations between them. This characteristic allows the system to be suitable for

representing languages avoiding particular terminological differences and focusing on

concepts related to specific meanings.

Multilingual language and dictionaries 1. Dictionaries

The role played by dictionaries in machine translation systems is crucial. First of all, they

represent the largest component of the system in terms of the amount of information they

hold; secondly, the size and quality of dictionaries limit the scope and coverage of systems

and influence the quality of translation. Equally important is the information at different

linguistic levels (morphological, syntactic and semantic) that are attached to the headwords

stored in the dictionary itself.

Since machine translation deals with multilinguism, the need for some standards of

representation of words is evident. For this reason, some groups of scholars began to study

these standards of representation (ISLE – International Standards for Language Engineering

- project) and created monolingual lexicons for the twelve official languages of the European

Community ( PAROLE-SIMPLE lexicons); these lexicons are structured in the same way

and, above all, contain the same kind of information (phonological, morphological, syntactic

and semantic) related to the dictionary entries. Starting from this issue, scholars are planning

125

the realization of the so called “MILE” (Multilingual Isle Lexical Entry) that is intended as a

meta-entry acting as a common representational layer for multilingual lexical resources able

to create correspondences between the source language and the target language.

2. Multilingual problems in translation

One of the greatest problems connected with multilinguism in machine translation is that of

multi-word units; by multi-word units we indicate words whose principal characteristic is

their appearence in chunks of two or more words.

We can distinguish two different types of multi-word expressions:

!" Idioms: expressions whose meaning cannot be completely understood by the meanings

of the component parts; this is why it is not possible to translate them by using the

normal rules. In general the solution to this problem is to perform a complex and

accurate syntactic analysis so that it is possible to recognizetheir structure (for example

for inflectional classes); secondly, a semantic analysis will match the idiomatic

expression of the source language in an equivalent expression (idiomatic or non-

idiomatic) of the target language.

!" Collocations: expressions formed by two or more words that habitually co-occur whose

meaning can be detached from the analysis of the meanings of the component parts.

One of the best method to deal with collocations is to use the theory proposed by

Mel’chuks, i.e Lexical Functions. A lexical function can be defined as the

correspondence between two lexical items, with just one possible connection; in this way

the translation will take into consideration not only the lexical item but also the

information that regards the lexical function.

Since multi-word expressions represent more or less the 30% of the linguistic resources of a

language, some scholars thought of the creation specific lexicons of multi-words

expressions, incorporating both morpho-syntactic and semantic information (XMELLT –

Cross-lingual Multi-word Expressions Lexicons for Language Technology project).

126

Universal Networking Language

UNL, the acronym for Universal Networking Language, is an electronic language that

enables communication between different native langauges; it is a system of “enconverter”

(an encoder) and “deconverter” (a decoder) software that will reside on the Internet and will

be compatible with standard network servers. Everyone will be able to “enconvert”

(encoding process) text from a range of native languages into UNL; in the same way will be

able to “deconvert” (decoding process) the text from UNL into another native language; the

processes of “enconversion” and “deconversion” take place in different Linguistic Servers

through the Internet.

The UNL represents information in the form of hypergraphs (nodes linked by directed and

labelled arrows); these graphs are represented as sets of binary relations, each one between

two of the concepts present in a sentence. Concept are expressed by using character-strings

(an English-language word) called “Universal Word”; each relation is composed of three or

less characters that specify the kind of connection which exists between the two concepts.

Universal Words are followed by a list of constraints and attributes that are used to describe

what is said from the speaker's point of view: in UNL there are 61 attributes divided into

seven classes that attempt to account for the different attitudes of a speaker also from a

cultural point of view.

UNL also has a “Knowledge Base”, where all the possible relations between Universal

Words are stored; in this sense it can be considered as a set of knowledge-based entries.

Thanks to the organization of the Knowledge Base in a hierarchical order, it is possible to

translate even those lexical items that are not present in a specific language by using the item

that includes it, that has a more general meaning.

UNL seems to be the best answer to an increasing request on the part of our society: it will

be able to provide access to information to everyone thus avoiding linguistic barriers.

127

APPENDICE 1

Al sito Internet http://www.wordnet.com è possibile utilizzare WordNet per rintracciare

sinonimi, iperonimi ed iponimi di una data parola.

Quello che segue è il risultato della ricerca effettuata per la parola inglese bank.

&" WordNet 1.6 overview for "bank" The noun "bank" has 10 senses in WordNet. 1. depository financial institution, bank, banking concern, banking company -- (a financial institution that accepts deposits and channels the money into lending activities; "he cashed a check at the bank"; "that bank holds the mortgage on my home") 2. bank -- (sloping land (especially the slope beside a body of water); "they pulled the canoe up on the bank"; "he sat on the bank of the river and watched the currents") 3. bank -- (a supply or stock held in reserve especially for future use (especially in emergencies)) 4. bank, bank building -- (a building in which commercial banking is transacted; "the bank is on the corner of Nassau and Witherspoon") 5. bank -- (an arrangement of similar objects in a row or in tiers; "he operated a bank of switches") 6. savings bank, coin bank, money box, bank -- (a container (usually with a slot in the top) for keeping money at home; "the coin bank was empty") 7. bank -- (a long ridge or pile; "a huge bank of earth") 8. bank -- (the funds held by a gambling house or the dealer in some gambling games; "he tried to break the bank at Monte Carlo") 9. bank, cant, camber -- (a slope in the turn of a road or track; the outside is higher than the inside in order to reduce the effects of centrifugal force) 10. bank -- (a flight maneuver; aircraft tips laterally about its longitudinal axis (especially in turning)) Questa schermata rappresenta i significati individuati da WordNet per la parola “bank”.

&" WordNet 1.6 results for "Hyperonyms (this is a kind of...)" search of noun "bank" 10 senses of bank Sense 1 depository financial institution, bank, banking concern, banking company -- (a financial

128

institution that accepts deposits and channels the money into lending activities; "he cashed a check at the bank"; "that bank holds the mortgage on my home") => financial institution, financial organization -- (an institution (public or private) that collects funds (from the public or other institutions) and invests them in financial assets) => institution, establishment -- (an organization founded and united for a specific purpose) => organization, organisation -- (a group of people who work together) => social group -- (people sharing some social relation) => group, grouping -- (any number of entities (members) considered as a unit) Sense 2 bank -- (sloping land (especially the slope beside a body of water); "they pulled the canoe up on the bank"; "he sat on the bank of the river and watched the currents") => slope, incline, side -- (an elevated geological formation; "he climbed the steep slope"; "the house was built on the side of the mountain") => geological formation, geology, formation -- (the geological features of the earth) => natural object -- (an object occurring naturally; not made by man) => object, physical object -- (a physical (tangible and visible) entity; "it was full of rackets, balls and other objects") => entity, something -- (anything having existence (living or nonliving)) Sense 3 bank -- (a supply or stock held in reserve especially for future use (especially in emergencies)) => reserve, backlog, stockpile -- (something kept back or saved for future use or a special purpose) => accumulation -- ((finance) profits that are not paid out as dividends but are added to the capital base of the corporation) => net income, net, net profit, lucre, profit, profits, earnings -- (the excess of revenues over outlays in a given period of time) => income -- (the financial gain (earned or unearned) accruing over a given period of time) => financial gain -- (the amount of monetary gain) => gain -- (the amount by which the revenue of a business exceeds its cost of operating) => sum, sum of money, amount, amount of money -- (a quantity of money; "he borrowed a large sum"; "the amount he had in cash was insufficient") => asset -- (anything of material value or usefulness) => possession -- (anything owned or possessed) Sense 4 bank, bank building -- (a building in which commercial banking is transacted; "the bank is on the corner of Nassau and Witherspoon") => depository, deposit, repository -- (a place where things can be deposited for safekeeping) => facility, installation -- (something created to provide a particular service; "the assembly plant is an enormous facility") => artifact, artefact -- (a man-made object) => object, physical object -- (a physical (tangible and visible) entity; "it was full of rackets, balls and other objects") => entity, something -- (anything having existence (living or nonliving)) Sense 5 bank -- (an arrangement of similar objects in a row or in tiers; "he operated a bank of

129

switches") => array -- (an orderly arrangement: "an array of troops in battle order") => arrangement -- (an orderly grouping (of things or persons)) => group, grouping -- (any number of entities (members) considered as a unit) Sense 6 savings bank, coin bank, money box, bank -- (a container (usually with a slot in the top) for keeping money at home; "the coin bank was empty") => container -- (something that holds things, especially for transport or storage) => instrumentality, instrumentation -- (an artifact (or system of artifacts) that is instrumental in accomplishing some end) => artifact, artefact -- (a man-made object) => object, physical object -- (a physical (tangible and visible) entity; "it was full of rackets, balls and other objects") => entity, something -- (anything having existence (living or nonliving)) Sense 7 bank -- (a long ridge or pile; "a huge bank of earth") => ridge -- (a long narrow natural elevation or striation) => natural elevation, elevation -- (a raised or elevated geological formation) => geological formation, geology, formation -- (the geological features of the earth) => natural object -- (an object occurring naturally; not made by man) => object, physical object -- (a physical (tangible and visible) entity; "it was full of rackets, balls and other objects") => entity, something -- (anything having existence (living or nonliving)) Sense 8 bank -- (the funds held by a gambling house or the dealer in some gambling games; "he tried to break the bank at Monte Carlo") => funds, finances, monetary resource, cash in hand, pecuniary resource -- (assets in the form of money) => asset -- (anything of material value or usefulness) => possession -- (anything owned or possessed) Sense 9 bank, cant, camber -- (a slope in the turn of a road or track; the outside is higher than the inside in order to reduce the effects of centrifugal force) => slope, incline, side -- (an elevated geological formation; "he climbed the steep slope"; "the house was built on the side of the mountain") => geological formation, geology, formation -- (the geological features of the earth) => natural object -- (an object occurring naturally; not made by man) => object, physical object -- (a physical (tangible and visible) entity; "it was full of rackets, balls and other objects") => entity, something -- (anything having existence (living or nonliving)) Sense 10 bank -- (a flight maneuver; aircraft tips laterally about its longitudinal axis (especially in turning)) => flight maneuver, airplane maneuver -- (an evasive maneuver by an aircraft)

130

=> maneuver, manoeuvre, evasive action -- (an action aimed at evading an enemy) => evasion -- (the act of physically escaping from something (an opponent or a pursuer or an unpleasant situation) by some adroit maneuver) => escape, flight -- (the act of escaping physically; "he made his escape from the mental hospital"; "the canary escaped from its cage"; "his flight was an indication of his guilt") => running away -- (leaving (without permission) the place you are expected to be) => deed, feat, effort, exploit -- (a notable achievement: "the book was her finest effort") => accomplishment, achievement -- (the act of accomplishing something) => action -- (something done (usually as opposed to something said); "there were stories of murders and other unnatural actions") => act, human action, human activity -- (something that people do or cause to happen)

&" WordNet 1.6 results for "Hyponyms (...is a kind of this), brief" search of noun "bank" Sense 1 depository financial institution, bank, banking concern, banking company -- (a financial institution that accepts deposits and channels the money into lending activities; "he cashed a check at the bank"; "that bank holds the mortgage on my home") => credit union -- (a cooperative depository financial institution whose members can obtain loans from their combined savings) => Federal Reserve Bank, reserve bank -- (one of 12 regional banks that monitor and act as depositories for banks in their region) => agent bank -- (a bank that acts as an agent for a foreign bank) => commercial bank, full service bank -- (a financial institution that accepts demand deposits and makes loans and provides other services for the public) => state bank -- (a bank chartered by a state rather than by the federal government) => lead bank, agent bank -- (a bank named by a multi-bank lending syndicate to protect their interests) => member bank -- (a bank that is a member of the Federal Reserve System) => merchant bank, acquirer -- (a credit card processing bank; merchants receive credit for credit card receipts less a processing fee) => acquirer -- (a bank gaining financial control over another financial institution through a payment in cash or an exchange of stock) => thrift institution -- (a depository financial institution intended to encourage personal savings and home buying) => Home Loan Bank -- (one of 11 regional banks that monitor and make short-term credit advances to thrift institutions in their region) Sense 2 bank -- (sloping land (especially the slope beside a body of water); "they pulled the canoe up on the bank"; "he sat on the bank of the river and watched the currents") => riverbank, riverside -- (the bank of a river) => waterside -- (land bordering a body of water) Sense 3

131

bank -- (a supply or stock held in reserve especially for future use (especially in emergencies)) => blood bank -- (a place for storing whole blood or blood plasma; "the Red Cross created a blood bank for emergencies") => food bank -- (a place where food is contributed and made available to those in need; "they set up a food bank for the flood victims") => soil bank -- (land retired from crop cultivation and planted with soil-building crops; government subsidies are paid to farmers for their retired land) Sense 4 savings bank, coin bank, money box, bank -- (a container (usually with a slot in the top) for keeping money at home; "the coin bank was empty") => piggy bank, penny bank -- (a child's coin bank (often shaped like a pig)) Sense 5 bank -- (a long ridge or pile; "a huge bank of earth") => bluff -- (a high steep bank (usually formed by river erosion)) => sandbank -- (a submerged bank of sand near a shore or in a river; can be exposed at low tide) Sense 6 bank -- (a flight maneuver; aircraft tips laterally about its longitudinal axis (especially in turning)) => vertical bank -- (a bank so steep that the plane's lateral axis approaches the vertical)

132

APPENDICE 2

Qui di seguito un esempio di input e output di un testo convertito e deconvertito di UNL. !" INPUT <HTML> <HEAD> <TITLE> UNL </TITLE> </HEAD> <BODY> [UD:dn=Mar Aral version 2,on=UNL Spain,[email protected]] [P] [S:1] {org:es} El mar Aral, situado entre las repúblicas de Uzbekistán y Kazajstán, era el cuarto mar interior más grande del mundo. {/org} {unl} nam(sea:01.@def, "Aral") obj(locate(icl>do).@present, sea:01.@def) man(locate(icl>do).@present, between(icl>manner)) obj(between(icl>manner), republic:01.@def) and(republic:01.@def, republic:02.@def) nam(republic:01.@def, "Uzbekistan") nam(republic:02.@def, "Kazajstan") aoj(sea:02.@def.@entry.@past, sea:01.@def) mod(sea:02.@def.@entry.@past, inland(mod<thing)) mod(sea:02.@def.@entry.@past, fourth(mod<thing)) mod(sea:02.@def.@entry.@past, large) man(large, most) frm(large, world.@def) {/unl} {ab}{/ab}{cn}{/cn}{de}{/de}{el}{/el} {es} El mar Aral, situado entre las repúblicas de Uzbekistán y Kazajstán, era el cuarto mar interior más grande del mundo. {/es} {fr}{/fr}{hd}{/hd}{id}{/id}{it}{/it}{jo}{/jo}{jp}{/jp}{lv}{/lv}{mg}{/mg}{pg}{/pg}{ru}{/ru}{sh}{/sh}{th}{/th} [/S] [S:2] {org:es} Su profundidad media era de 16 metros y su extensión era de 67000 kilómetros. {/org} {unl} aoj(meter(icl>unit).@pl.@past.@entry, deepness) qua(meter(icl>unit).@pl.@past.@entry, 16) mod(deepness, average(mod<thing)) pos(deepness, it) and(meter(icl>unit).@pl.@past.@entry, kilometer.@pl.@past) aoj(kilometer.@pl.@past, width) qua(kilometer.@pl.@past, 67000) pos(width, it) {/unl}

133

{ab}{/ab}{cn}{/cn}{de}{/de}{el}{/el} {es} Su profundidad media era de 16 metros y su extensión era de 67000 kilómetros. {/es} {fr}{/fr}{hd}{/hd}{id}{/id}{it}{/it}{jo}{/jo}{jp}{/jp}{lv}{/lv}{mg}{/mg}{pg}{/pg}{ru}{/ru}{sh}{/sh}{th}{/th} [/S] [S:3] {org:es} Los ríos Amu Dariá y Sir Dariá alimentaban y renovaban continuamente sus aguas. {/org} {unl} nam:02(river:01.@def.@entry, "Amu Dar'ya ") nam:02(river:02.@def, "Syr Dar'ya") and:02(river:01.@def.@entry, river:02.@def) and:01(feed(icl>do).@past.@entry, renew(icl>do).@past) man(:01.@entry, continuously) pos(water(icl>thing).@pl, it) agt(:01.@entry, :02) obj(:01.@entry, water(icl>thing).@pl) {/unl} {ab}{/ab}{cn}{/cn}{de}{/de}{el}{/el} {es} Los ríos Amu Dariá y Sir Dariá alimentaban y renovaban continuamente sus aguas. {/es} {fr}{/fr}{hd}{/hd}{id}{/id}{it}{/it}{jo}{/jo}{jp}{/jp}{lv}{/lv}{mg}{/mg}{pg}{/pg}{ru}{/ru}{sh}{/sh}{th}{/th} [/S] [S:4] {org:es} Su gran riqueza biológica hacía de él un importante caladero. {/org} {unl} mod(richness, great) mod(richness, biological(mod<thing)) mod(ground(icl>place).@indef, important) mod(ground(icl>place).@indef,fishing(mod<thing)) agt(transform(icl>do).@entry.@past, richness) gol(transform(icl>do).@entry.@past,ground(icl>place).@indef) obj(transform(icl>do).@entry.@past, it) pos(richness, it) {/unl} {ab}{/ab}{cn}{/cn}{de}{/de}{el}{/el} {es} Su gran riqueza biológica hacía de él un importante caladero. {/es} {fr}{/fr}{hd}{/hd}{id}{/id}{it}{/it}{jo}{/jo}{jp}{/jp}{lv}{/lv}{mg}{/mg}{pg}{/pg}{ru}{/ru}{sh}{/sh}{th}{/th} [/S] [/P] [P] [S:5] {org:es} En el mar Aral vivían 24 especies de peces autóctonos. {/org} {unl} nam(sea.@def, "Aral") plc(live(icl>do).@past.@entry, sea.@def) agt(live(icl>do).@past.@entry, species.@pl) qua(species.@pl, 24)

134

mod(species.@pl, fish(icl>thing).@pl) mod(fish(icl>thing).@pl, native(mod<thing)) {/unl} {ab}{/ab}{cn}{/cn}{de}{/de}{el}{/el} {es} En el mar Aral vivían 24 especies de peces autóctonos. {/es} {fr}{/fr}{hd}{/hd}{id}{/id}{it}{/it}{jo}{/jo}{jp}{/jp}{lv}{/lv}{mg}{/mg}{pg}{/pg}{ru}{/ru}{sh}{/sh}{th}{/th} [/S] [S:6] {org:es} A mediados de siglo este mar daba trabajo a 60000 personas, que capturaban 49000 toneladas de pescado al año. {/org} {unl} mod(middle(icl>thing), century) mod(century,this:01) tim(provide(icl>do).@past.@entry, middle(icl>thing)) agt(provide(icl>do).@past.@entry, sea) mod(sea, this:02) obj(provide(icl>do).@past.@entry, job(icl>thing).@generic) qua(person.@pl, 60000) ben(provide(icl>do).@past.@entry, person.@pl) agt(capture(icl>do).@past, person.@pl) qua(ton.@pl, 49000) mod(ton.@pl, fish(icl>thing)) obj(capture(icl>do).@past, ton.@pl) per(ton.@pl, year) {/unl} {ab}{/ab}{cn}{/cn}{de}{/de}{el}{/el} {es} A mediados de siglo este mar daba trabajo a 60000 personas, que capturaban 49000 toneladas de pescado al año. {/es} {fr}{/fr}{hd}{/hd}{id}{/id}{it}{/it}{jo}{/jo}{jp}{/jp}{lv}{/lv}{mg}{/mg}{pg}{/pg}{ru}{/ru}{sh}{/sh}{th}{/th} [/S] [S:7] {org:es} En sus aguas y en su delta habitaban 173 especies animales. {/org} {unl} pos(delta(icl>place), it) plc(inhabit(icl>do).@entry.@past, delta(icl>place)) qua(species.@pl, 173) mod(species.@pl, animal(mod<thing).@pl) and(delta(icl>place), water(icl>thing).@pl) agt(inhabit(icl>do).@entry.@past, species.@pl) pos(water(icl>thing).@pl, it) {/unl} {ab}{/ab}{cn}{/cn}{de}{/de}{el}{/el} {es} En sus aguas y en su delta habitaban 173 especies animales. {/es} {fr}{/fr}{hd}{/hd}{id}{/id}{it}{/it}{jo}{/jo}{jp}{/jp}{lv}{/lv}{mg}{/mg}{pg}{/pg}{ru}{/ru}{sh}{/sh}{th}{/th} [/S] [S:8] {org:es}

135

Las aguas del mar Aral han retrocedido 100 kilómetros, dejando barcos varados en un desierto. {/org} {unl} mod(water(icl>thing).@def.@pl, sea.@def) nam(sea.@def, "Aral") obj(recede(icl>occur).@present.@entry.@complete, water(icl>thing).@def.@pl) qua(kilometer.@pl, 100) man(recede(icl>occur).@present.@entry.@complete, kilometer.@pl) agt(abandon(icl>do).@present.@entry, water(icl>thing).@def.@pl) obj(abandon(icl>do).@past, ship(icl>thing).@pl) mod(ship(icl>thing).@pl, stranded) plc(abandon(icl>do).@past, desert(icl>place).@indef) and(recede(icl>occur).@past.@entry.@complete, abandon(icl>do).@past) {/unl} {ab}{/ab}{cn}{/cn}{de}{/de}{el}{/el} {es} Las aguas del mar Aral han retrocedido 100 kilómetros, dejando barcos varados en un desierto. {/es} {fr}{/fr}{hd}{/hd}{id}{/id}{it}{/it}{jo}{/jo}{jp}{/jp}{lv}{/lv}{mg}{/mg}{pg}{/pg}{ru}{/ru}{sh}{/sh}{th}{/th} [/S] [S:9] {org:es} Los ríos dejaron prácticamente de llegar, taponados por presas. {/org} {unl} obj(flow(icl>occur).@past.@entry.@not, river.@def.@pl) man(flow(icl>occur).@past.@entry.@not, almost) rsn(flow(icl>occur).@past.@entry.@not, :01) obj:01(block(icl>do).@past.@entry, river.@def.@pl) agt:01(block(icl>do).@past.@entry, dam.@pl) {/unl} {ab}{/ab}{cn}{/cn}{de}{/de}{el}{/el} {es} Los ríos dejaron prácticamente de llegar, taponados por presas. {/es} {fr}{/fr}{hd}{/hd}{id}{/id}{it}{/it}{jo}{/jo}{jp}{/jp}{lv}{/lv}{mg}{/mg}{pg}{/pg}{ru}{/ru}{sh}{/sh}{th}{/th} [/S] [/P] [P] [S:10] {org:es} Ahora el mar Aral tiene tan solo una cuarta parte de su volumen. {/org} {unl} nam(sea.@def, "Aral") aoj(have(icl>state).@entry.@present, sea.@def) man(have(icl>state).@entry.@present, only) mod(part(icl>thing).@indef, fourth(mod<thing)) mod(part(icl>thing).@indef, volume) obj(have(icl>state).@entry.@present, part(icl>thing).@indef) pos(volume, sea.@def){/unl} {ab}{/ab}{cn}{/cn}{de}{/de}{el}{/el} {es} Ahora el mar Aral tiene tan solo una cuarta parte de su volumen. {/es} {fr}{/fr}{hd}{/hd}{id}{/id}{it}{/it}{jo}{/jo}{jp}{/jp}{lv}{/lv}{mg}{/mg}{pg}{/pg}{ru}{/ru}{sh}{/sh}{th}{/th} [/S]

136

[S:11] {org:es} La salinidad se ha triplicado. {/org} {unl} obj(triple(icl>do).@present.@entry.@complete, salinity.@def.@topic) {/unl} {ab}{/ab}{cn}{/cn}{de}{/de}{el}{/el} {es} La salinidad se ha triplicado. {/es} {fr}{/fr}{hd}{/hd}{id}{/id}{it}{/it}{jo}{/jo}{jp}{/jp}{lv}{/lv}{mg}{/mg}{pg}{/pg}{ru}{/ru}{sh}{/sh}{th}{/th} [/S] [S:12] {org:es} Las capturas pesqueras se han reducido a cero. {/org} {unl} mod(catch(icl>action).@def.@pl.@topic, fishing) obj(reduce(icl>do).@present.@entry.@complete, catch(icl>action).@def.@pl.@topic) gol(reduce(icl>do).@present.@entry.@complete, zero) {/unl} {ab}{/ab}{cn}{/cn}{de}{/de}{el}{/el} {es} Las capturas pesqueras se han reducido a cero. {/es} {fr}{/fr}{hd}{/hd}{id}{/id}{it}{/it}{jo}{/jo}{jp}{/jp}{lv}{/lv}{mg}{/mg}{pg}{/pg}{ru}{/ru}{sh}{/sh}{th}{/th} [/S] [S:13] {org:es} De las 173 especies animales que vivían en su entorno, hoy solo quedan 38. {/org} {unl} man(remain(icl>occur).@entry.@present, only) tim(remain(icl>occur).@entry.@present, today) obj(remain(icl>occur).@entry.@present, species:01.@pl) qua(species:01.@pl, 38) frm(species:01.@pl, species:02.@pl) qua(species:02.@pl, 173) mod(species:02.@pl, animal(mod<thing)) pos(habitat, it) plc(live(icl>do).@past, habitat) agt(live(icl>do).@past, species:02.@pl) {/unl} {ab}{/ab}{cn}{/cn}{de}{/de}{el}{/el} {es} De las 173 especies animales que vivían en su entorno, hoy solo quedan 38. {/es} {fr}{/fr}{hd}{/hd}{id}{/id}{it}{/it}{jo}{/jo}{jp}{/jp}{lv}{/lv}{mg}{/mg}{pg}{/pg}{ru}{/ru}{sh}{/sh}{th}{/th} [/S] [S:14] {org:es} Se trata de una de las mayores catástrofes ecológicas del planeta. {/org} {unl} mod(catastrophe:02.@pl.@def, large)

137

mod(large,more) mod(catastrophe:02.@pl.@def, ecological) mod(catastrophe:02.@pl.@def, planet.@def) frm(catastrophe:01.@indef.@entry, catastrophe:02.@pl.@def) aoj(catastrophe:01.@indef.@entry, it) {/unl} {ab}{/ab}{cn}{/cn}{de}{/de}{el}{/el} {es} Se trata de una de las mayores catástrofes ecológicas del planeta. {/es} {fr}{/fr}{hd}{/hd}{id}{/id}{it}{/it}{jo}{/jo}{jp}{/jp}{lv}{/lv}{mg}{/mg}{pg}{/pg}{ru}{/ru}{sh}{/sh}{th}{/th} [/S] [S:15] {org:es} El clima también ha cambiado. {/org} {unl} man(change(icl>occur).@present.@entry.@complete, also) obj(change(icl>occur).@present.@entry.@complete, climate.@def) {/unl} {ab}{/ab}{cn}{/cn}{de}{/de}{el}{/el} {es} El clima también ha cambiado. {/es} {fr}{/fr}{hd}{/hd}{id}{/id}{it}{/it}{jo}{/jo}{jp}{/jp}{lv}{/lv}{mg}{/mg}{pg}{/pg}{ru}{/ru}{sh}{/sh}{th}{/th} [/S] [S:16] {org:es} El viento esparce por la región una tóxica mezcla de polvo, restos químicos de plaguicidas y sal del lecho marino seco. {/org} {unl} agt(disperse(icl>do).@entry.@present, wind(icl>thing).@generic) plc(disperse(icl>do).@entry.@present, region.@def) obj(disperse(icl>do).@entry.@present, mixture.@indef) mod(mixture.@indef, toxic(mod<thing)) mod(mixture.@indef, dust(icl>thing)) mod(rest(icl>thing).@pl, chemical(mod<thing)) mod(rest(icl>thing).@pl, pesticide) and(mixture.@indef,rest(icl>thing).@pl) mod(salt(icl>thing), bed(icl>place).@def) mod(bed(icl>place).@def, marine(mod<thing)) mod(bed(icl>place).@def, dry(mod<thing)) and(rest(icl>thing).@pl,salt(icl>thing)) {/unl} {ab}{/ab}{cn}{/cn}{de}{/de}{el}{/el} {es} El viento esparce por la región una tóxica mezcla de polvo, restos químicos de plaguicidas y sal del lecho marino seco. {/es} {fr}{/fr}{hd}{/hd}{id}{/id}{it}{/it}{jo}{/jo}{jp}{/jp}{lv}{/lv}{mg}{/mg}{pg}{/pg}{ru}{/ru}{sh}{/sh}{th}{/th} [/S] [/P] [/UD] </BODY> </HTML>

138

!" OUTPUT [S:1] ======================== UNL ======================= sea:02(@def,@entry,@past,>aoj,>mod,>mod,>mod) -aoj>sea:01(@def,>nam,<obj,<aoj) -nam>Aral(<nam) <obj-locate(icl>do)(@present,>obj,>man) -man>between(icl>manner)(<man,>obj) -obj>republic:01(@def,<obj,>and,>nam) -and>republic:02(@def,<and,>nam) -nam>Kazajstan(<nam) -nam>Uzbekistan(<nam) -mod>inland(mod<thing)(<mod) -mod>fourth(mod<thing)(<mod) -mod>large(<mod,>man,>frm) -man>most(<man) -frm>world(@def,<frm) ==================================================== Il mare Aral che e' localizzato la repubblica Uzbekistan e la repubblica Kazajstan between(icl>manner) e' stato il quarto mare piu' vasto dal mondo interno . ;;Time 2.5 Sec ;;Done! [S:2] ======================== UNL ======================= meter(icl>unit)(@pl,@past,@entry,>aoj,>qua,>and) -aoj>deepness(<aoj,>mod,>pos) -mod>average(mod<thing)(<mod) -pos>it(<pos,<pos) <pos-width(<aoj,>pos) <aoj-kilometer(@pl,@past,<and,>aoj,>qua) <and-[meter(icl>unit)(@pl,@past,@entry,>aoj,>qua,>and)] -qua>67000(<qua) -qua>16(<qua) ==================================================== La sua profondita' media e' stata 16 metri e la sua larghezza e' stata 67000 chilometri . ;;Time 1.3 Sec ;;Done! [S:3] ======================== UNL ======================= :01(@entry,>man,>agt,>obj) -man>continuously(<man) -agt>:02(<agt) -obj>water(icl>thing)(@pl,>pos,<obj) -pos>it(<pos) :02 river:01(@def,@entry,>nam,>and) -nam>Amu Dar'ya (<nam) -and>river:02(@def,>nam,<and) -nam>Syr Dar'ya(<nam) :01 feed(icl>do)(@past,@entry,>and) -and>renew(icl>do)(@past,<and) ==================================================== Il fiume Amu Dar'ya e il fiume Syr Dar'ya hanno nutrito e hanno rinnovato le sue acque continuamente . ;;Time 1.7 Sec ;;Done! [S:4] ======================== UNL =======================

139

transform(icl>do)(@entry,@past,>agt,>gol,>obj) -agt>richness(>mod,>mod,<agt,>pos) -mod>great(<mod) -mod>biological(mod<thing)(<mod) -pos>it(<obj,<pos) <obj-[transform(icl>do)(@entry,@past,>agt,>gol,>obj)] -gol>ground(icl>place)(@indef,>mod,>mod,<gol) -mod>important(<mod) -mod>fishing(mod<thing)(<mod) ==================================================== La sua grande ricchezza biologica ha trasformato esso in un terreno importante di pesca . ;;Time 1.7 Sec ;;Done! [S:5] ======================== UNL ======================= live(icl>do)(@past,@entry,>plc,>agt) -plc>sea(@def,>nam,<plc) -nam>Aral(<nam) -agt>species(@pl,<agt,>qua,>mod) -qua>24(<qua) -mod>fish(icl>thing)(@pl,<mod,>mod) -mod>native(mod<thing)(<mod) ==================================================== 24 specie di pesci autoctoni hanno abitato nel mare Aral . ;;Time 1.1 Sec ;;Done! [S:6] ======================== UNL ======================= provide(icl>do)(@past,@entry,>tim,>agt,>obj,>ben) -tim>middle(icl>thing)(>mod,<tim) -mod>century(<mod,>mod) -mod>this:01(<mod) -agt>sea(<agt,>mod) -mod>this:02(<mod) -obj>job(icl>thing)(@generic,<obj) -ben>person(@pl,>qua,<ben,<agt) -qua>60000(<qua) <agt-capture(icl>do)(@past,>agt,>obj) -obj>ton(@pl,>qua,>mod,<obj,>per) -qua>49000(<qua) -mod>fish(icl>thing)(<mod) -per>year(<per) ==================================================== Questo mare ha fornito il lavoro a meta' di questo secolo per 60000 persone che hanno catturato 49000 tonnellate di pesce a anno . ;;Time 2.3 Sec ;;Done! [S:7] ======================== UNL ======================= inhabit(icl>do)(@entry,@past,>plc,>agt) -plc>delta(icl>place)(>pos,<plc,>and) -pos>it(<pos,<pos) <pos-water(icl>thing)(@pl,<and,>pos) <and-[delta(icl>place)(>pos,<plc,>and)] -agt>species(@pl,>qua,>mod,<agt) -qua>173(<qua) -mod>animal(mod<thing)(@pl,<mod) ==================================================== 173 specie animali hanno abitato nel suo delta e nelle sue acque . ;;Time 1.1 Sec

140

;;Done! [S:8] ======================== UNL ======================= recede(icl>occur)(@present,@entry,@complete,>obj,>man,@past,>and) -obj>water(icl>thing)(@def,@pl,>mod,<obj,<agt) -mod>sea(@def,<mod,>nam) -nam>Aral(<nam) <agt-abandon(icl>do)(@present,@entry,>agt,@past,>obj,>plc,<and) -obj>ship(icl>thing)(@pl,<obj,>mod) -mod>stranded(<mod) -plc>desert(icl>place)(@indef,<plc) <and-[recede(icl>occur)(@present,@entry,@complete,>obj,>man,@past,>and)] -man>kilometer(@pl,>qua,<man) -qua>100(<qua) ==================================================== Le acque del mare Aral hanno indietreggiato in 100 chilometri e hanno abbandon>obj in un deserto . ;;Time 1.6 Sec ;;Done! [S:9] ======================== UNL ======================= flow(icl>occur)(@past,@entry,@not,>obj,>man,>rsn) -obj>river(@def,@pl,<obj) -man>almost(<man) -rsn>:01(<rsn) :01 block(icl>do)(@past,@entry,>obj,>agt) -obj>river(@def,@pl,<obj) -agt>dam(@pl,<agt) ==================================================== I fiumi non sono scorsi almost perche' dighe hanno bloccato . ;;Time 1.2 Sec ;;Done! [S:10] ======================== UNL ======================= have(icl>state)(@entry,@present,>aoj,>man,>obj) -aoj>sea(@def,>nam,<aoj,<pos) -nam>Aral(<nam) <pos-volume(<mod,>pos) <mod-part(icl>thing)(@indef,>mod,>mod,<obj) -mod>fourth(mod<thing)(<mod) <obj-[have(icl>state)(@entry,@present,>aoj,>man,>obj)] -man>only(<man) ==================================================== Il mare Aral soltanto ha una quarta parte di volume . ;;Time 1.2 Sec ;;Done! [S:11] ======================== UNL ======================= triple(icl>do)(@present,@entry,@complete,>obj) -obj>salinity(@def,@topic,<obj) ==================================================== La salinita' e' stata triplicata . ;;Time 0.4 Sec ;;Done! [S:12] ======================== UNL ======================= reduce(icl>do)(@present,@entry,@complete,>obj,>gol) -obj>catch(icl>action)(@def,@pl,@topic,>mod,<obj) -mod>fishing(<mod) -gol>zero(<gol)

141

==================================================== Le catture di pesca sono state ridotte a zero . ;;Time 0.8 Sec ;;Done! [S:13] ======================== UNL ======================= remain(icl>occur)(@entry,@present,>man,>tim,>obj) -man>only(<man) -tim>today(<tim) -obj>species:01(@pl,<obj,>qua,>frm) -qua>38(<qua) -frm>species:02(@pl,<frm,>qua,>mod,<agt) -qua>173(<qua) -mod>animal(mod<thing)(<mod) <agt-live(icl>do)(@past,>plc,>agt) -plc>habitat(>pos,<plc) -pos>it(<pos) ==================================================== 38 specie da 173 specie animali che hanno abitato nel suo habitat soltanto rimangono oggi . ;;Time 1.4 Sec ;;Done! [S:14] ======================== UNL ======================= catastrophe:01(@indef,@entry,>frm,>aoj) -frm>catastrophe:02(@pl,@def,>mod,>mod,>mod,<frm) -mod>large(<mod,>mod) -mod>more(<mod) -mod>ecological(<mod) -mod>planet(@def,<mod) -aoj>it(<aoj) ==================================================== Esso e' una catastrofe dalle catastrofi ecologici piu' vasti del pianeta . ;;Time 1.2 Sec ;;Done! [S:15] ======================== UNL ======================= change(icl>occur)(@present,@entry,@complete,>man,>obj) -man>also(<man) -obj>climate(@def,<obj) ==================================================== Il clima e' cambiato anche . ;;Time 0.6 Sec ;;Done! [S:16] ======================== UNL ======================= disperse(icl>do)(@entry,@present,>agt,>plc,>obj) -agt>wind(icl>thing)(@generic,<agt) -plc>region(@def,<plc) -obj>mixture(@indef,<obj,>mod,>mod,>and) -mod>toxic(mod<thing)(<mod) -mod>dust(icl>thing)(<mod) -and>rest(icl>thing)(@pl,>mod,>mod,<and,>and) -mod>chemical(mod<thing)(<mod) -mod>pesticide(<mod) -and>salt(icl>thing)(>mod,<and) -mod>bed(icl>place)(@def,<mod,>mod,>mod) -mod>marine(mod<thing)(<mod) -mod>dry(mod<thing)(<mod) ====================================================

142

Il vento disperde un misto tossico di polvere , sale del letto asciutto marino rimanenze chimici di pesticida nella regione.

BIBLIOGRAFIA

AA.VV, Ricerche di psicolinguistica n°25, Franco Angeli Editore, Milano, 1975

ALBERTO P., BENNET P. (eds), Lexical Issues in Machine Translation, in Studies in

Machine Translation and Natural Language Processing, Office for Official Publications of

the European Community, 1995, vol.8

ALLEN J., Natural Language Understanding, The Benjamin/Cumming Publishing

Company, New York, 1995

ALPAC (1966), Languages and Machine: computers in translation and linguistics. A report

by the Automatic Language Processing Advisory Commette, Division of Behavioral

Sciences, National Academy of Sciences, National Research Council, Washington D.C.,

National Academy of Sciences, National Research Council, 1966, Publication 1416, 124 pg.

ANTINUCCI F. nella traduzione a N. Chomsky, Le strutture della sintassi, Editori Laterza,

Bari, 1970

ARCAINI E., Analisi linguistica e Traduzione, Pàtron Editore, Bologna, 1986

ARNOLD D., BALKAN L., HUMPHREYS R. L., MEIJER S., SADLER L., Machine

Translation: An Introductory Guide, NCC Blackwell, Manchester-Oxford, 1994

ATTI di EXPOLINGUE 1989, Il mondo delle lingue, Milano 8/11 marzo 1990

BARNBROOK G., Language and Computers, Edimburgh University Press, Edimburgh,

1996

BERTUCCELLI PAPI M., An Elementary Introduction to English Linguistics, Edizioni

ETS, Pisa, 2000

143

BOBROW D. G., COLLINS A. (eds), Representation and Understanding. Studies in

Cognitive Science, Academic Press, New York,1975

BOLC L. (ed), Natural Language Based Computer Systems, Carl Hanser Verlag,

Munchen/Wien, 1980

BUNT H., BLACK W. (eds), Abduction, Belief and Context in Dialogue, John Benjamins

Publishing Company, New York, 2000

BUTLER C., Computers in Linguistics, Basil Blackwell, Oxford, 1985

CABRINI F., Universal Networking Language: dal mito della Lingua Universale al

“traduttore” globale, Tesi, Università Cattolica, Facoltà di Scienze Politiche, Aprile 2001

CALZOLARI N., LENCI A., ZAMPOLLI A., BELL N., VILLEGAS M., THURMAIR G.,

The ISLE in the Ocean Translatantic Satndards for Multilingual Lexicon (with an eye on

Machine Translation), in http://www.eamt.org/summitVIII/papers/calzolari.pdf

CARRICO M.A., GIRARD J.E., JONES J.P., Building Knowledge Systems, Mc Graw-Hill

Book Company, New York, 1989

CHOMSKY N., Le strutture della sintassi, Editore Laterza, Bari, 1970

CINQUE G. (a cura di), Semantica Generativa, Boringhieri, Torino, 1979

CORPAS PASTOR G. (ed), Las lenguas de Europa: estudios de frseologìa y traducciòn,

Editorial Comares, Alborote (Granada), 2000

DANLOS L., The Linguistic basis of Text Generation, Cambridge University Press,

Cambridge, 1987

DEAN FODOR J., Semantics: Theories of Meaning in Generative Grammar, The Harvester

Press, Brighton, 1982

DOWLING GREGORY, A Study of the English Verb for Italians, Supernova, Venezia, 1993

144

DURANTI A., Antropologia del linguaggio, Maltemi Editore, Roma, 2000

FELBAUM C. (ed), WordNet, An Electronic Lexical Database, MIT Press, Cambridge,

1998

FERRARI G., Introduzione al Natural Language Processing, Calderini Editore, Bologna,

1991

FONTENELLE T., Turning a Bilingual Dictionary into a Lexical-Semantic Database,

Niemeyer, Tubingen, 1997

FORSYTH R., Machine Learning. Principles and Techniques, Chapman & Hall, London,

1989

FRANCESCATO G., Saggi di linguistica teorica e applicata, Ed.Dell’Orso, Alessandria,

1996

GAINES B., BOOSE J. (eds), Knowledge Adquisition for Knowledge-Based Systems,

Academic Press, New York, 1988

GENET J-P., ZAMPOLLI A. (eds), Computers and the Humanities, Dartmouth, Cambridge,

1992

GERBER L., Working Toward success in Machine Translation, in Proceedings of the

Workshop 18/22 september 2001, Santiago de Compostela, Spain

GHIGLIOZZI G., MORDENTI R., ZAMPOLLI A., La Bella e la Bestia, Tirrenia

Stampatori, Torino, 2000

GRISHAM R., Computational Linguistics, Cambridge University Press, Cambridge, 1988

HIRST G., Semantic interpretation and the Resolution of Ambiguity, Camridge University

Press, Cambridge, 1987

145

HUTCHINS J., Machine Translation over fifty years, in Histoire, Epistemologie, Langage,

Tomo XXII, fasc. 1, 2001, pg. 7-31

INTERNATIONAL JOURNAL OF TRANSLATION, n° 13, gennaio-dicembre 2001, pp.5-

20

JONES S., Text and Context, Springer-Verlag, London, 1991

JACKOBSON R., Aspetti linguistici della traduzione, in L. Heilman (a cura di), “Saggi di

linguistica generale”, Feltrinelli, Milano, 1966

JOSCELYNE A., AltaVista Translates in Real Time, in “Language International”, vol.10, n°

1, 1998

JURAFSKY D., MARTIN J.H., Speech and Language Processing: An Introduction to

Natural Language Processing, Computational Linguistics and Speech Recognition, Prentice

Hall, New Jersey, 2000

KELLY I., Progress in Machine Translation, Sigma Press, Wilmslow (UK), 1989

KESS J., Introduzione alla psicolinguistica, Franco Angeli Editore, Milano, 1979

KOERNER E.F.K., ASHER R.E. (eds), Concise History of the language sciences: from the

Sumerians to the Cognitivist, Pergamon Press, Oxford, 1995, pp. 431-445

L’HOMME M-C., Understanding specialized lexical combinations, in “Terminology”, vol.

6, n° 1, 2000

LAFFLING J., Towards High-Precision Machine translation, Foris Publications, Dordrecht

(Holland), 1991

LAVER M., Computers and Social Change, Cambridge University Press, Cambridge, 1980

LEHER A., Semantic fields and Lexical Structure, North-Holland Publishing Company,

Amsterdam- New York- Oxford, 1974

146

LOCKWOOD R., Global English and Language Market Trends, in “ Language

International”, 10/04/1998

LOCKWOOD R., The Business of Language, in “Language International”, vol. 12, n°3,

giugno 2000

MANNING C.D., SCHUTZE H., Foundation of Statistical Natural Language Processing,

MIT Press, Cambridge, 1999

MASSARIELLO MERZAGORA G., La Lessicografia, Zanichelli, Bologna, 1983

Mc KEOWN K., Text Generation, Cambridge University Press, Cambridge, 1985

MOON R., Fixed Expressions and Idioms in English, Clarendon Press, Oxford, 1988

MOUNIN G., La Machine à traduire, Mouton & Co., Paris, 1964

MOUNIN G., traduzione di Bruno Belloto, Storia della linguistica del XX secolo, Feltrinelli,

Milano, 1983

NEGRI M. (a cura di ), Navadhyayi, Il Calamaio, Roma, 1996

NIRENBURG S., Knowledge-Based Machine Translation, in “Machine Translation, n°1,

marzo 1989

NIRENBURG S., GOODMAN K., Treatment of of Meaning in Machine Translation

Systems, in “Proceedings of the Third International Conference on Theoretical and

Methodological Issues in Machine Translation of Natural Languages”, University of Texas,

June 1990

OSGOOD C.E., SEBEOK T.A, Psycholinguistics: a Survey of Theory and Research

Problems, Indiana University Press, Bloominghton, 1954

147

O’SHEA T., SELF J., THOMAS G., Intelligent Knowledge-Based Systems: An Inroduction,

Harper and Row Publishers, London, 1987

PAPEGAAJI B., SHUBERT K., Text Coherence in Translation, Foris Publications,

Dordrecht (Holland), 1988

PETERS C., SHERIDAN P., Multilingual Information Access, 2001

PICKEN C. (ed), Translating and The Computer 8, Aslib, London, 1987

PIRRELLI V., Morphology, Analogy and Machine Translation, Ph. D. Thesis, 1993,

Salford University

POWERS D.M.W., TURK C., Machine Learning of Natural Language, Sringer-Verlag,

London, 1989

PUSTEJOVSKY J. (ed), Semantics and the Lexicon, Kluwer Academic Publishers, New

York, 1993

PUSTEJOVSKY J., BOGURAEV B., Lexical Semantics: the Problem of Polisemy,

Clarendon Press, Oxford, 1996

RADFORD A., ATKINSON M., BRITAIN D., CLAHENS H., SPENCER A., Linguistics :

An Introduction, Cambridge University Press, Cambridge, 1999

RAMM W. (ed), Text and context in Machine Translation: aspects of discourse

representation and discourse processing, in Studies in Machine Translation and Natural

Language Processing, Office for Official Publications of the European Community, 1994,

vol.6

RAPALLO U., La ricerca in linguistica, La Nuova Italia Scientifica, Roma, 1994

RICH E., KNIGHT K., Artificial Intelligence, Mc Graw-Hill Inc., New York, 1991

148

RIGOTTI E., Traduzione nelle teorie linguistiche contemporanee, in “Processi traduttivi:

teorie ed applicazioni, Atti del seminario su La Traduzione”, Brescia 19/20 novembre 1981,

Editrice La Scuola, Brescia, 1982

RIGOTTI E., Principi di teoria linguistica, Editrice La Scuola, Brescia, 1983

ROLSTON D.W., Principles of Artificial Intelligence and Expert Systems Development, Mc

Graw-Hill Book Company, New York, 1988

SAGER J.C., Language Engeneering and Translation, Benjamins Translation Library,

Amsterdam/Philadelphia, 1993

SAGER J.C., Terminology: Custodian of Knowledge and Means of Knowledge Transfer, in

“Terminology”, vol.1, n° 1, 1994

DE SAUSSURE F., Corso di linguistica Generale, Editori Laterza, Bari, 1967

SCHREUDER R., WELTENS B. (eds), The Bilingual Lexicon, John Benjamins Publishing

Company, New York, 1993

SCHWARTZ S.C., Applied Natural Language Processing, Petrocelli, New York, 1987

SCHUTZ J., Terminological knowledge in Multilingual Language Processing, in Studies in

Machine Translation and Natural Language Processing, Office for Official Publications of

the European Community, 1994, vol.5

SIMONE R., Fondamenti di Linguistica, Editori Laterza, Bari, 1999

SINCLAIR J., Corpus Concordance Collocation, Oxford University Press, Oxford, 1991

SLOCUM J. (ed), Machine Translation Systems, Cambridge University Press, Canbridge,

1988

SNELL B., Translating and the Computer, Springer, London, 1985

149

SONDHEIMER S., CUMMING S., ALBANO R., How To Realize a Concept: Lexical

Selections and the Conceptual Network in Text Generation, in “Machine Translation”, n° 1,

marzo 1990

SOWA J.F., Conceptual Structure: Information Processing in Mind and Machine, Addison

Wesley Publishing Company, Boston, 1984

STEFFENS P. (ed), Machine Translation and the Lexicon, Springer, London, 1995

The Fourth Machine Translation Summit: Proceedings, Kobe, Japan, July 20/22 1993

VAN EYNDE F., ALLEGRANZA V., Semantics and Discourse: a Natural Lunguage

Processing Perspective, in Studies in Machine Translation and Natural Language

Processing, Office for Official Publications of the European Community, 1995, vol.9

VARILE G.B., ZAMPOLLI A. (eds), Survey of the State of the Art in human Language

Technology, Linguistica Computazionale vol. XII-XIII, Giardini Editori e Stampatori, Pisa,

1997

WALKER D.E., ZAMPOLLI A., CALZOLARI N. (eds), Automating the Lexicon,

Clarendon Press, Oxford, 1995

WEIGAND H., Linguistically Motivated Principles of Knowledge Base Systems, Foris

Publications, Dordrecht (Holland), 1990

WHITELOCK P., KILBY K., Linguistics Techniques in Machine Translation System

Design, UCL Press, Cambridge, 1995

WILKS Y.A., SLATOR B.M., GUTHRIE L.M., Electric Words, MIT Press,

Cambridge1996

150

http://www-2.cs.cmu.edu/ref/mlim/chapter4.html

http://accsubs.unsystem.org/iscc-intranet/work/documents/pdf/0007.pdf

http://www.aclweb.org

http://babel.altavista.com/tr

http://www.brocku.ca/commstudies/courses/2F50/iackobson

http://budling.nytud.hu/'kalman/reading/suggen94/node4.html

http://www.cis.upenn.edu/~cmetz/nicoletta.ppt

http://www.ccl.umist.ac.uk

http://www.ccl.umist.ac.uk/staff/harold/MTjnl

http://www-clips.imag.fr/geta

http://www.clsp.jhu.edu

http://www.cogsei.princeton.edu/'wn

htt://crl.nmsu.edu/Events/FWOI/PreWorkshop/prewkshop/farwell.html

http://www.cs.colorado.edu

http://www.cs.columbia.edu/'acl

http://www.cs.vassar.edu/'ide/XMELLT.html

http://www.cse.iitb.ernet.in

http://cslu.cse.ogi.edu

http://www.cst.ku.dk/project/spinn/Copenh01.ppt

http://www.dcs.kcl.ac.uk/journals/jlac

http://www.duke.edu

http://www.eamt.org/summitVIII/papers/calzolari.pdf

http://elies.rediris.es/elies9.htm

http://fox.cs.vt.edu

http://www.georgetown.edu

http://www.globalink.com/xlate.html

http://www.glreach.com/globstat/index.php3

http://www.iai.uni-sb.de/UNL/unl-specs.html

http://www.ias.uni.edu/research_prog/science_technology/universalnetwork_language.html

http://www.id.org.uk

http://www.imim.es/quark/num19/019044.htm

http://Isadc.org/kay.html

http://www.kecl.ntt.co.jp/icl/mtg

151

http://www-ksl.stanford.edu/kst/what-is-an-ontology.html

http://lhsl.com

http://www.ling.ed.ac.uk

http://ling.lancs.ac.uk

http://www.lti.cs.cmu.edu/Research

http://www.media.mit.edu

http://mitpress.mit.edu

http://mizar.org

http://www.mri.mq.edu.au

http://nespole.itc.it

http://ourworld.compuserve.com/homepages/WJHutchins/MT-93.htm




http://ourworld.compuserve.com/homepages/WJHutchins/PPF-3.doc

http://www.sslmit.unibo.it

http://stp.ling.ui.se/'fredriko/ling.html

http://www.systransoft.com

http://umiacs.umd.edu/'bonnie

http://www.undl.org

http://www.undl.org/StatuteUNLP.html

http://www.unesco.or.kr/cyberlang/eng

http://www.unicom.co.uk/3in/issue2/4Asp

http://www.unl.ias.unu.edu

http://www.unl.ias.unu.edu/unlsys/introduction_main.html

http://unl.ias.unu.edu/gm

http://unl.ias.unu.edu/publications/UNL-beyond%20MT.htm

http://www.wi-im.uni-koehn.de

http://wikipedia.com

http://www.wordnet.com

http://www.xfer.com/entry/571565

PARTE PRIMA - esperanto.it · 1 Citazione tratta da A. Duranti, Antropologia del linguaggio,...

Documents

Transcript of PARTE PRIMA - esperanto.it · 1 Citazione tratta da A. Duranti, Antropologia del linguaggio,...