ELABORAZIONE DEL LINGUAGGIO NATURALE
description
Transcript of ELABORAZIONE DEL LINGUAGGIO NATURALE
![Page 1: ELABORAZIONE DEL LINGUAGGIO NATURALE](https://reader036.fdocuments.net/reader036/viewer/2022062411/568166a5550346895dda92de/html5/thumbnails/1.jpg)
ELABORAZIONE DEL LINGUAGGIO NATURALE
CONOSCENZA LESSICALE 1:PAROLE, PARTI DEL DISCORSO
![Page 2: ELABORAZIONE DEL LINGUAGGIO NATURALE](https://reader036.fdocuments.net/reader036/viewer/2022062411/568166a5550346895dda92de/html5/thumbnails/2.jpg)
INFORMAZIONI LESSICALI
• Proprieta’ foniche / grafiche• Informazioni sintattiche (parti del discorso)• Informazioni morfologiche • Significato (lezioni successive)
![Page 3: ELABORAZIONE DEL LINGUAGGIO NATURALE](https://reader036.fdocuments.net/reader036/viewer/2022062411/568166a5550346895dda92de/html5/thumbnails/3.jpg)
QUALI SONO LE ‘PAROLE’ DI UNA LINGUA?
= quante parole ha una lingua?= che lemmi ci devono essere in un
dizionario?
![Page 4: ELABORAZIONE DEL LINGUAGGIO NATURALE](https://reader036.fdocuments.net/reader036/viewer/2022062411/568166a5550346895dda92de/html5/thumbnails/4.jpg)
QUALI SONO LE PAROLE DI UNA LINGUA?
• 25 lemmi dal Concise Oxford Dictionary:– wannabe,– want, wanting, wanton, wapentake, wapiti, – War., – war, waratah, – war baby, – warble1, warble2, – warble fly, warbler, warby, war chest, war crime, war cry,
ward, – -ward
![Page 5: ELABORAZIONE DEL LINGUAGGIO NATURALE](https://reader036.fdocuments.net/reader036/viewer/2022062411/568166a5550346895dda92de/html5/thumbnails/5.jpg)
JACKSON: TRE SENSI DI ‘WORD’ (‘PAROLA’)
• ORTHOGRAPHIC WORD: una sequenza di lettere circondata da spazi
• PHONEMIC WORD: una sequenza di suoni (fonemi)
• LEXEME: una unita’ del lessico, a cui puo’ corrispondere una voce distinta in un dizionario
![Page 6: ELABORAZIONE DEL LINGUAGGIO NATURALE](https://reader036.fdocuments.net/reader036/viewer/2022062411/568166a5550346895dda92de/html5/thumbnails/6.jpg)
DEFINIZIONE TRADIZIONALE DI PAROLA
La parola e’ “cio che si trova tra due spazi bianchi”
![Page 7: ELABORAZIONE DEL LINGUAGGIO NATURALE](https://reader036.fdocuments.net/reader036/viewer/2022062411/568166a5550346895dda92de/html5/thumbnails/7.jpg)
QUALI SONO LE PAROLE DI UNA LINGUA?
• 25 lemmi dal Concise Oxford Dictionary:– wannabe,– want, wanting, wanton, wapentake, wapiti, – War., – war, waratah, – war baby, – warble1, warble2, – warble fly, warbler, warby, war chest, war crime, war cry,
ward, – -ward
![Page 8: ELABORAZIONE DEL LINGUAGGIO NATURALE](https://reader036.fdocuments.net/reader036/viewer/2022062411/568166a5550346895dda92de/html5/thumbnails/8.jpg)
PAROLE E FORME DI PAROLA
• want (ma non wanted)– sings, sang, sung sing
• Italiano:– mangerò, mangeresti, mangerai mangiare– nero, nera, neri, nere nero
–= 7 forme di parola, 2 parole
![Page 9: ELABORAZIONE DEL LINGUAGGIO NATURALE](https://reader036.fdocuments.net/reader036/viewer/2022062411/568166a5550346895dda92de/html5/thumbnails/9.jpg)
FORME DI CITAZIONE
• Un dizionario riporta le FORME DI CITAZIONE (= LEMMI) delle parole
• Convenzioni diverse a seconda della lingua:– Italiano: infinito (AMARE)
• Inglese: TO LOVE– Latino: prima persona presente singolare (AMO)
![Page 10: ELABORAZIONE DEL LINGUAGGIO NATURALE](https://reader036.fdocuments.net/reader036/viewer/2022062411/568166a5550346895dda92de/html5/thumbnails/10.jpg)
OMONIMI
• warble1, warble2 : due PAROLE, stessa FORMA (OMONIMI)– Italiano: diligenza, tara, (botte, pesca …)
![Page 11: ELABORAZIONE DEL LINGUAGGIO NATURALE](https://reader036.fdocuments.net/reader036/viewer/2022062411/568166a5550346895dda92de/html5/thumbnails/11.jpg)
PRIMO CRITERIO DI IDENTIFICAZIONE :
• Si hanno parole distinte quando si abbiano CONCETTI diversi– Vedi sotto, morfemi
![Page 12: ELABORAZIONE DEL LINGUAGGIO NATURALE](https://reader036.fdocuments.net/reader036/viewer/2022062411/568166a5550346895dda92de/html5/thumbnails/12.jpg)
PAROLE: FORME FONEMICHE E GRAFICHE
• La definizione di parola “cio’ che si trova tra due spazi bianchi” e’ puramente ORTOGRAFICA
• Ogni parola ha DUE forme: – i SUONI (FONEMI) che la compongono– e il modo in cui viene rappresentata graficamente
(GRAFIA)
![Page 13: ELABORAZIONE DEL LINGUAGGIO NATURALE](https://reader036.fdocuments.net/reader036/viewer/2022062411/568166a5550346895dda92de/html5/thumbnails/13.jpg)
PAROLE E LA LORO GRAFIA
• La nostra `immagine’ delle parole (e la loro posizione in un dizionario, cartaceo od elettronico) spesso dipende dalla grafia usata– La grafia pero’ cambia di continuo: lengaio
linguaggio, dinaro denaro• Occorre anche ricordare che lo scritto segue il
parlato, e che non sempre la corrispondenza e’ perfetta
![Page 14: ELABORAZIONE DEL LINGUAGGIO NATURALE](https://reader036.fdocuments.net/reader036/viewer/2022062411/568166a5550346895dda92de/html5/thumbnails/14.jpg)
INGLESE:
• HOMOGRAPHS– read, read, read– tear / tear– bow, refuse, wind
• HOMOPHONES:– bare / bear, pale / pail, stake / steak– Mary / merry / marry (alcuni dialetti Americani)
![Page 15: ELABORAZIONE DEL LINGUAGGIO NATURALE](https://reader036.fdocuments.net/reader036/viewer/2022062411/568166a5550346895dda92de/html5/thumbnails/15.jpg)
ITALIANO
• La grafia delle parole Italiane non e’ cambiata molto dagli inizi del Cinquecento (prime edizioni a stampa, e.g., edizione del Petrarca curata da Bembo e stampata da Manuzio nel 1515)
• Ma per secoli l’ortografia non corrispondeva alla pronuncia
![Page 16: ELABORAZIONE DEL LINGUAGGIO NATURALE](https://reader036.fdocuments.net/reader036/viewer/2022062411/568166a5550346895dda92de/html5/thumbnails/16.jpg)
DUE ESEMPI DI CAMBIAMENTO DI GRAFIA
• V = U– Vocabolario della Crusca, 1612:
• VATICINARE• VBBIA• VDITORE
– (Crusca 1738: V U, ordine invariato)• H
– Vocabolario della Crusca, 1612: • HUMILE
![Page 17: ELABORAZIONE DEL LINGUAGGIO NATURALE](https://reader036.fdocuments.net/reader036/viewer/2022062411/568166a5550346895dda92de/html5/thumbnails/17.jpg)
GRAFEMI E FONEMI
mela m'me:la
bello 'bɛ:llo
bene 'bɛ:ne
ieri 'jɛ:ri
In Italiano ci sono 21 grafemi (+ 5) ma 30 fonemi
![Page 18: ELABORAZIONE DEL LINGUAGGIO NATURALE](https://reader036.fdocuments.net/reader036/viewer/2022062411/568166a5550346895dda92de/html5/thumbnails/18.jpg)
QUALI SONO LE PAROLE DI UNA LINGUA?
• 25 lemmi dal Concise Oxford Dictionary:– wannabe,– want, wanting, wanton, wapentake, wapiti, – War., – war, waratah, – war baby, – warble1, warble2, – warble fly, warbler, warby, war chest, war crime, war cry,
ward, – -ward
![Page 19: ELABORAZIONE DEL LINGUAGGIO NATURALE](https://reader036.fdocuments.net/reader036/viewer/2022062411/568166a5550346895dda92de/html5/thumbnails/19.jpg)
UNA FORMA, DUE PAROLE
• CONTRAZIONI:– Wannabe
• gonna, gimme …
• CLITICI:– COMPRALO– SCRIVIMI
![Page 20: ELABORAZIONE DEL LINGUAGGIO NATURALE](https://reader036.fdocuments.net/reader036/viewer/2022062411/568166a5550346895dda92de/html5/thumbnails/20.jpg)
DUE FORME, UNA PAROLA• Parole POLIREMATICHE o COMPLESSE (Inglese:
MULTIWORDS)• RIFLESSIVI:
– sedersi (Mario si sedette) • Inglese sit (Mario sat)
• PAROLE IDIOMATICHE– palla al piede, vuotare il sacco, tavola rotonda
• ‘WEAK VERBS’– avere paura
• COMPOSTI: sci alpinismo, fuori servizio
![Page 21: ELABORAZIONE DEL LINGUAGGIO NATURALE](https://reader036.fdocuments.net/reader036/viewer/2022062411/568166a5550346895dda92de/html5/thumbnails/21.jpg)
PAROLE POLIREMATICHE IN INGLESE
• PHRASAL VERBS: break up, calm down, find out, give in, look over, pass out, show up, take off …..
• COMPOUNDS: – war baby, war chest, war crime, war cry, war dance– bell and whistles, rock and roll, bow and scrape, nip and
tuck ….– IN TEDESCO:
Donaudampfschiffahrtgesellschaftkapitänwitwe
![Page 22: ELABORAZIONE DEL LINGUAGGIO NATURALE](https://reader036.fdocuments.net/reader036/viewer/2022062411/568166a5550346895dda92de/html5/thumbnails/22.jpg)
DA FORME POLIREMATICHE A COMPOSTI
– salvavita / tritacarne / dopolavoro / benestante
![Page 23: ELABORAZIONE DEL LINGUAGGIO NATURALE](https://reader036.fdocuments.net/reader036/viewer/2022062411/568166a5550346895dda92de/html5/thumbnails/23.jpg)
PAROLA = LESSEMA
• Marello:– “il termine PAROLA … [indica una] unita’ linguistica
a cui sono associati una funzione grammaticale ed un significato, separata graficamente dalle altre da spazi e dotata di coesione interna, per cui non si possono inserire altri elementi al suo interno, ne’ si puo’ mutare l’ordine degli elementi che la costituiscono”
![Page 24: ELABORAZIONE DEL LINGUAGGIO NATURALE](https://reader036.fdocuments.net/reader036/viewer/2022062411/568166a5550346895dda92de/html5/thumbnails/24.jpg)
RICORDIAMO ALCUNE DEFINIZIONI• PAROLA (Inglese WORD): elemento linguistico (= unita’ del
‘lessico mentale’, LESSEMA)• FORME DI PAROLA (Inglese WORD-FORM):
– Ortografica– Fonetica
• LEMMA– La FORMA DI CITAZIONE di una parola in un dizionario, associata con
una VOCE (Inglese LEXICAL ENTRY)– Spesso si usa il termine lemma per indicare la parola (rapporto 1:1)
![Page 25: ELABORAZIONE DEL LINGUAGGIO NATURALE](https://reader036.fdocuments.net/reader036/viewer/2022062411/568166a5550346895dda92de/html5/thumbnails/25.jpg)
USO DI CORPORA PER L’IDENTIFICAZIONE DELLE PAROLE
Where did the Encarta Concise English Dictionary’s editors find the information on which to base their definitions? The Bloomsbury Corpus of World English, which now has over 150 million words, provided the main evidence. We amplified this with a tailored reading programme in science, technology, business, and other key areas in order to find evidence of word use in varied fields. Lastly we used the Internet as a research source.
Introduzione a ECED (citata da Jackson, p. 167)
![Page 26: ELABORAZIONE DEL LINGUAGGIO NATURALE](https://reader036.fdocuments.net/reader036/viewer/2022062411/568166a5550346895dda92de/html5/thumbnails/26.jpg)
ANALISI LESSICOGRAFICA DI TESTI
• Identificazione delle (FORME DI) PAROLA – e delle loro parti del discorso– Calcolo delle loro frequenze
• Costruzione di CONCORDANZE– liste ordinate di parole che si trovano in un testo con il
contesto• Identificazione di COLLOCAZIONI
– “broken twig”
![Page 27: ELABORAZIONE DEL LINGUAGGIO NATURALE](https://reader036.fdocuments.net/reader036/viewer/2022062411/568166a5550346895dda92de/html5/thumbnails/27.jpg)
L’IDENTIFICAZIONE DEI LEMMI NEI TESTI VIA COMPUTER
• TOKENIZZAZIONE• LEMMATIZZAZIONE• CLASSIFICAZIONE GRAMMATICALE
![Page 28: ELABORAZIONE DEL LINGUAGGIO NATURALE](https://reader036.fdocuments.net/reader036/viewer/2022062411/568166a5550346895dda92de/html5/thumbnails/28.jpg)
TOKENIZZAZIONE
C’ERA UNA VOLTA UN PEZZO DI LEGNO.
C’ERA | UNA | VOLTA | UN | PEZZO | DI | LEGNO. |
C’ | ERA | UNA | VOLTA | UN | PEZZO | DI | LEGNO | . |
![Page 29: ELABORAZIONE DEL LINGUAGGIO NATURALE](https://reader036.fdocuments.net/reader036/viewer/2022062411/568166a5550346895dda92de/html5/thumbnails/29.jpg)
ALCUNI PROBLEMI CON IL PUNTO
C’ERA UNA VOLTA UN PEZZO DI LEGNO.
IL SIG. ROSSI TELEFONÓ A CASA.
U.S.A.
9.45
WWW.GOOGLE.IT
![Page 30: ELABORAZIONE DEL LINGUAGGIO NATURALE](https://reader036.fdocuments.net/reader036/viewer/2022062411/568166a5550346895dda92de/html5/thumbnails/30.jpg)
MAIUSCOLE E MINUSCOLE
Rossi / rossi
Ciliegia / ciliegia
![Page 31: ELABORAZIONE DEL LINGUAGGIO NATURALE](https://reader036.fdocuments.net/reader036/viewer/2022062411/568166a5550346895dda92de/html5/thumbnails/31.jpg)
FORME POLIREMATICHE(= TOKEN COMPLESSI)
• Vuotare il sacco, tagliare la corda, di rado, fuori servizio, ad hoc – War baby
• Los Angeles, La Spezia– GU L 161 del 26.6.1999
![Page 32: ELABORAZIONE DEL LINGUAGGIO NATURALE](https://reader036.fdocuments.net/reader036/viewer/2022062411/568166a5550346895dda92de/html5/thumbnails/32.jpg)
QUANTE PAROLE CI SONO IN UN TESTO? ITALIANO E LATINO
il ragazzo puer
ha dato dedit
una rosa rosam
a Maria Mariae
Altre lingue senza articoli / particelle: lingue slave (Ceco), Cinese, …
![Page 33: ELABORAZIONE DEL LINGUAGGIO NATURALE](https://reader036.fdocuments.net/reader036/viewer/2022062411/568166a5550346895dda92de/html5/thumbnails/33.jpg)
RESTRIZIONI SULLE POSIZIONI DELLE PAROLE
• La ragazza lesse rapidamente il libro– *Ragazza la lesse rapidamente il libro– *La ragazza lesse il rapidamente libro
• Inglese: *The Sue quickly read the book • Sottocategorie:
– *La ragazza arrivo’ il libro– conigliera, baleniera, teiera, ma: *virtuiera, *pazienzera
![Page 34: ELABORAZIONE DEL LINGUAGGIO NATURALE](https://reader036.fdocuments.net/reader036/viewer/2022062411/568166a5550346895dda92de/html5/thumbnails/34.jpg)
CATEGORIE LESSICALI (PARTI DEL DISCORSO)
• NOMI (tavolo, Simona)• VERBI (camminare, mangiare, colpire)• AGGETTIVI (rosso, rapido)• AVVERBI (probabilmente, subito)• PRONOMI (io, lui, ci)• ARTICOLI (il, la, un)• PREPOSIZIONI (di, a, con)• CONGIUNZIONI (e, ma, o)• [Italiano]: INTERIEZIONI (ahi! )
![Page 35: ELABORAZIONE DEL LINGUAGGIO NATURALE](https://reader036.fdocuments.net/reader036/viewer/2022062411/568166a5550346895dda92de/html5/thumbnails/35.jpg)
ALCUNE DISTINZIONI
• PARTI DEL DISCORSO VARIABILI / INVARIABILI– L’uomo cammina / camminava
• PARTI DEL DISCORSO APERTE / CHIUSE– Aperte: nomi, verbi, aggettivi, avverbi– Chiuse: articoli, pronomi, preposizioni,
congiunzioni
![Page 36: ELABORAZIONE DEL LINGUAGGIO NATURALE](https://reader036.fdocuments.net/reader036/viewer/2022062411/568166a5550346895dda92de/html5/thumbnails/36.jpg)
CATEGORIE UNIVERSALI?
• Il nome ed il verbo non mancano in nessuna lingua
• L’articolo manca in molte lingue (Latino, lingue slave, Cinese)
• Avverbio?
![Page 37: ELABORAZIONE DEL LINGUAGGIO NATURALE](https://reader036.fdocuments.net/reader036/viewer/2022062411/568166a5550346895dda92de/html5/thumbnails/37.jpg)
CATEGORIE LESSICALI E DIZIONARI
• Un dizionario tipicamente identifica tutte le parti del discorso che una certa forma di parola puo’ essere usata per esprimere, e solitamente associa voci diverse con ogni parte– warble1, warble2
• Italiano: legge, letto, affetto, porto, pianta …
![Page 38: ELABORAZIONE DEL LINGUAGGIO NATURALE](https://reader036.fdocuments.net/reader036/viewer/2022062411/568166a5550346895dda92de/html5/thumbnails/38.jpg)
ZINGARELLI INTERATTIVO: LEGGE1
1 Norma, espressa dagli organi legislativi dello Stato, che stabilisce diritti e doveri dei cittadini Legge delega, che viene emessa dal potere esecutivo su delega del potere legislativo entro un ambito ben precisato Legge ponte, emessa in attesa di un'altra più organica A norma, a termini di legge, secondo ciò che la legge prescrive.2 (est.) Complesso delle norme costituenti l'ordinamento giuridico di uno Stato: la legge è uguale per tutti Essere fuori della legge, non essere garantito dalla legge o non sentirsi a essa soggetto Dettar legge, imporre a tutti la propria volontà.3 Scienza giuridica: laurea in legge; dottore in legge; facoltà di legge Uomo di legge, specialista nella scienza giuridica.4 Autorità giudiziaria: ricorrere alla legge In nome della legge, formula con cui i rappresentanti dell'autorità giudiziaria intimano a qc. di obbedire a un comando della stessa: in nome della legge, aprite!5 (est.) Ogni norma che regola la condotta individuale o sociale degli uomini: le leggi della società.6 (est.) Regola fondamentale di una tecnica, di un'arte e sim.: le leggi della pittura.7 Relazione determinata e costante fra le quantità variabili che entrano in un fenomeno: le leggi della matematica, della fisica.
![Page 39: ELABORAZIONE DEL LINGUAGGIO NATURALE](https://reader036.fdocuments.net/reader036/viewer/2022062411/568166a5550346895dda92de/html5/thumbnails/39.jpg)
ZINGARELLI INTERATTIVO: LEGGE2
leggerev. tr. (pres. io lèggo, tu lèggi; pass. rem. io lèssi, tu leggésti; part. pass. lètto)1 Riconoscere dai segni della scrittura le parole e comprenderne il significato: imparare, insegnare a leggere; leggere a voce alta (ass.) Fare lettura, dedicarsi alla lettura: trascorro gran parte della giornata leggendo.2 Interpretare certi segni convenzionali o naturali: i ciechi leggono con le dita; leggere un diagramma (fig.) Leggere la mano, ricavare dati sul carattere e sul destino di qc. basandosi sulle linee della mano.3 (lett.) Interpretare uno scritto, un passo: i critici dell'Ottocento leggevano erroneamente questa strofa (est.) Interpretare, valutare scritti, eventi e sim. secondo particolari criteri: leggere un film in chiave ironica.4 (fig.) Intuire i pensieri e le intenzioni di qc.: gli si legge il terrore sul volto.
![Page 40: ELABORAZIONE DEL LINGUAGGIO NATURALE](https://reader036.fdocuments.net/reader036/viewer/2022062411/568166a5550346895dda92de/html5/thumbnails/40.jpg)
USO DI CORPORA PER LA CLASSIFICAZIONE GRAMMATICALE
• In molti dei corpora piu’ recenti (a partire dal Brown corpus), e particolarmente in quelli usati per la lessicografia, i token vengono classificati con la loro parte di discorso– Brown corpus: fatto a mano– BNC, LIP: fatto automaticamente
• Queste informazioni possono essere usate per associare parti del discorso ai lemmi
![Page 41: ELABORAZIONE DEL LINGUAGGIO NATURALE](https://reader036.fdocuments.net/reader036/viewer/2022062411/568166a5550346895dda92de/html5/thumbnails/41.jpg)
IL BROWN CORPUS
• Il primo corpus in formato elettronico moderno (Francis and Kucera, 1961)
• 500 testi, ognuno 2 000 parole• Analisi SINCRONICA dell’Inglese Americano:
testi di 15 generi (fantascienza, romanzi, articoli scientifici, reportage a stampa)
• Annotata la parte del discorso di tutte le parole (87 classi)
![Page 42: ELABORAZIONE DEL LINGUAGGIO NATURALE](https://reader036.fdocuments.net/reader036/viewer/2022062411/568166a5550346895dda92de/html5/thumbnails/42.jpg)
IL British National Corpus (BNC)
• Creato tra il 1991 ed il 1994 da un consorzio diretto da Oxford University Press
• Circa 100 milioni di parole• Classificazione grammaticale automatica usando il
classificatore CLAWS (parti corrette a mano successivamente)
• http://www.hcu.ox.ac.uk/BNC
![Page 43: ELABORAZIONE DEL LINGUAGGIO NATURALE](https://reader036.fdocuments.net/reader036/viewer/2022062411/568166a5550346895dda92de/html5/thumbnails/43.jpg)
CLASSIFICAZIONE GRAMMATICALE: BROWN CORPUS
Television/NN has/HVZ yet/RB to/TO work/VB out/RP a/AT living/RBG arrangement/NN with/IN jazz/NN ,/, which/VDT comes/VBZ to/IN the/AT medium/NN more/QL as/CS an/AT uneasy/JJ guest/NN than/CS as/CS a/AT relaxed/VBN member/NN of/IN the/AT family/NN ./.
![Page 44: ELABORAZIONE DEL LINGUAGGIO NATURALE](https://reader036.fdocuments.net/reader036/viewer/2022062411/568166a5550346895dda92de/html5/thumbnails/44.jpg)
AMBIGUITA’ NELLA CLASSIFICAZIONE GRAMMATICALE
• Molte forme di parola possono essere associate con parti del discorso diverse:– STATO sia sostantivo (LO STATO ITALIANO) che
verbo (NON SONO STATO IO)
![Page 45: ELABORAZIONE DEL LINGUAGGIO NATURALE](https://reader036.fdocuments.net/reader036/viewer/2022062411/568166a5550346895dda92de/html5/thumbnails/45.jpg)
AMBIGUITA’ NELLA CLASSIFICAZIONE GRAMMATICALE
The ATman NN VBstill NN VB RBsaw NN VBDher PPO PP$
![Page 46: ELABORAZIONE DEL LINGUAGGIO NATURALE](https://reader036.fdocuments.net/reader036/viewer/2022062411/568166a5550346895dda92de/html5/thumbnails/46.jpg)
STATISTICHE SULL’AMBIGUITA’ NEL B.C.
Unambiguous (1tag) 35,340Ambiguous (2-7 tags) 4,100
2 tags 3,7603 tags 2644 tags 615 tags 126 tags 27 tags 1 (“still”)
![Page 47: ELABORAZIONE DEL LINGUAGGIO NATURALE](https://reader036.fdocuments.net/reader036/viewer/2022062411/568166a5550346895dda92de/html5/thumbnails/47.jpg)
METODI PER LA CLASSIFICAZIONE GRAMMATICALE AUTOMATICA
• Prevalentemente STATISTICI• Combinano:
– Informazioni sulla FREQUENZA di una parola– Con informazioni sul CONTESTO (specialmente
parole precedenti)– E sulla sua MORFOLOGIA (specialmente per parole
sconosciute)• POBILARE
![Page 48: ELABORAZIONE DEL LINGUAGGIO NATURALE](https://reader036.fdocuments.net/reader036/viewer/2022062411/568166a5550346895dda92de/html5/thumbnails/48.jpg)
I MORFEMI
• Le parole non sono necessariamente ‘atomiche’, ma (in Italiano almeno) si possono quasi sempre scomporre in unita’ piu’ piccole: i MORFEMI
• Un MORFEMA e’ “la minima unita’ linguistica dotata di un significato proprio”
![Page 49: ELABORAZIONE DEL LINGUAGGIO NATURALE](https://reader036.fdocuments.net/reader036/viewer/2022062411/568166a5550346895dda92de/html5/thumbnails/49.jpg)
DUE ESEMPI
BOYS
BOY + -S
`essere umano, non adulto, sesso maschile’
`plurale’
![Page 50: ELABORAZIONE DEL LINGUAGGIO NATURALE](https://reader036.fdocuments.net/reader036/viewer/2022062411/568166a5550346895dda92de/html5/thumbnails/50.jpg)
DUE ESEMPI
REPURIFICARE
`ripetizione’ `privo di contaminanti’
RE- + PUR- + -IFICARE
`rendere’
![Page 51: ELABORAZIONE DEL LINGUAGGIO NATURALE](https://reader036.fdocuments.net/reader036/viewer/2022062411/568166a5550346895dda92de/html5/thumbnails/51.jpg)
STRUTTURA DELLE PAROLE
• INGLESE: RADICE + AFFISSI– RADICE (boy)– AFFISSI (-s in boy+s)
• ITALIANO: TEMA + AFFISSI– RADICE (ragazz-)– TEMA (radice + vocale tematica – e.g., ragazzo)– AFFISSI (-i in ragazz+i)
![Page 52: ELABORAZIONE DEL LINGUAGGIO NATURALE](https://reader036.fdocuments.net/reader036/viewer/2022062411/568166a5550346895dda92de/html5/thumbnails/52.jpg)
AFFISSI
• La modificazione delle parole avviene in due modi principali: `attaccando’ un AFFISSO ad un morfema; o giustapponendo due morfemi
• Tre tipi di affissi:– PREFISSI: RE- + PURIFICARE REPURIFICARE– SUFFISSI: PUR- + - IFICARE PURIFICARE– INFISSI: CANT- + -ICCH- + IARE CANTICCHIARE
![Page 53: ELABORAZIONE DEL LINGUAGGIO NATURALE](https://reader036.fdocuments.net/reader036/viewer/2022062411/568166a5550346895dda92de/html5/thumbnails/53.jpg)
TRE TIPI DI MODIFICAZIONE
• FLESSIONE• DERIVAZIONE• COMPOSIZIONE
![Page 54: ELABORAZIONE DEL LINGUAGGIO NATURALE](https://reader036.fdocuments.net/reader036/viewer/2022062411/568166a5550346895dda92de/html5/thumbnails/54.jpg)
FLESSIONE
• Processo che AGGIUNGE alla radice / tema informazione semantica ‘grammaticalizzata’ (tipicamente via suffissi):– GENERE: bello bella– NUMERO: bello belli– CASO (Latino, Tedesco): rosa rosam– TEMPO: ama amava– PERSONA: amo / ami / ama
![Page 55: ELABORAZIONE DEL LINGUAGGIO NATURALE](https://reader036.fdocuments.net/reader036/viewer/2022062411/568166a5550346895dda92de/html5/thumbnails/55.jpg)
DERIVAZIONE
• Processo che produce NUOVE parole aggiungendo al tema prefissi, suffissi ed infissi– PREFISSI: RE- + PURIFICARE REPURIFICARE– SUFFISSI: PUR- + - IFICARE PURIFICARE– INFISSI: CANT- + -ICCH- + IARE CANTICCHIARE
![Page 56: ELABORAZIONE DEL LINGUAGGIO NATURALE](https://reader036.fdocuments.net/reader036/viewer/2022062411/568166a5550346895dda92de/html5/thumbnails/56.jpg)
SUFFISSI ALTERATIVI
• Indicano dimensioni ridotte o segnalano l’informalita’ della situazione– casetta– cenetta / sposini
• Tipici dell’italiano
![Page 57: ELABORAZIONE DEL LINGUAGGIO NATURALE](https://reader036.fdocuments.net/reader036/viewer/2022062411/568166a5550346895dda92de/html5/thumbnails/57.jpg)
CONVERSIONE• Il processo di derivazione puo’ produrre parole la cui
categoria lessicale (parte del discorso) e’ diversa da quella della parola originale.– N V: magnete magnetizzare– A V: attivo attivare– N A V: centro centrale centralizzare– A N V: giusto giustizia giustiziare
• In Italiano (ma non in Inglese): sostantivazione dell’aggettivo (povero / il povero)
![Page 58: ELABORAZIONE DEL LINGUAGGIO NATURALE](https://reader036.fdocuments.net/reader036/viewer/2022062411/568166a5550346895dda92de/html5/thumbnails/58.jpg)
COMPOSIZIONE
• La composizione forma nuove parole a partire da parole esistenti– CAPO+STAZIONE CAPOSTAZIONE– SALVA+VITA SALVAVITA– PAST- + ASCIUTTA PASTASCIUTTA
![Page 59: ELABORAZIONE DEL LINGUAGGIO NATURALE](https://reader036.fdocuments.net/reader036/viewer/2022062411/568166a5550346895dda92de/html5/thumbnails/59.jpg)
LEMMATIZZAZIONE AUTOMATICA
DARGLIELO
![Page 60: ELABORAZIONE DEL LINGUAGGIO NATURALE](https://reader036.fdocuments.net/reader036/viewer/2022062411/568166a5550346895dda92de/html5/thumbnails/60.jpg)
XELDA: DEMO ONLINE
• Analisi morfologica in 14 lingue
![Page 61: ELABORAZIONE DEL LINGUAGGIO NATURALE](https://reader036.fdocuments.net/reader036/viewer/2022062411/568166a5550346895dda92de/html5/thumbnails/61.jpg)
PER RIASSUMERE:
• NOZIONI DI BASE DI MORFOLOGIA:– PARTI DEL DISCORSO– MORFEMA– FLESSIONE, DERIVAZIONE, COMPOSIZIONE