ANNUNCI ORARI: 25/4 e 2/5: niente lezione RICEVIMENTO: Lunedi 16-18, ufficio di Povo, SOLO SU...
-
Upload
flavio-bertini -
Category
Documents
-
view
213 -
download
1
Transcript of ANNUNCI ORARI: 25/4 e 2/5: niente lezione RICEVIMENTO: Lunedi 16-18, ufficio di Povo, SOLO SU...
ANNUNCI
ORARI: 25/4 e 2/5: niente lezione
RICEVIMENTO: Lunedi’ 16-18, ufficio di Povo, SOLO SU
APPUNTAMENTO http://www.dit.unitn.it/~poesio/Teach/IU
piano delle lezioni di Informatica Umanistica D online.
INFORMATICA UMANISTICA D: LESSICOGRAFIA E COMPUTER
Cosa si intende per ‘parola’?Informazioni lessicali: parti del discorsoInformazioni lessicali: morfologia
LESSICOGRAFIA E COMPUTER: ARGOMENTI DEL CORSO
I dizionari e la loro storia Conoscenza lessicale:
parole morfologia collocazioni semantica
Lessicografia Dizionari elettronici Lessici elettronici: WordNet
LESSICO E DIZIONARIO
LESSICO: insieme di parole di una lingua e delle informazioni lessicali su queste parole
DIZIONARIO: una descrizione di questo lessico (Differenza simile a quella tra struttura di
una lingua e grammatica)
INFORMAZIONI LESSICALI
Proprieta’ foniche / grafiche Informazioni sintattiche (parti del
discorso) Informazioni morfologiche Significato
QUALI SONO LE ‘PAROLE’ DI UNA LINGUA?
= quante parole ha una lingua?
= che lemmi ci devono essere in un dizionario?
QUALI SONO LE PAROLE DI UNA LINGUA?
25 lemmi dal Concise Oxford Dictionary: wannabe, want, wanting, wanton, wapentake, wapiti, War., war, waratah, war baby, warble1, warble2, warble fly, warbler, warby, war chest, war crime,
war cry, ward, -ward
JACKSON: TRE SENSI DI ‘WORD’ (‘PAROLA’)
ORTHOGRAPHIC WORD: una sequenza di lettere circondata da spazi
PHONEMIC WORD: una sequenza di suoni (fonemi)
LEXEME: una unita’ del lessico, a cui puo’ corrispondere una voce distinta in un dizionario
DEFINIZIONE TRADIZIONALE DI PAROLA
La parola e’ “cio che si trova tra due spazi bianchi”
QUALI SONO LE PAROLE DI UNA LINGUA?
25 lemmi dal Concise Oxford Dictionary: wannabe, want, wanting, wanton, wapentake, wapiti, War., war, waratah, war baby, warble1, warble2, warble fly, warbler, warby, war chest, war crime,
war cry, ward, -ward
PAROLE E FORME DI PAROLA
want (ma non wanted) sings, sang, sung sing
Italiano: mangerò, mangeresti, mangerai
mangiare nero, nera, neri, nere nero
= 7 forme di parola, 2 parole
FORME DI CITAZIONE
Un dizionario riporta le FORME DI CITAZIONE (= LEMMI) delle parole
Convenzioni diverse a seconda della lingua: Italiano: infinito (AMARE)
Inglese: TO LOVE Latino: prima persona presente singolare
(AMO)
OMONIMI
warble1, warble2 : due PAROLE, stessa FORMA (OMONIMI) Italiano: diligenza, tara, (botte, pesca …)
PRIMO CRITERIO DI IDENTIFICAZIONE :
Si hanno parole distinte quando si abbiano CONCETTI diversi Vedi sotto, morfemi
PAROLE: FORME FONEMICHE E GRAFICHE
La definizione di parola “cio’ che si trova tra due spazi bianchi” e’ puramente ORTOGRAFICA
Ogni parola ha DUE forme: i SUONI (FONEMI) che la compongono e il modo in cui viene rappresentata
graficamente (GRAFIA)
PAROLE E LA LORO GRAFIA
La nostra `immagine’ delle parole (e la loro posizione in un dizionario, cartaceo od elettronico) spesso dipende dalla grafia usata La grafia pero’ cambia di continuo:
lengaio linguaggio, dinaro denaro Occorre anche ricordare che lo scritto
segue il parlato, e che non sempre la corrispondenza e’ perfetta
INGLESE:
HOMOGRAPHS read, read, read tear / tear bow, refuse, wind
HOMOPHONES: bare / bear, pale / pail, stake / steak Mary / merry / marry (alcuni dialetti
Americani)
ITALIANO
La grafia delle parole Italiane non e’ cambiata molto dagli inizi del Cinquecento (prime edizioni a stampa, e.g., edizione del Petrarca curata da Bembo e stampata da Manuzio nel 1515)
Ma per secoli l’ortografia non corrispondeva alla pronuncia
DUE ESEMPI DI CAMBIAMENTO DI GRAFIA
V = U Vocabolario della Crusca, 1612:
VATICINARE VBBIA VDITORE
(Crusca 1738: V U, ordine invariato) H
Vocabolario della Crusca, 1612: HUMILE
GRAFEMI E FONEMI
mela m'me:la
bello 'bɛ:llo
bene 'bɛ:ne
ieri 'jɛ:ri
In Italiano ci sono 21 grafemi (+ 5) ma 30 fonemi
QUALI SONO LE PAROLE DI UNA LINGUA?
25 lemmi dal Concise Oxford Dictionary: wannabe, want, wanting, wanton, wapentake, wapiti, War., war, waratah, war baby, warble1, warble2, warble fly, warbler, warby, war chest, war crime,
war cry, ward, -ward
UNA FORMA, DUE PAROLE
CONTRAZIONI: Wannabe
gonna, gimme …
CLITICI: COMPRALO SCRIVIMI
DUE FORME, UNA PAROLA
Parole POLIREMATICHE o COMPLESSE (Inglese: MULTIWORDS)
RIFLESSIVI: sedersi (Mario si sedette)
Inglese sit (Mario sat) PAROLE IDIOMATICHE
palla al piede, vuotare il sacco, tavola rotonda ‘WEAK VERBS’
avere paura COMPOSTI: sci alpinismo, fuori servizio
PAROLE POLIREMATICHE IN INGLESE
PHRASAL VERBS: break up, calm down, find out, give in, look over, pass out, show up, take off …..
COMPOUNDS: war baby, war chest, war crime, war cry, war
dance bell and whistles, rock and roll, bow and scrape,
nip and tuck …. IN TEDESCO:
Donaudampfschiffahrtgesellschaftkapitänwitwe
DA FORME POLIREMATICHE A COMPOSTI
salvavita / tritacarne / dopolavoro / benestante
PAROLA = LESSEMA
Marello: “il termine PAROLA … [indica una] unita’
linguistica a cui sono associati una funzione grammaticale ed un significato, separata graficamente dalle altre da spazi e dotata di coesione interna, per cui non si possono inserire altri elementi al suo interno, ne’ si puo’ mutare l’ordine degli elementi che la costituiscono”
RICORDIAMO ALCUNE DEFINIZIONI
PAROLA (Inglese WORD): elemento linguistico (= unita’ del ‘lessico mentale’, LESSEMA)
FORME DI PAROLA (Inglese WORD-FORM): Ortografica Fonetica
LEMMA La FORMA DI CITAZIONE di una parola in un dizionario,
associata con una VOCE (Inglese LEXICAL ENTRY) Spesso si usa il termine lemma per indicare la parola
(rapporto 1:1)
USO DI CORPORA PER L’IDENTIFICAZIONE DELLE PAROLE
Where did the Encarta Concise English Dictionary’s editors find the information on which to base their definitions? The Bloomsbury Corpus of World English, which now has over 150 million words, provided the main evidence. We amplified this with a tailored reading programme in science, technology, business, and other key areas in order to find evidence of word use in varied fields. Lastly we used the Internet as a research source.
Introduzione a ECED (citata da Jackson, p. 167)
ANALISI LESSICOGRAFICA DI TESTI
Identificazione dei LEMMI e delle loro parti del discorso Calcolo delle loro frequenze
Costruzione di CONCORDANZE liste ordinate di parole che si trovano in un
testo con il contesto Identificazione di COLLOCAZIONI
“broken twig”
L’IDENTIFICAZIONE DEI LEMMI NEI TESTI VIA COMPUTER
TOKENIZZAZIONE LEMMATIZZAZIONE CLASSIFICAZIONE GRAMMATICALE
TOKENIZZAZIONE
C’ERA UNA VOLTA UN PEZZO DI LEGNO.
C’ERA | UNA | VOLTA | UN | PEZZO | DI | LEGNO. |
C’ | ERA | UNA | VOLTA | UN | PEZZO | DI | LEGNO | . |
ALCUNI PROBLEMI CON IL PUNTO
C’ERA UNA VOLTA UN PEZZO DI LEGNO.
IL SIG. ROSSI TELEFONÓ A CASA.
U.S.A.
9.45
WWW.GOOGLE.IT
MAIUSCOLE E MINUSCOLE
Rossi / rossi
Ciliegia / ciliegia
FORME POLIREMATICHE(= TOKEN COMPLESSI)
Vuotare il sacco, tagliare la corda, di rado, fuori servizio, ad hoc War baby
Los Angeles, La Spezia GU L 161 del 26.6.1999
LA CLASSIFICAZIONE DELLE PAROLE
Jackson, 1.5 Per saperne di piu’:
Jezek, capitolo 4 Graffi / Scalise, capitolo 2
RESTRIZIONI SULLE POSIZIONI DELLE PAROLE
La ragazza lesse rapidamente il libro *Ragazza la lesse rapidamente il libro *La ragazza lesse il rapidamente libro
Inglese: *The Sue quickly read the book Sottocategorie:
*La ragazza arrivo’ il libro conigliera, baleniera, teiera, ma: *virtuiera,
*pazienzera
CATEGORIE LESSICALI (PARTI DEL DISCORSO)
NOMI (tavolo, Simona) VERBI (camminare, mangiare, colpire) AGGETTIVI (rosso, rapido) AVVERBI (probabilmente, subito) PRONOMI (io, lui, ci) ARTICOLI (il, la, un) PREPOSIZIONI (di, a, con) CONGIUNZIONI (e, ma, o) [Italiano]: INTERIEZIONI (ahi! )
ALCUNE DISTINZIONI
PARTI DEL DISCORSO VARIABILI / INVARIABILI L’uomo cammina / camminava
PARTI DEL DISCORSO APERTE / CHIUSE Aperte: nomi, verbi, aggettivi, avverbi Chiuse: articoli, pronomi, preposizioni,
congiunzioni
CATEGORIE UNIVERSALI?
Il nome ed il verbo non mancano in nessuna lingua
L’articolo manca in molte lingue (Latino, lingue slave, Cinese)
Avverbio?
CATEGORIE LESSICALI E DIZIONARI
Un dizionario tipicamente identifica tutte le parti del discorso che una certa forma di parola puo’ essere usata per esprimere, e solitamente associa voci diverse con ogni parte warble1, warble2
Italiano: legge, letto, affetto, porto, pianta …
ZINGARELLI INTERATTIVO: LEGGE1
1 Norma, espressa dagli organi legislativi dello Stato, che stabilisce diritti e doveri dei cittadini Legge delega, che viene emessa dal potere esecutivo su delega del potere legislativo entro un ambito ben precisato Legge ponte, emessa in attesa di un'altra più organica A norma, a termini di legge, secondo ciò che la legge prescrive.2 (est.) Complesso delle norme costituenti l'ordinamento giuridico di uno Stato: la legge è uguale per tutti Essere fuori della legge, non essere garantito dalla legge o non sentirsi a essa soggetto Dettar legge, imporre a tutti la propria volontà.3 Scienza giuridica: laurea in legge; dottore in legge; facoltà di legge Uomo di legge, specialista nella scienza giuridica.4 Autorità giudiziaria: ricorrere alla legge In nome della legge, formula con cui i rappresentanti dell'autorità giudiziaria intimano a qc. di obbedire a un comando della stessa: in nome della legge, aprite!5 (est.) Ogni norma che regola la condotta individuale o sociale degli uomini: le leggi della società.6 (est.) Regola fondamentale di una tecnica, di un'arte e sim.: le leggi della pittura.7 Relazione determinata e costante fra le quantità variabili che entrano in un fenomeno: le leggi della matematica, della fisica.
ZINGARELLI INTERATTIVO: LEGGE2
leggerev. tr. (pres. io lèggo, tu lèggi; pass. rem. io lèssi, tu leggésti; part. pass. lètto)1 Riconoscere dai segni della scrittura le parole e comprenderne il significato: imparare, insegnare a leggere; leggere a voce alta (ass.) Fare lettura, dedicarsi alla lettura: trascorro gran parte della giornata leggendo.2 Interpretare certi segni convenzionali o naturali: i ciechi leggono con le dita; leggere un diagramma (fig.) Leggere la mano, ricavare dati sul carattere e sul destino di qc. basandosi sulle linee della mano.3 (lett.) Interpretare uno scritto, un passo: i critici dell'Ottocento leggevano erroneamente questa strofa (est.) Interpretare, valutare scritti, eventi e sim. secondo particolari criteri: leggere un film in chiave ironica.4 (fig.) Intuire i pensieri e le intenzioni di qc.: gli si legge il terrore sul volto.
USO DI CORPORA PER LA CLASSIFICAZIONE GRAMMATICALE
In molti dei corpora piu’ recenti (a partire dal Brown corpus), e particolarmente in quelli usati per la lessicografia, i token vengono classificati con la loro parte di discorso Brown corpus: fatto a mano BNC, LIP: fatto automaticamente
Queste informazioni possono essere usate per associare parti del discorso ai lemmi
IL BROWN CORPUS
Il primo corpus in formato elettronico moderno (Francis and Kucera, 1961)
500 testi, ognuno 2 000 parole Analisi SINCRONICA dell’Inglese
Americano: testi di 15 generi (fantascienza, romanzi, articoli scientifici, reportage a stampa)
Annotata la parte del discorso di tutte le parole (87 classi)
IL British National Corpus (BNC)
Creato tra il 1991 ed il 1994 da un consorzio diretto da Oxford University Press
Circa 100 milioni di parole Classificazione grammaticale automatica
usando il classificatore CLAWS (parti corrette a mano successivamente)
http://www.hcu.ox.ac.uk/BNC
CLASSIFICAZIONE GRAMMATICALE: BROWN CORPUS
Television/NN has/HVZ yet/RB to/TO work/VB out/RP a/AT living/RBG arrangement/NN with/IN jazz/NN ,/, which/VDT comes/VBZ to/IN the/AT medium/NN more/QL as/CS an/AT uneasy/JJ guest/NN than/CS as/CS a/AT relaxed/VBN member/NN of/IN the/AT family/NN ./.
AMBIGUITA’ NELLA CLASSIFICAZIONE GRAMMATICALE
Molte forme di parola possono essere associate con parti del discorso diverse: STATO sia sostantivo (LO STATO
ITALIANO) che verbo (NON SONO STATO IO)
AMBIGUITA’ NELLA CLASSIFICAZIONE GRAMMATICALE
The ATman NN VBstill NN VB RBsaw NN VBDher PPO PP$
STATISTICHE SULL’AMBIGUITA’ NEL B.C.
Unambiguous (1tag) 35,340Ambiguous (2-7 tags) 4,100
2 tags 3,7603 tags 2644 tags 615 tags 126 tags 27 tags 1 (“still”)
METODI PER LA CLASSIFICAZIONE GRAMMATICALE AUTOMATICA
Prevalentemente STATISTICI Combinano:
Informazioni sulla FREQUENZA di una parola
Con informazioni sul CONTESTO (specialmente parole precedenti)
E sulla sua MORFOLOGIA (specialmente per parole sconosciute) POBILARE
STRUMENTI INFORMATICI PER LA CLASSIFICAZIONE GRAMMATICALE
INGLESE: LTG Edinburgh (LT-POS)
http://www.ltg.ed.ac.uk/software/pos/index.html QTAG Brill Tagger
TEDESCO: TreeTagger:
http://www.ims.uni-stuttgart.de/projekte/corplex/TreeTagger/DecisionTreeTagger.html
ITALIANO: versione italiana di TreeTagger A PAGAMENTO:
Xelda (Italiano, Inglese, Francese, Tedesco, Chinese, Russo, etc)
MORFOLOGIA
Jackson, 1.6 Marello, 1.2 Graffi / Scalise, I.3
I MORFEMI
Le parole non sono necessariamente ‘atomiche’, ma (in Italiano almeno) si possono quasi sempre scomporre in unita’ piu’ piccole: i MORFEMI
Un MORFEMA e’ “la minima unita’ linguistica dotata di un significato proprio”
DUE ESEMPI
BOYS
BOY + -S
`essere umano, non adulto, sesso maschile’
`plurale’
DUE ESEMPI
REPURIFICARE
`ripetizione’ `privo di contaminanti’
RE- + PUR- + -IFICARE
`rendere’
STRUTTURA DELLE PAROLE
INGLESE: RADICE + AFFISSI RADICE (boy) AFFISSI (-s in boy+s)
ITALIANO: TEMA + AFFISSI RADICE (ragazz-) TEMA (radice + vocale tematica – e.g.,
ragazzo) AFFISSI (-i in ragazz+i)
AFFISSI
La modificazione delle parole avviene in due modi principali: `attaccando’ un AFFISSO ad un morfema; o giustapponendo due morfemi
Tre tipi di affissi: PREFISSI: RE- + PURIFICARE
REPURIFICARE SUFFISSI: PUR- + - IFICARE PURIFICARE INFISSI: CANT- + -ICCH- + IARE
CANTICCHIARE
TRE TIPI DI MODIFICAZIONE
FLESSIONE DERIVAZIONE COMPOSIZIONE
FLESSIONE
Processo che AGGIUNGE alla radice / tema informazione semantica ‘grammaticalizzata’ (tipicamente via suffissi): GENERE: bello bella NUMERO: bello belli CASO (Latino, Tedesco): rosa rosam TEMPO: ama amava PERSONA: amo / ami / ama
DERIVAZIONE
Processo che produce NUOVE parole aggiungendo al tema prefissi, suffissi ed infissi PREFISSI: RE- + PURIFICARE
REPURIFICARE SUFFISSI: PUR- + - IFICARE
PURIFICARE INFISSI: CANT- + -ICCH- + IARE
CANTICCHIARE
SUFFISSI ALTERATIVI
Indicano dimensioni ridotte o segnalano l’informalita’ della situazione casetta cenetta / sposini
Tipici dell’italiano
CONVERSIONE
Il processo di derivazione puo’ produrre parole la cui categoria lessicale (parte del discorso) e’ diversa da quella della parola originale. N V: magnete magnetizzare A V: attivo attivare N A V: centro centrale centralizzare A N V: giusto giustizia giustiziare
In Italiano (ma non in Inglese): sostantivazione dell’aggettivo (povero / il povero)
COMPOSIZIONE
La composizione forma nuove parole a partire da parole esistenti CAPO+STAZIONE CAPOSTAZIONE SALVA+VITA SALVAVITA PAST- + ASCIUTTA PASTASCIUTTA
LEMMATIZZAZIONE AUTOMATICA
DARGLIELO
LEMMATIZZAZIONE NEL LIP
In Italiano, una volta nota la categoria grammaticale di una forma il lemma e’ solitamente univocamente determinato Eccezioni: 1.4% (CONTI: pl. di
CONTO o CONTE) Processo in tre passi
LEMMATIZZAZIONE
ANCORA LA DERIVA:1. ANCORA (N, V, CON) LA (ART, PRO)
DERIVA N, V)
2. ANCORA (V) LA (ART) DERIVA (N)
3. ANCORA (V ANCORARE) LA (ART IL) DERIVA (N DERIVA)
LEMMATIZZAZIONE CON XELDA
XELDA: DEMO ONLINE
Analisi morfologica in 14 lingue
PER RIASSUMERE:
NOZIONI DI BASE DI MORFOLOGIA: PARTI DEL DISCORSO MORFEMA FLESSIONE, DERIVAZIONE,
COMPOSIZIONE
PROCESSI DI FORMAZIONE DELLE PAROLE
COMPOSIZIONE DA PAROLE ESISTENTI Anche due parole greche (biblioteca, ippodromo)
DERIVAZIONI Remasterizzare
ACRONIMI AIDS, CD-ROM, HTML …
‘PRESTITI’ Bonsai, glasnost, golpe, tango,
ACRONIMI IN ITALIANO: Dizionario interattivo Zanichelli
TN (Trento, Tennessee, etc) T/N – turbonave TND – dinaro tunisino TNT TO TOM - fr. Territoire d'Outre-Mer (territorio d'oltremare) TOREMAR - TOscana REgionale MARittima (società di
navigazione) Torr. - Torrente (nelle carte geografiche) TOSAP (Tassa sull'Occupazione di Spazi ed Aree Pubblici) Tosc. (toscano)
DA DOVE ARRIVANO LE PAROLE DELL’ITALIANO?
Le parole piu’ antiche: Sec IX-X: a, da, bevere, dente, favella 960-963: anno, contenere, ki (qui) 1150-59: genitore, male, pane, prendere
Dal bizantino: arcipelago, catasto, duca, iconoclasta, molo, … Dal latino medievale: acquavite, bonificare, commissario,
scatola, … Dalle lingue Germaniche: albergo (Gotico), airone
(Longobardo) Dall’Arabo: darsena, dogana, ,magazzino, assassino, cotone,
facchino, algebra, zenit, alambicco … Dal Francese: bersaglio, conte, dama, freccia, giullare, sire Dallo Spagnolo: acciacco, alfiere, appartamento, disinvoltura,
….
STORIA DELLE PAROLE INGLESI
Dall’Anglo Sassone ( Old English) Dalle lingue scandinave (they, them,
their) Dal Francese ( Middle English) Dal Latino / Greco / Francese durante
il Rinascimento fino al 1700 circa
LETTURE
Jackson, capitoli 1 e 9 Marello, capitolo 1 Per saperne di piu’:
Jezek, capitoli 1, 2 e 4 Lenci Montemagni & Pirrelli, capitolo 4