Strumenti statistici per l'analisi della distribuzione dei fatti linguistici
-
Upload
mariagiovanna-scarale-informatica-umanistica -
Category
Education
-
view
913 -
download
10
description
Transcript of Strumenti statistici per l'analisi della distribuzione dei fatti linguistici
Alessia Pierfederici – Mariagiovanna Scarale
Seminario di Linguistica italiana II (prof. Mirko Tavoni),
a.a. 2012/2013
STRUMENTI STATISTICI PER
L’ANALISI DELLA DISTRIBUZIONE
DEI FATTI LINGUISTICI
SOMMARIO
Preliminari;
Nozioni di Statistica;
Un esperimento di statistica lessicale:
le opere di Alessandro Baricco;
Analisi di un fenomeno nello scritto e
nel parlato;
Alessia Pierfederici e Mariagiovanna Scarale,
Linguistica Italiana II a.a. 2012/2013 2
1. PRELIMINARI
Alessia Pierfederici e Mariagiovanna Scarale,
Linguistica Italiana II a.a. 2012/2013 3
1. PRELIMINARI
Manlio Cortelazzo, Arjuna Tuzzi,
Metodi statistici applicati all’italiano,
Zanichelli, Bologna, 2008.
Alessia Pierfederici e Mariagiovanna Scarale,
Linguistica Italiana II a.a. 2012/2013 4
1. PRELIMINARI
Lo studio della lingua è sempre stato visto, nel corso dei
decenni, come uno studio prevalentemente qualitativo.
Accanto a questo tipo di considerazione non bisogna
sottovalutare che fin dagli antichi Greci era presente l’idea
di uno studio quantitativo, basato sul confronto
numerico delle parole (hapax legoménon).
Alessia Pierfederici e Mariagiovanna Scarale,
Linguistica Italiana II a.a. 2012/2013 5
1. PRELIMINARI
L’analisi quantitativa, però, non può prescindere
dall’analisi qualitativa.
Per compiere uno studio accurato e, soprattutto, veritiero,
occorre sempre creare delle fondamenta qualitative, su cui
poggeranno poi le inferenze quantitative e i relativi
risultati statistici.
Alessia Pierfederici e Mariagiovanna Scarale,
Linguistica Italiana II a.a. 2012/2013 6
1. PRELIMINARI
Le indagini di cui si occupa la Statistica prendono campo
attorno ai fenomeni collettivi e di massa (misurabili,
quindi, mediante molteplici osservazioni).
Alessia Pierfederici e Mariagiovanna Scarale,
Linguistica Italiana II a.a. 2012/2013 7
1. PRELIMINARI
Sono state molte le critiche mosse nei confronti dei linguisti che hanno cercato un approccio statistico nei loro studi e molti sono stati i dubbi avanzati circa l’utilità delle applicazioni statistiche ai fenomeni linguistici, che sono visti:
- di natura qualitativa;
- liberi, e quindi lontani dal «determinismo» statistico;
- caratterizzati da accidenti originali e diversi gli uni dagli altri;
- complessi;
- raggiungibili, nell’aspetto numerico, solo grazie a vasti e imponenti studi preliminari.
Alessia Pierfederici e Mariagiovanna Scarale,
Linguistica Italiana II a.a. 2012/2013 8
1. PRELIMINARI
A questa serie di obiezioni si può contrapporre
l’affermazione di Guiraud che sostiene, al contrario, che
« l a l i ng u i s t i c a è l a s c i enza s t a t i s t i c a t i po,
g l i s t a t i s t i c i l o s a nno bene ; l a m a g g io r
pa r t e d e i l i ng u i s t i a nco r a l o i g no r a » .
(Tratto da Problèmes et méthodes de la statistique linguistique, Presses
Universitaires de France, Paris, p.15)
Alessia Pierfederici e Mariagiovanna Scarale,
Linguistica Italiana II a.a. 2012/2013 9
1. PRELIMINARI
LA STATISTICA
« S t r u m e n t o p e r l a d e s c r i z i o n e d i u n o S t a t o i n
t u t t e l e s u e p a r t i »
( B e r n a r d o n i , 1 8 1 2 ) .
La statistica per anni ha avuto un ruolo di supporto nei processi
decisionali nell’ambito della pianificazione economica e dell’azione
politica dello Stato.
Solo di recente è diventata parte integrante dei processi produttivi e
strumento di ricerca di molte discipline scientifiche.
Alessia Pierfederici e Mariagiovanna Scarale,
Linguistica Italiana II a.a. 2012/2013 10
1. PRELIMINARI
LA STATISTICA
Alessia Pierfederici e Mariagiovanna Scarale,
Linguistica Italiana II a.a. 2012/2013 11
STATISTICA
DESCRITTIVA
STATISTICA
INFERENZIALE
1. PRELIMINARI
LA STATISTICA DESCRITTIVA
Analizza i dati raccolti per offrire un quadro generale, una sorta di
«osservazione da vicino» del campione o della popolazione presi in
esame.
Prende in considerazione gli aspetti di organizzazione, presentazione
(es. tabelle e grafici) e compendio dei dati; vi fanno parte le
statistiche anagrafiche e demografiche.
Alessia Pierfederici e Mariagiovanna Scarale,
Linguistica Italiana II a.a. 2012/2013 12
1. PRELIMINARI
LA STATISTICA INFERENZIALE
Nell’ottica inferenziale sono proposti metodi di raccolta per accumulare informazioni su un insieme (campione) ridotto di osservazioni (unità statistiche) e le sintesi per descrivere questo insieme o per inferire caratteristiche degli insiemi più vasti e generali ai quali questo insieme appartiene (popolazione o universo statistico).
Attraverso l’analisi dei dati raccolti stima il livello di alcune variabili nella popolazione di riferimento, verifica la significatività di alcune associazioni ecc.
Si occupa, in sostanza, di come trarre conclusioni riguardanti le popolazioni a partire dallo studio di un campione.
Alessia Pierfederici e Mariagiovanna Scarale,
Linguistica Italiana II a.a. 2012/2013 13
1. PRELIMINARI
La statistica moderna opera prevalentemente in condizioni di
incertezza, privilegiando l’interesse per i fenomeni che presentano
una composizione stocasica, cioè probabilistica.
« N e l l a m i s u r a i n c u i l e l e g g i d e l l a m a t e m a t i c a s i
r i f e r i s c o n o a l l a r e a l t à , e s s e n o n s o n o c e r t e ; e
n e l l a m i s u r a i n c u i s o n o c e r t e , e s s e n o n s i
r i f e r i s c o n o a l l a r e a l t à . »
( A . E i n s t e i n , Tr a t t o d a S i d e l i g h t s o n R e l a t i v i t y )
Alessia Pierfederici e Mariagiovanna Scarale,
Linguistica Italiana II a.a. 2012/2013 14
1. PRELIMINARI
È impossibile rilevare statisticamente TUTTE le manifestazioni di un
fenomeno ( a meno che non si tratti di un fenomeno limitato e
circostanziale), quindi l’universo o popolazione (considerando la
statistica demografica per esempio).
Per questo motivo bisogna effettuare un’accurata selezione dei dati
rappresentativi di questo universo, delimitando un campione specifico,
ma allo stesso tempo variegato.
Alessia Pierfederici e Mariagiovanna Scarale,
Linguistica Italiana II a.a. 2012/2013 15
1. PRELIMINARI
La lingua (langue de saussuriana), che è il sistema di segni che formano
il codice di un idioma, cioè la parola concreta di una lingua (De
Saussure, Cours de Linguistique Générale, 1916), è un universo statistico e
quindi, dal punto quantitativo sembra irraggiungibile.
Per procedere con uno studio su di essa occorre, quindi, elaborare
un’indispensabile scelta campionaria.
Alessia Pierfederici e Mariagiovanna Scarale,
Linguistica Italiana II a.a. 2012/2013 16
1. PRELIMINARI
I campioni linguistici possono essere di due tipi:
dell’intera lingua della comunità;
della lingua del singolo utente;
Alessia Pierfederici e Mariagiovanna Scarale,
Linguistica Italiana II a.a. 2012/2013 17
1. PRELIMINARI
Campioni di Langue e Parole secondo De Saussure:
Alessia Pierfederici e Mariagiovanna Scarale,
Linguistica Italiana II a.a. 2012/2013 18
LINGUA
Parola 1
Parola 5
Parola 4 Parola 3
Parola 2
… Parola N
CAMPIONE
DI Langue
CAMPIONE
DI Parole
UNIVERSO CAMPIONE
Langue
Parole
1. PRELIMINARI
La STATISTICA LINGUISTICA ha come obiettivo primario quello
di spiegare i fatti linguistici servendosi delle tecniche e degli
strumenti matematici della Statistica.
Per realizzare questo obiettivo, lo scopo dei linguisti è quello di
raccogliere in modo accurato i campioni, affinché i risultati dedotti
corrispondano a verità e rispecchino le tendenze degli universi ai
quali appartengono.
Alessia Pierfederici e Mariagiovanna Scarale,
Linguistica Italiana II a.a. 2012/2013 19
2. NOZIONI DI STATISTICA
Alessia Pierfederici e Mariagiovanna Scarale,
Linguistica Italiana II a.a. 2012/2013 20
2. NOZIONI DI STATISTICA
LE VARIABILI
Per rilevare i caratteri di interesse dalle unità statistiche occorre servirsi di contenitori dette variabili.
QUALITATIVA: ha un numero finito di modalità, o categorie (ad esempio, la variabile genere ha solo 2 valori, che sono maschio o femmina, che possono essere resi in statistica, come 0 ed 1);
ORDINALE: ha un numero finito di modalità, sulle quali è stabilito un criterio di ordinamento (ad esempio, la variabile titolo di studio ha 5 modalità tra loro ordinabili e cioè: elementare, medio, superiore, laurea, laurea magistrale);
QUANTITATIVA: può avere un numero potenzialmente infinito di valori e può essere dotata di un’unità di misura (ad esempio la variabile peso in Kg).
Alessia Pierfederici e Mariagiovanna Scarale,
Linguistica Italiana II a.a. 2012/2013 21
2. NOZIONI DI STATISTICA
LA MEDIA ARITMETICA (M)
Per applicare a un universo o popolazione i risultati raggiunti mediante
uno studio su un campione, uno strumento fondamentale è la media.
Alessia Pierfederici e Mariagiovanna Scarale,
Linguistica Italiana II a.a. 2012/2013 22
M=𝑥1+𝑥2+⋯+𝑥𝑛
𝑛
M = 𝑥𝑖 𝑛𝑖=1
𝑛=1
𝑛 𝑥𝑖 𝑛𝑖=1
Ovvero:
La somma di tutte le
osservazioni (x) divisa il
loro numero (n)
2. NOZIONI DI STATISTICA
LA MEDIA ARITMETICA
La media costituisce la tendenza centrale della distribuzione di un
insieme di dati.
Quando si parla di un campione, si usa il termine MEDIA
CAMPIONARIA.
Alessia Pierfederici e Mariagiovanna Scarale,
Linguistica Italiana II a.a. 2012/2013 23
2. NOZIONI DI STATISTICA
Un esempio:
In 9 tragedie di Racine compare l’aggettivo heureux (felice) 143 volte:
Alessia Pierfederici e Mariagiovanna Scarale,
Linguistica Italiana II a.a. 2012/2013 24
M=𝑥1+𝑥2+⋯+𝑥𝑛
𝑛= 143
9= 15,89
Tragedia I II III IV V VI VII VIII IX
Occorrenze 10 11 13 15 16 18 18 19 23
2. NOZIONI DI STATISTICA
Sembrerebbe un risultato accettabile e logicamente corretto,
ma non è così!!!
In questo caso la Media ha uno scarso significato, perché:
è riferita a componimenti di diversa lunghezza (quindi sarebbe preferibile il calcolo percentuale);
Avremmo avuto lo stesso risultato con una serie qualunque di numeri che sommati dessero 143.
In questo modo, quindi, si perde di vista l’obiettivo primario , cioè l’Opera presa in esame.
Alessia Pierfederici e Mariagiovanna Scarale,
Linguistica Italiana II a.a. 2012/2013 25
M=𝑥1+𝑥2+⋯+𝑥𝑛
𝑛= 143
9= 15,89
2. NOZIONI DI STATISTICA
Il concetto di Media ha un valore relativo dal punto di vista scientifico.
Un altro esempio:
Se contiamo i versi di 12 canti della Divina Commedia (4 per cantica: il
VII, il VIV, il XXI e il XXVIII) si ottiene una media per canto di 141
versi
Alessia Pierfederici e Mariagiovanna Scarale,
Linguistica Italiana II a.a. 2012/2013 26
M=𝑥1+𝑥2+⋯+𝑥𝑛
𝑛= 1692
12= 141
2. NOZIONI DI STATISTICA
Alessia Pierfederici e Mariagiovanna Scarale,
Linguistica Italiana II a.a. 2012/2013 27
M1= 141
Tabella 1 Tabella 2
n Cantica Canto Versi n Cantica Canto Versi
1 Inferno VII 130 1 Inferno VIII 130
2 Inferno XIV 142 2 Inferno XVI 136
3 Inferno XXI 139 3 Inferno XXIV 151
4 Inferno XXVIII 142 4 Inferno XXXII 139
5 Purgatorio VII 136 5 Purgatorio VIII 139
6 Purgatorio XIV 151 6 Purgatorio XVI 145
7 Purgatorio XXI 136 7 Purgatorio XXIV 154
8 Purgatorio XXVIII 148 8 Purgatorio XXXII 160
9 Paradiso VII 148 9 Paradiso VIII 148
10 Paradiso XIV 139 10 Paradiso XVI 154
11 Paradiso XXI 142 11 Paradiso XXIV 154
12 Paradiso XXVIII 139 12 Paradiso XXXII 151
1692 1761
M2= 146,75
2. NOZIONI DI STATISTICA
In questo caso particolare, lo scarto tra le medie dei due diversi
campioni è piccolo, quindi, in teoria, se si moltiplica il primo e il
secondo risultato per il numero di versi del canto, si dovrebbe ottenere
il totale, approssimato, dei versi di tutta l’Opera.
Alessia Pierfederici e Mariagiovanna Scarale,
Linguistica Italiana II a.a. 2012/2013 28
Versi1= 141 × 100 = 14.100
Versi2= 146,75 × 100 = 14.675
La Divina Commedia conta complessivamente 14.233 versi.
2. NOZIONI DI STATISTICA
Esistono casi in cui le valutazioni comprendono elementi non del tutto
regolari.
In questi casi l’uso della Media da dei risultati errati e di molto lontani
da quelli reali.
Alessia Pierfederici e Mariagiovanna Scarale,
Linguistica Italiana II a.a. 2012/2013 29
2. NOZIONI DI STATISTICA
Analizzando due campioni diversi dell’Orlando Furioso (che presenta
scarti molto forti tra un canto e l’altro), si verifica proprio questo:
La Media falsa i risultati.
Alessia Pierfederici e Mariagiovanna Scarale,
Linguistica Italiana II a.a. 2012/2013 30
Tabella 1
Tabella
2
n Canto Versi n Canto Versi
1 VI 648 1 I 648
2 XII 752 2 VII 640
3 XVIII 1536 3 XIV 1008
4 XXIV 920 4 XXIV 576
5 XXX 760 5 XXVIII 816
6 XXXVI 672 6 XXXV 640
7 XLII 832 7 XLII 832
6120 5160
M1= 874,29 M2= 737
2. NOZIONI DI STATISTICA
Procedendo parallelamente, come si è fatto nell’esempio precedente
della Divina Commedia, si ottiene:
Alessia Pierfederici e Mariagiovanna Scarale,
Linguistica Italiana II a.a. 2012/2013 31
Versi1= 874,29 × 46 = 40.217
Versi2= 737,14 × 46 = 33.909
L’Orlando Furioso conta complessivamente 38.672 versi.
Quindi ENTRAMBI i risultati sono errati, perché troppo distanti dai
valori reali.
2. NOZIONI DI STATISTICA
LA MEDIANA (m)
Rappresenta la misura della tendenza centrale della sequenza ordinata dei valori presi in esame. Divide le osservazioni in due parti.
Se il numero di osservazioni è dispari, la mediana occupa il valore centrale, se è pari, è rappresentata dalla media dei due valori centrali.
Alessia Pierfederici e Mariagiovanna Scarale,
Linguistica Italiana II a.a. 2012/2013 32
Tragedia I II III IV V VI VII VIII IX
Occorrenze 10 11 13 15 16 18 18 19 23
Tragedia I II III IV V VI VII VIII IX X
Occorrenze 10 11 13 15 16 18 18 19 23 30
𝑀 = 16 + 18
2= 17
2. NOZIONI DI STATISTICA
Alessia Pierfederici e Mariagiovanna Scarale,
Linguistica Italiana II a.a. 2012/2013 33
Se M < m c’è un accumulo verso l’alto e la distribuzione è asimmetrica a
sinistra (Skewness negativa);
Se M > m c’è un accumulo verso il basso e la distribuzione è asimmetrica a
a destra (Skewness positiva);
2. NOZIONI DI STATISTICA
LA MODA
Rappresenta la misura della tendenza dei valori ed è il valore più
frequente di una distribuzione.
Alessia Pierfederici e Mariagiovanna Scarale,
Linguistica Italiana II a.a. 2012/2013 34
2. NOZIONI DI STATISTICA
LA MEDIA PONDERATA (Mp)
Si usa quando è fissato un sistema di pesi che danno diversa importanza alle osservazioni. È il metodo usato per la media dei voti registrati su un libretto universitario (il peso in quel caso sono i crediti dell’esame da valutare).
Nella somma il valore di ogni unità statistica viene moltiplicato per il proprio peso e tutto viene diviso per la somma dei pesi.
Alessia Pierfederici e Mariagiovanna Scarale,
Linguistica Italiana II a.a. 2012/2013 35
Mp = 𝑥𝑖 × 𝑝𝑖𝑛𝑖 =1
𝑝𝑖𝑛𝑖 =1
La Media aritmetica è un caso di Mp in cui tutti i pesi sono uguali ad 1.
2. NOZIONI DI STATISTICA
La Media Ponderata è molto utile in linguistica per lo studio della
distribuzione di frequenza di un dato fenomeno in un corpus.
Alessia Pierfederici e Mariagiovanna Scarale,
Linguistica Italiana II a.a. 2012/2013 36
Mp = 𝑥𝑖 × 𝑓𝑖𝑛𝑖 =1
𝑓𝑖𝑛𝑖 =1
Con xi che rappresenta la lunghezza dei caratteri (quindi il peso che i
fenomeni analizzati posseggono) e fi che rappresenta la frequenza dei
fenomeni (delle preposizioni nell’esempio che segue) che si vogliono
analizzare nel corpus.
2. NOZIONI DI STATISTICA
Con questo metodo è stato possibile analizzare, per esempio, la
distribuzione di frequenza di alcune preposizioni in 7 discorsi di fine
anno del Presidente Ciampi.
Alessia Pierfederici e Mariagiovanna Scarale,
Linguistica Italiana II a.a. 2012/2013 37
Mp = 𝑥𝑖 × 𝑓𝑖𝑛𝑖 =1
𝑓𝑖𝑛𝑖 =1
Sempre con xi che rappresenta la lunghezza dei caratteri (quindi il peso
che i fenomeni analizzati posseggono) e fi che rappresenta la frequenza
delle preposizioni (o dei fenomeni in genere) nel corpus.
2. NOZIONI DI STATISTICA
Alessia Pierfederici e Mariagiovanna Scarale,
Linguistica Italiana II a.a. 2012/2013 38
n Preposizione Lunghezza in caratteri (x1) Frequenza (f1) Prodotti (x1 * f1)
1 di 2 996 1992
2 a 1 397 397
3 in 2 382 764
4 per 3 177 531
5 con 3 127 381
6 da 2 107 214
7 su 2 60 120
8 fra 3 32 96
9 tra 3 21 63
10 verso 5 10 50
11 senza 5 6 30
12 contro 6 5 30
13 dopo 4 5 20
14 oltre 5 5 25
15 attraverso 10 4 40
16 prima (di) 5 3 15
17 più 3 3 9
18 fuori 5 3 15
19 fino 4 2 8
20 durante 7 2 14
21 dentro 6 2 12
22 sino 4 2 8
23 sotto 5 1 5
24 lontano (da) 7 1 7
25 entro 5 1 5
107 2354 4851
2. NOZIONI DI STATISTICA
Alessia Pierfederici e Mariagiovanna Scarale,
Linguistica Italiana II a.a. 2012/2013 39
Mp = 𝑥𝑖 × 𝑓𝑖𝑛𝑖 =1
𝑓𝑖𝑛𝑖 =1
=4851
2354= 2,06
Si deduce che nel corpus analizzato le proposizioni più frequenti sono
quelle che hanno, in media, una lunghezza di 2,06 caratteri.
Applicando la formula:
2. NOZIONI DI STATISTICA
LO SCARTO TIPO (s) O DEVIAZIONE STANDARD
Si usa per valutare quanto determinati valori si discostano dalla media,
per stabilire, cioè, la loro variazione.
Alessia Pierfederici e Mariagiovanna Scarale,
Linguistica Italiana II a.a. 2012/2013 40
Cioè: la radice quadrata della sommatoria di ogni singolo valore (x)
meno il valore medio (M) di tutti i valori al quadrato, fratto la numerosità
(n) del campione meno 1.
s = (𝑥𝑖 − 𝑀)2𝑛𝑖=1
𝑛 − 1
2. NOZIONI DI STATISTICA
Alessia Pierfederici e Mariagiovanna Scarale,
Linguistica Italiana II a.a. 2012/2013 41
Cioè: la radice quadrata della sommatoria di ogni singolo valore (x)
meno il valore medio (M) di tutti i valori al quadrato, fratto la numerosità
(n) del campione meno 1.
s = (𝑥𝑖 − 𝑀)2𝑛𝑖=1
𝑛 − 1
2. NOZIONI DI STATISTICA
Alessia Pierfederici e Mariagiovanna Scarale,
Linguistica Italiana II a.a. 2012/2013 42
La deviazione standard o scarto tipo o scarto quadratico
medio è un indice di dispersione (vale a dire una misura di
variabilità di una popolazione o di una variabile casuale) derivato
direttamente dalla varianza (𝒔𝟐). Ha la stessa unità di misura dei valori osservati (mentre la
varianza ha come unità di misura il quadrato dell'unità di misura
dei valori di riferimento) e misura la dispersione dei dati intorno
al valore atteso (M).
2. NOZIONI DI STATISTICA
Alessia Pierfederici e Mariagiovanna Scarale,
Linguistica Italiana II a.a. 2012/2013 43
s = (𝑥𝑖 − 𝑀)2𝑛𝑖=1
𝑛 − 1
Ricapitolando:
Si divide la somma dei quadrati degli scarti (x-M)2 per il numero di
osservazioni meno 1 (n - 1).
Da questa divisione si ottiene la VARIANZA CAMPIONARIA
(𝑠2) .
Estraendone la radice quadrata, invece, si ottiene lo SCARTO
TIPO CAMPIONARIO o DEVIAZIONE STANDARD(s).
𝑠2 = (𝑥𝑖 − 𝑀)2𝑛𝑖=1
𝑛 − 1
2. NOZIONI DI STATISTICA
Alessia Pierfederici e Mariagiovanna Scarale,
Linguistica Italiana II a.a. 2012/2013 44
Un esempio:
Valutazione in trentesimi riportata da un campione di 10 studenti.
studente voto (x) voto medio (M)
Scarto dalla
media (x-M)
Quadrato degli
scarti (x-M)𝟐
1 22 26 -4 16
2 23 26 -3 9
3 24 26 -2 4
4 26 26 0 0
5 26 26 0 0
6 27 26 1 1
7 27 26 1 1
8 27 26 1 1
9 28 26 2 4
10 30 26 4 16
260 0 52
2. NOZIONI DI STATISTICA
Alessia Pierfederici e Mariagiovanna Scarale,
Linguistica Italiana II a.a. 2012/2013 45
s = (𝑥𝑖−𝑀)2𝑛𝑖=1
𝑛−1 =52
9= 2,40
𝑠2 = (𝑥𝑖 −𝑀)2𝑛𝑖=1
𝑛−1 = 52
9= 5,77
Varianza Campionaria
Scarto Tipo Campionario
Il 2,40 degli studenti ha ottenuto un voto che rientra nella media dei
voti del campione.
2. NOZIONI DI STATISTICA
Alessia Pierfederici e Mariagiovanna Scarale,
Linguistica Italiana II a.a. 2012/2013 46
Questa tecnica può essere usata anche per comparare diversi
campioni e quindi può essere molto utile in campo linguistico
per la comparazione di più corpus.
2. NOZIONI DI STATISTICA
Tornando ad uno dei primi esempi:
In 9 tragedie di Racine compare l’aggettivo heureux (felice) 143 volte:
Alessia Pierfederici e Mariagiovanna Scarale,
Linguistica Italiana II a.a. 2012/2013 47
M=𝑥1+𝑥2+⋯+𝑥𝑛
𝑛= 143
9= 15,89
Tragedia I II III IV V VI VII VIII IX
Occorrenze 10 11 13 15 16 18 18 19 23
2. NOZIONI DI STATISTICA
Alessia Pierfederici e Mariagiovanna Scarale,
Linguistica Italiana II a.a. 2012/2013 48
tragedia frequenza (x) media (M)
Scarto dalla
media (x-M)
Quadrato degli
scarti (x-M)𝟐
1 10 16 -6 36
2 11 16 -5 25
3 13 16 -3 9
4 15 16 -1 1
5 16 16 0 0
6 18 16 2 4
7 18 16 2 4
8 19 16 3 9
9 23 16 7 49
143 0 137
2. NOZIONI DI STATISTICA
Alessia Pierfederici e Mariagiovanna Scarale,
Linguistica Italiana II a.a. 2012/2013 49
s = (𝑥𝑖−𝑀)2𝑛𝑖=1
𝑛−1 =137
8 ≈ 4
M=𝑥1+𝑥2+⋯+𝑥𝑛
𝑛= 143
9 ≈ 16
La differenza tra il risultato che si ottiene (quello effettivo) e quello
teorico (media) è pari a 4.
In ogni tragedia, rispetto alla media, il numero di heureux si può
discostare mediamente di 4 rispetto alla media(ha una probabile
variabilità pari a 4).
2. NOZIONI DI STATISTICA
I QUANTILI
Per la descrizione della distribuzione di un fenomeno quantitativo e
ordinabile è possibile usare i Quantili, che permettono la ripartizione
della distribuzione in parti uguali.
Alessia Pierfederici e Mariagiovanna Scarale,
Linguistica Italiana II a.a. 2012/2013 50
• QUARTILI;
• DECILI;
• PERCENTILI;
2. NOZIONI DI STATISTICA
I QUARTILI
Alessia Pierfederici e Mariagiovanna Scarale,
Linguistica Italiana II a.a. 2012/2013 51
OUTLIERS OUTLIERS
2. NOZIONI DI STATISTICA
I DECILI
Alessia Pierfederici e Mariagiovanna Scarale,
Linguistica Italiana II a.a. 2012/2013 52
2. NOZIONI DI STATISTICA
I PERCENTILI
Alessia Pierfederici e Mariagiovanna Scarale,
Linguistica Italiana II a.a. 2012/2013 53
III Quartile
II Quartile o Mediana
I Quartile
2. NOZIONI DI STATISTICA
TABELLA DI FREQUENZE
Alessia Pierfederici e Mariagiovanna Scarale,
Linguistica Italiana II a.a. 2012/2013 54
• FREQUENZA ASSOLUTA (𝒇𝒂): numero di occorrenze
nel corpus;
• FREQUENZA RELATIVA (𝒇𝒓): si ha con il quoziente
ottenuto dividendo 𝑓𝑎 per il numero n di osservazioni;
• FREQUENZA PERCENTUALE (𝒇𝒑): ottenuta con la
moltiplicazione per 100 di 𝑓𝑟.
2. NOZIONI DI STATISTICA
TABELLA DI FREQUENZE
Alessia Pierfederici e Mariagiovanna Scarale,
Linguistica Italiana II a.a. 2012/2013 55
𝒇𝒂= conteggio delle occorrenze; 𝒇𝒓=𝑓𝑎
𝑛
𝒇𝒑 = 𝑓𝑟 × 100
Frequenza Assoluta
Frequenza Relativa
Frequenza Percentuale
2. NOZIONI DI STATISTICA
TABELLA DI FREQUENZE
Alessia Pierfederici e Mariagiovanna Scarale,
Linguistica Italiana II a.a. 2012/2013 56
Un esempio:
Distribuzione per categorie grammaticali delle occorrenze nei 7
discorsi di Ciampi.
n n(x) 𝒇𝒂 𝒇𝒓 𝒇𝒑
1 aggettivi 1762 0,14 14
2 avverbi 571 0,05 5
3 congiunzioni 628 0,05 5
4 articoli 1210 0,1 10
5 nomi 3187 0,25 25
6 preposizioni 2354 0,19 19
7 pronomi 767 0,06 6
8 verbi 1912 0,15 15
9
altro (nomi propri,
esclamazioni…) 178 0,01 1
260 12569 1 100
2. NOZIONI DI STATISTICA
COEFFICIENTE DI VARIAZIONE
Permette di confrontare misure e fenomeni con unità di misura differenti. È un INDICE DI PRECISIONE di una misura.
Due Scarti Tipo possono essere confrontati direttamente fra loro se:
sono espressi nella stessa unità di misura;
l’ordine di grandezza o dimensione della media è simile;
Negli altri casi occorre semplicemente calcolare il rapporto tra lo Scarto Tipo (s) e la Media (M). Il quoziente ottenuto è il Coefficiente di variazione (v):
Alessia Pierfederici e Mariagiovanna Scarale,
Linguistica Italiana II a.a. 2012/2013 57
v =𝑠
𝑀
2. NOZIONI DI STATISTICA
Esempio:
Alessia Pierfederici e Mariagiovanna Scarale,
Linguistica Italiana II a.a. 2012/2013 58
𝑀1 = 8,0
𝑠1 = 2,28
𝑣1 =2,28
8,0= 0,28
𝑀2 = 5,0
𝑠2 = 1,6
𝑣2 =1,6
5,0= 0,32
𝑣1,2 =𝑣1𝑣2=0,28
0,32= 0,88 = 88%
𝑣1,2 𝑣1: 𝑣2 = 88: 100
Come proporzione:
2. NOZIONI DI STATISTICA
PUNTEGGIO Z (O SCARTO RIDOTTO)
Il punteggio z è il quoziente fra lo scarto dalla media e lo scarto tipo,
serve a misurare di quanti “scarti tipo” un valore osservato dista
dalla media.
Lo scarto ridotto è importante perché permette di valutare se le
variazioni dalla media siano aleatorie o significativamente distanti.
Alessia Pierfederici e Mariagiovanna Scarale,
Linguistica Italiana II a.a. 2012/2013 59
2. NOZIONI DI STATISTICA
Per riconoscere quali valori sono da considerare significativi si può
applicare la seguente regola empirica:
- I punteggi z compresi nell’intervallo (-2, +2 ) NON sono
significativi;
- I punteggi superiori a 2 o inferiori a -2 sono considerabili insoliti;
- I punteggi superiori a 3 o inferiori a -3 possono essere considerati
molto insoliti.
Alessia Pierfederici e Mariagiovanna Scarale,
Linguistica Italiana II a.a. 2012/2013 60
2. NOZIONI DI STATISTICA
LA STIMA INTERVALLARE
La stima intervallare consiste nel calcolare, sulla base dei dati di un
campione, un intervallo di valori per cui sia possibile dire che il valore di
un parametro cada al suo interno.
L’intervallo rappresenta dunque sia la stima del valore del
parametro sia l’incertezza associata alla stima.
Alessia Pierfederici e Mariagiovanna Scarale,
Linguistica Italiana II a.a. 2012/2013 61
2. NOZIONI DI STATISTICA
ERRORE STANDARD (e) E INTERVALLO DI FIDUCIA
Alessia Pierfederici e Mariagiovanna Scarale,
Linguistica Italiana II a.a. 2012/2013 62
Ovvero:
Lo scarto diviso per la
radice quadrata della
dimensione del campione.
𝑒 = 𝑠
𝑛
2. NOZIONI DI STATISTICA
TEST SU UN CAMPIONE
Il test statistico è una procedura che utilizza una sintesi dei dati
campionari per saggiare la validità di un’ipotesi su una caratteristica della
popolazione.
In statistica, l’ipotesi che si intende verificare prende il nome di ipotesi
alternativa e si contrappone all’ipotesi nulla.
Alessia Pierfederici e Mariagiovanna Scarale,
Linguistica Italiana II a.a. 2012/2013 63
2. NOZIONI DI STATISTICA
Se il punteggio z presenta un valore assoluto inferiore a 2 si accetta
l’ipotesi nulla con un valore di significatività del 95%
Viceversa, l’ipotesi nulla verrà rifiutata a vantaggio dell’ipotesi
alternativa.
Alessia Pierfederici e Mariagiovanna Scarale,
Linguistica Italiana II a.a. 2012/2013 64
2. NOZIONI DI STATISTICA
Alessia Pierfederici e Mariagiovanna Scarale,
Linguistica Italiana II a.a. 2012/2013 65
MODELLI TEORICI PER LE PROPORZIONI
Finora abbiamo preso in considerazione lo scarto tipo di una
distribuzione, ricorrendo a prove concrete, ma è importante anche poter
confrontare i risultati così ottenuti con un modello teorico.
Parleremo quindi, parallelamente allo scarto tipo campionario, di uno
scarto tipo teorico.
2. NOZIONI DI STATISTICA
Questo comporta due possibilità:
- uno scarto tipo campionario circa uguale allo scarto tipo teorico, in
cui la distribuzione effettiva equivale a una distribuzione casuale;
- uno scarto tipo superiore o inferiore allo scarto tipo teorico, in cui la
distribuzione reale è stata condizionata da cause diverse, che potranno
essere ricercate.
Alessia Pierfederici e Mariagiovanna Scarale,
Linguistica Italiana II a.a. 2012/2013 66
2. NOZIONI DI STATISTICA
Un esempio:
Calcoliamo i due scarti tipo prendendo come scarto base una traduzione
anonima in veneziano del I canto dell’Orlando furioso. Delle 4896
occorrenze totali del canto, 232 sono che e ch’.
Probabilità d’apparizione di ch(e) nel testo: p = 232/4896 = 0,047
Perciò la possibilità che escano altre parole è: q = 1 – p = 0,953
Alessia Pierfederici e Mariagiovanna Scarale,
Linguistica Italiana II a.a. 2012/2013 67
2. NOZIONI DI STATISTICA
Dividiamo poi i 648 versi in 24 gruppi di 27 versi ciascuno (ognuno
avente 204 parole). Il numero di ch(e) in ogni gruppo sarà dunque:
nc = 204 × 0,047 = 9,588
Quindi, secondo la distribuzione Binomiale, il 95% delle osservazioni
dovrebbe stare nell’intervallo da 4 a 16.
Alessia Pierfederici e Mariagiovanna Scarale,
Linguistica Italiana II a.a. 2012/2013 68
Alessia Pierfederici e Mariagiovanna Scarale,
Linguistica Italiana II a.a. 2012/2013 69
n numero di che ( x – y) (x-y)𝟐
1 4 -5,667 32,111
2 4 -5,667 32,111
3 6 -3,667 13,444
4 6 -3,667 13,444
5 6 -3,667 13,444
6 7 -2,667 7,111
7 7 -2,667 7,111
8 8 -1,667 2,778
9 8 -1,667 2,778
10 9 -0,667 0,444
11 9 -0,667 0,444
12 9 -0,667 0,444
13 10 -0,333 0,111
14 10 -0,333 0,111
15 11 1,333 1,778
16 11 1,333 1,778
17 11 1,333 1,778
18 12 2,333 5,444
19 12 2,333 5,444
20 13 3,333 11,111
21 14 4,333 18,778
22 14 4,333 18,778
23 14 4,333 18,778
24 17 7,333 53,778
232 0 263,333
2. NOZIONI DI STATISTICA
Essendo lo scarto tipo campionario solo leggermente superiore a
quello teorico (determinato da un’estrazione aleatoria) dobbiamo
concludere che l’uso del ch(e) da parte dell’anonimo scrittore
veneziano sia del tutto regolare e non dettato da particolari scelte
stilistiche.
Alessia Pierfederici e Mariagiovanna Scarale,
Linguistica Italiana II a.a. 2012/2013 70
2. NOZIONI DI STATISTICA
VALUTARE LA DIFFERENZA TRA CAMPIONI
Spesso può risultare utile o necessario saggiare attraverso un test l’ipotesi
di uguaglianza su due campioni indipendenti al fine di capire se questi
provengano o meno dalla stessa popolazione.
Applicando la solita regola empirica del punteggio z otterremo che, con
valori superiori a 2 possiamo rifiutare l’ipotesi nulla (l’ipotesi nulla in
questo caso è l’uguaglianza tra le due proporzioni, la derivazione unica).
Alessia Pierfederici e Mariagiovanna Scarale,
Linguistica Italiana II a.a. 2012/2013 71
2. NOZIONI DI STATISTICA
IL X² DI PEARSON
Con il test di X² (o test di Pearson) è possibile misurare in probabilità lo
scarto tra un modello teorico e un’osservazione sperimentale.
Avremo la seguente formula:
Alessia Pierfederici e Mariagiovanna Scarale,
Linguistica Italiana II a.a. 2012/2013 72
E’ uguale alla sommatoria (da 1 a
k) del quadrato della differenza fra
frequenta osservata e frequenza
teorica, fratto la frequenza teorica. 𝑋2 =
(𝑓𝑖 − 𝑓𝑖∗)2
𝑓𝑖∗
𝑘
𝑖=1
2. NOZIONI DI STATISTICA
Un esempio:
Alessia Pierfederici e Mariagiovanna Scarale,
Linguistica Italiana II a.a. 2012/2013 73
Osservato Teorico Scarto Quadrato
dello scarto
Frazione
Fonema i 332 400 -68 4.624 11,56
Altri fonemi 3.538 3.470 +68 4.624 1,33
3.870 3.870 0 12,89
La frequenza del fonema «i» nelle poesie di Gozzano.
2. NOZIONI DI STATISTICA
L’ANALISI BIVARIATA DI VARIABILI QUALITATIVE
Sulle osservazioni di un campione normalmente vengono rilevati più
caratteri e uno degli scopi dell’analisi statistica è verificare l’esistenza di
“relazioni” tra le variabili disponibili.
Il caso più semplice è quello dell’analisi bivariata di caratteri qualitativi,
cioè delle tecniche finalizzate a studiare il grado di associazione tra due
variabili qualitative.
Alessia Pierfederici e Mariagiovanna Scarale,
Linguistica Italiana II a.a. 2012/2013 74
2.NOZIONI DI STATISTICA
Alessia Pierfederici e Mariagiovanna Scarale,
Linguistica Italiana II a.a. 2012/2013 75
INDICI DI CONNESSIONE
L’indice di connessione lessicale corrisponde al rapporto tra la parte
comune del vocabolario (o occorrenze) e il totale del vocabolario
stesso.
Per misurare il grado di connessione lessicale fra due testi è necessario
che essi abbiamo all’incirca la stessa lunghezza.
3.UN ESPERIMENTO DI
STATISTICA LESSICALE:
le opere di Alessandro Baricco
Alessia Pierfederici e Mariagiovanna Scarale,
Linguistica Italiana II a.a. 2012/2013 76
3. UN ESPERIMENTO DI STATISTICA LESSICALE
Alessia Pierfederici e Mariagiovanna Scarale,
Linguistica Italiana II a.a. 2012/2013 77
1. Scelta del testo e individuazione delle unità di analisi;
2. Media e dispersione;
3. Ricchezza lessicale;
4. Valutazione del lessico;
PRIMI PASSI:
3. UN ESPERIMENTO DI STATISTICA LESSICALE
Alessia Pierfederici e Mariagiovanna Scarale,
Linguistica Italiana II a.a. 2012/2013 78
Specificare l’edizione del testo che verrà presa in analisi e tutti
i meccanismi di inclusione o esclusione del testo adottati.
Fornire quanta più chiarezza possibile ed obiettività, in modo
da rendere ripetibile l’esperimento e non falsarlo.
1. Scelta del testo e individuazione delle unità d’analisi:
3. UN ESPERIMENTO DI STATISTICA LESSICALE
Alessia Pierfederici e Mariagiovanna Scarale,
Linguistica Italiana II a.a. 2012/2013 79
Alessandro Baricco
• Castelli di rabbia, Milano, Rizzoli, 1991. ISBN 88-17-66039-6;
• Oceano mare, Milano, Rizzoli, 1993. ISBN 88-17-66043-4;
• Novecento. Un monologo, Milano, Feltrinelli, 1994. ISBN 88-07-81302-5;
• Seta, Milano, Rizzoli, 1996. ISBN 88-17-66059-0;
• City, Milano, Rizzoli, 1999. ISBN 88-17-86102-2;
• Senza sangue, Milano, Rizzoli, 2002. ISBN 88-17-87017-X;
• Mr Gwyn, Milano, Feltrinelli, 2011. ISBN 88-07-01862-4;
• Tre volte all’alba, Milano, Feltrinelli, 2012. ISBN 88-07-01905-1;
3. UN ESPERIMENTO DI STATISTICA LESSICALE
Alessia Pierfederici e Mariagiovanna Scarale,
Linguistica Italiana II a.a. 2012/2013 80
Software open source per il conteggio delle parole:
http://text-analyzer.softonic.it/
3. UN ESPERIMENTO DI STATISTICA LESSICALE
Alessia Pierfederici e Mariagiovanna Scarale,
Linguistica Italiana II a.a. 2012/2013 81
NOVECENTO, UN MONOLOGO
3. UN ESPERIMENTO DI STATISTICA LESSICALE
Alessia Pierfederici e Mariagiovanna Scarale,
Linguistica Italiana II a.a. 2012/2013 82
Si sono considerate le parole
complessive delle opere in
questione, quindi, sono state
riportante anche eventuali
ripetizioni e omografi.
3. UN ESPERIMENTO DI STATISTICA LESSICALE
Alessia Pierfederici e Mariagiovanna Scarale,
Linguistica Italiana II a.a. 2012/2013 83
Percentuale di occorrenze e
d’uso di ogni parola del
corpus.
3. UN ESPERIMENTO DI STATISTICA LESSICALE
Alessia Pierfederici e Mariagiovanna Scarale,
Linguistica Italiana II a.a. 2012/2013 84
Lessemi che occorrono in
forma concatenata in tutto il
corpus.
3. UN ESPERIMENTO DI STATISTICA LESSICALE
Alessia Pierfederici e Mariagiovanna Scarale,
Linguistica Italiana II a.a. 2012/2013 85
Hapax: lessemi che
occorrono una sola volta in
tutto il corpus.
3. UN ESPERIMENTO DI STATISTICA LESSICALE
Alessia Pierfederici e Mariagiovanna Scarale,
Linguistica Italiana II a.a. 2012/2013 86
OPERA ANNO PAROLE (N) PAROLE DIVERSE (V)
Castelli di rabbia 1991 52.989 8.466
Oceano mare 1993 47.395 7.461
Novecento 1994 12.041 2.755
Seta 1996 15.063 3.188
City 1999 87.068 10.875
Senza sangue 2002 15.770 2.920
Mr. Gwyn 2011 40.861 7.242
Tre volte all'alba 2012 15.835 3.016
N= lunghezza del testo, cioè la somma
totale delle frequenze
delle parole, anche se
ripetute. I tempi
composti e le
locuzioni, però, sono
considerati come
un’unica parola;
V= vocabolario,
cioè il numero delle
parole diverse nel
corpus in questione,
senza tener conto
della frequenza;
3. UN ESPERIMENTO DI STATISTICA LESSICALE
Alessia Pierfederici e Mariagiovanna Scarale,
Linguistica Italiana II a.a. 2012/2013 87
L= lessico. È la quantità indimostrata di parole che potenzialmente un
individuo conosce;
• Estensione: numero di parole di cui è composto;
• Struttura: rapporto delle frequenze di queste parole;
Ld= lessico disperso. Utilizza quante più possibili parole diverse;
Lc= lessico concentrato. Riutilizza le stesse parole. È fatto di ripetizioni.
Parole forti: hanno un significato autonomo dal contesto (es. sostantivi,
aggettivi, verbi e avverbi);
Parole deboli: parole che acquistano significato in base al contesto in cui si
trovano (es. articoli, preposizioni, pronomi, congiunzioni ecc);
2. Calcolo della dispersione (R) del vocabolario (V):
3. UN ESPERIMENTO DI STATISTICA LESSICALE
Alessia Pierfederici e Mariagiovanna Scarale,
Linguistica Italiana II a.a. 2012/2013 88
𝑅 = 𝑉
𝑁
R è l’indice di dispersione;
C è l’indice di concentrazione;
è la somma delle frequenze delle prime 50 parole forti;
N è il numero totale delle parole;
𝑺𝒇𝟓𝟎
𝑅𝑓 = 𝑉
2𝑁 𝐶𝑓 =
𝑆𝑓502𝑁
Per tutte le parole Per le parole forti
𝐶 = 𝑆𝑓50𝑁
3. UN ESPERIMENTO DI STATISTICA LESSICALE
Alessia Pierfederici e Mariagiovanna Scarale,
Linguistica Italiana II a.a. 2012/2013 89
𝑅 = 𝑉
𝑁
Applicando la formula a Novecento di Baricco e analizzando tutte le
parole, si ottiene, per esempio, come indice di dispersione:
= 2.755
12.041= 2.755
109,73= 25,10
R da come risultato la dispersione delle parole meno frequenti, che
rappresentano però una misura della ricchezza del vocabolario dal quale
sono tratte. È un fenomeno legato alla caratterizzazione del testo e dipende
dalla misura del corpus.
Empiricamente risulta che, per testi di dimensioni comprese tra
10000 e 50000 occorrenze, R vale circa 22 (Guiraud, P., Les caractères du
vocabolaire. Essays de metodologie, Presses Universitaire de France, Paris, 1954 ).
𝑅𝑓 = 𝑉
2𝑁=
2.755
2 ×12.041= 2.755
155,18=17,75
3. UN ESPERIMENTO DI STATISTICA LESSICALE
Alessia Pierfederici e Mariagiovanna Scarale,
Linguistica Italiana II a.a. 2012/2013 90
L’indice di concentrazione, invece, sarà:
= 4.904
2 × 12.041= 4.904
24.082= 0,20
Cioè la concentrazione delle parole più frequenti, o tematiche è
pari a 0,20.
È un fenomeno legato all’argomento del testo e alla motivazione
che lo origina.
(Guiraud).
𝐶𝑓 =𝑆𝑓502 × 𝑁
𝐶 =𝑆𝑓50𝑁
= 4.904
12.041= 0,40
3. UN ESPERIMENTO DI STATISTICA LESSICALE
Alessia Pierfederici e Mariagiovanna Scarale,
Linguistica Italiana II a.a. 2012/2013 91
L’indice di ricchezza lessicale RL si ottiene calcolando la differenza
tra l’indice di dispersione R per ogni opera e la sua media totale MR.
3. La ricchezza lessicale:
𝑅𝐿 = 𝑅 −𝑀𝑅
𝑀𝑅 − 𝑅𝐿
Si può valutare quanto questo indice (ricchezza lessicale RL) è
superiore o inferiore alla media, con una semplice operazione:
3. UN ESPERIMENTO DI STATISTICA LESSICALE
Alessia Pierfederici e Mariagiovanna Scarale,
Linguistica Italiana II a.a. 2012/2013 92
Per studiare la ricercatezza del linguaggio 𝑹𝟏, invece:
𝑅1 = 𝑉1
𝑖𝑛𝑖=1
𝑉𝑛𝑖=1
Dove 𝑉1sono gli hapax, ossia le parole che occorrono una sola volta
Si usa come un indice di “ricercatezza del linguaggio” solitamente (ma non
sempre) per confrontare testi di pari dimensioni.
3. UN ESPERIMENTO DI STATISTICA LESSICALE
Alessia Pierfederici e Mariagiovanna Scarale,
Linguistica Italiana II a.a. 2012/2013 93
Per stabilire l’entità del patrimonio linguistico del lessico, si usa,
invece, la semplice proporzione, in cui l’incognita è rappresentata da
Lx:
MR : ML = R : Lx
Lx sarà uguale alla media del lessico totale (35,86) di ogni opera
moltiplicata per l’indice di dispersione dell’opera specifica da valutare,
il tutto diviso per la media totale (ottenuta dagl’indici di dispersione di
ogni opera).
Per comodità il risultato viene ulteriormente diviso per 1000, in modo
da ottenere un numero gestibile dal punto di vista statistico
Il risultato sarà poi confrontato sia con la media della ricchezza
lessicale MRL sia con la ricchezza lessicale RL .
4. La valutazione del lessico:
3. UN ESPERIMENTO DI STATISTICA LESSICALE
Alessia Pierfederici e Mariagiovanna Scarale,
Linguistica Italiana II a.a. 2012/2013 94
Mettendo in pratica queste analisi per tutte le opere analizzate si
otterranno i valori riportati nelle seguenti tabelle:
OPERA ANNO PAROLE (N) PAROLE DIVERSE (V)
Castelli di rabbia 1991 52.989 8.466
Oceano mare 1993 47.395 7.461
Novecento 1994 12.041 2.755
Seta 1996 15.063 3.188
City 1999 87.068 10.875
Senza sangue 2002 15.770 2.920
Mr. Gwyn 2011 40.861 7.242
Tre volte all'alba 2012 15.835 3.016
3. UN ESPERIMENTO DI STATISTICA LESSICALE
Alessia Pierfederici e Mariagiovanna Scarale,
Linguistica Italiana II a.a. 2012/2013 95
OPERA ANNO PAROLE (N)
PAROLE DIVERSE
(V)
DISPERSIONE
[R]
DISPERSIONE
[Rf]
MEDIA DI R
[MR]
RICCHEZZA
LESSICALE
RISPETTO
ALLA MEDIA
[RL] HAPAX
RICERCATEZZA
DEL
LINGUAGGIO [R1]
PATRIMONIO
LINGUISTICO
Castelli di
rabbia 1991 52.989 8.466 36,78 26,01 30,25 6,52 4.979 3,14 43,614
Oceano
mare 1993 47.395 7.461 34,27 24,23 4,02 4.298 3,57 40,642
Novecento 1994 12.041 2.755 25,11 17,75 -5,15 1.672 9,66 29,774
Seta 1996 15.063 3.188 25,98 18,37 -4,28 1.830 8,35 30,804
City 1999 87.068 10.875 36,86 26,06 6,60 5.950 2,45 43,706
Senza
sangue 2002 15.770 2.920 23,25 16,44 -7,00 1.618 9,12 27,575
Mr. Gwyn 2011 40.861 7.242 35,83 25,33 5,57 4.541 3,68 42,486
Tre volte
all'alba 2012 15.835 3.016 23,97 16,95 -6,29 1.732 8,83 28,423
3. UN ESPERIMENTO DI STATISTICA LESSICALE
Alessia Pierfederici e Mariagiovanna Scarale,
Linguistica Italiana II a.a. 2012/2013 96
Applicando un metodo di astrazione e di inferenza superiore, possiamo
considerare i corpus analizzati come un unico blocco, arrivando così alle
conclusioni (ovviamente in questo caso si parlerà di medie e valori
approssimati, dato che ognuno presenterà uno scarto che lo
differenzierà dagli altri, e non di valori precisi).
Strumento indispensabile per questo passo è un elaboratore di fogli
elettronici, come Microsoft Excel (per Windows) o Open Office (per le
altre piattaforme).
3. UN ESPERIMENTO DI STATISTICA LESSICALE
Alessia Pierfederici e Mariagiovanna Scarale,
Linguistica Italiana II a.a. 2012/2013 97
0
10.000
20.000
30.000
40.000
50.000
60.000
70.000
80.000
90.000
100.000
PAROLE (N)
PAROLE DIVERSE (V)
0
10.000
20.000
30.000
40.000
50.000
60.000
70.000
80.000
90.000
100.000
1 2 3 4 5 6 7 8
PAROLE (N)
PAROLE DIVERSE (V)
Il rapporto tra il
Lessico (N) e il
Vocabolario (V).
È evidenziato
l’andamento per ogni
opera (asse x).
L’andamento del
Vocabolario è
pressappoco costante
e non dipende,
apparentemente,
dall’andamento del
Lessico.
Le opere sono
sempre riportate
sull’asse x.
3. UN ESPERIMENTO DI STATISTICA LESSICALE
Alessia Pierfederici e Mariagiovanna Scarale,
Linguistica Italiana II a.a. 2012/2013 98
0,00
5,00
10,00
15,00
20,00
25,00
30,00
35,00
40,00
1 2 3 4 5 6 7 8
DISPERSIONE [R]
DISPERSIONE [Rf]
Il rapporto tra
l’indice di
dispersione
complessivo (R) e
l’indice di
dispersione per le
parole forti (Rf).
È evidenziato
l’andamento per ogni
opera (asse x).
Il rapporto l’indice di
dispersione Medio e
la ricchezza lessicale.
0,00
5,00
10,00
15,00
20,00
25,00
30,00
35,00
40,00
1 2 3 4 5 6 7 8
MEDIA DI R [MR]
RAPPORTO DI [RL]
CON LA MEDIA [MR]
3. UN ESPERIMENTO DI STATISTICA LESSICALE
Alessia Pierfederici e Mariagiovanna Scarale,
Linguistica Italiana II a.a. 2012/2013 99
0
1.000
2.000
3.000
4.000
5.000
6.000
7.000
1 2 3 4 5 6 7 8
HAPAX
HAPAX
La distribuzione di
frequenza degli hapax
nelle opere.
1 2 3 4 5 6 7 8
ANNO 1991 1993 1994 1996 1999 2002 2011 2012
PATRIMONIO
LINGUISTICO43614 40642 29774 30804 43706 27575 42486 28423
05000
100001500020000250003000035000400004500050000
Patr
imo
nio
Lin
gu
isti
co
Distribuzione del Patrimonio
Linguistico negli anni
La distribuzione del
patrimonio
linguistico dell’autore
nel corso degli anni.
3. UN ESPERIMENTO DI STATISTICA LESSICALE
Alessia Pierfederici e Mariagiovanna Scarale,
Linguistica Italiana II a.a. 2012/2013 100
Studi di questo tipo possono essere adeguatamente
«personalizzati» ed adattati alle esigenze del ricercatore con i
più moderni strumenti della Linguistica Computazionale,
disciplina in costante evoluzione.
A tal proposito risulta interessante l’efficacia dell’uso di un
linguaggio di programmazione come il Python, anche se alcune
modalità di ricerca nei corpora risultano ancora acerbe e male
adattate in italiano (ad esempio la ricerca dalle parole forti).
ALTRI STRUMENTI:
LINGUISTICA COMPUTAZIONALE E PYTHON
3. UN ESPERIMENTO DI STATISTICA LESSICALE
Alessia Pierfederici e Mariagiovanna Scarale,
Linguistica Italiana II a.a. 2012/2013 101
3. UN ESPERIMENTO DI STATISTICA LESSICALE
Alessia Pierfederici e Mariagiovanna Scarale,
Linguistica Italiana II a.a. 2012/2013 102
4. ANALISI DI UN FENOMENO
NEL PARLATO E NELLO
SCRITTO
Alessia Pierfederici e Mariagiovanna Scarale,
Linguistica Italiana II a.a. 2012/2013 103
4. ANALISI DI UN FENOMENO
Alessia Pierfederici e Mariagiovanna Scarale,
Linguistica Italiana II a.a. 2012/2013 104
OGGETTO DELL’ANALISI
Per prima cosa abbiamo individuato il fenomeno linguistico che ci interessava analizzare all’interno dei corpus.
Abbiamo scelto di analizzare il fenomeno di:
“quello che è” (“quelli che sono”)
utilizzato come RIEMPITIVO all’interno della frase.
Il fenomeno è classificabile come tratto dell’italiano neostandard o substandard.
4. ANALISI DI UN FENOMENO
Alessia Pierfederici e Mariagiovanna Scarale,
Linguistica Italiana II a.a. 2012/2013 105
CAMPIONE D’ANALISI
Abbiamo deciso di analizzare il fenomeno sia all’interno della
dimensione dell’italiano scritto (attraverso l’interrogazione di corpora
giornalistici) che nella forma parlata.
Per fare questo ci siamo serviti di due strumenti di analisi che andremo
adesso a presentare.
4. ANALISI DI UN FENOMENO
ANALISI DEL PARLATO
Per l’analisi del parlato abbiamo utilizzato la risorsa del BADIP (Banca
dati dello italiano parlato), creata e gestita dall’Università di Graz.
All’interno del database si trovano comunicazioni orali ottenute delle
situazioni comunicative più disparate. Comunicazioni a casa, sul luogo
di lavoro e nelle scuole, ma anche telefonate, interviste, convegni,
assemblee studentesche, trasmissioni televisive e radiofoniche.
URL: http://badip.uni-graz.at/
Alessia Pierfederici e Mariagiovanna Scarale,
Linguistica Italiana II a.a. 2012/2013 106
4. ANALISI DI UN FENOMENO
Alessia Pierfederici e Mariagiovanna Scarale,
Linguistica Italiana II a.a. 2012/2013 107
L’interfaccia grafica con cui l’utente si viene a relazionare appare
gradevole e di chiara comprensione.
4. ANALISI DI UN FENOMENO
Alessia Pierfederici e Mariagiovanna Scarale,
Linguistica Italiana II a.a. 2012/2013 108
RISULTATI
Totale
occorrenze
Riempitivo Percentuale
Quello che è 0 - -
Quelli che sono 28 19 67,8%
4. ANALISI DI UN FENOMENO
Provenienza dei parlanti:
47% Milano (Nel campione sono presenti le città di Firenze, Napoli,
Roma e Milano).
Tipologie di comunicazioni:
41,1% scambio comunicativo unidirezionale in presenza del/i
destinatario/i (es. lezioni universitarie, comizi politici, arringhe
giudiziarie).
41,1% scambio comunicativo unidirezionale o bidirezionale a distanza
o differito su testo non scritto (es. trasmissione televisiva o
radiofonica).
17,8% scambio comunicativo bidirezionale con presa di parola non
libera faccia a faccia (es. assemblee, dibattiti, esami universitari).
Alessia Pierfederici e Mariagiovanna Scarale,
Linguistica Italiana II a.a. 2012/2013 109
4. ANALISI DI UN FENOMENO
Alessia Pierfederici e Mariagiovanna Scarale,
Linguistica Italiana II a.a. 2012/2013 110
ANALISI DELLO SCRITTO
Per quanto riguarda la ricerca del fenomeno nella sua dimensione
scritta, abbiamo utilizzato una risorsa nata nel contesto degli studi
linguistici dell’Università di Bologna, risalente al 2011:
Il corpus CORIS (Corpus di italiano scritto), a cui sono stati applicati
gli appositi filtri per consentire una ricerca mirata ai soli articoli di
quotidiani.
URL della risorsa: http://corpora.dslo.unibo.it/TCORIS/
4. ANALISI DI UN FENOMENO
Alessia Pierfederici e Mariagiovanna Scarale,
Linguistica Italiana II a.a. 2012/2013 111
L’interfaccia grafica appare anche qui “amichevole” e si presta ad
interrogazioni da parte di varie tipologie di utenti .
4. ANALISI DI UN FENOMENO
Alessia Pierfederici e Mariagiovanna Scarale,
Linguistica Italiana II a.a. 2012/2013 112
RISULTATI
Totale
occorrenze
Riempitivo Percentuale
Quello che è 471 16 3,4%
Quelli che sono 94 14 14,9%
Alessia Pierfederici – Mariagiovanna Scarale
Seminario di Linguistica italiana II (prof. Mirko Tavoni),
a.a. 2012/2013
GRAZIE PER LA VOSTRA
ATTENZIONE