Statistica descrittivaStatistica descrittiva
Testi e figure liberamente tratti da dispense diTesti e figure liberamente tratti da dispense diProf. Elisa Francini Prof. Elisa Francini (Università di Firenze)(Università di Firenze)
Prof. Alberto Morabito Prof. Alberto Morabito (Università di Milano)(Università di Milano)
La La StatisticaStatistica si occupa dell’analisi si occupa dell’analisi quantitativa dei quantitativa dei fenomeni collettivifenomeni collettivi
(cioè fenomeni composti da un (cioè fenomeni composti da un grande numero di unità elementari).grande numero di unità elementari).
Esempi di fenomeni collettivi:Esempi di fenomeni collettivi: L’insieme degli studenti di un corso L’insieme degli studenti di un corso
universitario. universitario. Quali sono le loro caratteristiche?Quali sono le loro caratteristiche?
L’insieme dei potenziali pazienti che soffrono di L’insieme dei potenziali pazienti che soffrono di ipertensione. ipertensione.
Il farmaco A è più efficace del farmaco B?Il farmaco A è più efficace del farmaco B?
Gli scopi della statistica sonoGli scopi della statistica sono
DescrivereDescrivere GeneralizzareGeneralizzare PrevederePrevedere
La statistica è l’insieme dei metodi, fondati sul calcolo delle probabilità, che
consentono, da un lato la corretta programmazione di un esperimento o di una osservazione pianificata e, dall’altro,
l’elaborazione dei dati così raccolti.
La statistica moderna può essere La statistica moderna può essere divisa in tre parti:divisa in tre parti:
Statistica descrittivaStatistica descrittiva
Statistica matematicaStatistica matematica
Statistica inferenzialeStatistica inferenziale
La Statistica descrittivaLa Statistica descrittiva
Lo scopo della statistica descrittiva è Lo scopo della statistica descrittiva è quello di quello di descriveredescrivere efficacemente efficacemente una grande massa di dati mediante una grande massa di dati mediante tabelle e grafici e di tabelle e grafici e di sintetizzaresintetizzare le le informazioni in indici matematici in informazioni in indici matematici in modo da individuare le caratteristiche modo da individuare le caratteristiche fondamentali del campionefondamentali del campione
La Statistica matematicaLa Statistica matematica
La Statistica matematica si avvale del La Statistica matematica si avvale del Calcolo delle ProbabilitàCalcolo delle Probabilità e presenta le e presenta le distribuzioni teoriche per misure discrete distribuzioni teoriche per misure discrete e continuee continue
La Statistica inferenzialeLa Statistica inferenziale
La Statistica inferenziale si occupa di La Statistica inferenziale si occupa di dedurrededurre leggi generali disponendo di un leggi generali disponendo di un campione variabile. In pratica è l’insieme campione variabile. In pratica è l’insieme dei metodi che consentono di pervenire a dei metodi che consentono di pervenire a delle conclusioni che vanno al di là della delle conclusioni che vanno al di là della stretta evidenza empiricastretta evidenza empirica
Il linguaggio della Statistica Il linguaggio della Statistica descrittivadescrittiva
Popolazione statisticaPopolazione statistica: è l’insieme di tutti : è l’insieme di tutti i possibili oggetti dell’indagine statisticai possibili oggetti dell’indagine statistica
IndividuoIndividuo (o (o unità statisticaunità statistica): è un ): è un qualsiasi elemento della popolazionequalsiasi elemento della popolazione
VariabileVariabile: è una qualsiasi caratteristica di : è una qualsiasi caratteristica di ogni individuo della popolazione, soggetta ogni individuo della popolazione, soggetta a variazioni di valore da un individuo a variazioni di valore da un individuo all’altroall’altro
Indagine sulle domande di adozione nel Indagine sulle domande di adozione nel distretto della Corte d’Appello di Torino distretto della Corte d’Appello di Torino
nel 2003 (dati Istat)nel 2003 (dati Istat)
Tipo di indagineTipo di indagine: censimento : censimento PopolazionePopolazione: coppie che hanno presentato : coppie che hanno presentato
domanda di adozione nel distretto della domanda di adozione nel distretto della Corte d’Appello di Torino nel 2003 Corte d’Appello di Torino nel 2003
IndividuoIndividuo: una qualunque coppia: una qualunque coppia
VariabiliVariabili: domande poste alle coppie : domande poste alle coppie mediante un questionario:mediante un questionario:
Età dei coniugiEtà dei coniugi Titolo di studio dei coniugiTitolo di studio dei coniugi Reddito familiareReddito familiare Tipo di matrimonioTipo di matrimonio Numero di figliNumero di figli Tipo di adozione (nazionale o Tipo di adozione (nazionale o
internazionale)internazionale)
Classificazione delle variabiliClassificazione delle variabili
QualitativeQualitative
QuantitativeQuantitative
nominalinominali
ordinaliordinali
discretediscrete
continuecontinue
quantitativa discreta (?)
qualitativa ordinalequantitativa continuaqualitativa nominalequantitativa discretaqualitativa nominale
Età dei coniugiTitolo di studio dei coniugiReddito familiareTipo di matrimonioNumero di figliTipo di adozione
n. coppian. coppia 11 22 33 44 55 66
età maritoetà marito 3535 4242 3838 5151 3232 ……
età moglieetà moglie 3434 3636 3939 4545 3030 ……Tit.studio Tit.studio
maritomarito LAUREALAUREA DIP. SUP.DIP. SUP.DOTTODOTTORATORATO
LIC.LIC.MEDIAMEDIA DIP. SUP.DIP. SUP. ……
Tit. studio Tit. studio mogliemoglie LAUREALAUREA DIP. SUP.DIP. SUP. LAUREALAUREA DIP. SUP.DIP. SUP. LAUREALAUREA ……
Tipo diTipo dimatrimonimatrimoni
oo RELIG.RELIG. RELIG.RELIG. CIVILECIVILE RELIG.RELIG. RELIG.RELIG. ……
RedditoReddito 40.70040.700 35.85035.850 45.22545.225 35.00035.000 30.31530.315 ……
NumeroNumeroFigliFigli 00 11 00 11 00 ……
TipoTipoAdozioneAdozione INTERN.INTERN. INTERN.INTERN. NAZ.NAZ. INTERN.INTERN.
INTERN. E INTERN. E NAZ.NAZ. ……
Coppie che hanno presentato domanda di adozioneCoppie che hanno presentato domanda di adozione alla corte di appello di Torino – anno 2003alla corte di appello di Torino – anno 2003
FREQUENZAFREQUENZA
La La frequenzafrequenza di un valore è il numero di di un valore è il numero di individui della popolazione per i quali la individui della popolazione per i quali la variabile assume tale valorevariabile assume tale valore
TITOLO DI STUDIO DELLA MOGLIETITOLO DI STUDIO DELLA MOGLIE
TITOLO DI STUDIOTITOLO DI STUDIO FREQUENZAFREQUENZA
Dottorato o specializ.Dottorato o specializ. 1515
LaureaLaurea 139139
Diploma universitario o Diploma universitario o laurea brevelaurea breve 2222
Diploma di scuola media Diploma di scuola media superioresuperiore 249249
Licenza di scuola media Licenza di scuola media inferioreinferiore 113113
Licenza elementareLicenza elementare 33
Non indicatoNon indicato 44
TotaleTotale 545545
TITOLO DI STUDIO DELLA MOGLIETITOLO DI STUDIO DELLA MOGLIE
TITOLO DI STUDIOTITOLO DI STUDIO FREQUENZAFREQUENZA
Dottorato o specializ.Dottorato o specializ. 1515
LaureaLaurea 139139Diploma universitario Diploma universitario
o laurea breveo laurea breve 2222Diploma di scuola Diploma di scuola
media superioremedia superiore 249249Licenza di scuola Licenza di scuola
media inferioremedia inferiore 113113
Licenza elementareLicenza elementare 33
Non indicatoNon indicato 44
TotaleTotale 545545
TITOLO DI STUDIOTITOLO DI STUDIO FREQUENZAFREQUENZA
Dottorato o specializ.Dottorato o specializ. 1616
LaureaLaurea 6565Diploma universitario Diploma universitario
o laurea breveo laurea breve 1818Diploma di scuola Diploma di scuola media superioremedia superiore 160160Licenza di scuola Licenza di scuola media inferioremedia inferiore 7272
Licenza elementareLicenza elementare 44
Non indicatoNon indicato 22
TotaleTotale 337337
TORINO TORINO FIRENZEFIRENZE
FREQUENZA RELATIVAFREQUENZA RELATIVA
La La frequenza relativafrequenza relativa è il rapporto tra la è il rapporto tra la frequenza del valore e il numero di frequenza del valore e il numero di individui della popolazione:individui della popolazione:
freq. relat. = freq. ass. / totale individuifreq. relat. = freq. ass. / totale individui
La frequenza percentuale si ottiene normalizzando a 100 il totale della popolazione:
freq. percentuale = freq. relativa * 100
FREQUENZE RELATIVEFREQUENZE RELATIVETORINO FIRENZETORINO FIRENZE
TITOLO TITOLO DI DI STUDIOSTUDIO
FREQUENZAFREQUENZARELATIVARELATIVA
FREQUENZA FREQUENZA PERCENTUAPERCENTUALELE
Dott. o Dott. o spec.spec. 0,02750,0275 2,75%2,75%
LaureaLaurea 0,25500,2550 25,50%25,50%Diploma Diploma univers.univers. 0,04040,0404 4,04%4,04%Diploma Diploma superioresuperiore 0,45690,4569 45,69%45,69%LicenzaLicenza mediamedia 0,20730,2073 20,73%20,73%Licenza Licenza elem.elem. 0,00550,0055 0,55%0,55%Non Non indicatoindicato 0,00730,0073 0,73%0,73%
TotaleTotale 11 100%100%
TITOLO TITOLO DI DI STUDIOSTUDIO
FREQUENZAFREQUENZARELATIVARELATIVA
FREQUENZA FREQUENZA PERCENTUAPERCENTUALELE
Dott. o Dott. o spec.spec. 0,04750,0475 4,75%4,75%
LaureaLaurea 0,19290,1929 19,29%19,29%Diploma Diploma univers.univers. 0,05340,0534 5,34%5,34%Diploma Diploma superioresuperiore 0,47480,4748 47,48%47,48%LicenzaLicenza mediamedia 0,21360,2136 21,36%21,36%Licenza Licenza elem.elem. 0,01190,0119 1,19%1,19%Non Non indicatoindicato 0,00590,0059 0,59%0,59%
TotaleTotale 11 100%100%
FREQUENZE CUMULATIVE (TORINO)FREQUENZE CUMULATIVE (TORINO)TITOLO DI TITOLO DI STUDIOSTUDIO FREQFREQ
FREQ. FREQ. RELAT.RELAT.
FREQ. FREQ. PERC.PERC.
FREQ. FREQ. CUMUL.CUMUL.
FREQ. CUM. FREQ. CUM. %%
Dott. o Dott. o spec.spec. 1515 0,02750,0275 2,75%2,75% 0,0275 0,0275 2,75%2,75%
LaureaLaurea 139139 0,25500,2550 25,50%25,50% 0,28250,2825 28,25%28,25%Diploma Diploma univers.univers. 2222 0,04040,0404 4,04%4,04% 0,32290,3229 32,29%32,29%Diploma Diploma superioresuperiore 249249 0,45690,4569 45,69%45,69% 0,77980,7798 77,98%77,98%LicenzaLicenza mediamedia 113113 0,20730,2073 20,73%20,73% 0,98710,9871 98,71%98,71%Licenza Licenza elem.elem. 33 0,00550,0055 0,55%0,55% 0,99260,9926 99,26%99,26%Non Non indicatoindicato 44 0,00730,0073 0,73%0,73% 11 100%100%
TotaleTotale 545545 11 100%100%
DistribuzioneDistribuzione
La funzione che ad ogni valore della variabile La funzione che ad ogni valore della variabile associa la sua frequenza ( o frequenza associa la sua frequenza ( o frequenza relativa) si dice relativa) si dice distribuzione della variabiledistribuzione della variabile..
Attenzione: se la variabile è continua o se i possibili valori sono troppi, si possono dividere in classi
Esempio: etEsempio: età del maritoà del maritoCLASSE FREQ. FREQ. REL. FREQ. CUMUL.
Da 26 a 3011 2,02% 2,02% < 30
Da 31 a 35113 20,73% 22,75% < 35
Da 36 a 40214 39,27% 62,02% <40
Da 41 a 45 133 24,40% 86,42% <45
Da 46 a 50 49 8,99% 95,41% <50
Da 51 a 55 21 3,85% 99,27% <55
Non indicato 4 0,73% 100,00%
Totale 545 100,00%
Rappresentazioni graficheRappresentazioni grafiche
Dottorato
Laurea
Laurea breve
Diploma superiore
Licenza media
Licenza elementare
Non indicato
Diagramma a torta
MISURE DI TENDENZA MISURE DI TENDENZA CENTRALECENTRALE
Sono quantità che individuano i valori Sono quantità che individuano i valori intorno ai quali i dati sono raggruppati.intorno ai quali i dati sono raggruppati.
MEDIAMEDIA MODAMODA
MEDIANAMEDIANA
Media Aritmetica SempliceMedia Aritmetica Semplice
Esempio: “Rossi ha la media del 25”Esempio: “Rossi ha la media del 25”
Popolazione: insieme degli esami sostenuti Popolazione: insieme degli esami sostenuti da Rossida Rossi
Variabile: voto ottenuto nell’esameVariabile: voto ottenuto nell’esame
Media aritmetica sempliceMedia aritmetica semplice = =
somma dei voti ottenuti / numero esami somma dei voti ottenuti / numero esami sostenutisostenuti
Media Aritmetica SempliceMedia Aritmetica Semplice
N = numero di individui di una popolazioneN = numero di individui di una popolazione
X = variabile numerica X = variabile numerica
xxi i == valore che la variabile assume sull’i-esimo valore che la variabile assume sull’i-esimo
individuo della popolazioneindividuo della popolazione
La media è definita daLa media è definita da
N
xxxx
NN
N
ii
)...(1 21
1
X
La media aritmetica può essere calcolata anche conoscendo solo la distribuzione della variabile.
Siano xj, per j=1,…, m, i valori che la variabile X può assumere e siano fj le corrispondenti frequenze. Allora
m
jj
j
m
jj
f
f
1
1
x
X
Voti ottenuti negli esamiVoti ottenuti negli esami
25 27 23 25 23 27 2525 27 23 25 23 27 25
M. aritm. =(25+27+23+25+23+27+25)/7=25M. aritm. =(25+27+23+25+23+27+25)/7=25
(23*2+25*3+27*2)/(2+3+2)=25(23*2+25*3+27*2)/(2+3+2)=25
Quando la variabile è suddivisa in classi, ad ogni Quando la variabile è suddivisa in classi, ad ogni classe si associa il valore medio dell’intervalloclasse si associa il valore medio dell’intervallo
CLASSE FREQ. VALORE MEDIO
Da 26 a 30 11 28
Da 31 a 35 113 33
Da 36 a 40 214 38
Da 41 a 45 133 43
Da 46 a 50 49 48
Da 51 a 55 21 53
Totale 541
4,39541
215349481334321438113331128
X
Media armonicaMedia armonica
Questa media è la stima più corretta per distribuzioni di dati dei quali devono essere usati gli inversi
NxxxNH
1...
1111
21
La città A dista 100 km dalla città B; La città A dista 100 km dalla città B; andiamo da A a B con un’auto che andiamo da A a B con un’auto che
viaggia a 50 km/h e torniamo con una viaggia a 50 km/h e torniamo con una che viaggia a 70 km/h.che viaggia a 70 km/h.
Quanto tempo impieghiamo?Quanto tempo impieghiamo?
T = 100/50 + 100/70 = 3,43 hT = 100/50 + 100/70 = 3,43 h
Media aritmetica delle velocità=60 km/hMedia aritmetica delle velocità=60 km/h
t = 2*100/60 = 3,33 ht = 2*100/60 = 3,33 h
Media armonica=2(1/50+1/70)Media armonica=2(1/50+1/70)-1-1=58,33 km/h=58,33 km/h
t = 2*100/58,33 = 3,43 ht = 2*100/58,33 = 3,43 h
Media geometricaMedia geometrica
Questa media è adatta, per esempio a stimare i tassi di interesse o di inflazione.
NNxxxG /1
21 ...
Supponiamo che un certo investimento abbia ottenuto un tasso annuale in quattro anni successivi pari al 5%, 4%, 1% e 2,8%.
Qual è il tasso nei quattro anni?
t = (1,05)*(1,04)*(1,01)*(1,028) = 1,1338
Media aritmetica = 1,032
T = (1,032)4 = 1,1343
Media geometrica = 1,0318
t = (1,0318)4 = 1,1338
Errore comuneErrore comune
T = 1 + 0,032*4 = 1,128T = 1 + 0,032*4 = 1,128
ModaModa
La La moda moda è il è il valore più frequente valore più frequente di una di una distribuzione. Può essere definita anche distribuzione. Può essere definita anche per variabili qualitative.per variabili qualitative.
Una distribuzione può avere due (o più) Una distribuzione può avere due (o più) massimi di frequenze paragonabili. Si massimi di frequenze paragonabili. Si parla allora di distribuzione bimodale.parla allora di distribuzione bimodale.
MedianaMediana
La La medianamediana è il valore che occupa la è il valore che occupa la posizione centrale in un insieme ordinato posizione centrale in un insieme ordinato di dati. E’ definita solo per variabili ordinali.di dati. E’ definita solo per variabili ordinali.
In una distribuzione o serie di dati, ogni In una distribuzione o serie di dati, ogni valore estratto a caso ha la stessa valore estratto a caso ha la stessa probabilità di essere inferiore o superiore probabilità di essere inferiore o superiore alla mediana.alla mediana.
Come si calcola la medianaCome si calcola la mediana
Si dispongono i dati in ordine crescente o Si dispongono i dati in ordine crescente o decrescente e se ne conta il numero totale decrescente e se ne conta il numero totale nn
Se Se n n è dispari la mediana corrisponde al è dispari la mediana corrisponde al valore che occupa la posizione centrale valore che occupa la posizione centrale (n+1)/2(n+1)/2
Se Se nn è pari la mediana è la media tra i valori è pari la mediana è la media tra i valori nelle posizioni nelle posizioni n/2n/2 e e (n+2)/2(n+2)/2
Confronto media e medianaConfronto media e mediana
Serie:23 45 67 73 96 108 132 156 177
medianaMedia = 97.44
Serie:1 1 1 2 96 560 754 930 1000
Media = 371.67
Misure di dispersioneMisure di dispersioneLa La dispersione o variabilitdispersione o variabilitàà è la seconda importante è la seconda importante caratteristica di una distribuzione di dati. Essa misura caratteristica di una distribuzione di dati. Essa misura la forma più o meno raccolta della distribuzione la forma più o meno raccolta della distribuzione intorno al valore centrale.intorno al valore centrale.
1 3 5 7 9
11
13
15
17
19
21
23
25
27
S1
0
1
2
3
4
5
6
7
8
9
10
media = 15,47
deviazione standard = 6,45 / 4,76
Distribuzioni diverse
Serie1 Serie2
Range (campo di variazione)Range (campo di variazione)
Misura puramente descrittiva e poco informativaMisura puramente descrittiva e poco informativaminmax xxW
Es. Le altezze di 10 esemplari di una pianta sono:10 22 33 44 46 51 67 74 79 85
W=85-10=75Le altezze di altri 10 esemplari sono invece
10 11 11 12 13 14 15 16 20 85W=85-10=75
Varianza di una popolazioneVarianza di una popolazione È la mediaÈ la media dei quadrati degli scarti tra i valori dei quadrati degli scarti tra i valori
della variabile e la media.della variabile e la media.
2
1
1
N
iixN
V X
VSi chiama deviazione standard o scarto quadratico medio
Alcune formuleAlcune formule
Con la distribuzioneCon la distribuzione
m
jjjm
jj
ff
V1
2
1
1Xx
Teorema di KönigTeorema di König
2Xx
m
jjjm
jj
ff
V1
2
1
1
Variabili continueVariabili continue
Frequenza, distribuzione, densità di probabilità.Frequenza, distribuzione, densità di probabilità.
b
a
dxxfbXaP b
a
dxxfbXaP
Disuguaglianza di ČebiševDisuguaglianza di ČebiševUna variabile Una variabile XX con media con media μμ e deviazione standard e deviazione standard σσ verifica la disuguaglianza verifica la disuguaglianza
2k
1kσμXP
2k
1kσμXP
Dimostrazione: Se Dimostrazione: Se YY è una variabile positiva, allora è una variabile positiva, allora
Posto Posto YY = ( = (XX - - μμ))2 2 ed ed aa = = kk 22
σσ 22 risulta risulta
aYP adxxfadxxxfdxxxfYEaa0
aYP adxxfadxxxfdxxxfYEaa0
kσμ-XP σkσkμ-XP σkYEσ 22222222 kσμ-XP σkσkμ-XP σkYEσ 22222222
Istogramma della Istogramma della distribuzione di probabilitàdistribuzione di probabilità
Lancio di due dadi
00,020,040,060,08
0,10,120,140,160,18
1 2 3 4 5 6 7 8 9 10 11 12 13
Istogramma della Istogramma della distribuzione di probabilitàdistribuzione di probabilità
Lancio di tre dadi
0
0,02
0,04
0,06
0,08
0,1
0,12
0,14
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20
Istogramma della Istogramma della distribuzione di probabilitàdistribuzione di probabilità
Lancio di quattro dadi
0
0,02
0,04
0,06
0,08
0,1
0,12
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26
Istogramma della Istogramma della distribuzione di probabilitàdistribuzione di probabilità
Lancio di cinque dadi
0
0,02
0,04
0,06
0,08
0,1
0,12
1 3 5 7 9 11 13 15 17 19 21 23 25 27 29 31 33
Istogramma della Istogramma della distribuzione di probabilitàdistribuzione di probabilità
Lancio di sei dadi
0
0,02
0,04
0,06
0,08
0,1
1 3 5 7 9 11 13 15 17 19 21 23 25 27 29 31 33 35 37 39
Istogramma della Istogramma della distribuzione di probabilitàdistribuzione di probabilità
Lancio di venti dadi
0
0,01
0,02
0,03
0,04
0,05
0,06
1 8 15 22 29 36 43 50 57 64 71 78 85 92 99 106 113 120 127 134
Teorema centrale del limiteTeorema centrale del limite Se Se XX11, , XX22, … , , … , XXnn sono variabili indipendenti con media sono variabili indipendenti con media μμ e deviazione standard e deviazione standard σσ , allora la , allora la
distribuzione della variabiledistribuzione della variabile
nσ
nμXXX n21 nσ
nμXXX n21
Tende alla distribuzione normale standard al crescere di Tende alla distribuzione normale standard al crescere di nn (per (per n n che tende a +che tende a + ). ).
Correlazione lineareCorrelazione lineare
La La mediamedia e la e la deviazione standarddeviazione standard possono possono essere usate per descrivere una singola essere usate per descrivere una singola distribuzione di frequenza ma non ci dicono distribuzione di frequenza ma non ci dicono nulla sulle eventuali relazioni tra due variabili. nulla sulle eventuali relazioni tra due variabili.
Potremmo, ad esempio, essere interessati a Potremmo, ad esempio, essere interessati a valutare il grado di valutare il grado di associazioneassociazione o o relazionerelazione tra tra l'altezza e il peso “della stessa persona” all’interno l'altezza e il peso “della stessa persona” all’interno di un gruppo di persone, tra il reddito medio pro-di un gruppo di persone, tra il reddito medio pro-capite di un Paese e il tasso di mortalità capite di un Paese e il tasso di mortalità neonatale, tra l’età della madre e il numero di nati neonatale, tra l’età della madre e il numero di nati affetti da sindrome di Down e così via.affetti da sindrome di Down e così via.
Il primo passo da compiere quando si vuole Il primo passo da compiere quando si vuole studiare una relazione tra due variabili consiste studiare una relazione tra due variabili consiste nel rappresentarle graficamente.nel rappresentarle graficamente.
Consideriamo un Consideriamo un insieme di coppieinsieme di coppie ((xxii, , yyii) di valori di ) di valori di uricemia, misurati con due metodi (X ed Y) in un gruppo di 10 uricemia, misurati con due metodi (X ed Y) in un gruppo di 10 uomini anziani. uomini anziani.
Si consideri che ciascun prelievo di sangue (uno per Si consideri che ciascun prelievo di sangue (uno per soggetto) è stato ripartito in due aliquote, l'una analizzata con soggetto) è stato ripartito in due aliquote, l'una analizzata con il metodo X e l'altra con il metodo Y.il metodo X e l'altra con il metodo Y.
Metodi soggetti 1 2 3 4 5 6 7 8 9 10 Metodo X 5.8 6.2 6.9 6.1 5.4 6.2 5.9 5.5 6.6 6.4 Metodo Y 6.0 6.3 6.8 6.2 5.4 6.4 6.1 5.4 6.8 6.6
EEsperimento 1sperimento 1
L'esame visivo del L'esame visivo del diagramma di dispersionediagramma di dispersione fornisce una prima idea dell'fornisce una prima idea dell'entitàentità e della e della formaforma della relazione.della relazione.
Ogni Ogni puntopunto rappresenta rappresenta una coppia (una coppia (xxii , , yyii), ),
la la linea verticale rossa linea verticale rossa
la media (la media (xx) delle ) delle xxii, e , e
La La linea orizzontale rossa linea orizzontale rossa la media (la media (yy) delle ) delle yyii..
5
6
7
5 6 7
Metodo X (mg/dl)
Me
tod
o Y
(m
g/d
l)
5
6
7
5 6 7
URICEMIA (mg/dl): Metodo X
UR
ICE
MIA
(m
g/d
l):
Me
tod
o Y
x- / y+
x+ / y+
x+ / y-
x- / y-
Poiché ogni coppia di misure si riferisce ad uno Poiché ogni coppia di misure si riferisce ad uno stesso soggetto, ci si aspetta che, se una misura stesso soggetto, ci si aspetta che, se una misura xxii è è
maggiore della media, anche la corrispondente maggiore della media, anche la corrispondente misura misura yyii sia maggiore della media. sia maggiore della media.Ci aspettiamo che a scarti Ci aspettiamo che a scarti dalla media (dalla media (xxi i - - xx) positivi ) positivi
sull'asse sull'asse xx corrispondano corrispondano scarti dalla media (scarti dalla media (yyi i - - yy) )
positivi sull’asse positivi sull’asse yy, e che a , e che a scarti negativi sull’asse scarti negativi sull’asse xx corrispondano scarti negativi corrispondano scarti negativi sull’asse sull’asse yy.. In effetti, questo In effetti, questo è quanto accade per i punti è quanto accade per i punti ((xxii,,yyii) in figura.) in figura.
Un singolo prelievo di sangue viene suddiviso in 10 provette, ed il Un singolo prelievo di sangue viene suddiviso in 10 provette, ed il contenuto di ogni provetta è ripartito in due aliquote, analizzate contenuto di ogni provetta è ripartito in due aliquote, analizzate l'una con il metodo X e l'altra con il metodo Y. l'una con il metodo X e l'altra con il metodo Y.
Nell'insieme di 10 coppie (Nell'insieme di 10 coppie (xxii , , yyii) di misure di ) di misure di un unico valoreun unico valore, le , le fluttuazioni attorno alle medie sono dovute solo ad errori di fluttuazioni attorno alle medie sono dovute solo ad errori di misura. misura.
Metodi provette 1 2 3 4 5 6 7 8 9 10 Metodo_X 5.1 4.9 5.0 4.9 5.0 5.1 5.0 5.3 4.9 4.8 Metodo_Y 4.9 4.6 5.1 4.8 4.8 4.8 4.9 5.0 4.9 5.2
EEsperimento 2sperimento 2
4.5
5
5.5
4.5 5 5.5
Metodo X (mg/dl)
Me
tod
o Y
(m
g/d
l)
Come previsto i punti del Come previsto i punti del grafico non hanno direzioni grafico non hanno direzioni privilegiate e si dispongono privilegiate e si dispongono più uniformemente attorno più uniformemente attorno al loro baricentro.al loro baricentro.
Cerchiamo adesso un Cerchiamo adesso un metodo per quantificare metodo per quantificare questa disposizione nei questa disposizione nei grafici di dispersione.grafici di dispersione.
Regressione lineareRegressione lineare
L’idea è di scegliere la rettaL’idea è di scegliere la retta
yy = = axax + + b b
che che megliomeglio approssima i punti approssima i punti del grafico considerando la del grafico considerando la
somma degli scarti quadratici somma degli scarti quadratici tra i dati misurati e i datitra i dati misurati e i dati
previstiprevisti. . 0
2
4
6
8
10
12
14
0 2 4 6 8 10 12 14
Metodo X (mg/dl) M
eto
do
Y (
mg
/dl)
n
1i
2ii bxay
n
1ba,E
n
1i
2ii bxay
n
1ba,E
Si tratta dunque di minimizzare la funzioneSi tratta dunque di minimizzare la funzione
Il minimo sarà un punto critico della funzione Il minimo sarà un punto critico della funzione EE((aa,,bb).).
Quindi ...Quindi ...
0xbxay2b
E
0bxay2a
E
n
1iiii
n
1iii
n
1iii
n
1iii
xxxx
yyxx
b
xbya
n
1ii
n
1ii
yn
1y
xn
1x
da cui
con
= n var(xi)
= n cov(xi,yi)
xbya
QuindiQuindi
n
1i
2ii bxay
n
1ba,E
n
1i
2ii xxbyy
n
1
yx,cov 2bxxn
byy
n
1 n
1i
2i
2n
1i
2i
xvar
yx,covb
yvar xvar
yx,cov1yvar
xvar
yx,cov yvar
22
Coefficiente di correlazione lineare
yvar xvar
yx,cov
ESEMPIO DI CALCOLO (1)ESEMPIO DI CALCOLO (1)
Schema di calcolo degli indici di Correlazione Lineare per l'Schema di calcolo degli indici di Correlazione Lineare per l'esperimento 1.esperimento 1.
x 61.0 10 6.1
y 62.0 10 6.2
xyC 2.05
xD 1.98
yD 2.26
r 2.05 1.98 2.26 0.9691
n ix iy ix-x iy-y 2i(x-x) 2
i(y-y) i i(x-x)(y-y) 1 5.8 6.0 -0.3 -0.2 0.09 0.04 +0.06 2 6.2 6.3 +0.1 +0.1 0.01 0.01 +0.01 3 6.9 6.8 +0.8 +0.6 0.64 0.36 +0.48 4 6.1 6.2 0.0 0.0 0.00 0.00 0.00 5 5.4 5.4 -0.7 -0.8 0.49 0.64 +0.56 6 6.2 6.4 +0.1 +0.2 0.01 0.04 +0.02 7 5.9 6.1 -0.2 -0.1 0.04 0.01 +0.02 8 5.5 5.4 -0.6 -0.8 0.36 0.64 +0.48 9 6.6 6.8 +0.5 +0.6 0.25 0.36 +0.30 10 6.4 6.6 +0.3 +0.4 0.09 0.16 +0.12 61.0 62.0 0.0 0.0 1.98 2.26 2.05
n xi yi xi2 yi
2 x yi i 1 5.8 6.0 33.64 36.00 34.80 2 6.2 6.3 38.44 39.69 39.06 3 6.9 6.8 47.61 46.24 46.92 4 6.1 6.2 37.21 38.44 37.82 5 5.4 5.4 29.16 29.16 29.16 6 6.2 6.4 38.44 40.96 39.68 7 5.9 6.1 34.81 37.21 35.99 8 5.5 5.4 30.25 29.16 29.70 9 6.6 6.8 43.56 46.24 44.88 10 6.4 6.6 40.96 43.56 42.24 61.0 62.0 374.08 386.66 380.25
x 61.0 10 6.1 2
x
61.0D 374.08 1.98
10
y 62.0 10 6.2 2
y
62.0D 386.66 2.26
10
xy
61.0 62.0C 380.25 2.05
10
r 2.05 1.98 2.26 0.9691
ESEMPIO DI CALCOLO (2)ESEMPIO DI CALCOLO (2)
Schema di calcolo degli indici di Correlazione Lineare per l'Schema di calcolo degli indici di Correlazione Lineare per l'esperimento 1.esperimento 1.
COME APPARE LA CORRELAZIONE:COME APPARE LA CORRELAZIONE: I dati si riferiscono alla correlazione tra i valori di I dati si riferiscono alla correlazione tra i valori di
uricemia rilevati con due metodi di misura (X e Y) su un uricemia rilevati con due metodi di misura (X e Y) su un campione di 100 soggetti anziani.campione di 100 soggetti anziani.
0
2
4
6
8
10
12
14
0 2 4 6 8 10 12 14
Metodo X (mg/dl)
Me
tod
o Y
(m
g/d
l) r = 0.290
0
2
4
6
8
10
12
14
0 2 4 6 8 10 12 14
Metodo X (mg/dl)
Me
tod
o Y
(m
g/d
l) r = 0.861
0
2
4
6
8
10
12
14
0 2 4 6 8 10 12 14
Metodo X (mg/dl)
Me
tod
o Y
(m
g/d
l) r = 0.036
0
2
4
6
8
10
12
14
0 2 4 6 8 10 12 14
Metodo X (mg/dl) M
eto
do
Y (
mg
/dl) r = 0.661
uno studente alla 1° lezione
uno studentealla 2° lezione
uno studente all'ultima lezione
un analista esperto
r = 0.95
X
Y
r = 0.95
X
Y
r = 0.80Y
X
r = 0.80
X
Y
Il coefficiente di correlazione lineare è indice di quanto i punti Il coefficiente di correlazione lineare è indice di quanto i punti si allineano su di una retta, e non risente dell'inclinazione della si allineano su di una retta, e non risente dell'inclinazione della
retta, salvo che per due importanti eccezioni.retta, salvo che per due importanti eccezioni.
Grafici di dispersione per variabili a correlazione elevata Grafici di dispersione per variabili a correlazione elevata o molto elevata.o molto elevata.
r = 0.99
X
r = 0.95
X
Y
Variabile X
Va
ria
bil
e Y
r = 0.80
X
Y
r = 0.60
X
Y
Grafici di dispersione per variabili a correlazione Grafici di dispersione per variabili a correlazione nulla o lieve.nulla o lieve.
r = 0.40
X
Y
r = 0.20
X
Y
Variabile X
r = 0.10
X
Y
r = 0.00
X
Y
Il coefficiente di correlazione ha il segno del coefficiente Il coefficiente di correlazione ha il segno del coefficiente angolare della migliore retta approssimante.angolare della migliore retta approssimante. Il coefficiente di Il coefficiente di
correlazione è indeterminato soltanto se la varianza di una serie è nullacorrelazione è indeterminato soltanto se la varianza di una serie è nulla ..
r = 0.99
r = 0.99
X
Y
r = 0.99
X
Y
Variabile X
Va
ria
bil
e Y
r = -0.99
X
Y
Il coefficiente di correlazione lineare è indice di quanto i punti si Il coefficiente di correlazione lineare è indice di quanto i punti si allineano su di una allineano su di una rettaretta: vi possono essere associazioni forti non : vi possono essere associazioni forti non
lineari con coefficiente di correlazione quasi nullo.lineari con coefficiente di correlazione quasi nullo.
Variabile X
Va
ria
bil
e Y
r = -0.194
X
Y
Variabile X
Va
ria
bil
e Y
r = -0.084
X
Y
Variabile X
Va
ria
bil
e Y
r = -0.158
Variabile X
Va
ria
bil
e Y
r = -0.041
X
Y
Top Related