VARIABILI E DISTRIBUZIONI DI FREQUENZA Lezione n.3 Prof. Roberto de Marco.
-
Upload
nerio-santoro -
Category
Documents
-
view
217 -
download
0
Transcript of VARIABILI E DISTRIBUZIONI DI FREQUENZA Lezione n.3 Prof. Roberto de Marco.
VARIABILI E DISTRIBUZIONI DI
FREQUENZA
Lezione n.3
Prof. Roberto de Marco
Il metodo più semplice e immediato per rappresentare in modo sintetico un insieme di osservazioni individuali relative ad una certa
variabile è mediante la
Insieme dei possibili valori ( modalità o intervalli di classe) di una variabile con associata la frequenza con cui tali
valori sono stati rilevati nel campione.
DISTRIBUZIONE DI FREQUENZA
28 36 20 25 75 24 3326 30 16 25 59 26 3233 29 34 25 34 31 1843 25 58 26 24 37 2443 15 29 27 31 37 2464 26 25 23 32 73 2440 16 34 39 25 48 2334 32 28 41 26 45 4524 18 27 31 17 55 5024 16 25 38 34 29 2010 17 28 33 45 28 1526 40 30 28 34 22 1525 28 32 23 32 20 3922 28 34 20 44 27 2830 23 30 21 44 38 2844 21 51 23 34 19 2055 23 38 22 44 30 19
concentrazione di ozono frequenza10-19 1320-29 5330-39 3140-49 1250-59 660-69 170-80 4
TOTALE 120
COSTRUZIONE DI UNA DISTRIBUZIONE DI FREQUENZACOSTRUZIONE DI UNA DISTRIBUZIONE DI FREQUENZA
1. definire un criterio di classificazionecriterio di classificazione delle osservazioni
ESAUSTIVO: devono essere riportati tutti le modalità o i valori assunti dalla variabile
NON AMBIGUO: gli intervalli di classe devono essere mutuamente esclusivi
2. assegnare ad ogni modalità/intervallo la frequenza (relativa e/o assoluta) corrispondente
Esempio
SCORRETTA
0-10
10-20
…..
70-80
CORRETTA
0-9
10-19
…..
70-80
>80
SCORRETTA
Nero
Chiaro
Biondo
Rosso
CORRETTA
Nero
Castano
Biondo
Rosso
Variabile quantitativa:classificazione dell’età in anni compiuti
Variabile qualitativa:classificazione del colore dei capelli
COSTRUZIONE DELLA DISTRIBUZIONE DI FREQUENZA
PER VARIABILI QUALITATIVE
modalità
tally frequenza
assente
| | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | |
48
lieve
| | | | | | | | | | | | | | | | | | | | | | | | | |
32
grave
| | | | | | | | | | | | | |
17
lesioni permanenti
| |
2
decesso
|
1
100
Conteggio delle osservazioni per ogni
modalità
Costruzione della tabella e Costruzione della tabella e calcolo di frequenze calcolo di frequenze
relativerelative
MODALITA'frequenza assoluta
frequenza relativa
ni ni/n
assente 4848/100=0,48lieve 32 0,32grave 17 0,17
lesioni permanenti 2 0,02decesso 1 0,01TOTALE 100k=5
Esempio: I dati seguenti si riferiscono al grado del trauma in 100 ricoverati al pronto soccorso:
X= grado del trauma:
xi:
0=assente 1=trauma lieve 2= trauma grave 3=lesioni permanenti 4= decesso
0 2 1 1 1 2 0 0 1 0 1 1 0 0 0 3 1 2 0 1 1 0 0 1 0 1 1 0 2 0 0 0 1 0 1 0 2 1 2 0 0 2 0 1 0 1 0 1 0 3 1 2 0 0 0 0 1 0 0 0 1 0 1 0 1 0 2 0 1 2 1 2 0 1 0 2 2 1 0 1 0 0 0 0 4 0 1 1 2 0 0 2 1 0 2 0 0 2 1 0
pi=
MODALITA'frequenza assoluta
frequenza relativa
ni ni/n
assente 4848/100=0,48lieve 32 0,32grave 17 0,17
lesioni permanenti 2 0,02decesso 1 0,01TOTALE 100k=5
Esempio: I dati seguenti si riferiscono al grado del trauma in 100 ricoverati al pronto soccorso:
05
1015
2025
30
3540
4550
assente lieve grave les.Perm.
decesso
Diagramma a barre
ESERCIZIO
I dati seguenti si riferiscono al tipo di parto di 50 neonati in Italia:
Determinare la distribuzione di frequenza
0 2 0 0 0 2 0 2 0 02 0 0 0 2 0 0 0 1 00 0 2 0 0 0 2 0 0 20 2 0 0 0 2 0 2 0 00 0 0 2 0 2 0 0 2 0
X = tipo di parto
xi = normale 0
forcipe 1 cesareo 2
modalità
xi
frequenza assoluta
ni
frequenza relativa
pi
frequenza relativa percentuale
pi (%)
normale
35
35/50 = 0.70
(35/50)*100 = 70%
forcipe
1 1/50 = 0.02 (1/50)*100 = 2%
cesareo
14 14/50 = 0.28 (14/50)*100 = 28%
TOTALE
50
1.00
100%
PERCHÉ USARE LE FREQUENZE RELATIVE?
Esempio: Si vuole valutare l’efficacia di uno psico-farmaco nel curare forme di balbuzie. L’esperimento coinvolge due gruppi randomizzati di pazienti (A e B): il farmaco viene somministrato a 150 pazienti nel gruppo A, mentre un placebo viene somministrato a 100 soggetti in B.
Per il confronto della distribuzione di una variabile in campioni di dimensioni diverse
PERCHÉ USARE LE FREQUENZE RELATIVE?
FREQUENZE ASSOLUTEFREQUENZE ASSOLUTE
EFFETTO ni (A) ni(B)
migliorato 50 33peggiorato 80 53invariato 20 14
150 100
0,00
0,10
0,20
0,30
0,40
0,50
0,60
migliorato peggiorato invariato
GRUPPO A
GRUPPO B
PERCHÉ USARE LE FREQUENZE RELATIVE?
FREQUENZE FREQUENZE RELATIVERELATIVE
pi (A) pi(B)
0,33 0,330,53 0,530,14 0,14
1,00 1,00
EFFETTO ni (A) ni(P)
migliorato 50 33peggiorato 80 53invariato 21 14
151 100
RAPPRESENTAZIONI GRAFICHE DELLA DISTRIBUZIONE DI
FREQUENZA PER VARIABILI QUALITATIVE
GRAFICO A TORTA
(16/33=48.5%) (33/125=26.4%)
Esempio: ci sono 16 maschi tra 33 specializzandi e 33 tra le 125 matricole di Medicina (frequenze assolute, n).
16 maschi
17 femmine
33 maschi
92 femmine
SPECIALIZZANDISPECIALIZZANDI MATRICOLEMATRICOLE
: 360 = n : N >> = (n/N)*360°
0%
5%
10%
15%
20%
25%
30%
35%
40%
45%
Australia[1] Canada[2] Danimarca[3] Finlandia[4] Francia[5] GranBretagna[6]
Stati Uniti[7] Sud Corea[8] Svezia[9]
0+
A+
B+
AB+
0?
A?
B?
AB?
DIAGRAMMA A BARRE _ Distribuzione gruppi sanguigni
----
Verlato G et al . Respiratory Medicine 2006
Distribuzione dell’abitudine al fumo di sigaretta in Italia.Dati ISAYA - 2001
1 1 1 1 1 1 2 11 1 1 1 1 2 2 11 1 1 1 1 2 2 11 1 1 1 1 2 2 21 1 1 1 1 2 2 21 1 1 1 1 2 2 21 1 1 1 1 2 2 21 1 1 1 1 3 2 21 1 1 1 1 3 2 31 1 1 1 1 3 2 3
Capelli occhi
Capelli occhi
Capelli occhi
Capelli occhi
Colore degli occhi e dei capelli in un campione di studenti
Capelli:1= nero/castano2= biondo/rosso
Occhi:1= nero/marrone2= blu/azzurro3= verde
Rappresentare graficamente l’informazione contenuta nei seguenti dati
COSTRUZIONE DELLA DISTRIBUZIONE DI FREQUENZA PER VARIABILI QUANTITATIVE
PESO, STATURA e SESSO delle MATRICOLE di MEDICINAdell’UNIVERSITA’ di VERONA nell’A.A. 95/96
PESO STAT. SESSO PESO STAT. SESSO PESO STAT. SESSO Kg cm Kg cm Kg cm 56 159 F 77 192 M 51 171 F 66 169 F 60 173 F 48 156 F 50 160 F 78 182 M 55 167 F 53 170 F 52 167 F 60 177 M 54 168 F 47.5 164 F 58 170 F 53 161 F 64 166 F 67 167 F 63 172 M 52 160 F 50 172 F 53 170 F 72 184 M 58 169 F 62 161 F 48 169 F 77 179 M 56 163 F 66 170 M 52 162 M 50 160 F 55 172 F 49 160 F 52 170 F 67 177 M 49 165 F 58 173 F 66 170 M 62 178 M 52 167 F 50 160 F 68 174 M 73 178 M 51 167 F 75 181 M 57 166 F 95 193 M 48 167 F 52 165 F 58 160 F 53 160 F 56 171 F 67 178 F 49 167 F 67 175 M 67 175 M 52 165 F 63 182 F 60 160 F 55 155 F 55 169 F 56 165 F 84 188 M 58 165 F 50 165 F 56 170 F 55 175 M 52 170 F 60 171 F 66 176 M 58 172 F 52 176 M 55 164 F 60 170 F 62 180 F 47 160 F 54 166 F 47 155 F 60 165 F 63 169 M 74 172 M 61 177 F 53 173 F 53 170 F 72 183 M 55 168 M 52 168 F 53 162 F 51 164 F 62 162 F 81 176 M 45 160 F 50 160 F 57 167 F 51 171 F 45 158 F 64 180 F 53 168 F 82 183 M 50 160 F 47 156 F 55 162 F 70 175 M 70 177 M 58 168 F 64 178 F 59 173 F 52 164 F 68 165 F 75 175 M 63 177 F 75 178 M 50 159 F 70 165 F 65 150 F 58 167 F 60 170 F 45 160 F 51 167 F 50 167 F 75 182 M 56 156 F 62 170 M 59 165 F 85 174 M
Costruiamo gli intervalli di classe:
Trovo il valore minimo e il valore massimo min=150 cm
max=193 cm
Calcolo il campo di variazione (range):
Xmax-Xmin range=43
Stabilire il numero degli intervalli k=9
Calcolare l’ampiezza degli intervalli:
i= Range / k i=
43/9=4.8~5
Costruisco gli intervalli di classe (esclusivi ed esaustivi)
Conto il numero di individui per ogni classe
TABELLA DI FREQUENZATABELLA DI FREQUENZA
Statura in classi
Frequenza
assoluta
Frequenza
relativa
[150-155) 1 1/125= 0.8%
[155-160) 8 8/125= 6.4%
[160-165) 24 24/125= 19.2%
[165-170) 34 27.2%
[170-175) 27 21.6%
[175-180) 19 15.2%
[180-185) 9 7.2%
[185-190) 1 0.8%
[190-195) 2 1.6%
totale 125 100%
RAPPRESENTAZIONI GRAFICHE DELLA DISTRIBUZIONE DI
FREQUENZA PER VARIABILI QUANTITATIVE
ISTOGRAMMA A CANNE D’ORGANO
0
10
20
30
40
50
60
70
statura (cm)
fre
q.
rela
tiva
(%
)
150 165 180 195
0
10
20
30
40
50
60
70
statura (cm)
fre
q.
rela
tiva
(%
)
150 155 160 165 170 175 180 185 190 195
perdita di informazione al
diminuire del numero di intervalli
area di ciascun rettangolo proporzionale
alla frequenza
Esempio: Vittime di incidenti stradali nel London Borough of Harrow nel 1985.
ETA’ FREQUENZA
0-4 28
5-9 46
10-15 58
16 20
17 31
18-19 64
20-24 149
25-59 316
60+ 103
TOTALE 815
scorretto
corretto
316/34=9.3
0
10
20
30
40
50
60
70
statura (cm)
freq
. rel
ativ
a (%
)
150 155 160 165 170 175 180 185 190 195
RappresentazionePoligono diFrequenze
157.5 162.5
Statura in classi Frequenza
assoluta
Frequenza
relativa
[150-155) 1 1/125= 0.8%
[155-160) 8 8/125= 6.4%
[160-165) 24 24/125= 19.2%
[165-170) 34 27.2%
[170-175) 27 21.6%
[175-180) 19 15.2%
[180-185) 9 7.2%
[185-190) 1 0.8%
[190-195) 2 1.6%
totale 125 100%
DISTRIBUZIONE DI FREQUENZA CUMULATADISTRIBUZIONE DI FREQUENZA CUMULATA
FREQUENZA ASSOLUTA CUMULATA ( Fi ) O RELATIVA (Pi=Fi/N)
numero di osservazioni ( o percentuale ) il cui valore è inferiore o uguale a un definito valore xi
TABELLA DI FREQUENZATABELLA DI FREQUENZA
statura in classi
Freq. Assoluta
Freq. Relativa (%) Freq. Cumulata Assoluta
Freq. Cumulata Relativa (%)
150-154 1 1/125= 0,8% 1 0,8%
155-159 8 8/125= 6,4% 1+8= 9 0,8+6,4= 7,2%
160-164 24 24/125= 19,2% 1+8+24= 33 0,8+6,4+19,2= 26,4%
165-169 34 27,2% 1+8+24+34= 67 0,8+6,4+19,2+27,2= 53,6%
170-174 27 21,6% 94 75,2%
175-179 19 15,2% 113 90,4%
180-184 9 7,2% 122 97,6%
185-189 1 0,8% 123 98,4%
190-195 2 1,6% 125 100,0%
TOTALE 125 100,0% 125
ni PiFipi
150-155155-160160-165165-170170-175175-180180-185185-190190-195
0
10
20
30
40
50
60
70
80
90
100
150 155 160 165 170 175 180 185 190 195
statura (cm)
Distribuzione cumulativa relativa (curva ad ogiva)
ESERCIZIO
Nella tabella seguente sono riportati i dati relativi ad uno studio sulla crescita condotto su 40 soggetti:
1. Costruire 4 intervalli di frequenza
2. Costruire la tabella di frequenza riportando frequenze assolute, frequenze relative e frequenze cumulate relative.
3. Costruire la curva ad ogiva e stimare la percentuale di soggetti che hanno: 15 <distanza < 22mm
16 19 19 20 20 20 20 21 21 2121 21 21 22 22 22 22 22 22 2323 23 23 23 23 23 23 24 24 2424 24 24 25 25 25 25 26 26 27
Distanza in mm fra il centro dell’ipofisi e la fossa pterigomascellare:
MISURE D’ORDINE IN UNA DISTRIBUZIONE
RANGO: posizione di un’osservazione Xi in una serie di dati ordinati in modo crescente
SCOPO: descrivere la posizione di un dato individuale nell’ambito di una distribuzione
RANGO PERCENTILE: sia xi la i-ma osservazione di un campione di N unità ordinate in modo crescente. Il rango percentile corrispondente è dato da:
Rp= rango (xi)N+1
* 100
Rango= 3, Rp=43%
Esempio: nelle seguenti tabelle si riportano le osservazioni del peso per N soggetti:
N=6
N=60:
PESO (kg) 53 55 60 61 63 65
PESO (kg) 53 55 60 61 63 65 ….. 92
Rango= 3, Rp=5%
K-M0 PERCENTILE : valore di xi corrispondente al K-esimo rango percentilico.Quel valore della variabile, Xi, tale per cui il k% della popolazione ha valori <= Xi. K è noto anche come RANGO PERCENTILE
I PERCENTILII PERCENTILI
I PERCENTILI PIU’ NOTI:
25
50
75
1° QUARTILE
3° QUARTILE
2° QUARTILE o MEDIANA
3° QUARTILE-1°QUARTILE = DIFFERENZA INTERQUARTILICA
0
10
20
30
40
50
60
70
80
90
100
150 155 160 165 170 175 180 185 190 195
statura (cm)
Esempio: calcolo del 40-mo percentile
~167.5
40-mo percentile: il 40% del campione ha un’altezza167.5
RANGO PERCENTILICO
-6 -5 -4 -3 -2 -1 0 1 2 3 4 5 6
ASIMMETRIA NEGATIVA
ASIMMETRIA POSITIVA
SIMMETRIA
SIMMETRIA DI UNA DISTRIBUZIONE
The distribution of cardiac index is bimodal with a distinct population of subjects characterized by an increased cardiac index. Thirty-seven percent of all subjects with borderline hypertension were found to have this elevation in cardiac index and an elevated heart rate ( which also had a bimodal distribution ).
Mentre il peso e l’altezzanella pop. Umana sono bimo-dali, il bmi [peso/altezza^2]non lo e’!!!!!
DISTRIBUZIONE BIVARIATA (CROSS-TABULATION)
Permette la rappresentazione congiunta della distribuzione di frequenza di due variabili qualitative
Permette di capire la relazione tra le due variabili
BPCO ni pi (%)
assente 16622 89.2%
presente 2016 10.8%
Totale 18638 100.0%
Fumo ni pi
non fumatore 9667 51.9%
ex fumatore 2743 14.7%
fumatore 6228 33.4%
Totale 18638 100.0%
Esempio: distribuzione dell’abitudine al fumo e della broncopneumopatia cronico- ostruttiva (GOLD-BPCO: 0+) in adulti italiana di età 20-44 anni (indagine ISAYA).
BPCO
FUMO assente presente TOTALE
non fumatore 9042 625 9667
ex fumatore 2472 271 2743
fumatore 5108 1120 6228
TOTALE 16622 2016 18638
DISTRIBUZIONE CONGIUNTA ASSOLUTA
dimensione campionaria (n)
distribuzione marginale del fumo
(ni)
distribuzione marginale della
BPCO (nj)
distribuzione congiunta del fumo e della BPCO
(nij)
BPCO
FUMO assente presente TOTALE
non fumatore 48.5% 3.4% 51.9%
ex fumatore 13.3% 1.4% 14.7%
fumatore 27.4% 6.0% 33.4%
TOTALE 89.2% 10.8% 100.0%
DISTRIBUZIONE CONGIUNTA RELATIVA (%)
BPCO
FUMO assente presente TOTALE
non fumatore 9042 625 9667
ex fumatore 2472 271 2743
fumatore 5108 1120 6228
TOTALE 16622 2016 18638
(nij / n) * 100
non fumatori con BPCO
(n12)
dimensione campionaria (n)
(625 / 18638) * 100
DISTRIBUZIONI CONDIZIONALI(percentuali di riga e di colonna)
N.B. Se le distribuzioni condizionali sono differenti, si può supporre che esista una relazione tra le due variabili
• Rappresentano la distribuzione di una variabile all’interno delle modalità dell’altra variabile
DISTRIBUZIONI CONDIZIONALI AI MARGINALI DI RIGA (percentuali di riga)
DISTRIBUZIONE DELLA BPCO PER LIVELLO DI FUMO
BPCO
FUMO assente presente TOTALE
non fumatore 9042 625 9667
ex fumatore 2472 271 2743
fumatore 5108 1120 6228
TOTALE 16622 2016 18638
BPCO
FUMO assente presente TOTALE
non fumatore 93.5% 6.5% 100.0%
ex fumatore 90.1% 9.9% 100.0%
fumatore 82.0% 18.0% 100.0%
TOTALE 89.2% 10.8% 100.0%
marginali di riga (ni)
(nij / ni) * 100
(625 / 9667) * 100
DISTRIBUZIONI CONDIZIONALI AI MARGINALI DI COLONNA (percentuali di colonna):
DISTRIBUZIONE DEL FUMO PER LIVELLO DELLA BPCO
BPCO
FUMO assente presente TOTALE
non fumatore 9042 625 9667
ex fumatore 2472 271 2743
fumatore 5108 1120 6228
TOTALE 16622 2016 18638
marginali di colonna (nj)
(nij / nj) * 100
BPCO
FUMO assente presente TOTALE
non fumatore 54.4% 31.0% 51.9%
ex fumatore 14.9% 13.4% 14.7%
fumatore 30.7% 55.6% 33.4%
TOTALE 100.0% 100.0% 100.0%
(625 / 2016) * 100
ESERCIZIO
In un’indagine, è stato chiesto ad un gruppo di 101 consumatori e ad un gruppo di 124 dentisti se erano favorevoli alla pubblicità fatta dai dentisti per attrarre nuovi pazienti.
Si sono ottenuti i seguenti risultati:
GIUDIZIO
CATEGORIA moltofavorevole
abbastanzafavorevole
indifferente abbastanzasfavorevole
moltosfavorevole
TOTALE
consumatore 34 49 9 4 5 101
dentista 9 18 23 28 46 124
TOTALE 43 67 32 32 51 225
1. C’è differenza tra il giudizio espresso dai consumatori e dai dentisti? C’è relazione tra la categoria e il giudizio?
2. Cercate di interpretare il risultato