Presentazione standard di PowerPoint · Distribuzione di una variabile aleatoria discreta ... •X...

54
Statistica inferenziale

Transcript of Presentazione standard di PowerPoint · Distribuzione di una variabile aleatoria discreta ... •X...

Statistica inferenziale

Popolazione e campione

• Molto spesso siamo interessati a trarre delle conclusioni su persone che hanno determinate caratteristiche (pazienti, atleti, bambini, gestanti, …)

• Osserveremo un campione della popolazione – Dall’osservazione del campione, trarremo delle

conclusioni sulla popolazione

• Assumiamo che il campione in esame sia un campione casuale della popolazione

Popolazione

Campione

Inferenza statistica

Parametri della popolazione

• Le caratteristiche (ignote) della popolazione sono chiamate parametri e sono indicate con le lettere greche

• Media μ

• Varianza σ2

• Deviazione standard σ

Statistiche

• I valori osservati nel campione sono chiamati statistiche

• Media 𝑥

• Varianza s2

• Deviazione standard s

Teoria della probabilità

• Fondamento dell’inferenza statistica è la teoria della probabilità

Definizione di probabilità

• La probabilità di un evento A è la frequenza relativa con cui si verifica l’evento A in una serie molto lunga di esperimenti condotti in condizioni sostanzialmente identiche

𝑃 𝐴 =𝑚

𝑛

• È la definizione frequentista di probabilità

• Esistono anche altre definizioni di probabilità (definizione soggettiva o bayesiana)

Eventi esclusivi e non esclusivi

• Due eventi A e B sono esclusivi se non possono verificarsi contemporaneamente

• Due eventi A e B sono non esclusivi se possono verificarsi contemporaneamente

Proprietà additiva della probabilità

• Se 2 o più eventi sono mutuamente esclusivi

𝑃 𝐴 ∪ 𝐵 = 𝑃 𝐴 + 𝑃(𝐵)

A B

Proprietà additiva della probabilità

• Se 2 o più eventi non sono mutuamente esclusivi

𝑃 𝐴 ∪ 𝐵 = 𝑃 𝐴 + 𝑃 𝐵 − 𝑃(𝐴 ∩ 𝐵)

A B

Eventi dipendenti ed indipendenti

• Due eventi A e B sono indipendenti se il verificarsi dell’uno non modifica la probabilità che l’altro evento si verifichi

• Due eventi A e B sono dipendenti se il verificarsi dell’uno influenza la probabilità che l’altro evento si verifichi

Probabilità condizionale

• È la probabilità che si verifichi l’evento B, condizionata al fatto che l’evento A si sia già verificato

𝑃(𝐵|𝐴)

• Se A e B sono indipendenti 𝑃 𝐵|𝐴 = 𝑃(𝐵)

Proprietà moltiplicativa della probabilità

𝑃 𝐴 ∩ 𝐵 = 𝑃 𝐴 ∗ 𝑃(𝐵|𝐴)

• Se due eventi sono indipendenti

𝑃 𝐴 ∩ 𝐵 = 𝑃 𝐴 ∗ 𝑃(𝐵)

Esercitazione

• La probabilità che uno studente superi l’esame di Fisiologia Umana al primo appello è 0.2

• La probabilità che uno studente superi l’esame di Fisiologia Umana al secondo appello è 0.3

• Qual è la probabilità di superare l’esame al primo o al secondo appello?

Esercitazione

• La probabilità che uno studente superi l’esame di Fisiologia Umana al primo appello è 0.2

• La probabilità che uno studente superi l’esame di Salute e Attività Motoria al primo appello è 0.3

• Qual è la probabilità di superare entrambi gli esami al primo appello?

La distribuzione di probabilità

• E’ una relazione matematica, o una regola, che assegna ad ogni possibile valore “x” (modalità) di una variabile aleatoria discreta “X” la probabilità P(X=x)

• Può essere espressa in forma di tabella o grafico che presenta le modalità e le probabilità associate oppure sotto forma di formula matematica dalla quale è possibile ricavare i singoli valori di probabilità

Distribuzioni di probabilità

• Esistono funzioni di distribuzione di probabilità di ogni forma e dimensione

• Le distribuzioni appartengono a famiglie – Ogni curva che appartiene ad una famiglia è

determinata dal valore di una serie di “parametri”

• Fenomeni diversi possono avere una distribuzione di probabilità che appartiene a famiglie diverse – es. la distribuzione delle altezze appartiene alla

famiglia delle distribuzioni normali, la durata della vita alle distribuzioni Weibull

Le variabili aleatorie

• Una variabile aleatoria (o casuale) “X” è definita come una quantità numerica che assume differenti valori “x” con un probabilità specificata P(X=x)

• Si distinguono due tipi di variabili aleatorie:

– Variabili aleatorie discrete

– Variabili aleatorie continue

Distribuzione di una variabile aleatoria discreta

• X discreta: funzione di probabilità f(x) – le modalità che la

variabile può assumere sono costituite da valori interi

– Per ogni possibile valore x la probabilità è definita: • f(x)=Pr(X=x)

0.1

.2.3

.4

Pro

bab

ility

f(x

)

0 1 2 3 4

Distribuzione di una variabile aleatoria continua

• X continua: funzione di densità f(x) – le modalità possibili

sono i valori di un continuum

– classi di tali valori si verificano con una probabilità specifica

– Funzione tale che Pr(a<X<b) è uguale all’area sottesa alla curva compresa tra a e b

a b

Statistics Review (permutazioni e combinazioni)

• Permutazioni

– in quanti modi differenti n

oggetti possono essere selezionati r alla volta (considerando l’ordine)

• Combinazioni

– in quanti modi differenti n

oggetti possono essere selezionati r alla volta (senza considerare l’ordine)

1...21 rnnnnpn

r

!!

rn

npn

r

!!

!

rnr

nc n

r

n

r

La distribuzione binomiale

• Campione casuale di grandezza n da una popolazione con prevalenza π della malattia D

– xi=1 se ith individuo nel campione ha la malattia

– xi=0 se ith individuo nel campione non ha la malattia

• X= x1+ x2+ …+xnè il numero di individui con la malattia nel campione

• La distribuzione di X dipende da n e π ed è chiamata distribuzione binomiale

– n e π sono i parametri della distribuzione

La Distribuzione Binomiale: ASSUNTI DI BASE

• Esiste un numero fisso di esperimenti n • Ogni esperimento dà luogo a uno tra due risultati

mutuamente esclusivi – Evento elementare di tipo binario

• I risultati degli n esperimenti sono indipendenti – E’ applicabile la proprietà moltiplicativa per il calcolo

della probabilità di insiemi unione

• La probabilità di successo p è costante per ciascun esperimento – L’ evento elementare ha distribuzione uniforme

P(X=x)=k

La distribuzione binomiale: funzione di probabilità

• La funzione di probabilità è data dalla seguente espressione matematica

è la prevalenza stimata dal campione

• La distribuzione di P deriva dalla distribuzione binomiale

P X xn

xp px n x( ) ( )

1

n

XP

La distribuzione binomiale

• Selezionando n soggetti, la probabilità di ottenere x “successi” è

• Il valore atteso (“media”) è E(X) = n*p • La varianza è = n*p* (1-p)

P X xn

xp px n x( ) ( )

1

N° combinazioni equivalenti

Probabilità marginale eventi elementari “favorevoli”

Probabilità marginale eventi elementari “sfavorevoli”

La distribuzione binomiale: un esempio

• Y variabile casuale che rappresenta il comportamento nei confronti dell’attività fisica

– Y=1 se il soggetto è sedentario

– Y=0 se il soggetto non è sedentario

• P=29%

• P(Y=1)= p= 0,29

• P(Y=0)= 1-p= 1-0,29= 0,71

La distribuzione binomiale

• Immaginiamo di selezionare due soggetti in maniera casuale. Qual è la distribuzione della variabile X? In altre parole, qual è la probabilità di ottenere 0, 1 o 2 soggetti sedentari?

• P(X=0)= (1-p)2= (0,71)2= 0,504

• P(X=1)= p(1-p)+(1-p)p= 2p(1-p)= 2*0,29*0,71= 0,412

• P(X=2)= p2= (0,29)2= 0,084

Risultato di Y Probabilità di questi risultati

Numero di sedentari

X Primo

soggetto Secondo soggetto

0 0 (1-p)(1-p) 0

1 0 p(1-p) 1

0 1 (1-p)p 1

1 1 pp 2

La distribuzione binomiale • Nell’esempio precedente, n=2 e p=0,29

• E se avessimo studiato tre soggetti?

• X variabile casuale binomiale con n=3 e p=0,29

• P(X=0)= (1-p)3= (0,71)3= 0,358

• P(X=1)= … = 0,439

• P(X=2)= … = 0,179

• P(X=3)= … = 0,024

La distribuzione binomiale: un esempio

• Assumendo che il 30% degli studenti sono sedentari, quanti soggetti sedentari ci aspettiamo se selezioniamo casualmente 5 studenti?

• Utilizza la distribuzione binomiale per studiare la distribuzione di probabilità della variabile casuale binomiale X con n=5 e p=0,30

Tabella della distribuzione binomiale

Distribuzione binomiale, n=5 p=0.3

0.1

.2.3

.4

Pro

bab

ility

0 1 2 3 4 5

Distribuzione binomiale

• La distribuzione binomiale è asimmetrica – quando p è piccolo (vicino a 0)

• n=5, p=0,3

– o quando p è grande (vicino a 1)

• n=5, p=0,7 0

.1.2

.3.4

Pro

bab

ility

0 1 2 3 4 5

0.1

.2.3

.4

Pro

bab

ility

0 1 2 3 4 5

Distribuzione binomiale

• Per valori di p vicini o uguali a 0,5 la distribuzione diventa simmetrica

• n=5, p=0,5

• n=10, p=0,5

0

.1.2

.3

Pro

bab

ility

0 1 2 3 4 5

0

.05

.1.1

5.2

.25

Pro

bab

ility

0 1 2 3 4 5 6 7 8 9 10

Distribuzione binomiale

• All’aumentare di n, la distribuzione diventa sempre meno asimmetrica – n=10, p=0.1

– n=100, p=0.1

0

.1.2

.3.4

Pro

bab

ility

0 1 2 3 4 5 6 7 8 9 10

0

.05

.1.1

5.2

Pro

bab

ility

01234567891011121314151617181920212223242526272829303132333435363738394041424344454647484950

Funzione di densità di probabilità

• Immaginiamo di poter misurare una variabile numerica continua in tutti i membri di una popolazione

• La distribuzione di questa variabile nella popolazione è caratterizzata dalla sua funzione di densità di probabilità

Proprietà della funzione di densità di probabilità

• Per ogni intervallo (a,b) la probabilità che un soggetto appartenente alla popolazione abbia un valore compreso tra a e b è uguale all’area sottesa alla curva

• L’area totale sotto la curva deve essere uguale ad uno

a b

La distribuzione normale

• E’ la distribuzione continua più comune, ed è nota anche come distribuzione Gaussiana

• Ha la caratteristica forma “a campana”

• È unimodale e simmetrica intorno alla media μ

• La sua densità di probabilità è data dall’equazione

𝑦 =1

2𝜋𝜎𝑒

− 𝑥−𝜇 2

2𝜎2

La distribuzione normale

0

.01

.02

.03

.04

y

120 140 160 180 200 220x

μ=170 σ=10

La distribuzione normale

0

.01

.02

.03

.04

y

120 140 160 180 200 220x

μ=170 σ=12

La distribuzione normale standard (Z)

0.1

.2.3

.4y

-4 -2 0 2 4x

μ=0 σ=1

La distribuzione normale standard

• Qualsiasi distribuzione normale può essere correlata alla distribuzione normale standard, attraverso un’opportuna trasformazione

𝑧 =𝑥 − 𝜇

𝜎

• z è la deviata normale standard o z-score

La distribuzione normale standard

0.1

.2.3

.4y

-4 -3 -2 -1 0 1 2 3 4x

AUC=68%

La distribuzione normale standard

0.1

.2.3

.4y

-4 -3 -2 -1 0 1 2 3 4x

AUC=95%

2.5% 2.5%

La distribuzione normale standard

• I valori della distribuzione normale standard sono riportati in una tabella

• Stata ha in memoria la tabella della distribuzione normale standard e molte altre funzioni di densità di probabilità (t di Student, binomiale, Chi quadro, F, …)

La distribuzione normale standard

Applicazioni della distribuzione normale standard

• Immaginiamo di conoscere la media e la deviazione standard della pressione arteriosa sistolica (PAS) nella popolazione

• μ=120 mmHg

• σ=15 mmHg

• Qual è la probabilità che un individuo preso a caso da questa popolazione abbia una PAS superiore a 140 mmHg?

Applicazioni della distribuzione normale standard

• μ=120 mmHg

• σ=15 mmHg

• x=140 mmHg

• 𝑧 =𝑥−𝜇

𝜎=

140−120

15= 1.33

• Dobbiamo calcolare l’AUC in Z nell’intervallo (1.33, ∞)

Applicazioni della distribuzione normale standard

0.1

.2.3

.4y

-4 -3 -2 -1 0 1 2 3 41.33x

9.1%

Applicazioni della distribuzione normale standard

• Qual è la probabilità che un individuo preso a caso da questa popolazione abbia una PAS inferiore a 90 mmHg?

Applicazioni della distribuzione normale standard

• μ=120 mmHg

• σ=15 mmHg

• x=90 mmHg

• 𝑧 =𝑥−𝜇

𝜎=

90−120

15= −2

• Dobbiamo calcolare l’AUC in Z in (-∞, -2)

0.1

.2.3

.4y

-4 -3 -2 -1 0 1 2 3 4x

Applicazioni della distribuzione normale standard

2.3%

Applicazioni della distribuzione normale standard

• Qual è la probabilità che un individuo preso a caso da questa popolazione abbia una PAS compresa tra 100 e 110 mmHg?

Applicazioni della distribuzione normale standard

• μ=120 mmHg

• σ=15 mmHg

• x1=100 mmHg

• x2=110 mmHg

• 𝑧 =𝑥−𝜇

𝜎=

100−120

15= −1.33

• 𝑧 =𝑥−𝜇

𝜎=

110−120

15= −0.67

• Dobbiamo calcolare l’AUC in Z in (-1.33, -0.67)

0.1

.2.3

.4y

-4 -3 -2 -1 0 1 2 3 4-1.33 -.67x

Applicazioni della distribuzione normale standard

16.0%