Statisztikai programcsomagokszucsg/oktatas/statprog_slides.pdf · Statisztikai programcsomagok...
Transcript of Statisztikai programcsomagokszucsg/oktatas/statprog_slides.pdf · Statisztikai programcsomagok...
Statisztikai programcsomagok
Sz¶cs Gábor
Szegedi Tudományegyetem, Bolyai Intézet
Szeged, 2012. tavaszi félév
Sz¶cs Gábor (SZTE, Bolyai Intézet) Statisztikai programcsomagok 2012. tavaszi félév 1 / 26
Bevezetés Statisztikai alapfogalmak
Statisztikai alapfogalmak
Valószín¶ségelmélet: Ismert eloszlású véletlen változók tulajdonságai.
Matematikai statisztika: A változók eloszlása ismeretlen, a vizsgálatotempirikus adatok (meg�gyelések) alapján végezzük.
Leíró statisztika: Az empirikus adatok összegy¶jtése és feldolgozása.
Statisztikai minta: Meg�gyelések egy véletlen (vektor-)változó értékeire.
Statisztikaelmélet: X1, . . . ,Xn FAE véletlen (vektor-)változók.
Gyakorlat: A változók egy realizációja, x1, . . . , xn meg�gyelések.
Az n értéket a minta méretének nevezzük.
Kérdés: Mit állíthatunk a változók közös eloszlásáról a minta alapján.
Glivenlo�Cantelli-tétel: A háttéreloszlás 1 valószín¶séggel tetsz®legespontosággal meghatározható, amint az n mintaméret tart a végtelenbe.
Sz¶cs Gábor (SZTE, Bolyai Intézet) Statisztikai programcsomagok 2012. tavaszi félév 2 / 26
Bevezetés Statisztikai alapfogalmak
Néhány fontosabb alapprobléma:
Becsléselmélet: ismeretlen mennyiségek becslése.
Alapstatisztikák: várható érték, szórás, kovariancia, stb.
Eloszlások ismeretlen paraméterei.
Kon�dencia-intervallumok: intervallumbecslés.
Hipotézisvizsgálat: állítások valóságtartalmának tesztelése.
Alapstatisztikák becslésének tesztelése.
Eloszlástesztek.
Ha a meg�gyelések egy X = (X (1), . . . ,X (d)) vektorváltozóravonatkoznak, akkor milyen kapcsolat van a komponensek között?
Függetlenségvizsgálat.
Regresszióanalízis: függvénykapcsolat a komponensek között.
F®komponens-analízis, faktoranalízis: a komponensek számánakcsökkentése kis információveszteséggel.
Klaszteranalízis: a meg�gyelések típuscsoportokba rendezése.Sz¶cs Gábor (SZTE, Bolyai Intézet) Statisztikai programcsomagok 2012. tavaszi félév 3 / 26
Bevezetés Statisztikai alapfogalmak
Fontosabb alkalmazási területek:
Gyógyászat: betegségtesztek, gyógyszerkísérletek.
Közvéleménykutatások: politika és marketing.
Pénzügyi matematika, biztosításmatematika.
Egyéb: min®ségellen®rzés, meteorológia, adatbányászat, stb.
Nehézség: A statisztikai módszerek számításigényesek.
Néhány számítógépes szoftver:
Egyszer¶bb alkalmazások: Excel, Mathematica, Matlab.
Statisztikai programcsomagok: SPSS, SAS, R.
SPSS (Statistical Package for the Social Sciences), version 19.
1968-2010: Stanford University, SPSS Inc., v1-v18.
2010-: IBM, v19-v20.
Az SPSS v20 angol nyelv¶ leírása az interneten:
http://publib.boulder.ibm.com/infocenter/spssstat/v20r0m0/index.jspSz¶cs Gábor (SZTE, Bolyai Intézet) Statisztikai programcsomagok 2012. tavaszi félév 4 / 26
Bevezetés Az SPSS programcsomag
Az SPSS programcsomag
Input Window:
Data View: bemeneti adatok, Variables and Cases.Variable View: a változók tulajdonságai.
1 Var12 Var23 Var34 Var4
Var1 Var2 Name Type
Variables
Cases
Data View
Properties
Variables
Variable View
Output Window: a statisztikai vizsgálatok eredményei. Másolás MicrosoftO�ce termékekbe, exportálás több formátumban.
Sz¶cs Gábor (SZTE, Bolyai Intézet) Statisztikai programcsomagok 2012. tavaszi félév 5 / 26
Bevezetés Az SPSS programcsomag
Beállítások a Variable View lapon:
Name: a változó neve. Max. 8 karakter, tiltott: , �, %, . . .Type: a változó típusa. Szám, szöveg, dátum, valuta, stb.Width: mez®szélesség, a megjelenített karakterek maximális száma.Decimals: az ábrázolt tizedesjegyek száma.Labels: cimkék, hosszabb magyarázat a változónevekhez.Values: a változó értékeinek kódolása, cimkézése.Missing: a hiányzó meg�gyelések kezelése, pl. többféle hiányok.Columns: a táblázat oszlopainak szélessége.Align: szövegigazítás jobbra, balra, középre.Measure: a változó mértéke. Meghatározza, hogy milyen statisztikaim¶veleteket hajthatunk végre a változó értékein.
Scale: értelmezhet®ek a matematikai m¶veletek az értékeken.
Ordinal: nincsenek matematikai m¶veletek, de van rendezés.
Nominal: a változó értékei között nincs rendezés.
Role: a változó szerepe a vizsgálatban, id®nként van jelent®sége.
Sz¶cs Gábor (SZTE, Bolyai Intézet) Statisztikai programcsomagok 2012. tavaszi félév 6 / 26
Becsléselmélet és adatok ábrázolása Alapfogalmak
Becsléselmélet és adatok ábrázolása
Statisztikai minta: X1, . . . ,Xn ∼ F FAE, F (x), x ∈ R, ismeretlen.
Feladat: Adjunk becslést az F eloszlás valamely θ = θ(F ) függvényére.
Alapstatisztikák: várható érték, szórás, kovariancia.
Paraméteres eloszláscsaládokban a paraméter becslése.
Kétfajta becsléssel fogunk dolgozni:
Pontbecslések: A θ értéket a változóknak egy θ̂n = θ̂n(X1, . . . ,Xn)statisztikával becsüljük.
Intervallumbecslések: A minta függvényében megadunk egy [an, bn]intervallumot, mely nagy valószín¶séggel tartalmazza a θ értéket.
Legyen θ̂n = θ̂n(X1, . . . ,Xn) a θ pontbecslése a minta alapján.
A becslés torzítatlan, ha E (θ̂n) = θ.
A becslés gyengén konzisztens, ha θ̂nP−→ θ, n→∞.
A becslés er®sen konzisztens, ha θ̂n → θ m.b.
Sz¶cs Gábor (SZTE, Bolyai Intézet) Statisztikai programcsomagok 2012. tavaszi félév 7 / 26
Becsléselmélet és adatok ábrázolása Alapstatisztikák
Alapstatisztikák
Várható érték: E (X ) =∫R x dF (x).
Empirikus várható érték, mintaátlag, mean:
En(X ) = X :=X1 + · · ·+ Xn
n.
Tulajdonságai: torzítatlan és er®sen konzisztens.Variancia:
Var(X ) = E[X − E (X )
]2= E
(X 2)− E 2(X ) .
(Korrigálatlan) empirikus variancia:
Varn(X ) :=X 21 + · · ·+ X 2
n
n−(X)2.
Tulajdonságai: er®sen konzisztens, de torzított, ugyanis
E(Varn(X )
)=
n − 1n
Var(X ) .
Sz¶cs Gábor (SZTE, Bolyai Intézet) Statisztikai programcsomagok 2012. tavaszi félév 8 / 26
Becsléselmélet és adatok ábrázolása Alapstatisztikák
Variancia (folytatás):
Korrigált empirikus variancia, variance:
Var∗n(X ) :=n
n − 1Varn(X ) .
Tulajdonságai: torzítatlan és er®sen konzisztens.Szórás: D(X ) =
√Var(X ).
(Korrigálatlan) és korrigált empirikus szórás, standard deviation:
Dn(X ) :=√Varn(X ) , D∗n(X ) :=
√Var∗n(X ) =
√n
n − 1Varn(X ) .
Tulajdonságaik: mindkett® er®sen konzisztens, a korrigált torzítatlan.A mintaátlag szórása:
Var(X)
= Var
(X1 + · · ·+ Xn
n
)=
Var(X )
n, D
(X)
=D(X )√
n.
A mintaátlag szórásának becslése, standard error of the mean:
SEn(X ) :=D∗n(X )√
n.
Sz¶cs Gábor (SZTE, Bolyai Intézet) Statisztikai programcsomagok 2012. tavaszi félév 9 / 26
Becsléselmélet és adatok ábrázolása Alapstatisztikák
Ferdeség, skewness:
γ1 := E
(X − E (X )
D(X )
)3
=E[X − E (X )
]3(E[X − E (X )
]2)3/2 .Jelentése:
Ha γ1 = 0, akkor az eloszlás szimmetrikus a várható értékre.Példa: normális eloszlás, fekete s¶r¶ségfüggvény.Ha γ1 > 0, akkor az eloszlás balra d®l, kék görbe.Ha γ1 < 0, akkor az eloszlás jobbra d®l, piros görbe.
Empirikus ferdeség:
g1 :=
∑n
i=1
(Xi − X
)3/n(∑
n
i=1
(Xi − X
)2/n)3/2 .
Sz¶cs Gábor (SZTE, Bolyai Intézet) Statisztikai programcsomagok 2012. tavaszi félév 10 / 26
Becsléselmélet és adatok ábrázolása Alapstatisztikák
Lapultság, kurtosis:
γ2 :=E[X − E (X )
]4(E[X − E (X )
]2)2 − 3 .
Jelentése:
Ha γ2 = 0, akkor az eloszlás olyan mértékben lapult, mint anormális eloszlás; fekete s¶r¶ségfüggvény.Ha γ2 > 0, akkor az eloszlás csúcsosabb, mint a normális; kék görbe.Ha γ2 < 0, akkor az eloszlás lapultabb, mint a normális; piros görbe.
Empirikus lapultság:
g2 :=
∑n
i=1
(Xi − X
)4/n(∑
n
i=1
(Xi − X
)2/n)2−3 .
Sz¶cs Gábor (SZTE, Bolyai Intézet) Statisztikai programcsomagok 2012. tavaszi félév 11 / 26
Becsléselmélet és adatok ábrázolása Alapstatisztikák
A qα érték az X változó α-kvantilise, (0 < α < 1,) ha
P(X < qα) ≤ α ≤ P(X ≤ qα) .
Az α-kvantilis nem mindig egyértelm¶.
y
x
α
qα qα qα qα
Kvantilisfüggvény: Q(α) = inf{x ∈ R : F (x) ≥ α}.Speciális kvantilisek:
Medián: α = 0, 5.
Alsó és fels® kvartilis: α = 0, 25 és α = 0, 75.
Decilisek: α = 0, 1, . . . , 0, 9.
Sz¶cs Gábor (SZTE, Bolyai Intézet) Statisztikai programcsomagok 2012. tavaszi félév 12 / 26
Becsléselmélet és adatok ábrázolása Alapstatisztikák
Kvantilisek (folytatás): Empirikus kvantilisfüggvény:
X ∗1
1n+1
X ∗2 X ∗3 ,X∗4
3n+1
X ∗n
n
n+1
1
k
n+1
X ∗k
α
qα
k+1n+1
X ∗k+1
k = bα(n + 1)c
A minta empirikus kvantilisei, percentiles:
qα = X ∗1 , α ≤ 1n + 1
, qα = X ∗n , α ≥ n
n + 1,
qα = X ∗bα(n+1)c+(α(n+1)−
⌊α(n+1)
⌋)X ∗bα(n+1)c+1 , egyébként.
Sz¶cs Gábor (SZTE, Bolyai Intézet) Statisztikai programcsomagok 2012. tavaszi félév 13 / 26
Becsléselmélet és adatok ábrázolása Alapstatisztikák
Medián becslése:
mn =
{X ∗k+1 , n = 2k + 1 ,
(X ∗k
+ X ∗k+1)/2 , n = 2k .
Minimum, maximum: X ∗1 , X∗n .
A minta terjedelme, range: X ∗n − X ∗1 .
Interkvartilis távolság, Interquartile range: q0,75 − q0,25.
Empirikus relatív szórás: D∗n(X )/X .
Módusz: A minta legnagyobb gyakoriságú eleme.
Diszkrét eloszlás esetén a legnagyobb valószín¶ség¶ értékbecslése.
Abszolút folytonos eloszlás esetén a s¶r¶ségfüggvénymaximumának becslése.
Sz¶cs Gábor (SZTE, Bolyai Intézet) Statisztikai programcsomagok 2012. tavaszi félév 14 / 26
Becsléselmélet és adatok ábrázolása Gra�konok
Gra�konok
Gra�konok az empirikus eloszlás ábrázolására:
Oszlopdiagramm, Bar: Diszkrét (kevés érték¶) változó eloszlása.
Például: 100 kockadobás után az eredmények gyakorisága.Hisztogramm, Histogram: Folytonos (sok érték¶) változó eloszlása.
Például: 100 elem¶ minta standard normális eloszlásból.
14
20
11
25
15 15
1 2 3 4 5 6
4
17
2832
16
3
-3 -2 -1 0 1 2 3
Boxplot: Kvartilisek, ferdeség és extremális elemek ábrázolása.
Ábra a honlapomon.Sz¶cs Gábor (SZTE, Bolyai Intézet) Statisztikai programcsomagok 2012. tavaszi félév 15 / 26
Becsléselmélet és adatok ábrázolása Intervallumbecslések
Intervallumbecslések
Legyen θ = θ(F ) a háttéreloszlés egy függvénye, 0 < α < 1.
Cél: Adjunk meg egy [a, b] intervallumot, mely nagy valószín¶séggeltartalmazza a θ értéket.
Statisztikák: an = an(X1, . . . ,Xn), bn = bn(X1, . . . ,Xn).
1− α megbízhatósági szint¶ kon�dencia-intervallum:
P(θ ∈ [an, bn]
)= 1− α .
Megjegyzések:
Jellemz®en α = 0, 1, 0, 05, 0, 01.
A minta egy x1, . . . , xn realizációja esetén az [an, bn] intervallumvagy tartalmazza a θ paramétert, vagy nem. A minták 1− αhányada a � jó minta�, amikor θ ∈ [an, bn].
Sok esetben csak közelít®leg 1− α megbízhatóságú kon�denciaintervallumot tudunk konstruálni.
Sz¶cs Gábor (SZTE, Bolyai Intézet) Statisztikai programcsomagok 2012. tavaszi félév 16 / 26
Becsléselmélet és adatok ábrázolása Intervallumbecslések
Példák:
Kon�dencia intervallumot egy X ∼ N(0, 1) változó értékére
xα = Φ(−1)(1− α/2) , a = −xα , b = xα ,
P(X ∈ [−xα, xα]
)= P
(− xα ≤ X ≤ xα
)= 2Φ(xα)− 1 = 1− α .
Kon�dencia intervallumot egy X ∼ Student(n) változó értékére
xα = Φ(−1)n
(1− α/2
), a = −xα , b = xα ,
P(X ∈ [−xα, xα]
)= P
(− xα ≤ X ≤ xα
)= 2Φ(xα)− 1 = 1− α .
Sz¶cs Gábor (SZTE, Bolyai Intézet) Statisztikai programcsomagok 2012. tavaszi félév 17 / 26
Becsléselmélet és adatok ábrázolása Intervallumbecslések
Példa: Kon�dencia intervallum egy véges szórású X változó µ = E (X )várható értékre, ha a σ = D(X ) szórás ismert, xα = Φ−1
(1− α/2
).
Ha X1, . . . ,Xn ∼ N(µ, σ2) FAE, akkor
X ∼ N(µ, σ2/n
),
X − µσ/√n∼ N(0, 1) ,
és így az alábbi valószín¶ség 1− α:
P
(− xα + µ ≤ X − µ
σ/√n≤ xα + µ
)= P
(X − xα
σ√n≤ µ ≤ X + xα
σ√n
).
Ha X általános, akkor a centrális határeloszlás-tételb®l
X − µσ
D−→N(0, 1) ,
és így
1− α← P
(− xα + µ ≤ X − µ
σ/√n≤ xα + µ
)= P
(X − xα
σ√n≤ µ ≤ X + xα
σ√n
).
Sz¶cs Gábor (SZTE, Bolyai Intézet) Statisztikai programcsomagok 2012. tavaszi félév 18 / 26
Hipotézisvizsgálat Alapfogalmak
Hipotézisvizsgálat
Adott egy X1, . . . ,Xn minta és két egymást kizáró állítás:
Nullhipotézis: H0.
Ellenhipotézis: H1.
Feltesszük, hogy vagy H0 vagy H1 igaz.
Feladat: Döntsük el, hogy elfogadjuk vagy elvetjük H0-t.
Nehézség: A véletlen minta alapján nem állíthatunk biztosat.
Els®fajú hiba: P(elvetjük H0-t | H0 igaz).
Másodfajú hiba: P(elfogadjuk H0-t | H0 nem igaz).
Legyen 0 < α < 1 rögzített érték, (általában 0, 1, 0, 05, 0, 01,) ez aszigni�kancia szint, a próba szigora. Célok:
Megbízhatóság: P(elfogadjuk H0-t | H0 igaz) = 1− α.Er®: P(elvetjük H0-t | H0 nem igaz)→ max.
Rögzített α mellett, ha a mintaméret n→∞, akkor er®→ 1.Sz¶cs Gábor (SZTE, Bolyai Intézet) Statisztikai programcsomagok 2012. tavaszi félév 19 / 26
Hipotézisvizsgálat Alapfogalmak
Legyen Θ0 ∪Θ1 = Rn, Θ0 ∩Θ0 = ∅, olyan módon, hogy
P(
(X1, . . . ,Xn) ∈ Θ0 | H0
)= 1− α .
Ekkor elfogadjuk H0-t ⇐⇒ (X1, . . . ,Xn) ∈ Θ0.
Elfogadási vagy kritikus tartomány: Θ0.
Lehetne ezt esetlen egyszer¶bben? Tekintsünk
egy próbastatisztikát: Sn = Sn(X1, . . . ,Xn),
és egy kritikus értéket: xα, (ez α monoton növekv® függvénye.)
úgy, hogy |Sn| ≤ xα ⇐⇒ (X1, . . . ,Xn) ∈ Θ0 ⇐⇒ elfogadjuk H0-t.
Kérdés: Hogyan teszteljünk egyszerre több α szigni�kancia szinten?
Vegyük észre, hogy tetsz®leges minta esetén,
ha α elég kicsi, (tehát Θ0 elég b®,) akkor elfogadjuk H0-t;
ha α elég nagy, (tehát Θ0 elég sz¶k,) akkor elvetjük H0-t.
Adjuk meg azt a kritikus szigni�kancia szintet, mely alatt elfogadjuk, ésmely fölött elvetjük a nullhipotézist. Ez az az α, melyre |Sn| = xα.
Sz¶cs Gábor (SZTE, Bolyai Intézet) Statisztikai programcsomagok 2012. tavaszi félév 20 / 26
Hipotézisvizsgálat Az u-próba
Az u-próba
Tegyük fel, hogy σ = D(X ) ismert, és legyen
H0 : E (X ) = µ0 , H1 : E (X ) 6= µ0 .
Próbastatisztika, kritikus érték:
u =X − µ0σ/√n, xα = Φ−1
(1− α/2
).
Tegyük fel, hogy H0 igaz. Ha a háttéreloszlás normális, akkor
P(|u| ≤ xα
)= P
(X − xα
σ√n≤ µ0 ≤ X + xα
σ√n
)= 1− α .
Ha H0 igaz, de a háttéreloszlás nem normális, akkor
P(|u| ≤ xα
)= P
(X − xα
σ√n≤ µ0 ≤ X + xα
σ√n
)→ 1− α .
Sz¶cs Gábor (SZTE, Bolyai Intézet) Statisztikai programcsomagok 2012. tavaszi félév 21 / 26
Hipotézisvizsgálat További paraméteres próbák
További paraméteres próbák
Legyen X1, . . . ,Xn FAE minta,
H0 : E (X ) = µ0 , H1 : E (X ) 6= µ0 .
Egymintás t-próba: A D(X ) szórás nem ismert.
Próbastatisztika, illetve az eloszlása normális eloszlású minta esetén
tn =X − µ0
D∗n(X )/√n∼ Student(n − 1) .
Kritikus érték: xα = Φn−1(1− α/2).
Emlékeztet®ül, a kon�dencia intervallum a várható értékre:
[an, bn] =
[X − xα
D∗n(X )√n
,X + xαD∗n(X )√
n
].
Ekkor E (X ) ∈ [an, bn] ⇐⇒ −xα ≤ tn ≤ xα.
Sz¶cs Gábor (SZTE, Bolyai Intézet) Statisztikai programcsomagok 2012. tavaszi félév 22 / 26
Hipotézisvizsgálat További paraméteres próbák
Legyen X1, . . . ,Xn és Y1, . . . ,Ym két egymástól független minta,
H0 : E (X )− E (Y ) = µ0 , H1 : E (X )− E (Y ) 6= µ0 .
Kétmintás t-próba: Feltétel: D(X ) = D(Y ).
Próbastatisztika, illetve az eloszlása normális esetben:
tn,m =X − Y − µ0
D∗n,m√
(n + m)/nm∼ Student(n + m − 2) ,
ahol
D∗n,m =
√(n − 1)Var∗n(X ) + (m − 1)Var∗m(Y )
n + m − 2≈ D(X ) = D(Y ) .
Ennek segítségével kon�dencia intervallum is adható azE (X )− E (Y ) különbségre.
Sz¶cs Gábor (SZTE, Bolyai Intézet) Statisztikai programcsomagok 2012. tavaszi félév 23 / 26
Hipotézisvizsgálat További paraméteres próbák
Legyen X1, . . . ,Xn és Y1, . . . ,Ym két egymástól független minta,
H0 : E (X )− E (Y ) = µ0 , H1 : E (X )− E (Y ) 6= µ0 .
Welch-próba: Nincs feltétel.
Próbastatisztika, illetve az eloszlása normális esetben:
t ′n,m =X − Y − µ0
Var∗n(X )/n + Varm ∗ (Y )/m∼ Student(ν) ,
ahol
ν =
(Var∗n(X )/n + Var∗m(Y )/m
)2(Var∗n(X )/n
)2/(n − 1) +
(Var∗m(Y )/m
)2/(m − 1)
.
Sz¶cs Gábor (SZTE, Bolyai Intézet) Statisztikai programcsomagok 2012. tavaszi félév 24 / 26
Hipotézisvizsgálat További paraméteres próbák
Legyenek (X1,Y1), . . . , (Xn,Yn) FAE mintaelemek,
H0 : E (X )− E (Y ) = µ0 , H1 : E (X )− E (Y ) 6= µ0 .
Páros t-próba: Nincs feltétel.
Próbastatisztika, illetve az eloszlása normális esetben:
tn =X − Y − µ0
Var∗n(X − Y )/√n∼ Student(n − 1) .
Tegyük fel, hogy az (X ,Y ) vektor komponensei függetlenek. Mivelteszteljük H0-t, kétmintás t-próbával, (szükség esetén Welch-próbával,)vagy páros t-próbával?
Válasz: A kétmintás t-próbánál nagyobb a szabadsági fok, azért nagyobb apróba ereje, azt érdemes választani.
Sz¶cs Gábor (SZTE, Bolyai Intézet) Statisztikai programcsomagok 2012. tavaszi félév 25 / 26
Hipotézisvizsgálat További paraméteres próbák
F-próba: X1, . . . ,Xn és Y1, . . . ,Ym egymástól független minták,
H0 : D(X )/D(Y ) = σ0 , H1 : D(X )/D(Y ) 6= σ0 .
Próbastatisztika, illetve az eloszlása normális esetben:
f =Var∗n(X )
Var∗m(Y )σ20∼ Fn−1,m−1 .
Kritikus értékek: x1 = Fn−1,m−1(α/2), x2 = Fn−1,m−1(1− α/2).
Akkor fogadjuk el a null-hipotézist, ha x1 ≤ f ≤ x2.
F-próba egy minta esetén: X1, . . . ,Xn FAE,
H0 : D(X ) = σ0 , H1 : D(X ) 6= σ0 .
Próbastatisztika, illetve az eloszlása normális esetben:
f = Var∗n(X )/σ20 ∼ Fn−1,∞ .
Kritikus értékek, elfogadás: mint a kétmintás esetben.
Sz¶cs Gábor (SZTE, Bolyai Intézet) Statisztikai programcsomagok 2012. tavaszi félév 26 / 26