űjtött adatok vizsgálata következtetések levonásakeszei.chem.elte.hu/statisztika/KisStat.pdfA...
Transcript of űjtött adatok vizsgálata következtetések levonásakeszei.chem.elte.hu/statisztika/KisStat.pdfA...
-
– 1 –
BEVEZETÉS
A statisztika teljesen laikusoknak: nagy munkával gyűjtött adatok vizsgálata, abból következtetések levonása („statistical inference”)
(Egy kicsit sok hűhó semmiért – azaz Much ado about nothing.)
Mi is a statisztika?
� Egy populációból veszünk mintát. (A szavakat a KSH találta ki.)
� A minta alapján akarunk valamit mondani, de az egész populációról.
� Állítsunk megbízhatóságáról is nyilatkozunk. → NÉPSZAVAZÁS
� A „mintavétel” nem akármilyen. Akárhányszor elvégezzük, más és más eredményt
kapunk.
Ez a „mintavétel” lesz a dolog kulcsa. . → VENEREAL DISEASE ↓ Ezért kell érteni a valószínűségszámításhoz.
Nevezzük a mintavételt kísérletnek .
Kísérlet : → determinisztikus : előre meghatározható eredményhez vezet
→ véletlen : statisztikai törvényeknek engedelmeskedik
(Mi az ami közös a népszavazásban, a betegségek gyógyulásában és a fiz. kém. laborban?)
Mi kell a statisztika tanulásához?
MATEMATIKA: halmazelmélet
algebra
mértékelmélet (differenciál- és integrálszámítás)
analízis
Példa: NÉPSZAVAZÁS (Belépjen-e az Egyesült Királyság az Európai Unióba?)
YES NO SUM
Scotland 1 332 186 947 769 2 279 355
Northern Ireland 259 251 237 311 497 162
Kérdés: Van-e különbség Scotland és Northern Ireland véleménye között?
Válasz: Annak a valószínűsége, hogy nincs, 10−8.
-
– 2 –
MIK A VÉLETLEN TÖRVÉNYEI ?
Definíció: Eseménytér: a véletlen kísérlet összes lehetséges „kimenetelének” halmaza.
Elemei: az egyes kísérletek kimenetelei.
Az eseménytér lehet: − korlátos folytonos: pl. testmagasság
− végtelen diszkrét: pl. radioaktív bomlás
− véges diszkrét: pl. látósejtek száma a retinán,
kockadobás,
urna
(MI A BAJ A KLASSZIKUS ELMÉLETTEL?? (Kombinatorika))
− végtelen folytonos: ha így definiáljuk!
− egyváltozós
− többváltozós
Definíció: Esemény: Az eseménytér tetszőleges részhalmaza.
Elnevezés: Bekövetkezik egy esemény, ha a kísérlet olyan kimenetele fordul elő,
amelynek valódi része az esemény.
HF. Hány lehetséges esemény van egy kocka dobásánál (és kettőnél)?
Egy kocka: ábra
Ø: az üres halmaz (hogy az eseménytér zárt legyen, ne vezessen ki belőle semmilyen művelet.)
Definíció: Diszjunkt (egymást kizáró) események:
Ha (tetszőleges párra) nincsen páronként közös részük. (A metszetük üres.)
Példák: Páratlan / páros kocka – 2 vagy kisebb / 2-nél nagyobb
A VALÓSZÍNŰSÉGSZÁMÍTÁS AXIÓMÁI
Legyen: A és B egy eseménytér két (diszjunkt) eseménye (azaz A ∩ B = 0).
Jelölés: P(A) az A, P(B) a B esemény valószínűségeit jelölő számok, ha teljesül 3 axióma.
1. 0 ≤ P(A) ║ P(B)-re természetesen ugyanez igaz
2. P(A ∪ B) = P(A) + P(B)
3. P(S) = 1
S: A teljes eseménytér
-
– 3 –
Milyen esemény A ∪ B???
Ennyi axióma elég.
Szokás még: ( )∑∞
=
∞
=
=
11
AAi
i
i
i PP U
vagy 0 ≤ P(A) ≤ 1 – de ezek már az előzőek következményei!
Néhány fontos következmény: valószínűség számítás tételek
0. P(Ø) = 0
1. P(A) ≤ 1
2. P( A ) ≤ 1 − P(A) ║ Hány eseményt specifikál egy kísérlet kimenetele? ( A az A komplementere.)
3. ( )∑∞
=
∞
=
=
11
AAi
i
i
i PP U − kiterjesztés több (páronként független) eseményre
4. A 2. axióma következménye: események különbségének valószínűsége
( ) ( ) ( )VAAB/A ∩−= PPP
(Ha ( ) ( ) ( )BAB/AAB PPP −=→⊆ ║ Milyen esemény az A / B?
5. Ha két esemény nem diszjunkt, felbontható három diszjunkt eseményre. Legyen ≠∩ ED Ø
Felbontás: D ∩ E, D / (D ∩ E), E / (D ∩ E) → uniójuk: D ∪ E
P (D ∩ E) = P (D / (D ∩ E)) + P (E / (D ∩ E) =
= P (D) + P (E) − P (D ∩ E)
Vegyük észre: ha D és E diszjunktak, visszakapjuk a 2. axiómát.
Kiterjeszthetjük több eseményre → POINCARÉ tétele.
Mit jelent A ⊆ B? (Ha B, akkor A is.)
Ekkor: P (A) ≤ P (B)
P (B / A) = P (B) − P (A) Hogy állunk P (A / B)-vel?
FELTÉTELES VALÓSZÍNŰSÉG
Jelölés: BA : A, feltéve, hogy B bekövetkezett.
Definíció: ( ) ( )( )B
BABA
P
PP
∩= „az A esemény B-re vonatkoztatott feltételes valószínűsége.”
-
– 4 –
Tétel: A és B események függetlenek, ha P (A ∩ B) = P (A) ⋅ P (B)
Bizonyítás: ( )
( )( )B
A
BAP
P
P=
∩ → ( ) ( )BAB PP = (a B esemény valószínűsége független A-tól.)
Szimmetria okokból → ( ) ( )ABA PP = ■
A valószínűség gyakorlati értelmezése:
– Tapasztalati gyakoriság
– Klasszikus valószínűség (egyenletes, diszkrét)
– Geometriai valószínűség
Definíció: Függetlenek egymástól azok a kísérletek, amelyek kimeneteleinek valószínűségét
nem befolyásolják a többi kísérletek kimenetelei.
Elnevezés: Ismétlés: ha az újabb kísérletek függetlenek a korábbiaktól.
Bernoulli tétele (sztochasztikus konvergencia):
n
hp n
A,A = tapasztalati gyakoriság
( )( ) 1Alim ,A =
-
– 5 –
Definíció:
A valószínűségi változó az eseménytéren értelmezett függvény. A kísérlet minden egyes
kimenetelének megfelelően felvesz egy értéket, ez az ő realizációja.
Értékkészlete alkotja a valószínűségi változó eseményterét.
Más neve: statisztika.
Változó: NAGY latin betű, realizáció: kis latin betű
Mit jelent P (X = x)? Hogy van ez egy kocka dobásánál??
Mi a folytonos megfelelője a P (X = x) -nek??
P (x < X ≤ x + ∆ x)
vagy, ha elvégezhető a ∆∆∆∆x →→→→ 0 átmenet: P (x < X ≤ x + d x)
Mi a ∆ x → 0 feltétele???
N. B. – Valószínűségi változók bármely függvénye is valószínűségi változó! (Miért?)
– Bármely függvény, amely érvényes valószínűségi változók között,
érvényes ugyanúgy a realizációk között is. (Miért?)
VALÓSZÍNŰSÉGI SŰRŰSÉGFÜGGVÉNY
Legyen X egy valószínűségi változó,
S az ő eseménytere.
Kérdés: Hogyan oszlanak el S fölött a valószínűségek?
Definíció: Ha X folytonos valószínűségi változó, akkor valószínűségi sűrűségfüggvénye az az
f (x) függvény, amelynek az A intervallumon vett integrálja megadja annak a
valószínűségét, hogy X realizációi az A intervallumon belül lesznek, azaz:
1. ( ) ( ) ( )∫==∈A
jel
dxxAPAXP f
2. Az X ∈ (X, x + d x) elemi esemény valószínűsége f (x) d x, és f (x) d x ≥ 0 , ∀x
3. ( ) 1fS
=∫ dxx
A (−∞, ∞)-beli definíció esetén: ( ) 1f =∫∞
∞−
dxx – Hogy lehet ezt így kiterjeszteni?
-
– 6 –
Definíció: Ha X diszkrét valószínűségi változó, akkor minden egyes x értéke (realizációja)
elemi esemény, p(x) valószínűséggel.
Ekkor a p(x) = P (X = x) az X valószínűségi sűrűségfüggvénye.
Erre igaz
1. ( ) ( ) ( )∑∈
==∈Ax
xpAPAxPjelölés
2. 0 ≤ p (x) ≤ 1
3. ( )∑∈
=Ax
xp 1
Analógia: Tömegpontok / kontinuum mechanikája
∑ ∫=test test
i dVm ρ
( ) ( )∑ ∫=test test
i dVfmf ρ ρ : tömegsűrűség
(Stieltjes integrál)
Mostanra épült fel teljesen a használható matematikai apparátus:
Véletlenkísérlet
S halmaz
⊆A S
kimenetelek évalószínűsége
esem ny
valószínűség áltozó
iv
a realizáció valószínűsége
esem nyt ré é
0
0
1
1
P(A)
p( )x
f d ( )x x
∈X R1
X
X
(A matematikus nem az S halmazt tekinti alapként,
hanem annak összes részhalmazából álló H halmazt!)
-
– 7 –
Definíció: Az Y valószínűségi változó eloszlásfüggvénye:
F(x) = P (y ≤ x)
( ) ( )∑<
=xy
ypxF diszkrét
( )
= ∫
∞−
x
dyyfxF folytonos
Fogalmak áttekintése \ eloszlás típusa folytonos diszkrét
sűrűségfüggvény f (x) p(x)
elemi esemény valószínűsége f (x) dx p(x)
adott A esemény valószínűsége ( )∫A
dxxf ( )∑A
xp
eloszlásfüggvény F(x) F(x)
P (X ≤ x) F(x) F(x)
P (x1 ≤ X ≤ x2) F(x2) − F(x1)
( )∫2
1
x
x
dxxf
F(x2) − F(x1)
( )∑=
=
2
1
xX
xX
xp
Vegyük észre! ( ) 0lim =≤<→
bXaPba
folytonos X-re
P(x = b) = 0 ∀ b majdnem lehetetlen esemény
p (x ≠ b) = 0 majdnem biztos esemény
Definíció: X valószínűségi változó bármely g(x) függvényének várható értéke:
( )( )( ) ( )
( ) ( )
−
−=
∑
∫
∈
∞
∞−
Sx
xpxg
dxxfxg
xgM
diszkrét
folytonos
VÁRHATÓ ÉRTÉK
-
– 8 –
(Stieltjes integrállal: ( )( ) ( ) ( )∫=1
0
xdFxgxgM )
Feltételek: Ha a ( ) ( )xpxg∑ sor konvergens.
vagy a ( ) ( )∫∞
∞−
dxxfxg integrál létezik és véges.
Speciális várható értékek:
X várható értéke (X átlaga, X eloszlásának középértéke)
( )( )
( )
===∑
∫
∈
∞
∞−
Sx
x
xpx
dxxfxxMµµ
Jelentése: ezt „szórják körül” a kísérlet eredményei.
M: mean (más jelölés: E: expectation)
X (eloszlásának) r-edik centrális momentuma
( )[ ] ( )( )[ ]rrr xMxMxM −=−= µµ N.B.: Ha az eloszlás szimmetrikus, minden páratlan centrális momentuma zérus.
ábra
2. centrális momentum: X (eloszlásának) szórásnégyzete / varianciája
( ) ( ) ( )[ ] ( )( )[ ]22222 xMxMxMxVxD −=−==== µµσ
Elnevezés: Standard deviáció (hiba): ( )xD2=σ
D: deviation σ : scatter
Két valószínűségi változó esetén: KOVARIANCIA
( ) ( )( )[ ]rx YxMYXC µµ −−=,
Vegyük észre a határesetet: C (X, X) = D2(X) = V(X) (szórásnégyzet, variancia)
Kovariancia mátrix: elemei: C(Xi, Xj)
főátló: V(Xi) (= variancia)
Belőle származik a korrelációs együttható:
( ) ( )( ) ( )YDxD
YXCYX
22
,,
⋅=ρ „normált kovariancia”
-
– 9 –
Tétel: Ha X és Y függetlenek M(XY) = M(X) · M(Y)
ekkor C(X, Y) = 0 és ρ (X, Y) = 0
MEGFORDÍTVA CSAK AKKOR IGAZ, ha X és Y együttes eloszlása normális.
Tétel: Minden nemnegatív f (x), ha integrálható a (−∞, ∞) intervallumon, és
( ) 1=∫∞
∞−
dxxf , valószínűségi sűrűségfüggvény lehet.
Ha ( ) 1≠∫∞
∞−
dxxg , de véges, akkor
( )xgN
1 is lehet sűrűségfüggvény, ahol ( )∫
∞
∞−
= dxxgN
N : NORMA
ELOSZLÁSFÜGGVÉNY TÍPUSOK
Binomális eloszlás Legyen: tetszőlegesen ismételhető kísérlet két kimenetellel: A és A
P(A) = p P( A ) = q = 1−p
Binomiális mintavétel
Legyen n ismétlésből K az A események száma
{ }nS K,2,1,0= k ∈ S
Definíció: knk qpk
nkKP
−
== )( ez a sűrűségfüggvény
Jelölés: K ~ B(p, n)
A név eredete: P (K = k) kifejezés a (p + q)n binomális sorból való.
pn=µ ( )ppnqpn −== 12σ
Más név: Bernoulli-eloszlás ismételt alternatívák eloszlása
Alakalmazás: Népszavazás, feleletválasztás, stb.....
-
– 10 –
Poisson eloszlás
Diszkrét Gyakran használható.
Időben: egyenletes valószínűséggel bekövetkező események száma adott időintervallumban.
Térben: egyenletes valószínűséggel bekövetkező események (véletlen elhelyezkedése) száma adott felületen. (Esőcsepp, radioaktív bomlás, gépelési hiba, LÓRÚGÁS, forgalom, gólok focimeccsen, telefonhívások, sejtszaporodás, születések száma)
Eseménytér: N
Jelölés: K ~ Pn(m)
Definíció P (K = k) = P(b) = !k
em
mk
−
k ∈ N
m=µ m=2σ m=σ
Tétel: c-szeres intervallum: K ~ Pn(c·m)
ha K1 ~ Pn(m1) és K1 ~ Pn(m2) függetlenek, akkor K1 + K2 ~ Pn(m1 + m2)
Határeloszlás-tételek:
( ) ( )pnPnnpB →, ha 1
-
– 11 –
22 1
a=σ
a
1=σ
A Poisson rokona! − POISSON-folyamat
Normális eloszlás
Felfedezője: Abraham de Moivre − ezért hívják még Gauss-eloszlásnak.
Pétervári játék: Addig dobunk, míg fej nem jön ki. Ha n-edikre dobunk fejet, 2n rubelt kapunk. Mennyit kell befizetni a banknak, hogy ne menjen tönkre?
Dobások: Bn(0.5, n)
de Moivre: ( ) ∫∞−
−=
-
– 12 –
2~ νχx ν a szabadsági fokok száma
Miért fontos? Ha x1, x2, x3, .... xn függetlenek és N (µ, σ2) eloszlásúak:
∑=
−=
n
i
ixW
12σ
µ 2~ nW χ
Várható értéke: νµ =
Mérések!
Elnevezés: nn
W m2
~χ
redukált χ2- eloszlás: µ = 1
Student-féle t-eloszlás (Student: angol úr álneve, ezen a néven írta matematikai cikkeit)
Kivételes: t kis betű, de valószínűségi változó!!
( )2
12
12
,2
1
1+
+⋅
⋅
=ν
νν
βνt
tf ∞
-
– 13 –
STATISZTIKAI MÓDSZEREK
Mintavétel: x (x1, x2, x3, .... xn) elemek kiválasztása a sokaságból → minta
Becslés: ( )xfT = statisztikák számítása
mintastatisztika T függ a mintától !!
Statisztikai analízis: kvizsgálato
silleszkedé
modell
hipotézis
nciaszingifika
akonfidenci
Szükség van T eloszlásának ismeretére!!
(Az x eloszlás ismeretére nem mindig: NEMPARAMÉTERES ROBUSZTUS módszerek)
A feladat leggyakrabban
( )( )( )21 tTtP
tTP
tTP
≤≤
≥
≤
típusú valószínűségek számítása
Mintavétel − külön tudomány (pl. kísérlettervezés)
Idealizált: n ismétlés: mérések x1, x2 , .... xn azonos eloszlású kimentelek
( ) ( )xTxxT njel
1, =K a megfigyelések valamely függvénye: mintastatisztika T(x) eloszlása a minta eloszlása, amely az xi-k eloszlásától függ.
Konkrét példák
A minta középértéke : ( )n
x
xT
n
i
i∑== 1
Jelölés: x − eloszlása általában nem ismert!
ha ( )2,~ σµNxi , akkor
nNx
2
,~σ
µ
( ) ( ) µ== xMxM µ torzítatlan becslése ( )
nxD
22 σ= ezért a minta középértéke
N.B. n növelésével csak n
1-szeresére csökken a szórás!
-
– 14 –
A minta szórásnégyzete
Definíció: ( ) ( )∑= −
−==
n
i
i
n
xxxSS
1
22
1
Ha ( ) iNxi ∀,,~ 2σµ , akkor 1~ −
−nt
n
S
x µ számláló: Z-szerű, nevező: redukált χ2-szerű
Számolás :
( )
1
2
2
2
−
−=∑ ∑
n
n
xx
S
i
i
( ) 22 σ=SM σ2 torzítatlan becslése S2 a minta szórásnégyzete
A minta kovarianciája:
( ) ( )( )∑= −
−−=
n
i
ii
n
yyxxYXC
1 1,ˆ
( )( ) ( )YXCYXCM ,,ˆ = a kovariancia torzítatlan becslése
BECSLÉS
A minta T statisztikáját úgy választjuk meg (no meg a mintát!), hogy az eloszlás θ paraméteréhez közel legyen.
(Szovjet mondás: A hazugságnak három fokozata van: 1. hazugság 2. arcátlan hazugság 3. statisztika )
A magyar nyelv sem kutya:
Az eljárás: becslés (estimation) – becslési eljárás
A T valószínűségi változó: becslés (estimator) – becslő függvény T egy ϑ̂ realizációja: becslés (estimate) – becsült érték
N. B. T egy valószínűségi változó. Realizációja a konkrét mintától függ. Általában ∃ eloszlása, várható értéke, szórása.
Egy jó „becslő”
1. torzítatlan M(T) = θ
2. hatásos („minimum variancia”)
3. elégséges − ha a T(x) minden szükséges információt tartalmaz θ-ról. (A hatásos becslés elégséges!!) 4. konzisztens ha ( ) 1lim =
-
– 15 –
Módszerek
Maximum likelihood (ML) −MVU, elégséges, konzisztens Legkisebb négyzetes − azonos normális eloszlású mintaelemek esetén maximum likelihood Momentumok módszere − nem foglalkozunk vele Minimax − ezzel sem
x=µ̂ ML becslés (MVU)
( )1
ˆ2
22
−
−== ∑
n
xxS
iσ ML becslés (MVU)
( )n
xxi∑ −=2
2σ̂ aszimptotikusan hatásos, konzisztens.
( )n
xD2
2 σ= a becsült várható érték relatív hibája: n
1
(egy realizáció σ standard hibájához viszonyítva)
HIBATERJEDÉS
Legyen θ1, θ2, ....θr fizikai mennyiségek φ függvénye a becsülendő
� Becsüljük az egyedi θi -ket és szórásukat
� Ebből becsüljük φ (θ)-t és D2(φ (θ))-t
Legyen a becslő függvény: φ (T1, T2, ....Tr)
Fejtsük sorba θ körül! (Taylor-sor)
( ) ( ) ( ) KKK +−∂∂
+= ∑=
r
i
iii
rr TTTT
12121 ,,,, ϑϑ
φϑϑϑφφ (magasabb rendű tagok)
� Ha D2 (θi) kicsi θi-hez képest, akkor Ti −θi is kicsi. Így elegendő a
(Ti −θi) elsőfokú tagok figyelembevétele, a (Ti −θi)2 már elhanyagolható. (Közelítés!)
� Tegyük fel: Ti torzítatlan becslő ⇒ M(Ti −θi) = 0
⇒ M(φ (T1, T2, ....Tr)) = φ (θ1, θ2, ....θr)
így φ becslése is torzítatlan. Ez nem mindig közelítés!
A becslő statisztika szórásnégyzete:
( )[ ] ( ) ( )[ ]{ }22121212 ,,,,,, rrr TTTMTTTD ϑϑϑφφφ KKK −=
A Taylor-sorból a jobb oldalon [ ]-ben lévő különbség éppen ( )∑=
−∂∂r
i
ii
i
T1
ϑϑφ
:
( )[ ] ( )
−
∂∂
≅ ∑=
2
121
2 ,,r
i
ii
i
r TMTTTD ϑϑφ
φ K
A jobb oldal egy r tagú összeg négyzete, amely kifejtve:
-
– 16 –
( ) ( )∑∑∑< ==
−∂∂
∂∂
+⋅
∂∂
ji
r
j
jiji
r
i
ii
TTCTD
11
22
2ϑφ
ϑφ
ϑφ
Függvények várható értékének és szórásának becslése:
� ii t=*ϑ a Ti statisztikák realizációja
� φ (θ1, θ2, ....θr) becslése φ(t1, t2, ....tr)
� D2 (Ti) becslése S2 (Ti)
C (Ti , Tj) becslése Ĉ (Ti , Tj)
� D2(φ) becslése:
( )[ ] ( ) ( )∑∑∑=
-
– 17 –
Ha ( l1, l2) a konfidenciaintervallum, mekkora a ( )[ ]21,llP ∈ϑ valószínűség??
Válasz: 0 vagy 1!
Ezért MEGBÍZHATÓSÁG
A konfidencia-intervallum számítása
P = 1 − α
µ + δµ − δ µ
f ( t )
t vá l
Példák σ 2 ismert, x=µ̂ ( )2,~ σµNx
nNx
2
,~σ
µ , de µ nem ismert
x
P = 1 − α
µ + δµ − δ µ
f (t)
tvá l
δ−x δ+x
111144444444444422224444444444443333 ez az intervallum realizációja
Legyen: µ−= xY →
nNY
2
,0~σ
még jobb:
n
xZ
σµ−
= → ( )1,0~ NZ − ezt a legkönnyebb számítani is.
-
– 18 –
nσ
δ+
nσ
δ−
P = 1 − α
0
f (z )
z vá l
Konkrét számítás:
( ) ( ) ( ) ( ) αδµδµδµδµδµ
δµ
−=−−+==+≤≤− ∫+
−
1FFxdxfxP
Használjuk ki a standard normális transzformációt (vegyük észre: ekkor eltűnik a µµµµ – ez volt a cél):
( )
−−
==− ∫
−n
Fn
Fzdzf
n
n
δδα
δ
δ
1
Miért jobb N(0,1)? 1. Egyszerűbb
2. Könyvtári szubrutinok ezt számolják
3. Táblázatokban ez szerepel
(Manapság már nincs jelentősége; a számítógép N(0, σ 2 / n)-t is tudna számolni.)
Eljárás: 1. θ becslése t=ϑ̂
2. T eloszlásának meghatározása
3. T célszerű transzformációja
4. ( )δϑδϑα +≤≤−=− TP1 valószínűség kiszámítható megfogalmazása (a kiszámítható azt jelenti, ne szerepeljen benne az ismeretlen θ )
ez eddig általában kész recept (a matematikusok már megcsinálták)
5. δ meghatározása az adott mintára ez a feladat
(VIZSGÁLAT = TESZT)
Nullhipotézis − alternatív hipotézis
H0 H1
Lényeg: Rögzítsünk egy α szignifikanciaszintet,
ami egy igaz H0 elvetése valószínűségének felső határa.
HIPOTÉZIS VIZSGÁLATOK
-
– 19 –
Példák:
>
<
≠
=
egyoldali :
egyoldali :
kétoldali :
:
0''
1
0'1
01
00
ϑϑϑϑ
ϑϑ
ϑϑH
H
H
H alternatív hipotézis
Lehet: H0: θ ≤ θ0 vagy θ ≥ θ0 is.
H0-t megvédjük vagy elvetjük α szignifikanciaszinten (α : 0,1; 0,05; 0,01)
A döntés alapja az
( )0HcTP ≥=α vagy ( )0HcTP ≥=α
Elvetjük H0-t, ha t ≥ c vagy t ≥ 0
c : kritikus érték
Honnan tudjuk 1. c értékét?
2. Az α valószínűséget?
Válasz: Ismerjük (vagy azt hisszük, hogy ismerjük!!) T eloszlását,
és abból kiszámíthatjuk fix α-hoz a c-t.
Ezt a c-t hasonlítjuk a mintából számított t realizációhoz.
Az α szignifikancia-szint értéke a minta elemeinek számától (is) függ.
Ha t ≅ c vagy t ≅ 0 , érdemes új mintát (több adatot) vizsgálni.
Ha t 0, akkor a bűnöst elítéljük, ha a gyanúsítottak között
van, de ha a gyanúsított ártatlan, akkor is kénytelenek vagyunk
elítélni, a bűnös pedig a markába nevet.
KOCKÁZATI FÜGGVÉNYEK
1. fajú hiba: Az igaz H0 elvetése / (a csalfa H1 elfogadása)
2. fajú hiba: A hamis H0 elfogadása / (az igaz H1 elvetése)
A VENEREAL DISEASES példában: használ a gyógyszer: 5-5 % szignifikancia
Σ nem használ: 5 % szignifikancia
-
– 20 –
Legyen K a javult esetek száma
Tegyük fel: K ∼ B(p, n)
H0: pkezelt > pnem kezelt
H1: pkezelt = pnem kezelt
( ) ( )2
22
1
11
21
ˆ1ˆˆ1ˆ
ˆˆ
n
pp
n
pp
ppT
−+
−
−= 0HX : t ≥ z (1 − α )
A VARIANCIA-ANALÍZIS (ANOVA) is hipotézis-teszt (ANOVA = Analysis Of VAriance)
H0: ijjijx ενµ ++=
H1: ijjiijx ενµµ +++=
µ: alaphatás
µ i: Az i-edik „kezelés” hatása (pl. adag mennyisége)
ν j: A j-edik blokk hatása (pl. életkor, nemek)
ε ij : A mérési hiba. ( M(ε ij ) = 0 , D2(ε ij ) = σ 2 )
-------------------------------------------------------------------------------------------------------------
MIRE HASZNÁLJUK MI A BECSLÉSEKET − ÁLTALÁBAN
− pl. A REAKCIÓKINETIKÁBAN
� Függ-vagy-nem-függ-tőle kérdések eldöntésére (hipotézisvizsgálatok)
� Az összefüggés módjának eldöntésére (függvényillesztések)
� Adott eltérések oka lehet-e a véletlen ingadozás, vagy szisztematikus függésről van-e szó??
− Mekkora a valószínűsége egy adott eltérésnek?? (szignifikancia valószínűség)
− Kiszór-e egy pont, vagy szabad neki akkorát ingadozni??
(Utóbbiak csúnya, bonyolult, megbízhatatlan tesztek.)
� n darab mérés átlagolása esetén ( )xsx 2,→
x a µ paraméter becsült értéke, s2(x) a σ 2 paraméter becsült értéke
( ) ( )n
xsxs = a becsült x szórása µ körül. (Innen marad benne az
n
1.)
HOGYAN ADJUNK MEG EGY BECSÜLT EREDMÉNYT?
-
– 21 –
Mi az ( )xs információtartalma?
Legyen ns
xT
/
µ−= ; T∼ tn −1 (n – 1 szabadsági fokú Student-eloszlás)
Ekkor: ( ) ( )[ ] ααα −=−≤≤ −− 12/12/ 11 nn tTtP
Az 1 − α megbízhatósági szintű konfidencia-intervallum:
n
stx n ⋅
−± − 211
α , átrendezve:
n
t
sxn
−⋅±
− 211
α
│ 20 x mérésszám, 10 x pontosság ↓↓↓↓
n 2 3 5 10 20 30 40 60 120 1000
n
tn
−− 211
α 9,0 2,5 1,15 0,70 0,47 0,37 0,32 0,26 0,18 0,06
| ↑↑↑↑ 100 x mérésszám, 10 x pontosság
α = 0,05 95 %-os konfidencia-intervallumok
� (Feltételezett!!) függvény (= modell) paramétereinek becslése esetén
(Maga az eredmény megadása a 24. oldal végén található.)
Statisztikai modell: ( ) ε+= xfY − pl. REAKCIÓMECHANIZMUS
(realizációk: ( ) iii xfy ε+= )
Y: valószínűségi változó
f (x): determinisztikus függvény
ε : valószínűségi változó: M(ε) = 0 ∀x
( ) 22 iiD σε = ha x = xi
(Határeset, amit szeretünk feltételezni: ,22 σσ ≡i ∀i )
⇒ Csak VÉLETLEN hiba esetén használható!! (Egyébként pl. ANOVA!)
Cél: nem ε eloszlásának jellemzése, azok paramétereivel,
hanem az f (x) modellfüggvény paramétereinek becslése, lehetőleg MVU!
-
– 22 –
Vegyük észre: ez egy feltételes valószínűség!
( )ii xyP − ez adja a fenti modellt. A leggyakrabban használt becslő módszer: legkisebb négyzetes
( )( )∑=
−=n
i
iii xfYwQ1
2 legyen minimális
wi súlyok számítása − hogy az f (x) paramétereire MVU-becslést kapjunk.
feltétel: ( ) ϑϑ =ˆM és ( )ϑ̂2D minimális
Példa: Legyen Y = α ⋅ x − modellfüggvény
Statisztikai modell: Y = α ⋅ x + ε − ( ) 22 σε =D
Minta: { }nnii yxyxyx ,,,,,,, 11 KK yi = α ⋅ xi + ε − ( ) 22 iiD σε =
Legyen A az α becslő függvénye: yi = A ⋅ xi + ε (A: mintastatisztika)
( )∑=
−=n
i
iii xAywQ1
2
Feladat I. A minimalizálja a Q-t: 0=∂∂
A
Q
( ) 02 =−−=∂∂
∑ ii
iii xxAywA
Q
( ) 02 2 =−− ∑i
iiiii xwAyxw
∑∑ =i
ii
i
iii xwAyxw2
∑
∑=
i
ii
i
iii
xw
yxw
A2
Feladat II. A láthatóan nem csak az { }ii yx , mintától. hanem a wi súlyoktól is függ.
Eredeti feltételünk: legyen σ2(A) minimális
( ) ( ) ( )ii i
i
i i
yy
Ax
x
AA
22
22
2 σσσ ∑∑
∂∂
+
∂∂
=
� Tegyük fel: C (Xi , Yi) = 0 (Mi a feltétele???)
� Tegyük fel: ( ) ( )ii xy 22 σσ >> , ∀i (KÖVETKEZMÉNY!!!)
-
– 23 –
Nem mindegy, mit illesztünk minek a függvényében!!
∑=
∂∂
i
ii
ii
i xw
xw
y
A2
( )( )( )2
2
222
2
=
∑
∑
i
ii
i
iii
xw
yxw
A
σσ minimumfeltétel:
( ),0
2
=∂
∂
jw
Aσ ∀j
↓ rendezzük:
( ) ( )ji
iii
i
iiw
yxwxwA∂
∂=
⋅ ∑∑ 222
2
22 σσ
( ) ( )jjjji
ii yxwxxwA22222 22 σσ =
⋅∑
( )
( )ji
ii
jy
xwA
w2
22
σ
σ ∑= – ez a jó súly
A 0=∂∂
A
Q egyenlet elosztható ( ) ∑⋅
i
ii xwA22σ -tel:
( )( )j
k
k
j
y
y
w
w
2
2
σ
σ=
Tehát elegendő a ( )ii
yw
2
1
σ= választás.
A feladat megoldása:
( )
( )∑
∑
=
==n
i
i
i
n
i
ii
i
xy
yxy
A
1
22
12
1
1
σ
σ MVU becslés
egyszerűbb írásmóddal:
∑
∑=
i
ii
i
iii
xw
yxw
A2
( )( )2
2
222
2
⋅=
∑
∑
i
ii
i
iii
xw
ySxw
AS ( )i
iy
w2
1
σ=
Megjegyzések: 1. ( )iyS 2 becsülhető az adatokból.
-
– 24 –
2. Ha ji ww = , azaz ( ) ( ) 222 σσσ =≡ ji yy ∀ i, j , akkor írható iww ≡= 1 .
Ilyen esetben:
(„súlyozatlan becslés”:) ∑
∑= 2
i
i
ii
x
yx
A és ( ) ( )∑ ∑=⋅
=i
i
i
i ySx
xAS
2
2
22
∑i
ix2
2σ
Mi a helyzet, ha nem igaz ( ) ( )xy 22 σσ >> ?
Ekkor ( ) ( )ii
ii
xx
fy
w
22
21 σσ
∂∂
+=
Mivel Ax
f
i
=∂∂
⇒ iw
1 függvénye A-nak!
Következmény: Az A becsült értéke függ wi-ktől, a wi-k pedig A-tól!
Ilyenkor csak iteratív módszerek használhatók! („Implicit legkisebb négyzetes becslés”)
Egy elnevezés története: Regressziós analízis (regresszió!)
latin: regressio = visszafejlődés, visszatérés az egyszerűbb/régi formához
gyerekek
szülõk
0
átlag
Tu
lajd
onság
Eltérés (Sir Francis Galton)
Regressziószámítás − itt alkalmazták (publikálva) először függvény (egyenes) paramétereinek becslésére a legkisebb négyzetes módszert. (Galton úr jó statisztikus volt.)
Azért én a legkisebb négyzetes becslés nevet jobban szeretem. Az nevén nevezi az eljárást.
(Nevezett Galton úrnak nagy szerepe volt a statisztikai módszerek széleskörű elterjedésében.)
Most térhetünk rá az eredmény megadásának problémájára:
HOGYAN ADJUK MEG A BECSÜLT PARAMÉTEREKET??
n db mérés → r paraméterre: ( )ii s ϑϑ 2,
Mi az ( )is ϑ2 információtartalma??
-
– 25 –
Legyen: ( )i
iii
ST
ϑϑϑ −
=ˆ
; rntT −~ (a Ti n – r szabadsági fokú Student eloszlású.)
újfent: ( ) ( )[ ] ααα −=−≤≤ −− 1212/ rnrn tTtP
Ennek alapján az α−1 megbízhatósági szintű konfidencia-intervallum:
( ) ( )irni St ϑαϑ ⋅−± − 21ˆ
n 1 2 3 5 10 20 40 100 1000
tn – r (1 – α / 2 ) 12,7 4,3 3,2 2,6 2,23 2,09 2,02 1,98 1,96
α = 0,05 95 %-os konfidencia-intervallumok
Mi a helyzet a súlyozással?
Milyen a mért x-ek és f (x)-ek hibája?
1. Ha a kettő jelentősen eltér, legyen x a kisebb, y a nagyobb hibájú.
2. Ha egyik hibája a másikhoz képest nem elhanyagolható,
akkor implicit LSQ becslés kell. SÚLYRUTIN
3. Ha a hibák azonosak: ji σσ ≡ ∀ i, j
ji σσ11
= wi = wj 1=j
i
w
w SÚLYOZATLAN
5. Ha a hibák azonosak, de transzformálunk: a hibák a mért érték függvényei lesznek
(ld. hibaterjedés)
pl. relatív hiba 2
1
ywi = Poisson-eloszlású minta
ywi
1= , stb.....
6. Ha a hibák nem azonosak: az MVU becsléshez meg kell adni a hibákat is: )(1 2 ii yw σ=
7. Ha különböző súlyozású becslési eredményeket hasonlítunk össze,
célszerű a 1≡iw -re ( )nwi =∑ -re normálás.
Ez meg itt a vége