űjtött adatok vizsgálata következtetések levonásakeszei.chem.elte.hu/statisztika/KisStat.pdfA...

– 1 –

BEVEZETÉS

A statisztika teljesen laikusoknak: nagy munkával gyűjtött adatok vizsgálata, abból következtetések levonása („statistical inference”)

(Egy kicsit sok hűhó semmiért – azaz Much ado about nothing.)

Mi is a statisztika?

� Egy populációból veszünk mintát. (A szavakat a KSH találta ki.)

� A minta alapján akarunk valamit mondani, de az egész populációról.

� Állítsunk megbízhatóságáról is nyilatkozunk. → NÉPSZAVAZÁS

� A „mintavétel” nem akármilyen. Akárhányszor elvégezzük, más és más eredményt

kapunk.

Ez a „mintavétel” lesz a dolog kulcsa. . → VENEREAL DISEASE ↓ Ezért kell érteni a valószínűségszámításhoz.

Nevezzük a mintavételt kísérletnek .

Kísérlet : → determinisztikus : előre meghatározható eredményhez vezet

→ véletlen : statisztikai törvényeknek engedelmeskedik

(Mi az ami közös a népszavazásban, a betegségek gyógyulásában és a fiz. kém. laborban?)

Mi kell a statisztika tanulásához?

MATEMATIKA: halmazelmélet

algebra

mértékelmélet (differenciál- és integrálszámítás)

analízis

Példa: NÉPSZAVAZÁS (Belépjen-e az Egyesült Királyság az Európai Unióba?)

YES NO SUM

Scotland 1 332 186 947 769 2 279 355

Northern Ireland 259 251 237 311 497 162

Kérdés: Van-e különbség Scotland és Northern Ireland véleménye között?

Válasz: Annak a valószínűsége, hogy nincs, 10−8.

– 2 –

MIK A VÉLETLEN TÖRVÉNYEI ?

Definíció: Eseménytér: a véletlen kísérlet összes lehetséges „kimenetelének” halmaza.

Elemei: az egyes kísérletek kimenetelei.

Az eseménytér lehet: − korlátos folytonos: pl. testmagasság

− végtelen diszkrét: pl. radioaktív bomlás

− véges diszkrét: pl. látósejtek száma a retinán,

kockadobás,

urna

(MI A BAJ A KLASSZIKUS ELMÉLETTEL?? (Kombinatorika))

− végtelen folytonos: ha így definiáljuk!

− egyváltozós

− többváltozós

Definíció: Esemény: Az eseménytér tetszőleges részhalmaza.

Elnevezés: Bekövetkezik egy esemény, ha a kísérlet olyan kimenetele fordul elő,

amelynek valódi része az esemény.

HF. Hány lehetséges esemény van egy kocka dobásánál (és kettőnél)?

Egy kocka: ábra

Ø: az üres halmaz (hogy az eseménytér zárt legyen, ne vezessen ki belőle semmilyen művelet.)

Definíció: Diszjunkt (egymást kizáró) események:

Ha (tetszőleges párra) nincsen páronként közös részük. (A metszetük üres.)

Példák: Páratlan / páros kocka – 2 vagy kisebb / 2-nél nagyobb

A VALÓSZÍNŰSÉGSZÁMÍTÁS AXIÓMÁI

Legyen: A és B egy eseménytér két (diszjunkt) eseménye (azaz A ∩ B = 0).

Jelölés: P(A) az A, P(B) a B esemény valószínűségeit jelölő számok, ha teljesül 3 axióma.

1. 0 ≤ P(A) ║ P(B)-re természetesen ugyanez igaz

2. P(A ∪ B) = P(A) + P(B)

3. P(S) = 1

S: A teljes eseménytér

– 3 –

Milyen esemény A ∪ B???

Ennyi axióma elég.

Szokás még: ( )∑∞

=

∞

=

=

11

AAi

i

i

i PP U

vagy 0 ≤ P(A) ≤ 1 – de ezek már az előzőek következményei!

Néhány fontos következmény: valószínűség számítás tételek

0. P(Ø) = 0

1. P(A) ≤ 1

2. P( A ) ≤ 1 − P(A) ║ Hány eseményt specifikál egy kísérlet kimenetele? ( A az A komplementere.)

3. ( )∑∞

=

∞

=

=

11

AAi

i

i

i PP U − kiterjesztés több (páronként független) eseményre

4. A 2. axióma következménye: események különbségének valószínűsége

( ) ( ) ( )VAAB/A ∩−= PPP

(Ha ( ) ( ) ( )BAB/AAB PPP −=→⊆ ║ Milyen esemény az A / B?

5. Ha két esemény nem diszjunkt, felbontható három diszjunkt eseményre. Legyen ≠∩ ED Ø

Felbontás: D ∩ E, D / (D ∩ E), E / (D ∩ E) → uniójuk: D ∪ E

P (D ∩ E) = P (D / (D ∩ E)) + P (E / (D ∩ E) =

= P (D) + P (E) − P (D ∩ E)

Vegyük észre: ha D és E diszjunktak, visszakapjuk a 2. axiómát.

Kiterjeszthetjük több eseményre → POINCARÉ tétele.

Mit jelent A ⊆ B? (Ha B, akkor A is.)

Ekkor: P (A) ≤ P (B)

P (B / A) = P (B) − P (A) Hogy állunk P (A / B)-vel?

FELTÉTELES VALÓSZÍNŰSÉG

Jelölés: BA : A, feltéve, hogy B bekövetkezett.

Definíció: ( ) ( )( )B

BABA

P

PP

∩= „az A esemény B-re vonatkoztatott feltételes valószínűsége.”

– 4 –

Tétel: A és B események függetlenek, ha P (A ∩ B) = P (A) ⋅ P (B)

Bizonyítás: ( )

( )( )B

A

BAP

P

P=

∩ → ( ) ( )BAB PP = (a B esemény valószínűsége független A-tól.)

Szimmetria okokból → ( ) ( )ABA PP = ■

A valószínűség gyakorlati értelmezése:

– Tapasztalati gyakoriság

– Klasszikus valószínűség (egyenletes, diszkrét)

– Geometriai valószínűség

Definíció: Függetlenek egymástól azok a kísérletek, amelyek kimeneteleinek valószínűségét

nem befolyásolják a többi kísérletek kimenetelei.

Elnevezés: Ismétlés: ha az újabb kísérletek függetlenek a korábbiaktól.

Bernoulli tétele (sztochasztikus konvergencia):

n

hp n

A,A = tapasztalati gyakoriság

( )( ) 1Alim ,A =

– 5 –

Definíció:

A valószínűségi változó az eseménytéren értelmezett függvény. A kísérlet minden egyes

kimenetelének megfelelően felvesz egy értéket, ez az ő realizációja.

Értékkészlete alkotja a valószínűségi változó eseményterét.

Más neve: statisztika.

Változó: NAGY latin betű, realizáció: kis latin betű

Mit jelent P (X = x)? Hogy van ez egy kocka dobásánál??

Mi a folytonos megfelelője a P (X = x) -nek??

P (x < X ≤ x + ∆ x)

vagy, ha elvégezhető a ∆∆∆∆x →→→→ 0 átmenet: P (x < X ≤ x + d x)

Mi a ∆ x → 0 feltétele???

N. B. – Valószínűségi változók bármely függvénye is valószínűségi változó! (Miért?)

– Bármely függvény, amely érvényes valószínűségi változók között,

érvényes ugyanúgy a realizációk között is. (Miért?)

VALÓSZÍNŰSÉGI SŰRŰSÉGFÜGGVÉNY

Legyen X egy valószínűségi változó,

S az ő eseménytere.

Kérdés: Hogyan oszlanak el S fölött a valószínűségek?

Definíció: Ha X folytonos valószínűségi változó, akkor valószínűségi sűrűségfüggvénye az az

f (x) függvény, amelynek az A intervallumon vett integrálja megadja annak a

valószínűségét, hogy X realizációi az A intervallumon belül lesznek, azaz:

1. ( ) ( ) ( )∫==∈A

jel

dxxAPAXP f

2. Az X ∈ (X, x + d x) elemi esemény valószínűsége f (x) d x, és f (x) d x ≥ 0 , ∀x

3. ( ) 1fS

=∫ dxx

A (−∞, ∞)-beli definíció esetén: ( ) 1f =∫∞

∞−

dxx – Hogy lehet ezt így kiterjeszteni?

– 6 –

Definíció: Ha X diszkrét valószínűségi változó, akkor minden egyes x értéke (realizációja)

elemi esemény, p(x) valószínűséggel.

Ekkor a p(x) = P (X = x) az X valószínűségi sűrűségfüggvénye.

Erre igaz

1. ( ) ( ) ( )∑∈

==∈Ax

xpAPAxPjelölés

2. 0 ≤ p (x) ≤ 1

3. ( )∑∈

=Ax

xp 1

Analógia: Tömegpontok / kontinuum mechanikája

∑ ∫=test test

i dVm ρ

( ) ( )∑ ∫=test test

i dVfmf ρ ρ : tömegsűrűség

(Stieltjes integrál)

Mostanra épült fel teljesen a használható matematikai apparátus:

Véletlenkísérlet

S halmaz

⊆A S

kimenetelek évalószínűsége

esem ny

valószínűség áltozó

iv

a realizáció valószínűsége

esem nyt ré é

0

0

1

1

P(A)

p( )x

f d ( )x x

∈X R1

X

X

(A matematikus nem az S halmazt tekinti alapként,

hanem annak összes részhalmazából álló H halmazt!)

– 7 –

Definíció: Az Y valószínűségi változó eloszlásfüggvénye:

F(x) = P (y ≤ x)

( ) ( )∑<

=xy

ypxF diszkrét

( )

= ∫

∞−

x

dyyfxF folytonos

Fogalmak áttekintése \ eloszlás típusa folytonos diszkrét

sűrűségfüggvény f (x) p(x)

elemi esemény valószínűsége f (x) dx p(x)

adott A esemény valószínűsége ( )∫A

dxxf ( )∑A

xp

eloszlásfüggvény F(x) F(x)

P (X ≤ x) F(x) F(x)

P (x1 ≤ X ≤ x2) F(x2) − F(x1)

( )∫2

1

x

x

dxxf

F(x2) − F(x1)

( )∑=

=

2

1

xX

xX

xp

Vegyük észre! ( ) 0lim =≤<→

bXaPba

folytonos X-re

P(x = b) = 0 ∀ b majdnem lehetetlen esemény

p (x ≠ b) = 0 majdnem biztos esemény

Definíció: X valószínűségi változó bármely g(x) függvényének várható értéke:

( )( )( ) ( )

( ) ( )

−

−=

∑

∫

∈

∞

∞−

Sx

xpxg

dxxfxg

xgM

diszkrét

folytonos

VÁRHATÓ ÉRTÉK

– 8 –

(Stieltjes integrállal: ( )( ) ( ) ( )∫=1

0

xdFxgxgM )

Feltételek: Ha a ( ) ( )xpxg∑ sor konvergens.

vagy a ( ) ( )∫∞

∞−

dxxfxg integrál létezik és véges.

Speciális várható értékek:

X várható értéke (X átlaga, X eloszlásának középértéke)

( )( )

( )

===∑

∫

∈

∞

∞−

Sx

x

xpx

dxxfxxMµµ

Jelentése: ezt „szórják körül” a kísérlet eredményei.

M: mean (más jelölés: E: expectation)

X (eloszlásának) r-edik centrális momentuma

( )[ ] ( )( )[ ]rrr xMxMxM −=−= µµ N.B.: Ha az eloszlás szimmetrikus, minden páratlan centrális momentuma zérus.

ábra

2. centrális momentum: X (eloszlásának) szórásnégyzete / varianciája

( ) ( ) ( )[ ] ( )( )[ ]22222 xMxMxMxVxD −=−==== µµσ

Elnevezés: Standard deviáció (hiba): ( )xD2=σ

D: deviation σ : scatter

Két valószínűségi változó esetén: KOVARIANCIA

( ) ( )( )[ ]rx YxMYXC µµ −−=,

Vegyük észre a határesetet: C (X, X) = D2(X) = V(X) (szórásnégyzet, variancia)

Kovariancia mátrix: elemei: C(Xi, Xj)

főátló: V(Xi) (= variancia)

Belőle származik a korrelációs együttható:

( ) ( )( ) ( )YDxD

YXCYX

22

,,

⋅=ρ „normált kovariancia”

– 9 –

Tétel: Ha X és Y függetlenek M(XY) = M(X) · M(Y)

ekkor C(X, Y) = 0 és ρ (X, Y) = 0

MEGFORDÍTVA CSAK AKKOR IGAZ, ha X és Y együttes eloszlása normális.

Tétel: Minden nemnegatív f (x), ha integrálható a (−∞, ∞) intervallumon, és

( ) 1=∫∞

∞−

dxxf , valószínűségi sűrűségfüggvény lehet.

Ha ( ) 1≠∫∞

∞−

dxxg , de véges, akkor

( )xgN

1 is lehet sűrűségfüggvény, ahol ( )∫

∞

∞−

= dxxgN

N : NORMA

ELOSZLÁSFÜGGVÉNY TÍPUSOK

Binomális eloszlás Legyen: tetszőlegesen ismételhető kísérlet két kimenetellel: A és A

P(A) = p P( A ) = q = 1−p

Binomiális mintavétel

Legyen n ismétlésből K az A események száma

{ }nS K,2,1,0= k ∈ S

Definíció: knk qpk

nkKP

−

== )( ez a sűrűségfüggvény

Jelölés: K ~ B(p, n)

A név eredete: P (K = k) kifejezés a (p + q)n binomális sorból való.

pn=µ ( )ppnqpn −== 12σ

Más név: Bernoulli-eloszlás ismételt alternatívák eloszlása

Alakalmazás: Népszavazás, feleletválasztás, stb.....

– 10 –

Poisson eloszlás

Diszkrét Gyakran használható.

Időben: egyenletes valószínűséggel bekövetkező események száma adott időintervallumban.

Térben: egyenletes valószínűséggel bekövetkező események (véletlen elhelyezkedése) száma adott felületen. (Esőcsepp, radioaktív bomlás, gépelési hiba, LÓRÚGÁS, forgalom, gólok focimeccsen, telefonhívások, sejtszaporodás, születések száma)

Eseménytér: N

Jelölés: K ~ Pn(m)

Definíció P (K = k) = P(b) = !k

em

mk

−

k ∈ N

m=µ m=2σ m=σ

Tétel: c-szeres intervallum: K ~ Pn(c·m)

ha K1 ~ Pn(m1) és K1 ~ Pn(m2) függetlenek, akkor K1 + K2 ~ Pn(m1 + m2)

Határeloszlás-tételek:

( ) ( )pnPnnpB →, ha 1

– 11 –

22 1

a=σ

a

1=σ

A Poisson rokona! − POISSON-folyamat

Normális eloszlás

Felfedezője: Abraham de Moivre − ezért hívják még Gauss-eloszlásnak.

Pétervári játék: Addig dobunk, míg fej nem jön ki. Ha n-edikre dobunk fejet, 2n rubelt kapunk. Mennyit kell befizetni a banknak, hogy ne menjen tönkre?

Dobások: Bn(0.5, n)

de Moivre: ( ) ∫∞−

−=

– 12 –

2~ νχx ν a szabadsági fokok száma

Miért fontos? Ha x1, x2, x3, .... xn függetlenek és N (µ, σ2) eloszlásúak:

∑=

−=

n

i

ixW

12σ

µ 2~ nW χ

Várható értéke: νµ =

Mérések!

Elnevezés: nn

W m2

~χ

redukált χ2- eloszlás: µ = 1

Student-féle t-eloszlás (Student: angol úr álneve, ezen a néven írta matematikai cikkeit)

Kivételes: t kis betű, de valószínűségi változó!!

( )2

12

12

,2

1

1+

+⋅

⋅

=ν

νν

βνt

tf ∞

– 13 –

STATISZTIKAI MÓDSZEREK

Mintavétel: x (x1, x2, x3, .... xn) elemek kiválasztása a sokaságból → minta

Becslés: ( )xfT = statisztikák számítása

mintastatisztika T függ a mintától !!

Statisztikai analízis: kvizsgálato

silleszkedé

modell

hipotézis

nciaszingifika

akonfidenci

Szükség van T eloszlásának ismeretére!!

(Az x eloszlás ismeretére nem mindig: NEMPARAMÉTERES ROBUSZTUS módszerek)

A feladat leggyakrabban

( )( )( )21 tTtP

tTP

tTP

≤≤

≥

≤

típusú valószínűségek számítása

Mintavétel − külön tudomány (pl. kísérlettervezés)

Idealizált: n ismétlés: mérések x1, x2 , .... xn azonos eloszlású kimentelek

( ) ( )xTxxT njel

1, =K a megfigyelések valamely függvénye: mintastatisztika T(x) eloszlása a minta eloszlása, amely az xi-k eloszlásától függ.

Konkrét példák

A minta középértéke : ( )n

x

xT

n

i

i∑== 1

Jelölés: x − eloszlása általában nem ismert!

ha ( )2,~ σµNxi , akkor

nNx

2

,~σ

µ

( ) ( ) µ== xMxM µ torzítatlan becslése ( )

nxD

22 σ= ezért a minta középértéke

N.B. n növelésével csak n

1-szeresére csökken a szórás!

– 14 –

A minta szórásnégyzete

Definíció: ( ) ( )∑= −

−==

n

i

i

n

xxxSS

1

22

1

Ha ( ) iNxi ∀,,~ 2σµ , akkor 1~ −

−nt

n

S

x µ számláló: Z-szerű, nevező: redukált χ2-szerű

Számolás :

( )

1

2

2

2

−

−=∑ ∑

n

n

xx

S

i

i

( ) 22 σ=SM σ2 torzítatlan becslése S2 a minta szórásnégyzete

A minta kovarianciája:

( ) ( )( )∑= −

−−=

n

i

ii

n

yyxxYXC

1 1,ˆ

( )( ) ( )YXCYXCM ,,ˆ = a kovariancia torzítatlan becslése

BECSLÉS

A minta T statisztikáját úgy választjuk meg (no meg a mintát!), hogy az eloszlás θ paraméteréhez közel legyen.

(Szovjet mondás: A hazugságnak három fokozata van: 1. hazugság 2. arcátlan hazugság 3. statisztika )

A magyar nyelv sem kutya:

Az eljárás: becslés (estimation) – becslési eljárás

A T valószínűségi változó: becslés (estimator) – becslő függvény T egy ϑ̂ realizációja: becslés (estimate) – becsült érték

N. B. T egy valószínűségi változó. Realizációja a konkrét mintától függ. Általában ∃ eloszlása, várható értéke, szórása.

Egy jó „becslő”

1. torzítatlan M(T) = θ

2. hatásos („minimum variancia”)

3. elégséges − ha a T(x) minden szükséges információt tartalmaz θ-ról. (A hatásos becslés elégséges!!) 4. konzisztens ha ( ) 1lim =

– 15 –

Módszerek

Maximum likelihood (ML) −MVU, elégséges, konzisztens Legkisebb négyzetes − azonos normális eloszlású mintaelemek esetén maximum likelihood Momentumok módszere − nem foglalkozunk vele Minimax − ezzel sem

x=µ̂ ML becslés (MVU)

( )1

ˆ2

22

−

−== ∑

n

xxS

iσ ML becslés (MVU)

( )n

xxi∑ −=2

2σ̂ aszimptotikusan hatásos, konzisztens.

( )n

xD2

2 σ= a becsült várható érték relatív hibája: n

1

(egy realizáció σ standard hibájához viszonyítva)

HIBATERJEDÉS

Legyen θ1, θ2, ....θr fizikai mennyiségek φ függvénye a becsülendő

� Becsüljük az egyedi θi -ket és szórásukat

� Ebből becsüljük φ (θ)-t és D2(φ (θ))-t

Legyen a becslő függvény: φ (T1, T2, ....Tr)

Fejtsük sorba θ körül! (Taylor-sor)

( ) ( ) ( ) KKK +−∂∂

+= ∑=

r

i

iii

rr TTTT

12121 ,,,, ϑϑ

φϑϑϑφφ (magasabb rendű tagok)

� Ha D2 (θi) kicsi θi-hez képest, akkor Ti −θi is kicsi. Így elegendő a

(Ti −θi) elsőfokú tagok figyelembevétele, a (Ti −θi)2 már elhanyagolható. (Közelítés!)

� Tegyük fel: Ti torzítatlan becslő ⇒ M(Ti −θi) = 0

⇒ M(φ (T1, T2, ....Tr)) = φ (θ1, θ2, ....θr)

így φ becslése is torzítatlan. Ez nem mindig közelítés!

A becslő statisztika szórásnégyzete:

( )[ ] ( ) ( )[ ]{ }22121212 ,,,,,, rrr TTTMTTTD ϑϑϑφφφ KKK −=

A Taylor-sorból a jobb oldalon [ ]-ben lévő különbség éppen ( )∑=

−∂∂r

i

ii

i

T1

ϑϑφ

:

( )[ ] ( )

−

∂∂

≅ ∑=

2

121

2 ,,r

i

ii

i

r TMTTTD ϑϑφ

φ K

A jobb oldal egy r tagú összeg négyzete, amely kifejtve:

– 16 –

( ) ( )∑∑∑< ==

−∂∂

∂∂

+⋅

∂∂

ji

r

j

jiji

r

i

ii

TTCTD

11

22

2ϑφ

ϑφ

ϑφ

Függvények várható értékének és szórásának becslése:

� ii t=*ϑ a Ti statisztikák realizációja

� φ (θ1, θ2, ....θr) becslése φ(t1, t2, ....tr)

� D2 (Ti) becslése S2 (Ti)

C (Ti , Tj) becslése Ĉ (Ti , Tj)

� D2(φ) becslése:

( )[ ] ( ) ( )∑∑∑=

– 17 –

Ha ( l1, l2) a konfidenciaintervallum, mekkora a ( )[ ]21,llP ∈ϑ valószínűség??

Válasz: 0 vagy 1!

Ezért MEGBÍZHATÓSÁG

A konfidencia-intervallum számítása

P = 1 − α

µ + δµ − δ µ

f ( t )

t vá l

Példák σ 2 ismert, x=µ̂ ( )2,~ σµNx

nNx

2

,~σ

µ , de µ nem ismert

x

P = 1 − α

µ + δµ − δ µ

f (t)

tvá l

δ−x δ+x

111144444444444422224444444444443333 ez az intervallum realizációja

Legyen: µ−= xY →

nNY

2

,0~σ

még jobb:

n

xZ

σµ−

= → ( )1,0~ NZ − ezt a legkönnyebb számítani is.

– 18 –

nσ

δ+

nσ

δ−

P = 1 − α

0

f (z )

z vá l

Konkrét számítás:

( ) ( ) ( ) ( ) αδµδµδµδµδµ

δµ

−=−−+==+≤≤− ∫+

−

1FFxdxfxP

Használjuk ki a standard normális transzformációt (vegyük észre: ekkor eltűnik a µµµµ – ez volt a cél):

( )

−−

==− ∫

−n

Fn

Fzdzf

n

n

δδα

δ

δ

1

Miért jobb N(0,1)? 1. Egyszerűbb

2. Könyvtári szubrutinok ezt számolják

3. Táblázatokban ez szerepel

(Manapság már nincs jelentősége; a számítógép N(0, σ 2 / n)-t is tudna számolni.)

Eljárás: 1. θ becslése t=ϑ̂

2. T eloszlásának meghatározása

3. T célszerű transzformációja

4. ( )δϑδϑα +≤≤−=− TP1 valószínűség kiszámítható megfogalmazása (a kiszámítható azt jelenti, ne szerepeljen benne az ismeretlen θ )

ez eddig általában kész recept (a matematikusok már megcsinálták)

5. δ meghatározása az adott mintára ez a feladat

(VIZSGÁLAT = TESZT)

Nullhipotézis − alternatív hipotézis

H0 H1

Lényeg: Rögzítsünk egy α szignifikanciaszintet,

ami egy igaz H0 elvetése valószínűségének felső határa.

HIPOTÉZIS VIZSGÁLATOK

– 19 –

Példák:

>

<

≠

=

egyoldali :

egyoldali :

kétoldali :

:

0''

1

0'1

01

00

ϑϑϑϑ

ϑϑ

ϑϑH

H

H

H alternatív hipotézis

Lehet: H0: θ ≤ θ0 vagy θ ≥ θ0 is.

H0-t megvédjük vagy elvetjük α szignifikanciaszinten (α : 0,1; 0,05; 0,01)

A döntés alapja az

( )0HcTP ≥=α vagy ( )0HcTP ≥=α

Elvetjük H0-t, ha t ≥ c vagy t ≥ 0

c : kritikus érték

Honnan tudjuk 1. c értékét?

2. Az α valószínűséget?

Válasz: Ismerjük (vagy azt hisszük, hogy ismerjük!!) T eloszlását,

és abból kiszámíthatjuk fix α-hoz a c-t.

Ezt a c-t hasonlítjuk a mintából számított t realizációhoz.

Az α szignifikancia-szint értéke a minta elemeinek számától (is) függ.

Ha t ≅ c vagy t ≅ 0 , érdemes új mintát (több adatot) vizsgálni.

Ha t 0, akkor a bűnöst elítéljük, ha a gyanúsítottak között

van, de ha a gyanúsított ártatlan, akkor is kénytelenek vagyunk

elítélni, a bűnös pedig a markába nevet.

KOCKÁZATI FÜGGVÉNYEK

1. fajú hiba: Az igaz H0 elvetése / (a csalfa H1 elfogadása)

2. fajú hiba: A hamis H0 elfogadása / (az igaz H1 elvetése)

A VENEREAL DISEASES példában: használ a gyógyszer: 5-5 % szignifikancia

Σ nem használ: 5 % szignifikancia

– 20 –

Legyen K a javult esetek száma

Tegyük fel: K ∼ B(p, n)

H0: pkezelt > pnem kezelt

H1: pkezelt = pnem kezelt

( ) ( )2

22

1

11

21

ˆ1ˆˆ1ˆ

ˆˆ

n

pp

n

pp

ppT

−+

−

−= 0HX : t ≥ z (1 − α )

A VARIANCIA-ANALÍZIS (ANOVA) is hipotézis-teszt (ANOVA = Analysis Of VAriance)

H0: ijjijx ενµ ++=

H1: ijjiijx ενµµ +++=

µ: alaphatás

µ i: Az i-edik „kezelés” hatása (pl. adag mennyisége)

ν j: A j-edik blokk hatása (pl. életkor, nemek)

ε ij : A mérési hiba. ( M(ε ij ) = 0 , D2(ε ij ) = σ 2 )

-------------------------------------------------------------------------------------------------------------

MIRE HASZNÁLJUK MI A BECSLÉSEKET − ÁLTALÁBAN

− pl. A REAKCIÓKINETIKÁBAN

� Függ-vagy-nem-függ-tőle kérdések eldöntésére (hipotézisvizsgálatok)

� Az összefüggés módjának eldöntésére (függvényillesztések)

� Adott eltérések oka lehet-e a véletlen ingadozás, vagy szisztematikus függésről van-e szó??

− Mekkora a valószínűsége egy adott eltérésnek?? (szignifikancia valószínűség)

− Kiszór-e egy pont, vagy szabad neki akkorát ingadozni??

(Utóbbiak csúnya, bonyolult, megbízhatatlan tesztek.)

� n darab mérés átlagolása esetén ( )xsx 2,→

x a µ paraméter becsült értéke, s2(x) a σ 2 paraméter becsült értéke

( ) ( )n

xsxs = a becsült x szórása µ körül. (Innen marad benne az

n

1.)

HOGYAN ADJUNK MEG EGY BECSÜLT EREDMÉNYT?

– 21 –

Mi az ( )xs információtartalma?

Legyen ns

xT

/

µ−= ; T∼ tn −1 (n – 1 szabadsági fokú Student-eloszlás)

Ekkor: ( ) ( )[ ] ααα −=−≤≤ −− 12/12/ 11 nn tTtP

Az 1 − α megbízhatósági szintű konfidencia-intervallum:

n

stx n ⋅

−± − 211

α , átrendezve:

n

t

sxn

−⋅±

− 211

α

│ 20 x mérésszám, 10 x pontosság ↓↓↓↓

n 2 3 5 10 20 30 40 60 120 1000

n

tn

−− 211

α 9,0 2,5 1,15 0,70 0,47 0,37 0,32 0,26 0,18 0,06

| ↑↑↑↑ 100 x mérésszám, 10 x pontosság

α = 0,05 95 %-os konfidencia-intervallumok

� (Feltételezett!!) függvény (= modell) paramétereinek becslése esetén

(Maga az eredmény megadása a 24. oldal végén található.)

Statisztikai modell: ( ) ε+= xfY − pl. REAKCIÓMECHANIZMUS

(realizációk: ( ) iii xfy ε+= )

Y: valószínűségi változó

f (x): determinisztikus függvény

ε : valószínűségi változó: M(ε) = 0 ∀x

( ) 22 iiD σε = ha x = xi

(Határeset, amit szeretünk feltételezni: ,22 σσ ≡i ∀i )

⇒ Csak VÉLETLEN hiba esetén használható!! (Egyébként pl. ANOVA!)

Cél: nem ε eloszlásának jellemzése, azok paramétereivel,

hanem az f (x) modellfüggvény paramétereinek becslése, lehetőleg MVU!

– 22 –

Vegyük észre: ez egy feltételes valószínűség!

( )ii xyP − ez adja a fenti modellt. A leggyakrabban használt becslő módszer: legkisebb négyzetes

( )( )∑=

−=n

i

iii xfYwQ1

2 legyen minimális

wi súlyok számítása − hogy az f (x) paramétereire MVU-becslést kapjunk.

feltétel: ( ) ϑϑ =ˆM és ( )ϑ̂2D minimális

Példa: Legyen Y = α ⋅ x − modellfüggvény

Statisztikai modell: Y = α ⋅ x + ε − ( ) 22 σε =D

Minta: { }nnii yxyxyx ,,,,,,, 11 KK yi = α ⋅ xi + ε − ( ) 22 iiD σε =

Legyen A az α becslő függvénye: yi = A ⋅ xi + ε (A: mintastatisztika)

( )∑=

−=n

i

iii xAywQ1

2

Feladat I. A minimalizálja a Q-t: 0=∂∂

A

Q

( ) 02 =−−=∂∂

∑ ii

iii xxAywA

Q

( ) 02 2 =−− ∑i

iiiii xwAyxw

∑∑ =i

ii

i

iii xwAyxw2

∑

∑=

i

ii

i

iii

xw

yxw

A2

Feladat II. A láthatóan nem csak az { }ii yx , mintától. hanem a wi súlyoktól is függ.

Eredeti feltételünk: legyen σ2(A) minimális

( ) ( ) ( )ii i

i

i i

yy

Ax

x

AA

22

22

2 σσσ ∑∑

∂∂

+

∂∂

=

� Tegyük fel: C (Xi , Yi) = 0 (Mi a feltétele???)

� Tegyük fel: ( ) ( )ii xy 22 σσ >> , ∀i (KÖVETKEZMÉNY!!!)

– 23 –

Nem mindegy, mit illesztünk minek a függvényében!!

∑=

∂∂

i

ii

ii

i xw

xw

y

A2

( )( )( )2

2

222

2

=

∑

∑

i

ii

i

iii

xw

yxw

A

σσ minimumfeltétel:

( ),0

2

=∂

∂

jw

Aσ ∀j

↓ rendezzük:

( ) ( )ji

iii

i

iiw

yxwxwA∂

∂=

⋅ ∑∑ 222

2

22 σσ

( ) ( )jjjji

ii yxwxxwA22222 22 σσ =

⋅∑

( )

( )ji

ii

jy

xwA

w2

22

σ

σ ∑= – ez a jó súly

A 0=∂∂

A

Q egyenlet elosztható ( ) ∑⋅

i

ii xwA22σ -tel:

( )( )j

k

k

j

y

y

w

w

2

2

σ

σ=

Tehát elegendő a ( )ii

yw

2

1

σ= választás.

A feladat megoldása:

( )

( )∑

∑

=

==n

i

i

i

n

i

ii

i

xy

yxy

A

1

22

12

1

1

σ

σ MVU becslés

egyszerűbb írásmóddal:

∑

∑=

i

ii

i

iii

xw

yxw

A2

( )( )2

2

222

2

⋅=

∑

∑

i

ii

i

iii

xw

ySxw

AS ( )i

iy

w2

1

σ=

Megjegyzések: 1. ( )iyS 2 becsülhető az adatokból.

– 24 –

2. Ha ji ww = , azaz ( ) ( ) 222 σσσ =≡ ji yy ∀ i, j , akkor írható iww ≡= 1 .

Ilyen esetben:

(„súlyozatlan becslés”:) ∑

∑= 2

i

i

ii

x

yx

A és ( ) ( )∑ ∑=⋅

=i

i

i

i ySx

xAS

2

2

22

∑i

ix2

2σ

Mi a helyzet, ha nem igaz ( ) ( )xy 22 σσ >> ?

Ekkor ( ) ( )ii

ii

xx

fy

w

22

21 σσ

∂∂

+=

Mivel Ax

f

i

=∂∂

⇒ iw

1 függvénye A-nak!

Következmény: Az A becsült értéke függ wi-ktől, a wi-k pedig A-tól!

Ilyenkor csak iteratív módszerek használhatók! („Implicit legkisebb négyzetes becslés”)

Egy elnevezés története: Regressziós analízis (regresszió!)

latin: regressio = visszafejlődés, visszatérés az egyszerűbb/régi formához

gyerekek

szülõk

0

átlag

Tu

lajd

onság

Eltérés (Sir Francis Galton)

Regressziószámítás − itt alkalmazták (publikálva) először függvény (egyenes) paramétereinek becslésére a legkisebb négyzetes módszert. (Galton úr jó statisztikus volt.)

Azért én a legkisebb négyzetes becslés nevet jobban szeretem. Az nevén nevezi az eljárást.

(Nevezett Galton úrnak nagy szerepe volt a statisztikai módszerek széleskörű elterjedésében.)

Most térhetünk rá az eredmény megadásának problémájára:

HOGYAN ADJUK MEG A BECSÜLT PARAMÉTEREKET??

n db mérés → r paraméterre: ( )ii s ϑϑ 2,

Mi az ( )is ϑ2 információtartalma??

– 25 –

Legyen: ( )i

iii

ST

ϑϑϑ −

=ˆ

; rntT −~ (a Ti n – r szabadsági fokú Student eloszlású.)

újfent: ( ) ( )[ ] ααα −=−≤≤ −− 1212/ rnrn tTtP

Ennek alapján az α−1 megbízhatósági szintű konfidencia-intervallum:

( ) ( )irni St ϑαϑ ⋅−± − 21ˆ

n 1 2 3 5 10 20 40 100 1000

tn – r (1 – α / 2 ) 12,7 4,3 3,2 2,6 2,23 2,09 2,02 1,98 1,96

α = 0,05 95 %-os konfidencia-intervallumok

Mi a helyzet a súlyozással?

Milyen a mért x-ek és f (x)-ek hibája?

1. Ha a kettő jelentősen eltér, legyen x a kisebb, y a nagyobb hibájú.

2. Ha egyik hibája a másikhoz képest nem elhanyagolható,

akkor implicit LSQ becslés kell. SÚLYRUTIN

3. Ha a hibák azonosak: ji σσ ≡ ∀ i, j

ji σσ11

= wi = wj 1=j

i

w

w SÚLYOZATLAN

5. Ha a hibák azonosak, de transzformálunk: a hibák a mért érték függvényei lesznek

(ld. hibaterjedés)

pl. relatív hiba 2

1

ywi = Poisson-eloszlású minta

ywi

1= , stb.....

6. Ha a hibák nem azonosak: az MVU becsléshez meg kell adni a hibákat is: )(1 2 ii yw σ=

7. Ha különböző súlyozású becslési eredményeket hasonlítunk össze,

célszerű a 1≡iw -re ( )nwi =∑ -re normálás.

Ez meg itt a vége

űjtött adatok vizsgálata következtetések levonásakeszei.chem.elte.hu/statisztika/KisStat.pdfA...

Documents

Transcript of űjtött adatok vizsgálata következtetések levonásakeszei.chem.elte.hu/statisztika/KisStat.pdfA...