Interval spolehlivosti pro pod íl - FD hlavní stránka...Testová statistika H0 zamítáme na...

12
1 Interval spolehlivosti pro pod Interval spolehlivosti pro podíl http://www.causeweb.org/repository/statjava/ConfIntApplet.html hodný výb hodný výběr Zkoumaný proces chápeme jako náhodnou veličinu s určitým, nám neznámým rozdělením a měřená data jako realizace této náhodné veličiny. Výběr dotazovaných jednotek musí být nezávislý. Jestliže výběr opakujeme, dostaneme jiné odpovědi. Abstraktně lze definovat náhodný výběr jako uspořádanou n-tici (vektor) náhodných veličin. De f i n i c e Náhodný výběr X = [X 1 , X 2 , . . . ,X n ] je vektor nezávislých a stejně rozdělených náhodných veličin. n – rozsah výběru Konkrétní hodnoty – realizace náhodného výběru

Transcript of Interval spolehlivosti pro pod íl - FD hlavní stránka...Testová statistika H0 zamítáme na...

  • 1

    Interval spolehlivosti pro podInterval spolehlivosti pro podííll

    http://www.causeweb.org/repository/statjava/ConfIntApplet.html

    NNááhodný výbhodný výběěrr

    Zkoumaný proces chápeme jako náhodnou veličinu s určitým, nám neznámým rozdělením a měřená data jako realizace této náhodnéveličiny. Výběr dotazovaných jednotek musí být nezávislý.Jestliže výběr opakujeme, dostaneme jiné odpovědi. Abstraktně lze definovat náhodný výběr jako uspořádanou n-tici (vektor) náhodných veličin.

    De f i n i c eNáhodný výběr X = [X1, X2, . . . ,Xn] je vektor nezávislých a stejněrozdělených náhodných veličin.– n – rozsah výběru– Konkrétní hodnoty – realizace náhodného výběru

  • 2

    Parametry základního souboru (populace),

    resp. parametry rozděleníX Výběrové charakteristiky

    relativní četnost

    p

    výběrová

    směr. odchylka

    s

    výběrový

    rozptyl

    s2

    průměrVýběrový

    soubor

    (výběr)

    pravděpodobnost

    rel. četnost

    π

    směrodatná

    odchylka

    σ

    rozptyl

    σ2

    střední

    hodnota

    µ

    Základní

    soubor

    (populace)

    Bodový odhad parametruBodový odhad parametru

    "100.000 syslůse nemůže mý

    lit."

    (Zákon velkých čísel)

    n

    np i=

    BernoullihoBernoulliho zzáákon velkých kon velkých ččííselsel

    Relativní četnost sledovaného jevu v posloupnosti nezávislých pokusů konverguje podle pravděpodobnosti k pravděpodobnosti sledovaného jevu, roste-li počet pokusů nade všechny meze

    0lim =

    >−

    ∞→εp

    n

    SP n

    n

    ChinChinččininůůvv zzáákon velkých kon velkých ččííselsel

    Aritmetický průměr nezávislých výběrů ze stejného rozděleníkonverguje podle pravděpodobnosti ke střední hodnotě.

    01

    lim1

    =

    >−∑

    =∞→

    εµn

    i

    in

    Xn

    P

  • 3

    Vlastnosti dobrVlastnosti dobréého odhaduho odhadu

    Nestrannost (nevychýlenost, nezkreslenost)střední hodnota statistiky je rovna odhadovanému parametruAsymptoticky nestranný odhad – Při rostoucím rozsahu výběru se vychýlení zmenšujeKonzistence – konverguje podle pravděpodobnosti k odhadovanému parametru. S rostoucím rozsahem výběru klesá pravděpodobnost, že se použitá statistika bude od odhadovaného parametru významně lišit.Vydatnost (eficience).O statistice, která má ze všech nestranných odhadů nejmenšírozptyl říkáme, že je vydatným (nejlepším) nestranným odhademMaximálně věrohodný odhad parametru t je maximem věrohodnostní funkce f(x,t), kde f(x) je hustota proměnné x.

    UrUrččeneníí ppřřesnosti odhaduesnosti odhadu

    Přesnost měření (pozor na počet platných číslic)Průměr + SD. – (směrodatná odchylka)Průměr a meze tolerančního intervaluPrůměr + SEM (standard error of mean ) – info o vydatnostiodhadu průměru

    Průměr a meze intervalu spolehlivosti

    216 ±

    nsSEM /=

  • 4

    IntervalovIntervalový odhad parametruý odhad parametru

    Intervalový odhad – získáme z bodového odhadu a zadáním pravděpodobnosti (koeficientu spolehlivosti) s jakou parametr leží v tomto intervalu.

    Většinou počítáme 95%, nebo 99 % intervaly spolehlivosti(CI -confidence interval). – Čím větší je koeficient spolehlivosti, tím větší je i délka intervalu

    CentrCentráálnlníí limitnlimitníí vvěětata

    Údaje, které jsou ovlivňovány velkým počtem malých a na sobě nezávislých efektů budou rozděleny přibližně normálněČím větší je rozsah výběru, tím více se rozdělení průměrů blíží normálnímu rozdělení

  • 5

    Lévyho-Lindebergova věta.

    Pokud je náhodná veličina X součtem n vzájemně nezávislých náhodných veličin X1,

    X2,…Xn se shodným rozdělením libovolného typu, s konečnou střední hodnotou µ a s

    konečným rozptylem σ2, pak pro normovanou náhodnou veličinu

    platí vztah

    kde Φ(u) je distribuční funkce normovaného normálního rozdělení N(0,1).

    CentrCentráálnlníí limitnlimitníí vvěětata

    Př: Doba životnosti auta má exponenciální rozdělení s parametrem (1/15). Potom normovaný tvar průměru dob životnosti nezávisle vyráběných aut

    je možné aproximovat normálním rozdělením N(0,1)

    µ

    n

    nXU

    −=

    ( ) )(lim uuUPn

    Φ=<∞→

    n

    XU

    15

    15−=

    CentrCentráálnlníí limitnlimitníí vvěětata

    http://www.causeweb.org/repository/statjava/CLTApplet.html

  • 6

    Konstrukce intervalových odhadKonstrukce intervalových odhadůů

    100(1-α)% hladina spolehlivosti, α - hladina významnosti (volíme 0,05; 0,01)Jednostranné– Levostranné

    – Pravostranné

    Zvolíme vhodnou výběrovou charakteristiku, jejíž rozdělení známe– T(X)

    ( ) ( ) ααα −=>∞ −− 1)(;; 11 xXTPx

    ( ) ( ) ααα −=

  • 7

    Intervalových odhad pro stIntervalových odhad pro střřednedníí hodnotuhodnotu

    Dvoustranné

    Zvolíme vhodnou výběrovou charakteristiku, jejíž rozdělení

    známe (testová statistika) – Z(X)

    ( ) ( )2

    )(2

    12

    ααα =

    ≥=<

    −zXZPzXTP

    ασ

    µσ

    ασ

    µ

    α

    αα

    αα

    αα

    −=

    +

  • 8

  • 9

    Intervalový odhad stIntervalový odhad střřednedníí hodnotyhodnoty

    Příklad– V průběhu jednoho roku byl náhodně zjišťován počet cestujících

    ve vlacích na trase Praha – Olomouc. Ze 30 hodnot byl vypočtený průměr 450 a směrodatná odchylka s = 30. Určete 99% interval spolehlivosti.

    Můžeme tedy s pravděpodobností 95% říci, že střední hodnota počtu cestujících je mezi 434 a 465.

    ( ) )465;434(095,15450;095,15450

    095,15756,230

    30

    30

    30

    ; je stispolehlivo interval

    29;005,01,

    21

    1,2

    11,2

    1

    =+−

    =⋅=⋅=⋅

    ⋅+⋅−

    −−

    −−−−

    ttn

    s

    tn

    sXt

    n

    sX

    n

    nn

    α

    αα

    Rozsah výbRozsah výběěru pro odhad stru pro odhad střřednedníí hodnotyhodnoty

    Známe směrodatnou odchylku

    Rozsah výběru pro 100(1-α)% IS pro µ se zadanou chybou ∆µ:

    ⋅+⋅−

    ,2

    ,2

    ; IS αασσ

    zn

    Xzn

    X

    2

    2

    2

    ∆=⇒⋅=∆

    µ

    σσ

    µα

    α

    z

    nzn

    Př: Určete rozsah výběru nutný k tomu, aby byla odhadnuta s 95 % spolehlivostí hledaná střední hodnota IQ studentů ČVUT s přípustnou chybou 5 bodů inteligenční stupnice.

    6,345

    1596,12

    =

    ⋅=n

  • 10

    JednovýbJednovýběěrovýrový zz--test o sttest o střřednedníí hodnothodnotěě

    H0: µ=µ0 při známém rozptylu (dvoustranný test)

    Testová statistika

    H0 zamítáme na hladině významnosti α, jestliže hodnota parametru daná nulovou hypotézou nepadne do (1-α)100% intervalu spolehlivosti pro testovaný parametr.

    )1,0()( 0 NnX

    XZ ≈−

    µ

    Obor přijetí:

    P-hodnota:

    −2

    12

    , αα zz

    = 2*MIN( ZTEST(array,x,[sigma]), 1-ZTEST(array,x,[sigma]) )

    ))(),(min(2 cc zZPzZP ≥≤

    P-hodnota

    JednovýbJednovýběěrovýrový zz--test o sttest o střřednedníí hodnothodnotěě

    H0: µ < µ0 při známém rozptylu (levostranný test)Obor přijetí :

    H0: µ > µ0 při známém rozptylu (pravostranný test)Obor přijetí :

    ( )∞,αz

    ( )α−∞− 1, z

    = ( ZTEST(array,x,[sigma])

    P-hodnota pro H0: µ < µ0 :

    ( )0zZP ≤

    ( )0zZP ≥

  • 11

    JednovýbJednovýběěrovýrový ZZ--testtest

    Intervalový odhad rozptyluIntervalový odhad rozptylu

    Předpoklady– Normální rozdělení

    ⋅−

    ⋅−

    −=

    ⋅−

  • 12

    Intervalový odhad podIntervalový odhad podíílulu

    Předpoklady– Počet výskytu hledaného znaku je alespoň 5

    kde je kvantil normovaného normálního rozdělení.

    Rozsah výběru pro přípustnou chybu odhadu ∆p.

    ( ) ( )

    −⋅+⋅

    −⋅−

    −−2

    12

    1

    1;

    1αα z

    n

    pppz

    n

    ppp

    2

    αz

    ( )2

    2/1

    ∆−=

    p

    zppn α

    95% interval spolehlivosti v Excelu 2003

    NORMSINV(0,975) kvantil normálního rozdělení

    DU: Rozsah výbDU: Rozsah výběěru pro podru pro podííll

    Kolikrát musíme opakovat hod mincí, abychom s 95% pravděpodobností dostali výsledek relativní četnosti v intervalu (0,4; 0,6).

    Během pátečního odpoledne byla naměřena doba čekání na metro ve stanici Dejvická (txt – údaje v sekundách). Testujte, zda je průměrná doba čekání větší než 2 minuty.

    ( )2

    2/1

    ∆−=

    p

    zppn α

    [96 pokus

    ů]

    [H0: µ