Wykład 6
description
Transcript of Wykład 6
Wykład 6
• Standardowy błąd średniej a odchylenie standardowe z próby
• Odchylenie standardowe z próby s:• Służy do oceny zmienności w zbiorze danych• Gdy n wzrasta s zbliża się do odchylenia
standardowego w populacji • Używane do przewidywań dotyczących
poszczególnych obserwacji
• Błąd standardowy średniej SE = :
• Służy do oceny niepewności związanej z estymacją średniej w populacji
• Maleje wraz ze wzrostem n• Używane do przewidywań dotyczących średniej
s
n
Jak duża powinna być próba?
• Poprzez wybór odpowiedniego n możemy uzyskać PU o odpowiedniej (dowolnie małej) szerokości
• Możemy estymować z zadaną precyzją
• Przykład: ustal rozmiar próby tak aby 95% PU dla średniej miał szerokość 5.
Załóżmy, że =10. Wtedy
• Na ogół nie znamy . Możemy wykonać badanie wstępne (mała próba) aby oszacować .
Założenia (jeszcze raz)
• Próba musi być losowa• Każdy element w populacji ma jednakową
szansę na wybór• Poszczególne wybory są od siebie
niezależne• Jeżeli te założenia nie są spełnione to
wzrost n może nie gwarantować zmniejszenia SE.
Przedział ufności dla frakcji w populacji
• Estymujemy p za pomocą • Chcemy skonstruować przedział ufności dla p• Moglibyśmy skorzystać z rozkładu Bernoulliego
ale wymagałoby to uciążliwych rachunków.• Korzystamy z przybliżenia rozkładu Bernoulliego
rozkładem normalnym• Gdy Y ma rozkład Bernoulliego (n, p) i n jest
duże, wtedy Y ma w przybliżeniu rozkład nornmalny
p̂
, (1 )N np np p
• = Y/n ma średnią i =
• Zatem ma w przybliżeniu rozkład
p̂
p̂
Przedział ufności dla p
• Klasyczny przedział ufności uzyskuje się zastępując p przez (we wzorze na ).
• Klasyczne przedziały ufności zachowują się źle gdy y jest bliskie 0 – wtedy PU często zawiera ujemne wartości.
• My będziemy korzystali z przedziału ufności Agrestiego-Coula (patrz np. Brown, Cai i DasGupta, Ann.Stat., 2002)
• Centrum przedziału będzie (zamiast ). • Przypomnijmy, że Z/2 jest taką liczbą, że• Pr(Z < - Z/2) = Pr(Z > Z/2) = /2• Dla 95% PU, = 0.05 i Z/2 = 1.96.
p p̂
p̂
• Definiujemy
• SE dla wynosi
• Dla 95% PU
• Wstawiamy Z0.025 = 1.96 i dostajemy
2/ 20.5
2/ 2
y Zp
n Z
p2
/ 2
(1 )p
p pSE
n Z
2
2
0.5(1.96 ) 1.92 2
3.84 41.96
y y yp
n nn
2
(1 ) (1 ) (1 )
3.84 41.96p
p p p p p pSE
n nn
Przedział ufności dla p
• Skonstruujemy przybliżony przedział ufności dla p, z centrum w
• Użyjemy kwantyli z rozkładu normalnego Z/2
• Dla 95% PU użyjemy Z0.025 =1.96
• Dla 90% PU użyjemy Z0.05 =1.65; dla 99% PU użyjemy Z0.005=2.58.
• przybliżony 95% PU dla p wynosi
p
11.96 1.96
4p
p pp SE p
n
Przykład:
• Złapano 125 myszy i 6 z nich ma nakrapiane na biało brzuszki
• p = frakcja myszek w całej populacji, które mają nakrapiane na biało brzuszki
• 95% PU dla p:
90% PU dla p
• Mamy 90% pewności że frakcja myszek w całej populacji, które mają brzuszki nakrapiane na biało zawiera się w przedziale między a .
• Zauważmy, że 90% PU jest
niż 95% PU i że przedziały te mają różne środki.
Jak duża powinna być próba ?
• Chcemy aby 95% PU miał zadaną długość. Jak ustalić rozmiar próby ?
• Uwaga – długość przedziału zależy od , którego nie znamy
• Jeżeli mniej więcej wiemy jakie jest p, to możemy tą przybliżoną wartość użyć w równaniu na długość przedziału.
• Jeżeli nie mamy żadnych wstępnych informacji to używamy p = 0.5. Ten wybór jest bezpieczny i gwarantuje, że przedział ufności skonstruowany w oparciu o próbę o wyliczonym rozmiarze będzie nie szerszy od założonego.
p
Przykład
• Chcemy aby SE było równe .005 (odpowiedni przedział ufności ma długość około 0.02).
• Przypuszczamy, że prawdziwe p jest bliskie .05.
• Potrzebujemy myszy.
• Nie wiemy nic o p.
• Potrzebujemy myszy.
Dwie niezależne próby
• Czasami chcemy porównać wartości pewnej zmiennej w dwóch populacjach.
• Przykłady• Grupa zabiegowa i kontrolna• Lekarstwo a placebo• Pacjenci biorący dwa podobne lekarstwa• Mężczyźni a kobiety• Dwie różne linie genetyczne
Rozkład cechy Y w populacji 1 jest
N(1, 1): bierzemy próbę o rozmiarze n1,
y1, s1, SE1 =
• Rozkład cechy Y w populacji 2 jest
N(2, 2) : bierzemy próbę o rozmiarze n2,,,
y2,s2, SE2 =
1
1
s
n
2
2
s
n
• Jaka jest różnica między średnimi w obu populacjach, 1-2 ?
• Chcemy wyestymować 1 - 2 i otrzymać przedział ufności
y1-y2 jest estymatorem 1-2
• Aby skonstruować przedział ufności musimy wyznaczyć SE
Standardowy błąd dla różnicy dwóch średnich
• Jak policzyć SE dla y1-y2?• Dwa sposoby: ``nieuśrednianie’’ i ``uśrednianie’’.• gdy n1 = n2 obie metody dają te same wyniki• Na ogół będziemy używać ``nieuśrednionego’’
SE. • Metodę ``uśredniania’’ zastosujemy gdy będzie
można założyć, że 1=2 (albo gdy o to poprosi wykładowca).
• W obu przypadkach SE liczone jest jako pewna kombinacja s1 and s2
Metoda zwykła (``nieuśrednianie’’)
• Liczymy SE1 = i
SE2 = osobno w obu próbach.
1
1
s
n2
2
s
n
• Liczymy standardowy błąd różnicy średnich:
Metoda ``uśredniania’’
• W obu próbach liczymy SS : SS1 and SS2, i obliczamy „uśrednioną wariancję":
sc2 =
1 2
1 2 2
SS SS
n n
• ``Uśredniony’’ błąd standardowy wynosi
Podsumowanie obu metod
• Metoda ``nieuśredniania’’
• (N)SEy1-y2 =
• =
2 21 2SE SE
1 2
2 21 21 2
1 2 1 2
1 1SS SS
n ns s
n n n n
Metoda ``uśredniania’’
• SS1 = (n1–1)s12 = (y-y1)2 w próbie 1
• SS2 = (n2–1)s22 = (y-y2)2 w próbie 2
• ``uśredniona’’ wariancja sc2 =
• (U)SEy1-y2 =
1 2
1 2
SS SS
n 2n
2
1 2 1 2
1 1 1 1c cs sn n n n
Przykład:
• próba 1: n1 = 15, y1 = 75, SS1 = 600
• próba 2: n2 = 10, y2 = 55, SS2 = 300
• Wyniki z obu metod nie są takie same ale są dość podobne.
• Zauważmy, że s1 = 6.55 i s2 = 5.77 (dość podobne).