Wykład 6

Wykład 6

• Standardowy błąd średniej a odchylenie standardowe z próby

• Odchylenie standardowe z próby s:• Służy do oceny zmienności w zbiorze danych• Gdy n wzrasta s zbliża się do odchylenia

standardowego w populacji • Używane do przewidywań dotyczących

poszczególnych obserwacji

• Błąd standardowy średniej SE = :

• Służy do oceny niepewności związanej z estymacją średniej w populacji

• Maleje wraz ze wzrostem n• Używane do przewidywań dotyczących średniej

s

n

Jak duża powinna być próba?

• Poprzez wybór odpowiedniego n możemy uzyskać PU o odpowiedniej (dowolnie małej) szerokości

• Możemy estymować z zadaną precyzją

• Przykład: ustal rozmiar próby tak aby 95% PU dla średniej miał szerokość 5.

Załóżmy, że =10. Wtedy

• Na ogół nie znamy . Możemy wykonać badanie wstępne (mała próba) aby oszacować .

Założenia (jeszcze raz)

• Próba musi być losowa• Każdy element w populacji ma jednakową

szansę na wybór• Poszczególne wybory są od siebie

niezależne• Jeżeli te założenia nie są spełnione to

wzrost n może nie gwarantować zmniejszenia SE.

Przedział ufności dla frakcji w populacji

• Estymujemy p za pomocą • Chcemy skonstruować przedział ufności dla p• Moglibyśmy skorzystać z rozkładu Bernoulliego

ale wymagałoby to uciążliwych rachunków.• Korzystamy z przybliżenia rozkładu Bernoulliego

rozkładem normalnym• Gdy Y ma rozkład Bernoulliego (n, p) i n jest

duże, wtedy Y ma w przybliżeniu rozkład nornmalny

p̂

, (1 )N np np p

• = Y/n ma średnią i =

• Zatem ma w przybliżeniu rozkład

p̂

p̂

Przedział ufności dla p

• Klasyczny przedział ufności uzyskuje się zastępując p przez (we wzorze na ).

• Klasyczne przedziały ufności zachowują się źle gdy y jest bliskie 0 – wtedy PU często zawiera ujemne wartości.

• My będziemy korzystali z przedziału ufności Agrestiego-Coula (patrz np. Brown, Cai i DasGupta, Ann.Stat., 2002)

• Centrum przedziału będzie (zamiast ). • Przypomnijmy, że Z/2 jest taką liczbą, że• Pr(Z < - Z/2) = Pr(Z > Z/2) = /2• Dla 95% PU, = 0.05 i Z/2 = 1.96.

p p̂

p̂

• Definiujemy

• SE dla wynosi

• Dla 95% PU

• Wstawiamy Z0.025 = 1.96 i dostajemy

2/ 20.5

2/ 2

y Zp

n Z

p2

/ 2

(1 )p

p pSE

n Z

2

2

0.5(1.96 ) 1.92 2

3.84 41.96

y y yp

n nn

2

(1 ) (1 ) (1 )

3.84 41.96p

p p p p p pSE

n nn

Przedział ufności dla p

• Skonstruujemy przybliżony przedział ufności dla p, z centrum w

• Użyjemy kwantyli z rozkładu normalnego Z/2

• Dla 95% PU użyjemy Z0.025 =1.96

• Dla 90% PU użyjemy Z0.05 =1.65; dla 99% PU użyjemy Z0.005=2.58.

• przybliżony 95% PU dla p wynosi

p

11.96 1.96

4p

p pp SE p

n

Przykład:

• Złapano 125 myszy i 6 z nich ma nakrapiane na biało brzuszki

• p = frakcja myszek w całej populacji, które mają nakrapiane na biało brzuszki

• 95% PU dla p:

90% PU dla p

• Mamy 90% pewności że frakcja myszek w całej populacji, które mają brzuszki nakrapiane na biało zawiera się w przedziale między a .

• Zauważmy, że 90% PU jest

niż 95% PU i że przedziały te mają różne środki.

Jak duża powinna być próba ?

• Chcemy aby 95% PU miał zadaną długość. Jak ustalić rozmiar próby ?

• Uwaga – długość przedziału zależy od , którego nie znamy

• Jeżeli mniej więcej wiemy jakie jest p, to możemy tą przybliżoną wartość użyć w równaniu na długość przedziału.

• Jeżeli nie mamy żadnych wstępnych informacji to używamy p = 0.5. Ten wybór jest bezpieczny i gwarantuje, że przedział ufności skonstruowany w oparciu o próbę o wyliczonym rozmiarze będzie nie szerszy od założonego.

p

Przykład

• Chcemy aby SE było równe .005 (odpowiedni przedział ufności ma długość około 0.02).

• Przypuszczamy, że prawdziwe p jest bliskie .05.

• Potrzebujemy myszy.

• Nie wiemy nic o p.

• Potrzebujemy myszy.

Dwie niezależne próby

• Czasami chcemy porównać wartości pewnej zmiennej w dwóch populacjach.

• Przykłady• Grupa zabiegowa i kontrolna• Lekarstwo a placebo• Pacjenci biorący dwa podobne lekarstwa• Mężczyźni a kobiety• Dwie różne linie genetyczne

Rozkład cechy Y w populacji 1 jest

N(1, 1): bierzemy próbę o rozmiarze n1,

y1, s1, SE1 =

• Rozkład cechy Y w populacji 2 jest

N(2, 2) : bierzemy próbę o rozmiarze n2,,,

y2,s2, SE2 =

1

1

s

n

2

2

s

n

• Jaka jest różnica między średnimi w obu populacjach, 1-2 ?

• Chcemy wyestymować 1 - 2 i otrzymać przedział ufności

y1-y2 jest estymatorem 1-2

• Aby skonstruować przedział ufności musimy wyznaczyć SE

Standardowy błąd dla różnicy dwóch średnich

• Jak policzyć SE dla y1-y2?• Dwa sposoby: ``nieuśrednianie’’ i ``uśrednianie’’.• gdy n1 = n2 obie metody dają te same wyniki• Na ogół będziemy używać ``nieuśrednionego’’

SE. • Metodę ``uśredniania’’ zastosujemy gdy będzie

można założyć, że 1=2 (albo gdy o to poprosi wykładowca).

• W obu przypadkach SE liczone jest jako pewna kombinacja s1 and s2

Metoda zwykła (``nieuśrednianie’’)

• Liczymy SE1 = i

SE2 = osobno w obu próbach.

1

1

s

n2

2

s

n

• Liczymy standardowy błąd różnicy średnich:

Metoda ``uśredniania’’

• W obu próbach liczymy SS : SS1 and SS2, i obliczamy „uśrednioną wariancję":

sc2 =

1 2

1 2 2

SS SS

n n

• ``Uśredniony’’ błąd standardowy wynosi

Podsumowanie obu metod

• Metoda ``nieuśredniania’’

• (N)SEy1-y2 =

• =

2 21 2SE SE

1 2

2 21 21 2

1 2 1 2

1 1SS SS

n ns s

n n n n

Metoda ``uśredniania’’

• SS1 = (n1–1)s12 = (y-y1)2 w próbie 1

• SS2 = (n2–1)s22 = (y-y2)2 w próbie 2

• ``uśredniona’’ wariancja sc2 =

• (U)SEy1-y2 =

1 2

1 2

SS SS

n 2n

2

1 2 1 2

1 1 1 1c cs sn n n n

Przykład:

• próba 1: n1 = 15, y1 = 75, SS1 = 600

• próba 2: n2 = 10, y2 = 55, SS2 = 300

• Wyniki z obu metod nie są takie same ale są dość podobne.

• Zauważmy, że s1 = 6.55 i s2 = 5.77 (dość podobne).

Wykład 6

Documents

Transcript of Wykład 6