Fragen Einfuhrung in die induktive Statistik - Andreas .Einfuhrung in die induktive Statistik...

download Fragen Einfuhrung in die induktive Statistik - Andreas .Einfuhrung in die induktive Statistik Friedrich

of 21

  • date post

    02-Apr-2019
  • Category

    Documents

  • view

    217
  • download

    0

Embed Size (px)

Transcript of Fragen Einfuhrung in die induktive Statistik - Andreas .Einfuhrung in die induktive Statistik...

Einfuhrung in die induktive Statistik

Friedrich Leisch

Institut fur Statistik

Ludwig-Maximilians-Universitat Munchen

SS 2009, Lineare Regression

Fragen

Welche Unsicherheitsfaktoren beeinflussen die Schatzung einerRegressionsgeraden?

Wenn wir die Korpergroe aus der Unterarmlange prognostizierenwollen, wie konnten wir vorgehen? Was haben wir bei der

Konstruktion von Konfidenzintervallen zu beachten? Wie konnten

Konfidenzbereiche aussehen?

Welche statischen Tests konnten bei der linearen Regression vonInteresse sein?

Friedrich Leisch, Induktive Statistik 2009 1

Ubersicht

Wiederholung aus Deskriptive Statistik: Lineare Einfachregression

Das stochastische Modell der einfachen Regression

Tests fur Parameter

Korrelation der Parameter

Multiple Regression

Friedrich Leisch, Induktive Statistik 2009 2

Lineare Einfachregression

Lineare Einfachregression

Modell:

yi = + xi + i, i = 1, . . . , n

Kleinste-Quadrate-Schatzer:

SQR =ni=1

(yi yi)2 =ni=1

(yi (+ xi)

)2 min

= y x, = sXYs2X

Friedrich Leisch, Induktive Statistik 2009 4

Residuen

i = yi yi = yi (+ xi)

Es gilt:

ni=1

i =ni=1

(yi (+ xi)

)=

ni=1

(yi (y x+ xi)

=ni=1

(yi y + x xi)

=ni=1

(yi y) + ni=1

(x xi)

= 0 + 0 = 0

Friedrich Leisch, Induktive Statistik 2009 5

Streuungszerlegung

Frage: Wie gut pat die Regressionsgerade zu den Daten?

Ma fur die Variabilitat der abhangigen Variablen Y ist die Varianz:

s2Y =1

n

ni=1

(yi y)2

Bei Regression betrachtet man ublicherweise die Quadratsumme

SQT = ns2Y =ni=1

(yi y)2

(SQT =Sum of sQuares Total)

Friedrich Leisch, Induktive Statistik 2009 6

Streuungszerlegung

SQT = SQE + SQR

mit

Sum of sQuares Total

SQT =ni=1

(yi y)2

Sum of sQuares Explained

SQE =ni=1

(yi y)2

Sum of sQuares Residual

SQR =ni=1

(yi yi)2

Friedrich Leisch, Induktive Statistik 2009 7

Erklarte Varianz

Bestimmtheitsma:

R2 =SQE

SQT= 1 SQR

SQT= r2XY [0,1]

R2 0: Varianz der Residuen identisch zur Varianz von Y , Regressions-gerade horizontal, X hat keinen linearen (!) Einflu auf Y

R2 1: Varianz der Residuen fast 0, Daten liegen fast perfekt auf einerGeraden

Friedrich Leisch, Induktive Statistik 2009 8

Erklarte Varianz

2 4 6 8 10

02

46

810

12

x

y

Friedrich Leisch, Induktive Statistik 2009 9

Erklarte Varianz: R2 0

Regressionsgerade horizontal:

3 2 1 0 1 2 3

2

02

46

810

x

y1

3 2 1 0 1 2 3

2

02

46

810

x

y2

Friedrich Leisch, Induktive Statistik 2009 10

Verbesserungsmoglichkeiten

Die deskriptive Anpassung einer Ausgleichgeraden an bivariate Daten

kann auf verschiedene Arten verbessert werden: Wunschenswert ware

Test, ob die Varianzerklarung signifikant von Null verschieden ist,

Tests, ob und von Null verschieden sind,

mehr als eine erklarende Variable zu verwenden, und

kategorische erklarende Variablen zu verwenden.

Friedrich Leisch, Induktive Statistik 2009 11

Stochastisches Regressionsmodell

Modell bleibt gleich:

yi = + xi + i, i = 1, . . . , n

Aber wir modellieren nun (zumindest) yi und als Zufallsvariablen:

Yi = + Xi + i

Im einfachsten Fall wird Xi als deterministisch angesehen (geplante

Experimente), falls die beobachteten Paare (xi, yi) jedoch aus einer

Stichprobe stammen, ist auch Xi eine Zufallsvariable.

Friedrich Leisch, Induktive Statistik 2009 12

Annahmen des Modells

Yi = + Xi + i

Die abhangige Variable Y ist metrisch skaliert.

Die Regressionsfunktion ist linear.

Die Fehler sind unabhangig von X.

Fehler sind unabhangig identisch verteilt (Homoskedastizitat) mitEi = 0, Var(i) =

2

Friedrich Leisch, Induktive Statistik 2009 13

Eigenschaften von Y

Aus den Modellannahmen folgt direkt:

E(Yi|Xi = xi) = E(+ Xi + i|Xi = xi)= + E(Xi|Xi = xi) + E(i)= + xi

Var(Yi|Xi = xi) = Var(+ Xi + i|Xi = xi)= 2Var(Xi|Xi = xi) + Var(i)= 20 + 2 = 2

Falls die Fehler normalverteilt sind (i N(0, 2)) gilt weiters:Yi N(+ Xi, 2)

Friedrich Leisch, Induktive Statistik 2009 14

Bsp: Herzgewicht von Katzen

2.0 2.5 3.0 3.5

68

1012

1416

1820

Bwt

Hw

t

Friedrich Leisch, Induktive Statistik 2009 15

Bsp: Herzgewicht von Katzen

Bwt

Hwt

f

Friedrich Leisch, Induktive Statistik 2009 16

Schatzen der Parameter

Da bei der Normalverteilung Kleinstquadrat-Schatzung und Maximum-

Likelihood-Schatzung identisch sind, andern sich die Schatzer nicht:

= y x, = sXYs2X

=rXY sXsY

s2X= rXY

sYsX

Als Schatzer fur die unbekannte Fehlervarianz 2 verwenden wir die

Varianz der Residuen:

2 =1

n 2ni=1

(yi yi)2 =1

n 2ni=1

2i

(Nenner n 2 wegen 2 davor geschatzten Parametern und ).

Friedrich Leisch, Induktive Statistik 2009 17

Eigenschaften der KQ-Schatzer

Verteilung der geschatzten Regressionskoeffizienten:

N(, 2) mit V ar() = 2 = 2ni=1 x

2i

nni=1(xix)2

N(, 2

) mit V ar() = 2

= 2n

i=1(xix)2

Schatzer 2 und 2

ergeben sich mit 2 statt 2.

, und sind erwartungstreue Schatzer,

und konsistent fallsni=1(xi x)2 fur n.

Verteilung der standardisierten Schatzfunktionen:

t(n 2)

t(n 2)

Friedrich Leisch, Induktive Statistik 2009 18

Eigenschaften der KQ-Schatzer

(1 )-Konfidenzintervalle fur und :

fur :[ t12(n 2), + t12(n 2)

]fur :

[ t12(n 2), + t12(n 2)

]

Testen von Hypothesen: Teststatistiken

T0 = 0

und T0 = 0

Friedrich Leisch, Induktive Statistik 2009 19

Prognose

Regressionsgerade:

Y0 = + x0

Konfidenzintervall fur Y0: Y0 t12(n 2)1n

+(x0 x)2x2i nx2

Beobachtete Werte:

Y0 = Y0 + 0 = + x0 + 0

Konfidenzintervall fur Y0: Y0 t12(n 2)1 + 1

n+

(x0 x)2x2i nx2

Friedrich Leisch, Induktive Statistik 2009 20

Erklarte Varianz: signifikant?

Zur Beantwortung der Frage, ob des Modell signifikant zur Erklarung

der Daten beitragt, kann man testen, ob

1. 2 = Var() kleiner als 2y = Var(y) ist.

2. R2 von Null verschieden ist.

3. die Korrelation von X und Y von Null verschieden ist.

4. von Null verschieden ist.

Im Fall der linearen Einfachregression sind alle 4 Tests de facto identisch,

fur mehr als eine erklarende Variable sind

1. und 2. identisch 3. und 4. verschieden (siehe spater)

Friedrich Leisch, Induktive Statistik 2009 21

Erklarte Varianz: signifikant?

Die Teststatistik fur Korrelation von X und Y ist:

T =rXY

1 r2XY

n 2 t(n 2)

In der Regressionsanalyse ist es ublicher, das Quadrat dieser Statistik zu

betrachten:

F = T2 =r2XY

1 r2XY(n 2) = R

2

1R2(n 2) F (1, n 2)

Dieser F-Test lat sich leichter fur mehr als eine erklarende Variable

verallgemeinern (Varianzanalyse, VO Lineare Modelle).

Ablehnung der Nullhypothese

kein Zusammenhang zwischen X und Y

zum Signifikanzniveau fur F > F1(1, n 2).

Friedrich Leisch, Induktive Statistik 2009 22

Erklarte Varianz: signifikant?

Wegen

R2 =SQE

SQT= 1 SQR

SQT

gilt weiters

F = (n 2) R2

1R2 = (n 2)SQE/SQT

SQR/SQT=

SQE1

n2SQR=

SQE

2

Die F -Statistik wird also gro, wenn

SQE gro ist (steile Gerade) SQR klein ist (kleine Residuen)

Ohne BW: F = T20fur 0 = 0 in der linearen Einfachregression.

Friedrich Leisch, Induktive Statistik 2009 23

Bsp: Katzen

Welche Koeffizienten sind notwendig?

Fur die Hypothesen = 0 und = 0 kann man t-Tests formulieren:

Estimate Std. Error t value Pr(>|t|)(Intercept) 0.3567 0.6923 0.52 0.6072

Bwt 4.0341 0.2503 16.12 0.0000

= 1.452, R2 = 0.64, F = 259.8, p < 1015

Interpretation: Pro kg Korpergewicht steigt das Herzgewicht im Schnitt

um 4.03g, die Konstante ist nicht notwendig.

Friedrich Leisch, Induktive Statistik 2009 24

Bsp: Katzen

0 1 2 3 4

05

1015

20

Bwt

Hw

t

Friedrich Leisch, Induktive Statistik 2009 25

Bsp: Unterarm und Korpergroe

> arm summary(arm)Gruppe Geschlecht Korpergroe Unterarma: 8 m:17 Min. :156.0 Min. :21.00b: 8 w:10 1st Qu.:170.0 1st Qu.:24.50c:11 Median :176.0 Median :26.00

Mean :176.0 Mean :25.893rd Qu.:183.0 3rd Qu.:27.00Max. :190.0 Max. :29.00

Friedrich Leisch, Induktive Statistik 2009 26

Bsp: Unterarm und Korpergroe

Unterarm

Kr

perg

r

e

160

170

180

190

22 24 26 28

: Gruppe a

22 24 26 28

: Gruppe b

22 24 26 28

: Gruppe c

Friedrich Leisch, Indu