3 Multiple lineare Regression Modell und Statistik a Y X ... · PDF file3.1. MODELL UND...
Transcript of 3 Multiple lineare Regression Modell und Statistik a Y X ... · PDF file3.1. MODELL UND...
![Page 1: 3 Multiple lineare Regression Modell und Statistik a Y X ... · PDF file3.1. MODELL UND STATISTIK 32 3 Multiple lineare Regression 3.1 Modell und Statistik a Zusammenhang zwischen](https://reader031.fdocuments.net/reader031/viewer/2022021509/5a79a5977f8b9ade698dce93/html5/thumbnails/1.jpg)
3.1. MODELL UND STATISTIK 32
3 Multiple lineare Regression
3.1 Modell und Statistika Zusammenhang zwischen einer Zielgrösse Y und
mehreren Eingangsgrössen X(1), X(2), . . . , X(m)
Yi = β0 + β1x(1)i + β2x
(2)i + . . .+ βmx
(m)i + Ei
Parameter: β0 , β1, β2, . . . , βm , σ2 .
„abhängige" Variable = Zielvariable
„unabhängige" Variable = Eingangs-, erklärende Variable
b Beispiel Sprengungen: Y = log10〈Erschütterung〉,X(1) = log10〈Distanz〉 und X(2) = log10〈Ladung〉.
![Page 2: 3 Multiple lineare Regression Modell und Statistik a Y X ... · PDF file3.1. MODELL UND STATISTIK 32 3 Multiple lineare Regression 3.1 Modell und Statistik a Zusammenhang zwischen](https://reader031.fdocuments.net/reader031/viewer/2022021509/5a79a5977f8b9ade698dce93/html5/thumbnails/2.jpg)
3.1. MODELL UND STATISTIK 33
3.1
c Schätzung, Tests, Vertrauensintervalle:
Kleinste Quadrate. Theorie etwas später.
d Computer-Ergebnis
Coefficients:Value Std. Error t value Pr(> |t|)
(Intercept) 2.8323 0.2229 12.71 0.000
log10(dist) -1.5107 0.1111 -13.59 0.000
log10(ladung) 0.8083 0.3042 2.66 0.011
Residual standard error: 0.1529 on 45 degrees of freedom
Multiple R-Squared: 0.8048
F-statistic: 92.79 on 2 and 45 degrees of freedom
p-value 1.11e-16
![Page 3: 3 Multiple lineare Regression Modell und Statistik a Y X ... · PDF file3.1. MODELL UND STATISTIK 32 3 Multiple lineare Regression 3.1 Modell und Statistik a Zusammenhang zwischen](https://reader031.fdocuments.net/reader031/viewer/2022021509/5a79a5977f8b9ade698dce93/html5/thumbnails/3.jpg)
3.1. MODELL UND STATISTIK 34
3.1
e Tests: Welche Fragen sind zu stellen?
Frage A.Beeinflusst die Gesamtheit der Eingangsgrössen die Zielgrösse?
−→ „F-Test"
Coefficients:...Residual standard error: 0.1529 on 45 degrees of freedomMultiple R-Squared: 0.8048F-statistic: 92.79 on 2 and 45 degrees of freedom
p-value 1.11e-16
f Varianzanalyse-Tabelle
Analysis of varianceDf Sum of Sq Mean Sq F Value Pr(F)
Regression m = 2 SSQ(R) = 136.772 68.386 T = 82.43 0.0000Residuals n− p = 120 SSQ(E) = 99.554 σ2 = 0.830 P-WertTotal 122 SSQ(Y ) = 236.326
![Page 4: 3 Multiple lineare Regression Modell und Statistik a Y X ... · PDF file3.1. MODELL UND STATISTIK 32 3 Multiple lineare Regression 3.1 Modell und Statistik a Zusammenhang zwischen](https://reader031.fdocuments.net/reader031/viewer/2022021509/5a79a5977f8b9ade698dce93/html5/thumbnails/4.jpg)
3.1. MODELL UND STATISTIK 35
3.1
g Coefficients:...Residual standard error: 0.1529 on 45 degrees of freedomMultiple R-Squared: 0.8048F-statistic: 92.79 on 2 and 45 degrees of freedom
p-value 1.11e-16
„Multiple R-Squared" ist das Quadrat der
multiplen Korrelation = corr(Yi , angepasste Werte yi)
yi = β0 + β1x(1)i + β2x
(2)i + . . . + βmx
(m)i
R2 = Bestimmtheitsmass,
misst den Anteil der erklärten Streuung
an der Streuung der Y -Werte,
R2 = 1− SSQ(E)/SSQ(Y ) .
![Page 5: 3 Multiple lineare Regression Modell und Statistik a Y X ... · PDF file3.1. MODELL UND STATISTIK 32 3 Multiple lineare Regression 3.1 Modell und Statistik a Zusammenhang zwischen](https://reader031.fdocuments.net/reader031/viewer/2022021509/5a79a5977f8b9ade698dce93/html5/thumbnails/5.jpg)
3.1. MODELL UND STATISTIK 36
angepasste Werte
log1
0(E
rsch
ütte
rung
)
−0.2 0.0 0.2 0.4 0.6 0.8
−0.5
0.0
0.5
1.0
![Page 6: 3 Multiple lineare Regression Modell und Statistik a Y X ... · PDF file3.1. MODELL UND STATISTIK 32 3 Multiple lineare Regression 3.1 Modell und Statistik a Zusammenhang zwischen](https://reader031.fdocuments.net/reader031/viewer/2022021509/5a79a5977f8b9ade698dce93/html5/thumbnails/6.jpg)
3.1. MODELL UND STATISTIK 373.1
h Frage B.Einfluss der einzelnen Variablen X(j)?
Coefficients:Value Std. Error t value Pr(> |t|)
(Intercept) 2.8323 0.2229 12.71 0.000log10(dist) -1.5107 0.1111 -13.59 0.000log10(ladung) 0.8083 0.3042 2.66 0.011
Residual standard error: 0.1529 on 45 degrees of freedomMultiple R-Squared: 0.8048F-statistic: 92.79 on 2 and 45 degrees of freedom
p-value 1.11e-16
Der t-Wert und der P-Wert in derjenigen Zeile, die X(j) entspricht,
prüft, ob die Variable X(j)aus dem Modell weggelassen werden kann:
Nullhypothese βj = 0.
![Page 7: 3 Multiple lineare Regression Modell und Statistik a Y X ... · PDF file3.1. MODELL UND STATISTIK 32 3 Multiple lineare Regression 3.1 Modell und Statistik a Zusammenhang zwischen](https://reader031.fdocuments.net/reader031/viewer/2022021509/5a79a5977f8b9ade698dce93/html5/thumbnails/7.jpg)
3.1. MODELL UND STATISTIK 38
3.1
i Vertrauensintervall für βj : βj ± t(0.975)n−2 se(βj)
Coefficients:Value Std. Error t value Pr(> |t|)
(Intercept) 2.8323 0.2229 12.71 0.000log10(dist) -1.5107 0.1111 -13.59 0.000log10(ladung) 0.8083 0.3042 2.66 0.011
Residual standard error: 0.1529 on 45 degrees of freedomMultiple R-Squared: 0.8048F-statistic: 92.79 on 2 and 45 degrees of freedom
p-value 1.11e-16
j Beispiel: −1.5107± 2.014 · 0.1111
= −1.5107± 0.2237 = [1.2869, 1.7345].
![Page 8: 3 Multiple lineare Regression Modell und Statistik a Y X ... · PDF file3.1. MODELL UND STATISTIK 32 3 Multiple lineare Regression 3.1 Modell und Statistik a Zusammenhang zwischen](https://reader031.fdocuments.net/reader031/viewer/2022021509/5a79a5977f8b9ade698dce93/html5/thumbnails/8.jpg)
3.1. MODELL UND STATISTIK 39
3.1
k “Significance”: Kolonne t in üblichen Tabellen: Überflüssig!?
Mass für Signifikanz, anders als P-Wert
Tj =βj
se(βj) ·q(tk)0.975
= Tj/q
(tk)0.975 .
Tj > 1 bedeutet signifikanter Koeffizient
![Page 9: 3 Multiple lineare Regression Modell und Statistik a Y X ... · PDF file3.1. MODELL UND STATISTIK 32 3 Multiple lineare Regression 3.1 Modell und Statistik a Zusammenhang zwischen](https://reader031.fdocuments.net/reader031/viewer/2022021509/5a79a5977f8b9ade698dce93/html5/thumbnails/9.jpg)
3.1. MODELL UND STATISTIK 40
Coefficients:coef stcoef signif R2.x df p.value
(Intercept) 2.832 0.000 6.31 NA 1 0.000
log10(dist) -1.511 -0.903 -6.75 0.01659 1 0.000
log10(ladung) 0.808 0.176 1.32 0.01659 1 0.011
St.dev. of Error = 0.1529 on 45 degrees of freedom
Multiple R-Squared: 0.8048
F-statistic: 92.79 on 2 and 45 degrees of freedom
p-value 1.11e-16
![Page 10: 3 Multiple lineare Regression Modell und Statistik a Y X ... · PDF file3.1. MODELL UND STATISTIK 32 3 Multiple lineare Regression 3.1 Modell und Statistik a Zusammenhang zwischen](https://reader031.fdocuments.net/reader031/viewer/2022021509/5a79a5977f8b9ade698dce93/html5/thumbnails/10.jpg)
3.1. MODELL UND STATISTIK 41
Vertrauensintervall: Bis auf Faktor Tj ± 1.
βj
Tj· (Tj ± 1) = βj · (1± 1/Tj) .
l Standardisierte Koeffizienten.
β∗j = βj · sd⟨X(j)
⟩/ sd 〈Y 〉 .
Einfache Regression: β∗j = Korrelation.
Allg: Um wie viel verändert sich Y , gemessen in sd 〈Y 〉 -Einh.,
wenn sich X(j) um eine sd⟨X(j)
⟩verändert?
−→ Vergleiche der Einflussstärke von versch. Eingangsgrössen.
![Page 11: 3 Multiple lineare Regression Modell und Statistik a Y X ... · PDF file3.1. MODELL UND STATISTIK 32 3 Multiple lineare Regression 3.1 Modell und Statistik a Zusammenhang zwischen](https://reader031.fdocuments.net/reader031/viewer/2022021509/5a79a5977f8b9ade698dce93/html5/thumbnails/11.jpg)
3.1. MODELL UND STATISTIK 42
3.1
m Kollinearitätsmass. R2.x Bestimmtheitsmass für Regression von
X(j) als Zielgrösse auf alle anderen Regressoren.
Soll niedrig sein, sonst sind Koeffizienten schlecht bestimmt.
Siehe später.
![Page 12: 3 Multiple lineare Regression Modell und Statistik a Y X ... · PDF file3.1. MODELL UND STATISTIK 32 3 Multiple lineare Regression 3.1 Modell und Statistik a Zusammenhang zwischen](https://reader031.fdocuments.net/reader031/viewer/2022021509/5a79a5977f8b9ade698dce93/html5/thumbnails/12.jpg)
3.2. VIELFALT DER FRAGESTELLUNGEN 43
3.2 Vielfalt der Fragestellungena Im Modell der multiplen Regression werden
keine Annahmen über die X -Variablen gemacht. Beliebig:
• Datentyp: stetig, diskret, zweiwertig,
später nominal.
• Verteilung der einzelnen Variablen: keine. Nicht zufällig.
• Gemeinsame Verteilung der Variablen: keine. Nicht zufällig.
Keine Unabhängigkeit vorausgesetzt!
Ein X(j) darf eine deterministische (nicht-lineare) Funktion
einer anderen oder mehrerer anderer sein.
![Page 13: 3 Multiple lineare Regression Modell und Statistik a Y X ... · PDF file3.1. MODELL UND STATISTIK 32 3 Multiple lineare Regression 3.1 Modell und Statistik a Zusammenhang zwischen](https://reader031.fdocuments.net/reader031/viewer/2022021509/5a79a5977f8b9ade698dce93/html5/thumbnails/13.jpg)
3.2. VIELFALT DER FRAGESTELLUNGEN 44
3.2
c Binäre Eingangs-Variable, Yi = β0 + β1xi + Ei
−→ Yi = β0 + Ei für xi = 0,
Yi = β0 + β1 + Ei für xi = 1.
β0 = µ0 = Erwartungswert für Gr. xi = 0,
β0 + β1 = µ1 = Erwartungswert für Gr. xi = 1.
−→ Zwei-Gruppen-Problem = Spezialfall der (einfachen) Regression.
![Page 14: 3 Multiple lineare Regression Modell und Statistik a Y X ... · PDF file3.1. MODELL UND STATISTIK 32 3 Multiple lineare Regression 3.1 Modell und Statistik a Zusammenhang zwischen](https://reader031.fdocuments.net/reader031/viewer/2022021509/5a79a5977f8b9ade698dce93/html5/thumbnails/14.jpg)
3.2. VIELFALT DER FRAGESTELLUNGEN 45
3.2
d Beispiel Sprengungen: Betrachte nur 2 Messstellen.
Yi = β0 + β1x(1)i + β2x
(2)i + Ei ,
X(1) : log Distanz, X(2) = 0 für eine Messst., = 1 für andere
−→ Zwei Geraden y = β0 + β1x(1) , y = (β0 + β2) + β1x
(1)
Gleiche Steigung β1 , Geraden sind parallel.
![Page 15: 3 Multiple lineare Regression Modell und Statistik a Y X ... · PDF file3.1. MODELL UND STATISTIK 32 3 Multiple lineare Regression 3.1 Modell und Statistik a Zusammenhang zwischen](https://reader031.fdocuments.net/reader031/viewer/2022021509/5a79a5977f8b9ade698dce93/html5/thumbnails/15.jpg)
3.2. VIELFALT DER FRAGESTELLUNGEN 46
3.2
e 4 Messstellen −→ Indikatorvariable für Gruppen j :
x(j)i =
{1 falls i-te Beobachtung aus der j-ten Gruppe
0 sonst.
Modell:
Yi = µ1x(1)i + µ2x
(2)i + . . .+ Ei
Setzt man µj = βj , so steht das multiple Regressionsmodell da,
allerdings ohne Achsenabschnitt β0 .
Nominale Eingangs-Var., ` Werte −→ verwandeln in ` dummy variables.
![Page 16: 3 Multiple lineare Regression Modell und Statistik a Y X ... · PDF file3.1. MODELL UND STATISTIK 32 3 Multiple lineare Regression 3.1 Modell und Statistik a Zusammenhang zwischen](https://reader031.fdocuments.net/reader031/viewer/2022021509/5a79a5977f8b9ade698dce93/html5/thumbnails/16.jpg)
3.2. VIELFALT DER FRAGESTELLUNGEN 47
3.2
f Modell mit Achsenabschnitt: Parameter nicht eindeutig. Lösung:
– eine „Nebenbedingung" einführen oder
– eine Variable weglassen.
g Coefficients:Value Std. Error t value Pr(> |t|) Signif
(Intercept) 2.51044 0.28215 8.90 0.000 ***log10(dist) -1.33779 0.14073 -9.51 0.000 ***log10(ladung) 0.69179 0.29666 2.33 0.025 *St2 0.16430 0.07494 2.19 0.034 *St3 0.02170 0.06366 0.34 0.735St4 0.11080 0.07477 1.48 0.146
Residual standard error: 0.1468 on 42 degrees of freedomMultiple R-Squared: 0.8322F-statistic: 41.66 on 5 and 42 degrees of freedom, p-value 3.22e-15
![Page 17: 3 Multiple lineare Regression Modell und Statistik a Y X ... · PDF file3.1. MODELL UND STATISTIK 32 3 Multiple lineare Regression 3.1 Modell und Statistik a Zusammenhang zwischen](https://reader031.fdocuments.net/reader031/viewer/2022021509/5a79a5977f8b9ade698dce93/html5/thumbnails/17.jpg)
3.2. VIELFALT DER FRAGESTELLUNGEN 48
2
2
2
2
1
11
1
144
4
4
3
33
3
3
1.60 1.65 1.70 1.75 1.80 1.85 1.90
0.3
0.4
0.5
0.6
0.7
0.8
log10(dist)
log
10
(ers
ch
)
Stelle
1
2
3
4
![Page 18: 3 Multiple lineare Regression Modell und Statistik a Y X ... · PDF file3.1. MODELL UND STATISTIK 32 3 Multiple lineare Regression 3.1 Modell und Statistik a Zusammenhang zwischen](https://reader031.fdocuments.net/reader031/viewer/2022021509/5a79a5977f8b9ade698dce93/html5/thumbnails/18.jpg)
3.2. VIELFALT DER FRAGESTELLUNGEN 49
3.2
h* Notation, Programm-Eingabe:
log10(ersch) ∼ log10(dist) + log10(ladung) + St
j Frage C:
Unterscheiden sich die Stellen überhaupt
in bezug auf die Zielgrösse?
Nullhypothese: Die Koeffizienten der Variablen St2 bis St4 sind alle =0.
k F-Test zum Vergleich von Modellenl Df Sum of Sq RSS F Value Pr(F)
log10(dist) 1 1.947 2.851 90.4 4.9e-12log10(ladung) 1 0.117 1.022 5.44 0.025
Stelle 3 0.148 1.052 2.283 0.093
![Page 19: 3 Multiple lineare Regression Modell und Statistik a Y X ... · PDF file3.1. MODELL UND STATISTIK 32 3 Multiple lineare Regression 3.1 Modell und Statistik a Zusammenhang zwischen](https://reader031.fdocuments.net/reader031/viewer/2022021509/5a79a5977f8b9ade698dce93/html5/thumbnails/19.jpg)
3.2. VIELFALT DER FRAGESTELLUNGEN 50
Funktion regr
Call:regr(formula = log10(ersch) ~ log10(dist) + log10(ladung) + Stelle,
data = t.d)
Terms:coef stcoef signif R2.x df p.value
(Intercept) 2.5104436 0.0000000 4.408963 NA 1 0.0000log10(dist) -1.3377937 -0.7993097 -4.710628 0.24824540 1 0.0000log10(ladung) 0.6917912 0.1510358 1.155520 0.02408888 1 0.0246Stelle NA NA 1.322707 0.08883789 3 0.0930
Coefficients for factors:$Stelle
1 2 3 40.0000000 0.1643009 0.0216981 0.1107950
St.dev.error: 0.1468 on 42 degrees of freedomMultiple R^2: 0.8322 Adjusted R-squared: 0.8122F-statistic: 41.66 on 5 and 42 d.f., p.value: 3.22e-15
![Page 20: 3 Multiple lineare Regression Modell und Statistik a Y X ... · PDF file3.1. MODELL UND STATISTIK 32 3 Multiple lineare Regression 3.1 Modell und Statistik a Zusammenhang zwischen](https://reader031.fdocuments.net/reader031/viewer/2022021509/5a79a5977f8b9ade698dce93/html5/thumbnails/20.jpg)
3.2. VIELFALT DER FRAGESTELLUNGEN 51
3.2
o Einfluss der Stelle: Je eine additive Konstante für jede Stelle.
Verschiedene Steigungen für verschiedene Stellen?
−→ Wechselwirkungen.
p Einfacher Fall: Sind zwei Geraden gleich?
Yi = α+ βxi + ∆αgi + ∆βxigi + Eigi : Gruppenzugehörigkeit
Multiple Regression?
Test für ∆β = 0 oder für ∆α = 0 , ∆β = 0.
![Page 21: 3 Multiple lineare Regression Modell und Statistik a Y X ... · PDF file3.1. MODELL UND STATISTIK 32 3 Multiple lineare Regression 3.1 Modell und Statistik a Zusammenhang zwischen](https://reader031.fdocuments.net/reader031/viewer/2022021509/5a79a5977f8b9ade698dce93/html5/thumbnails/21.jpg)
3.2. VIELFALT DER FRAGESTELLUNGEN 523.2
q X(2) = (X(1))2 −→ quadratische Regression
Yi = β0 + β1xi + β2x2i + Ei .
7.4 7.6 7.8 8.0 8.2 8.4
23
45
67
Höh
e
pH
![Page 22: 3 Multiple lineare Regression Modell und Statistik a Y X ... · PDF file3.1. MODELL UND STATISTIK 32 3 Multiple lineare Regression 3.1 Modell und Statistik a Zusammenhang zwischen](https://reader031.fdocuments.net/reader031/viewer/2022021509/5a79a5977f8b9ade698dce93/html5/thumbnails/22.jpg)
3.2. VIELFALT DER FRAGESTELLUNGEN 53
3.2
r quadratische→ polynomiale Regression.
Spezialfall der multiplen linearen Regression!
Linear in den Koeffizienten!
β0 + β1x(1)i + β2x
(2)i + . . .+ βmx
(m)i
s Optimum der Zielgrösse? −→ nicht monotone Regressionsfunktion
Einfachste Fn: Quadratisch.
2 Eingangs-Variable: Quardatische Fläche:
Y = β0 + β1x(1) + β2x
(2) + β11x(1)2 + β22x
(2)2 + β12x(1)x(2)
βs schätzen, Optimum bestimmen!
![Page 23: 3 Multiple lineare Regression Modell und Statistik a Y X ... · PDF file3.1. MODELL UND STATISTIK 32 3 Multiple lineare Regression 3.1 Modell und Statistik a Zusammenhang zwischen](https://reader031.fdocuments.net/reader031/viewer/2022021509/5a79a5977f8b9ade698dce93/html5/thumbnails/23.jpg)
3.2. VIELFALT DER FRAGESTELLUNGEN 54
3.2
t Das Modell der multiplen linearen Regression
ist sehr flexibel:
• Transformation der X - (und Y -) Variablen:
Linearisieren des Zusammenhangs.
• Vergleich von zwei Gruppen.
• Zwei Geraden. „Wechselwirkungen".
• Mehrere Gruppen, nominale Eingangs-Variable.
Vgl. Varianzanalyse.
• Polynomiale Regression.
![Page 24: 3 Multiple lineare Regression Modell und Statistik a Y X ... · PDF file3.1. MODELL UND STATISTIK 32 3 Multiple lineare Regression 3.1 Modell und Statistik a Zusammenhang zwischen](https://reader031.fdocuments.net/reader031/viewer/2022021509/5a79a5977f8b9ade698dce93/html5/thumbnails/24.jpg)
3.3. 55
3.3a Einfluss mehrerer Eingangsgrössen auf die Zielgrösse
• Multiple Regression
• Mehrere einfache Regressionen: einfacher zu verstehen!
3.3 Ist multiple Regression mehr alsdie Zusammenfassung von einfachen R.?
b Modifiziertes Beispiel der Sprengungen.
Beschränkung auf Stellen 3 und 6, Distanz<100 m, -1 Ausreisser
![Page 25: 3 Multiple lineare Regression Modell und Statistik a Y X ... · PDF file3.1. MODELL UND STATISTIK 32 3 Multiple lineare Regression 3.1 Modell und Statistik a Zusammenhang zwischen](https://reader031.fdocuments.net/reader031/viewer/2022021509/5a79a5977f8b9ade698dce93/html5/thumbnails/25.jpg)
3.3. 56
--- Distanz -----------------------------------------------lm(formula = log10(ersch) ~ log10(dist), data = d.sprmod)Coefficients:
Estimate Std. Error t value Pr(>|t|)(Intercept) 0.8976 0.5736 1.565 0.127log10(dist) -0.1316 0.3260 -0.404 0.689
Residual standard error: 0.2134 on 32 degrees of freedomMultiple R-Squared: 0.00507, Adjusted R-squared: -0.02602F-statistic: 0.1631 on 1 and 32 DF, p-value: 0.689--- Ladung -------------------------------------------------lm(formula = log10(ersch) ~ log10(ladung), data = d.sprmod)Coefficients:
Estimate Std. Error t value Pr(>|t|)(Intercept) 0.1026 0.1938 0.530 0.60011log10(ladung) 1.3359 0.4525 2.952 0.00587 **
Residual standard error: 0.1896 on 32 degrees of freedomMultiple R-Squared: 0.2141, Adjusted R-squared: 0.1895F-statistic: 8.715 on 1 and 32 DF, p-value: 0.005867-----------------------------------------------------------
![Page 26: 3 Multiple lineare Regression Modell und Statistik a Y X ... · PDF file3.1. MODELL UND STATISTIK 32 3 Multiple lineare Regression 3.1 Modell und Statistik a Zusammenhang zwischen](https://reader031.fdocuments.net/reader031/viewer/2022021509/5a79a5977f8b9ade698dce93/html5/thumbnails/26.jpg)
3.3. 57
--- Distanz und Ladung -------------------------------------lm(formula = log10(ersch) ~ log10(dist) + log10(ladung)
+ stelle, data = d.sprmod, na.action = na.omit)Coefficients:
Estimate Std. Error t value Pr(>|t|)(Intercept) 1.193 0.582 2.05 0.0491 *log10(dist) -0.727 0.355 -2.05 0.0495 *log10(ladung) 1.493 0.442 3.38 0.0020 **stelle 0.170 0.086 1.97 0.0580 .
Residual standard error: 0.181 on 30 degrees of freedomMultiple R-Squared: 0.327, Adjusted R-squared: 0.26F-statistic: 4.86 on 3 and 30 DF, p-value: 0.00717-----------------------------------------------------------
Wir erwarten βdist < −1, βlad = 1.
![Page 27: 3 Multiple lineare Regression Modell und Statistik a Y X ... · PDF file3.1. MODELL UND STATISTIK 32 3 Multiple lineare Regression 3.1 Modell und Statistik a Zusammenhang zwischen](https://reader031.fdocuments.net/reader031/viewer/2022021509/5a79a5977f8b9ade698dce93/html5/thumbnails/27.jpg)
3.3. 58
33
3
3
3
3
3
333
6
6
6
66
6
66
6
66
6
66
6
6
6
6
6
6
6
6
6
6
1.60 1.65 1.70 1.75 1.80 1.85 1.90 1.95
0.2
0.4
0.6
0.8
1.0
log10(Distanz)
log1
0(E
rsch
ütte
rung
)
Regr. / Stelleneinfache / beideeinfache / St.3einfache / St.6multiple, f. St.3multiple, f. St.6
![Page 28: 3 Multiple lineare Regression Modell und Statistik a Y X ... · PDF file3.1. MODELL UND STATISTIK 32 3 Multiple lineare Regression 3.1 Modell und Statistik a Zusammenhang zwischen](https://reader031.fdocuments.net/reader031/viewer/2022021509/5a79a5977f8b9ade698dce93/html5/thumbnails/28.jpg)
3.3. 59
3.3
c Interpretation:
Höhere Distanz↔ andere Stelle, höhere Ladung
−→ etwa gleiche Erschütterung.
d Künstliches Bsp: Eine kontinuierliche X(1) und eine binäre X(2) .
![Page 29: 3 Multiple lineare Regression Modell und Statistik a Y X ... · PDF file3.1. MODELL UND STATISTIK 32 3 Multiple lineare Regression 3.1 Modell und Statistik a Zusammenhang zwischen](https://reader031.fdocuments.net/reader031/viewer/2022021509/5a79a5977f8b9ade698dce93/html5/thumbnails/29.jpg)
3.3. 60
0 1 2 3 4 5 6 7
02
46
X(1)
Y
(A)
![Page 30: 3 Multiple lineare Regression Modell und Statistik a Y X ... · PDF file3.1. MODELL UND STATISTIK 32 3 Multiple lineare Regression 3.1 Modell und Statistik a Zusammenhang zwischen](https://reader031.fdocuments.net/reader031/viewer/2022021509/5a79a5977f8b9ade698dce93/html5/thumbnails/30.jpg)
3.3. 61
0 1 2 3 4 5 6 7
02
46
X(1)
Y
(A)
estimates from multiple model
![Page 31: 3 Multiple lineare Regression Modell und Statistik a Y X ... · PDF file3.1. MODELL UND STATISTIK 32 3 Multiple lineare Regression 3.1 Modell und Statistik a Zusammenhang zwischen](https://reader031.fdocuments.net/reader031/viewer/2022021509/5a79a5977f8b9ade698dce93/html5/thumbnails/31.jpg)
3.3. 62
0 1 2 3 4 5 6 7
02
46
X(1)
Y
(A)
estimates from simple models
![Page 32: 3 Multiple lineare Regression Modell und Statistik a Y X ... · PDF file3.1. MODELL UND STATISTIK 32 3 Multiple lineare Regression 3.1 Modell und Statistik a Zusammenhang zwischen](https://reader031.fdocuments.net/reader031/viewer/2022021509/5a79a5977f8b9ade698dce93/html5/thumbnails/32.jpg)
3.3. 63
0 1 2 3 4 5 6 7
−2
02
46
X(1)
Y
(B)
estimates from multiple model
![Page 33: 3 Multiple lineare Regression Modell und Statistik a Y X ... · PDF file3.1. MODELL UND STATISTIK 32 3 Multiple lineare Regression 3.1 Modell und Statistik a Zusammenhang zwischen](https://reader031.fdocuments.net/reader031/viewer/2022021509/5a79a5977f8b9ade698dce93/html5/thumbnails/33.jpg)
3.3. 64
0 1 2 3 4 5 6 7
−20
24
6
X(1)
Y
(B)
![Page 34: 3 Multiple lineare Regression Modell und Statistik a Y X ... · PDF file3.1. MODELL UND STATISTIK 32 3 Multiple lineare Regression 3.1 Modell und Statistik a Zusammenhang zwischen](https://reader031.fdocuments.net/reader031/viewer/2022021509/5a79a5977f8b9ade698dce93/html5/thumbnails/34.jpg)
3.3. 65
0 1 2 3 4 5 6 7
02
46
8
X(1)
Y
(C)
![Page 35: 3 Multiple lineare Regression Modell und Statistik a Y X ... · PDF file3.1. MODELL UND STATISTIK 32 3 Multiple lineare Regression 3.1 Modell und Statistik a Zusammenhang zwischen](https://reader031.fdocuments.net/reader031/viewer/2022021509/5a79a5977f8b9ade698dce93/html5/thumbnails/35.jpg)
3.3. 66
0 1 2 3 4 5 6 7
−3−2
−10
1
X(1)
Y
(D)
![Page 36: 3 Multiple lineare Regression Modell und Statistik a Y X ... · PDF file3.1. MODELL UND STATISTIK 32 3 Multiple lineare Regression 3.1 Modell und Statistik a Zusammenhang zwischen](https://reader031.fdocuments.net/reader031/viewer/2022021509/5a79a5977f8b9ade698dce93/html5/thumbnails/36.jpg)
3.3. 67
0 1 2 3 4 5 6 7
02
46
Y
(A)
X2=0X2=1
0 1 2 3 4 5 6 7
−20
24
6
(B)
0 1 2 3 4 5 6 7
02
46
8
X(1)
Y
(C)
0 1 2 3 4 5 6 7
−3−2
−10
1
X(1)
(D)
Die Bedeutung der Regressionskoeffizienten hängt prinzipiell davon ab,
welche Eingangsgrössen im Modell auftreten!
![Page 37: 3 Multiple lineare Regression Modell und Statistik a Y X ... · PDF file3.1. MODELL UND STATISTIK 32 3 Multiple lineare Regression 3.1 Modell und Statistik a Zusammenhang zwischen](https://reader031.fdocuments.net/reader031/viewer/2022021509/5a79a5977f8b9ade698dce93/html5/thumbnails/37.jpg)
3.3. 683.3
e Ursache-Wirkungs-Beziehungen?!.
Indizien für solche Beziehungen sammeln!
βj signifikant, Ursache-Wirkungs-Beziehung plausibel
−→ „Nachweis" der Wirkung (?)
Achtung: indirekte Wirkungen sind möglich!
• X(1) −→ Z −→ Y .
• Z −→ X(1) ; Z −→ Y .
Z im Modell −→ keine indirekten Wirkungen.
−→ „alle denkbaren" ursächlichen Var. ins Modell aufnehmen!
Besser:
• geplante Versuche,
• Nachweis eines Wirkungs-Mechanismus.
![Page 38: 3 Multiple lineare Regression Modell und Statistik a Y X ... · PDF file3.1. MODELL UND STATISTIK 32 3 Multiple lineare Regression 3.1 Modell und Statistik a Zusammenhang zwischen](https://reader031.fdocuments.net/reader031/viewer/2022021509/5a79a5977f8b9ade698dce93/html5/thumbnails/38.jpg)
3.3. 69
3.3
i βj nicht signifikant −→ kein Einfluss! ???
• Nullhypothese kann man nicht beweisen
• Ursächlicher Effekt kompensiert durch
gegensätzlichen Effekt einer korrelierten Einflussgrösse.
• Einfluss nicht-linear.
j Deshalb:
• möglichst alle möglichen ursächlichen Grössen
ins Modell aufnehmen,
• die Linearität der Zusammenhänge überprüfen
(s. Residuenanalyse),
• ein Vertrauensintervall für den Koeffizienten liefern
– statt eines P-Wertes.
![Page 39: 3 Multiple lineare Regression Modell und Statistik a Y X ... · PDF file3.1. MODELL UND STATISTIK 32 3 Multiple lineare Regression 3.1 Modell und Statistik a Zusammenhang zwischen](https://reader031.fdocuments.net/reader031/viewer/2022021509/5a79a5977f8b9ade698dce93/html5/thumbnails/39.jpg)
3.3. 70
3.3
k Indirekte Einflüsse können nicht vorkommen,
wenn X(j) und Z nicht zusammenhängen
(unkorreliert oder orthogonal sind).
Schätzung von βj im multiplen und im einfachen Modell
sind dann gleich.
l Multiples Modell ist trotzdem sehr nützlich:
Kleinere Residuenstreuung σ
−→ kürzere Vertrauensintervalle.
m Zusammenfassend: Ein multiples Regressionsmodell
sagt mehr aus als viele einfache Regressionen –
im Falle von korrelierten Eingangsgrössen viel mehr.
![Page 40: 3 Multiple lineare Regression Modell und Statistik a Y X ... · PDF file3.1. MODELL UND STATISTIK 32 3 Multiple lineare Regression 3.1 Modell und Statistik a Zusammenhang zwischen](https://reader031.fdocuments.net/reader031/viewer/2022021509/5a79a5977f8b9ade698dce93/html5/thumbnails/40.jpg)
3.3. 71
Merkpunkte Multiple Regression
1. Die multiple lineare Regression bildet ein reichhaltiges Modell
mit vielen Anwendungen.
2. Mit Transformationen, quadrat. Termen, Wechselwirkungen
kann man nicht-lineare Beziehungen der Variablen modellieren!
3. Multiple Regression führt zu einer viel aussagekräftigeren Analyse
als viele einfache Regressionen.
4. Mit Regression allein kann man keine Ursache – Wirkungsbeziehungen
beweisen.
![Page 41: 3 Multiple lineare Regression Modell und Statistik a Y X ... · PDF file3.1. MODELL UND STATISTIK 32 3 Multiple lineare Regression 3.1 Modell und Statistik a Zusammenhang zwischen](https://reader031.fdocuments.net/reader031/viewer/2022021509/5a79a5977f8b9ade698dce93/html5/thumbnails/41.jpg)
3.4. S-FUNKTIONEN 72
3.4 S-Funktionena
> r.lm <− lm(log10(ersch) ∼ log10(dist),
data = d.spreng)
b Fehlende Werte
Einfachste Behandlung: Zeilen mit ≥ 1 fehlenden Wert weglassen.
lm(..., na.action=na.omit, ...)
c summary(r.lm,cor=FALSE)
wird gebraucht, um Resultate anzuschauen.
d drop1(r.lm, test="F") . Faktoren prüfen. F-Test.
! anova , summary für aov -Objekte macht andere Tests ...
![Page 42: 3 Multiple lineare Regression Modell und Statistik a Y X ... · PDF file3.1. MODELL UND STATISTIK 32 3 Multiple lineare Regression 3.1 Modell und Statistik a Zusammenhang zwischen](https://reader031.fdocuments.net/reader031/viewer/2022021509/5a79a5977f8b9ade698dce93/html5/thumbnails/42.jpg)
3.4. S-FUNKTIONEN 73
3.4
e Funktion regr . Argumente wie lm
• braucht kein summary ,
• prüft Faktoren ohne Aufruf von drop1 ,
• zeigt neue Grösse „signif", mit der man Vertrauensintervalle
einfach berechnen kann,
• liefert weitere nützliche Grössen stcoef und R2.x ,
• wird für viele weitere Modelle brauchbar sein.
![Page 43: 3 Multiple lineare Regression Modell und Statistik a Y X ... · PDF file3.1. MODELL UND STATISTIK 32 3 Multiple lineare Regression 3.1 Modell und Statistik a Zusammenhang zwischen](https://reader031.fdocuments.net/reader031/viewer/2022021509/5a79a5977f8b9ade698dce93/html5/thumbnails/43.jpg)
3.4. S-FUNKTIONEN 74
R-Funktionen
a Im package stat (immer vorhanden): lm
> r.lm <− lm(log10(ersch) ∼ log10(dist),
data = d.spreng)
![Page 44: 3 Multiple lineare Regression Modell und Statistik a Y X ... · PDF file3.1. MODELL UND STATISTIK 32 3 Multiple lineare Regression 3.1 Modell und Statistik a Zusammenhang zwischen](https://reader031.fdocuments.net/reader031/viewer/2022021509/5a79a5977f8b9ade698dce93/html5/thumbnails/44.jpg)
3.4. S-FUNKTIONEN 75
b Funktion summary produziert Resultate, die man üblicherweise will.
> summary(r.lm)
Genauer: print zeigt die Resultate.
(„generic function", „method" print.summary.lm )
> r.lms <− summary(r.lm)
> str(r.lms)
enthält u.a. $sigma, $R.square, ...
r.lm$coef : geschätzte Koeffizienten
r.lms$coef : Tabelle mit Std. Error, t value und P-Wert
![Page 45: 3 Multiple lineare Regression Modell und Statistik a Y X ... · PDF file3.1. MODELL UND STATISTIK 32 3 Multiple lineare Regression 3.1 Modell und Statistik a Zusammenhang zwischen](https://reader031.fdocuments.net/reader031/viewer/2022021509/5a79a5977f8b9ade698dce93/html5/thumbnails/45.jpg)
3.4. S-FUNKTIONEN 76
c Funktion drop1: Signifikanz von „Faktoren" testen.
d Funktion predict: Generische Funktion, Hilfe durch ?predict.lm
> predict(r.lm)
> t.pred <− predict(r.lm,
newdata=data.frame(dist=seq(20,150,10)),
interval="prediction")
e Funktion plot: Residuen-Analyse, 4 Diagramme (s. später)
![Page 46: 3 Multiple lineare Regression Modell und Statistik a Y X ... · PDF file3.1. MODELL UND STATISTIK 32 3 Multiple lineare Regression 3.1 Modell und Statistik a Zusammenhang zwischen](https://reader031.fdocuments.net/reader031/viewer/2022021509/5a79a5977f8b9ade698dce93/html5/thumbnails/46.jpg)
3.4. S-FUNKTIONEN 77
3.4
f Mühsam? −→ Package regr0 , Funktiion regr .
> r.regr <− regr(log10(ersch) ∼ log10(dist)+
log10(ladung)+Stelle, data = d.spreng,
subset = as.numeric(Stelle) <= 4)
Wie lm zu verwenden.
• Ruft lm, summary und drop1 auf und sammelt Ergebnisse.
• Gleicher Aufruf für verschiedene Modelle.
• Erweiterte Residuen-Analyse durch plot.regr
![Page 47: 3 Multiple lineare Regression Modell und Statistik a Y X ... · PDF file3.1. MODELL UND STATISTIK 32 3 Multiple lineare Regression 3.1 Modell und Statistik a Zusammenhang zwischen](https://reader031.fdocuments.net/reader031/viewer/2022021509/5a79a5977f8b9ade698dce93/html5/thumbnails/47.jpg)
3.4. S-FUNKTIONEN 78
> r.regrCall:regr(formula = log10(ersch) ~ log10(dist) + log10(ladung) + Stelle,
data = d.spreng, subset = as.numeric(Stelle) <= 4)Fitting function: lm
Terms:coef stcoef signif R2.x df p.value
(Intercept) 2.510 NA 4.409 NA 1 NAlog10(dist) -1.338 -0.686 -4.711 0.435 1 0.000log10(ladung) 0.692 0.150 1.156 0.048 1 0.025Stelle NA NA 0.899 0.170 3 0.093
Coefficients for factors:$Stelle
1 2 3 40.0000 0.1643 0.0217 0.1108
St.dev.error: 0.147 on 42 degrees of freedomMultiple R^2: 0.832 Adjusted R-squared: 0.812F-statistic: 41.7 on 5 and 42 d.f., p.value: 3.22e-15
![Page 48: 3 Multiple lineare Regression Modell und Statistik a Y X ... · PDF file3.1. MODELL UND STATISTIK 32 3 Multiple lineare Regression 3.1 Modell und Statistik a Zusammenhang zwischen](https://reader031.fdocuments.net/reader031/viewer/2022021509/5a79a5977f8b9ade698dce93/html5/thumbnails/48.jpg)
3.4. S-FUNKTIONEN 793.4
g Resultate von regr
• Aufruf
• Haupttabelle, s. unten
• Falls Faktoren vorkommen, folgen ihre geschätzten Koeffiz.
• Tabelle mit
St.dev.error = σ , Freiheitsgr. der Residuen
Multiple Rˆ2 R2 und Adjusted R-squared
F-statistic : Gesamttest, mit Freiheitsgraden und P-Wert
• Falls correlation=TRUE , folgt die Korr.mx der βj
![Page 49: 3 Multiple lineare Regression Modell und Statistik a Y X ... · PDF file3.1. MODELL UND STATISTIK 32 3 Multiple lineare Regression 3.1 Modell und Statistik a Zusammenhang zwischen](https://reader031.fdocuments.net/reader031/viewer/2022021509/5a79a5977f8b9ade698dce93/html5/thumbnails/49.jpg)
3.4. S-FUNKTIONEN 803.4
h „Haupttabelle" hat die Spalten
• coef: gesch. Koeffiz. βj (ausser Faktoren)
• stcoef: standardisierte Koeffiz. β∗j = βj · sd〈X(j)〉/sd〈Y 〉,
• R2.x: Mass R2j für Kollinearität (später)
• df: Anzahl Freiheitsgrade, für Faktoren > 1
• signif: = T/q(tk)0.975 ,
Quotient t-Test-Statistik / Signifikanzgrenze.
βj = 0 abgelehnt, wenn signif > 1.
Faktoren: eine analoge Grösse
• p value .
![Page 50: 3 Multiple lineare Regression Modell und Statistik a Y X ... · PDF file3.1. MODELL UND STATISTIK 32 3 Multiple lineare Regression 3.1 Modell und Statistik a Zusammenhang zwischen](https://reader031.fdocuments.net/reader031/viewer/2022021509/5a79a5977f8b9ade698dce93/html5/thumbnails/50.jpg)
3.4. S-FUNKTIONEN 81
3.4
i Modell-Formeln
log10(ersch) ∼ log10(dist) + log10(ladung) + Stelle
Modell-Formeln allgemein
Klasse von S-Objekten, charakerisiert durch ∼Regression: Zielgrösse ∼ Regressor-Terme
Y ∼ X1 + X2 sieht wie Mathematik aus!
Bedeutet in der lin. Regression:
Yi = β0 + β1X(1)i + β2X
(2)i + Ei
Syntax hat eigene Regeln, die
nicht immer den math. Zeichen entsprechen!
![Page 51: 3 Multiple lineare Regression Modell und Statistik a Y X ... · PDF file3.1. MODELL UND STATISTIK 32 3 Multiple lineare Regression 3.1 Modell und Statistik a Zusammenhang zwischen](https://reader031.fdocuments.net/reader031/viewer/2022021509/5a79a5977f8b9ade698dce93/html5/thumbnails/51.jpg)
3.4. S-FUNKTIONEN 82
3.4
j Zielgrösse ∼ Regressor-Terme
Terme (rechte Seite):
– quantitative Variable
– Faktor
– Funktion von Eingangsvariablen
– Wechselwirkung zwischen solchen Termen
Linke Seite:
– Funktionen von (einzelnen) Variablen
– mehrere Variable (logistische, multivariate, ... Regr.)
– fehlt für multivariate Verfahren (Hauptkomponenten, ...)
![Page 52: 3 Multiple lineare Regression Modell und Statistik a Y X ... · PDF file3.1. MODELL UND STATISTIK 32 3 Multiple lineare Regression 3.1 Modell und Statistik a Zusammenhang zwischen](https://reader031.fdocuments.net/reader031/viewer/2022021509/5a79a5977f8b9ade698dce93/html5/thumbnails/52.jpg)
3.4. S-FUNKTIONEN 83
3.4
k Viele Funktionen brauchen Formeln.
plot(formula,...) benützt linke Seite vertikal, rechte horiz.
l Erweiterung: Y∼X|Z– coplot
– gemischte Modelle der Varianzanalyse. Ausserdem:
Y∼X|Z, Y∼X/Z, Y∼X%in%Z
m Wo werden Variable gesucht?
Funktionen, die formula als Argument haben, haben auch data .
Variable in der Formel sollen Spalten-Namen von data sein.
... sonst wird im search -Pfad gesucht, also zuerst im akt. workspace.
![Page 53: 3 Multiple lineare Regression Modell und Statistik a Y X ... · PDF file3.1. MODELL UND STATISTIK 32 3 Multiple lineare Regression 3.1 Modell und Statistik a Zusammenhang zwischen](https://reader031.fdocuments.net/reader031/viewer/2022021509/5a79a5977f8b9ade698dce93/html5/thumbnails/53.jpg)
3.4. S-FUNKTIONEN 843.4
n Abkürzungen
• Y∼., data=t.d
. steht für „alle anderen Variablen" (untransformiert)
• Wechselwirkungen:
X1 * X2 ⇐⇒ X1 + X2 + X1:X2
• ( X1 + X2 + X3 )ˆ2 :
alle Haupteffekte & alle Wechselwirk. 1. Ord.
o Komplikation: Die Zeichen +, *, ˆ haben eine neue Bedeutung.
Manchmal möchte man die ursprüngliche Bedeutung haben.
−→ Funktion I(...) : ... nicht als Formel interpretieren!
I(X1ˆ2) , I(X1*(X2-4))
(Innerhalb von Funktionen unnötig, z.B. + sqrt(X1ˆ2+X2ˆ2) )