Logistische Regression Prof. Dr. Stein - uni-due.de · PDF fileOdds >1 geben an, dass es...

GrundideeInterpretation der Regressionskoeffizienten

ModellschatzungModellgute

SPSS/STATA

Multivariate AnalyseverfahrenLogistische Regression

Prof. Dr. Stein

14.01.2014 & 20.01.2014

1 / 62



SPSS/STATA

Inhaltsverzeichnis

1 Grundidee

2 Interpretation der Regressionskoeffizienten

3 Modellschatzung

4 Modellgute

5 SPSS/STATA

2 / 62



SPSS/STATA

Der Erklarungsgegenstand

Soziale Forschungsgegenstande sind haufig eherdiskreter/qualitativer Natur als metrischer/quantitativer Art:

Elternschaft

Heirat

Scheidung

Eintritt/Austritt in/aus Arbeitslosigkeit

Einkommensverluste bis unter die Armutsgrenze

Wahl einer bestimmten Partei/Person

Begehen einer Straftat

. . .

3 / 62



SPSS/STATA

Der Erklarungsgegenstand

Auf Ebene der Variablenumsetzung . . .

. . . nehmen soziale Erklarungsgegenstande dieser Art dieForm einer dichotomenen Variable an

. . . weisen soziale Erklarungsgegenstande dieser Art dienumerischen Werte 0 und 1 auf.

Vorteile:

1 Der Mittelwert gleicht dann dem Anteil der Falle, welcheden Wert 1 aufweisen.

2 Der Mittelwert kann dann als Wahrscheinlichkeitinterpretiert werden.

4 / 62



SPSS/STATA

Multiple Regression?

”Naive” Voruberlegung - Verwendung linearer Regression:

scheinbar brauchbare Interpretation

zugrunde liegende Funktionsform wird als linearangenommen

Probleme:

nicht-lineare Funktionsform

Verletzung weiterer Modellpramissen der linearenRegression

5 / 62



SPSS/STATA


6 / 62



SPSS/STATA


7 / 62



SPSS/STATA


Zwischenresumee I:

Eine lineare Funktionsform fur die Abbildung desZusammenhangs anzunehmen ist unangemessen. Jeglichelineare Funktionsgleichung wird die Grenzwerte (0 & 1)wahrscheinlich uber-/unterschreiten.

8 / 62



SPSS/STATA

Funktionsform?

9 / 62



SPSS/STATA

Funktionsform?

10 / 62



SPSS/STATA


Zwischenresumee II:Der Zusammenhang zwischen quantitativen/qualitativenunabhangigen Merkmalen und einem dichotomen abhangigenMerkmal wird durch eine S-Form adaquat abgebildet.

Charakteristika:

Annahernd linearer Zusammenhang im mittleren Bereichder statistischen Beziehung

Kleiner werdende Effekte (bei einem Fortschreiten auf derunabhangigen Variable um eine Einheit) in denGrenzbereichen des statistischen Zusammenhangs.

11 / 62



SPSS/STATA

Probleme stat. Inferenz

Ausgangspunkt:Eine Dummy-Variable kann lediglich zwei numerische Werte(0/1) annehmen. Dementsprechend, konnen auch nur zweiResidualwerte fur jeden X-Wert vorliegen.

1− (b0 + b1Xi), wenn Yi = 1

0− (b0 + b1Xi), wenn Yi = 0

Folgen:

1. Verletzung der Annahme der Normalverteilung derResiduen.

2. Verletzung der Annahme der Homoskedastizitat derResiduen.

12 / 62



SPSS/STATA

Logistische Regression

Anforderungen an die Transformation von Y:

Wertebereich der Vorhersagewerte zwischen 0 und 1

Annahme einer S-formigen Verlausfskurve

Sinkende Effekte von X auf Y an den Enden/Extremender Verlaufskurve

13 / 62



SPSS/STATA

Logistische Regression

Losung:

Li = ln[Pi/(1− Pi)]

Mit:Pi : Wahrscheinlichkeit des Eintretens des Ereignisses i

Vorgehen:

1 Bildung der Odds

2 Logarithmierung der Odds

14 / 62



SPSS/STATA

Odds

Odds drucken die Chance, des Eintreten eines Ereignisses, imVerhaltnis zu dem Nicht-Eintreten des Ereignisses auf.

Formal:Oi = Pi/(1− Pi)


15 / 62



SPSS/STATA

Odds

Charakteristika:

Pi 0.01 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 0.99

1 - Pi 0.99 0.9 0.8 0.7 0.6 0.5 0.4 0.3 0.2 0.1 0.01

Odds 0.01 .111 0.25 0.429 0.667 1 1.5 2.33 4 9 99

Ist die Wahrscheinlichkeit des Eintretens und desNicht-Eintretens eines Ereignisses gleich groß, nehmenOdds den Wert 1 an.

keine numerische Obergrenze von 1

immer noch: numerische Untergrenze von 0

16 / 62



SPSS/STATA

Odds

Interpretation

Odds > 1 geben an, dass es wahrscheinlicher ist, dass dasEreignis eintritt als dass es nicht eintritt.

Odds von 1 geben an, dass auf ein Nicht-Eintreten desEreignisses ein Eintreten des Ereignisses zu erwarten ist.

Odds < 1 geben an, dass es wahrscheinlicher ist, das dasEreignis nicht eintritt als dass es eintritt.

17 / 62



SPSS/STATA

Odds Ratio

Vergleich von Odds

Da Odds proportional ansteigen, konnen sie per Divisionmiteinander verglichen werden:

OddsRatio = OiOj

Es gilt:

OddsRatio > 1: die Odds der ersten Gruppe sind um x mal hoher alsin der zweiten Gruppe

OddsRatio = 1: die Odds der ersten Gruppe und zweiten Gruppesind gleich

OddsRatio < 1: die Odds der ersten Gruppe sind um x mal geringerals in der zweiten Gruppe

18 / 62



SPSS/STATA

Odds

Zwischenresumee:

Odds stellen den ersten Transformationsschritt der logistischenRegression dar.

Odds liefern eine inhaltlich sinnvolle Interpretation fur dieWahrscheinlichkeit von Ereignissen.

Odds verfugen uber keine numerische Grenze in ihremWertebereich von 1

19 / 62



SPSS/STATA

Logarithmierte Odds

Die Logarithmierung der Odds eliminiert die untere Grenze imWertebereich.

Formal:Li = ln[Pi/(1− Pi)]


20 / 62



SPSS/STATA

Logarithmierte Odds

Es gilt:

Odds zwischen 0 und 1 entsprechen einem negativenWert der logarithmierten Odds.

Odds = 1 entsprechen dem Wert 0 der logarithmiertenOdds

Odds > 1 entsprechen positiven Werten derlogarithmierten Odds

21 / 62



SPSS/STATA

Logarithmierte Odds

Charakteristika:

Pi 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9

1 - Pi 0.9 0.8 0.7 0.6 0.5 0.4 0.3 0.2 0.1

Odds 0.111 0.25 0.429 0.667 1 1.5 2.33 4 9

Logit -2.20 -1.39 -0.847 -0.405 0 0.405 0.847 1.39 2.20

Symmetrie um den Mittelpunkt (Wahrscheinlichkeit von0.5)

Gleiche Anderungen in Wahrscheinlichkeiten fuhren zuverschiedenen Veranderungen in den LogarithmiertenOdds.

Keine numerische Ober- oder Untergrenze22 / 62



SPSS/STATA

Zusammenfassung

Linearizing the Nonlinear

Die logarithmische Transformation . . .. . . eliminiert die obere und untere Grenzwerte der

dichotomen Variable Y.. . . erweitert/streckt die Wahrscheinlichkeiten von Y an

seinen Extremwertenen im Verhaltnis zu dem Mittelpunkt.

Folge:Der vormals nicht-lineare Zusammenhang wurde in einenlinearen transformiert. Gleiche Veranderungen in X fuhren nunzu ahnlichen Effektveranderungen in Y.

23 / 62



SPSS/STATA

Zusammenfassung

Linearizing the Nonlinear

Die Linearisierung des nicht linearen Zusammenhangs fuhrt zueiner Verschiebung der Interpretation der Koeffizienten wegvon Wahrschenlichkeiten hin zu logarithmierten Odds.

Vorteil

Sparsamkeit:Lineare Zusammenhangekonnen uber einenKoeffizienten charakterisiertwerden.

Nachteil

Verlust einer einfachen,”intuitiven” Interpretation.

24 / 62



SPSS/STATA

Ubersicht

Logarithmierte Odds

Wahrscheinlichkeiten

Odds

- linear und additiv

- wenig intuitive Bedeutung derSkaleninterpretation

- Ausdruck der Beziehung in einem Koeffizienten

- nicht linearer, nicht additiver Zusammenhang

- intuitive Bedeutung der Skaleninterpretation

- mehrere Koeffizienten notwendig; Abhangigkeitdes Zusammenhangs vom gewahltenReferenzpunkt

- Mittelpunkt als moglicher Referenzpunkt

- intuitivere Bedeutung der Skaleninterpretation alslogarithmierte Odds

- multiplikativer Zusammenhang

- Ausdruck der Beziehung in einem Koeffizienten

25 / 62



SPSS/STATA

Logarithmierte Odds

Die Koeffizienten, welche direkt aus der logistischenRegression beobachtet werden, zeigen die Veranderung in denvorhergesagten logarithmierten Odds hinsichtlich desEintretens eines Ereignisses, wenn sich der Wert derunabhangigen Variable um eine Einheit erhoht.

Die Koeffizienten der logistischen Regression sind aquivalentzur linearen Regression interpretierbar. Sie beziehen sichallerdings auf logarithmierte Odds.

26 / 62



SPSS/STATA

Logarithmierte Odds

Unabhangige Dummy-Variablen:

Die Steigerung des Werte der unabhangigen Variablenvergleicht - wie in der linearen Regression - die Referenz- undVergleichsgruppe miteinander.

27 / 62



SPSS/STATA

Odds

Expontentialisieren beider Seiten der logistischen Regressionlost den Logarithmus auf und bringt so den Einfluss derVariable auf die Odds zum Ausdruck.

ln(P/1− P) = b0 + b1X1 + b2X2

e ln(P/1−P) = eb0+b1X1+b2X2

P/1− P = eb0 ∗ eb1X1 ∗ eb2X2

28 / 62



SPSS/STATA

Odds

Konsequenzen fur die Interpretation:Der Koeffizient spiegelt den Effekt wider, wenn alleanderen Variablen den Wert 1 annehmen.Positive Exponenten schlagen sich in Werten > 1 nieder.Negative Exponenten schlagen sich in Werten < 1 nieder.

Es gilt:Koeffizient > 1: die Variable steigert die Odds,

dass ein Ereignis eintritt.Koeffizient = 1: die Variable hat keinen Einfluss darauf, dass

ein Ereignis eintritt.Koeffizient < 1: die Variable vermindert die Odds, dass ein

Ereignis eintritt.29 / 62



SPSS/STATA

Odds

Interpretation in Prozent:Da der Abstand des Koeffizienten von 1 die Starke desEffektes zum Ausdruck bringen, kann seine Interpretationfolgendermaßen variiert werden:

%∆ = (eb − 1) ∗ 100

Ein Koeffizient von 1.14 bringt demnach zum Ausdruck, dassdie Odds des Eintretens eines Ereignisses um 14% großer sindbei einem Anstieg der unabhangigen Variable um eine Einheit.

30 / 62



SPSS/STATA

Signifikanztest

Signifikanztest STATA:

Basis fur den Signifikanztest ist die Große des Koeffizientin Relation zu seinem Standardfehler:Formal:

bSb

Z-Verteilung

! vorausgesetzte Stichprobengroße von mindestens 100Beobachtungen

31 / 62



SPSS/STATA

Signifikanztest

Signifikanztest SPSS:

Wald-Statistik als Signifikanztest

Grundlage ist die Große des quadrierten Koeffizienten inRelation zu seinem Standardfehler:Formal:

b2

Sb

! vorausgesetzte Stichprobengroße von mindestens 100Beobachtungen

! Mit großer werdender, absoluten Große von b leidet derWald-Test an Prazision.

- Losung: Vergleich der Log Likelihood Ratios der Modelle mitund ohne die erklarende Variable.

32 / 62



SPSS/STATA

Signifikanztest

Baysian information criterion (BIC):

Ausgangspunkt: Anfalligkeit der Signifikanz inAbhangigkeit des Stichprobenumfang.

Folge: Wenig Verlasslichkeit bzgl. Starke und Relevanzder jeweiligen Signifikanz.

Der z-wert sollte Logarithmus des Stichprobenumfangsuberschreiten:Formal

BIC = z2 − ln(n)

33 / 62



SPSS/STATA

Signifikanztest

Interpretation - eine Orientierung (BIC):

BIC = 0: der Einschluss der erklarenden Variablen in das Modellerweist sich als nicht sinnvoll.

BIC 0-2: Signifikanz des Koeffizienten ist in seiner Starkeund Bedeutung schwach

BIC 2-6: Signifikanz des Koeffizienten ist in seiner Starke undBedeutung zufriedenstellend

BIC 6-10: Signifikanz des Koeffizienten ist in seiner Starke undBedeutung stark

BIC > 10: Signifikanz des Koeffizienten ist in seiner Starke undBedeutung sehr stark

34 / 62



SPSS/STATA

Standardisierte Koeffizienten

Die Effekte der logistsichen Regression sind abhangig von derSkalierung der jeweiligen Variablen. Sie sind daher nicht direktmiteinander vergleichbar.

Standardisierte Koeffizienten in SPSS:

Partieller Korrelationskoeffizient abgleitet aus derWaldstatistik und dem baseline log likelihood ratio

Wertebereich zwischen -1 und +1

35 / 62



SPSS/STATA

Ein Beispiel

Erklarungsgegenstand ist der Umstand, ob eine Person raucht(1) oder nicht (0). Insgesamt gehen vier Merkmale in dieModellierung ein:

Bildung (in Jahren)

Alter

Geschlecht (Frau: 1; Mann: 0)

Famlienstand (Verheiratet: 1; nicht verheiratet: 0)

Datengrundlage ist der General Social Survey (GSS) 1994

36 / 62



SPSS/STATA

Ein Beispiel

Auszug aus dem SPSS-Output

Variable B S.E. Wald df Sig. B∗ Exp(B)

Bildung -0.2085 0.0382 29.8742 1 0.0000 -0.2153 0.8118Alter -0.0341 0.0067 26.1222 1 0.0000 -0.2003 0.9665Familienstand -0.03746 0.2112 3.14441 1 0.0762 -0.0436 0.6875Geschlecht 0.0964 0.2126 0.2056 1 0.6502 0.000 1.1012Konstante 3.3666 0.6478 27.0112 1 0.0000

37 / 62



SPSS/STATA

MLH

Als optimale Schatzer fur α und β gelten die Werte, welchedie beobachteten Werte von Y in der Stichprobe mit derhochsten Wahrscheinlichkeit reproduzieren.

→ OLS: Minimierung der Residuenquadrate

Iteratives Schatzverfahren:Verschiedene Parameterwerte werden schrittweise ausprobiert.Das Vorgehen wird dann abgebrochen, wenn sich dieWahrscheinlichkeit, die Daten zu reproduzieren im Vergleichzum vorigen Iterationsschritt nicht mehr gesteigert wird.

38 / 62



SPSS/STATA

MLH

Der Likelihood-Wert fur die beobachtete Y-Verteilung imSample ...

N = n1 + n2

Mit:n1: Personen, die das Ereignis Y = 1 realisiert habenn2: Personen, die das Ereignis Y = 0 realisiert haben

39 / 62



SPSS/STATA

MLH

... ergibt sich aus der Multiplikation derEinzelwahrscheinlichkeiten in der Likelihood-Funktion:

L(π) = (π1)(Y1)× (π2)(Y2) · · · × (πn1)(Yn1)× (1− πn1+1)(Yn1+1)

×(1− πn+2)(Yn+2)× · · · × (πn1+n2)(Yn1+n2)

Mit:π: wahre Wahrscheinlichkeit, mit der eine bestimmte Person das

Ereignis Yi = 1 realisiert1− π: wahre Wahrscheinlichkeit, mit der eine bestimmte Person das

Ereignis Yi = 0 realisiert

40 / 62



SPSS/STATA

MLH

Alternativ:

L(π) =

(n1∏i=1

(πi)(Yi)

)×(

n1+n2∏i=n1+1

(1− πi)(1− Yi)

)

Durch Logarithmierung ist die so genannteLog-Likelihood-Funktion definiert als:

LL(π) =

(n1∑i=1

ln(πi)(Yi)

)×(

n1+n2∑i=n1+1

ln(1− πi)(1− Yi)

)

41 / 62



SPSS/STATA

MLH

Die wahre Wahrscheinlichkeit π, mit der eine bestimmtePerson das Ereignis Yi = 1 realisiert wird berechnet durch:

πi = Pi = e(α+

∑βkXkj )

1+e(α+

∑βkXkj )

haufige Verwendung des −2× LL

Das Maximum der Schatzung ist hier dann erreicht, wennder absolute Wert von −2× LL am geringsten ist

42 / 62



SPSS/STATA

MLH

Beispiel eines Iterationsprotokolls

Iteration −2× LL Regressionskoeffizient bi

Schritt 1 2648.125 0.343Schritt 2 2607.061 0.468Schritt 3 2606.116 0.491Schritt 4 2606.115 0.492Schritt 5 2606.115 0.492

43 / 62



SPSS/STATA

MLH

Parameter aus dem Vorgehen der ML-Schatzung sindasymptotisch:

konsistent

effizient

normalverteilt

44 / 62



SPSS/STATA

R2

Grundlegend:

Die -2LL des Modells ohne erklarende Variablen (L0) istein Aquivalent fur die Streuung insgesamt.

Die -2LL des Modells mit erklarenden Variablen (L1) istein Aquivalent fur die die nicht erklarte Streuung.

McFaddens Pseudo-R2:

R2 = [(−2lnL0)− (−2lnL1)]/(−2lnL0)

Wertebereich zwischen 0 und 1

Nachteil: Kann den Wert 1 nicht erreichen.

45 / 62



SPSS/STATA

R2

Cox & Snells R2:

R2 = ([(−2lnL0)− (−2lnL1)]/(−2lnL0))2N


Nachteil: Kann den Wert 1 ebenfalls nicht erreichen.

46 / 62



SPSS/STATA

R2

Nagelkerkes R2:

R2 = R2

R2max

= R2

([(−2lnL0)−(−2lnL1)]/(−2lnL0))2N


Kann den Wert 1 erreichen.

47 / 62



SPSS/STATA

R2

Resumee:Die Maße zur Bewertung der Modellgute in der logistischenRegression beziehen sich nicht (!) auf die Varianz im Sinne derquadrierten Abweichungsquadrate. Sie stellen lediglichahnliche Maße zu denen der linearen Regression dar (daher:Pseudo-R2).

Bisher besteht kein eindeutiger Konsens uber das beste Maßzur Bewertung der Modellgute. Wider der gangigen Praxis istbei der Interpretation der verschiedenen Maße relativeZuruckhaltung angebracht.

48 / 62



SPSS/STATA

Gute der Klassifikationsergebnisse

Grundidee:Verlgeich der empirisch beobachteten Gruppenzuordnungenmit denen der vorhergesagten Gruppenzuordnungen.

Vorgehen:

1. Berechnung der Wahrscheinlichkeit durch die logistischeRegression.

2. Zuweisungsregel:

yk =

{Gruppe y = 1 fallspk > 0, 5

Gruppe y = 0 fallspk < 0, 5

49 / 62



SPSS/STATA


3. Klassifikationsmatrix

VorhergesagtBeobachtet 0 1 Prozent richtig

0 349 20 94.581 112 29 20.57

Prozent insgesamt 74.12

50 / 62



SPSS/STATA


4. Beurteilung

a. Begutachtung des Prozentsatzes richtig vorhergesagterGruppenzugehorigkeit singular

Wert = 100%: Perfekte Modellanpassung.Wert = 50%: Inakzeptable Modellanpassung

b. Begutachtung des Prozentsatzes richtig vorhergesagterGruppenzugehorigkeit im Vergleich zum Nullmodell

Es gilt: Je großer der prozentualle Zuwachs, destosinnvoller ist der Einschluss der gewahltenVariablen ins Modell

51 / 62



SPSS/STATA

Literaturhinweise

Pampel, F. C. (2000): Logistic Regression: A Primer. SageUniversity Papers 132, Series on Quantitative Applications inthe Social Sciences. Sage: Thousand Oaks.

Menard, S. (2001): Applied Logistic Regression Analysis. SageUniversity Papers 106, Series on Quantitative Applications inthe Social Sciences. Sage: Thousand Oaks.

Kapitel zur logistischen Regression aus dem Handbuch dersozialwissenschaftlichen Datenanalyse von Wolf/Best.

52 / 62



SPSS/STATA

SPSS

Analysieren → Regression →binar logistische Regression

53 / 62



SPSS/STATA

SPSS

54 / 62



SPSS/STATA

STATA

Befehlssequenz zur Ausgabe der Effekte auf dieLogarithmierten Odds:

logit aV uVs

Z.B.:

logit Abtreibung Kirchgangshaufigkeit Leben n Tod Einkommen

Befehlssequenz zur Ausgabe der Effekte auf die Odds:logistic aV uVs

Z.B.:

logistic Abtreibung Kirchgangshaufigkeit Leben n Tod Einkommen

55 / 62



SPSS/STATA

Ubung

56 / 62



SPSS/STATA

Ubung

Determinanten fur das Vorhandensein von Kindern (ja/nein)

57 / 62



SPSS/STATA

Ubung

Determinanten fur Arbeitslosigkeitserfahrungen (ja/nein)

58 / 62



SPSS/STATA

Ubung


59 / 62



SPSS/STATA

Ubung


60 / 62



SPSS/STATA

Ubung

Determinanten der Befurwortung von Abtreibung (ja/nein)

61 / 62



SPSS/STATA

Ubung


62 / 62



SPSS/STATA

Ubung


63 / 62

Logistische Regression Prof. Dr. Stein - uni-due.de · PDF fileOdds >1 geben an, dass es...

Documents

Transcript of Logistische Regression Prof. Dr. Stein - uni-due.de · PDF fileOdds >1 geben an, dass es...