Petrovici (2006) - Sisteme Variabile Dummy
description
Transcript of Petrovici (2006) - Sisteme Variabile Dummy
Modelul de regresie sisteme de variabile dummy
Bibliografie recomandată Traiman. D, 2004, Agresti & Finley
Dvs. personal credeţi în …? Da Nu NS/NR Da Nu NS/NR
DIV1. Viaţa de după moarte 1 2 9 DIV5. Horoscop 1 2 9
DIV2. Telepatie (transmiterea gândurilor) 1 2 9 DIV6. Judecata de Apoi 1 2 9
DIV3. Ghicit (cafea, cărţi, etc.) 1 2 9 DIV7. Vrăjitorie 1 2 9
DIV4. Rai 1 2 9 DIV8. Puterea rugăciunii 1 2 9
Ipoteze şi variabile
Ipoteză: magicarizarea credinţelor religioase a unei persoane depinde de tipurile de reţele instituţionale în care este integrat. De exemplu: sistemul şcolar sau biserica din care face parte persoana.
Variabile: (BOP 2000 primăvara) Credinţelor religioase a unei persoane:
Sistemul şcolar:
Biserica din care face parte.
SCOALA. Ultima şcoală absolvită
1. fără scoală2. 4 clase neterminate3. 4 clase terminate4. 8 clase neterminate
5. 8 clase terminate6. 10 clase7. şcoala profesională/ ucenici terminată8. liceu terminat
9. şcoală postliceală terminată10. facultate neterminată11. facultate terminată
Care este religia Dvs.?
1. ortodoxă 3. protestantă (calvină, baptistă, reformată) 5. greco-catolică 7. fără religie
2. romano-catolică 4. neo-protestantă (penticostală, adventistă, evanghelistă)
6. alta ______ 8. religie nedeclarată
Metoda statistică şi variabilele
Ipoteza este formulată în termeni cauzali: Credinţele religioase Sistemul şcolar + Tipul bisericii Adică, avem o problemă de regresie.
Variabile: sunt calitative. Pentru a formula in termenii unei regresi aceasta problemă trebuie să realizăm o serie de transformări ale variabilelor: 1. să mărim scara de măsură: să le transformăm în variabile cantitative 2. să le transformăm în variabile dummy
Transformarea variabilelor: variabila dependentă
Credinţelor religioase a unei persoane sunt înregistrate de opt variabile. Ele se grupează conceptual în două dimensiuni sau seturi de variabile [fapt confirmat şi de analiza factorială şi analiza de reliabilitate]: Setul 1 - Religiozitate magica: Telepatie (transmiterea gândurilor), Ghicit (cafea,
cărţi, etc.), Horoscop, Vrăjitorie. Setul 2 - Religiozitate creştina: Viata de după moarte, Rai, Judecata de Apoi,
Puterea rugăciunii.
Iar acest lucru îl facem
recodând variabilele: 1 Da; 2 Nu 1 Da; 0 Nu
Iar apoi adunăm
variabilele din acelaşi set
Religiozitate creştină
recode div1 div4 div6 div8 (1=1) (2=0) (9=0) into relig1 relig4 relig6 relig8.
Religiozitate magică
recode div2 div3 div5 div7 (1=1) (2=0) (9=0)into magic2 magic3 magic5 magic7.
Religiozitate creştină
comp religios = relig1 + relig4 + relig6 + relig8.
Religiozitate magică
comp magic = magic2 + magic3 + magic5 + magic7.
++
0.00 5.00 10.00 15.00
Subiect - Numar ani scoala
0.00
1.00
2.00
3.00
4.00
Rel
igio
zita
te m
agic
a
0.00 5.00 10.00 15.00
Subiect - Numar ani scoala
0.00
1.00
2.00
3.00
4.00
Rel
igio
zita
te m
agic
a
0.00 5.00 10.00 15.00
Subiect - Numar ani scoala
0.00
1.00
2.00
3.00
4.00
Rel
igio
zita
te m
agic
a
0.00 5.00 10.00 15.00
Subiect - Numar ani scoala
0.00
1.00
2.00
3.00
4.00
Rel
igio
zita
te m
agic
a
Transformarea variabilelor: variabila dependentă
Adunând variabilele dihotomice, una câte una, vedem cum noua variabila dependentă se transformă, încet într-o variabilă continuă. Cu cât adunăm mai multe variabile cu atât noua variabilă va tinde spre o variabilă continuă.[măsura în care reuşeşte să atingă acest deziderat: testul de reliabilitate]
Nou indice obţinut se numeşte: indice aditiv/sumativ
Transformarea variabilelor: variabilele independente
Educaţia: Variabila care înregistrează educaţia în barometrul de opinie este măsurată pe o scală ordinală, iar pentru regresie avem nevoie de o variabila cantitativă.
Fiecărei diplome educaţionale îi corespunde un anumit număr de ani Recodăm variabila:
Diplome educaţionale (p0scoa) Număr de ani de şcoală (educ)
Educatia subiectului
recode p0scoa(1=0) (2=2) (3=4) (4=6) (5=8) (6=10) (7=11) (8=12) (9=14) (10=15) (11=16)into educ.
Transformarea variabilelor: variabilele independente
Religia: Variabila care înregistrează religia, este o variabilă categorială, nominală.
Nu putem: Crea un nou indice (avem doar o singura variabilă) Echivala cu o variabilă cantitativă
Putem: Să tratăm această variabilă ca un sistem de variabile dummy Recodăm religia in următorul fel:
R1 = 1 dacă este Ortodox şi Greco-Catolic şi = 0 altfel
R2 = 1 dacă este Romano-Catolic şi 0 = altfel
R3 = 1 dacă este Protestant şi = 0 altfel
R4 = 1 dacă este Neo-protestant şi = 0 altfel
R5 = 1 dacă are Altă Religie, Religie Nedeclarată şi Fără Religie şi = 0 altfel
Transformarea variabilelor: variabilele independente
Să observăm ce se întâmplă dacă facem o regresie cu ajutorul var. dummy: Religiozitate magică (RM) Religie (R)
RM* = a+ b2R2 + b3R3 +b4R4 + b5R5 = a + ΣbiRi
Adică: RM* = 0,765 - 0,139R2 - 0,288R3 - 0,522R4 - 0,194R5
Să rescriem acum ecuaţiile pentru fiecare caz:
Pt. Ortotocşi: RM* = a+ b2*0 + b3*0 +b4*0 + b5*0 = a = 0,765
Pt. Catolici: RM* = a+ b2*1 + b3*0 +b4*0 + b5*0 = a - b2= 0,765 - 0,139 = 0,626
Pt. Protestanţi: RM* = a+ b2*0 + b3*1 +b4*0 + b5*0 = a - b3= 0,765 - 0,288 = 0,477
Pt. Neo-protestanţi: RM* = a+ b2*0 + b3*0 +b4*1 + b5*0 = a - b4= 0,765 - 0,522 = 0,243
Pt. Alţii: RM* = a+ b2*0 + b3*0 +b4*0 + b5*1 = a - b5= 0,765 - 0,194 = 0,57Cofficients
Model
Unstd Coef. Std Coef.
t Sig.B Std. Error Beta
(Constant) 0.765 0.025 30.26 0.000
Romano-Catolic -0.139 0.108 -0.030 -1.29 0.198
Protestanta -0.288 0.127 -0.054 -2.27 0.023
Neo-Protestanta -0.522 0.167 -0.074 -3.13 0.002
Alte religii -0.194 0.171 -0.027 -1.13 0.258
Dependent Variable: Religiozitate magica
Religiozitate magică * Religie
Variables Mean Std. Deviation
Ortodox 0.765 0.902
Romano-Catolic 0.626 0.850
Protestanta 0.477 0.495
Neo-Protestanta 0.243 0.495
Altele 0.571 0.884
=0,765- 0.626
Modelul de regresie
Var. dummy par a fi un mod complicat de a estima mediile, însă ele devin cu adevărat puternice atunci când sunt combinate cu alte variabile cantitative.
Ipoteza noastră poate fi formulată având în vedere variabilele noastre în cel putin trei moduri diferite şi pertinente teoretic:
RM Educaţie (E): RM* = a + bE
RM Educaţie + Religie (R): RM* = a + bE + ΣciRi
RM Educaţie + Religie + Religie*Educaţie (R*E): RM* = a + bE + ΣciRi
+ ΣdiRiE
Variabila de interacţiune Ri*E: Presupunem că între religie şi educaţie există o anumită interacţiune în ceea ce
priveşte credinţele magice Adică, credem că grupurile religioase diferă în ceea ce priveşte modul în care
educaţia influenţează credinţele magice
Scopul nostru este să selectăm model este mai bun din acestea trei.
Model 1 Model 2 Model 3 Model 3’
E: Educatie.065
(.006).004
(.006).066
(.006).066*(.006)
R2: Catolic -.142(.104)
-.257(.300)
-.257(.300)
R3: Protestant -.295(.123)
-.207(.331)
-.207(.331)
R4: Neoprotestant -.390(.161)
-.309(.310)
.309(.310)
R5: Altul -.271(.168)
-.386(.441)
-.386(.441)
R2*E.012
(.029).012
(.029)
R3*E-.009(.031)
-.009(.031)
R4*E-.090(.034)
-.090(.034)
R5*E.012
(.043).012
(.043)
Constanta.102
(.062).144
(.063).120
(.0067).762
(.024)
R2 .062 .070 .074 .074
Credinţe magice diferenţiate în funcţie de religie: Selecţia modelului
Logica modelelor
Să observăm ce se întâmplă dacă facem o regresie cu ajutorul var. dummy: Religiozitate magică (RM) Religie (R)
Model 1: RM* = ,102 +,065*E
Model 2: RM* = ,144 + ,004*E – ,142*R2 – ,295*R3 – .390*R4 – .271*R5
Model 3: RM* = ,120 + ,066*E – ,257R2 – ,207*R3 + ,309*R4 – ,386*R5 +
+ ,012*R2*E – ,009*R3*E – ,090*R4*E + ,012R5*E
Să rescriem pt. Modelul 2 ecuaţiile pentru Ortodocşi, Catolici şi Protestanţi
Să rescriem pt. Modelul 3 ecuaţiile pentru Ortodocşi, Catolici şi Protestanţi
Pt. Ortodocşi:
RM* = a + b*E
= ,144 + ,004*E
Pt. Catolici:
RM* = a + b*E + c2
= (a+c2) + b*E
= (,144 – ,142) + ,004*E
= .002 + .004*E
Pt. Protestanţi:
RM* = a + bE + c3
= (a+c3) + b*E
= (,144 – ,259) + ,004*E
= -.115 + .004*E
Pt. Catolici:
RM* = a + bE + c2+ d2*E
= (a+c2) + (b+d2)*E
= (,120– ,257) + (,066+,012)*E
= -.137 + 0.78*E
Pt. Ortodocşi:
RM* = a + bE
= ,120 + ,066*E
Pt. Protestanţi:
RM* = a + b*E + c2 + d3*E
= (a+c3) + (b+d3)*E
= (,120–,207)+(,066+,009)*E
= -.087 + .075E
-0.300
-0.200
-0.100
0.000
0.100
0.200
0.300
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17
Ortodocsi Catolici Protestanti Neoprotestanti Altii
Logica modelelor
Diferenţa dintre Modelul 2 şi Modelul 3 este că În Modelul 1diferă doar interceptul modului în care variază credinţele magice în
funcţie de educaţie. În Modelul 2 diferă şi interceptul şi panta în care variază credinţele magice în
funcţie de educaţie
Modelul 2 Modelul 3
Numări de ani de şcoală
-0.800
-0.600
-0.400
-0.200
0.000
0.200
0.400
0.600
0.800
1.000
1.200
1.400
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17
Ortodocsi Catolici Protestanti Neoprotestanti Altii
Numări de ani de şcoală
Variables Entered/Removedb
Subiect - Numar ani scoalaa . Enter
Romano-Catolic, Alte religii, Protestanta, Neo-Protestantaa . Enter
R4*Educ, R5*Educ, R3*Educ, R2*Educa . Enter
Model1
2
3
Variables EnteredVariablesRemoved Method
All requested variables entered.a.
Dependent Variable: Secularizareb.
Model Summary
.249a .062 .062 .97100
.264b .070 .067 .96809
.271c .074 .069 .96717
Model1
2
3
R R SquareAdjustedR Square
Std. Error ofthe Estimate
Predictors: (Constant), Subiect - Numar ani scoalaa.
Predictors: (Constant), Subiect - Numar ani scoala,Romano-Catolic, Alte religii, Protestanta,Neo-Protestanta
b.
Predictors: (Constant), Subiect - Numar ani scoala,Romano-Catolic, Alte religii, Protestanta,Neo-Protestanta, R4*Educ, R5*Educ, R3*Educ,R2*Educ
c.
ANOVAd
111.785 1 111.785 118.561 .000a
1688.642 1791 .943
1800.427 1792
125.651 5 25.130 26.814 .000b
1674.776 1787 .937
1800.427 1792
132.593 9 14.733 15.750 .000c
1667.835 1783 .935
1800.427 1792
Regression
Residual
Total
Regression
Residual
Total
Regression
Residual
Total
Model1
2
3
Sum ofSquares df Mean Square F Sig.
Predictors: (Constant), Subiect - Numar ani scoalaa.
Predictors: (Constant), Subiect - Numar ani scoala, Romano-Catolic, Alte religii,Protestanta, Neo-Protestanta
b.
Predictors: (Constant), Subiect - Numar ani scoala, Romano-Catolic, Alte religii,Protestanta, Neo-Protestanta, R4*Educ, R5*Educ, R3*Educ, R2*Educ
c.
Dependent Variable: Secularizared.
Credinţe magice diferenţiate în funcţie de religie: Selecţia modelului
Ne indică cele trei modelele pe care ni le-am propus. Metoda Enter înseamnă că în analiză intră
toate variabilele specificate
Acesta este tabelul de Analiză de varianţă, care indica raportul dintre varianţe punctelor în jurul drepte de regresie şi varianţa punctelor de pe dereapta de regresie în jurul mediei.
Ne indică în ce măsruă poate fi generalizat modelul de regresie la
populaţie
Ne indică Proporţia din varianţă variabilei dependente
explicată de fiecare model: Model 1: 0,062; Model 2: 0,070; Model 3: 0,074.
Coefficientsa
.102 .062 1.650 .099
.065 .006 .249 10.889 .000
.144 .063 2.284 .022
.064 .006 .245 10.712 .000
-.142 .104 -.031 -1.362 .173
-.295 .123 -.055 -2.410 .016
-.390 .161 -.055 -2.413 .016
-.271 .168 -.037 -1.616 .106
.120 .067 1.800 .072
.066 .006 .254 10.356 .000
-.257 .300 -.056 -.857 .391
-.207 .331 -.039 -.626 .531
.309 .310 .044 .995 .320
-.386 .441 -.053 -.877 .381
.012 .029 .027 .408 .683
-.009 .031 -.018 -.287 .774
-.090 .034 -.116 -2.643 .008
.012 .043 .017 .285 .776
(Constant)
Subiect - Numar ani scoala
(Constant)
Subiect - Numar ani scoala
Romano-Catolic
Protestanta
Neo-Protestanta
Alte religii
(Constant)
Subiect - Numar ani scoala
Romano-Catolic
Protestanta
Neo-Protestanta
Alte religii
R2*Educ
R3*Educ
R4*Educ
R5*Educ
Model1
2
3
B Std. Error
UnstandardizedCoefficients
Beta
StandardizedCoefficients
t Sig.
Dependent Variable: Secularizarea.
Credinţe magice diferenţiate în funcţie de religie: Selecţia modelului
-b, reprezintă coeficienţii de regresie nestandardizaţi ai modelului, care indică efectul net al fiecărei variabile, în unităţile de măură a variabilei dependente.- St. Error sunt erorile standard, care trebuie sa fie de două ori mai mici decât b pentru ca acestea să fie semnificative, pentru P=95%.- Beta, reprezintă coeficienţii standardizaţi care ne arată efectul net pe care îl are fiecare variabilă, în abateri standard-t, este valoarea testului t prin care testăm ipoteza nulă că un coeficient de regresie nu este diferit de 0, dacă generalizăm la populaţie.- Sig. nivelul de probabilitate, daca este mai mic decât 0,05 respingem ipoteza nulă a testului t si acceptăm ipoteza alternativă, ca coeficientul este diferit de 0 si poate fi generalizat la populaţie
Observăm că tabelul are trei secţiuni care indică cele trei
Modele estimate. Care model este însă mai bun?
Credinţe magice diferenţiate în funcţie de religie: Selecţia modelului
Noi vrem să estimăm care model este mai puternic. Principiile sunt: cel al simplităţii: mai puţine variabile introduse în model cel al adecvării: varianţă mai mare explicată
Cele trei modele pe care le-am construit se numesc modele încorporate (nested) pentru că adaugă termeni succesivi de la o ecuaţie la alta, păstrându-i pe cei adăugaţi deja la pasul anterior. Pentru aceste modele există o metodă specifică de comparaţie:
Unde, F este testul F
RB2
este R2 mai mare
RA2
este R2 mai mic m diferenţa de variabile între cele două modele
N numărul de cazuri k numărul de variabile independete în modelul cu mai multe variabile
Modelul 2 vs. Modelul 1: F(5,1784)=3.836 Fcritic (5,1784)=2.21 [semnificativ p=0.05] Modelul 3 vs. Modelul 1: F(8,1780)=2.883 Fcritic (8,1780)=1.94 [semnificativ p=0.05] Modelul 3 vs. Modelul 2: F(4,1780)=1.922 Fcritic
(4,1780)=2.37 [nesemnificativ p=0.05]
F =(RB-RA
2)/m
(1-RB2)/N-K-1
Model 1 Model 2 Model 3
E: Educatie(centrat)-0.045(0.008)
-0.043(0.008)
-0.040(0.009)
R2: Catolic -0.009(0.146)
0.300(0.420)
R3: Protestant -0.273(0.172)
0.162(0.465)
R4: Neoprotestant 0.975(0.226)
0.738(0.435)
R5: Altul -0.473(0.235)
-0.126(0.618)
R2*E-0.032(0.040)
R3*E-0.044(0.044)
R4*E0.032
(0.048)
R5*E-0.037(0.061)
Intercept2.695
(0.032)2.695
(0.034)2.695
(0.034)
R2 .016 .028 .027
Credinţe creştine diferenţiate în funcţie de religie: Selecţia modelului
Variables Entered/Removedb
educmeda . Enter
Romano-Catolic, Alte religii, Protestanta, Neo-Protestantaa . Enter
R4*Educ, R5*Educ, R3*Educ, R2*Educa . Enter
Model1
2
3
Variables EnteredVariablesRemoved Method
All requested variables entered.a.
Dependent Variable: Religiozitateb.
Model Summary
.127a .016 .016 1.36453
.174b .030 .028 1.35630
.178c .032 .027 1.35690
Model1
2
3
R R SquareAdjustedR Square
Std. Error ofthe Estimate
Predictors: (Constant), educmeda.
Predictors: (Constant), educmed, Romano-Catolic,Alte religii, Protestanta, Neo-Protestanta
b.
Predictors: (Constant), educmed, Romano-Catolic,Alte religii, Protestanta, Neo-Protestanta, R4*Educ,R5*Educ, R3*Educ, R2*Educ
c.
ANOVAd
55.004 1 55.004 29.541 .000a
3334.729 1791 1.862
3389.733 1792
102.457 5 20.491 11.139 .000b
3287.276 1787 1.840
3389.733 1792
106.917 9 11.880 6.452 .000c
3282.816 1783 1.841
3389.733 1792
Regression
Residual
Total
Regression
Residual
Total
Regression
Residual
Total
Model1
2
3
Sum ofSquares df Mean Square F Sig.
Predictors: (Constant), educmeda.
Predictors: (Constant), educmed, Romano-Catolic, Alte religii, Protestanta,Neo-Protestanta
b.
Predictors: (Constant), educmed, Romano-Catolic, Alte religii, Protestanta,Neo-Protestanta, R4*Educ, R5*Educ, R3*Educ, R2*Educ
c.
Dependent Variable: Religiozitated.
Credinţe creştine diferenţiate în funcţie de religie: Selecţia modelului
Coefficientsa
2.695 .032 83.646 .000
-.045 .008 -.127 -5.435 .000
2.695 .034 78.618 .000
-.043 .008 -.120 -5.132 .000
-.009 .146 -.001 -.063 .950
-.273 .172 -.037 -1.588 .113
.975 .226 .101 4.311 .000
-.473 .235 -.047 -2.012 .044
2.695 .034 78.579 .000
-.040 .009 -.112 -4.461 .000
.300 .420 .048 .714 .475
.162 .465 .022 .350 .727
.738 .435 .076 1.697 .090
-.126 .618 -.012 -.203 .839
-.032 .040 -.053 -.785 .432
-.044 .044 -.064 -1.008 .314
.032 .048 .030 .660 .509
-.037 .061 -.037 -.607 .544
(Constant)
educmed
(Constant)
educmed
Romano-Catolic
Protestanta
Neo-Protestanta
Alte religii
(Constant)
educmed
Romano-Catolic
Protestanta
Neo-Protestanta
Alte religii
R2*Educ
R3*Educ
R4*Educ
R5*Educ
Model1
2
3
B Std. Error
UnstandardizedCoefficients
Beta
StandardizedCoefficients
t Sig.
Dependent Variable: Religiozitatea.
Credinţe creştine diferenţiate în funcţie de religie: Selecţia modelului