การวิเคราะห ์การถดถอยพหุ (Multiple Regression...
Transcript of การวิเคราะห ์การถดถอยพหุ (Multiple Regression...
1
การวเคราะหการถดถอยพห
(Multiple Regression Analysis)
ผศ. นคม ถนอมเสยง
ภาควชาชวสถตและประชากรศาสตร
คณะสาธารณสขศาสตร ม.ขอนแกน
Email: [email protected]
Web: http://home.kku.ac.th/nikom
การวเคราะหการถดถอย
เกยวของกบตวแปร 2 ตวแปร ขนไป
ตวแปรอสระ (independent variables) หรอตวแปรอรรถาธบาย
(explanatory variables)
-ตวแปรตาม (dependent variable) หรอตวแปรตอบสนอง
(response variable)
ipxp
xxy ,...,22110
ˆ
การวเคราะหการถดถอยพห (Multiple Regression)
การวเคราะหการถดถอยอยางงาย (Simple Regression)
bxay ˆ
วตถประสงคการวเคราะหการถดถอยพห
-วดความสมพนธเชงเสนระหวางตวแปรอสระ
(independent variables) หรอตวแปรอรรถาธบาย
(explanatory variables) กบตวแปรตาม (dependent variable)
หรอ response variable
-ทานาย (prediction)
Systolic BPCHOL
TRI
AGE
...
2
idno sysbp chol age tri idno sysbp chol age tri
1 155 375 66 230 11 132 304 40 140
2 136 290 49 161 12 164 428 51 175
3 133 267 47 187 13 136 282 56 159
4 166 340 55 178 14 73 165 36 44
5 111 282 42 112 15 153 395 51 181
6 150 352 71 125 16 135 324 54 164
7 131 285 39 149 17 149 426 51 205
8 167 383 59 208 18 149 337 57 189
9 166 363 60 208 19 142 347 45 152
10 126 283 48 138 20 148 349 55 194
ตวอยาง การศกษาความสมพนธระหวางอาย ระดบ cholesterol ระดบ triglyceride กบ systolic blood pressure
ขอมลตวแปร sysbp และเมตรกซตวแปรอสระ (chol, age,tri)
148
...
133
136
155
y
194553491
...
187472671
161492901
230663751
x
การคานวณสมประสทธการวเคราะหการถดถอยพห
-ใชวธ least square method โดยใช matrix approach
ipxp
xxiy ,...,
22110ˆ
วธคานวณ least square โดยใชเมตรกซ
1xp
YX1
)
pXp
XX(
1xp
b
3
วธคานวณสมประสทธโดยใชเมตรกซ
Source | SS df MS Number of obs = 20---------+------------------------------ F( 3, 16) = 35.56
Model | 7942.70165 3 2647.56722 Prob > F = 0.0000Residual | 1191.09835 16 74.4436471 R-squared = 0.8696---------+------------------------------ Adj R-squared = 0.8451
Total | 9133.80 19 480.726316 Root MSE = 8.6281
------------------------------------------------------------------------------sysbp | Coef. Std. Err. t P>|t| [95% Conf. Interval]
---------+--------------------------------------------------------------------chol | .1654515 .0496455 3.333 0.004 .0602077 .2706953age | .5122311 .2802612 1.828 0.086 -.0818961 1.106358tri | .2006968 .0745745 2.691 0.016 .042606 .3587876
_cons | 27.15522 12.80998 2.120 0.050 -.0007308 54.31117------------------------------------------------------------------------------
วธคานวณสมประสทธโดยใช STATA
ความสมพนธเชงเสนระหวางตวแปรตามและ
กลมของตวแปรอสระ
เพอสรปวาตวแปรอสระ k ตวแปรสามารถอธบายความผนแปร
ของตวแปร Y ไดหรอไม
การทดสอบสมมตฐาน
การสรปภาพรวม ใชตารางการวเคราะหความแปรปรวน (ANOVA)
สาหรบการวเคราะหการถดถอย เพอคานวณคา Overall F Test
0210
kβ...β:βH
4
MSR
ตาราง ANOVA สาหรบการวเคราะหการถดถอย
triagecholiY 20.51.17.16.27ˆ
Source | SS df MS Number of obs = 20---------+------------------------------ F( 3, 16) = 35.56
Model | 7942.70165 3 2647.56722 Prob > F = 0.0000Residual | 1191.09835 16 74.4436471 R-squared = 0.8696---------+------------------------------ Adj R-squared = 0.8451
Total | 9133.80 19 480.726316 Root MSE = 8.6281
หรอOverall F Test
สมมตฐานสาหรบการทดสอบนยสาคญของสมการถดถอยทงหมด
H0: ตวแปรอสระ k ตวแปรไมสามารถอธบายความผนแปร
ของตวแปร Y ได
หรอ
HA
: ตวแปรอสระ k ตวแปรสามารถอธบายความผนแปร
ของตวแปร Y ได
หรอ HA
: อยางนอย 1 ตวแปร
การทดสอบใชสถต F-test
0210
kβ...β:βH
0ikβ
MSE
MSR
error)(or residualsquaremean
model)(or regressionsquaremeanF
k
kn
R
RF
121
2
SSY
SSR
SSY
SSESSYR
2
หรอคานวณคา F จาก
การคานวณคา
n=ขนาดตวอยาง
k=จานวนตวแปร
R2 = coefficient of determination
เมอ
5
Source | SS df MS Number of obs = 20---------+------------------------------ F( 3, 16) = 35.56
Model | 7942.70165 3 2647.56722 Prob > F = 0.0000Residual | 1191.09835 16 74.4436471 R-squared = 0.8696---------+------------------------------ Adj R-squared = 0.8451
Total | 9133.80 19 480.726316 Root MSE = 8.6281
------------------------------------------------------------------------------sysbp | Coef. Std. Err. t P>|t| [95% Conf. Interval]
---------+--------------------------------------------------------------------chol | .1654515 .0496455 3.333 0.004 .0602077 .2706953age | .5122311 .2802612 1.828 0.086 -.0818961 1.106358tri | .2006968 .0745745 2.691 0.016 .042606 .3587876
_cons | 27.15522 12.80998 2.120 0.050 -.0007308 54.31117------------------------------------------------------------------------------
การวเคราะห ตวแปรอสระไดแก อาย ระดบ cholesterol
ระดบ triglyceride สามารถอธบายการเปลยนแปลง
ระดบความดนชนด systolic blood pressure ได
อยางนยสาคญทางสถต (F= 35.56, p<.0001)
การทดสอบตวแปรอสระแตละตวแปรมความสามารถ
ในการอธบายตวแปรตาม(มความสมพนธกบตวแปรตาม)
-คาสถต Partial F Test
-หรอ Partial t-test
-ในทนจะใช การทดสอบ Partial t-test
กรณ สถต Partial F Test อานไดจากเอกสารเชน
-Kleinbaum, Muller, Nizam
-Neter, Wasserman, Kutner
-etc.
การทดสอบ Partial t test แทนจากการใช Partial F Test
การทดสอบสมมตฐาน H0:
เมอ และ เปนคาสมประสทธและ standard error ของ
0
βS
βt
ˆ
ˆ
ββ
S β
6
. regress sysbp chol age tri
Source | SS df MS Number of obs = 20-------------+------------------------------ F( 3, 16) = 35.56
Model | 7942.70165 3 2647.56722 Prob > F = 0.0000Residual | 1191.09835 16 74.4436471 R-squared = 0.8696
-------------+------------------------------ Adj R-squared = 0.8451Total | 9133.80 19 480.726316 Root MSE = 8.6281
------------------------------------------------------------------------------sysbp | Coef. Std. Err. t P>|t| [95% Conf. Interval]
-------------+----------------------------------------------------------------chol | .1654515 .0496455 3.33 0.004 .0602076 .2706953age | .5122311 .2802612 1.83 0.086 -.0818961 1.106358tri | .2006968 .0745745 2.69 0.016 .042606 .3587876
_cons | 27.15522 12.80998 2.12 0.050 -.0007309 54.31117------------------------------------------------------------------------------
เมอนาคา Partial T ทคานวณไดมายกกาลงสองจะมคาเทากบ Partial F
เชน คาของ chol (X1)
Partial F(X1/ X
2, X
3) =T2 = 3.332 = 11.0889
. regress sysbp chol age tri
Source | SS df MS Number of obs = 20-------------+------------------------------ F( 3, 16) = 35.56
Model | 7942.70165 3 2647.56722 Prob > F = 0.0000Residual | 1191.09835 16 74.4436471 R-squared = 0.8696
-------------+------------------------------ Adj R-squared = 0.8451Total | 9133.80 19 480.726316 Root MSE = 8.6281
------------------------------------------------------------------------------sysbp | Coef. Std. Err. t P>|t| [95% Conf. Interval]
-------------+----------------------------------------------------------------chol | .1654515 .0496455 3.33 0.004 .0602076 .2706953age | .5122311 .2802612 1.83 0.086 -.0818961 1.106358tri | .2006968 .0745745 2.69 0.016 .042606 .3587876
_cons | 27.15522 12.80998 2.12 0.050 -.0007309 54.31117------------------------------------------------------------------------------
การแปลความหมาย
-แปลผลโดยพจารณาเครองหมาย
-พจารณา ความสมพนธระหวางตวแปรอสระกบตวแปรตาม
ตวแปร chol, tri มความสมพนธทางบวกกบ sysbp และมนยสาคญทางสถต
ตวแปร age ไมมความสมพนธกบ sysbp
การพจารณาตวแปรอสระแตละตวแปรมความสมพนธ
กบตวแปรตามมากนอย
-พจารณาจากสมการทมการปรบตวแปรมหนวยเดยวกน
-ทาใหเปนคะแนนมาตรฐาน Z-score
sd
xxz i
. regress sysbp chol age tri,beta
Source | SS df MS Number of obs = 20-------------+------------------------------ F( 3, 16) = 35.56
Model | 7942.70165 3 2647.56722 Prob > F = 0.0000Residual | 1191.09835 16 74.4436471 R-squared = 0.8696
-------------+------------------------------ Adj R-squared = 0.8451Total | 9133.80 19 480.726316 Root MSE = 8.6281
------------------------------------------------------------------------------sysbp | Coef. Std. Err. t P>|t| Beta
-------------+----------------------------------------------------------------chol | .1654515 .0496455 3.33 0.004 .4663705age | .5122311 .2802612 1.83 0.086 .2076355tri | .2006968 .0745745 2.69 0.016 .3805016
_cons | 27.15522 12.80998 2.12 0.050 .------------------------------------------------------------------------------
7
.zscore sysbp chol age tri
.regress z_sysbp z_chol z_age z_tri
Source | SS df MS Number of obs = 20-------------+------------------------------ F( 3, 16) = 35.56
Model | 16.5222943 3 5.50743142 Prob > F = 0.0000Residual | 2.47770574 16 .154856609 R-squared = 0.8696
-------------+------------------------------ Adj R-squared = 0.8451Total | 19.00 19 1.00 Root MSE = .39352
------------------------------------------------------------------------------z_sysbp | Coef. Std. Err. t P>|t| [95% Conf. Interval]
-------------+----------------------------------------------------------------z_chol | .4663705 .1399396 3.33 0.004 .1697118 .7630292z_age | .2076355 .1136053 1.83 0.086 -.033197 .448468z_tri | .3805016 .1413859 2.69 0.016 .0807768 .6802263_cons | 3.62e-16 .0879934 0.00 1.000 -.1865376 .1865376
------------------------------------------------------------------------------
กรณทาใหเปนคะแนนมาตรฐาน Z-score
sd
xxz i
Constant มคานอยมาก ~ 0
การประเมนสมการถดถอยพห
-การประเมนสมการถดถอยพห พจารณาจากคา coefficient of
determination
2
2
1
1
ˆ2
21
n
i)Y(Y
n
i)Y
iY(
SSY
SSR
k...x,xy|x
R
i
. regress sysbp chol age tri
Source | SS df MS Number of obs = 20-------------+------------------------------ F( 3, 16) = 35.56
Model | 7942.70165 3 2647.56722 Prob > F = 0.0000Residual | 1191.09835 16 74.4436471 R-squared = 0.8696
-------------+------------------------------ Adj R-squared = 0.8451Total | 9133.80 19 480.726316 Root MSE = 8.6281
0.869594 9133.80
7942.70165
ตวอยาง จากขอมลตวอยางคานวณคาของ coefficient of determination
-ตวแปร chol ,age และ trigyceride สามารถอธบายการเปลยนแปลง
ระดบ systolic blood pressure ไดถงรอยละ 86.96
0.869594 9133.80
7942.70165
8
ในการ fit สมการพบวาเมอจานวนตวแปรอสระมากขน
ทาใหคา R2 สงขน ควรมการปรบคา R2 เรยกวา
adjusted coefficient of determination
SSY
SSR
pn
1n2
aR
. regress sysbp chol age tri
Source | SS df MS Number of obs = 20-------------+------------------------------ F( 3, 16) = 35.56
Model | 7942.70165 3 2647.56722 Prob > F = 0.0000Residual | 1191.09835 16 74.4436471 R-squared = 0.8696
-------------+------------------------------ Adj R-squared = 0.8451Total | 9133.80 19 480.726316 Root MSE = 8.6281
Report Regression Table (Publication Manual of the American Psychological
Association sixth Edition,2010; pp 144)
0.050
0.016
0.086
0.004
P-value
Adjusted R2 = .85 , F = 35.56, p-value <.0001, n = 20
.00-54.312.1212.8127.16Constant
.06.87.04-3.36.382.69.07.20Trigyceride
.07.81-.08-1.11.211.83.28.51Age
.75.75.06-.07.473.33.05.17Cholesterol
R2 changeR295%CIts.e.bVariable
. regress sysbp chol age triSource | SS df MS Number of obs = 20
-------------+------------------------------ F( 3, 16) = 35.56Model | 7942.70165 3 2647.56722 Prob > F = 0.0000
Residual | 1191.09835 16 74.4436471 R-squared = 0.8696-------------+------------------------------ Adj R-squared = 0.8451
Total | 9133.80 19 480.726316 Root MSE = 8.6281------------------------------------------------------------------------------
sysbp | Coef. Std. Err. t P>|t| [95% Conf. Interval]-------------+----------------------------------------------------------------
chol | .1654515 .0496455 3.33 0.004 .0602076 .2706953age | .5122311 .2802612 1.83 0.086 -.0818961 1.106358tri | .2006968 .0745745 2.69 0.016 .042606 .3587876
_cons | 27.15522 12.80998 2.12 0.050 -.0007309 54.31117------------------------------------------------------------------------------
9
. do "M:\516701_2555\report_mreg.do"
. use "M:\516701_2555\multiple_reg_data.dta", clear
. regress sysbp chol
...Residual | 2267.92107 17 133.407122 R-squared = 0.7516
...
. regress sysbp chol ageResidual | 1729.02942 16 108.064339 R-squared = 0.8106
...
. regress sysbp chol age triResidual | 1191.02416 15 79.4016106 R-squared = 0.8696
...
. regress sysbp chol age tri, betaSource | SS df MS Number of obs = 20
-------------+------------------------------ F( 3, 16) = 35.56Model | 7942.70165 3 2647.56722 Prob > F = 0.0000
Residual | 1191.09835 16 74.4436471 R-squared = 0.8696-------------+------------------------------ Adj R-squared = 0.8451
Total | 9133.8 19 480.726316 Root MSE = 8.6281------------------------------------------------------------------------------
sysbp | Coef. Std. Err. t P>|t| Beta-------------+----------------------------------------------------------------
chol | .1654515 .0496455 3.33 0.004 .4663705age | .5122311 .2802612 1.83 0.086 .2076355tri | .2006968 .0745745 2.69 0.016 .3805016
_cons | 27.15522 12.80998 2.12 0.050 .------------------------------------------------------------------------------
การวเคราะห multiple regression เมอมตวแปรกลม เชน เพศ อาชพ
ทาใหเปนตวแปรหน (dummy variables) ดงน
pp
k
ljljl xDxy
j
1
10 1
ˆ
กรณมตวแปรม k ระดบ สรางตวแปรหนไดเทากบ k-1 ตวแปร
(k=ระดบ, กลม)
0
1
0
D1
ตวแปรหน (dummy variable)
1Code = 3
0code = 2
0code = 1
D2ตวแปร
)(1
ˆ 654320 gender)(occβ)(occβ(tri)β(age)β(chol)ββy officecomm
ตวอยาง ตวแปรอาชพ (เกษตรกรรม, คาขาย, ขาราชการ) เปนตวแปรกลม
ใหทาเปน ตวแปรหน k-1=3-1 = 2 ตวแปร ดงน
STATA ระบ xi: regresst sysbp age tri i.occ i.gender
0
1
0
D1
ตวแปรหน (dummy variable)
1รบราชการ = 3
0คาชาย = 2
0เกษตรกรรม = 1
D2อาชพ
*** กรณม 2 กลม เพศ รหสเปน 0, 1 วเคราะหในโปรแกรม STATA ไดเลย
ถามรหส 1, 2 กาหนดเปน ตวแปรหน
10
. xi: regress sysbp chol age tri i.occ i.gender
. xi: regress sysbp chol age tri i.occ i.genderi.occ _Iocc_1-3 (naturally coded; _Iocc_1 omitted)i.gender _Igender_1-2 (naturally coded; _Igender_1 omitted)
Source | SS df MS Number of obs = 20-------------+------------------------------ F( 6, 13) = 16.99
Model | 8101.00425 6 1350.16737 Prob > F = 0.0000Residual | 1032.79575 13 79.4458272 R-squared = 0.8869
-------------+------------------------------ Adj R-squared = 0.8347Total | 9133.8 19 480.726316 Root MSE = 8.9132
------------------------------------------------------------------------------sysbp | Coef. Std. Err. t P>|t| [95% Conf. Interval]
-------------+----------------------------------------------------------------chol | .1745477 .0564986 3.09 0.009 .0524899 .2966054age | .504353 .3139673 1.61 0.132 -.173932 1.182638tri | .2081322 .0796249 2.61 0.021 .036113 .3801514
_Iocc_2 | 5.242509 5.77858 0.91 0.381 -7.241355 17.72637_Iocc_3 | -1.13821 5.298263 -0.21 0.833 -12.58441 10.30799
_Igender_2 | -4.495496 4.72941 -0.95 0.359 -14.71276 5.721772_cons | 24.02471 13.96057 1.72 0.109 -6.135272 54.18469
------------------------------------------------------------------------------
list+-------------------------------------------------------------------------------+| idno sysbp chol age tri occ gender _Iocc_2 _Iocc_3 _Igend~2 ||-------------------------------------------------------------------------------|
1. | 1 155 375 66 230 3 2 0 1 1 |2. | 2 136 290 49 161 1 1 0 0 0 |3. | 3 133 267 47 187 1 1 0 0 0 |4. | 4 166 340 55 178 2 1 1 0 0 |5. | 5 111 282 42 112 2 2 1 0 1 |
|-------------------------------------------------------------------------------|6. | 6 150 352 71 125 3 1 0 1 0 |7. | 7 131 285 39 149 2 2 1 0 1 |8. | 8 167 383 59 208 3 1 0 1 0 |9. | 9 166 363 60 208 1 1 0 0 0 |10. | 10 126 283 48 138 2 2 1 0 1 |
|-------------------------------------------------------------------------------|11. | 11 132 304 40 140 3 1 0 1 0 |12. | 12 164 428 51 175 2 2 1 0 1 |13. | 13 136 282 56 159 3 1 0 1 0 |14. | 14 73 165 36 44 1 1 0 0 0 |15. | 15 153 395 51 181 1 2 0 0 1 |
|-------------------------------------------------------------------------------|16. | 16 135 324 54 164 2 1 1 0 0 |17. | 17 149 426 51 205 3 1 0 1 0 |18. | 18 149 337 57 189 1 1 0 0 0 |19. | 19 142 347 45 152 3 2 0 1 1 |20. | 20 148 349 55 194 3 2 0 1 1 |
+-------------------------------------------------------------------------------+
การวเคราะหการถดถอยพห (Multiple Regression)
การคดเลอกตวแปรเขาในสมการ
1. Backward Elimination Procedure2. Forward selection procedure3. The Stepwise regression procedure
ในการวเคราะหใชสถตในการพจารณาหลายรปแบบเชนPartial F (p-value), Partial t (p-value)
ในทนจะใชคา Partial t โดยดคา p-value
11
วธการขจดออก (Backward elimination procedure)
ขนท 1 สรางสมการถดถอยประกอบดวย ตวแปรอสระทกตวแปร
SYSBP = 27.16 + 0.165CHOL + 0.512AGE + 0.201TRI
ขนท 2 คานวณคาสถต Partial t และ p-value ตวแปรอสระทกตวแปรในโมเดล
ขนท 3 พจารณาตวแปรทมคา p-value มากทสด
. regress sysbp chol age tri
Source | SS df MS Number of obs = 20-------------+------------------------------ F( 3, 16) = 35.56
Model | 7942.70165 3 2647.56722 Prob > F = 0.0000Residual | 1191.09835 16 74.4436471 R-squared = 0.8696
-------------+------------------------------ Adj R-squared = 0.8451Total | 9133.80 19 480.726316 Root MSE = 8.6281
------------------------------------------------------------------------------sysbp | Coef. Std. Err. t P>|t| [95% Conf. Interval]
-------------+----------------------------------------------------------------chol | .1654515 .0496455 3.33 0.004 .0602076 .2706953age | .5122311 .2802612 1.83 0.086 -.0818961 1.106358tri | .2006968 .0745745 2.69 0.016 .042606 .3587876
_cons | 27.15522 12.80998 2.12 0.050 -.0007309 54.31117------------------------------------------------------------------------------
ขนท 4 เปรยบเทยบคา p-value กบ ระดบนยสาคญ
ทกาหนด ( เชนทระดบ 0.05)
ถา p-value > ระดบนยสาคญทกาหนด จะตดตวแปร
นนออกจากสมการ
------------------------------------------------------------------------------sysbp | Coef. Std. Err. t P>|t| [95% Conf. Interval]
-------------+----------------------------------------------------------------chol | .1654515 .0496455 3.33 0.004 .0602076 .2706953age | .5122311 .2802612 1.83 0.086 -.0818961 1.106358tri | .2006968 .0745745 2.69 0.016 .042606 .3587876
_cons | 27.15522 12.80998 2.12 0.050 -.0007309 54.31117------------------------------------------------------------------------------
ขจดตวแปร age ออก (p-value = .086 > 0.05)
ทาการทดสอบตามขนตอนท 1 ถง ขนตอนท 4 ใหมกบ
ตวแปรทเหลอจนกวาไมมตวแปรใดมากกวาระดบนยสาคญ
. regress sysbp chol tri
Source | SS df MS Number of obs = 20-------------+------------------------------ F( 2, 17) = 45.42
Model | 7694.02578 2 3847.01289 Prob > F = 0.0000Residual | 1439.77422 17 84.6926011 R-squared = 0.8424
-------------+------------------------------ Adj R-squared = 0.8238Total | 9133.80 19 480.726316 Root MSE = 9.2029
------------------------------------------------------------------------------sysbp | Coef. Std. Err. t P>|t| [95% Conf. Interval]
-------------+----------------------------------------------------------------chol | .1875776 .0513543 3.65 0.002 .0792295 .2959258tri | .238911 .0763522 3.13 0.006 .0778219 .4
_cons | 40.00673 11.42093 3.50 0.003 15.91068 64.10278------------------------------------------------------------------------------
12
วธการขจดออก (Backward elimination procedure)
. sw regress sysbp chol age tri, pr(.05)begin with full model
p = 0.0863 >= 0.0500 removing age
Source | SS df MS Number of obs = 20---------+------------------------------ F( 2, 17) = 45.42
Model | 7694.02578 2 3847.01289 Prob > F = 0.0000Residual | 1439.77422 17 84.6926011 R-squared = 0.8424---------+------------------------------ Adj R-squared = 0.8238
Total | 9133.80 19 480.726316 Root MSE = 9.2029
------------------------------------------------------------------------------sysbp | Coef. Std. Err. t P>|t| [95% Conf. Interval]
---------+--------------------------------------------------------------------chol | .1875776 .0513543 3.653 0.002 .0792295 .2959258tri | .238911 .0763522 3.129 0.006 .0778219 .4
_cons | 40.00673 11.42093 3.503 0.003 15.91068 64.10278------------------------------------------------------------------------------
วธนาเขา (Forward selection procedure)
ขนท 1 เลอกตวแปรอสระตวแรกเขามาในสมการ
โดยมคาสหสมพนธกบตวแปรตามมากทสด
-จากตวอยางพบวาสหสมพนธเปนดงน
rSYSBP-CHOL
= .8669
rSYSBP-AGE
= .6873
rSYSBP-TRI
= .8477
-ดงนนตวแปร CHOL เปนตวแปรอสระตวแปรแรกทนาเขาในสมการ
*หรอ fit สมการการถดถอยอยางงายทละตวแปร
. corr sysbp chol age(obs=20)
| sysbp chol age-------------+---------------------------
sysbp | 1.0000chol | 0.8669 1.0000age | 0.6873 0.5609 1.0000
. regress sysbp cholSource | SS df MS Number of obs = 20
-------------+------------------------------ F( 1, 18) = 54.46Model | 6864.79657 1 6864.79657 Prob > F = 0.0000
Residual | 2269.00343 18 126.055746 R-squared = 0.7516-------------+------------------------------ Adj R-squared = 0.7378
Total | 9133.8 19 480.726316 Root MSE = 11.227
------------------------------------------------------------------------------sysbp | Coef. Std. Err. t P>|t| [95% Conf. Interval]
-------------+----------------------------------------------------------------chol | .3075584 .0416769 7.38 0.000 .2199986 .3951183
_cons | 39.95941 13.93348 2.87 0.010 10.68625 69.23256------------------------------------------------------------------------------
. regress sysbp tri
Source | SS df MS Number of obs = 20-------------+------------------------------ F( 1, 18) = 45.98
Model | 6564.09077 1 6564.09077 Prob > F = 0.0000Residual | 2569.70923 18 142.761624 R-squared = 0.7187
-------------+------------------------------ Adj R-squared = 0.7030Total | 9133.8 19 480.726316 Root MSE = 11.948
------------------------------------------------------------------------------sysbp | Coef. Std. Err. t P>|t| [95% Conf. Interval]
-------------+----------------------------------------------------------------tri | .4471421 .0659423 6.78 0.000 .3086025 .5856817
_cons | 67.34391 11.2005 6.01 0.000 43.81254 90.87528------------------------------------------------------------------------------
13
. regress sysbp age
Source | SS df MS Number of obs = 20-------------+------------------------------ F( 1, 18) = 16.12
Model | 4315.03667 1 4315.03667 Prob > F = 0.0008Residual | 4818.76333 18 267.709074 R-squared = 0.4724
-------------+------------------------------ Adj R-squared = 0.4431Total | 9133.8 19 480.726316 Root MSE = 16.362
------------------------------------------------------------------------------sysbp | Coef. Std. Err. t P>|t| [95% Conf. Interval]
-------------+----------------------------------------------------------------age | 1.695629 .4223477 4.01 0.001 .8083094 2.582949
_cons | 53.60554 22.09811 2.43 0.026 7.179137 100.032------------------------------------------------------------------------------
-และสรางสมการถดถอยระหวางตวแปรตามกบตวแปรอสระทนาเขา
สรางสมการ SYSBP กบ CHOL และคานวณคา Overall F
จากตาราง ANOVA
SYSBP = 39.96 + .308CHOL และมคา Overall F เทากบ 54.45
-ถาคา Overall F จากตาราง ANOVA ไมมนยสาคญทางสถต
แสดงวาไมมตวแปรใดอยในสมการถดถอย จะหยดการนาเขา
กรณทคา Overall F จากตาราง ANOVA มนยสาคญทางสถต
จะนาตวแปรเขาไปในสมการ และดาเนนขนตอนท 2 ตอ
. regress sysbp chol
Source | SS df MS Number of obs = 20-------------+------------------------------ F( 1, 18) = 54.46
Model | 6864.79657 1 6864.79657 Prob > F = 0.0000Residual | 2269.00343 18 126.055746 R-squared = 0.7516
-------------+------------------------------ Adj R-squared = 0.7378Total | 9133.80 19 480.726316 Root MSE = 11.227
------------------------------------------------------------------------------sysbp | Coef. Std. Err. t P>|t| [95% Conf. Interval]
-------------+----------------------------------------------------------------chol | .3075584 .0416769 7.38 0.000 .2199986 .3951183
_cons | 39.95941 13.93348 2.87 0.010 10.68625 69.23256------------------------------------------------------------------------------
-คา Overall F จากตาราง ANOVA มนยสาคญทางสถต
จะนาตวแปรเขาไปในสมการ และดาเนนขนตอนท 2 ตอ
14
ขนท 2 พจารณาตวแปรท 2 เขาโมเดล
คานวณสถต Partial t (p-value) ของตวแปรอสระทเหลออย
โดยพจารณาสราง (fit) โมเดลตวแปรทเหลอกบตวแปรตามเชน
-Partial t =2.16 (p-value=.046) จาก age|sysbp
-Partial t =4.86, (p-value<.001) จาก tri|sysbp
*ใชวธ partial correlation ไดใหผลเชนเดยวกน
. regress sysbp age tri
...------------------------------------------------------------------------------
sysbp | Coef. Std. Err. t P>|t| [95% Conf. Interval]-------------+----------------------------------------------------------------
age | .7399905 .3432132 2.16 0.046 .015874 1.464107tri | .3564525 .073381 4.86 0.000 .2016321 .5112729
_cons | 44.11965 14.84368 2.97 0.009 12.80222 75.43708------------------------------------------------------------------------------
. pcorr sysbp age tri(obs=20)Partial correlation of sysbp with
Variable | Corr. Sig.-------------+------------------
age | 0.4634 0.046tri | 0.7624 0.000
)1)(1( 22XZYZ
XZYZYXYX|Z
rr
rrrr
. regress sysbp age tri
Source | SS df MS Number of obs = 20-------------+------------------------------ F( 2, 17) = 29.97
Model | 7115.88616 2 3557.94308 Prob > F = 0.0000Residual | 2017.91384 17 118.700814 R-squared = 0.7791
-------------+------------------------------ Adj R-squared = 0.7531Total | 9133.80 19 480.726316 Root MSE = 10.895
------------------------------------------------------------------------------sysbp | Coef. Std. Err. t P>|t| [95% Conf. Interval]
-------------+----------------------------------------------------------------age | .7399905 .3432132 2.16 0.046 .015874 1.464107tri | .3564525 .073381 4.86 0.000 .2016321 .5112729
_cons | 44.11965 14.84368 2.97 0.009 12.80222 75.43708------------------------------------------------------------------------------
จากขอมลตวอยางตวแปร TRI มคา Partial t มากทสดและ
p-value นอยกวา ใหนาตวแปร TRI เพอไปลอง fit ในโมเดล
สมการถดถอย
ขนท 3 พจารณาตวแปรอสระทนาเขาหาคา Partial t และ p-value
รวมกบตวแปรอสระทนาเขากอน
ถา
(ก.) P-value < ระดบนยสาคญทางสถต ใหนาเขาตวแปรดงกลาว
ในโมเดลสมการถดถอย
(ข.) P-value > ระดบนยสาคญทางสถต คงใชโมเดลในขอท 1
15
SYSBP = 40.01 + .188CHOL + .239TRI
. regress sysbp chol tri
Source | SS df MS Number of obs = 20-------------+------------------------------ F( 2, 17) = 45.42
Model | 7694.02578 2 3847.01289 Prob > F = 0.0000Residual | 1439.77422 17 84.6926011 R-squared = 0.8424
-------------+------------------------------ Adj R-squared = 0.8238Total | 9133.80 19 480.726316 Root MSE = 9.2029
------------------------------------------------------------------------------sysbp | Coef. Std. Err. t P>|t| [95% Conf. Interval]
-------------+----------------------------------------------------------------chol | .1875776 .0513543 3.65 0.002 .0792295 .2959258tri | .238911 .0763522 3.13 0.006 .0778219 .4
_cons | 40.00673 11.42093 3.50 0.003 15.91068 64.10278------------------------------------------------------------------------------
จากขอมลตวแปร TRI มคา p-value=.006 นอยกวา <.05
ใหนาตวแปร TRI เพอไปในโมเดลสมการถดถอย
ขนท 4 ทาตามขนตอนท 2-3 ซากบตวแปรทเหลอ
ทาเชนนจนครบทกตวแปรอสระ จนไมมตวแปรใดท
มนยสาคญทางสถตใหยตการนาเขา
. regress sysbp age
Source | SS df MS Number of obs = 20-------------+------------------------------ F( 1, 18) = 16.12
Model | 4315.03667 1 4315.03667 Prob > F = 0.0008Residual | 4818.76333 18 267.709074 R-squared = 0.4724
-------------+------------------------------ Adj R-squared = 0.4431Total | 9133.8 19 480.726316 Root MSE = 16.362
------------------------------------------------------------------------------sysbp | Coef. Std. Err. t P>|t| [95% Conf. Interval]
-------------+----------------------------------------------------------------age | 1.695629 .4223477 4.01 0.001 .8083094 2.582949
_cons | 53.60554 22.09811 2.43 0.026 7.179137 100.032------------------------------------------------------------------------------
. regress sysbp chol tri age
Source | SS df MS Number of obs = 20-------------+------------------------------ F( 3, 16) = 35.56
Model | 7942.70165 3 2647.56722 Prob > F = 0.0000Residual | 1191.09835 16 74.4436471 R-squared = 0.8696
-------------+------------------------------ Adj R-squared = 0.8451Total | 9133.80 19 480.726316 Root MSE = 8.6281
------------------------------------------------------------------------------sysbp | Coef. Std. Err. t P>|t| [95% Conf. Interval]
-------------+----------------------------------------------------------------chol | .1654515 .0496455 3.33 0.004 .0602076 .2706953tri | .2006968 .0745745 2.69 0.016 .042606 .3587876age | .5122311 .2802612 1.83 0.086 -.0818961 1.106358
_cons | 27.15522 12.80998 2.12 0.050 -.0007309 54.31117------------------------------------------------------------------------------
ดท Partial t โดย p-value >.05 ไมมนยสาคญทางสถต
คงใชโมเดลเดม
16
. regress sysbp chol tri
Source | SS df MS Number of obs = 20-------------+------------------------------ F( 2, 17) = 45.42
Model | 7694.02578 2 3847.01289 Prob > F = 0.0000Residual | 1439.77422 17 84.6926011 R-squared = 0.8424
-------------+------------------------------ Adj R-squared = 0.8238Total | 9133.80 19 480.726316 Root MSE = 9.2029
------------------------------------------------------------------------------sysbp | Coef. Std. Err. t P>|t| [95% Conf. Interval]
-------------+----------------------------------------------------------------chol | .1875776 .0513543 3.65 0.002 .0792295 .2959258tri | .238911 .0763522 3.13 0.006 .0778219 .4
_cons | 40.00673 11.42093 3.50 0.003 15.91068 64.10278------------------------------------------------------------------------------
Partial t (P-value<.05) ไมมนยสาคญทางสถตคงใชโมเดลเดม
วธนาเขา (Forward selection procedure)
. sw regress sysbp chol age tri, pe(.05)begin with empty model
p = 0.0000 < 0.0500 adding cholp = 0.0061 < 0.0500 adding tri
Source | SS df MS Number of obs = 20---------+------------------------------ F( 2, 17) = 45.42
Model | 7694.02578 2 3847.01289 Prob > F = 0.0000Residual | 1439.77422 17 84.6926011 R-squared = 0.8424---------+------------------------------ Adj R-squared = 0.8238
Total | 9133.80 19 480.726316 Root MSE = 9.2029
------------------------------------------------------------------------------sysbp | Coef. Std. Err. t P>|t| [95% Conf. Interval]
---------+--------------------------------------------------------------------chol | .1875776 .0513543 3.653 0.002 .0792295 .2959258tri | .238911 .0763522 3.129 0.006 .0778219 .4
_cons | 40.00673 11.42093 3.503 0.003 15.91068 64.10278------------------------------------------------------------------------------
วธสมการถดถอยแบบขนตอน
(Stepwise regression procedure)
-เปนวธทคดเลอกตวแปรอสระรวมกน ระหวางวธตดออกและนาเขา
ขนท 1 เลอกตวแปรอสระตวแรกเขามาในสมการโดยตวแปรอสระ
ทนาเขา เปนตวแปรทมคาสหสมพนธกบตวแปรตามมากทสด
และมนยสาคญทางสถต
จากตวอยางพบวาสหสมพนธเปนดงน
rSYSBP-CHOL
= .8669
rSYSBP-AGE
= .6873
rSYSBP-TRI
= .8477
ดงนนตวแปร CHOL เปนตวแปรอสระตวแปรแรกทนาเขาในสมการ
17
regress sysbp cholSource | SS df MS Number of obs = 20
-------------+------------------------------ F( 1, 18) = 54.46Model | 6864.79657 1 6864.79657 Prob > F = 0.0000
Residual | 2269.00343 18 126.055746 R-squared = 0.7516-------------+------------------------------ Adj R-squared = 0.7378
Total | 9133.8 19 480.726316 Root MSE = 11.227
------------------------------------------------------------------------------sysbp | Coef. Std. Err. t P>|t| [95% Conf. Interval]
-------------+----------------------------------------------------------------chol | .3075584 .0416769 7.38 0.000 .2199986 .3951183
_cons | 39.95941 13.93348 2.87 0.010 10.68625 69.23256------------------------------------------------------------------------------
*หรอ fit สมการการถดถอยอยางงายทละตวแปร
*ทาเชนเดยวกบตวแปรอนๆ ทเหลอ
ขนท 2 พจารณาคา Partial correlation ตวแปรทเหลอ
และมนยสาคญทางสถตกวาตวแปรอนๆ เขามาในสมการ
(หรอใชสมการถดถอย fit ตวแปรทเหลอเหมอนวธ forward)
------------------------------------------------------------------------------sysbp | Coef. Std. Err. t P>|t| [95% Conf. Interval]
-------------+----------------------------------------------------------------age | .7399905 .3432132 2.16 0.046 .015874 1.464107tri | .3564525 .073381 4.86 0.000 .2016321 .5112729
_cons | 44.11965 14.84368 2.97 0.009 12.80222 75.43708------------------------------------------------------------------------------
นาตวแปร tri เขาในสมการ
. pcorr sysbp age tri(obs=20)Partial correlation of sysbp with
Variable | Corr. Sig.-------------+------------------
age | 0.4634 0.046tri | 0.7624 0.000
)1)(1( 22XZYZ
XZYZYXYX|Z
rr
rrrr
ขนท 3 พจารณา fit โมเดลสมการถดถอยแลวพจารณาคา Partial t
(P-value) ตวแปรอสระทอยในสมการถดถอย
พจารณา
-คา Partial t และ p-value
p-value >ระดบนยสาคญทกาหนด จะตดตวแปรนนออกจากสมการ
p-value <ระดบนยสาคญทกาหนด คงตวแปรอยในสมการ
. regress sysbp chol triSource | SS df MS Number of obs = 20
-------------+------------------------------ F( 2, 17) = 45.42Model | 7694.02578 2 3847.01289 Prob > F = 0.0000
Residual | 1439.77422 17 84.6926011 R-squared = 0.8424-------------+------------------------------ Adj R-squared = 0.8238
Total | 9133.8 19 480.726316 Root MSE = 9.2029
------------------------------------------------------------------------------sysbp | Coef. Std. Err. t P>|t| [95% Conf. Interval]
-------------+----------------------------------------------------------------chol | .1875776 .0513543 3.65 0.002 .0792295 .2959258tri | .238911 .0763522 3.13 0.006 .0778219 .4
_cons | 40.00673 11.42093 3.50 0.003 15.91068 64.10279------------------------------------------------------------------------------
18
ขนท 4 ทาซาในขนตอน 2-3. regress sysbp chol tri age
Source | SS df MS Number of obs = 20-------------+------------------------------ F( 3, 16) = 35.56
Model | 7942.70165 3 2647.56722 Prob > F = 0.0000Residual | 1191.09835 16 74.4436471 R-squared = 0.8696
-------------+------------------------------ Adj R-squared = 0.8451Total | 9133.80 19 480.726316 Root MSE = 8.6281
------------------------------------------------------------------------------sysbp | Coef. Std. Err. t P>|t| [95% Conf. Interval]
-------------+----------------------------------------------------------------chol | .1654515 .0496455 3.33 0.004 .0602076 .2706953tri | .2006968 .0745745 2.69 0.016 .042606 .3587876age | .5122311 .2802612 1.83 0.086 -.0818961 1.106358
_cons | 27.15522 12.80998 2.12 0.050 -.0007309 54.31117------------------------------------------------------------------------------
ดท Partial t โดย p-value >.05 ไมมนยสาคญทางสถต
ตดตวแปร age ออก
. regress sysbp chol tri
Source | SS df MS Number of obs = 20-------------+------------------------------ F( 2, 17) = 45.42
Model | 7694.02578 2 3847.01289 Prob > F = 0.0000Residual | 1439.77422 17 84.6926011 R-squared = 0.8424
-------------+------------------------------ Adj R-squared = 0.8238Total | 9133.80 19 480.726316 Root MSE = 9.2029
------------------------------------------------------------------------------sysbp | Coef. Std. Err. t P>|t| [95% Conf. Interval]
-------------+----------------------------------------------------------------chol | .1875776 .0513543 3.65 0.002 .0792295 .2959258tri | .238911 .0763522 3.13 0.006 .0778219 .4
_cons | 40.00673 11.42093 3.50 0.003 15.91068 64.10278------------------------------------------------------------------------------
ใชโมเดลเดม SYSBP = 40.01 + .188CHOL + .239TRI
สรปการนาเขาแบบขนตอน
1. หาความสมพนธตวแปรอสระทกตวแปร กบตวแปรตาม
นาเขาตวแปรทสมพนธมากกอน
2. พจารณาตวแปรทเหลอตวแปรไหนมความสมพนธมากและ
มนยสาคญนาเขาในโมเดล
3. พจารณาตดออกจาก P-value ถาตวแปรไหนไมเปนตาม
criteria ตดออก (p-value > pr)
4. ทาซาในขนตอน 2-3 ใหม
19
วธสมการถดถอยแบบขนตอน (Stepwise regression procedure)
. sw regress sysbp chol age tri, pr(0.1) pe(.05) forwardbegin with empty model
p = 0.0000 < 0.0500 adding cholp = 0.0061 < 0.0500 adding tri
Source | SS df MS Number of obs = 20---------+------------------------------ F( 2, 17) = 45.42
Model | 7694.02578 2 3847.01289 Prob > F = 0.0000Residual | 1439.77422 17 84.6926011 R-squared = 0.8424---------+------------------------------ Adj R-squared = 0.8238
Total | 9133.80 19 480.726316 Root MSE = 9.2029
------------------------------------------------------------------------------sysbp | Coef. Std. Err. t P>|t| [95% Conf. Interval]
---------+--------------------------------------------------------------------chol | .1875776 .0513543 3.653 0.002 .0792295 .2959258tri | .238911 .0763522 3.129 0.006 .0778219 .4
_cons | 40.00673 11.42093 3.503 0.003 15.91068 64.10278---------+--------------------------------------------------------------------
Report Regression Table (Publication Manual of the American Psychological
Association sixth Edition,2010;pp 145.)
Stepwise logistic regression พจารณาคา p-value
Hosmer & Lemeshow (2000) ควรกาหนด
p-value for entry (Pe).15-.25 , p-value for remove (Pr) > Pe
การกาหนด p-value for entry สงหรอตาเกนไป
-use more tradition level (.05)fails to identify variables known
to be important ?
-higher level has disadvantage of including variables that are of
questionable importance at the model building stage
(Original: Mickey & Greenland,1977:p125-137;
Cite in : Hosmer & Lemeshow (2000):p95 )
20
ขอกาหนดในการวเคราะหสมการถดถอยพห (Assumption)
- คา residual (ei) มการแจกแจงแบบปกต
- คา residual (ei) มคา variance คงท (homoscedasticity)
-คา residual (ei) ไมมความสมพนธกบคาอนๆ
(no auto-correlation)
- Independent
- ไมม Multicollinearity
คา residual (ei) มการแจกแจงแบบปกต
-Normal probability plot เชน p-plot หรอ quantile-normal plot
-Shapiro-Wilk Test หรอ Leilifor Test
. quietly regress sysbp chol age tri
. predict e,residual
. swilk eShapiro-Wilk W test for normal data
Variable | Obs W V z Prob>z-------------+-------------------------------------------------
e | 20 0.95467 1.073 0.142 0.44361
. quietly regress sysbp chol age tri
. predict e,residual
. swilk eShapiro-Wilk W test for normal data
Variable | Obs W V z Prob>z-------------+-------------------------------------------------
e | 20 0.95467 1.073 0.142 0.44361. pnorm e
21
คา residual (ei) มคา variance คงท (homoscedasticity)
-การฟลอตกราฟ ระหวางคา residual (ei) กบ
-ทดสอบ Cook-Weisberg test for heteroscedasticity
Stataestat hettest tests for heteroskedasticityestat imtest information matrix testestat ovtest Ramsey regression specification-error
test for omitted variablesestat szroeter Szroeter's rank test for
heteroskedasticity
rvfplot residual-versus-fitted plot
iY
. estat hettestBreusch-Pagan / Cook-Weisberg test for heteroskedasticity
Ho: Constant varianceVariables: fitted values of sysbpchi2(1) = 1.32Prob > chi2 = 0.2500
. rvfplot, yline(0)
. estat szroeter , rhs mtest(holm)
Szroeter's test for homoskedasticity
Ho: variance constantHa: variance monotonic in variable
---------------------------------------Variable | chi2 df p
-------------+-------------------------chol | 1.45 1 0.4557 #age | 0.46 1 0.4984 #tri | 1.88 1 0.5107 #
---------------------------------------# Holm adjusted p-values
. hettest , rhs mtest(bonf)
Breusch-Pagan / Cook-Weisberg test for heteroskedasticityHo: Constant variance
---------------------------------------Variable | chi2 df p
-------------+-------------------------chol | 1.23 1 0.7995 #age | 0.37 1 1.0000 #tri | 1.26 1 0.7842 #
-------------+-------------------------simultaneous | 1.45 3 0.6939---------------------------------------
# Bonferroni adjusted p-values
22
. hettestCook-Weisberg test for heteroskedasticity using fitted values of y
Ho: Constant variancechi2(1) = 7.44Prob > chi2 = 0.0064
. rvfplot, border yline(0)
. hettestCook-Weisberg test for heteroskedasticity using fitted values of y
Ho: Constant variancechi2(1) = 0.00Prob > chi2 = 1.0000
. rvfplot, border yline(0)
คา residual (ei) ไมมความสมพนธกบคาอนๆ
(no auto-correlation) **ใชเฉพาะขอมลแบบ Time-Series
- ความสมพนธระหวางคาระหวางรายขอมลของตวแปรเดยวกน
คา error รายท i จะมความสมพนธกบ error รายท i-1
- การคานวณ สถต Durbin-Watson test (d)
- d < 2 พบวาเกด positive autocorrelation
- d>2 เกด negative autocorrelation
n
iie
n
i)
ie(e
d
1
2
2
21
23
id age time expose lt1 42 15 1 54 2 46 14 2 7.3 3 43 8 4 3 4 25 3 3 2 5 26 13 4 5.4 6 55 12 4 5 7 23 10 4 3.7 8 24 11 4 5 9 38 7 3 2.8 10 24 4 4 2.2 11 28 6 4 2.5 12 38 9 4 3.1 13 26 5 4 2.5 14 28 1 4 .8 15 26 2 2 1.2
ตวอยาง การศกษาการไดรบสาร Beryllium ในคนงานเหมองถานหน
โดยศกษาตวแปร age exposure กบ higher rate of blastogenic
lymphocyte transformation (lt ratio)
. tsset timetime variable: time, 1 to 15
delta: 1 unit
. qui regress lt age expose
. estat dwatson
Durbin-Watson d-statistic( 3, 15) = 1.98835
. estat durbinaltDurbin's alternative test for autocorrelation--------------------------------------------------------------------
lags(p) | chi2 df Prob > chi2-------------+------------------------------------------------------
1 | 1.843 1 0.1746--------------------------------------------------------------------
H0: no serial correlation
Multicollinearity
-Multicollinearity ความสมพนธกนสง ระหวางตวแปรอสระดวยกน
-การลบหรอเพมตวแปรในโมเดล ทาใหเปลยนแปลงคาสมประสทธ
สมการถดถอยทงขนาดหรอเครองหมาย
-แมคา R2 มคาสงแตการทดสอบทางสถตกบสมประสทธ
สมการถดถอย พบวาไมมนยสาคญ
-ทาใหคา Standard error สง ซงสงผลใหคา t ตา
24
วธ Informal methods
1. พจารณาโดยการสงเกตจาก คาสมประสทธสมการถดถอย
ทมการเปลยนแปลงมาก เมอเพมหรอลดตวแปรในโมเดล
2. การทดสอบสมประสทธสมการถดถอยแตละคา
พบวาไมมระดบนยสาคญทางสถต
3. คาเครองหมายของสมประสทธสมการถดถอย
เปลยนเปนตรงกนขามกบทฤษฎหรอการศกษาใดๆ ททามากอน
วธ Informal methods
4. สมประสทธสหสมพนธระหวางตวแปรอสระมคาสง
(r> .90 Hamilton; 1992:135)
(r2>.90; r>.95 Kleinbaum, Muller, Nizam; 1998:241)
5. คาชวงเชอมนของสมประสทธสมการถดถอยของตวแปรอสระ
มคากวาง
วธ Formal methods
1. วธ Variance inflation factors*
2. วธ Ridge regression
วธ Variance inflation factors-วธคานวณคาเฉลยของ variance inflation factors
- เพอวดวาความแปรปรวนทประมาณจากคาสมประสทธ สมการถดถอย inflated ไปเพยงใดเมอเปรยบเทยบกบ การมตวแปรอสระทไมมความสมพนธเชงเสน
2
iR1
11)
2
iR(1
iVIF
1-p
1-p
1i
KVIF
VIF
25
iVIF
2)
ix
ij(x
22
ib
σ
σ
-เมอคา มคา 0 คา VIFiจะมคาเทากบ 1
แตถา มมากกวา 0 คา VIFi จะมคามากกวา 1
ซงทาใหคา สง (inflated) ขน
เมอเปรยบเทยบกบคา ท มคา 0
2
iR
2
iR
2
iR
2
ib
σ
2
ib
σ
Indication of Multicollinearity ดวยวธ Variance inflation factors*
- VIF > 10 indication that Multicollinearity
- Mean VIF provides information about the severity of the
multicollinearity
- if Mean VIF > 1 are indicative of serious multicollinearity
problems
*Neter, Wasserman, Kutner (1987; p.392)
Marquardt (1970); Belsley, Kuh & Welsch (1980)
-Stata
estat vif variance inflation factors for the independent variables
. quietly regress sysbp chol age tri
. vifVariable | VIF 1/VIF -------------+----------------------
tri | 2.45 0.407722chol | 2.40 0.416193age | 1.58 0.631508
-------------+----------------------Mean VIF | 2.15
หรอ
. estat vifVariable | VIF 1/VIF
-------------+----------------------tri | 2.45 0.407722chol | 2.40 0.416193age | 1.58 0.631508
-------------+----------------------Mean VIF | 2.15
. di (2.45+2.40+1.58)/32.1433333