Chương 6: Đa cộng tuyến
description
Transcript of Chương 6: Đa cộng tuyến
Chương 6: Đa cộng tuyến
1. Bản chất và nguyên nhân
2. Hậu quả
3. Cách phát hiện
4. Cách khắc phục
1. Bản chất và nguyên nhân
Ví dụ:
Năng suất cây trồng chịu sự ảnh hưởng của
Lượng phân bón và Công lao động. Hai biến
giải thích này có quan hệ đồng biến với nhau
Chi phí bảo trì xe chịu sự ảnh hưởng của số
dặm xe đã chạy và số năm của chiếc xe. Có
sự tương quan giữa số dặm và số năm.
Có 2 dạng đa cộng tuyến
Đa cộng tuyến hoàn hảo:
Đa cộng tuyến không hoàn hảo:
Với vi là sai số ngẫu nhiên
... 1 1 2 2 K KX X X 0
...... 1 i1 2 i2 K iK iX X X X 0
Ví dụ: dữ liệu giả định cho các biếnX1 X2 X2* V10 50 52 215 75 75 018 90 97 724 120 129 930 150 152 2
Ta thấy: X2 = 5X1
nên có đa cộng tuyến hoàn hảo giữa X1 và X2.
X2* = 5X1 + V
nên có đa cộng tuyến không hoàn hảo giữa X1, X2*
Nguyên nhân:Mẫu không đặc trưng cho tổng thể
Do bản chất mối quan hệ giữa các biến
Ví dụ:
Hồi quy lượng điện năng tiêu thụ theo thu nhập và
diện tích nhà ở. Trong mối quan hệ này ẩn chứa đa
cộng tuyến vì những gia đình có thu nhập cao thường
có nhà rộng hơn.
2. Hậu quả
Các ước lượng vẫn BLUE
Mô hình không thể ước lượng được nếu các
biến độc lập quan hệ hoàn hảo.
Gia tăng sai số chuẩn => giảm trị thống kê t
=> giảm ý nghĩa của các hệ số
Trị thống kê t thấp nhưng R2 có thể rất cao
Không thể hiện được tác động riêng lẻ của
từng biến giải thích
Không gây ảnh hưởng xấu đến việc thực
hiện dự báo giá trị của biến phụ thuộc
Ví dụ: Mối quan hệ giữa Cost, Age và Milesobs cost age miles obs cost age miles obs cost age miles1 11 5 0.8 21 985 232 36.6 41 1583 366 53.22 16 12 3 22 1021 235 37 42 1609 384 55.73 55 30 4.9 23 1030 239 38.1 43 2825 388 564 66 40 7.1 24 1096 249 39.5 44 2893 402 57.35 76 42 7.6 25 1114 260 40.7 45 2918 432 60.26 83 53 10.1 26 1134 271 43 46 3011 433 60.37 135 66 12 27 1157 272 43.1 47 3077 436 60.68 160 73 12.8 28 1176 273.5 43.2 48 3095 446 639 163 79 13.9 29 1182 276 43.4 49 3154 456 63.7
10 211 101 18.6 30 1182 279 43.7 50 3162 463.5 63.911 258 114 21.1 31 1231 281 44.3 51 3217 465 65.112 322 129 23.2 32 1244 313 47.6 52 3274 478 65.813 374 150 25.3 33 1257 326 48.9 53 3320 485 67.714 408 180 28.7 34 1260 328 49.1 54 3329 498.5 72.115 478 195 30.5 35 1342 329 49.2 55 3401 526 72.116 489 196 30.6 36 1356 336.5 50 56 3412 527 73.617 536 204 31.4 37 1467 338 50.1 57 3425 538 74.418 590 212 32.9 38 1518 342.5 50.6 19 604 224 35.3 39 1557 344.5 50.8 20 704 227 35.3 40 1565 351 51.6
Xét 3 mô hình:
Mô hình A:
Mô hình B:
Mô hình C:
Trong đó: Why?
uAgeCost ttt 121
uMilesCost ttt 221
uMilesAgeCost tttt 3321
0,,,3222
Bảng các tham số ước lượng
Biến Mô hình A Mô hình B Mô hình C
Hằng số -625.94 -796.07 22.19
-6.01 -5.91 0.23
Age 7.34 28.02
22.28 10.09
Miles 53.45 -154.63
18.27 -7.47
df 56 56 55
R2 hiệu chỉnh 0.9 0.86 0.95
Hệ số tương quan 0.996
Nhận xét:
Mô hình A, B: hệ số ước lượng đúng với
dấu kỳ vọng và có ý nghĩa về mặt thống kê.
Mô hình C: hệ số ước lượng của Miles
không đúng với dấu kỳ vọng và trị thống kê
t giảm đáng kể, R2 cao.
Hệ số tương quan giữa Age và Miles cao
3. Cách phát hiện Giá trị R2 cao và trị thống kê t thấp
Hệ số tương quan cặp giữa các biến giải thích cao
(theo kinh nghiệm > 0.8 thì có đa cộng tuyến). Tuy
nhiên kinh nghiệm này không chính xác.
Hệ số hồi quy thay đổi khi thêm hay bớt biến giải
thích.
Xét mô hình hồi quy phụ
Xây dựng mô hình hồi quy phụ giữa các
biến X
Xác định R2 của từng mô hình hồi quy phụ
Nếu R2 phụ > R2 gốc thì có đa cộng tuyến
4. Cách khắc phục Chung sống với lũ: khi ta ít (hoặc không quan
tâm) đến việc diễn dịch từng hệ số hồi quy riêng lẻ
mà chỉ chú ý đến việc dự báo.
Loại bỏ bớt những biến có trị thống kê t thấp để
cải thiện mức ý nghĩa của các biến còn lại.
Tăng kích thước mẫu
Sử dụng thông tin tiên nghiệm
Ví dụ: Nghiên cứu tỷ lệ nghèo và các yếu tố ảnh hưởng
Povrate(tỷ lệ nghèo): tỷ lệ hộ nghèo (%)
Urb: tỷ lệ dân thành thị (%)
Famsize: Số người trong một hộ ga đình
Unemp: Tỷ lệ thất nghiệp (%)
Highschl: tỷ lệ dân số có trình độ trung học (%)
College: tỷ lệ dân số có trình độ cao đẳng trở
lên (%)
Medinc: Thu nhập hộ gia đình(1000USD/hộ)
Kỳ vọng: β3, β4 > 0, β2, β5 , β6, β7 < 0
MedincCollegeHighschlUnempFamsizeUrbPovrate 7654321
Kết xuất Eview
Nhận xét
• R2adj: khá cao nhưng có nhiều hệ số ước lượng
trong mô hình không có ý nghĩa thống kê
(Pvalue > 5%)
• Hệ số không đúng với kỳ vọng
=> có hiện tượng đa cộng tuyến trong mô hình
0,0 ˆˆ64
Loại bỏ biến Unemp (pvalue = 0.92 >5%)
Loại bỏ biến Urb (pvalue = 0.2 >5%)
Nhận xét:
• : không đúng với dấu kỳ vọng
• Sự ảnh hưởng của biến Medinc đến tỷ lệ
nghèo có thể được giải thích thông qua biến
Highschl và biến College
=> khi ước lượng mô hình có thể loại bỏ biến
Medinc
0ˆ4
Nhận xét:• Hệ số ước lượng của biến Highschl và College
có ý nghĩa thống kê và đúng với dấu kỳ vọng
• Hệ số ước lượng của Famsize nghịch với dấu kỳ
vọng
• Giá trị R2adj giảm đáng kể
medinc = f(famsize, unemp, highschl, college)
Nhận xét• Tất cả các hệ số đều rất có ý nghĩa và có dấu như
kỳ vọng
• R2adj: có giá trị cao
=> Đa cộng tuyến là lý do về dấu không như kỳ
vọng của biến College trong mô hình tỷ lệ nghèo.
Loại bỏ biến College