Chương 6: Đa cộng tuyến

28
Chương 6: Đa cộng tuyến 1. Bản chất và nguyên nhân 2. Hậu quả 3. Cách phát hiện 4. Cách khắc phục

description

Chương 6: Đa cộng tuyến. 1. Bản chất và nguyên nhân 2. Hậu quả 3. Cách phát hiện 4. Cách khắc phục. 1. Bản chất và nguyên nhân. Ví dụ: Năng suất cây trồng chịu sự ảnh hưởng của Lượng phân bón và Công lao động. Hai biến giải thích này có quan hệ đồng biến với nhau - PowerPoint PPT Presentation

Transcript of Chương 6: Đa cộng tuyến

Page 1: Chương 6: Đa cộng tuyến

Chương 6: Đa cộng tuyến

1. Bản chất và nguyên nhân

2. Hậu quả

3. Cách phát hiện

4. Cách khắc phục

Page 2: Chương 6: Đa cộng tuyến

1. Bản chất và nguyên nhân

Page 3: Chương 6: Đa cộng tuyến
Page 4: Chương 6: Đa cộng tuyến

Ví dụ:

Năng suất cây trồng chịu sự ảnh hưởng của

Lượng phân bón và Công lao động. Hai biến

giải thích này có quan hệ đồng biến với nhau

Chi phí bảo trì xe chịu sự ảnh hưởng của số

dặm xe đã chạy và số năm của chiếc xe. Có

sự tương quan giữa số dặm và số năm.

Page 5: Chương 6: Đa cộng tuyến

Có 2 dạng đa cộng tuyến

Đa cộng tuyến hoàn hảo:

Đa cộng tuyến không hoàn hảo:

Với vi là sai số ngẫu nhiên

... 1 1 2 2 K KX X X 0

...... 1 i1 2 i2 K iK iX X X X 0

Page 6: Chương 6: Đa cộng tuyến

Ví dụ: dữ liệu giả định cho các biếnX1 X2 X2* V10 50 52 215 75 75 018 90 97 724 120 129 930 150 152 2

Ta thấy: X2 = 5X1

nên có đa cộng tuyến hoàn hảo giữa X1 và X2.

X2* = 5X1 + V

nên có đa cộng tuyến không hoàn hảo giữa X1, X2*

Page 7: Chương 6: Đa cộng tuyến

Nguyên nhân:Mẫu không đặc trưng cho tổng thể

Do bản chất mối quan hệ giữa các biến

Ví dụ:

Hồi quy lượng điện năng tiêu thụ theo thu nhập và

diện tích nhà ở. Trong mối quan hệ này ẩn chứa đa

cộng tuyến vì những gia đình có thu nhập cao thường

có nhà rộng hơn.

Page 8: Chương 6: Đa cộng tuyến

2. Hậu quả

Các ước lượng vẫn BLUE

Mô hình không thể ước lượng được nếu các

biến độc lập quan hệ hoàn hảo.

Gia tăng sai số chuẩn => giảm trị thống kê t

=> giảm ý nghĩa của các hệ số

Page 9: Chương 6: Đa cộng tuyến

Trị thống kê t thấp nhưng R2 có thể rất cao

Không thể hiện được tác động riêng lẻ của

từng biến giải thích

Không gây ảnh hưởng xấu đến việc thực

hiện dự báo giá trị của biến phụ thuộc

Page 10: Chương 6: Đa cộng tuyến

Ví dụ: Mối quan hệ giữa Cost, Age và Milesobs cost age miles obs cost age miles obs cost age miles1 11 5 0.8 21 985 232 36.6 41 1583 366 53.22 16 12 3 22 1021 235 37 42 1609 384 55.73 55 30 4.9 23 1030 239 38.1 43 2825 388 564 66 40 7.1 24 1096 249 39.5 44 2893 402 57.35 76 42 7.6 25 1114 260 40.7 45 2918 432 60.26 83 53 10.1 26 1134 271 43 46 3011 433 60.37 135 66 12 27 1157 272 43.1 47 3077 436 60.68 160 73 12.8 28 1176 273.5 43.2 48 3095 446 639 163 79 13.9 29 1182 276 43.4 49 3154 456 63.7

10 211 101 18.6 30 1182 279 43.7 50 3162 463.5 63.911 258 114 21.1 31 1231 281 44.3 51 3217 465 65.112 322 129 23.2 32 1244 313 47.6 52 3274 478 65.813 374 150 25.3 33 1257 326 48.9 53 3320 485 67.714 408 180 28.7 34 1260 328 49.1 54 3329 498.5 72.115 478 195 30.5 35 1342 329 49.2 55 3401 526 72.116 489 196 30.6 36 1356 336.5 50 56 3412 527 73.617 536 204 31.4 37 1467 338 50.1 57 3425 538 74.418 590 212 32.9 38 1518 342.5 50.6        19 604 224 35.3 39 1557 344.5 50.8        20 704 227 35.3 40 1565 351 51.6        

Page 11: Chương 6: Đa cộng tuyến

Xét 3 mô hình:

Mô hình A:

Mô hình B:

Mô hình C:

Trong đó: Why?

uAgeCost ttt 121

uMilesCost ttt 221

uMilesAgeCost tttt 3321

0,,,3222

Page 12: Chương 6: Đa cộng tuyến

Bảng các tham số ước lượng

Biến Mô hình A Mô hình B Mô hình C

Hằng số -625.94 -796.07 22.19

  -6.01 -5.91 0.23

Age 7.34   28.02

  22.28   10.09

Miles   53.45 -154.63

    18.27 -7.47

df 56 56 55

R2 hiệu chỉnh 0.9 0.86 0.95

Hệ số tương quan     0.996

Page 13: Chương 6: Đa cộng tuyến

Nhận xét:

Mô hình A, B: hệ số ước lượng đúng với

dấu kỳ vọng và có ý nghĩa về mặt thống kê.

Mô hình C: hệ số ước lượng của Miles

không đúng với dấu kỳ vọng và trị thống kê

t giảm đáng kể, R2 cao.

Hệ số tương quan giữa Age và Miles cao

Page 14: Chương 6: Đa cộng tuyến

3. Cách phát hiện Giá trị R2 cao và trị thống kê t thấp

Hệ số tương quan cặp giữa các biến giải thích cao

(theo kinh nghiệm > 0.8 thì có đa cộng tuyến). Tuy

nhiên kinh nghiệm này không chính xác.

Hệ số hồi quy thay đổi khi thêm hay bớt biến giải

thích.

Page 15: Chương 6: Đa cộng tuyến

Xét mô hình hồi quy phụ

Xây dựng mô hình hồi quy phụ giữa các

biến X

Xác định R2 của từng mô hình hồi quy phụ

Nếu R2 phụ > R2 gốc thì có đa cộng tuyến

Page 16: Chương 6: Đa cộng tuyến

4. Cách khắc phục Chung sống với lũ: khi ta ít (hoặc không quan

tâm) đến việc diễn dịch từng hệ số hồi quy riêng lẻ

mà chỉ chú ý đến việc dự báo.

Loại bỏ bớt những biến có trị thống kê t thấp để

cải thiện mức ý nghĩa của các biến còn lại.

Tăng kích thước mẫu

Sử dụng thông tin tiên nghiệm

Page 17: Chương 6: Đa cộng tuyến

Ví dụ: Nghiên cứu tỷ lệ nghèo và các yếu tố ảnh hưởng

Povrate(tỷ lệ nghèo): tỷ lệ hộ nghèo (%)

Urb: tỷ lệ dân thành thị (%)

Famsize: Số người trong một hộ ga đình

Unemp: Tỷ lệ thất nghiệp (%)

Page 18: Chương 6: Đa cộng tuyến

Highschl: tỷ lệ dân số có trình độ trung học (%)

College: tỷ lệ dân số có trình độ cao đẳng trở

lên (%)

Medinc: Thu nhập hộ gia đình(1000USD/hộ)

Kỳ vọng: β3, β4 > 0, β2, β5 , β6, β7 < 0

MedincCollegeHighschlUnempFamsizeUrbPovrate 7654321

Page 19: Chương 6: Đa cộng tuyến

Kết xuất Eview

Page 20: Chương 6: Đa cộng tuyến

Nhận xét

• R2adj: khá cao nhưng có nhiều hệ số ước lượng

trong mô hình không có ý nghĩa thống kê

(Pvalue > 5%)

• Hệ số không đúng với kỳ vọng

=> có hiện tượng đa cộng tuyến trong mô hình

0,0 ˆˆ64

Page 21: Chương 6: Đa cộng tuyến

Loại bỏ biến Unemp (pvalue = 0.92 >5%)

Page 22: Chương 6: Đa cộng tuyến

Loại bỏ biến Urb (pvalue = 0.2 >5%)

Page 23: Chương 6: Đa cộng tuyến

Nhận xét:

• : không đúng với dấu kỳ vọng

• Sự ảnh hưởng của biến Medinc đến tỷ lệ

nghèo có thể được giải thích thông qua biến

Highschl và biến College

=> khi ước lượng mô hình có thể loại bỏ biến

Medinc

0ˆ4

Page 24: Chương 6: Đa cộng tuyến
Page 25: Chương 6: Đa cộng tuyến

Nhận xét:• Hệ số ước lượng của biến Highschl và College

có ý nghĩa thống kê và đúng với dấu kỳ vọng

• Hệ số ước lượng của Famsize nghịch với dấu kỳ

vọng

• Giá trị R2adj giảm đáng kể

Page 26: Chương 6: Đa cộng tuyến

medinc = f(famsize, unemp, highschl, college)

Page 27: Chương 6: Đa cộng tuyến

Nhận xét• Tất cả các hệ số đều rất có ý nghĩa và có dấu như

kỳ vọng

• R2adj: có giá trị cao

=> Đa cộng tuyến là lý do về dấu không như kỳ

vọng của biến College trong mô hình tỷ lệ nghèo.

Page 28: Chương 6: Đa cộng tuyến

Loại bỏ biến College