Chương 2: Thống kê kết quả hoạt động sản xuất kinh doanh của ...
THỐNG KÊ TRONG KINH TẾ VÀ KINH DOANH · PDF fileTHỐNG KÊ TRONG KINH T...
Transcript of THỐNG KÊ TRONG KINH TẾ VÀ KINH DOANH · PDF fileTHỐNG KÊ TRONG KINH T...
1
THỐNG KÊ TRONG KINH TẾ VÀ KINH DOANH
CHƯƠNG 10: SUY DIỄN THỐNG KÊ CHO TRUNG
BÌNH VÀ TỶ LỆ CỦA HAI TỔNG THỂ
M&B – 1/6/2017
1. SUY DIỄN VỀ CHÊNH LỆCH GIỮA TRUNG BÌNH CỦA HAI
TỔNG THỂ KHI 1 VÀ 2 ĐÃ BIẾT
• Ký hiệu 1 là trung bình của tổng thể 1, và 1 là trung
bình của tổng thể 2.
• Mục tiêu: suy diễn về chênh lệch giữa hai trung bình: 1
- 2.
• Để thực hiện suy diễn này, ta chọn một mẫu ngẫu nhiên
đơn giản gồm n1 đơn vị từ tổng thể 1, và một mẫu ngẫu
nhiên đơn giản gồm n2 đơn vị từ tổng thể 2. [Hai mẫu này
được chọn riêng lẻ và độc lập, được gọi là các mẫu đơn
độc lập].
• Giả định rằng thông tin về độ lệch chuẩn của hai tổng
thể, 1 và 2, đã được biết trước khi thu thập mẫu.
Ước lượng khoảng của 1 - 2
Xét ví dụ (trang 488) về công ty Greystone Department Stores:
• Có 2 cửa hàng: một ở nội ô và một ở ngoại ô
• Vấn đề: sản phẩm được bán chạy ở cửa hàng này thì không
phải luôn luôn được bán chạy ở cửa hàng kia.
• Lý do: có thể do sự khác nhau trong đặc điểm nhân khẩu
học của khách hàng ở hai khu vực (tuổi, trình độ học
vấn, thu nhập, …)
• Người quản lý yêu cầu điều tra sự khác nhau về độ tuổi
trung bình của khách hàng ở hai cửa hàng.
2
Gọi tổng thể 1 là tất cả khách hàng của cửa hàng trong nội ô
và tổng thể 2 là tất cả khách hàng của cửa hàng ngoại ô.
• 1 = trung bình của tổng thể 1 (độ tuổi trung bình của
tất cả khách hàng mua hàng tại cửa hàng nội ô)
• 2 = trung bình của tổng thể 2 (độ tuổi trung bình của
tất cả khách hàng mua hàng tại cửa hàng ngoại ô)
Chênh lệch của trung bình hai tổng thể:
1 - 2
Để ước lượng 1 - 2, ta chọn một mẫu ngẫu nhiên đơn giản gồm
n1 khách hàng từ tổng thể 1 và một mẫu ngẫu nhiên đơn giản
gồm n2 khách hàng từ tổng thể 2. Và ta có trung bình mẫu như
sau:
• 𝑥1̅ = tuổi trung bình của mẫu ngẫu nhiên đơn giản gồm n1
khách hàng nội ô
• 𝑥2̅̅ ̅ = tuổi trung bình của mẫu ngẫu nhiên đơn giản gồm n2
khách hàng ngoại ô
ƯỚC LƯỢNG ĐIỂM CỦA CHÊNH LỆCH GIỮA TRUNG BÌNH CỦA HAI
TỔNG THỂ
�̅�1 - �̅�2
(em xem HÌNH 10.1, trang 489)
SAI SỐ CHUẨN CỦA �̅�1 - �̅�2
𝜎�̅�1 − �̅�2 = √
𝜎12
𝑛1+
𝜎22
𝑛2
3
• Nếu cả hai tổng thể có phân phối chuẩn, hoặc nếu cỡ mẫu
đủ lớn thì định lý giới hạn trung tâm cho phép chúng ta
kết luận rằng phân phối của �̅�1 và �̅�2 có thể xấp xỉ bằng
phân phối chuẩn, và phân phối mẫu của �̅�1 - �̅�2 (lưu ý: một
kết hợp tuyến tính của hai biến có phân phối chuẩn) sẽ
có phân phối chuẩn với trung bình là 1 - 2.
• Ước lượng khoảng của chênh lệch sẽ như sau:
�̅�1 - �̅�2 sai số biên
• Sai số biên được tính như sau:
Sai số biên = 𝑧𝛼/2𝜎�̅�1−�̅�2= 𝑧𝛼/2√
𝜎12
𝑛1+
𝜎22
𝑛2
ƯỚC LƯỢNG KHOẢNG CỦA CHÊNH LỆCH GIỮA TRUNG BÌNH CỦA
HAI TỔNG THỂ KHI BIẾT 1 VÀ 2
�̅�1 - �̅�2 𝑧𝛼/2√𝜎1
2
𝑛1+
𝜎22
𝑛2
Với (1 - ) là độ tin cậy.
4
Quay lại ví dụ của Greystone:
Cửa hàng nội ô Cửa hàng ngoại ô
Độ lệch chuẩn tổng thể 1 = 9 2 = 10
Cỡ mẫu n1 = 36 n1 = 49
Trung bình mẫu �̅�1 = 40 �̅�2 = 35
Giả sử độ tin cậy 95% và z/2 = z0.025 = 1.96, ta có:
[=-NORMINV(0.025,0,1) = 1.96]
�̅�1 - �̅�2 𝑧𝛼/2√𝜎1
2
𝑛1+
𝜎22
𝑛2
�̅�1 - �̅�2 1.96√92
36+
102
49
5 4.06
Vậy chênh lệch giữa hai trung bình tổng thể với độ tin cậy
95% là khoảng 0.94 đến 9.06 tuổi.
5
Kiểm định giả thuyết về 1 - 2
• Ký hiệu: D0 là chênh lệch giả thuyết giữa trung bình tổng
thể 1 và 2.
• Trong nhiều trường hợp, D0 = 0. Nghĩa là H0: 1 - 2 = 0,
tức 1 và 2 bằng nhau. Nếu bác bỏ H0, dẫn đến kết luận giả
thuyết Ha: 1 - 2 ≠ 0, tức là 1 và 2 không bằng nhau.
TÓM TẮT QUAN TRỌNG:
Kiểm định phía
trái
Kiểm định phía
phải
Kiểm định hai
phía
Giả thuyết H0: 1 - 2 ≥ D0
Ha: 1 - 2 < D0
H0: 1 - 2 ≤ D0
Ha: 1 - 2 > D0
H0: 1 - 2 = D0
Ha: 1 - 2 ≠ D0
Giá trị thống kê z =
(�̅�1− �̅�2)− 𝐷0
√𝜎1
2
𝑛1 +
𝜎22
𝑛2
z = (�̅�1− �̅�2)− 𝐷0
√𝜎1
2
𝑛1 +
𝜎22
𝑛2
z = (�̅�1− �̅�2)− 𝐷0
√𝜎1
2
𝑛1 +
𝜎22
𝑛2
Quy tắc quyết định Bác bỏ H0 nếu: Bác bỏ H0 nếu: Bác bỏ H0 nếu:
* Giá trị p Giá trị p ≤ Giá trị p ≤ Giá trị p ≤
* Giá trị tới hạn z ≤ -z z ≥ z z ≤ -z/2
hoặc z ≥ z/2
6
Thực hành với Stata nhanh vô cùng:
Ví dụ (trang 491-492, dữ liệu ExamScores.xls)
Em copy dữ liệu sang Stata, và dùng lệnh ztest (unpaired:
nghĩa là không so theo cặp) như sau (NHỚ LÀ KHÔNG SO SÁNH
THEO CẶP NÊN EM SỬ DỤNG LỆNH VỚI UNPAIRED):
• Theo giá trị p: so p = 0.0977 với = 0.05
• Theo giá trị tới hạn: so z = 1.6562 với z0.025 = 1.96
[=NORMINV(2.5%,0,1)]
=> KẾT LUẬN: KHÔNG THỂ BÁC BỎ H0.
Lưu ý: Kết quả này chênh lệch một ít so với trong sách bởi vì
trong sách đã làm tròn số.
Ước lượng
khoảng nè
7
2. SUY DIỄN VỀ CHÊNH LỆCH GIỮA TRUNG BÌNH CỦA HAI
TỔNG THỂ KHI KHÔNG BIẾT 1 VÀ 2
• Trường hợp này, ta sẽ sử dụng độ lệch chuẩn mẫu s1 và s2
để ước lượng độ lệch chuẩn tổng thể chưa biết.
• Tương tự như các chương trước, khi sử dụng độ lệch chuẩn
mẫu, quy trình ước lượng khoảng và kiểm định giả thuyết
sẽ dựa vào phân phối t thay cho phân phối chuẩn hóa z.
Ước lượng khoảng của 1 - 2
�̅�1 - �̅�2 𝑡𝛼/2√𝑠1
2
𝑛1+
𝑠22
𝑛2
Với (1 - ) là độ tin cậy.
• Ở đây, khó khan nhất (nếu tính bằng tay) là tính bậc tự
do để xác định giá trị t/2. [Tuy nhiên, điều này không
quan trọng lắm vì các phần mềm thống kê tự động tính bậc
tự do thích hợp theo cong thức sau đây:]
𝑑𝑓 = (
𝑠12
𝑛1 +
𝑠22
𝑛2)
1𝑛1 − 1 (
𝑠12
𝑛1)
2
+ 1
𝑛2 − 1 (𝑠2
2
𝑛2)
2
(trời ơi, làm sao mà nhớ nổi đây em 😉)
8
Kiểm định giả thuyết về 1 - 2
• Ký hiệu: D0 là chênh lệch giả thuyết giữa trung bình tổng
thể 1 và 2.
• Trong nhiều trường hợp, D0 = 0. Nghĩa là H0: 1 - 2 = 0,
tức 1 và 2 bằng nhau. Nếu bác bỏ H0, dẫn đến kết luận giả
thuyết Ha: 1 - 2 ≠ 0, tức là 1 và 2 không bằng nhau.
TÓM TẮT QUAN TRỌNG:
Kiểm định phía
trái
Kiểm định phía
phải
Kiểm định hai
phía
Giả thuyết H0: 1 - 2 ≥ D0
Ha: 1 - 2 < D0
H0: 1 - 2 ≤ D0
Ha: 1 - 2 > D0
H0: 1 - 2 = D0
Ha: 1 - 2 ≠ D0
Giá trị thống kê t =
(�̅�1− �̅�2)− 𝐷0
√𝑠1
2
𝑛1 +
𝑠22
𝑛2
t = (�̅�1− �̅�2)− 𝐷0
√𝑠1
2
𝑛1 +
𝑠22
𝑛2
t = (�̅�1− �̅�2)− 𝐷0
√𝑠1
2
𝑛1 +
𝑠22
𝑛2
Quy tắc quyết định Bác bỏ H0 nếu: Bác bỏ H0 nếu: Bác bỏ H0 nếu:
* Giá trị p Giá trị p ≤ Giá trị p ≤ Giá trị p ≤
* Giá trị tới hạn t ≤ -t t ≥ t t ≤ -t/2
hoặc t ≥ t/2
9
Thực hành với Stata:
Ví dụ (trang 496 – 498, dữ liệu CHECKACCT.xls)
Chuyển sang tập tin Stata và sử dụng lệnh ttest như sau (NHỚ
LÀ KHÔNG SO SÁNH THEO CẶP NÊN EM SỬ DỤNG LỆNH VỚI UNPAIRED):
10
Ví dụ (trang 498 – 500, dữ liệu SOFTWARETEST.xls). LƯU Ý: EM
KHÔNG SO SÁNH THEO CẶP NÊN SỬ DỤNG LỆNH VỚI UNPAIRED.
Việc kiểm định như thế này sẽ được dùng rất nhiều
trong thống kê mô tả ở môn Phương pháp nghiên cứu,
Thu thập và quản lý dữ liệu. Và đặc biệt là trong
phân tích dữ liệu cho khóa luận tốt nghiệp nếu chọn
các chủ đề về dữ liệu chéo. Vì khi đó, ta thường so
sánh trung bình (ví dụ thu nhập hoặc chi tiêu hoặc
năng suất, …) giữa các nhóm (chủ hộ là nam hay nữ,
thành thị hay nông thôn, …).
11
3. SUY DIỄN VỀ CHÊNH LỆCH TRUNG BÌNH GIỮA HAI TỔNG
THỂ: MẪU THEO CẶP
Xét ví dụ trang 506:
Giả sử nhân viên một công ty sản xuất sử dụng hai phương pháp
khác nhau để thực hiện cùng một công việc. Để tối đa hóa sản
lượng, công ty muốn nhận diện phương pháp nào cho thời giant
rung bình ngắn hơn.
• Ký hiện 1 là thời gian hoàn thành trung bình trong tổng
thể của phương pháp sản xuất 1.
• Ký hiện 2 là thời gian hoàn thành trung bình trong tổng
thể của phương pháp sản xuất 2.
• Do không có thông tin là phương pháp nào tốt hơn, nên ta
giả sử cả hai phương pháp sản xuất có cùng thời gian hoàn
thành trung bình. Vì thế, giả thuyết như sau:
H0: 1 - 2 = 0
Ha: 1 - 2 ≠ 0
Phân biệt hai cách thiết kế mẫu:
(1) Thiết kế mẫu độc lập:
• Một mẫu ngẫu nhiên đơn giản thứ nhất bao gồm các
công nhân được chọn và mỗi công nhân trong mẫu
này đều sử dụng phương pháp sản xuất 1.
• Một mẫu ngẫu nhiên đơn giản thứ hai bao gồm các
công nhân được chọn và mỗi công nhân trong mẫu
này đều sử dụng phương pháp sản xuất 2.
Kiểm định cho sự khác nhau trung bình giữa hai
tổng thể dựa vào quy trình ở Mục 2 ở trên (tức sử
dụng ttest, unpaired).
12
(2) Thiết kế mẫu theo cặp:
• Một mẫu ngẫu nhiên đơn giản bao gồm các công nhân
được chọn. Trước hết, mỗi công nhân sử dụng một
phương pháp và rồi sau đó sử dụng phương pháp còn
lại. Thứ tự của hai phương pháp được gán ngẫu
nhiên cho các công nhân (nghĩa là một số công nhân
sử dụng phương pháp 1 trước và một số công nhân
khác sử dụng phương pháp 2 trước). Lưu ý: Kiểm
soát thí nghiệm sao cho công nhân không biết họ
đang là đối tượng thí nghiệm.
• Như vậy, mỗi công nhân cung cấp một cặp số liệu:
một giá trị cho phương pháp 1 và một giá trị cho
phương pháp 2.
[Xem BẢNG 10.2, trang 507]
• Gọi d = trung bình của chênh lệch giữa các giá trị của
hai tổng thể. Giả thuyết được viết lại như sau:
H0: d = 0
Ha: d ≠ 0
• Gọi di = chênh lệch giữa thời gian hoàn thành giữa phương
pháp 1 và 2 của công nhân thứ i. Trung bình mẫu và độ
lệch chuẩn mẫu được tính như sau:
�̅� = ∑ 𝑑𝑖
𝑛
sd = √∑(𝑑𝑖− �̅�)2
𝑛−1
13
THỐNG KÊ KIỂM ĐỊNH GIẢ THUYẾT KHI MẪU THEO CẶP
𝑡 = �̅� − 𝜇𝑑
𝑠𝑑/√𝑛
Sai số biên được tính như sau:
�̅� ∓ 𝑡𝛼/2
𝑠𝑑
√𝑛
Thực hành với Stata:
Sử dụng tập tin MATCHED.xls, sử dụng lệnh ttest:
14
4. SUY DIỄN VỀ CHÊNH LỆCH GIỮA HAI TỶ LỆ TỔNG THỂ
• Ký hiệu p1 là tỷ lệ của tổng thể 1 và p2 là tỷ lệ của
tổng thể 2.
• Suy diễn chênh lệch giữa hai tổng thể: p1 – p2.
• Để suy diễn, ta chọn hai mẫu ngẫu nhiên đơn giản bao gồm
n1 đơn vị từ tổng thể 1 và n2 đơn vị từ tổng thể 2.
Ước lượng khoảng của p1 – p2
• p1 = tỷ lệ của tổng thể 1
• p2 = tỷ lệ của tổng thể 2
• �̅�1 = tỷ lệ mẫu của mẫu ngẫu nhiên độc lập thu thập từ
tổng thể 1
• �̅�2 = tỷ lệ mẫu của mẫu ngẫu nhiên độc lập thu thập từ
tổng thể 2
ƯỚC LƯỢNG ĐIỂM CHO CHÊNH LỆCH GIỮA TỶ LỆ CỦA HAI
TỔNG THỂ
�̅�1 - �̅�2
SAI SỐ CHUẨN CỦA �̅�1 - �̅�2
𝜎�̅�1−�̅�2 = √
𝑃1(1−𝑃1)
𝑛1+
𝑃2(1−𝑃2)
𝑛2
15
• Nếu cỡ mẫu đủ lớn, thì phân phối mẫu của �̅�1 - �̅�2 có thể
xấp xỉ bằng phân phối chuẩn.
• Do p1 và p2 không biết, nên ta sử dụng tỷ lệ mẫu để ước
lượng cho p1 và p2. Và sai số biên được tính như sau:
Sai số biên = z/2√�̅�1(1− �̅�1)
𝑛1+
�̅�2(1− �̅�2)
𝑛2
ƯỚC LƯỢNG KHOẢNG CHO CHÊNH LỆCH GIỮA TỶ LỆ CỦA HAI
TỔNG THỂ
�̅�1 - �̅�2 z/2√�̅�1(1− �̅�1)
𝑛1+
�̅�2(1− �̅�2)
𝑛2
[hơi nhức đầu, nhưng tí chạy bằng Stata dễ lắm 😊]
16
Kiểm định giả thuyết cho �̅�𝟏 - �̅�𝟐
• Giả thuyết H0 (xem bảng dưới) đúng khi hai tỷ lệ bằng
nhau: p1 = p2 và ta đặt = p.
• Khi p1 = p2 = p thì sai số chuẩn của �̅�1 - �̅�2 như sau:
𝜎�̅�1−�̅�2 = √
𝑃1(1−𝑃1)
𝑛1+
𝑃2(1−𝑃2)
𝑛2
= √𝑝(1−𝑝)
𝑛1+
𝑝(1−𝑝)
𝑛2
= √𝑝(1 − 𝑝) (1
𝑛1+
1
𝑛2)
• Tuy nhiên, do ta không biết p, nên cần phải dùng ước
lượng của p. (hiểu không?)
ƯỚC LƯỢNG KẾT HỢP CỦA p KHI p1 = p2 = p
[với �̅� là ước lượng của p].
�̅� = 𝑛1�̅�1 + 𝑛2�̅�2
𝑛1 + 𝑛2
[Nghĩa là, ước lượng kết hợp của p là trung bình có trọng số
của �̅�1 và �̅�2].
17
Thay �̅� cho p, ta có ước lượng của sai số chuẩn của �̅�1 - �̅�2 như
sau:
𝜎�̅�1−�̅�2 = √�̅�(1 − �̅�) (
1
𝑛1+
1
𝑛2)
Và giá trị z sẽ được tính như sau:
z = (�̅�1− �̅�2) − 0
√�̅�(1−�̅�)(1
𝑛1 +
1𝑛2
)
= (�̅�1− �̅�2)
√�̅�(1−�̅�)(1
𝑛1 +
1𝑛2
)
TÓM TẮT QUAN TRỌNG:
Kiểm định phía
trái
Kiểm định phía
phải
Kiểm định hai
phía
Giả thuyết H0: p1 - p2 ≥ 0
Ha: p1 - p2 < 0
H0: p1 - p2 ≤ 0
Ha: p1 - p2 > 0
H0: p1 - p2 = 0
Ha: p1 - p2 ≠ 0
Giá trị thống kê z =
(�̅�1− �̅�2)
√�̅�(1−�̅�)(1
𝑛1 + 1
𝑛2)
z = (�̅�1− �̅�2)
√�̅�(1−�̅�)(1
𝑛1 + 1
𝑛2)
z = (�̅�1− �̅�2)
√�̅�(1−�̅�)(1
𝑛1 + 1
𝑛2)
Quy tắc quyết định Bác bỏ H0 nếu: Bác bỏ H0 nếu: Bác bỏ H0 nếu:
* Giá trị p Giá trị p ≤ Giá trị p ≤ Giá trị p ≤
* Giá trị tới hạn z ≤ -z z ≥ z z ≤ -z/2
hoặc z ≥ z/2
18
Thực hành với Stata:
Ví dụ (trang 514, tập tin TAXPREP.xls)
Chuyển sang tập tin Stata, và có vài lưu ý nhỏ:
• Do dữ liệu dạng STRING, nên ta phải dùng lệnh encode (còn
nhớ chứ?)
. encode office1, gen(office_1)
. encode office2, gen(office_2)
• Bây giờ trong tập tin có 4 biến: office1, office_1,
office2, office_2. Nhưng ta không cần dùng hai biến
office1 và office2 nữa.
• Do mã hóa dữ liệu hiện tại của office_1 và office_2 là 1
và 2. Ta phải mã hóa lại, ví dụ 1 thành 0 và 2 thành 1
(dạng biến dummy).
. drop office1 office2
. gen office1= office_1
. gen office2= office_2
. replace office1=0 if office_1==1
. replace office1=1 if office_1==2
. replace office2=0 if office_2==1
. replace office2=1 if office_2==2
• Sử dụng lệnh prtest (pr: proportion), và ta có kết quả
như sau:
19
Ở đây là khoảng tin cậy 95% (mặc định với phần mềm
Stata). Tuy nhiên, ví dụ trong sách là khoảng tin cậy
90%, nên ta phải thêm level(90) vào: