THỐNG KÊ TRONG KINH TẾ VÀ KINH DOANH · PDF fileTHỐNG KÊ TRONG KINH T...

1

THỐNG KÊ TRONG KINH TẾ VÀ KINH DOANH

CHƯƠNG 10: SUY DIỄN THỐNG KÊ CHO TRUNG

BÌNH VÀ TỶ LỆ CỦA HAI TỔNG THỂ

M&B – 1/6/2017

1. SUY DIỄN VỀ CHÊNH LỆCH GIỮA TRUNG BÌNH CỦA HAI

TỔNG THỂ KHI 1 VÀ 2 ĐÃ BIẾT

• Ký hiệu 1 là trung bình của tổng thể 1, và 1 là trung

bình của tổng thể 2.

• Mục tiêu: suy diễn về chênh lệch giữa hai trung bình: 1

- 2.

• Để thực hiện suy diễn này, ta chọn một mẫu ngẫu nhiên

đơn giản gồm n1 đơn vị từ tổng thể 1, và một mẫu ngẫu

nhiên đơn giản gồm n2 đơn vị từ tổng thể 2. [Hai mẫu này

được chọn riêng lẻ và độc lập, được gọi là các mẫu đơn

độc lập].

• Giả định rằng thông tin về độ lệch chuẩn của hai tổng

thể, 1 và 2, đã được biết trước khi thu thập mẫu.

Ước lượng khoảng của 1 - 2

Xét ví dụ (trang 488) về công ty Greystone Department Stores:

• Có 2 cửa hàng: một ở nội ô và một ở ngoại ô

• Vấn đề: sản phẩm được bán chạy ở cửa hàng này thì không

phải luôn luôn được bán chạy ở cửa hàng kia.

• Lý do: có thể do sự khác nhau trong đặc điểm nhân khẩu

học của khách hàng ở hai khu vực (tuổi, trình độ học

vấn, thu nhập, …)

• Người quản lý yêu cầu điều tra sự khác nhau về độ tuổi

trung bình của khách hàng ở hai cửa hàng.

2

Gọi tổng thể 1 là tất cả khách hàng của cửa hàng trong nội ô

và tổng thể 2 là tất cả khách hàng của cửa hàng ngoại ô.

• 1 = trung bình của tổng thể 1 (độ tuổi trung bình của

tất cả khách hàng mua hàng tại cửa hàng nội ô)

• 2 = trung bình của tổng thể 2 (độ tuổi trung bình của

tất cả khách hàng mua hàng tại cửa hàng ngoại ô)

Chênh lệch của trung bình hai tổng thể:

1 - 2

Để ước lượng 1 - 2, ta chọn một mẫu ngẫu nhiên đơn giản gồm

n1 khách hàng từ tổng thể 1 và một mẫu ngẫu nhiên đơn giản

gồm n2 khách hàng từ tổng thể 2. Và ta có trung bình mẫu như

sau:

• 𝑥1̅ = tuổi trung bình của mẫu ngẫu nhiên đơn giản gồm n1

khách hàng nội ô

• 𝑥2̅̅ ̅ = tuổi trung bình của mẫu ngẫu nhiên đơn giản gồm n2

khách hàng ngoại ô

ƯỚC LƯỢNG ĐIỂM CỦA CHÊNH LỆCH GIỮA TRUNG BÌNH CỦA HAI

TỔNG THỂ

�̅�1 - �̅�2

(em xem HÌNH 10.1, trang 489)

SAI SỐ CHUẨN CỦA �̅�1 - �̅�2

𝜎�̅�1 − �̅�2 = √

𝜎12

𝑛1+

𝜎22

𝑛2

3

• Nếu cả hai tổng thể có phân phối chuẩn, hoặc nếu cỡ mẫu

đủ lớn thì định lý giới hạn trung tâm cho phép chúng ta

kết luận rằng phân phối của �̅�1 và �̅�2 có thể xấp xỉ bằng

phân phối chuẩn, và phân phối mẫu của �̅�1 - �̅�2 (lưu ý: một

kết hợp tuyến tính của hai biến có phân phối chuẩn) sẽ

có phân phối chuẩn với trung bình là 1 - 2.

• Ước lượng khoảng của chênh lệch sẽ như sau:

�̅�1 - �̅�2 sai số biên

• Sai số biên được tính như sau:

Sai số biên = 𝑧𝛼/2𝜎�̅�1−�̅�2= 𝑧𝛼/2√

𝜎12

𝑛1+

𝜎22

𝑛2

ƯỚC LƯỢNG KHOẢNG CỦA CHÊNH LỆCH GIỮA TRUNG BÌNH CỦA

HAI TỔNG THỂ KHI BIẾT 1 VÀ 2

�̅�1 - �̅�2 𝑧𝛼/2√𝜎1

2

𝑛1+

𝜎22

𝑛2

Với (1 - ) là độ tin cậy.

4

Quay lại ví dụ của Greystone:

Cửa hàng nội ô Cửa hàng ngoại ô

Độ lệch chuẩn tổng thể 1 = 9 2 = 10

Cỡ mẫu n1 = 36 n1 = 49

Trung bình mẫu �̅�1 = 40 �̅�2 = 35

Giả sử độ tin cậy 95% và z/2 = z0.025 = 1.96, ta có:

[=-NORMINV(0.025,0,1) = 1.96]

�̅�1 - �̅�2 𝑧𝛼/2√𝜎1

2

𝑛1+

𝜎22

𝑛2

�̅�1 - �̅�2 1.96√92

36+

102

49

5 4.06

Vậy chênh lệch giữa hai trung bình tổng thể với độ tin cậy

95% là khoảng 0.94 đến 9.06 tuổi.

5

Kiểm định giả thuyết về 1 - 2

• Ký hiệu: D0 là chênh lệch giả thuyết giữa trung bình tổng

thể 1 và 2.

• Trong nhiều trường hợp, D0 = 0. Nghĩa là H0: 1 - 2 = 0,

tức 1 và 2 bằng nhau. Nếu bác bỏ H0, dẫn đến kết luận giả

thuyết Ha: 1 - 2 ≠ 0, tức là 1 và 2 không bằng nhau.

TÓM TẮT QUAN TRỌNG:

Kiểm định phía

trái


phải

Kiểm định hai

phía

Giả thuyết H0: 1 - 2 ≥ D0

Ha: 1 - 2 < D0

H0: 1 - 2 ≤ D0

Ha: 1 - 2 > D0

H0: 1 - 2 = D0

Ha: 1 - 2 ≠ D0

Giá trị thống kê z =

(�̅�1− �̅�2)− 𝐷0

√𝜎1

2

𝑛1 +

𝜎22

𝑛2

z = (�̅�1− �̅�2)− 𝐷0

√𝜎1

2

𝑛1 +

𝜎22

𝑛2

z = (�̅�1− �̅�2)− 𝐷0

√𝜎1

2

𝑛1 +

𝜎22

𝑛2

Quy tắc quyết định Bác bỏ H0 nếu: Bác bỏ H0 nếu: Bác bỏ H0 nếu:

* Giá trị p Giá trị p ≤ Giá trị p ≤ Giá trị p ≤

* Giá trị tới hạn z ≤ -z z ≥ z z ≤ -z/2

hoặc z ≥ z/2

6

Thực hành với Stata nhanh vô cùng:

Ví dụ (trang 491-492, dữ liệu ExamScores.xls)

Em copy dữ liệu sang Stata, và dùng lệnh ztest (unpaired:

nghĩa là không so theo cặp) như sau (NHỚ LÀ KHÔNG SO SÁNH

THEO CẶP NÊN EM SỬ DỤNG LỆNH VỚI UNPAIRED):

• Theo giá trị p: so p = 0.0977 với = 0.05

• Theo giá trị tới hạn: so z = 1.6562 với z0.025 = 1.96

[=NORMINV(2.5%,0,1)]

=> KẾT LUẬN: KHÔNG THỂ BÁC BỎ H0.

Lưu ý: Kết quả này chênh lệch một ít so với trong sách bởi vì

trong sách đã làm tròn số.

Ước lượng

khoảng nè

7

2. SUY DIỄN VỀ CHÊNH LỆCH GIỮA TRUNG BÌNH CỦA HAI

TỔNG THỂ KHI KHÔNG BIẾT 1 VÀ 2

• Trường hợp này, ta sẽ sử dụng độ lệch chuẩn mẫu s1 và s2

để ước lượng độ lệch chuẩn tổng thể chưa biết.

• Tương tự như các chương trước, khi sử dụng độ lệch chuẩn

mẫu, quy trình ước lượng khoảng và kiểm định giả thuyết

sẽ dựa vào phân phối t thay cho phân phối chuẩn hóa z.

Ước lượng khoảng của 1 - 2

�̅�1 - �̅�2 𝑡𝛼/2√𝑠1

2

𝑛1+

𝑠22

𝑛2

Với (1 - ) là độ tin cậy.

• Ở đây, khó khan nhất (nếu tính bằng tay) là tính bậc tự

do để xác định giá trị t/2. [Tuy nhiên, điều này không

quan trọng lắm vì các phần mềm thống kê tự động tính bậc

tự do thích hợp theo cong thức sau đây:]

𝑑𝑓 = (

𝑠12

𝑛1 +

𝑠22

𝑛2)

1𝑛1 − 1 (

𝑠12

𝑛1)

2

+ 1

𝑛2 − 1 (𝑠2

2

𝑛2)

2

(trời ơi, làm sao mà nhớ nổi đây em 😉)

8

Kiểm định giả thuyết về 1 - 2

• Ký hiệu: D0 là chênh lệch giả thuyết giữa trung bình tổng

thể 1 và 2.

• Trong nhiều trường hợp, D0 = 0. Nghĩa là H0: 1 - 2 = 0,

tức 1 và 2 bằng nhau. Nếu bác bỏ H0, dẫn đến kết luận giả

thuyết Ha: 1 - 2 ≠ 0, tức là 1 và 2 không bằng nhau.



trái


phải

Kiểm định hai

phía

Giả thuyết H0: 1 - 2 ≥ D0

Ha: 1 - 2 < D0

H0: 1 - 2 ≤ D0

Ha: 1 - 2 > D0

H0: 1 - 2 = D0

Ha: 1 - 2 ≠ D0

Giá trị thống kê t =

(�̅�1− �̅�2)− 𝐷0

√𝑠1

2

𝑛1 +

𝑠22

𝑛2

t = (�̅�1− �̅�2)− 𝐷0

√𝑠1

2

𝑛1 +

𝑠22

𝑛2

t = (�̅�1− �̅�2)− 𝐷0

√𝑠1

2

𝑛1 +

𝑠22

𝑛2



* Giá trị tới hạn t ≤ -t t ≥ t t ≤ -t/2

hoặc t ≥ t/2

9

Thực hành với Stata:

Ví dụ (trang 496 – 498, dữ liệu CHECKACCT.xls)

Chuyển sang tập tin Stata và sử dụng lệnh ttest như sau (NHỚ

LÀ KHÔNG SO SÁNH THEO CẶP NÊN EM SỬ DỤNG LỆNH VỚI UNPAIRED):

10

Ví dụ (trang 498 – 500, dữ liệu SOFTWARETEST.xls). LƯU Ý: EM

KHÔNG SO SÁNH THEO CẶP NÊN SỬ DỤNG LỆNH VỚI UNPAIRED.

Việc kiểm định như thế này sẽ được dùng rất nhiều

trong thống kê mô tả ở môn Phương pháp nghiên cứu,

Thu thập và quản lý dữ liệu. Và đặc biệt là trong

phân tích dữ liệu cho khóa luận tốt nghiệp nếu chọn

các chủ đề về dữ liệu chéo. Vì khi đó, ta thường so

sánh trung bình (ví dụ thu nhập hoặc chi tiêu hoặc

năng suất, …) giữa các nhóm (chủ hộ là nam hay nữ,

thành thị hay nông thôn, …).

11

3. SUY DIỄN VỀ CHÊNH LỆCH TRUNG BÌNH GIỮA HAI TỔNG

THỂ: MẪU THEO CẶP

Xét ví dụ trang 506:

Giả sử nhân viên một công ty sản xuất sử dụng hai phương pháp

khác nhau để thực hiện cùng một công việc. Để tối đa hóa sản

lượng, công ty muốn nhận diện phương pháp nào cho thời giant

rung bình ngắn hơn.

• Ký hiện 1 là thời gian hoàn thành trung bình trong tổng

thể của phương pháp sản xuất 1.

• Ký hiện 2 là thời gian hoàn thành trung bình trong tổng

thể của phương pháp sản xuất 2.

• Do không có thông tin là phương pháp nào tốt hơn, nên ta

giả sử cả hai phương pháp sản xuất có cùng thời gian hoàn

thành trung bình. Vì thế, giả thuyết như sau:

H0: 1 - 2 = 0

Ha: 1 - 2 ≠ 0

Phân biệt hai cách thiết kế mẫu:

(1) Thiết kế mẫu độc lập:

• Một mẫu ngẫu nhiên đơn giản thứ nhất bao gồm các

công nhân được chọn và mỗi công nhân trong mẫu

này đều sử dụng phương pháp sản xuất 1.

• Một mẫu ngẫu nhiên đơn giản thứ hai bao gồm các

công nhân được chọn và mỗi công nhân trong mẫu

này đều sử dụng phương pháp sản xuất 2.

Kiểm định cho sự khác nhau trung bình giữa hai

tổng thể dựa vào quy trình ở Mục 2 ở trên (tức sử

dụng ttest, unpaired).

12

(2) Thiết kế mẫu theo cặp:

• Một mẫu ngẫu nhiên đơn giản bao gồm các công nhân

được chọn. Trước hết, mỗi công nhân sử dụng một

phương pháp và rồi sau đó sử dụng phương pháp còn

lại. Thứ tự của hai phương pháp được gán ngẫu

nhiên cho các công nhân (nghĩa là một số công nhân

sử dụng phương pháp 1 trước và một số công nhân

khác sử dụng phương pháp 2 trước). Lưu ý: Kiểm

soát thí nghiệm sao cho công nhân không biết họ

đang là đối tượng thí nghiệm.

• Như vậy, mỗi công nhân cung cấp một cặp số liệu:

một giá trị cho phương pháp 1 và một giá trị cho

phương pháp 2.

[Xem BẢNG 10.2, trang 507]

• Gọi d = trung bình của chênh lệch giữa các giá trị của

hai tổng thể. Giả thuyết được viết lại như sau:

H0: d = 0

Ha: d ≠ 0

• Gọi di = chênh lệch giữa thời gian hoàn thành giữa phương

pháp 1 và 2 của công nhân thứ i. Trung bình mẫu và độ

lệch chuẩn mẫu được tính như sau:

�̅� = ∑ 𝑑𝑖

𝑛

sd = √∑(𝑑𝑖− �̅�)2

𝑛−1

13

THỐNG KÊ KIỂM ĐỊNH GIẢ THUYẾT KHI MẪU THEO CẶP

𝑡 = �̅� − 𝜇𝑑

𝑠𝑑/√𝑛

Sai số biên được tính như sau:

�̅� ∓ 𝑡𝛼/2

𝑠𝑑

√𝑛


Sử dụng tập tin MATCHED.xls, sử dụng lệnh ttest:

14

4. SUY DIỄN VỀ CHÊNH LỆCH GIỮA HAI TỶ LỆ TỔNG THỂ

• Ký hiệu p1 là tỷ lệ của tổng thể 1 và p2 là tỷ lệ của

tổng thể 2.

• Suy diễn chênh lệch giữa hai tổng thể: p1 – p2.

• Để suy diễn, ta chọn hai mẫu ngẫu nhiên đơn giản bao gồm

n1 đơn vị từ tổng thể 1 và n2 đơn vị từ tổng thể 2.

Ước lượng khoảng của p1 – p2

• p1 = tỷ lệ của tổng thể 1

• p2 = tỷ lệ của tổng thể 2

• �̅�1 = tỷ lệ mẫu của mẫu ngẫu nhiên độc lập thu thập từ

tổng thể 1

• �̅�2 = tỷ lệ mẫu của mẫu ngẫu nhiên độc lập thu thập từ

tổng thể 2

ƯỚC LƯỢNG ĐIỂM CHO CHÊNH LỆCH GIỮA TỶ LỆ CỦA HAI

TỔNG THỂ

�̅�1 - �̅�2

SAI SỐ CHUẨN CỦA �̅�1 - �̅�2

𝜎�̅�1−�̅�2 = √

𝑃1(1−𝑃1)

𝑛1+

𝑃2(1−𝑃2)

𝑛2

15

• Nếu cỡ mẫu đủ lớn, thì phân phối mẫu của �̅�1 - �̅�2 có thể

xấp xỉ bằng phân phối chuẩn.

• Do p1 và p2 không biết, nên ta sử dụng tỷ lệ mẫu để ước

lượng cho p1 và p2. Và sai số biên được tính như sau:

Sai số biên = z/2√�̅�1(1− �̅�1)

𝑛1+

�̅�2(1− �̅�2)

𝑛2

ƯỚC LƯỢNG KHOẢNG CHO CHÊNH LỆCH GIỮA TỶ LỆ CỦA HAI

TỔNG THỂ

�̅�1 - �̅�2 z/2√�̅�1(1− �̅�1)

𝑛1+

�̅�2(1− �̅�2)

𝑛2

[hơi nhức đầu, nhưng tí chạy bằng Stata dễ lắm 😊]

16

Kiểm định giả thuyết cho �̅�𝟏 - �̅�𝟐

• Giả thuyết H0 (xem bảng dưới) đúng khi hai tỷ lệ bằng

nhau: p1 = p2 và ta đặt = p.

• Khi p1 = p2 = p thì sai số chuẩn của �̅�1 - �̅�2 như sau:

𝜎�̅�1−�̅�2 = √

𝑃1(1−𝑃1)

𝑛1+

𝑃2(1−𝑃2)

𝑛2

= √𝑝(1−𝑝)

𝑛1+

𝑝(1−𝑝)

𝑛2

= √𝑝(1 − 𝑝) (1

𝑛1+

1

𝑛2)

• Tuy nhiên, do ta không biết p, nên cần phải dùng ước

lượng của p. (hiểu không?)

ƯỚC LƯỢNG KẾT HỢP CỦA p KHI p1 = p2 = p

[với �̅� là ước lượng của p].

�̅� = 𝑛1�̅�1 + 𝑛2�̅�2

𝑛1 + 𝑛2

[Nghĩa là, ước lượng kết hợp của p là trung bình có trọng số

của �̅�1 và �̅�2].

17

Thay �̅� cho p, ta có ước lượng của sai số chuẩn của �̅�1 - �̅�2 như

sau:

𝜎�̅�1−�̅�2 = √�̅�(1 − �̅�) (

1

𝑛1+

1

𝑛2)

Và giá trị z sẽ được tính như sau:

z = (�̅�1− �̅�2) − 0

√�̅�(1−�̅�)(1

𝑛1 +

1𝑛2

)

= (�̅�1− �̅�2)

√�̅�(1−�̅�)(1

𝑛1 +

1𝑛2

)



trái


phải

Kiểm định hai

phía

Giả thuyết H0: p1 - p2 ≥ 0

Ha: p1 - p2 < 0

H0: p1 - p2 ≤ 0

Ha: p1 - p2 > 0

H0: p1 - p2 = 0

Ha: p1 - p2 ≠ 0

Giá trị thống kê z =

(�̅�1− �̅�2)

√�̅�(1−�̅�)(1

𝑛1 + 1

𝑛2)

z = (�̅�1− �̅�2)

√�̅�(1−�̅�)(1

𝑛1 + 1

𝑛2)

z = (�̅�1− �̅�2)

√�̅�(1−�̅�)(1

𝑛1 + 1

𝑛2)



* Giá trị tới hạn z ≤ -z z ≥ z z ≤ -z/2

hoặc z ≥ z/2

18


Ví dụ (trang 514, tập tin TAXPREP.xls)

Chuyển sang tập tin Stata, và có vài lưu ý nhỏ:

• Do dữ liệu dạng STRING, nên ta phải dùng lệnh encode (còn

nhớ chứ?)

. encode office1, gen(office_1)

. encode office2, gen(office_2)

• Bây giờ trong tập tin có 4 biến: office1, office_1,

office2, office_2. Nhưng ta không cần dùng hai biến

office1 và office2 nữa.

• Do mã hóa dữ liệu hiện tại của office_1 và office_2 là 1

và 2. Ta phải mã hóa lại, ví dụ 1 thành 0 và 2 thành 1

(dạng biến dummy).

. drop office1 office2

. gen office1= office_1

. gen office2= office_2

. replace office1=0 if office_1==1




• Sử dụng lệnh prtest (pr: proportion), và ta có kết quả

như sau:

19

Ở đây là khoảng tin cậy 95% (mặc định với phần mềm

Stata). Tuy nhiên, ví dụ trong sách là khoảng tin cậy

90%, nên ta phải thêm level(90) vào:

THỐNG KÊ TRONG KINH TẾ VÀ KINH DOANH · PDF fileTHỐNG KÊ TRONG KINH T...

Documents

Transcript of THỐNG KÊ TRONG KINH TẾ VÀ KINH DOANH · PDF fileTHỐNG KÊ TRONG KINH T...