BÀI 2: THU THẬP DỮ LIỆU

32
1 BÀI 2: THU THẬP DỮ LIỆU

description

BÀI 2: THU THẬP DỮ LIỆU. Các khái niệm cơ bản trong chọn mẫu. Đám đông (population): là tập hợp tất cả các đối tượng nghiên cứu mà nhà nghiên cứu cần nghiên cứu để thỏa mãn mục đích và phạm vi nghiên cứu của mình - PowerPoint PPT Presentation

Transcript of BÀI 2: THU THẬP DỮ LIỆU

Page 1: BÀI 2: THU THẬP DỮ LIỆU

1

BÀI 2: THU THẬP DỮ LIỆU

Page 2: BÀI 2: THU THẬP DỮ LIỆU

2

Các khái niệm cơ bản trong chọn mẫu

Đám đông (population): là tập hợp tất cả các đối tượng nghiên cứu mà nhà nghiên cứu cần nghiên cứu để thỏa mãn mục đích và phạm vi nghiên cứu của mình

Đám đông nghiên cứu (study population). Trong thực tiễn, thường ta không biết chính xác các phần tử của đám đông. Quy mô của đám đông mà ta có thể có được để thực hiện nghiên cứu gọi là đám đông nghiên cứu

Phần tử (element): là đối tượng cần thu thập dữ liệu, thường gọi là đối tượng nghiên cứu. Là đơn vị nhỏ nhất của đám đông và là đơn vị cuối cùng của quá trình chọn mẫu. Số lượng phần tử trong đám đông thường ký hiệu là N, và của mẫu là n

Đơn vị (sampling unit): Những nhóm có được sau quá trình chia nhỏ đám đông được gọi là các đơn vị mẫu. Đơn vị cuối cùng có thể chia nhỏ được của mẫu chính là phần tử mẫu.

Ví dụ: chia tỉnh/tp, quận, huyện, phường/xã, hộ gia đình

Page 3: BÀI 2: THU THẬP DỮ LIỆU

3

Các khái niệm cơ bản trong chọn mẫu

Khung mẫu (sampling frame): là danh sách liệt kê dữ liệu cần thiết của tất cả các đơn vị và phần tử của đám đông để thực hiện công việc chọn mẫu

Hiệu quả chọn mẫu (sampling efficiency)– Hiệu quả thống kê sai số chuẩn nhỏ hơn (khi 2

mẫu cùng kích thước)– Hiệu quả kinh tế chi phí thu thập dữ liệu của

mẫu với một độ chính xác mong muốn nào đó

Page 4: BÀI 2: THU THẬP DỮ LIỆU

4

Quy trình chọn mẫu

Xác định đám đông nghiên cứu Xác định khung mẫu Xác định kích thước mẫu Chọn phương pháp chọn mẫu Tiến hành chọn

Page 5: BÀI 2: THU THẬP DỮ LIỆU

5

Xác định đám đông nghiên cứu

Là khâu đầu tiên trong quá trình Việc xác định đã được tiến hành khi thiết kế

nghiên cứu, vì họ đã xác định đối tượng cần thu thập dữ liệu, đối tượng có nguồn dữ liệu cần thiết

Page 6: BÀI 2: THU THẬP DỮ LIỆU

6

Xác định khung mẫu

Ví dụ: xác định khung mẫu là danh sách liệt kê các người tiêu dùng bia tại TPHCM có độ tuổi từ 18-45 bao gồm: họ tên, địa chỉ, độ tuổi…

Để có thể xác định và tiếp cận được họ nhằm thu thập dữ liệu

Khi nguồn dữ liệu thứ cấp để xác định khung mẫu chưa có, xác định được khung mẫu cũng cũng khó khăn và tốn kém

Page 7: BÀI 2: THU THẬP DỮ LIỆU

7

Xác định kích thước mẫu

Một cách đơn giản và dễ nhất là dựa vào các nghiên cứu có cùng nội dung đã được thực hiện trước đó để lấy mẫu.

Có thể hỏi ý kiến các chuyên gia, những người có kinh nghiệm thực hiện các dự án điều tra khảo sát.

Có thể tính toán theo công thức tính mẫu.

Làm thế nào để xác định cỡ mẫu?

Page 8: BÀI 2: THU THẬP DỮ LIỆU

8

Công thức tính cỡ mẫu

Trường hợp tổng thể lớn và không biết tổng thể.

2

2

z (p.q)n

e

Trong đó: n = là cỡ mẫu z = giá trị phân vị chuẩn p = là ước tính tỷ lệ % của tổng thể q = 1-p

(thường tỷ lệ p và q được ước tính 50% và 50% đó là khả năng lớn nhất có thể xảy ra của tổng thể)

e = sai số cho phép (±3%, ±4%, ±5%...)

Page 9: BÀI 2: THU THẬP DỮ LIỆU

9

Ví dụ

Tính cỡ mẫu của một cuộc trưng cầu ý kiến trước một cuộc bầu cử với độ tin cậy là 95%. sai số cho phép là nằm trong khoảng +5%. Giả định p*q lớn nhất có thể xảy ra là 0.5*0.5.

Cỡ mẫu sẽ được tính là:

Page 10: BÀI 2: THU THẬP DỮ LIỆU

10

12

2/1.

111

z

k

QPN

N

Nn

Trường hợp tổng thể lớn và biết tổng thể.

Trong đó: N = số lượng đơn vị trong tổng thể. P = tỷ lệ tổng thể. Q = 1-P, k = sai số cho phép.

Page 11: BÀI 2: THU THẬP DỮ LIỆU

11

Trường hợp tổng thể nhỏ và biết được tổng thể

Trong đó: n là cỡ mẫu, N là số lượng tổng thể, e là sai số chuẩn

Page 12: BÀI 2: THU THẬP DỮ LIỆU

12

Ví dụ

Tính cỡ mẫu của một cuộc điều tra với

Tổng thể là N = 2000, độ chính xác là 95%, sai số tiêu chuân là +- 5%.

-- cỡ mẫu sẽ được tính là:

Page 13: BÀI 2: THU THẬP DỮ LIỆU

13

Bảng cỡ mẫu

Bảng 1. Cỡ mẫu với sai số cho phép là ±3%, ±5%, ±7% và ±10% Độ tin cậy là 95% và P=0.5.

Cỡ của tổng thể

Cỡ mẫu(n) với sai số cho phép :

±3% ±5% ±7% ±10%

500 * 222 145 83

600 * 240 152 86

700 * 255 158 88

800 * 267 163 89

900 * 277 166 90

1,000 * 286 169 91

2,000 714 333 185 95

Page 14: BÀI 2: THU THẬP DỮ LIỆU

14

Bảng cỡ mẫu (tiếp)Bảng 1. Cỡ mẫu với sai số cho phép là ±3%, ±5%, ±7% và ±10% Độ tin cậy là 95% và P=0.5.

Cỡ của tổng thể

Cỡ mẫu(n) với sai số cho phép :

±3% ±5% ±7% ±10%

3,000 811 353 191 97

4,000 870 364 194 98

5,000 909 370 196 98

6,000 938 375 197 98

7,000 959 378 198 99

8,000 976 381 199 99

9,000 989 383 200 99

Page 15: BÀI 2: THU THẬP DỮ LIỆU

15

Bảng cỡ mẫu (tiếp)Bảng 1. Cỡ mẫu với sai số cho phép là ±3%, ±5%, ±7% và ±10% Độ tin cậy là 95% và P=0.5.

Cỡ của tổng thể

Cỡ mẫu(n) với sai số cho phép :

±3% ±5% ±7% ±10%

10,000 1,000 385 200 99

15,000 1,034 390 201 99

20,000 1,053 392 204 100

50,000 1,087 397 204 100

100,000 1,099 398 204 100

>100,000 1,111 400 204 100

Page 16: BÀI 2: THU THẬP DỮ LIỆU

16

Các phương pháp chọn mẫu

Theo xác suất(Probability sampling) Ngẫu nhiên đơn giản(simple random sampling) Hệ thống(systematic sampling) Phân tầng (theo tỷ lệ, không

theo tỷ lệ)(stratified sampling) Theo nhóm (một bước, hai

bước…)(cluster sampling)

Phi xác suất(Non-probability sampling) Thuận tiện(convenience sampling) Phán đoán(judgment sampling) Phát triển mầm(snowball sampling) Định mức/Hạn ngạch(quota sampling)

Page 17: BÀI 2: THU THẬP DỮ LIỆU

17

Điều quan tâm khi chọn phương pháp

Mục tiêu nghiên cứu Tính tổng quát hóa của kết quả nghiên cứu Thời gian và chi phí

Page 18: BÀI 2: THU THẬP DỮ LIỆU

18

Các phương pháp chọn mẫu

Theo xác suất(Probability sampling) Tính đại diện cao Tổng quát hóa cho đám

đông Tốn kém thời gian và

chi phí Thường dùng cho các

nghiên cứu chính thức

Phi xác suất(Non-probability sampling) Tiết kiệm được thời gian và

chi phí Tính đại diện thấp Không tổng quát hóa cho

đám đông Thường dùng cho các

nghiên cứu sơ bộ, khám phá

Page 19: BÀI 2: THU THẬP DỮ LIỆU

19

Thu thập dữ liệu sơ cấp bằng bảng câu hỏi

Page 20: BÀI 2: THU THẬP DỮ LIỆU

20

Thu thập dữ liệu sơ cấp qua khảo sát bằng bảng câu hỏi chính

Xác định cụ thể dữ liệu cần thu thập Xác định dạng phỏng vấn Đánh giá nội dung câu hỏi Xác định hình thức trả lời Xác định cách dùng thuật ngữ Xác định cấu trúc bảng câu hỏi Thử lần 1 sửa chữabản nháp cuối cùng

Page 21: BÀI 2: THU THẬP DỮ LIỆU

21

Bước 1. Xác định cụ thể dữ liệu cân thu thập

Liệt kê đầy đủ và chi tiết các dữ liệu cần thu thập

Dựa vào vấn đề nghiên cứu và nhu cầu thông tin để thiể kế các câu hỏi cho việc thu thập các thông tin này

Page 22: BÀI 2: THU THẬP DỮ LIỆU

22

Bước 2. Xác định dạng phỏng vấn

Phỏng vấn trực diện (trực tiếp) Phỏng vấn qua điện thoại Phỏng vấn bằng cách gửi thư Phỏng vấn qua mạng Internet Phát ra cho người trả lời điền vào bảng hỏi

rồi thu lại

Page 23: BÀI 2: THU THẬP DỮ LIỆU

23

Đánh giá nội dung câu hỏi

Nội dung câu hỏi có ảnh hưởng đến khả năng hợp tác của người trả lời tạo điều kiện cho họ mong muốn tham gia và trả lời trung thực

Người trả lời có hiểu câu hỏi không? Họ có thông tin không? Họ có cung cấp thông tin không? Thông tin họ cung cấp có đúng là dữ liệu cần thu thập không?Ví dụ: thay vì hỏi “bạn bao nhiêu tuổi”, hay “thu nhập của bạn là

bao nhiêu”… thì có thể hỏi “trong các nhóm tuổi sau đây, bạn thuộc nhóm tuổi nào?...” nếu ta không cần biết chính xác tuổi của họ

Page 24: BÀI 2: THU THẬP DỮ LIỆU

24

Xác định hình thức trả lời

Câu hỏi đóng– Chọn một lựa chọn– Xếp hạng– Câu hỏi nhiều lựa chọn

Câu hỏi mở- câu hỏi cho câu trả lời tự do

“Lý do nào bạn thích sử dụng dầu gội 2 trong 1?”- câu hỏi đào sâu

“và còn gì nữa”

Page 25: BÀI 2: THU THẬP DỮ LIỆU

25

Xác định cách dùng thuật ngữ

Dùng từ đơn giản và quen thuộc Tránh câu hỏi dài dòng. Từ ngữ càng chi tiết, cụ thể và rõ ràng

càng tốt. Không nên lạm dụng câu hỏi quá dài, tối nghĩa. Khi dùng 1 từ cần xem xét nó có nghĩa nào khác có thể làm cho người trả lời hiểu nhầm.

Tránh câu hỏi cho hai hay nhiều trả lời cùng một lúc. Ví dụ “kem Kido’s có ngon và bổ dưỡng không?”

Tránh câu hỏi gợi ý kích thích người trả lời phản xạ theo hướng đã dẫn trong câu hỏi. Ví dụ “bạn có đồng ý rằng sữa đặc có đường thương hiệu Cô Gái Hà Lan là loại sữa có chất lượng cao nhất không?”

Tránh câu hỏi có thang trả lời không cân bằng Tránh câu hỏi bắt người trả lời phải ước đoán. Vd “Bạn mua

bao nhiêu cục xà bông tắm trong năm qua?”

Page 26: BÀI 2: THU THẬP DỮ LIỆU

26

Xác định trình tự các câu hỏi

Một bảng câu hỏi chia thành nhiều phần, thông thường: Phần gạn lọc(screening): để chọn người trả lời trong

đám đông nghiên cứu. Có khi là một phần riêng biệt được sử dụng để gạn lọc trước khi phỏng vấn thực thụ

Phần chính Phần về dữ liệu cá nhân người trả lời (biodata)

Page 27: BÀI 2: THU THẬP DỮ LIỆU

27

Xác định hình thức bảng câu hỏi

Hình thức đẹp dễ nhận được sự hợp tác của người trả lời

Các phần của bảng hỏi nên được trình bày riêng biệt, có thể thông qua giấy màu khác nhau…

Page 28: BÀI 2: THU THẬP DỮ LIỆU

28

Thử lần thứ nhất chỉnh sửa bản nháp cuối cùng

Để có bảng hỏi tốt, khi thiết kế xong, cần thử nhiều lần (pilot study) Lần thử đầu tiên (pretest, alpha test) được thực hiện thông qua phỏng

vấn, tham khảo ý kiên một số thành viên nghiên cứu khác trong công ty và điều chỉnh lại bản nháp cuối cùng

Bản nháp này lại được qua lần thử thứ hai (beta test) qua phỏng vấn thử đối tượng nghiên cứu thực sự trong đám đông nghiên cứu. Tuy nhiên, mục đích không phải là để thu thập dữ liệu mà là để đánh giá bảng hỏi. – Họ hiểu có đúng câu hỏi không?– Họ có thông tin không?– Hỏi như vậy họ có chịu cung cấp thông tin không?– Thông tin họ cung cấp có đúng là thông tin cần thiết không?

Sau khi hiệu chỉnh bảng hỏi ở lần thứ 2 này bảng hỏi hoàn chỉnh

Page 29: BÀI 2: THU THẬP DỮ LIỆU

29

Sau khi phỏng vấn

Hiệu chỉnh dữ liệu-Hiệu chỉnh tại hiện trường: phỏng vấn viên phải hiệu chỉnh ngay khi kết thúc phỏng vấn (câu bị bỏ sót, cần hỏi lại ngay; hoàn chỉnh các ký hiệu viết tắt, những gì chưa điền kịp)-Giám sát viên kiểm tra (tính hoàn tất, tính hợp lý giữa các câu hỏi, tính rõ ràng của các câu trả lời, tính nghiêm túc trong quá trình phỏng vấn của PV viên) & hiệu chỉnh lại- Hiệu chỉnh tại trung tâm: do bộ phận xử lý dữ liệu thực hiện trước khi nhập liệu cho việc xử lý.

Page 30: BÀI 2: THU THẬP DỮ LIỆU

30

Nguyên nhân gây sai sót trong thu thập dữ liệu

Thiết kế bảng hỏi không đạt yêu cầu. Đặc biệt là sử dụng thuật ngữ gây nhầm lẫn, câu hỏi không rõ ràng, hình thức trình bày không thống nhất, dễ gây nhầm lẫn cho PVV sai lệch khi PV. Vì vậy cần kiểm tra kỹ lưỡng trong hai lần thử để điều chỉnh giúp giảm sai sót trong thiết kế.

Hướng dẫn PVV không kỹ lưỡng, đặc biệt là do chủ quan, không kiểm tra PVV để xác định họ đã hiểu tất cả các câu hỏi, đã nắm vững kỹ thuật, trợ vấn cụ hay chưa…

Kỹ thuật phỏng vấn kém do PVV thiếu kinh nghiệm, chủ quan, không chịu rèn luyện.

Page 31: BÀI 2: THU THẬP DỮ LIỆU

31

Gợi ý

Huấn luyện, hướng dẫn PVV thực tập trước khi phỏng vấn thực thụ.

Sau khi được hướng dẫn xong, PVV thử phỏng vấn giám sát viên. Nếu có sai sót trong việc hiểu câu hỏi, kỹ thuật phỏng vấn … cần điều chỉnh, hướng dẫn lại ngay

Sau khi được hướng dẫn lại, PVV thử phỏng vấn đối tượng nghiên cứu. Lần PV này cũng nhằm kiểm tra kỹ năng PV của PVV. Trong lần này các giám sát viên cần theo dõi chặt chẽ quá trình PV nhằm phát hiện các sai sót, kỹ năng PV để có những biện pháp điều chỉnh kịp thời.

Page 32: BÀI 2: THU THẬP DỮ LIỆU

32

Chuẩn bị dữ liệu

Mã hóa dữ liệu (tên biến, mã giá trị) Nhập dữ liệu vào máy tính Làm sạch dữ liệu

– Các ô trống (có thể sai sót do trong quá trình thu thập – người trả lời không trả lời, hay có PV nhưng quên ghi kết quả; hoặc sai sót do nhập liệu-quên nhập)

– Trả lời không hợp lý (có thể sai sót trong quá trình nhập) bảng tần số, min max