BÀI 2: THU THẬP DỮ LIỆU
description
Transcript of BÀI 2: THU THẬP DỮ LIỆU
1
BÀI 2: THU THẬP DỮ LIỆU
2
Các khái niệm cơ bản trong chọn mẫu
Đám đông (population): là tập hợp tất cả các đối tượng nghiên cứu mà nhà nghiên cứu cần nghiên cứu để thỏa mãn mục đích và phạm vi nghiên cứu của mình
Đám đông nghiên cứu (study population). Trong thực tiễn, thường ta không biết chính xác các phần tử của đám đông. Quy mô của đám đông mà ta có thể có được để thực hiện nghiên cứu gọi là đám đông nghiên cứu
Phần tử (element): là đối tượng cần thu thập dữ liệu, thường gọi là đối tượng nghiên cứu. Là đơn vị nhỏ nhất của đám đông và là đơn vị cuối cùng của quá trình chọn mẫu. Số lượng phần tử trong đám đông thường ký hiệu là N, và của mẫu là n
Đơn vị (sampling unit): Những nhóm có được sau quá trình chia nhỏ đám đông được gọi là các đơn vị mẫu. Đơn vị cuối cùng có thể chia nhỏ được của mẫu chính là phần tử mẫu.
Ví dụ: chia tỉnh/tp, quận, huyện, phường/xã, hộ gia đình
3
Các khái niệm cơ bản trong chọn mẫu
Khung mẫu (sampling frame): là danh sách liệt kê dữ liệu cần thiết của tất cả các đơn vị và phần tử của đám đông để thực hiện công việc chọn mẫu
Hiệu quả chọn mẫu (sampling efficiency)– Hiệu quả thống kê sai số chuẩn nhỏ hơn (khi 2
mẫu cùng kích thước)– Hiệu quả kinh tế chi phí thu thập dữ liệu của
mẫu với một độ chính xác mong muốn nào đó
4
Quy trình chọn mẫu
Xác định đám đông nghiên cứu Xác định khung mẫu Xác định kích thước mẫu Chọn phương pháp chọn mẫu Tiến hành chọn
5
Xác định đám đông nghiên cứu
Là khâu đầu tiên trong quá trình Việc xác định đã được tiến hành khi thiết kế
nghiên cứu, vì họ đã xác định đối tượng cần thu thập dữ liệu, đối tượng có nguồn dữ liệu cần thiết
6
Xác định khung mẫu
Ví dụ: xác định khung mẫu là danh sách liệt kê các người tiêu dùng bia tại TPHCM có độ tuổi từ 18-45 bao gồm: họ tên, địa chỉ, độ tuổi…
Để có thể xác định và tiếp cận được họ nhằm thu thập dữ liệu
Khi nguồn dữ liệu thứ cấp để xác định khung mẫu chưa có, xác định được khung mẫu cũng cũng khó khăn và tốn kém
7
Xác định kích thước mẫu
Một cách đơn giản và dễ nhất là dựa vào các nghiên cứu có cùng nội dung đã được thực hiện trước đó để lấy mẫu.
Có thể hỏi ý kiến các chuyên gia, những người có kinh nghiệm thực hiện các dự án điều tra khảo sát.
Có thể tính toán theo công thức tính mẫu.
Làm thế nào để xác định cỡ mẫu?
8
Công thức tính cỡ mẫu
Trường hợp tổng thể lớn và không biết tổng thể.
2
2
z (p.q)n
e
Trong đó: n = là cỡ mẫu z = giá trị phân vị chuẩn p = là ước tính tỷ lệ % của tổng thể q = 1-p
(thường tỷ lệ p và q được ước tính 50% và 50% đó là khả năng lớn nhất có thể xảy ra của tổng thể)
e = sai số cho phép (±3%, ±4%, ±5%...)
9
Ví dụ
Tính cỡ mẫu của một cuộc trưng cầu ý kiến trước một cuộc bầu cử với độ tin cậy là 95%. sai số cho phép là nằm trong khoảng +5%. Giả định p*q lớn nhất có thể xảy ra là 0.5*0.5.
Cỡ mẫu sẽ được tính là:
10
12
2/1.
111
z
k
QPN
N
Nn
Trường hợp tổng thể lớn và biết tổng thể.
Trong đó: N = số lượng đơn vị trong tổng thể. P = tỷ lệ tổng thể. Q = 1-P, k = sai số cho phép.
11
Trường hợp tổng thể nhỏ và biết được tổng thể
Trong đó: n là cỡ mẫu, N là số lượng tổng thể, e là sai số chuẩn
12
Ví dụ
Tính cỡ mẫu của một cuộc điều tra với
Tổng thể là N = 2000, độ chính xác là 95%, sai số tiêu chuân là +- 5%.
-- cỡ mẫu sẽ được tính là:
13
Bảng cỡ mẫu
Bảng 1. Cỡ mẫu với sai số cho phép là ±3%, ±5%, ±7% và ±10% Độ tin cậy là 95% và P=0.5.
Cỡ của tổng thể
Cỡ mẫu(n) với sai số cho phép :
±3% ±5% ±7% ±10%
500 * 222 145 83
600 * 240 152 86
700 * 255 158 88
800 * 267 163 89
900 * 277 166 90
1,000 * 286 169 91
2,000 714 333 185 95
14
Bảng cỡ mẫu (tiếp)Bảng 1. Cỡ mẫu với sai số cho phép là ±3%, ±5%, ±7% và ±10% Độ tin cậy là 95% và P=0.5.
Cỡ của tổng thể
Cỡ mẫu(n) với sai số cho phép :
±3% ±5% ±7% ±10%
3,000 811 353 191 97
4,000 870 364 194 98
5,000 909 370 196 98
6,000 938 375 197 98
7,000 959 378 198 99
8,000 976 381 199 99
9,000 989 383 200 99
15
Bảng cỡ mẫu (tiếp)Bảng 1. Cỡ mẫu với sai số cho phép là ±3%, ±5%, ±7% và ±10% Độ tin cậy là 95% và P=0.5.
Cỡ của tổng thể
Cỡ mẫu(n) với sai số cho phép :
±3% ±5% ±7% ±10%
10,000 1,000 385 200 99
15,000 1,034 390 201 99
20,000 1,053 392 204 100
50,000 1,087 397 204 100
100,000 1,099 398 204 100
>100,000 1,111 400 204 100
16
Các phương pháp chọn mẫu
Theo xác suất(Probability sampling) Ngẫu nhiên đơn giản(simple random sampling) Hệ thống(systematic sampling) Phân tầng (theo tỷ lệ, không
theo tỷ lệ)(stratified sampling) Theo nhóm (một bước, hai
bước…)(cluster sampling)
Phi xác suất(Non-probability sampling) Thuận tiện(convenience sampling) Phán đoán(judgment sampling) Phát triển mầm(snowball sampling) Định mức/Hạn ngạch(quota sampling)
17
Điều quan tâm khi chọn phương pháp
Mục tiêu nghiên cứu Tính tổng quát hóa của kết quả nghiên cứu Thời gian và chi phí
18
Các phương pháp chọn mẫu
Theo xác suất(Probability sampling) Tính đại diện cao Tổng quát hóa cho đám
đông Tốn kém thời gian và
chi phí Thường dùng cho các
nghiên cứu chính thức
Phi xác suất(Non-probability sampling) Tiết kiệm được thời gian và
chi phí Tính đại diện thấp Không tổng quát hóa cho
đám đông Thường dùng cho các
nghiên cứu sơ bộ, khám phá
19
Thu thập dữ liệu sơ cấp bằng bảng câu hỏi
20
Thu thập dữ liệu sơ cấp qua khảo sát bằng bảng câu hỏi chính
Xác định cụ thể dữ liệu cần thu thập Xác định dạng phỏng vấn Đánh giá nội dung câu hỏi Xác định hình thức trả lời Xác định cách dùng thuật ngữ Xác định cấu trúc bảng câu hỏi Thử lần 1 sửa chữabản nháp cuối cùng
21
Bước 1. Xác định cụ thể dữ liệu cân thu thập
Liệt kê đầy đủ và chi tiết các dữ liệu cần thu thập
Dựa vào vấn đề nghiên cứu và nhu cầu thông tin để thiể kế các câu hỏi cho việc thu thập các thông tin này
22
Bước 2. Xác định dạng phỏng vấn
Phỏng vấn trực diện (trực tiếp) Phỏng vấn qua điện thoại Phỏng vấn bằng cách gửi thư Phỏng vấn qua mạng Internet Phát ra cho người trả lời điền vào bảng hỏi
rồi thu lại
23
Đánh giá nội dung câu hỏi
Nội dung câu hỏi có ảnh hưởng đến khả năng hợp tác của người trả lời tạo điều kiện cho họ mong muốn tham gia và trả lời trung thực
Người trả lời có hiểu câu hỏi không? Họ có thông tin không? Họ có cung cấp thông tin không? Thông tin họ cung cấp có đúng là dữ liệu cần thu thập không?Ví dụ: thay vì hỏi “bạn bao nhiêu tuổi”, hay “thu nhập của bạn là
bao nhiêu”… thì có thể hỏi “trong các nhóm tuổi sau đây, bạn thuộc nhóm tuổi nào?...” nếu ta không cần biết chính xác tuổi của họ
24
Xác định hình thức trả lời
Câu hỏi đóng– Chọn một lựa chọn– Xếp hạng– Câu hỏi nhiều lựa chọn
Câu hỏi mở- câu hỏi cho câu trả lời tự do
“Lý do nào bạn thích sử dụng dầu gội 2 trong 1?”- câu hỏi đào sâu
“và còn gì nữa”
25
Xác định cách dùng thuật ngữ
Dùng từ đơn giản và quen thuộc Tránh câu hỏi dài dòng. Từ ngữ càng chi tiết, cụ thể và rõ ràng
càng tốt. Không nên lạm dụng câu hỏi quá dài, tối nghĩa. Khi dùng 1 từ cần xem xét nó có nghĩa nào khác có thể làm cho người trả lời hiểu nhầm.
Tránh câu hỏi cho hai hay nhiều trả lời cùng một lúc. Ví dụ “kem Kido’s có ngon và bổ dưỡng không?”
Tránh câu hỏi gợi ý kích thích người trả lời phản xạ theo hướng đã dẫn trong câu hỏi. Ví dụ “bạn có đồng ý rằng sữa đặc có đường thương hiệu Cô Gái Hà Lan là loại sữa có chất lượng cao nhất không?”
Tránh câu hỏi có thang trả lời không cân bằng Tránh câu hỏi bắt người trả lời phải ước đoán. Vd “Bạn mua
bao nhiêu cục xà bông tắm trong năm qua?”
26
Xác định trình tự các câu hỏi
Một bảng câu hỏi chia thành nhiều phần, thông thường: Phần gạn lọc(screening): để chọn người trả lời trong
đám đông nghiên cứu. Có khi là một phần riêng biệt được sử dụng để gạn lọc trước khi phỏng vấn thực thụ
Phần chính Phần về dữ liệu cá nhân người trả lời (biodata)
27
Xác định hình thức bảng câu hỏi
Hình thức đẹp dễ nhận được sự hợp tác của người trả lời
Các phần của bảng hỏi nên được trình bày riêng biệt, có thể thông qua giấy màu khác nhau…
28
Thử lần thứ nhất chỉnh sửa bản nháp cuối cùng
Để có bảng hỏi tốt, khi thiết kế xong, cần thử nhiều lần (pilot study) Lần thử đầu tiên (pretest, alpha test) được thực hiện thông qua phỏng
vấn, tham khảo ý kiên một số thành viên nghiên cứu khác trong công ty và điều chỉnh lại bản nháp cuối cùng
Bản nháp này lại được qua lần thử thứ hai (beta test) qua phỏng vấn thử đối tượng nghiên cứu thực sự trong đám đông nghiên cứu. Tuy nhiên, mục đích không phải là để thu thập dữ liệu mà là để đánh giá bảng hỏi. – Họ hiểu có đúng câu hỏi không?– Họ có thông tin không?– Hỏi như vậy họ có chịu cung cấp thông tin không?– Thông tin họ cung cấp có đúng là thông tin cần thiết không?
Sau khi hiệu chỉnh bảng hỏi ở lần thứ 2 này bảng hỏi hoàn chỉnh
29
Sau khi phỏng vấn
Hiệu chỉnh dữ liệu-Hiệu chỉnh tại hiện trường: phỏng vấn viên phải hiệu chỉnh ngay khi kết thúc phỏng vấn (câu bị bỏ sót, cần hỏi lại ngay; hoàn chỉnh các ký hiệu viết tắt, những gì chưa điền kịp)-Giám sát viên kiểm tra (tính hoàn tất, tính hợp lý giữa các câu hỏi, tính rõ ràng của các câu trả lời, tính nghiêm túc trong quá trình phỏng vấn của PV viên) & hiệu chỉnh lại- Hiệu chỉnh tại trung tâm: do bộ phận xử lý dữ liệu thực hiện trước khi nhập liệu cho việc xử lý.
30
Nguyên nhân gây sai sót trong thu thập dữ liệu
Thiết kế bảng hỏi không đạt yêu cầu. Đặc biệt là sử dụng thuật ngữ gây nhầm lẫn, câu hỏi không rõ ràng, hình thức trình bày không thống nhất, dễ gây nhầm lẫn cho PVV sai lệch khi PV. Vì vậy cần kiểm tra kỹ lưỡng trong hai lần thử để điều chỉnh giúp giảm sai sót trong thiết kế.
Hướng dẫn PVV không kỹ lưỡng, đặc biệt là do chủ quan, không kiểm tra PVV để xác định họ đã hiểu tất cả các câu hỏi, đã nắm vững kỹ thuật, trợ vấn cụ hay chưa…
Kỹ thuật phỏng vấn kém do PVV thiếu kinh nghiệm, chủ quan, không chịu rèn luyện.
31
Gợi ý
Huấn luyện, hướng dẫn PVV thực tập trước khi phỏng vấn thực thụ.
Sau khi được hướng dẫn xong, PVV thử phỏng vấn giám sát viên. Nếu có sai sót trong việc hiểu câu hỏi, kỹ thuật phỏng vấn … cần điều chỉnh, hướng dẫn lại ngay
Sau khi được hướng dẫn lại, PVV thử phỏng vấn đối tượng nghiên cứu. Lần PV này cũng nhằm kiểm tra kỹ năng PV của PVV. Trong lần này các giám sát viên cần theo dõi chặt chẽ quá trình PV nhằm phát hiện các sai sót, kỹ năng PV để có những biện pháp điều chỉnh kịp thời.
32
Chuẩn bị dữ liệu
Mã hóa dữ liệu (tên biến, mã giá trị) Nhập dữ liệu vào máy tính Làm sạch dữ liệu
– Các ô trống (có thể sai sót do trong quá trình thu thập – người trả lời không trả lời, hay có PV nhưng quên ghi kết quả; hoặc sai sót do nhập liệu-quên nhập)
– Trả lời không hợp lý (có thể sai sót trong quá trình nhập) bảng tần số, min max