Thống kê ứng dụng Chương 1

104
CHƯƠNG 1 THNG KÊ MÔ TTHS HUNH TUYÊN 1

Transcript of Thống kê ứng dụng Chương 1

Page 1: Thống kê ứng dụng Chương 1

CHƯƠNG 1

THỐNG KÊ MÔ TẢ

THS HUỲNH TỐ UYÊN1

Page 2: Thống kê ứng dụng Chương 1

• Thống kê là một nhánh của toán họcliên quan đến việc thu thập, trình bàyvà phân tích các dữ liệu.

1. Khái niệm

2

I. KHÁI NIỆM THỐNG KÊ VÀ

CÁC LOẠI THANG ĐO DỮ LIỆU

Page 3: Thống kê ứng dụng Chương 1

• Quá trình nghiên cứu thống kê trải qua 3 giai đoạn có quan hệ chặt chẽ và mật thiếtvới nhau, trong đó giai đoạn trước làmtiền đề để thực hiện giai đoạn sau.• Giai đoạn điều tra thống kê: bao gồm

ghi chép, thu thập tài liệu thống kê.• Giai đoạn tổng hợp và trình bày kết quảđiều tra thu thập được.

• Giai đoạn phân tích và dự báo thống kê.

2. Chức năng của thống kê

3

Page 4: Thống kê ứng dụng Chương 1

• Như vậy, thống kê có hai lĩnh vực:• Thống kê mô tả bao gồm các phương

pháp thu thập, trình bày dữ liệu và tínhtoán các đặc trưng nhằm mô tả đốitượng nghiên cứu.

• Thống kê suy diễn bao gồm các phươngpháp mô hình hoá trên các dữ liệu quansát để đưa ra các suy diễn về đối tượngđược nghiên cứu.

2. Chức năng của thống kê

4

Page 5: Thống kê ứng dụng Chương 1

• 3.1. Tổng thể, đơn vị tổng thể, mẫu• Tổng thể là tập hợp tất cả các đối

tượng mà ta nghiên cứu. Các đơn vị(hay phần tử) tạo thành tổng thể đượcgọi là đơn vị tổng thể. Mẫu là một bộphận lấy ra từ tổng thể.

3. Các khái niệm cơ bản.

5

Ví dụ 1: Để nghiên cứu điểm trung bìnhmôn Toán của sinh viên Trường ĐH, ngườita đã xét bảng điểm của 250 sinh viên. Hãychỉ ra tổng thể, đơn vị tổng thể và mẫu ?

Page 6: Thống kê ứng dụng Chương 1

• 3.2. Đặc điểm thống kê• Biến là khái niệm dùng để chỉ các đặcđiểm của đơn vị tổng thể mà ta nghiêncứu.

• Dữ liệu là kết quả, giá trị quan sát đượccủa các biến.

3. Các khái niệm cơ bản.

6

Ví dụ 2: Để nghiên cứu sinh viên trường ĐH, ta cần nghiên cứu các biến (hay các tiêu thức) như: giới tính, tuổi, dân tộc, ngành học, sốtiền chi tiêu trong 1 tháng…

Page 7: Thống kê ứng dụng Chương 1

• 3.2. Đặc điểm thống kê• Biến định tính (hay tiêu thức thuộc tính)

phản ánh tính chất, loại hình, không thểhiện trực tiếp bằng các con số.

• Biến định lượng (hay tiêu thức sốlượng) biểu hiện trực tiếp bằng con số.

3. Các khái niệm cơ bản.

7

Ví dụ 3: Phân loại biến định tính và biếnđịnh lượng trong ví dụ 2?

Biến định tính: giới tính, dân tộc, ngành học. Biến định lượng: tuổi, số tiền chi tiêu trong 1 tháng

Page 8: Thống kê ứng dụng Chương 1

• 3.2. Đặc điểm thống kê• Quan sát: tập hợp tất cả các dữ liệu thu

thập được của một đơn vị tổng thể hay mẫu.

3. Các khái niệm cơ bản.

8

Ví dụ 4:•Quan sát 1: giới tính: nam ; tuổi:20 ; dântộc:Kinh ; ngành học:401 ; tiền chi tiêutrong tháng: 2,5 triệu đồng•Quan sát 2: giới tính: nữ ; tuổi:21 ; dântộc:Tày ; ngành học:402 ; tiền chi tiêutrong tháng: 2 triệu đồng

Page 9: Thống kê ứng dụng Chương 1

• Trong thống kê người ta sử dụng bốn cấpbậc đo lường theo mức độ thông tin tăngdần, đó là thang đo: định danh, thứ bậc, khoảng và tỉ lệ.

4. Các cấp bậc đo lường và thang đo.

9

Ví dụ: Giới tính, màu sắc, nhãn hiệu, tình trạng hôn nhân,… là thang đo địnhdanh.

4.1. Thang đo định danh:Thang đo định danh (hay thang đo phân loại) không thể hiện sự hơn kém. Thang đo nàyđược sử dụng cho các dữ liệu định tính.

Page 10: Thống kê ứng dụng Chương 1

• 4.1. Thang đo định danh:• Người ta thường sử dụng các số để phân

loại các đối tượng, đây là các mã số dùngđể đếm số lần xuất hiện, không phải để so sánh hơn kém

4. Các cấp bậc đo lường và thang đo.

10

Ví dụ: Câu hỏi điều tra: bạn hiện đangsống ở đâu? ( Chọn từ 1 đến 4 ) 1. Sống cùng gia đình2. Ký túc xá3. Nhà trọ4. Trường hợp khác

Page 11: Thống kê ứng dụng Chương 1

• 4.2. Thang đo thứ bậc:• Là thang đo định danh nhưng thể hiện sự hơn

kém của dữ liệu, không biết chính xác mứcđộ hơn kém đó.

• Thang đo này được sử dụng cho các dữ liệuđịnh tính và cả định lượng.

4. Các cấp bậc đo lường và thang đo.

11

Ví dụ:• Đo thái độ đ/v hành vi nào đó (hoàn toànđồng ý, đồng ý, chưa qđ, ht không đồng ý)•Huân chương độc lập hạng Nhất, Nhì, Ba•Thu nhập của bạn trong 1 tháng là?− dưới 2 triệu− từ 2 đến 4 triệu− trên 4 triệu

Page 12: Thống kê ứng dụng Chương 1

• 4.3. Thang đo khoảng:• Thang đo khoảng là thang đo thứ bậc có

khoảng cách đều nhau. Thang đo này đánhgiá chính xác mức độ hơn kém cụ thể

• Thang đo này được sử dụng cho các dữ liệuđịnh tính và cả định lượng.

4. Các cấp bậc đo lường và thang đo.

12

Ví dụ: Thu nhập bình quân 1 tháng của bạn là:1. Từ 1,5 triệu đến 2 triệu2. Từ 2 triệu đến 2,5 triệu3. Từ 2,5 triệu đến 3 triệu� Khoảng cách đều nhau bằng 500 ngàn đồng� Thực hiện được các phép toán cộng trừ.

Page 13: Thống kê ứng dụng Chương 1

• 4.3. Thang đo khoảng:

4. Các cấp bậc đo lường và thang đo.

13

Ví dụ: Bạn hãy cho biết ý kiến về chất lượngphòng trọ ở khu vực làng đại học ? ( Hãy ghivào kế bên theo mức độ 1: rất tệ, 2: tệ, 3: bìnhthường, 4: tốt, 5 : rất tốt)− Không gian sinh hoạt …..− Ánh sáng …..− Vệ sinh …..− An ninh…..NHƯỢC ĐIỂM:Không có điểm gốc 0 trên thực tế mà chỉ cóđiểm các khoảng theo trật tự nào đó, nếu cóđiểm 0 thì đó chỉ là quy ước.

Page 14: Thống kê ứng dụng Chương 1

• 4.4. Thang đo tỉ lệ:• Là thang đo khoảng với điểm gốc 0 tuyệt đối

(một giá trị thật) -> điểm xuất phát của độ dàiđo lường trên thang đo => có thể so sánh tỉ lệgiữa các trị số đo

• Là loại thang đo dùng cho các dữ liệu địnhlượng. Đây là thang đo ở bậc cao nhất trong hệthống thang đo.

4. Các cấp bậc đo lường và thang đo.

14

Ví dụ:• Bạn nặng 80kg. Anh bạn nặng 40kg => bạn nặng gấp đôi anh bạn (dù đổi ở bất cứđơn vị nào).•Kg, tấn, tạ, km, m,… là thang đo tỉ lệ

Page 15: Thống kê ứng dụng Chương 1

• Phân biệt thang đo khoảng và thang đo tỉ lệ: Trongthang đo tỉ lệ, giá trị 0 có nghĩa thật sự, cho phéplấy tỉ lệ, so sánh giữa hai giá trị thu thập.

• Chỉ có thể đưa thang đo cao về thang đo thấp.

• Tuy nhiên không phải lúc nào cũng sử dụng thangđo hoàn hảo=>tùy thuộc vào đặc điểm của hiệntượng, tiêu thức NC mà sd thích hợp.

Chú ý

15

Ví dụ: điểm tổng kết của sinh viên:

Thang đo khoảng:

• từ 0-2 điểm• từ 2-4 điểm• từ 4-6 điểm• từ 6-8 điểm• từ 8-10 điểm

Thang đo thứ bậc:

• Kém• Yếu• Trung Bình• Khá• Giỏi

Page 16: Thống kê ứng dụng Chương 1

Dữ liệu

Dữ liệu định tính

Thang đođịnh danh

Thang đothứ bậc

Dữ liệu định lượng

Thang đokhoảng

Thang đotỉ lệ

16

Page 17: Thống kê ứng dụng Chương 1

17

II. THU THẬP DỮ LIỆU

KN dữ liệu thống kê: Là các sự kiện và số liệu được thu thập tổng hợpvà phân tích để trình bày và giải thích ý nghĩa củachúng

Page 18: Thống kê ứng dụng Chương 1

• Phải xác định rõ những dữ liệu nào cần thuthập, thứ tự ưu tiên của các dữ liệu này. Dữliệu cần thu thập phụ thuộc vào vấn đềnghiên cứu.

1. Xác định dữ liệu cần thu thập

18

Ví dụ 1. Nghiên cứu ảnh hưởng của điều kiện ăn ở, sinhhoạt đến kết quả học tập của sinh viên. Có hai nhóm dữliệu chính cần thu thập là: (1) điều kiện ăn ở sinh hoạt; (2) kết quả học tập. Nhóm (1) cần thu thập dữ liệu liên quan như: Ở với cha mẹhay ở kí túc xá, ở trọ? Có phòng riêng hay sống chungnhiều người? Chỗ ở cách trường bao xa? Chỗ ở có ồn àohay không?...Không cần thu thập: bàn học làm bằng sắt hay gỗ? Nhà cóphòng vệ sinh hiện đại không, có bồn tắm không?...

Page 19: Thống kê ứng dụng Chương 1

• Dữ liệu định tính phản ánh tính chất, sựhơn kém của đối tượng nghiên cứu

• Dữ liệu định lượng phản ánh mức độ củađối tượng

1.1 Dữ liệu định tính và dữ liệu định lượng

19

Ví dụ: Trong ví dụ trên,Dữ liệu định tính: giới tính của sinh viên.Dữ liệu định lượng: điểm trung bình cácmôn học của SV

Page 20: Thống kê ứng dụng Chương 1

• Dữ liệu thứ cấp: là dữ liệu được lấy từnguồn có sẵn, thường đã được xử lý, tổnghợp

• Dữ liệu sơ cấp: là dữ liệu được thu thậptrực tiếp từ đối tượng nghiên cứu

1.2 Dữ liệu thứ cấp và dữ liệu sơ cấp

20

Ví dụ:Dữ liệu thứ cấp: kết quả học tập của sinhviênDữ liệu sơ cấp: điều kiện ăn ở sinh hoạtcủa sinh viên

Page 21: Thống kê ứng dụng Chương 1

• Dữ liệu thứ cấp: Nội bộ ( của 1 doanhnghiệp, đơn vị trường học,…) Cơ quanthống kê ( Tổng cục thống kê, …)

• Dữ liệu sơ cấp: Được thu thập trực tiếp tùytheo yêu cầu của nghiên cứu, từ doanhnghiệp, hộ gia đình, cá nhân, xã hội,…

2. Nguồn thu thập dữ liệu

21

Page 22: Thống kê ứng dụng Chương 1

• Thực nghiệm• Khảo sát qua điện thoại• Thư hỏi• Quan sát trực tiếp• Phỏng vấn cá nhân

3. Các phương pháp thu thập dữ liệu sơ cấp

22

Page 23: Thống kê ứng dụng Chương 1

• 3.1. Các nội dung chính cần thực hiệntrong thu thập dữ liệu• Xác định vấn đề, đối tượng, mục đích

nghiên cứu.• Nghĩ ra câu hỏi và thiết kế bản câu hỏi

hoàn chỉnh• Quyết định điều tra trên toàn bộ tổng thể

hay trên mẫu.• Thực hiện thu thập dữ liệu

3. Các phương pháp thu thập dữ liệu sơ cấp

23

Page 24: Thống kê ứng dụng Chương 1

• Ví dụ: Một nhóm sinh viên trường ĐH Kinh Tế Luật muốn điều tra về sự ảnhhưởng của điều kiện sinh hoạt đến độ cậnthị của sinh viên trường ĐH Kinh Tế Luật.

• Đối tượng điều tra: Toàn bộ sinh viêntrường ĐH Kinh Tế Luật.

• Bảng câu hỏi được điều tra như sau:

3. Các phương pháp thu thập dữ liệu sơ cấp

24

Page 25: Thống kê ứng dụng Chương 1

• 1. Giới tính của bạn là: Nam/Nữ• 2. Bạn đang sống ở:

• a. Gia đình, nhà người thân• b. Ký túc xá• c. Nhà trọ

• 3. Một ngày bạn giành bao nhiêu thời gian cho việctự học?• a. Dưới 3 giờ• b. Khoảng 3-5 giờ• c. Trên 5 giờ

• 4. Một ngày bạn sử dụng máy vi tính bao lâu?• a. Dưới 1 giờ• b. 1-3 giờ• c. 3-5 giờ• d. Trên 5 giờ

• 5. Hiện nay mắt của bạn bao nhiêu độ?

3. Các phương pháp thu thập dữ liệu sơ cấp

25

Page 26: Thống kê ứng dụng Chương 1

• 3.2 . Kỹ thuật thiết kế bảng câu hỏi• Cần xác định rõ các vấn đề sau: dữ liệu

cần thu thập, nội dung bảng câu hỏi; hìnhthức,trình tự bảng câu hỏi; hình thức trảlời

• Các dạng câu hỏi trong bảng câu hỏi: Câu hỏi mở (bạn có suy nghĩ gì về?…), Câu hỏi đóng (đúng/sai, có/không), Câuhỏi phân mức, Câu hỏi chấm điểm,…

• Chú ý: các câu hỏi cần đơn giản, khôngdài dòng, tránh câu hỏi đa nghĩa, câu hỏigợi ý, tránh câu hỏi không công bằng

3. Các phương pháp thu thập dữ liệu sơ cấp

26

Page 27: Thống kê ứng dụng Chương 1

4. Các kỹ thuật chọn mẫu

27

Mục đích của việc chọn mẫu là bảođảm cho mẫu được chọn thực sự phản ánhtrung thực, đại diện cho toàn bộ tổng thể.

Sau khi thu thập dữ liệu, ta lập được 1 danh sách, từ danh sách này ta tiến hànhchọn mẫu.

Có hai nhóm kĩ thuật chọn mẫu là lấymẫu ngẫu nhiên (lấy mẫu xác suất) và mẫukhông ngẫu nhiên (lấy mẫu phi xác suất ).

Page 28: Thống kê ứng dụng Chương 1

4. Các kỹ thuật chọn mẫu

28

Ví dụ: điều tra chi tiêu của người dânsống ở Tp Hồ Chí Minh.

Ví dụ: điều tra chi tiêu của nhữngngười có thu nhập cao sống ở Tp Hồ ChíMinh.

Page 29: Thống kê ứng dụng Chương 1

29

Kỹ thuật chọn mẫuxác suất

Lấy mẫu ngẫunhiên đơn giản

Lấy mẫu hệthống

Lấy mẫu cảkhối/cụm

Lấy mẫu phântầng

Kỹ thuật chọn mẫuphi xác suất

Lấy mẫuthuận tiện

Lấy mẫuđịnh mức

Lấy mẫuphán đoán

Page 30: Thống kê ứng dụng Chương 1

• Là loại mẫu được chọn trực tiếp và ngẫunhiên từ tổng thể.

• Tổng thể nhỏ: Mẫu được chọn bằng cáchbốc thăm, quay số,…Ví dụ: Chọn ngẫunhiên 10 bạn trong lớp bằng cách bốc thăm

• Tổng thể lớn: Mẫu được chọn bằng hàmrandom trong Excel hoặc SPSS.

• Phương pháp này có thể cho 1 kết quả tốt vàđảm bảo tính ngẫu nhiên.

4.1. Kỹ thuật chọn mẫu ngẫu nhiên đơn giản

30

Page 31: Thống kê ứng dụng Chương 1

4.2. Kỹ thuật chọn mẫu hệ thống (máy móc)

31

Mỗi đơn vị được chọn vào mẫu căn cứ vàotừng khoảng cách nhất định (khoảng thờigian,không gian,thứ tự bằng nhau).Phương pháp:

- Đánh số thứ tự cho danh sách chọn mẫu. Tổng số lượng N

- Xác định cỡ mẫu muốn lấy. Số lượng n

- Chia danh sách thành k nhóm k=N/n, k

gọi là khoảng cách chọn mẫu

Page 32: Thống kê ứng dụng Chương 1

4.2. Kỹ thuật chọn mẫu hệ thống

32

- Nếu N chia hết cho n (k nguyên): Chọnmẫu hệ thống theo đường thẳng: Trongnhóm đầu tiên lấy ra ngẫu nhiên 1 phần tử, các phần tử tiếp theo được lấy cách phầntử này 1 khoảng là k, 2k, 3k,…

Ví dụ 1: Chọn 10 số từ 60 số tự nhiên đầu tiên theo ppchọn mẫu hệ thống. N=60, n=10, k=N/n=6 (số đầu được chọn từ 6 số đt)

+ Nếu phần tử được chọn đầu tiên là 4 thì ta đượcmẫu là: 4, 10, 16, 22, 28, 34, 40, 46, 52, 58+ Nếu phần tử được chọn đầu tiên là 6 thì ta đượcmẫu là: 6, 12, 18, 24, 30, 36, 42, 48, 54, 60

Page 33: Thống kê ứng dụng Chương 1

4.2. Kỹ thuật chọn mẫu hệ thống

33

- Nếu N không chia hết cho n (k thập phân): Chọn mẫu hệ thống quay vòng: Chọn ngẫunhiên 1 phần tử bất kì trong danh sách từ 1 đến N. Các phần tử tiếp theo được lấy cáchphần tử này 1 khoảng là k, 2k, 3k,…

Page 34: Thống kê ứng dụng Chương 1

4.2. Kỹ thuật chọn mẫu hệ thống

34

Ví dụ 2: Chọn 10 số từ 56 số tự nhiên đầu tiên theopp chọn mẫu hệ thống.

N=56

n=10

k=N/n=5,6 , chọn k=6

Nếu phần tử được chọn đầu tiên là 6 thì ta đượcmẫu là:6, 12, 18, 24, 30, 36, 42, 48, 54, 4Nếu phần tử được chọn đầu tiên là 13 thì ta đượcmẫu là:13, 19, 25, 31, 37, 43, 49, 55, 5, 11

Page 35: Thống kê ứng dụng Chương 1

4.3. Kỹ thuật chọn mẫu khối /cụm và chọnmẫu nhiều giai đoạn

35

Ví dụ 1: Quận Thủ Đức có khoảng 800 khuphố, điều tra mức sống của dân cư ở đây, ta cóthể chọn ra ngẫu nhiên 10 khu phố, sau đó khảosát toàn bộ hộ dân của 10 khu phố này. � Chọnmẫu khốiVí dụ 2: chọn ra ngẫu nhiên 10 khu phố, trongmỗi khu phố chọn ra khoảng 10 hộ gia đình �

Chọn mẫu nhiều giai đoạnChú ý : kỹ thuật này áp dụng khi ta không cósẵn một danh sách quan sát để chọn ra mẫu

Page 36: Thống kê ứng dụng Chương 1

• Ví dụ:• Điều tra sự yêu thích tham gia hoạt độngĐoàn của sinh viên ĐHQG Tp HCM. ⇒Điều tra 6 trường, mỗi trường điều travới số lượng SV khác nhau… � chọnmẫu phân tầng

• Đọc thêm trong sách

4.4. Kỹ thuật chọn mẫu phân tầng

36

Page 37: Thống kê ứng dụng Chương 1

• Ví dụ:• Để mở spa thì điều tra đối tượng nào? Điều tra

ngẫu nhiên ? Hay tập trung vào 1 nhóm đối tượngnào đó?

4.5. Kỹ thuật chọn mẫu thuận tiện

• Ví dụ:• Điều tra sự yêu thích hoạt động Đoàn của SV ĐH

KTL, ta quyết định điều tra cỡ mẫu 200, yêu cầu vềgiới tính: ½ là nữ, trong đó về nơi ở: ½ ở KTX,…

4.6. Kỹ thuật chọn mẫu định mức

• Chủ yếu dựa vào kinh nghiệm phỏng vấn

4.7. Kỹ thuật chọn mẫu phán đoán

37

Page 38: Thống kê ứng dụng Chương 1

III. TRÌNH BÀY DỮ LIỆU

38

1. Đối với dữ liệu định tính

2. Đối với dữ liệu định lượng

+ Bảng tần số, tần suất, tần số tích lũy, tần suất tích lũy.+ Đồ thị hình cột, thanh, hình tròn.

+ Bảng tần số, tần suất, tần số tích lũy, tầnsuất tích lũy.+ Phân tổ dữ liệu.+ Biểu đồ thân và lá.+ Đồ thị hình cột, thanh, hình tròn.

Page 39: Thống kê ứng dụng Chương 1

1. Bảng tần số

39

Ví dụ 1: năm 2006, Tuổi trẻ Online có làmcuộc khảo sát về bình chọn Quốc hoa ViệtNam, kết quả thu được như sau:

Quốc hoa được chọnSố lượtbình chọn

Tỉ lệ

Hoa sen 67008 49,6%

Cây tre 47288 35%

Hoa mai 15850 11,73%

Đề xuất khác 4951 3,66%

Tổng 135097 100%

Page 40: Thống kê ứng dụng Chương 1

• Bảng tần số là một bảng tổng hợp, trìnhbày dữ liệu, thường bao gồm ba cột:

1. Bảng tần số

40

Cột 1 Cột 2 Cột 3

biểu hiện hoặccác giá trị(khoảng giá trị) của dữ liệu.

tần số tươngứng (số lầntừng biểu hiệnđó xuất hiệntrong tập dữliệu).

tần suất (tỉlệ %).

Page 41: Thống kê ứng dụng Chương 1

• Đối với các dữ liệu định tính như giới tính, ngành học, …, bảng tần số :

1. 1. Bảng tần số cho dữ liệu định tính

411

k

ii

f n=

=∑

100%ii

fdn

=

1

100%k

ii

d=

=∑

Biểu hiện Tần sốfi

Tần suất(%)

biểu hiện 1 f1 d1

biểu hiện 2 f2 d2

… … …

biểu hiện k fk dk

Tổng

Page 42: Thống kê ứng dụng Chương 1

1. 1. Bảng tần số cho dữ liệu định tính

42

Ví dụ 2: Bảng tần số ngành học của sinh viênmột trường đại học như sau.

Ngành học Tần số (sinh viên)

Tần suất (%)

Quản trị kinh doanh 500 50Điện tử viễn thông 300 30Công nghệ thông tin 200 20Tổng 1000 100

Page 43: Thống kê ứng dụng Chương 1

• Có hai trường hợp: dữ liệu có ít giá trị và dữliệu có nhiều giá trị.

• a) Trường hợp dữ liệu có ít giá trị: Bảngtần số cũng có ba cột tương tự trường hợpdữ liệu định tính, nhưng cột thứ nhất ghicác giá trị của dữ liệu.

• Ví dụ 3: Khảo sát điểm thi môn Toán củamột số sinh viên, ta được bảng dữ liệu sau.

1. 2. Bảng tần số cho dữ liệu định lượng

43

Page 44: Thống kê ứng dụng Chương 1

1. 2. Bảng tần số cho dữ liệu định lượng

44

Điểm thi Tần số(số sinh viên)

Tần suất (%)

3 3 3,754 12 155 15 18,756 20 257 16 208 8 109 4 510 2 2,5

Tổng 80 100

Page 45: Thống kê ứng dụng Chương 1

• b) Trường hợp dữ liệu có nhiều giá trị: Trướchết ta phân nhóm (phân tổ) cho các giá trị rồimới lập bảng tần số trên cơ sở dữ liệu đã phânnhóm

1. 2. Bảng tần số cho dữ liệu định lượng

45

Ví dụ: Khảo sát 1200 người trong độ tuổi laođộng (từ 18 đến 60 tuổi), nếu lập bảng như ở ví dụ 2 thì sẽ rất dài, làm mất đi tác dụng tómlược thông tin. Do đó ta sẽ phân thành cácnhóm, chẳng hạn: Từ 18 đến 20, từ 21 đến30, từ 31 đến 40, từ 40 đến 50, từ 51 đến 60.

Đây là kiểu phân nhóm theo kinh nghiệm. Trên thực tế người ta thường phân nhóm vớikhoảng cách đều nhau.

Page 46: Thống kê ứng dụng Chương 1

• Phương pháp phân nhóm dữ liệu vớikhoảng cách đều nhau.

• Giả sử mẫu dữ liệu có n phần tử, giá trị lớnnhất, nhỏ nhất của dữ liệu lần lượt là Xmax , Xmin .

• Gọi k là số nhóm cần chia và h là khoảngcách giữa các nhóm.

• Khi đó, người ta thường xác định k và h bởi công thức

1. 2. Bảng tần số cho dữ liệu định lượng

46

3 2k n= max minX Xhk−

=

Page 47: Thống kê ứng dụng Chương 1

1. 2. Bảng tần số cho dữ liệu định lượng

47

3 32 2.40 4, 3 4k n= = = ≈

max min 179 153 6, 54

X Xhk− −

= = =

Ví dụ 4. Năng suất (tạ/ha) của một loại cây thu hoạch được tại40 vùng như sau:

153 154 156 157 158 159 159 160 160 160161 161 161 162 162 162 163 163 163 164164 164 165 165 166 166 167 167 168 168170 171 172 173 174 175 176 177 178 179

Hãy tính số nhóm, khoảng cách nhóm và lập bảng tần số?Với n=40, Xmax = 179, Xmin =153.

ta có số nhómkhoảng cách giữa các nhóm

Chọn h=7 .Vậy ta cần chia 4 nhóm , với khoảng cách giữacác nhóm là 7

Page 48: Thống kê ứng dụng Chương 1

1. 2. Bảng tần số cho dữ liệu định lượng

48

Bảng tần số

Năng suất Tần số Tần suất (%)152 - 159 7 17,5159 - 166 19 47,5166 - 173 8 20173 - 180 6 15

Tổng 40 100

Page 49: Thống kê ứng dụng Chương 1

1. 2. Bảng tần số cho dữ liệu định lượng

49

Chú ý: Một số điều kiện phải tuân thủ khi

phân nhóm

• Các nhóm không được trùng nhau, mỗi giá trịchỉ thuộc về một nhóm.• Tất cả các nhóm phải bảo đảm bao quát hếttất cả các giá trị của mẫu số liệu.• Không có nhóm rỗng.

Page 50: Thống kê ứng dụng Chương 1

1. 2. Bảng tần số cho dữ liệu định lượng

50

Trong bảng tần số người ta còn thêm vào cộttần số tích luỹ (hoặc tần suất tích luỹ)

Giátrịcủabiến

Tầnsốfi

Tần suất(%) Tần sốtích lũy

Tần suấttích lũy

x1 f1 d1 f1 d1

x2 f2 d2 f1+f2 d1+d2

… … … … …

xk fk dk f1+f2+…+fk d1+d2+…+dk

Tổng n 100%

100%ii

fdn

=

Page 51: Thống kê ứng dụng Chương 1

1. 2. Bảng tần số cho dữ liệu định lượng

51

c) Phân nhóm mở:

+ Nhóm đầu tiên không có giới hạn dưới.+ Nhóm cuối không có giới hạn trên.+Các nhám còn lại có khoảng các đều hoặc không đều.Quy ước: K/c của nhóm mở bằng k/c của nhóm gần nó

nhất

Năng suất lúa(tạ/ha)

Tần số

<35 535 – 40 1040 – 45 2045 – 50 12

≥50 3Tổng 50

Page 52: Thống kê ứng dụng Chương 1

1. 3. Bảng tần số kết hợp hai biến

52

Ví dụ: Điều tra chi tiêu của 200 sinh viên tại 3 vùngBắc, Trung, Nam được kết quả như sau

<1,5 1,5 – 2 >2

Bắc 30 40 20

Trung 30 20 10

Nam 10 25 15

Tổng 70 85 45

VùngChi tiêu

Bảng tần số kết hợp 2 biến “chi tiêu” và “vùng” đượclập như sau

Page 53: Thống kê ứng dụng Chương 1

1. 3. Bảng tần số kết hợp hai biến

53

Vùng

Bắc

Trung

Nam

<1,5 1,5 - 2 >2

30 40 20

30 20 10

10 25 15

42,86

42,86

14,28

Chi tiêu

Tần số Tần số Tần sốTần Tần Tần

suất(%) suất(%) suất (%)

Tổng 70 85 45 100 100 100

Page 54: Thống kê ứng dụng Chương 1

2. Đồ thị thống kê các loại

2.1 Biểu đồ tần số, tần suất

54

Số lượt bình chọn

Page 55: Thống kê ứng dụng Chương 1

55

Tỉ lệ bình chọn

49%

35%

12%

4%

0%

10%

20%

30%

40%

50%

60%

Hoa sen Cây tre Hoa mai đề xuất khác

Page 56: Thống kê ứng dụng Chương 1

56

Số

lượt

bình

chọn

0

10000

20000

30000

40000

50000

60000

70000

80000

1

Hoa sen Cây tre Hoa mai Đề xuất khác

Biểu đồ dạng thanh

Page 57: Thống kê ứng dụng Chương 1

57

49%

35%

12%

4%0

0,1

0,2

0,3

0,4

0,5

0,6

Hoa sen Cây tre Hoa mai đề xuất khác

Tần suất bình chọn

Biểu đồ đa giác tần số

Page 58: Thống kê ứng dụng Chương 1

58

Tỉ lệ bình chọn quốc hoa Việt Nam

Biểu đồ hình tròn

Page 59: Thống kê ứng dụng Chương 1

2.2 Biểu đồ tần số, tần suất tích lũy

59

49%

84%

96%100%

0%

20%

40%

60%

80%

100%

120%

Hoa sen Cây tre Hoa mai Đề xuất khác

Tần suat tích lũy

Page 60: Thống kê ứng dụng Chương 1

60

2.3. Biểu đồ nhánh lá (Stem-and-Leaf Plot)

Can nang (Kg)

Frequency Stem & Leaf

1.00 4 . 4

5.00 4 . 56899

10.00 5 . 0011223444

7.00 5 . 5557889

5.00 6 . 01223

4.00 6 . 5555

2.00 7 . 02

2.00 7 . 55

Là công cụ hữu hiệu để tóm lược và trình bày tập dữliệu mà vẫn giúp người xem thấy được cách thức phântán của dữ liệu gốc 1 cách chi tiết.Ví dụ: Có kết quả thống kê về trọng lượng của mộtnhóm sinh viên.

Page 61: Thống kê ứng dụng Chương 1

Bài tập về nhà (làm nhóm)

• Lam bai tap chuong 3, sach bai tap TKUD

Bai tap ca nhan

61

1. Lập phiếu điều tra (chủ đề tùy chọn), thu thập thông tin của ít nhất 5 biến, số lượng quan sát ít nhất 302. Lập bảng tần số cho từng biến (bảng tần số có tần sốtích lũy và tần suất tích lũy)3. Vẽ biểu đồ tần số, tần suất, tần số tích lũy và tần suấttích lũy4. Nhận xét về kết quả thu được ( theo ly thuyet phan IV sau day )

Page 62: Thống kê ứng dụng Chương 1

62

IV. TÓM TẮT DỮ LIỆU

BẰNG CÁC ĐẠI LƯỢNG

THỐNG KÊ MÔ TẢ

Page 63: Thống kê ứng dụng Chương 1

Nội dung

1. Các đại lượng đo lường độtập trung

2. Các đại lượng đo lường độphân tán

63

Page 64: Thống kê ứng dụng Chương 1

64

• 1.1 Trung bình cộng.• 1.2 Trung vị (Median).• 1.3 Các tứ phân vị - phân vị.• 1.4 Số yếu vị (Mode).

1. Các đặc trưng đo lường khuynh hướng tập trung

• 2.1 Khoảng biến thiên.• 2.2 Độ trãi giữa.• 2.3 Phương sai và Độ lệch chuẩn.• 2.4 Độ lệch trung bình• 2.5 Hệ số biến thiên.

2. Các đặc trưng đo lường khuynh hướng phân tán

• 3.1 Phân phối cân đối.• 3.2 Phân phối lệch trái và lệch phải.

3. Khảo sát hình dạng phân phối của các tập dữ liệu

Page 65: Thống kê ứng dụng Chương 1

• a) Trung bình cộng đơn giản• Trung bình tổng thể:

• Trung bình mẫu:

• b) Trung bình cộng có trọng số

1. Trung bình cộng

65

A. CÁC ĐẠI LƯỢNG ĐO LƯỜNG ĐỘ TẬP TRUNG

1

: soá phaàn töû cuûa toång theå1 vôùi : giaù trò phaàn töû thöù i

N

ii i

NX

N Xµ

=

=

1

: soá phaàn töû cuûa maãu1 vôùi : giaù trò phaàn töû thöù i

n

ii i

nX X

n X=

=

1

11

: g i a ù t r ò p h a àn t ö û t h ö ù iv ô ùi : t a àn s o á c u ûa g i a ù t r ò

: s o á p h a àn t ö û c u ûa m a ãu

k

ii ii

i ikk

ii i

i

XX fX f X

ff n

=

=

=

= =

∑∑

Page 66: Thống kê ứng dụng Chương 1

66

• Ví dụ 1. Điểm thi môn Toán của 16 sinh viên là: 2, 4, 5, 8, 9, 3, 6, ,6, 8, 10, 2, 3, 6, 4, 7, 8. Ta có trungbình mẫu (điểm thi trung bình của 16 sinh viênnày) là:

1. Trung bình cộng

2 4 ... 8 5, 687516

X + + += =

Điểm 0 1 2 3 4 5 6 7 8 9 10

Số SV 0 3 5 4 12 18 29 16 10 2 1

Ví dụ 2. Điểm thi Toán của một số sinh viên chotrong bảng sau đây. Hãy tính điểm thi trung bình củanhóm sinh viên này.

0.0 1.3 ... 9.2 10.1 5, 570 3 ... 2 1

X + + + += =

+ + + +

Page 67: Thống kê ứng dụng Chương 1

67

• Ví dụ 3.Trong một đợt sản suất người ta chọn 50 sản phẩm và ghi nhận khối lượng. Sản phẩm đượcphân nhóm theo khối lượng như sau:

1. Trung bình cộng

Tính khối lượng trung bình của sản phẩm trong mẫu?

Khối lượng (gam) Số sản phẩm (fi )484 – 490 5490 – 496 10496 – 502 15502 – 508 13508 – 514 7

Cộng 50

Page 68: Thống kê ứng dụng Chương 1

68

• Chú ý. Trường hợp dữ liệu phân nhóm có khoảngcách thì trung bình mẫu được tính gần đúng bởicông thức

1. Trung bình cộng

=

=

+= =∑

1

1

m i nm a x v ô ùi 2

i

i

k

i i

ik

i

iix f X X

X xf

Page 69: Thống kê ứng dụng Chương 1

69

• c) Đặc điểm của trung bình cộng

1. Trung bình cộng

- Trung bình cộng thường rất nhạy cảm với các độtbiến (giá trị quá lớn hoặc quá nhỏ).

1 2 3 4 5

1 2 3 4 155

- Không tính trung bình cộng cho dữ liệu định danh.Ví dụ: 1= màu đen, 2= màu trắng, 3= màu khác

- Nên cân nhắc việc tính trung bình cho dữ liệu địnhlượng đo lường bằng thang đo khoảngVí dụ: 1= không đồng ý, 2= bình thường, 3= đồng ý, 4= rất đồng ý

Page 70: Thống kê ứng dụng Chương 1

70

• Trong một tập dữ liệu đã được sắp xếp theo thứtự tăng dần thì trung vị (Me) là giá trị đứng giữacủa tập dữ liệu.

• Trung vị chia dãy số làm hai phần, mỗi phần có sốlượng bằng nhau = 50%

2. Trung vị (Median)

1 3 4 5 6

4M e =

( ) ++= = 15 0 % 1

2nnM e X X

Cách xác định trung vị:(a) Xác định trung vị cho dữ liệu không phân nhóm

Trường hợp số phần tử của mẫu n là số lẻ:

Page 71: Thống kê ứng dụng Chương 1

71

2. Trung vị (Median)

1 3 4 5 6 9 10

4 5Me X= =

Trường hợp n là số chẵn:1

2 2

2

n nX XM e

++

=

1 3 4 5 6 9

3 4 4 5 4 , 52 2

X XM e + += = =

Page 72: Thống kê ứng dụng Chương 1

72

2. Trung vị (Median)

(b) Xác định trung vị cho dữ liệu có phân nhóm

B1. Tính tần số tích luỹ.B2. Nhóm chứa trung vị là nhóm có tần số tích luỹB3. Áp dụng công thức

12

n +≥

1

( )2 M e

M e M i n M eM e

n SM e X h

f−−

= +

trong đó

XMe(Min) là giới hạn dưới của nhóm chứa Me

hMe là khoảng cách của nhóm chứa Me

SMe-1 là tần số tích luỹ của nhóm đứng trước nhóm chứa Me

fMe là tần số của nhóm chứa Me.

Page 73: Thống kê ứng dụng Chương 1

73

2. Trung vị (Median)

Ví dụ: Tính trung vị của mẫu dữ liệu sau

Khối lượng(gam)

Số sản phẩm (fi )

484 – 490 5

490 – 496 10496 – 502 15

502 – 508 13508 – 514 7

Cộng 50

Page 74: Thống kê ứng dụng Chương 1

74

2. Trung vị (Median)

Khối lượng (gam) Số sản phẩm (fi ) Tần số tích luỹ (Si )

484 – 490 5 5490 – 496 10 15496 – 502 15 30502 – 508 13 43508 – 514 7 50

Cộng 50

B2 ⇒nhóm chứa trung vị là nhóm 35 0 13 0

2+

>

B3

B1

5 0 1 524 9 6 6 5 0 0

1 5M e

= + =

Vậy có 25 sản phẩm có khối lượng lớn hơn 500g, và 25 sảnphẩm có khối lượng nhỏ hơn 500g

Page 75: Thống kê ứng dụng Chương 1

75

3. Yếu vị ( Mode)

Mode là giá trị xuất hiện nhiều nhất trong một dãy số

Điểm 0 1 2 3 4 5 6 7 8 9 10

Số SV 0 3 5 4 12 18 29 16 10 2 1

⇒ Mode = 6

Cách xác định mode:

(a) Trường hợp dữ liệu không phân nhóm: Mode làgiá trị có tần số lớn nhất.

Page 76: Thống kê ứng dụng Chương 1

76

3. Yếu vị ( Mode)

(b) Trường hợp dữ liệu phân nhóm có khoảng cách

đều nhau: nhóm chứa Mode là nhóm có tần số lớnnhất. Giá trị của Mode đươc tính bởi công thức:

( ) ( )1

( )1 1

Mo MoMo Min Mo

Mo Mo Mo Mo

f fMo X hf f f f

− +

−= +

− + −trong đóXMo(Min) là giới hạn dưới của nhóm chứa Mo

hMo là khoảng cách của nhóm chứa Mo

fMo-1 là tần số của nhóm đứng trước nhóm chứa Mo

fMo là tần số của nhóm chứa Mo.

fMo+1 là tần số của nhóm đứng sau nhóm chứa Mo

Page 77: Thống kê ứng dụng Chương 1

77

3. Yếu vị ( Mode)

Ví dụ: Tính mode của mẫu dữ liệu về doanh số bán hàngcủa trạm xăng trong 1 tháng

Doanh số bán (triệu đồng) Số trạm200 – 300 8300 – 400 10400 – 500 20500 – 600 7600 – 700 5

Tổng 50

( ) ( )

2 0 1 04 0 0 1 0 0 4 4 3 , 4 82 0 1 0 2 0 7

M o −= + =

− + −

Vậy trong tháng này, đa số trạm xăng có doanh số bánhàng khoảng 443,48 triệu đồng

Page 78: Thống kê ứng dụng Chương 1

78

3. Yếu vị ( Mode)

(c) Trường hợp dữ liệu phân nhóm có khoảng cách

không đều nhau: việc xác định nhóm chứa Mode khôngcăn cứ vào tần số mà căn cứ vào mật độ phân phối. (Mật độ phân phối = Tần số : khoảng cách nhóm).

( ) ( )1

( )1 1

Mo MoMo Min Mo

Mo Mo Mo Mo

g gMo X hg g g g

− +

−= +

− + −

trong đó

gMo-1 là mật độ phân phối của nhóm trước nhóm chứa Mo

gMo là mật độ phân phối của nhóm chứa Mo.

gMo+1 là mật độ phân phối của nhóm đứng sau nhóm chứa Mo

Page 79: Thống kê ứng dụng Chương 1

79

3. Yếu vị ( Mode)

Ví dụ: Tính mode của mẫu dữ liệu về doanh thu của 79 cửa hàng trong 1 tháng

Doanh thu(triệu đồng)

Cửa hàng(fi )

200 – 400 8400 – 500 12500 – 600 25600 – 800 25

800 – 1000 9Tổng 79

( ) ( )

0, 2 5 0,1 25 00 10 0 5 50, 90, 2 5 0,12 0, 2 5 0,1 2 5

Mo −= + =

− + −

Vậy đa số cửa hàng có doanh thu khoảng 550,9 triệu đồng

Khoảng cáchnhóm (hi )

Mật độphân phối

200 0,04100 0,12100 0,25200 0,125200 0,045

ii

i

fgh

=

Page 80: Thống kê ứng dụng Chương 1

80

3. Yếu vị ( Mode)

Chú ý:

Mode là đại lượng thống kê mô tả duy nhất có thể vậndụng cho dữ liệu định tính.Mode không bị ảnh hưởng bởi các giá trị đột biếnMột tập dữ liệu có thể có nhiều mode hoặc không cómode

Page 81: Thống kê ứng dụng Chương 1

81

4. Tứ phân vị

Tứ phân vị chia tập dữ liệu đã được sắp thứ tự thànhbốn phần, mỗi phần có số đơn vị bằng nhau = 25%

Cách xác định tứ phân vị:• Nếu n+1 chia hết cho 4:

( )

( ) ( )

( ) ( )

++

+ +

+ +

= =

= =

= =

1 125% 14

2 50% 1 2 1

4

3 75% 1 3 1

4

nn

n n

n n

Q X X

Q X X

Q X X

5 6 7 8 91 43

1 2 3

v ò t r í 3 v ò t r í 6 v ò t r í 94 7 1 0Q Q Q= = =

131210

Trung vị

Page 82: Thống kê ứng dụng Chương 1

82

4. Tứ phân vị

• Nếu n+1 không chia hết cho 4:

( ) ( )2 1 3 11 1 1 32 , 4 , 64 4 4 2 4 4

n nn + ++= = =

Ví dụ: Cho dãy số: 1800, 1900, 2000, 2100, 2200, 2500, 2700, 2800 có số phần tử là n = 8 nên

( )

( )

( )

1

2

3

11900 2000 1900 19254

12100 2200 2100 2150232500 2700 2500 26504

Q

Q

Q

= + − =

= + − =

= + − =

Page 83: Thống kê ứng dụng Chương 1

83

5. Theo tứ tự cân nặng, 9 bạn đầu tiên sẽ cócân nặng trong khoảng nào?

6. Theo tứ tự cân nặng, 27 bạn đầu tiên sẽ cócân nặng trong khoảng nào?

7. Theo thứ tự cân nặng, 10% đầu tiên của bộdữ liệu có cân nặng trong khoảng nào?

8. Theo tứ tự cân nặng, 10 bạn đầu tiên sẽ cócân nặng trong khoảng nào?

Page 84: Thống kê ứng dụng Chương 1

84

5. Thập phân vị

Thập phân vị chia bộ dữ liệu ra làm 10 phần bằng nhau

( )

( ) ( )

( ) ( )

++

+ +

+ +

= =

= =

= =

1 110% 110

2 20% 1 2 1

10

9 90% 1 9 1

10

.....

nn

n n

n n

Q X X

Q X X

Q X X

Page 85: Thống kê ứng dụng Chương 1

85

6. Phân vị

Trong một dãy số đã sắp thứ tự, Phân vị thứ p Qp% (0 ≤ p ≤100) là giá trị chia bộ dữ liệu ra làm 2 phần: một phần gồm p% số quan sát ≤ Qp%,

một phần gồm (100-p)% số quan sát ≥ Qp%

( )+=% % 1p p nQ X

Ví dụ: Danh sách tiền lương tháng của 8 công nhân đãđược xếp từ thấp đến cao như sau:

1800, 1900, 2000, 2100, 2200, 2500, 2700, 2800 60% số công nhân đầu tiên có tiền lương khoảng baonhiêu?

( ) ( )+= = = + − =260% 60% 8 1 5 5

22200 2500 2200 23205

Q X X

Page 86: Thống kê ứng dụng Chương 1

86

2. CÁC ĐẠI LƯỢNG ĐO LƯỜNG ĐỘ PHÂN TÁN

1 5 10 15 20 25 30 40 45 50

Page 87: Thống kê ứng dụng Chương 1

87

1. Khoảng biến thiên

2. Độ trải giữa (khoảng tứ phân vị)

R= Xmax – Xmin

Ví dụ: 1,1,1,1,1,1,1,2,2,3,3,3,4,4,4,5,5,5,5 ⇒ R= 5-1=41,1,1,1,1,1,1,2,2,3,3,3,4,4,4,5,5,5,121 ⇒ R= 121-1=120

RQ= Q3 – Q1

Ví dụ: Tiền lương của 2 tổ công nhânTổ I: 0,9 1,2 1,5 1,8 2,1 2,4 2,7 3,0 3,3 3,6 3,9

RQ= 3,3 – 1,5 = 1,8 triệuTổ II: 1,9 2,0 2,1 2,2 2,3 2,4 2,5 2,6 2,7 2,8 2,9

RQ= 2,7 – 2,1 = 0,6 triệuĐộ trải giữa của tổ I lớn hơn của tổ II nên các mức lươngtrong tổ I biến thiên nhiều hơn trong tổ II.

Page 88: Thống kê ứng dụng Chương 1

88

3. Phương sai

Phương sai tổng thể:

( )2

2 1

11

: g iaù trò p haàn töû th ö ù i.v ô ùi : taàn so á c u ûa

: so á p haàn töû c u ûa to ång th e å

k

ii ii

i ikk

ii i

i

XX ff X

ff N

µ

σ =

=

=

− =

=

∑∑

Phương sai mẫu:

( )2

2 1

1

1

i

: gia ù trò phaàn töû thö ù ivôùi : taàn soá cuûa X

: soá phaàn töû cuûa maãu

=

=

=

− =

=

∑∑

k

ii i

iik

ki

i i

i

XX X f

S f

ff n

Phương sai mẫu hiệu chỉnh: 2 2ˆ1

=−

nS S

n

Page 89: Thống kê ứng dụng Chương 1

89

4. Độ lệch tiêu chuẩn

2σ σ= 2=S S

Độ lệch chuẩn cho biết sự phân phối của các giá trị trong mộttổng thể, thể hiện trên hai quy tắc sau đây:

Quy tắc Tchebychev: Bất kì một tổng thể nào với trung bình

là µ và độ lệch tiêu chuẩn là σ đều có ít nhất

giá trị rơi vào khoảng (µ - mσ, µ + mσ) với m > 1.

Vậy với 1 phân phối bất kì thìít nhất 55,6% giá trị rơi vào (µ - 1.5σ, µ + 1.5σ)

ít nhất 75% giá trị rơi vào (µ - 2σ, µ + 2σ)

ít nhât 84% giá trị rơi vào (µ - 2.5σ, µ + 2.5σ)

ít nhất 88,9% giá trị rơi vào (µ - 3σ, µ + 3σ)

Độ lệch chuẩn được sử dụng để so sánh độ phân tán củahai hay nhiều tổng thể (khi đơn vị tính giống nhau hoặcgiá trị trung bình bằng nhau).

2

11 .100%

− m

Page 90: Thống kê ứng dụng Chương 1

90

4. Độ lệch tiêu chuẩn

Ví dụ: Tiền lương hàng năm của 7 công nhân một xínghiệp là: 34,5 ; 30,7 ; 32,9 ; 36,0 ; 34,1 ; 33,8 ; 32,5 (triệuđồng).

Khi đó:Tiền lương trung bình = 33,5Độ lệch tiêu chuẩn = 1,678Theo quy tắc Tchebychev, có ít nhất 55,6% mức lương rơivào khoảng 33,5±1,5.1,678 , nghĩa là từ 30,983 đến 36,017 (triệu đồng/năm).

Page 91: Thống kê ứng dụng Chương 1

91

4. Độ lệch tiêu chuẩn

Quy tắc Thực nghiệm: Khi X có phân phối chuẩn thì

Khoảng 68% giá trị rơi vào (µ - σ, µ + σ)

Khoảng 95% giá trị rơi vào (µ - 2σ, µ + 2σ)

Khoảng 99,7% giá trị rơi vào (µ - 3σ, µ + 3σ)

Vậy hầu như toàn bộ giá trị đều nằm trong khoảng ±3σ

Quy tắc thực nghiệm giúp ta có cơ sở nhận diện những giátrị bất thường trong một tập dữ liệu. Chẳng hạn, khi tập dữliệu có phân phối cân đối, ta thấy có 5% giá trị rơi ra ngoàikhoảng ±2σ so với trung bình, vậy ta xem những giá trịnày là các quan sát ngoại lệ.

Page 92: Thống kê ứng dụng Chương 1

92

4. Độ lệch tiêu chuẩn

68%

95%

99,7%

Ví dụ: (Giáo trình- trang 97) Điểm thi môn Toán của một lớphọc có dạng phân phối chuẩn. µ= 5,6; σ =1,41. Giảng viên quyết định áp dụngquy tắc để xét sinh viên xuấtsắc là sinh viên có điểm thi trêntrung bình và nằm ngoài phạmvi ±2σ so với trung bình. Sinh viên được bao nhiêu điểmthì được xếp loại xuất sắc?Những sinh viên có điểm từµ + 2σ = 5,6 + 2.1,41 = 8,42 trở lên được xếp loại sinh viênxuất sắc.

Page 93: Thống kê ứng dụng Chương 1

93

4. Độ lệch tiêu chuẩn

Bài tập:1) Trong ví dụ trên, 68% sinh viên sẽ có điểm thi nằm trongkhoảng nào?2) Có bao nhiêu % sinh viên có điểm thi dưới 2,78 điểm?3) Nếu không có giả thiết điểm của lớp học trên có phân phốichuẩn, có ít nhất bao nhiêu % sinh viên có điểm trong khoảng(2.78 ; 8.42) ?4) Nếu không có giả thiết điểm của lớp học trên có phân phốichuẩn, ít nhất 50% sinh viên sẽ có điểm trong khoảng nào?

Trả lời: 1) ( 4.19 ; 7.01 )

2) 2.5%

3) 75%

4) m= 1.4142 (3.606;7.594)

Page 94: Thống kê ứng dụng Chương 1

94

5. Hệ số biến thiên

Hệ số biến thiên được sử dụng để đo lường mức độ biếnđộng tương đối của những tập dữ liệu có giá trị trung bìnhkhác nhau hoặc đơn vị đo khác nhau

Công thức tính hệ số biến thiên tổng thể:

Công thức tính hệ số biên thiên mẫu:

Khi hệ số biến thiên của hai tập dữ liệu được so sánh với

nhau, hệ số biến thiên của tập nào lớn hơn thì tập đó biến

động nhiều hơn.

.100%σ

µ=CV

.100%=S

CVX

Page 95: Thống kê ứng dụng Chương 1

95

5. Hệ số biến thiên

Ví dụ:

So sánh 2 tập dữ liệu có trung bình khác nhau: sách

giáo trình trang 95.

So sánh 2 tập dữ liệu có đơn vị đo khác nhau: sách

giáo trình trang 96.

Page 96: Thống kê ứng dụng Chương 1

96

6. Chuẩn hóa dữ liệu

Công thức tính giá trị chuẩn hoá z cho dữ liệu tổng thể:

Công thức tính giá trị chuẩn hoá z cho dữ liệu mẫu:

z là điểm số chuẩn hóa cho biết x cách xa trung bình mộtkhoảng bằng mấy lần độ lệch tiêu chuẩn.

z ≈ 0 : quan sát ở vị trí rất gần trung bình. z = -1 : quan sát ở vị trí lệch 1 độ lệch tiêu chuẩn so vớitrung bình về phía trái; z = 1: quan sát ở vị trí lệch 1 độ lệch tiêu chuẩn so vớitrung bình về phía phải. Ví dụ: Giáo trình trang 99

µ

σ

−=

xZ

−=

x xZ

S

Page 97: Thống kê ứng dụng Chương 1

97

3. KHẢO SÁT HÌNH DÁNG CỦA PHÂN PHỐI

Page 98: Thống kê ứng dụng Chương 1

98

1. Hình dáng của phân phối

Mo Mo = Me= Mean Mo MeMe

Skewness <0 Skewness =0 Skewness >0

Lệch phảiLệch trái

Mean Mean

Cân đối

Page 99: Thống kê ứng dụng Chương 1

99

1. Hình dáng của phân phối

Kurtosis =3

Kurtosis >3

Kurtosis <3

Page 100: Thống kê ứng dụng Chương 1

100

2. Biểu đồ hộp và râu (Box Plot)

Ví dụ: ( Giáo trình – trang 92 ) Vẽ biểu đồ hộp và râu mô tả

dữ liệu về tuổi của 30 sinh viên.

Bước 1: sắp xếp dữ liệu theo thứ tự tăng dần

Bước 2: Tính giá trị tứ phân vị: Q1= 22, Q2= 27, Q3=30

⇒ độ trải giữa = Q3 - Q1= 8

Bước 3: vẽ hộp có bề rộng bằng độ trải giữa

Dulieu.xls

22 26 30

Page 101: Thống kê ứng dụng Chương 1

101

2. Biểu đồ hộp và râu (Box Plot)

Bước 4: vẽ đường thẳng nằm trong hộp đi qua giá trị trung vị

Me = Q2 =27

Bước 5: tính giá trị cực đại và cực tiểu của biểu đồ

cực đại = Q3+1,5. (Q3 – Q1) = 42

cực tiểu = Q1 – 1,5. (Q3 – Q1) = 10

Bước 6: Vẽ 2 râu dựa trên cực đại và cực tiểu của bộ dữ liệu

cực đại = 39 cực tiểu = 19

10 14 18 22 26 30 34 3822 26 30 42

Page 102: Thống kê ứng dụng Chương 1

102

2. Biểu đồ hộp và râu (Box Plot)

10 14 18 22 26 30 34 38

0

2

4

6

8

10

12

14

19 - 24 24 - 29 29 - 34 34 -39 More

Fre

quen

cy

do tuoi

Histogram

Page 103: Thống kê ứng dụng Chương 1

103

2. Biểu đồ hộp và râu (Box Plot)

Cựctiểu

Q1 Me Q3 Cựcđại

Tổng quát

Cựctiểu

Q1 Me Q3 Cựcđại

Quan sátngoại lệ

Page 104: Thống kê ứng dụng Chương 1

104

V. PHÂN PHỐI XÁC SUẤT CỦA CÁC ĐẠI LƯỢNG THỐNG KÊ TRÊN KHÔNG GIAN MẪU

1. PHÂN PHỐI XÁC SUẤT CỦA CÁC ĐẠI LƯỢNG THỐNG KÊ CÓ PHÂN PHỐI CHUẨN

2. PHÂN PHỐI TIỆM CẬN CHUẨN CỦA CÁC ĐẠI LƯỢNG THỐNG KÊ

3. SUY DIỄN THỐNG KÊ