Descriptive nk 2560 - KKU Web Hosting · · ·Á · ¡¦¦ µ 'hvfulswlyh 6wdwlvwlfv o¼ nª¥«µ...
Transcript of Descriptive nk 2560 - KKU Web Hosting · · ·Á · ¡¦¦ µ 'hvfulswlyh 6wdwlvwlfv o¼ nª¥«µ...
สถตเชงพรรณนา (Descriptive Statistics)
ผชวยศาสตราจารยนคม ถนอมเสยง
สาขาวชาวทยาการระบาดและชวสถต
คณะสาธารณสขศาสตร มหาวทยาลยขอนแกน
Email: [email protected]
Web: http://home.kku.ac.th/nikom
n
n
i ixx
1)(
สถตเชงพรรณนา (Descriptive Statistics) ขอมลตอเนอง (continuous data)
เปนการวดตาแหนงกงกลางในการแจกแจงของขอมล โดย
การพรรณนาลกษณะของขอมล เปนคาสรปเพยงคาเดยว
ใชกรณตวแปรตอเนอง ประกอบดวย
คาเฉลย (mean)
คามธยฐาน (median)
คาฐานนยม (mode)
Garcia-Aymerich, J. et al.Patients hospitalized for COPD have a high prevalence of
modifiable risk factors for exacerbation (EFRAM study. Eur Respir J. 2000;16: 1037-1042
สถตเชงพรรณนา (Descriptive Statistics) คาเฉลย (mean หรอ arithmetic mean)
คาเฉลย เปนคาทใชวดแนวโนมสสวนกลางทใชมากทสด
เปนคาทไดโดยการคานวณจากผลรวมของขอมลทงหมด
หารดวยจานวนขอมลทงหมด (n)
n
n
iix
)x(
1
คามธยฐาน (Median)
คามธยฐานเปนคาทอยในตาแหนงกงกลางของขอมลท
เรยงลาดบ จากนอยไปมากหรอจากมากไปนอย โดยคา
มธยฐานจะแบงขอมลเปนสองสวนเทาๆ กน
เมอ จานวนขอมลเปนจานวนค (odd)
คามธยฐานคอคาขอมลของลาดบท (n+1)/2
ขอมลเปนจานวนค (even)
คามธยฐานคอคาทอยระหวางลาดบของขอมล
[(n/2)+(n/2)+1]/2
คาฐานนยม (Mode)
คาฐานนยมเปนคาทแสดงลกษณะทเกดขน และม
ความถมากทสด ถาคามความแตกตางกนอาจไมมคา
ฐานนยม หรอคาฐานนยมอาจมหลายคาไดเมอม
ความถมากทสดเทากน
ขอมล ชพจร (pulse rate) 3ชด (3 รพ.)
60 64 68 72 72 76 80 -
56 60 64 68 72 76 80 84
64 68 72 72 76 80 80 -
ใหคานวณ คาเฉลย คามธยฐาน ฐานนยม
คานวณคาเฉลย
73.147
80807672726864n
7
1i ix
3x
708
8480767268646056n
8
1i ix
2x
70.297
80767272686460n
7
1i ix
1x
คานวณคามธยฐาน: เรยงลาดบนอยไปมาก
42
1)(7
2
1)(nำดบทคาขอมลล 3 ชด median
4.52
1)(8
2
1)(nำดบทคาขอมลล 2 ชด median
42
1)(7
2
1)(nำดบทคาขอมลล 1 ชด median
70272)(68
70
ลาดบ 1 2 3 4 5 6 7 8
60 64 68 72 72 76 80 -
56 60 64 68 72 76 80 84
64 68 72 72 76 80 80 -
ฐานนยม
ลาดบ 1 2 3 4 5 6 7 8
60 64 68 72 72 76 80 -
56 60 64 68 72 76 80 84
64 68 72 72 76 80 80 -
สรป: การคานวณ คาเฉลย คามธยฐาน ฐานนยมMean Median Mode
70.29 72 72.00
70 70 -
73.14 72 72, 80
การเลอกใช คาเฉลย หรอมธยฐาน
พจารณาจากการแจกแจงของขอมล
ขอมลมการแจกแจงแบบปกต ใชคาเฉลย
ขอมลมการแจกแจงแบบไมปกต ใชคามธยฐาน
95 %
ขอมล 95 % อยในชวง )(96.1 sdx
ความเบ (skewness)
3
)2)(1( s
xx
nn
nskewness
skewness = -1 < normal <+1> +3 positive skewness< -3 negativew skewness
Meam=median=modeMeam< median <mode Mode< median <mean
)1975(,2/3
2
31 Bock
m
mskewnessoftCoefficien
Skewpositive
Skewneagative
normalsymmetry
0
0
,0
1
1
1
โปรแกรม Stata
โปรแกรม SPSS, SAS
การเลอกใช คาเฉลย หรอมธยฐานพจารณาจากการแจกแจงของขอมลตอเนอง วธตรวจสอบการแจกแจงแบบปกต การ plot Normal probability plot การ plot Histogram, Frequency polygon,
Stem & Leaf plot หรอ Box-Whisker plot
การทดสอบ Normality ดวยสถต Shapiro-Wilk Test. swilk chol
Shapiro-Wilk W test for normal dataVariable | Obs W V z Prob>z
-------------+------------------------------------------------------chol | 250 0.99649 0.636 -1.052 0.85358
p-value >0.05 ขอมลมการแจกแจงแบบปกต
แผนภมลาตนและใบ (Stem & Leaf Chart)แผนภมลาตนและใบ (Turkey, 1975) แสดงลกษณะการแจกแจงของขอมล
นาขอมลจรงมาแสดงการแจกแจงขอมลในแนวแถว ประกอบดวย
สวนลาตน (stem) และสวนใบ (leaf)
เชน ชดขอมลอาย เมอใชตวเลข 2 หลก ลาตน (stem) คอตวเลขหลกสบ
ใบ (leaf) คอตวเลขหลกหนวย
Turkey ไดแนะนาเสนอหลายวธดวยกน เชน การแสดงกราฟแบบหาบรรทด
(A five-line stem-and-leaf display หรอ squeezed stem-and leaf)
สญลกษณ * = 0 (zero) , 1 (one) t = 2 (two), 3 (three)
f = 4 (four), 5 (five) s = 4 (four), 5 (five)
. = 8 (eight), 9 (nine)
แผนภมลาตนและใบ (Stem & Leaf Chart)ตวอยาง แผนภมลาตนและใบขอมล อาย 12, 13, 13, 13, 14, 14, 15, 15,
15, 15, 16, 16, 16, 17, 17, 18, 18, 20, 20, 20, 20, 20, 21,
21, 22, 23, 24, 24, 25, 26, 29, 31, 33. stem ageStem-and-leaf plot for age
1* | 11t | 23331f | 4455551s | 666771. | 882* | 00000112t | 232f | 4452s | 62. | 93* | 13t | 3
แผนภาพกลอง (Box & Whisker)
แผนภาพ Box & Whisker หรอเรยกชอสนวา Box plot
แสดงรายละเอยด 5 ลกษณะไดแก
(1) มธยฐาน (median: P50, Q2)
(2) คลอรไทล (quartile) ท 1 และคลอรไทลท 3 คาระหวางคลอรไทลท 3
และคลอรไทลท 1 เรยกวา “interquartile range: (Q3-Q1=IQR) or BOX”
(3) lower adjacent มคาเทากบ และ upper adjacent เทากบ
(4) lower & upper whisker
(5) ขอมลทมลกษณะตาหรอสงกวาปกต เรยกวา “คานอกเกณฑ (outlier)”
IQRQ 5.13 IQRQ 5.11
<- outside values (outlier)
adjacent line --+ - <- upper adjacent value( )| |
whiskers | || +---+| | |
box | |---|| | | | | || +---+
whiskers | || |
adjacent line --+ - <- lower adjacent value( )<- outside value (outlier)
IQRQ 5.13
<- median (P50 or Q2)<- 75th percentile(Q3)(upper hinge)
<- 25th percentile(Q1)(lower hinge)
-
-
IQRQ 5.11
Box-Whisker นามาพจารณาวาการแจกแจงของขอมลมลกษณะอยางไร มขอมลตาหรอสงกวาปกต หรอคานอกเกณฑ (outliers) หรอไม
การพจารณาการแจกแจงขอมล ดระยะหาง ระหวางมธยฐาน (P75 or Q2), Q1, Q3
การแจกแจงแบบสมมาตร ระยะหางระหวาง มธยฐานกบ Q1
= ระยะหางระหวางมธยฐานกบ Q3 (รป ข.) เบเชงบวก (positively skewed) หรอเบขวา ระยะหางระหวางมธยฐานกบ Q1
< ระยะหางระหวางมธยฐานกบ Q3 (รป ก.) เบเชงลบ (negatively skewed) หรอเบซาย ระยะหางระหวางมธยฐานกบ Q1
> ระยะหางระหวางมธยฐานกบ Q3 (รป ค.)
Box-Whisker plot (แผนภาพกลอง: Box plot)
01 01 01 รป ก. รป ค.รป ข.
คานอกเกณฑ (Outliers)Hoaglin, Iglewicz & Tukey (1986) ศกษาโดยจาลองโดยวธ Monte Carlo กบการแจกแจงแบบ Guassian พจารณาคานอกเกณฑ ดานตา/ดานสงกวาปกตดงน คานอกเกณฑ ทคาตาหรอสงกวาปกต ระดบตา (mild outliers)
หรอ คานอกเกณฑ ทคาตาหรอสงกวาปกต ระดบรนแรง (severe outliers)
หรอ
IQRQxIQRQ i 35.1 11 IQRQxIQRQ i 35.1 33
IQRQxi 31 IQRQxi 33
การพจารณาเมอเปรยบเทยบระหวาง Mean-Median
- mean > median = positive difference -> Positive Skew
- mean = median = difference=0 -> symmetry
- mean < median = negative difference-> Negative Skew
หรอ
sd > 1/2 ของ mean --> Skewed
Altman,D.G. (1991). Practical Statistics for Medical Research. Page-36.
คาเฉลย Geometric Mean
คอ antilogarithm คาเฉลยของ loge(xi); xi = ขอมล i..n
ใชในการคานวณคาขอมลทได transform ดวย loge
เมอขอมลมลกษณะเบไปทางบวกRosner, B. (2000). Fundamentals of Biostatistics. Page 15-16.
n
iie x
nogXl
XantiGMMeanGeometric
1
)(log1
)loglog()(
ubtgN ubtgD ln(ubtgN) ln(ubtgD)4.1 11.5 1.410987 2.4423476.3 12.1 1.84055 2.4932067.8 16.1 2.054124 2.7788198.5 17.8 2.140066 2.8791988.9 24 2.186051 3.17805410.4 28.8 2.341806 3.36037511.5 33.9 2.442347 3.52341512 40.7 2.484907 3.70622813.8 51.3 2.624669 3.93769117.6 56.2 2.867899 4.02891724.3 61.7 3.190476 4.12228437.2 69.2 3.616309 4.237001
Mean 13.53 35.28 2.433 3.391sd 9.194 20.270 0.595 0.637
กลม Geometric MeanNormal = e2.433 = exp(2.433) = 11.39Diabetes - e2.391 = exp(3.391) = 29.70
ตวอยาง urinary b-thromboglobulin (b-TG) excretion in 12 normal subjects & 12 diabetic
patients.
ขอมล urinary b-thromboglobulin รป A ขอมลกอน transform
รป B transform ดวย loge
รป A
รป B
การวดการกระจาย-เปนการวดความแปรปรวน ของขอมล
-ถาขอมลมคาเทากนขอมลชดนนจะไมมความผนแปร
การผนแปรมคาสงหรอตาขนอยกบลกษณะของขอมล
-ขอมลทมความแตกตางกนนอยการผนแปรมคาตา
-ขอมลทมความแตกตางกนมากการผนแปรมคาสง ประกอบดวย -คาพสย (range)
-คาความแปรปรวน (variance)-คาสวนเบยงเบนมาตรฐาน (standard deviation)- สมประสทธการแปรผน (Coefficient of Variation: CV)
- Interquartile range (IQR)
การนาเสนอ-ขอมลมการแจกแจงปกต คาเฉลย(สวนเบยงเบนมาตรฐาน)-ขอมลมการแจกแจงไมปกต มธยฐาน(interquartile range)
Q1, Q3มธยฐาน (คาคาสด, คาสงสด)ตวอยาง
Garcia-Aymerich, J. et al.Patients hospitalized for COPD have a high prevalence of
modifiable risk factors for exacerbation (EFRAM study. Eur Respir J. 2000;16: 1037-1042
(Gudmundsson, G. et al. Risk factors for rehospitalisation in COPD:role of health status, anxiety and depression. Eur Respir J 2005; 26: 414–419. )
การวดการกระจายพสย (range) พสยคอคาผลตางระหวางคาสงสดและตาสด คาพสยเปนคาทคานวณงายและแปรผลไดไมยาก คาพสยเหมาะสมกบขอมลทมจานวนทไมมากนก ขอมลจานวนมาก คาพสยไมสามารถวดการกระจาย
ไดดพอ ไมเหมาะกบขอมลนอกเกณฑ (outlier)
จากขอมล รพ พสยของขอมลชดท 1 = 80-60 = 20
พสยของขอมลชดท 2 = 84-56 = 28
พสยของขอมลชดท 3 = 80-64 = 16
การวดการกระจาย ความแปรปรวนของประชากร
ความแปรปรวนของประชากร เปนคาเฉลยของ
ความแตกตางยกกาลงสองของคาทวดไดกบคาเฉลย
-สญลกษณ และความแปรปรวนของประชากร ไดแก
สวนเบยงเบนมาตรฐานของประชากร
-คอรากทสองของความแปรปรวน
N
N
1i
2)
i(x
2
μ
σ
N
N
1i
2)i
(x
μ
σ
150 150 150
130 140 150
150 150 150
130 140 150
N
N
1i
2μ)i
(x2σ
0
)150150()150150()150150(σ
222
3
2
67.66
)140150()140140()140130(σ
222
3
2
ความแปรปรวนชดท 1
ความแปรปรวนชดท 2
ความแปรปรวนของตวอยาง (s2)
-ความแปรปรวนของตวอยาง คอผลรวมกาลงสองของความ
แตกตาง ระหวางคาทวดไดกบคาเฉลย หารดวย n-1
สวนเบยงเบนมาตรฐานของตวอยาง (s)
-คอรากทสองของความแปรปรวน
-ใชสวนเบยงเบนมาตรฐานในการนาเสนอ เนองจากหนวยการ
วดของ s เปนหนวยเดยวกน กบ mean ของขอมล
1-n
N
1i
2)xi
(x2s
1-n
N
1i
2)xi
(x
s
11
2
2
n
N
i)x
i(x
s
02
0
13
1791791791791791792222
)()()(s
1002
200
13
1601701601601601502222
)()()(s
150 160 170
X
170160150
179 179 179
X
179
11
2
n-
N
i)x
i(x
s
10100 s
11
2
n-
N
i)x
i(x
s
00 s
. su heiVariable | Obs Mean Std. Dev. Min Max
----------+-----------------------------------hei | 3 160 10 150 170
การวดการกระจายสมประสทธการแปรผน (Coefficient of Variation: CV)
-ใชเปรยบเทยบความผนแปรของขอมล
-โดยทาใหขอมลทนามาเปรยบเทยบมคาเฉลยและ
สวนเบยงเบนมาตรฐานเปนหนวยเดยวกน
-กรณความแปรปรวนเทากน ไมสามารถระบ ความแตกตางของ
ความแปรปรวนได เชนคะแนนทกวชาของนาย ก sd=10
mean=120 คะแนนทกวชาของนาย ข sd=10 mean=80
100xx
sCV
Percentile, Quantile-ใชวดตาแหนงขอมล 1-100, 1-4 ตามลาดบ-P75 = 75.5 หมายความวามความถของ
คาคะแนนทมคานอยกวา 75.5 อยรอยละ 75
Interquartile Range (IQR)
-การประยกตใชเพอดการกระจายขอมลไม normal
ใช P75 (Q3)กบ P25 (Q1)
Q3- Q1 = interquartile range (IQR) ;
(Q3- Q1)/2 เรยกวา “semi-quantile range” หรอ
“quantile deviation” กรณขอมล normal =IQR/1.35 = sd
10
15
20
25
30
age
. summarize age, detailage
-------------------------------------------------------------Percentiles Smallest
1% 8 85% 8 9
10% 9 10 Obs 1125% 10 11 Sum of Wgt. 1150% 18 Mean 16.72727
Largest Std. Dev. 6.72444775% 22 2090% 23 22 Variance 45.2181895% 29 23 Skewness .230131699% 29 29 Kurtosis 2.025549
Q1 หรอ P25
Q3 หรอ P75
Median
. list age,cleanage
1. 8 2. 9 3. 104. 11 5. 15 6. 187. 19 8. 20 9. 22
10. 23 11. 29
Percentileคานวณคา n(k)/100
กรณทคา n(k)/100 ไดคาจานวนเตม (integer)
Percentile = คาเฉลยของขอมล ลาดบท
n(k)/100+n(k)/100+1
กรณทคา n(k)/100 ไมใชคาจานวนเตม
Percentile = คาของขอมล ลาดบทจานวนเตมของคา
[n(k)/100]+1
ตวอยาง ขอมล 20 ราย ใหหาคา P25
1,2,3,4,5,6,7,8,9,10,11,12,13,14,15,16,17,18,19,20คานวณคา n(k)/100 = 20(25)/100 = 5ดงนนคา n(k)/100 ไดคาจานวนเตม Percentile = คาเฉลยของขอมลลาดบท n(k)/100+n(k)/100+1
= คาขอมลลาดบท 5=5, ลาดบท 6=6= (5+6)/2=5.5
. su score ,detailscore
-------------------------------------------------------------Percentiles Smallest
1% 1 15% 1.5 2
10% 2.5 3 Obs 2025% 5.5 4 Sum of Wgt. 20
. list score, clean
score 1. 1 2. 2 3. 3 4. 4 5. 5 6. 67. 7 8. 8 9. 9
10. 10 11. 11 12. 12 13. 13 14. 14 15. 15 16. 16 17. 17 18. 18 19. 19 20. 20
ตวอยาง วเคราะหโดย STATA
-สามารถ วเคราะหหา Percentile ตางๆ
. su score ,detailscore
-------------------------------------------------------------Percentiles Smallest
1% 1 15% 1.5 2
10% 2.5 3 Obs 2025% 5.5 4 Sum of Wgt. 20
50% 10.5 Mean 10.5Largest Std. Dev. 5.91608
75% 15.5 1790% 18.5 18 Variance 3595% 19.5 19 Skewness 099% 20 20 Kurtosis 1.793985
ตวอยาง
ขอมล 10 ราย ใหหาคา P25 ขอมล 1,2,3,4,5,6,7,8,9,10
คานวณคา n(k)/100 = 10(25)/100 = 2.50
ดงนนคา n(k)/100 ไมใชคาจานวนเตม (integer)
Percentile = คาของขอมล ลาดบทจานวนเตมของคา
n(k)/100+1
= (2+1)=3 คาลาดบทขอมล = 3
. su score ,detail
score-------------------------------------------------------------
Percentiles Smallest1% 1 15% 1 2
10% 1.5 3 Obs 1025% 3 4 Sum of Wgt. 10
. list score, clean
score 1. 1 2. 2 3. 3 4. 4 5. 5 6. 6 7. 7 8. 8 9. 9
10. 10
. su score ,detail
score-------------------------------------------------------------
Percentiles Smallest1% 1 15% 1 2
10% 1.5 3 Obs 1025% 3 4 Sum of Wgt. 10
50% 5.5 Mean 5.5Largest Std. Dev. 3.02765
75% 8 790% 9.5 8 Variance 9.16666795% 10 9 Skewness 099% 10 10 Kurtosis 1.775758
ตวอยาง วเคราะหโดย STATA
ตวอยาง
-ใหหาตาแหนงขอมล P25, P75 ของขอมล systolic BP 13 ชด
80, 85, 90, 95, 100, 105, 110, 115, 120, 125, 130,
135, 140
-คานวณคาตาแหนง P25 = 13x25/100 = 3.25
-ดงนนคา n(k)/100 ไมใชคาจานวนเตม
P25 = คา sysbp ตาแหนงท 3+1 = 4
-คานวณคาตาแหนง P75= 13x75/100 = 9.75
-ดงนนคา n(k)/100 ไมใชคาจานวนเตม
P75 = คา sysbp ตาแหนงท 9+1 = 10
. list sysbp,clean
sysbp1. 80 2. 85 3. 90 4. 95 5. 100 6. 105 7. 110 8. 115 9. 120 10. 125 11. 130 12. 135 13. 140
. su sysbp ,detail
sysbp-------------------------------------------------------------
Percentiles Smallest1% 80 805% 80 85
10% 85 90 Obs 1325% 95 95 Sum of Wgt. 13
50% 110 Mean 110Largest Std. Dev. 19.4722
75% 125 12590% 135 130 Variance 379.166795% 140 135 Skewness 099% 140 140 Kurtosis 1.785714
ตวอยาง วเคราะหโดย STATA
การนาเสนอ
-ขอมลมการแจกแจงปกต คาเฉลย(สวนเบยงเบนมาตรฐาน)
-ขอมลมการแจกแจงไมปกต มธยฐาน(interquartile range)
Q1, Q3
ตวอยาง (คาตาสด, คาสงสด)
Questions for critical appraisalThe following questions should be asked when appraising published results:
Have several tests of normality been considered and reported?
Are appropriate statistics used to describe the centre and spread of the
data?
Do the values of the mean ±2 SD represent a reasonable 95% range?
If a distribution is skewed, has the mean of either group been
underestimated or overestimated?
If the data are skewed, have the median and inter-quartile range been
reported?
สถตเชงพรรณนา (Descriptive Statistics)
ขอมลไมตอเนอง (categorical data)
เพศ อาชพ หมเลอด การจดกลมตวแปรตอเนอง
เชน จดกลมความดนโลหตเปนสง ปกต ตา ฯลฯ
สวนมากมสเกลการวดแบบนามสเกลและอนดบสเกล
นาเสนอเปน การวดจานวนนบ หรอความถ หรอสรป
ลกษณะขอมล โดยใช ความถ รอยละ (คาสดสวน p=ni/n)
ตวแปร จานวน รอยละ
เพศชาย 40 40.00
เพศหญง 60 60.00
รวม 100 100.00
Cnattingius S, Signorello LB, Annerén G, Clausson B, Ekbom A, Ljunger E, Blot WJ, McLaughlin JK,
Petersson G, Rane A, Granath F. Caffeine intake and the risk of first-trimester spontaneous abortion.
N Engl J Med. 2000 Dec 21;343(25):1839-45.
Georg-Christian Funk, Kathrin Kirchheiner, Otto C Burghuber* and Sylvia Hartl. BODE index versus GOLD classification for explaining anxious anddepressive symptoms in patients with COPD – a cross-sectionalstudy. Respiratory Research 2009, 10:1
Daisy et al. (2011). Impaired health status and care dependency in patientswith advanced COPD or chronic heart failure. Qual Life Res. 2011 December; 20(10): 1679–1688.