ДИСКРЕПТИВ СТАТИСТИК: ТООН ХЭМЖИГДЭХҮҮН

Post on 04-Apr-2022

9 views 0 download

Transcript of ДИСКРЕПТИВ СТАТИСТИК: ТООН ХЭМЖИГДЭХҮҮН

DESCRIPTIVE STATISTICS:

NUMERICAL MEASURES

ДИСКРЕПТИВ СТАТИСТИК:

ТООН ХЭМЖИГДЭХҮҮН

Д.Хишигт (Ph.D.)

Эдийн засгийн тэнхим

МУИС-ийн ШУС

АГУУЛГА

1. Тоон өгөгдлийг тодорхойлогч төвийн хандлагын хэмжигдэхүүн

2. Тоон өгөгдлийг тодорхойлогч хэлбэлзлийн хэмжигдэхүүн

3. Тоон өгөгдлийн тархалтын хэлбэр, алслагдсан утгыг тодорхойлох

4. Тоон өгөгдлийг шинжлэх хайрцган диаграм (box plot)

5. Хоёр хувьсагчийн харилцан хамаарлыг тодорхойлогч хэмжигдэхүүн

1. ТӨВИЙН ХАНДЛАГЫН ҮЗҮҮЛЭЛТҮҮД

• Түүврийн өгөгдөлд тулгуурлан эх олонлогийн

параметрийг үнэлдэг. Ө/х эх олонлогийн

параметрийн үнэлэгч нь түүврийн статистик юм.

• Үнэлгээ нь эх олонлогийн зарим хэсэг буюу

түүвэрт үндэслэн эх олонлогийн үл мэдэгдэх

утгыг шинжлэх ухааны үндэслэлтэйгээр

тооцоолохыг хэлнэ. Гэвч түүврээс түүвэрт

энэхүү үнэлгээ өөрчлөгдөж байдаг.

• Үнэлгээ: цэгэн үнэлгээ, интервал үнэлгээ

1. ТӨВИЙН ХАНДЛАГЫН ҮЗҮҮЛЭЛТҮҮД

1. Дундаж (Mean)

2. Медиан (Median)

3. Моод (Mode)

4. Percentile, Decile, Quartile

5. Геометр дундаж

Арифметик дундаж (Arithmetic Mean):

• Түүвэр

• Эх олонлог

𝑋 =𝑋1+𝑋2+…+𝑋𝑛

𝑛=

σ𝑖=1𝑛 𝑋𝑖

𝑛

𝜇 =𝑋1+𝑋2+…+𝑋𝑁

𝑁=

σ𝑖=1𝑁 𝑋𝑖

𝑁

• Жишээ: Эдийн засаг, НББ, Менежмент, Статистик,

Санхүүгийн ангийн оюутнуудын тоо дараах байдлаар

өгөгджээ: 46 54 42 46 32.

• Энэ тохиолдолд Х1 = 46, Х2 = 54, Х3= 42, Х4 = 46,Х5 = 32 бөгөөд

ത𝑋 =𝑋1+𝑋2+𝑋3+𝑋4+𝑋5

5=

46+54+42+46+32

5= 44

Жинлэсэн дундаж: Дундаж утгыг тооцох томъёог авч үзвэл ажиглалтын

нэгж бүрт 1/n гэсэн ижил жин харгалзаж байна.

𝑋 =σ𝑋𝑖

𝑛=

1

𝑛𝑋𝑖 =

1

𝑛𝑋1 + 𝑋2 + ⋯+ 𝑋𝑛

=1

𝑛(𝑋1) +

1

𝑛(𝑋2) + ⋯+

1

𝑛(𝑋𝑛)

Эндээс жинлэсэн дунджийн томъёог гарган авч бичвэл дараах

хэлбэртэй болно.

𝑋 =σ𝑓𝑖𝑋𝑖

σ𝑓𝑖

Жишээ: Таван төрлийн түүхий эд материалын борлуулалтын мэдээ өгөгджээ.

Түүхий эдийн

төрөл

Нэгжийн үнэ,

мян.төгБорлуулсан тоо хэмжээ, кг

1 3.0 1200

2 3.4 500

3 2.8 2750

4 2.9 1000

5 3.25 800

ത𝑋 =𝑋1+𝑋2+𝑋3+𝑋4+𝑋5

5=

3+3.4+2.8+2.9+3.25

5=

15.35

5= 3.07

𝑋 =σ𝑓𝑖𝑋𝑖

σ𝑓𝑖=

1200 ∙ 3.0 + 500 ∙ 3.4 + 2750 ∙ 2.8 + 1000 ∙ 2.9 + 800 ∙ 3.25

1200 + 500 + 2750 + 1000 + 800

=18500

6250= 2.96

Медиан/голч (Median):

Медиан гэдэг нь Х санамсаргүй

хэмжигдэхүүний авч буй утгуудыг давталтаар нь

2 тэнцүү хэсэгт хувааж буй Х𝑖-р утга юм.

Тасралттай хувьсагч:

• Тоон мэдээг багаас нь ихрүү нь дэс дараалалд

оруулан байрлуулах бөгөөд эхнээс нь

эрэмбэлнэ (rank).

• Хэрвээ ажиглалтын тоо сондгой бол медиан

нь эрэмблэгдсэн дэс дугаарын голын утгад

харгалзана. Жишээ нь, ажиглалтын тоо 11 бол

эрэмбэлэгдсэн цувааны 6 дугаар эрэмбэ дээр

байгаа утга нь медиан болно. Медиан орших

эрэмбийг дараах байдлаар тодорхойлно.

𝑖𝑀𝑒𝑑𝑖𝑎𝑛 =𝑛 + 1

2

• Хэрэв ажиглалтын тоо тэгш бол медиан нь

эрэмблэгдсэн дэс дугаарын голын 2 эрэмбэд

харгалзах утгын дунджаар тодорхойлогдно.

Голын 2 эрэмбэ нь 𝑛

2болон

𝑛

2+ 1 гэсэн эрэмбэ

байна.

Жишээ: Өглөө босоод ажилдаа ажилдаа

явахаар гарах хүртэл зарцуулсан хугацаа,

минутаар, 10 хоног

Жишээ: 7 төрлийн өдрийн хоолны калорийн

хэмжээ

Тасралтгүй хувьсагч:

• Эхлээд медиан орших интервалыг

тодорхойлно. Медиан нь нийт давтамжийн

хагасыг өөртөө агуулах хамгийн эхний өсөн

нэмэгдэх давтамжид харгалзах интервалд

оршино.

( )

median

i

medianf

Lf

dXMedian1

2−−

+=

Жишээ: Ажилчдын цалингийн мэдээ өгөгджээ

Цалин, төгрөгөөр Ажилчдын тоо L

200000 хүртэл 5 5

200001-400000 15 20

400001-600000 30 50

600001-800000 22 72

800001-1000000 16 88

1000001-1200000 4 92

1200001-ээс дээш 8 100

( )

60000030

202

100

199999400001

21

=

+=

=

+=−

median

i

medianf

Lf

dXMedian

Моод (Mode):

• Моод гэдэг нь тухайн хувьсагчийн авч байгаа утгуудаас хамгийн олон давтагдсан утга юм.

• Моодыг тоон болон чанарын хувьсагчийн хувьд аль алинд нь тооцох боломжтой. Тоон хувьсагчийн хувьд тасралттай болон тасралтгүй хувьсагчийн тохиолдолд ялгаатай тодорхойлогддог.

Тоон мэдээ нь тасралттай тархалтын цуваа

хэлбэрээр өгөгдсөн бол хамгийн олон давтамж

харгалзаж байгаа утга нь моод болно.

Тоон мэдээ нь тасралтгүй тархалтын цуваа хэлбэрээр өгөгдсөн бол:

• Эхлээд моод орших интервалыг тодорхойлно. Тэнцүү интервалтай мэдээний хувьд хамгийн их давтамжид харгалзах интервалд, тэнцүү биш интервалтай мэдээний хувьд хамгийн их тархалтын нягтад харгалзах интервалд мод оршдог.

• Давтамжийг интервалын уртад харьцуулсан харьцааг тархалтын нягт гэнэ.

( )

( ) ( ))()( 1mod1mod

1mod

mod

+−

−+−

−+=

ffff

ffdXMode

ee

e

e

Жишээ: Өглөө босоод ажилдаа явахаар гарах

хүртэл зарцуулсан хугацаа, минутаар

(10 өдрийн мэдээ)

Моод нь 1, 2 болон 2-оос олон байж болно. 2

моодтой бол bimodal, 2-оос олон моодтой бол

multimodal data гэж нэрлэдэг.

Ажилчдын цалингийн мэдээ өгөгджээ:

Цалин, төгрөгөөр Ажилчдын тоо L

200000 хүртэл 5 5

200001-400000 15 20

400001-600000 30 50

600001-800000 22 72

800001-1000000 16 88

1000001-1200000 4 92

1200001-ээс дээш 8 100

( )

( ) ( )

13.530435)2230()1530(

1530199999400001

)()( 1mod1mod

1mod

mod

=−+−

−+=

=−+−

−+=

+−

ffff

ffdXMode

ee

e

e

Медианы адилаар Х санамсаргүй

хэмжигдэхүүний авч байгаа утгыг давталтаар нь

тэнцүү хэсгүүдэд хуваадаг дараах үзүүлэлтүүд

байдаг.

• Перцинтил, децил, квартил (Percentile, Decile, Quartile)

(100, 10, 4 тэнцүү хэсэгт хуваах)

Перцинтил утга орших эрэмбэ буюу дугаарыг дараах байдлаар тодорхойлж болно.

Алхам 1. Өгөгдлийг өсөх эрэмбээр нь эрэмбэлнэ.

Алхам 2. Дараах i дугаар эрэмбийг тооцно. 𝑖 =𝑝

100(𝑛 + 1)

Энд р нь сонирхож буй Percentile, 𝑛 нь түүврийн хэмжээ буюу ажиглалтын нэгжийн тоо.

Алхам 3.

a) Хэрэв i нь бүхэл тоогоор илэрхийлэгдэж байвал тухайн дэс дугаарт харгалзаж буй утгыг сонгоно.

b) Хэрэв i нь 2 дэс дугаарын голын утгаар тодорхойлогдож байвал тухайн 2 дэс дугаарт харгалзаж буй утгуудын дунджаар тодорхойлогдно.

c) Хэрэв i нь 2 дэс дугаарын голын утгаар бус байдлаар (0.5 биш 0.25 ч юм уу 0.75 гэх мэт) тодорхойлогдож байвал тухайн утгад хамгийн ойр байгаа дэс дугаарт харгалзах утгыг сонгоно.

Квартил/Quartile:

• 𝑄1= 25th рercentile

• 𝑄2= 50th рercentile (median)

• 𝑄3= 75th рercentile

Өмнөх жишээний хувьд 1, 2, 3-р квартиль буюу 25, 50, 75-р

рercentile-ийг тооцож үзье.

Жишээ: Өглөө босоод ажилдаа явахаар гарах

хүртэл зарцуулсан хугацаа, минутаар

(10 өдрийн мэдээ)

𝑖𝑄1=

𝑝

100(𝑛 + 1)=

25

100(10 + 1)=2.75 буюу 3-р эрэмбэд харгалзах утга 𝑄1=35

𝑖𝑄2=

𝑝

100(𝑛 + 1)=

50

100(10 + 1)=5.5 буюу 5 болон 6-р эрэмбэд харгалзах утгын

дундаж 𝑄2=39+40

2= 39.5

𝑖𝑄3=

𝑝

100(𝑛 + 1)=

75

100(10 + 1)=8.25 буюу 8-р эрэмбэд харгалзах утга 𝑄1=44

Децил/Decile:

1-р дециль нь 10-р рercentile,

2-р дециль нь 20-р рercentile гэх мэт

9-р дециль нь 90-р рercentile байна.

• Тасралтгүй хувьсагчийн хувьд квартил,

децил, перцинтилийг тооцохдоо медианы

томъёог ашиглана уу.

• Жишээ нь, перцинтилийг тасралтгүй

хувьсагчийн хувьд тооцоолохдоо дараах

томъёог ашиглана.

𝑃𝑒𝑟𝑐𝑒𝑛𝑡𝑖𝑙𝑒 = 𝑋𝑝𝑒𝑟𝑐𝑒𝑛𝑡𝑖𝑙𝑒 + 𝑑 ⋅

σ𝑓𝑖𝑝

− 𝐿 −1

𝑓𝑝𝑒𝑟𝑐𝑒𝑛𝑡𝑖𝑙𝑒

Геометрийн дундаж (харьцангуй үзүүлэлт)

Өгөөжийн дундаж төвшинг тооцох геометр

дундажийн арга:

nn

n

nG XXXXXXX == ...)...( 21

/1

21

𝑅𝐺തതതത = (1 + 𝑅1) ∙ (1 + 𝑅2) ∙ … ∙ (1 + 𝑅𝑛) 1/𝑛 − 1

Жишээ:

2. ТООН МЭДЭЭГ ТОДОРХОЙЛОГЧ ХЭЛБЭЛЗЛИЙН ҮЗҮҮЛЭЛТҮҮД

Хэлбэлзлийн үзүүлэлтүүд: Тархалтын утгуудын

ялгаатай байдлыг хэмждэг үзүүлэлтүүд

1. Далайц (Range)

2. Квартилийн далайц (Interquartile Range)

3. Вариац/дисперс (Variance)

4. Стандарт хазайлт (Standard deviation)

5. Хэлбэлзлийн коэффициент буюу вариацын

коэффициент (Coefficient of Variation)

Далайц

Жишээ: Өглөө босоод ажилдаа явахаар гарах хүртэл

зарцуулсан хугацаа, минутаар (10 өдрийн мэдээ)

Далайц нь 52-29=23 минут байна.

minmax XXR −=

Квартилын далайц (Interquartile Range-IQR):

Өмнөх жишээн дээр Квартилын далайц=44-35=9 минут

• Квартилын далайц нь өгөгдлийн голын 50 хувийн

хувьд тооцсон далайц юм.

• Өгөгдлийн экстрем утгуудаас хамааралтай байдлыг

арилгасан хэлбэлзлийн үзүүлэлт юм.

квартилын далайц = 𝑄3 − 𝑄1

• Вариац/дисперс

• Стандарт хазайлт

• Түүврийн вариац/дисперс (эх олонлогийн

вариацын цэгэн үнэлгээ)

1

)(...)()( 22

2

2

12

−++−+−=

n

XXXXXXS n

1

)(1

2

2

==

n

XX

S

n

i

i

Бүлэглэсэн буюу жинэлэсэн вариац

−=

1

)( 2

2

i

ii

f

fXXS

Түүврийн вариацаас квадрат язгуур авч

түүврийн стандарт хазайлтыг тодорхойлдог.

1

)(1

2

2

===

n

XX

SS

n

i

i

Эх олонлогийн вариац

Бүлэглэсэн буюу жинлэсэн вариац ямар

байхыг Teams-д үүсгэсэн Conversation хэсэгт

оруулна уу!

Вариацын математик чанарууд:

1. Тогтмол тооны вариац тэгтэй тэнцүү.

𝜎2 =σ(𝐶− ҧ𝐶)2

𝑁= 0, C=constant

2. С тогтмолоор нэмэгдүүлэх эсвэл хорогдуулах

𝜎2 =σ((𝑋𝑖−𝐶)−( ത𝑋−𝐶))2

𝑁=

σ((𝑋𝑖−𝐶− ത𝑋+𝐶)2

𝑁=

σ(𝑋𝑖− ത𝑋)2

𝑁

3. С тогтмол дахин хорогдуулах 𝜎2 =σ(

𝑋𝑖𝐶

−ഥ𝑋

𝐶)2

𝑁=

σ1

𝐶2(𝑋𝑖− ത𝑋)2

𝑁=

1

𝐶2 ∙σ(𝑋𝑖− ത𝑋)2

𝑁

Вариацын (хэлбэлзлийн) коэффициент:

Түүврийн хувьд:

%100

=

X

SCV

3. ТООН МЭДЭЭНИЙ ТАРХАЛТЫН ХЭЛБЭР, АЛСЛАГДСАН УТГЫГ

ТОДООРХОЙЛОХ

Тархалтын хэлбэр (Shape):

• тэгш хамтэй

• тэгш бус хэмтэй

3. ТООН МЭДЭЭНИЙ ТАРХАЛТЫН ХЭЛБЭР, АЛСЛАГДСАН УТГЫГ

ТОДООРХОЙЛОХ

𝑆𝑘𝑒𝑤𝑛𝑒𝑠𝑠 =𝐸(𝑋 − 𝜇)3

𝜎3

4

4)(

−=

XEKurtosis

Тэгтэй

тэнцүү

Тэгээс их

Тэгээс бага

3-тай

тэнцүү

3-ааc их

3-ааc бага

• Z оноо (Z score): Стандартчилсан утга гэж

бас нэрлэдэг. Z оноо нь Х𝑖 дугаар утга

дунджаасаа хичэнээн стандарт хазайлтаар

ялгаатай байгааг илтгэнэ.

• Алслагдсан утга (Outlier):

𝐿𝑜𝑤𝑒𝑟 𝐿𝑖𝑚𝑖𝑡 = 𝑄1 − 1.5 𝐼𝑄𝑅

𝑈𝑝𝑝𝑒𝑟 𝐿𝑖𝑚𝑖𝑡 = 𝑄3 + 1.5(𝐼𝑄𝑅)

Х Z

39 -0,09

29 -1,57

43 0,50

52 1,83

39 -0,09

44 0,65

40 0,06

31 -1,27

44 0,65

35 -0,68

Дундаж 39,6

S 6,77

𝑖𝑄1=

25∙11

100=2.75 буюу 3-р эрэмбэд харгалзах утга 𝑄1 =35

𝑖𝑄3=

75∙11

100=8.25 буюу 8-р эрэмбэд харгалзах утга 𝑄3 =44

IQR=44-35=9

𝐿𝑜𝑤𝑒𝑟 𝐿𝑖𝑚𝑖𝑡 = 𝑄1 − 1.5 𝐼𝑄𝑅 = 35 − 1.5 ∗ 9 = 21.5

𝑈𝑝𝑝𝑒𝑟 𝐿𝑖𝑚𝑖𝑡 = 𝑄3 + 1.5 𝐼𝑄𝑅 = 44 + 1.5 ∗ 9 = 57.5

Чебышевын дүрэм: Тархалтын хэв маягаас

үл хамааран тухайн судалж буй санамсаргүй

хувьсагчийн авах утгуудын ядаж

нь дунджаасаа к стандарт хазайлтын зайд

тархсан байна.

• Жишээ нь, к=2 үед тухайн санамсаргүй

хувьсагчийн авах утгуудын ядаж

нь дунджаасаа ± 2σ завсарт оршин байна.

4. ТООН ӨГӨГДЛИЙГ ШИНЖЛЭХ ХАЙРЦГАН ДИАГРАМ (BOX PLOT)

• Х санаисаргүй хэмжигдэхүүний хамгийн бага

утга, хамгийн их утга, кавртилууд гэсэн 5

үзүүлэлтийг тооцож графикаар дүрслэх нь

өгөгдлийг нэгтгэн дүгнэхэд өргөн

хэрэглэгддэг.

max31min XQMedianQX

Өмнөх жишээний хувьд

29 35 39,5 44 52

max31min XQMedianQX

box plot

5. ХОЁР ХУВЬСАГЧИЙН ХАРИЛЦАН ХАМААРЛЫГ

ТОДОРХОЙЛОГЧ ХЭМЖИГДЭХҮҮН

Ковариац буюу хамтын хэлбэлзэл нь Х ба Ү

гэсэн хоёр хувьсагчийн хоорондын шугаман

хамаарлыг илэрхийлэгч үзүүлэлт юм.

Түүврийн хувьд:

Эх олонлогийн хувьд:

Корреляцийн коэффициент