Статистически методи за социални...

21
25.03.2015 г. 1 Статистически методи за социални изследвания СТАТИСТИЧЕСКИ МЕТОДИ 1 СТАТИСТИЧЕСКИ МЕТОДИ 2 Статистически методи Дескриптивни методи (описателни) Инферентни методи (на статистическия извод)

Transcript of Статистически методи за социални...

25.03.2015 г.

1

Статистически методи за социални изследвания

СТАТИСТИЧЕСКИ МЕТОДИ 1

СТАТИСТИЧЕСКИ МЕТОДИ 2

Статистически методи

Дескриптивни методи(описателни)

Инферентни методи(на статистическия извод)

25.03.2015 г.

2

Генерална съвкупност и извадка

СТАТИСТИЧЕСКИ МЕТОДИ 3

Генерална съвкупност (популация)

N – обем на съвкупността

Извадка

n – обем на извадката

Дескриптивна статистикаID Възнаграждение

1 € 3 480.00

2 € 6 600.00

3 € 3 720.00

4 € 5 520.00

5 € 3 060.00

6 € 5 040.00

7 € 1 920.00

8 € 3 060.00

9 € 2 160.00

10 € 14 400.00

11 € 3 060.00

12 € 5 520.00

13 € 2 100.00

14 € 2 100.00

15 € 6 600.00

16 € 1 800.00

Средно € 4 383.75

СТАТИСТИЧЕСКИ МЕТОДИ 4

Пример: “Средното възнаграждение на 16служители в компанията е

€4 388.75."

брой

ениеВъзнаграждСредно

25.03.2015 г.

3

Дескриптивна статистикаДескриптивна статистика – свойства на група от стойности или данни, с които разполагаме, т.е. Данни, които са достъпни и можем да запишем.

В Дескриптивната статистика не се интересуваме от данните, които не можем да имаме, но биха могли да се използват, които са обект на инферентната статистика.

СТАТИСТИЧЕСКИ МЕТОДИ 5

Дескриптивна статистикаКакви свойства на стойностите с които разполагаме могат да бъдат обект на интерес? Поне три свойства: центъра, тяхното разпределение, и тяхната форма.

Да разгледаме следния ред от стойности, които показват възрастта на членовете на един клуб по интереси:

28, 38, 45, 47, 51, 56, 58, 60, 63, 63, 65, 66, 66, 67, 68, 70

СТАТИСТИЧЕСКИ МЕТОДИ 6

25.03.2015 г.

4

Дескриптивна статистикаМожем да кажем от тази информация, че техния обхват е от 28 до 70 (разпределение), и средата е някъде около 50 (център).

Формата на разпределението на възрастта е графичното изобразяване на стойностите.

СТАТИСТИЧЕСКИ МЕТОДИ 7

Възраст на членовете

Дескриптивна статистикаФорма на данните

СТАТИСТИЧЕСКИ МЕТОДИ 8

Възрастова група брой

20-29 1

30-39 1

40-49 2

50-59 3

60-69 8

70-79 1

1 1

2

3

8

1

0

1

2

3

4

5

6

7

8

9

20-29 30-39 40-49 50-59 60-69 70-79

бр

ой

Възрастова група

Възраст на членове на клуба

25.03.2015 г.

5

Видове разпределенияНормално разпределение

СТАТИСТИЧЕСКИ МЕТОДИ 9

Видове разпределенияЕкспоненциално разпределение

СТАТИСТИЧЕСКИ МЕТОДИ 10

25.03.2015 г.

6

Видове разпределенияПравоъгълно разпределение

СТАТИСТИЧЕСКИ МЕТОДИ 11

Видове разпределениеРазпределение на Поасон

СТАТИСТИЧЕСКИ МЕТОДИ 12

25.03.2015 г.

7

Дескриптивна статистикаВъзраст

Средна стойност Mean 56.9375

Стандартна грешка Standard Error 3.014504865

Медиана Median 61.5

Мода Mode 63

Стандартно отклонение Standard Deviation 12.05801946

Дисперсия Sample variance 148.3833333

Изкривяване Skewness -1.165815446

Обхват Range 42

Минимум Minimum 28

Максимум Maximum 70

Сума Sum 911

Брой Count 16

Доверителна вероятност Confidence Level(95,0%) 6.425264996

СТАТИСТИЧЕСКИ МЕТОДИ 13

Дескриптивна статистикаВ статистиката средно има две свързани значения:

Аритметично средно (и нейните различни геометрично средно или хармонично средно).

Очакваната стойност на една случайна променлива , която още се нарича средно на популацията (генералната съвкупност).

СТАТИСТИЧЕСКИ МЕТОДИ 14

25.03.2015 г.

8

Дескриптивна статистикаАритметичното средно е “стандартното” средно (average/mean).

СТАТИСТИЧЕСКИ МЕТОДИ 15

n

i

ixn

x1

.1

Дескриптивна статистикаСредното често се бърка с медианата или модата. В нормалното разпределение на числата тези три стойности се сливат, но при изкривените разпределения средното се различава от средата (медианата) или от най-много срещаната стойност (модата).

СТАТИСТИЧЕСКИ МЕТОДИ 16

25.03.2015 г.

9

Дескриптивна статистикаНапример средното възнаграждение е изкривено нагоре от малкия брой на хората с много голямо възнаграждение, така че по-големия брой от хората имат по-малко възнаграждение от средното. И обратно, медианата на възнаграждението е нивото на което половината от хората имат възнаграждение под нея, а останалите –над медианата. Модата е възнаграждението, което най-често се среща. Медианата и модата да често интуитивните измерителите за такива данни.

СТАТИСТИЧЕСКИ МЕТОДИ 17

Средно 4383.75Медиана 3270Мода 3060

€ 0.00

€ 5 000.00

€ 10 000.00

€ 15 000.00

€ 20 000.00

1 3 5 7 9 11 13 15

Дескриптивна статистикаМода – стойност, която има най-голям брой наблюдения.

Модата е стойността, която се появява най-често в данните или вероятностните разпределение.

СТАТИСТИЧЕСКИ МЕТОДИ 18

25.03.2015 г.

10

Дескриптивна статистикаМедианата се описва като числото, което разделя горната половина от извадката, генералната съвкупност или вероятностното разпределение от долната половина.

Медианата на един определен списък може да бъде намерена чрез подреждане на всички наблюдения от най-малката към най-голямата стойност и да се вземе средната стойност.

СТАТИСТИЧЕСКИ МЕТОДИ 19

Дескриптивна статистикаМедианата на стойност

се бележи с

или

СТАТИСТИЧЕСКИ МЕТОДИ 20

x~

)(2/1 x

x

25.03.2015 г.

11

Дескриптивна статистикаДисперсия Втори централен момент.

Означава се с s2.

Параметър на разпределението - мярка за разсейването около средното.

Освен за параметъра терминът дисперсия се използва и за неговата оценка.

В приложната статистика се пресмята по различен начин за популация и за извадка.

За популация е точно по формулата за втори централен момент.

СТАТИСТИЧЕСКИ МЕТОДИ 21

N

i

i xxN 1

22 )(1

Дескриптивна статистикаПонеже това е оценка на разсейването за извадки тази оценка не притежава необходимите свойства (не е неизместена). За това за делител се взима броя на случаите без 1.

СТАТИСТИЧЕСКИ МЕТОДИ 22

n

i

i xxn

s1

22 )(1

1

25.03.2015 г.

12

Дескриптивна статистикаСтандартното отклонение е мярка на дисперсията на група от стойности. То може да се прилага при вероятностно разпределение, случайни променливи, популация или за комплекс от стойности.

Положителен квадратен корен от дисперсията.

Числова величина, която също като дисперсията отразава разсейването на множеството от наблюдения около средното. Тя е с размерност, каквато е самата случайна величина.

В приложната статистика стандартното отклонение се изчислява по формулата:

За извадка x1,x2,...,xn, n - брой наблюдения, 𝑥 - средно.СТАТИСТИЧЕСКИ МЕТОДИ 23

Дескриптивна статистикаЗа изчисляване на стандартното отклонение на популация се използва формулата:

СТАТИСТИЧЕСКИ МЕТОДИ 24

А за изчисляване на стандартното отклонение на извадка (при инферентната статистика):

N

i

i xxN 1

2)(1

n

i

i xxn

s1

2)(1

25.03.2015 г.

13

Дескриптивна статистика

СТАТИСТИЧЕСКИ МЕТОДИ 25

Дескриптивна статистикаСтандартната грешка оценява стандартното отклонение на разликата между измерването или оценката на стойността от истинската стойност.

Забележете, че истинската стойност на стандартното отклонение е обикновено неизвестна величина и използването на термина стандартна грешка се свързва с идеята, че се използва една оценка на неизвестна стойност.

СТАТИСТИЧЕСКИ МЕТОДИ 26

25.03.2015 г.

14

Дескриптивна статистикаСтандартната грешка на средното (SEM) на една извадка от популацията е стандартното отклонение на извадката разделена на корен квадратен на големината на извадката (приемаме статистическата независимост на стойностите в извадката):

СТАТИСТИЧЕСКИ МЕТОДИ 27

Дескриптивна статистикаСтандартна грешка на средното е

s е стандартното отклонение на извадката (т.е. оценка на стандартното отклонение на популацията, базирана на извадка), и n е големината (броя на единиците) на извадката.

СТАТИСТИЧЕСКИ МЕТОДИ 28

n

sSEx

25.03.2015 г.

15

Дескриптивна статистикаID Възнаграждение Възнаграждение

16 € 1 800.00

7 € 1 920.00 Mean 4383.75

13 € 2 100.00 Standard Error 784.7445842

14 € 2 100.00 Median 3270

9 € 2 160.00 Mode 3060

5 € 3 060.00 Standard Deviation 3138.978337

8 € 3 060.00 Sample Variance 9853185

11 € 3 060.00 Kurtosis 6.848515054

1 € 3 480.00 Skewness 2.35220486

3 € 3 720.00 Range 12600

6 € 5 040.00 Minimum 1800

4 € 5 520.00 Maximum 14400

12 € 5 520.00 Sum 70140

2 € 6 600.00 Count 16

15 € 6 600.00 Largest(1) 14400

10 € 14 400.00 Smallest(1) 1800

Confidence

Level(95.0%) 1672.64348СТАТИСТИЧЕСКИ МЕТОДИ 29

СТАТИСТИЧЕСКИ МЕТОДИ 30

25.03.2015 г.

16

Инфернтна статистика (метод на статистическия извод)Пример: “Извадката от 2 000 работещи от Русе показва, че с 95% увереност ние можем да заключим, че средният доход в Русе е между € 3 433 и € 5 828."

СТАТИСТИЧЕСКИ МЕТОДИ 31

Инфернтна статистикаВ Инфернтната статистика, нашия обект е голяма колекция от данни, които са толкова толковамного, че не можем да имаме всички в наличност. Можем обаче да изследвамеизвадка от колекцията и да отнесем резултата от нейното изследване върху цялата колекция.

Как извадката се отнася към цялата колекция от данни (наричана популация) от която сме взели извадката е обекта на методите на инферентната статистика.

СТАТИСТИЧЕСКИ МЕТОДИ 32

25.03.2015 г.

17

Инфернтна статистикаИнферентната статистика комбинира методите на дескриптивната статистика с теорията на вероятностите за целите на изучаването как данните от извадката ни показват характеристиките на популацията от която са извлечени.

СТАТИСТИЧЕСКИ МЕТОДИ 33

Инфернтна статистикаИнфернтната статистика се използва за полеви изследвания на общественото мнение.

Например проучване мнението на 1000 души от даден регион за предпочитаната политическа партия може да позволи да се направи заключение на всички жители на региона.

Научните работници и изследователите също прилагат инфернтната статистика за да правят заключения, които са по-общи, отколкото тези, които правят въз основа на ограничения брой наблюдения, които са направили.

СТАТИСТИЧЕСКИ МЕТОДИ 34

25.03.2015 г.

18

Таблични и графични данниПерсентил (процентил),

5-числова справка,

Квартилна диаграма (тип кутия),

Честотно разпределение,

Хистограма

СТАТИСТИЧЕСКИ МЕТОДИ 35

ПерсентилПерсентил е точка която има определен процент от случаите под него: 75ти персентил е точката, под които попадат 75% от случаите; 50ти персентил е стойността под която и над която са половината от наблюденията (медианата).

СТАТИСТИЧЕСКИ МЕТОДИ 36

25.03.2015 г.

19

ПерсентилData -> Sort

75ти персентил = 16*75%=12

СТАТИСТИЧЕСКИ МЕТОДИ 37

5-числова справкаТова е един стегнат начин да се опишат главните свойства на данните, без да се навлиза в детайли.

Петте числа на справката са 10ти, 25ти, 50ти, 75ти and 90ти

персентил.

Математически те се отбелязват с: P10, P25, P50, P75, иP90.

СТАТИСТИЧЕСКИ МЕТОДИ 38

0P50P25 P75P10 P90

100

25.03.2015 г.

20

5-числова справкаP50 е 50ти персентил, стойността, която раздела данните на две части ; в този смисъл, това е средата и се нарича Медиана.

25ти и 75ти персентили имат очевидно значение, разделят всяка половина на две и показват колко широко е разпределението на данните. P25 и P75 са известни с техните синоними: Q1, първа четвърт и трета четвърт Q3.

СТАТИСТИЧЕСКИ МЕТОДИ 39

5-числова справкаМежду P10 и P90 лежат средните 80% от данните или с други думи всички данни без най-ниските 10% и най-високите 10%.

Тези 5 числа заедно дават полезна информация описваща разпределението на наблюдаваните данни, без да представят твърде много детайли.

СТАТИСТИЧЕСКИ МЕТОДИ 40

25.03.2015 г.

21

Квартилна диаграмаСъздаваме ос и скала на стойностите на наблюдаваните данни.

Очертаваме правоъгълник със страни,съответстващи на P75 и P25.

Вътре в правоъгълника очертаваме вертикална линия, съответстваща на нивото на медианата (P50). След това добавяме отсечки (мустаци) в ляво и в дясно от правоъгълника, които стигат съответно до P10 и до P90 и са мярката за вариабилност на данните

СТАТИСТИЧЕСКИ МЕТОДИ 41

Квартилна диаграма

СТАТИСТИЧЕСКИ МЕТОДИ 42