DEĞİŞKENLİK ÖLÇÜLERİkisi.deu.edu.tr/s.ucdogruk/ist1değişkenlik_ölçüleri...10 2) Varyans...
Transcript of DEĞİŞKENLİK ÖLÇÜLERİkisi.deu.edu.tr/s.ucdogruk/ist1değişkenlik_ölçüleri...10 2) Varyans...
DEĞİŞKENLİK ÖLÇÜLERİ
2
Değişkenlik (Yayılım) Ölçüleri
• İki farklı anakütleyi birbirinden ayırmak için her
zaman yalnızca yer ölçüleri yeterli olmayabilir.
• Dağılımları birbirinden ayırt etmede kullanılan ve
genellikle aritmetik ortalama etrafındaki değişimi
dikkate alarak hesaplanan istatistiklere
değişkenlik(yayılım) ölçüleri adı verilir.
3
X
123,33
109,33
95,33
81,33
67,33
Fre
ka
ns 400
300
200
100
0
X
123,33
109,33
95,33
81,33
67,33
Fre
ka
ns 1200
1000
800
600
400
200
0
Aşağıdaki iki grafik n = 1500 hacimlik alınan iki farklı örnek
doğrultusunda oluşturulan histogramlardır. Her iki örnek
ortalaması yaklaşık olarak 100 olduğuna göre iki örneğin aynı
anakütleden alındığı söylenebilir mi?
4
• İki örneğin aynı anakütleden geldiği söylenemez.
• Bunun nedeni alınan örnek sonucunda oluşturulan histogramda dağılımların ortalama etrafında farklı olmasından kaynaklanmaktadır.
• Dağılımları birbirinden ayırt etmede kullanılan yayılım ölçüleri aritmetik ortalama etrafındaki değişimleri dikkate alan tanımlayıcı istatistiklerdir.
• Bir veri setinde aritmetik ortalamalardan her bir gözlemin farkı alınıp bu değerlerin tümü toplandığında sonucun 0 olduğu görülür.
5
• Örnek: 4,8,9,13,16 şeklinde verilen bir basit seri için;
105
16139841
n
xx
n
ii
010161013
1091081041
n
ii
xx
• Bu örnekten görüleceği üzere gözlemlerin aritmetik ortalamadan uzaklığı alıp toplandığında 0 elde edildiğinden dolayı bu problem mutlaka değer kullanarak veya karesel uzaklık alınarak ortadan kaldırılır.
6
1) Ortalama Mutlak Sapma(OMS)
• Veri setindeki her bir gözlem değerinin aritmetik ortalamadan farklarının mutlak değerlerinin toplamının örnek hacmine bölünmesiyle elde edilir.
• Gözlem değerlerinin aritmetik ortalamadan faklarının toplamı 0 olacağından bu problemi ortadan kaldırmak için mutlak değer ifadesi kullanılır.
•OMS küçük ise dağılımın çok sıkışık ya da tek düzen olduğu anlaşılır.
7
1) Ortalama Mutlak Sapma(OMS)
n
xx
OMS
n
i
i
1Basit seriler İçin:
k
i
i
k
i
ii
f
xxf
OMS
1
1
k
i
i
k
i
ii
f
xmf
OMS
1
1
Gruplanmış seriler İçin:
Sınıflanmış Seriler İçin :
8
Örnek: İstatistik I dersini alan 10 öğrencinin vize
notları aşağıdaki gibi sıralanmıştır. Buna göre vize
notları için ortalama mutlak sapma değerini
hesaplayınız.
5,1410
145
10
6998...694169301
n
xxOMS
n
ii
30,41,53,61,68,79,82,88,90,98
6910
98....41301
n
xx
n
ii
9
Örnek: Aşağıdaki tabloda 30 günlük süre içinde bir
restoranın kullandığı et miktarının dağılımı verilmiştir. Günlük
kullanılan et miktarının ortalama mutlak sapmasını
hesaplayınız.
Sınıflar fi mi Ifi( mi x
)I
30-36’dan az 2 33 I2(33-46,6)I 36-42’den az 6 39 I6(39-46,6)I
42-48’den az 10 45 I10(45-46,6)I 48-54’dan az 7 51 I7(51-46,6)I 54-60’den az 4 57 I4(57-46,6)I 60-66’den az 1 63 I1(63-46,6)I
Toplam 30 163,2
.6,46
1
1 kgf
fmx k
ii
k
iii
.44,530
2,163
1
1 kg
f
xmf
OMSk
i
i
k
i
ii
10
2) Varyans
• Ortalama mutlak sapmada kullanılan mutlak değerli
ifadeler ile işlem yapmanın zor hatta bazı durumlarda
imkansız olması sebebiyle yeni değişkenlik ölçüsüne
ihtiyaç bulunmaktadır.
• Mutlak değer ifadesindeki zorluk aritmetik ortalamadan
farkların karelerinin alınmasıyla ortadan kalkmaktadır.
• Veri setindeki her bir gözlem değerinin aritmetik
ortalamadan farklarının karelerinin toplamının örnek
hacminin bir eksiğine bölünmesinden elde edilen
değişkenlik ölçüsüne örnek varyansı adı verilir.
11
Basit seriler İçin:
Populasyon Varyansı:
m : Populasyon Ortalaması N : Populasyon Hacmi
Örnek Varyansı :
Gruplanmış Seriler İçin:
Sınıflanmış Seriler İçin :
N
xi
2
2
m
1
1
2
2
n
xxs
n
ii
1
)(
1
1
2
2
k
i
i
k
i
ii
f
xmf
s
1
)(
1
1
2
2
k
i
i
k
i
ii
f
xxf
s
12
n
ii
xx1
2
ifadesi istatistikte bir çok formülde kullanılır ve
kareler toplamı olarak adlandırılır.
• Matematiksel olarak hesaplama kolaylığı sağlaması
açısından formüllerde kareler toplamının açılımı olan
aşağıdaki eşitlik kullanılabilir.
n
xxxx
n
iin
ii
n
ii
2
1
1
2
1
2
13
1
2
1
1
2
2
n
n
xx
s
n
in
ii
11
1
2
2
2
k
ii
k
ii
k
iiik
iii
f
f
xfxf
s
11
1
2
2
2
k
i
i
k
i
i
k
i
iik
i
ii
f
f
mf
mf
s
Gruplanmış Seriler İçin:
Sınıflanmış Seriler İçin :
Basit Seriler İçin:
14
15
16
3) Standart Sapma
• Varyans hesaplanırken kullanılan verilerin kareleri
alındığından verilerin ölçü biriminin karesi
varyansında ölçü birimi mevcut ölçü birimini karesi
olur.
• Örnek: kg2, cm2 gibi.
• Bu nitelendirme veriler açısından bir anlam
taşımayacağından varyans yerine ortalama
etrafındaki değişimin bir ölçüsü olarak onun pozitif
karekökü olan standart sapma kullanılır.
17
Basit seriler İçin:
Populasyon Standart Sapması:
m : Populasyon Standart Sapması N : Populasyon Hacmi
Örnek Standart Sapması :
Gruplanmış Seriler İçin:
Sınıflanmış Seriler İçin :
N
xi
2
m
1
1
2
n
xxs
n
ii
1
)(
1
1
2
k
i
i
k
i
ii
f
xmf
s
1
)(
1
1
2
k
i
i
k
i
ii
f
xxf
s
18
Örnek: İstatistik I dersini alan 10 öğrencinin vize
notları aşağıdaki gibi sıralanmıştır. Buna göre vize
notları için varyans ve standart sapmayı
hesaplayınız.
22,5049
4538
9
6998...69416930
1
222
1
2
2
n
xxs
n
ii
6910
98....41301
n
xx
n
ii
22,5042
s
30,41,53,61,68,79,82,88,90,98
45,2222,5042
ss→
İstatistik I vizesinden alınan notların ortalama etrafında
yaklaşık olarak 22 puan değiştiği görülmektedir.
19
Aynı soru kareler ortalamasının açılımı kullanılarak
çözüldüğünde aynı sonuçları verecektir.
6901
n
ii
x
22,5042
s
45,2222,5042
ss
30,41,53,61,68,79,82,88,90,98
521481
2
n
i i
x
x x2
30 900
41 1681
53 2809
61 3721
68 4624
79 6241
82 6724
88 7744
90 8100
9
10
69052148
1
2
2
1
1
2
2
n
n
xx
s
n
in
ii
20
Grup Frekans xifi xi2 fi
51 1 51 2601
66 3 198 13068
72 4 288 20736
82 5 410 33620
94 7 658 61852
∑fi =20 1605 131607
Örnek: Yandaki tabloda bir Samsung bayisindeki LCD
televizyonların ekran boyutlarına göre satış miktarları verilmiştir.
Frekans dağılımının varyans ve standart sapmasını hesaplayınız.
67,14719
20
1605131607
1
2
1
1
2
2
2
k
ii
k
ii
k
iiik
iii
f
f
xfxf
s
15,1267,1472
ss
21
Örnek: Aşağıdaki tabloda 30 günlük süre içinde bir
restoranın kullandığı et miktarının dağılımı verilmiştir. Günlük
kullanılan et miktarının varyansını ve standart sapmasını
hesaplayınız.
Sınıflar fi mi fi( mi x
)2
30-36’dan az 2 33 2(33-46,6)2
36-42’den az 6 39 6(39-46,6)2
42-48’den az 10 45 10(45-46,6)2
48-54’dan az 7 51 7(51-46,6)2
54-60’den az 4 57 4(57-46,6)2
60-66’den az 1 63 1(63-46,6)2
Toplam 30 1579,2
.6,46
1
1 kgf
fmx k
ii
k
iii
46,54130
2,1579
1
)(
1
1
2
2
k
ii
k
iii
f
xmfs
.38,746,542
kgss
22
23
24
25
26
%68.27
%95.45
%99.73
-3 -2 - m 2 3- OMS OMS
%57.5
x gözlemlerin %68.27’sini
x OMS gözlemlerin %57.5’ini kapsar
27
28
29
4) Range (Değişim Aralığı) • Veri setindeki yayılımı ifade etmede kullanılan en basit
istatistik değişim aralığıdır. Genel olarak basit seriler
için kullanılır.
• En büyük gözlem değeri ile en küçük gözlem değeri
arasındaki fark değişim aralığını verir.
• Veri setindeki tek bir gözlemin aşırı derecede küçük
veya büyük olmasından etkilendiği için bir başak
ifadeyle örnekte yer alan sadece iki veri kullanılarak
hesaplanmasından dolayı tüm veri setinin değişkenliğini
açıklamak için yetersiz kalmaktadır.
30
Örnek: Bir fabrikada çalışan 5 endüstri
mühendisinin bildiği yabancı dil sayıları aşağıda
verilmiştir. Buna göre bu mühendislerin bildiği
yabancı dil sayısı için değişim aralığını
hesaplayınız.
2,0,1,2,0
Xİ = 0,0,1,2,2. n = 5 i: 1,2,3,4,5.
• R = Xmax – Xmin X: SÜREKLİ ŞANS DEĞİŞKENİ
• R = Xmax – Xmin +1 = 2 – 0 + 1 = 3
• R = Xmax – Xmin +1 X: KESİKLİ ŞANS DEĞİŞKENİ
31
5) Değişkenlik(Varyasyon) Katsayısı • İki veya daha fazla populasyon üzerinde aynı şans değişkenleri için yapılan araştırmalarda değişkenliklerin karşılaştırılması için kullanılan bir ölçüdür.
• Standart sapmayı ortalamanın bir yüzdesi olarak ifade eden ve iki veya daha fazla populasyondaki varyasyonu (değişkenliği) karşılaştırmada kullanılan ölçüye varyasyon(değişkenlik) katsayısı denir.
Varyasyon
Katsayısı:
100*X
sC
V
•%’ler azaldıkça araştırmanın hassasiyeti artar.
•Örnek: İstanbul’da ve Ankara’da yaşayan ailelerin aylık gelirlerinin değişkenliklerinin karşılaştırılması
32
s
Leblebi 30 kg. 5 kg.
Fıstık 40 kg. 4 kg.
Badem 10 kg. 3 kg.
x
Örnek: Kuruyemiş satan bir dükkanda bir haftalık sürede
satılan leblebi, fıstık ve bademlerin ortalamaları ve standart
sapmaları aşağıda verilmiştir. Buna göre kuruyemişleri
değişkenlikleri açısından karşılaştırınız ve kuruyemişin
değişkenliğinin daha fazla olduğunu belirtiniz.
10%10100*40
4100*
X
sC
fııstıV
67,16%67,16100*30
5100*
X
sC
leblebiV
30%30100*10
3100*
X
sC
BADEMV
Üç kuruyemişin değişkenlikleri karşılaştırıldığında en küçük
standart sapma değeri bademde olmasına rağmen en büyük
varyasyon katsayısına sahip olduğundan en fazla değişkenliğin
bademde olduğu görülür. Aritmetik ortalamalar içerisinde standart
sapma yüzdelerine bakıldığında en büyük yüzde bademdedir.
33
34
35
36
37
38
Çarpıklık (Asimetri) Ölçüleri • Populasyonları birbirinden ayırmak için her zaman yalnızca
yer ve yayılım ölçüleri yeterli olmayabilir. Aşağıda iki farklı
populasyondan alınmış örnekler için oluşturulan
histogramlar verilmiştir.
A
B
mA
m0
0
39
• Şekilden görüleceği üzere A ve B örneklerinin aynı ortalamaya ve yaklaşık olarak aynı değişkenliğe sahip olmalarına rağmen bu iki örneğin açıkça aynı populasyondan gelmediği söylenir.
• Asimetri (çarpıklık) ifadesi simetrik olmayan anlamını taşımaktadır.
•Şekillere bakıldığında frekansların A’da daha çok sol tarafta (küçük xi değerlerinde), B’de ise daha çok sağ tarafta (büyük xi değerlerinde), toplandığı görülmektedir.
40
Asimetri Ölçüleri PEARSON ÇARPIKLIK ÖLÇÜSÜ
s
xSk p
mod SkP < 0 →Negatif çarpık(Sola)
SkP > 0 → Pozitif Çarpık(Sağa)
SkP = 0 ise dağılış simetrik
s
medXSk p
)(3
veya
BOWLEY ÇARPIKLIK ÖLÇÜSÜ
13
1223 )()(
QQQQSkb
Skb < 0 → Negatif çarpık(Sola)
Skb > 0 → Pozitif Çarpık(Sağa)
Skb = 0 ise dağılış simetrik
41
Simetrik Dağılım
A.O = Med = Mod
Sağa çarpık dağılım
A.O > Med > Mod
Sola çarpık dağılım
A.O < Med < Mod
İki modlu simetrik dağılım Modu olmayan dağılım Tekdüzen dağılım
42
Örnek: Aşağıdaki tabloda 30 günlük süre içinde bir restoranın
kullandığı et miktarının dağılımından elde edilen bazı tanımlayıcı
istatistikler verilmiştir. Buna göre pearson ve bowley asimetri
ölçülerini hesaplayıp yorumlayınız.
Ar i t m e t i k O r t .
Mod
Medyan
Q1
Q2
s2
46,6 45,4 46,2 41,5 51,9 54,46
016,046,54
4,456,46mod
s
xSk p
016,046,54
)2,466,46(3)(3
s
medXSk p
010,04,10
1
5,419,51
)5,412,46()2,469,51()()(
13
1223
QQQQSkb
Sağa Çarpık ,
Pozitif Asimetri
Sağa Çarpık ,
Pozitif Asimetri
Sağa Çarpık,
Pozitif Asimetri
43
Basıklık Ölçüsü
Herhangi bir olasılık fonksiyonunun şekli ile ilgili
parametrelerden bir tanesi de basıklık ölçüsüdür. Basıklık
Ölçüsü ortalamaya göre dördüncü momentten gidilerek
hesaplanır ve 4 olarak gösterilir.
44
MOMENTLER:
Xi rassal değişkeninin, µ ile gösterilen aritmetik ortalama
dolayındaki r. momenti, (X - µ)r’nin beklenen değeridir.
rr
iir
X XX μm
n n
Bir rassal değişkenin dağılım biçimini, yani o değişkenin
olasılık dağılımının yada olasılık yoğunluğunun çizimindeki
biçimi betimlediklerinden dolayı momentler istatistikte
önemlidir.
45
MOMENTLER:
1
i1
X μm 0
n
2
i 22
X μm σ
n
Üçüncü ve dördüncü momentler ise aşağıdaki
formüllerden hesaplanabilmektedir:
33
ii3
X XX μm
n n
44
ii4
X XX μm
n n
Aritmetik ortalama µ ( ) etrafındaki birinci momenti
sıfır ve ikinci momenti ise varyansı ( ) dır. 2σ
X
46
Herhangi bir olasılık fonksiyonunun şekli ile ilgili
parametrelerden bir tanesi de basıklık ölçüsüdür.
Basıklık Ölçüsü ortalamaya göre dördüncü momentten
gidilerek hesaplanır ve 4 olarak gösterilir.
4
4 4
m
s
4 = 3 ise Seri Normal
4 < 3 ise Seri Basık
4 < 3 ise Seri Sivri Ya da Yüksek
4
1
4
n
i
i
x x
mn
Basit Seri İçin
47
48
49
KUTU DİYAGRAMLARI • Box-Whisker (Kutu) gösterimlerinde en uç iki veri ile
birlikte üç kartili de gösterebiliriz.
• Bu gösterimlerde kutu yatay veya dikey olarak gösterilebilir ve sol çizgi 25 oranında alt kartili ve sağ çizgi 75 oranındaki üst kartil içerir
• Whisker’in her iki ucundaki değerler en uç noktalardır.
• Örnek hacminin en az 50 veya 100 olduğu büyük veri setlerinde, whiskerler en uç değerler yerine yüzde 10 veya 90 veya 5 veya 95 oranlarına ulaşır.
• Box and whisker gösterimi ile minimum, ilk kartil, üçüncü kartil, medyan, maximum değerler ve çarpıklık yada simetri görülebilir.
50
51
52
53
54
40,0
60,0
80,0
100,0
C1 C2 C3
Box Plot
Variables
Am
ount
ÖRNEK: