REGRESYON ANALİZİ DERS 1-2 - Dokuz Eylül Üniversitesi · 2 3 • MODELLEME •DEĞİŞKEN •...
Transcript of REGRESYON ANALİZİ DERS 1-2 - Dokuz Eylül Üniversitesi · 2 3 • MODELLEME •DEĞİŞKEN •...
1
REGRESYON ANALİZİBÖLÜM 1-2
Yayın Tarihi: 17-08-2008
2
1. GİRİŞ• REGRESYON
ANALİZİNEDİR?
• MODELLEME
• İstatistik biliminin temel ilgi alanlarından biri: bir şans değişkeninin davranışının bir model kullanılarak tahminlenmesidir.
• İlgilenilen bir şans değişkeninin
davranışını tanımlamak amacıyla matematiksel bir yaklaşımın geliştirilmesini ifade eder.
2
3
• MODELLEME
• DEĞİŞKEN
• Davranışı tahminlenecek değişken, başka değişkenlerin fonksiyonu olarak ortaya çıkabilir.
Bir ürünün fiyatı Belirli bir hastalıktan ölenlerin sayısı Metal bir kablonun dayanım gücü
4
• BAĞIMLI DEĞİŞKEN
• Şans değişkeni bağımlı değişken olarak adlandırılır ve Y ile gösterilir.
• Araştırmada birden fazla gözlem
alındığından gözlemleri birbirinden ayırmak için bir alt indis kullanılır Yi.
3
5
• MODELLEMENİN AMACI
• Koşullar değiştiğinde bağımlı değişkenin ortalamasının E(Yi) nasıl değiştiğini tanımlamaktır.
6
• AÇIKLAYICI DEĞİŞKEN
• Bağımlı değişkenin davranışıüzerinde sağladığı etki için modelealınan değişkenler kestirim, bağımsızya da açıklayıcı değişken olarakadlandırılır.
• Bu değişken X ile gösterilir.
• Farklı bağımsız değişkenleri
tanımlamak için de bir alt indis kullanılır Xij
• Bağımsız değişkenlerin bilinen sabitler olduğu varsayılır.
4
7
• PARAMETRELER
• Tüm modeller bağımsız değişkenlere ilave olarak bilinmeyen sabitler içerir.
• Bilinmeyen bu sabitler parametreler
olarak adlandırılır ve modelin davranışını kontrol eder.
8
• DEĞİŞKENLER ARASINDAKİ İLİŞKİTİPLERİ
• Deterministik ilişki • Yarı deterministik ilişki • Olasılıksal ilişki
5
9
• MODELİN DOĞRUSALLIĞI
• Kullanılan modeller genellikle parametrelerine göre doğrusaldır.
• Parametrelere göre doğrusallık,
modeldeki tüm parametrelerin basit (birinci dereceden) olmasıdır.
• Diğer bir deyişle üstel durumda ya
da bir diğer parametre ile çarpım halinde veya bölüm halinde bir parametrenin bulunmamasıdır.
10
• DOĞRUSAL OLMAYAN MODELLER
• Daha gerçekçi modeller karmaşık olup parametrelerine göre doğrusal değildir.
• Doğrusal olmayan modeller iki
sınıfa ayrılır:
Doğrusal hale dönüştürülebilenler (bağımlı ya da bağımsız değişken üzerine dönüşüm ile)
Doğrusal hale dönüştürülemeyenler
6
11
2. BASİT DOĞRUSAL REGRESYON
• BASİTDOĞRUSAL MODEL
• En basit doğrusal model sadece tek bir bağımsız değişken içerir.
• Bu model, bağımsız değişkenin
değerinin artması ya da azalması durumunda bağımlı değişkenin gerçek ortalamasının sabit bir oranda değiştiğini ifade eder.
12
• FONKSİYONELİLİŞKİ
• E(Yi) ile Xi arasındaki fonksiyonel ilişki,
(2.1) ( ) 0 1i iE Y Xβ β= + • Modelde β0 kesişim terimidir. X=0 iken E(Yi) nin değeridir.
• β1 ise doğrunun eğimidir. X deki birim değişimin E(Yi) deki değişim oranını tanımlar.
7
13
• HATA TERİMİVE İSTATİSTİKSEL MODEL
• Bağımlı değişkenin elde edilen her bir gözlemi Yi nin, ana kütle ortalaması E(Yi) olan bir ana kütleden gelen şans değişkeni olduğu varsayılır.
• Bir gözlemin Yi, kendi ana kütle
ortalamasından E(Yi) sapması, matematiksel modele bir hata terimi eklenerek açıklanır
(2.2) 0 1i iY Xβ β ε= + +
• Bu model bir istatistiksel modeldir.
14
• MODELİN BELİRLENMESİ İÇİN GEREKLİLİKLER
• Olasılıksal modeller bir ya da daha fazla rassal bileşen (hata bileşeni) içerir.
• Her bir hata bileşeninin ait olduğu bir hata kaynağı mevcuttur.
• Modelin tam olarak ifade edilebilmesi için hata teriminin özelliklerinin tanımlanması gereklidir.
8
15
• TAHMİNLEME • Basit doğrusal model iki parametreye β0 ve β1 sahiptir.
• Bu parametreler, veri seti,
(X1,Y1), (X2,Y2),…, (Xn,Yn), kullanılarak tahminlenir.
• Şans değişkeni Y deki değişkenlik her bir gözlenmiş veri çiftinin farklı değerler almasına neden olur.
16
• TAHMİNLEME • Denklem (2.2) de β0, β1 ve ε bilinmeyenlerdir.
• Gerçekte ε u tahminlemek, her bir
gözlem için farklı değerler aldığından, oldukça zordur.
• Buna karşın β0 ve β1 sabit değerler
aldığı için veri seti kullanılarak tahminleri olan b0 ve b1 elde edilebilir.
9
17
• TAHMİNLEMENİN AMACI
• Amaç eldeki veri setine en iyi uyumu gösteren regresyon denkleminin elde edilmesidir.
• Diğer bir deyişle kabul edilebilir b0
ve b1 tahminlerinin elde edilmesidir.
18
• İYİ UYUM NEDİR?
• HATA NEDİR?
• Bu sorunun cevabı, elbette ki “ toplam hatayı minimum yapan uyum, iyi bir uyumdur “ şeklindedir.
• Tipik bir hatanın grafiksel ifadesi Şekil 2.1 de gösterilmektedir.
• Bu hata ( )ˆ
i iY Y− şeklinde, gözlenmiş Yi değerleri ile uyum yapılmış doğru arasındaki dikey uzaklık olarak tanımlanır.
10
19
ŞEKİL 2.1
20
• İYİ UYUM NEDİR?
• VARSAYIM
• Gerçekte verilere uyumu sağlanan matematiksel bir modeldir.
• İyi uyumu model kavramı altında
istatistiksel olarak açıklarsak; model, etki eden faktörlerin etkisi ile doğal varyasyonu birbirinden ayırma derecesidir.
• Aşağıda anlatılanlar doğru modelin
tespit edildiği varsayımı altında iyi uyum kriterleridir.
11
21
• İYİ UYUM KRİTERLERİ
Hata toplamlarının minimize edilmesi Mutlak hata toplamlarının minimize edilmesi Hata kareler toplamlarının minimize edilmesi
22
• HATA TOPLAMLARININ MİNİMİZE EDİLMESİ I
(2.3) ( )∑=−
n
i iiYY
1ˆ
• Bu kriter aynı gözlemler kullanılarak uyumu yapılmış iki doğru üzerinde açıklanabilir.
• Şekil 2.2’ de bu iki doğrudan biri göreceli olarak iyi diğeri ise oldukça kötüdür.
12
23
• HATA TOPLAMLARININ MİNİMİZE EDİLMESİ II
• Her iki durumda da sorun işaretlerden kaynaklanmaktadır, pozitif ve negatif hataların toplamı sıfır değerini vermektedir.
• İyi ve kötü uyum arasındaki farkı
ortaya koymadığı için bu kriter reddedilecektir.
24
ŞEKİL 2.2
13
25
• MUTLAK HATA TOPLAMLARININ MİNİMİZE EDİLMESİ I
(2.4) ∑=−
n
i iiYY
1
ˆ • Pozitif ve negatif değerler bu kriterde birbirlerini
düzeltemez. • Şekil 2.3 de bu kriter açıklanmaktadır.
Verilen kritere göre (b) deki uyum daha iyidir.
26
• MUTLAK HATA TOPLAMLARININ MİNİMİZE EDİLMESİ II
• (b) deki doğru incelendiğinde bu doğrunun uç noktalar için en iyi doğru olduğu görülmektedir.
• Bununla birlikte ortadaki nokta
dikkate alınmamaktadır. • (a) daki doğru ise tüm noktaları
dikkate aldığı için tercih edilebilecektir.
• Bu nedenle probleme ortak bir
çözüm getirmemektedir.
14
27
ŞEKİL 2.3
28
• HATA KARELER TOPLAMLARININ MİNİMİZE EDİLMESİ I
• Hata kareler toplamını minimize eden bir yaklaşımdır.
(2.5) ( )2
1ˆ∑=
−n
i ii YY • Bu kriter “ en küçük kareler
yöntemi “ olarak adlandırılır.
15
29
• HATA KARELER TOPLAMLARININ MİNİMİZE EDİLMESİ II
• Bu Yöntemin Avantajları:
a-) Hataların karesinin alınması işaret problemini ortadan kaldırır. b-) Kare alma işlemi büyük hata terimlerini daha da büyüterek vurgulanmasını sağlar. c-) Kriter uygulanırken tüm noktalar dikkate alınmaktadır.
• Şekil 2.3 de verilen uyumlar bu kritere göre değerlendirildiğinde (a) daki uyum (b) ye göre tercih edilir.
30
• EN KÜÇÜK KARELER (EKK) YÖNTEMİ
• EKK yöntemi gözlemlere en iyi uyum sağlayacak matematiksel modeli bulmaz.
• Matematiksel modeli belirlenmiş bir
durum için, modele en iyi uyum sağlayacak parametre tahminlerini yapar.
• EKK metodu ile elde edilen
parametre tahminleri belirli varsayımlar altında uygun özelliklere sahiptir.
16
31
• EKK TAHMİNLEME PROSEDÜRÜ
• Eşitlik (2.2) kullanıldığında hata (2.6) ii XY 10 ββε −−=
• Tahminleme için n adet gözlem setine (X1,Y1), (X2,Y2),…, (Xn,Yn), sahip olunduğu varsayılsın. • Hata kareler toplamı:
(2.7) ( ) ( )2
1 101
2 ∑∑ ==−−==
n
İ ii
n
i i XYSS ββεε
32
• NORMAL DENKLEMLER (2.8)
∑∑∑∑ ∑
+=
+=2
10
10
iiii
ii
XbXbYX
XbnbY
Ref. İspat 1
• AÇIK FORMÜLLER (2.9a)
( )( )( )∑
∑−
−−= 21 XX
YYXXb
i
ii
(2.9b) XbYb 10 −=
Ref. İspat 2
17
33
• KESTİRİLMİŞ DEĞER
• Y için tahminlenmiş ortalama
(2.10a) 0 1i iY b b X= + (2.10b) ( )1i iY Y b X X= + −
• Eşitlik (2.10) ile belirli bir X değerine karşılık
gelen bağımlı değişken değeri elde edilir. • Bu değer daima regresyon doğrusu üzerindedir ve
kestirilmiş değer olarak adlandırılır.
34
• KESTİRİLMİŞDEĞER
• Uyumu yapılan regresyon doğrusundan hesaplanan her bir değer iki anlama sahiptir:
X in belirli bir değeri için, Y nin anakütle ortalamasının tahmini, E(Yi) .
X in belirli bir değeri için, Y nin kestirilmiş değeri, iY .
• GAUSS-MARKOV teoremine göre iY değeri E(Yi)
nin sapmasız bir tahminleyicisidir.
NOT: Modelin doğru olduğu durumlar için geçerlidir.
18
35
• ARTIKLAR
• Gözlenmiş Yi değerleri ile regresyon denkleminden hesaplanan iY değerleri karşılaştırıldığında, model ile veri seti arasındaki uyum için bir ölçüt elde edilir.
• Bu ölçüt değeri artık olarak adlandırılır.
36
• ARTIKLAR
• GÖZLENMİŞVERİ
• Artıklar uyumu yapılan model ile veriler arasındaki farkı tanımlar:
(2.11a) ˆ
i i ie Y Y= −
• Modelde sabit terim mevcut olduğunda artıkların
toplamı daima sıfırdır. • Gözlenmiş veri:
(2.11b) ˆi i iY Y e= +
• iY bileşeni Yi gözleminin model tarafından
açıklanabilen kısmıdır. • ei ise modelin açıklayamadığı kısımdır.
19
37
• ARTIKLAR İLE HATA ARASINDAKİ FARK
• Artıklar eşitlik (2.11a) ile tanımlanmıştır. • Belirli varsayımlar sağlandığında artıklar
gözlenmiş (tahminlenmiş) hatalar olarak kabul edilebilir.
• Regresyon modelindeki bilimeyen gerçek hata:
(2.12) ( )i i iY E Yε = −
38
• UYUMU YAPILMIŞREGRESYON DOĞRUSUNUN ÖZELLİKLERİ 1. Artıkların toplamı sıfırdır.
∑ ==ni ie1 0
Ref. İspat 1 2. Artık kareler toplamı minimumdur.(EKK
metodu için) 3. Gözlenmiş değerlerin toplamı uyumu yapılmış
değerlerin toplamına eşittir. ∑=∑ ==
ni i
ni i YY 11
ˆ Sonuç olarak ortalamaları da eşittir.
Ref. İspat 5
20
39
4.Bağımsız değişkenin değeri ile ağırlıklandırılmış artıkların toplamı sıfırdır.
∑ ==ni iieX1 0
Ref. İspat 1 5. Uyumu yapılan değerler ile artıklar
arasındaki kovaryans sıfırdır. 0ˆ
1 =∑ = ini ieY
Ref. İspat 6 6. Regresyon doğrusu daima ( )YX , noktasından
geçer. Ref. İspat 4
• UYUMU YAPILMIŞREGRESYON DOĞRUSUNUN ÖZELLİKLERİ
40
• TAHMİNLENMİŞVARYANS
• Örnek varyansını elde etmek için ilk olarak, ( )∑ − 2YYi
hesaplanır. • Bu değer kareler toplamı olarak tanımlanır. • Kareler toplamı serbestlik derecesine n-1
bölünür. • Bir serbestlik derecesi bilinmeyen anakütle
ortalamasının μ tahminlenmesinde Y kullanılmıştır.
21
41
• TAHMİNLENMİŞVARYANS
• Sonuç olarak örnek varyansı ( )
11
22
−∑ −
= =
nYYs
ni i
• Örnek varyansı, serbestlik derecesine bölünmüş bir kareler toplamı olduğundan bir kareler ortalaması olarak da adlandırılır.
42
• TAHMİNLENMİŞVARYANS
• Regresyon modeli için her bir Yi gözleminin varyansı her bir hata teriminin εi varyansı ile eşittir.
( ) ( ) ( ) 2210
22 σεσεββσσ ==++= iiii XY • Yi gözlemleri Xi seviyelerine bağlı olarak farklı
ortalamalı farklı olasılık dağılımlarından gelir. • Bu dağılımların ortalamaları iY ile
tahminlendiği için Y yerine iY yazılır. • β0 ve β1 tahminlenmesi için iki serbestlik
derecesi kaybedilir.
22
43
• TAHMİNLENMİŞVARYANS
• Eğer model doğru ise, artık kareler ortalaması rassal hatanın (ε) varyansının (σ2) sapmasız bir tahminleyicisidir.
(2.19) ( ) 22
2 2iSS e e
sn n
= =− −
∑
44
• TAHMİNLENMİŞ REGRESYONUN HASSASİYETİ
• Eşitlik (2.11) kullanılarak, Yi gözleminin bileşenleri
(2.13) ( ) ( )ˆ ˆi i i iY Y Y Y Y Y= + − + −
23
45
• MODELİN AÇIKLADIĞI KISIM
• İki Bileşenden Oluşur:
Sabit terimin (şans değişkeninin ortalamasının) katkısı.
Regresyonun (bağımsız değişkenin) katkısı.
46
• REGRESYONUN AÇIKLADIĞI KISIM
• Eşitlik (2.13) den sabitin katkısı çıkarılarak,
(2.14) ( ) ( )ˆ ˆi i i iY Y Y Y Y Y− = − + −
• Eşitliğin sağındaki ilk bileşen regresyonun
açıkladığı kısımdır. • Eşitlik (2.14), n adet gözlem üzerinden
toplandığında tüm bileşenler sıfır değerini alır.
24
47
• KARELER TOPLAMLARI
• Eşitlik (2.14) in karesi alınır. (2.15) ( ) ( ) ( )2 22
1 1 1ˆ ˆn n n
i i i ii i iY Y Y Y Y Y= = =
− = − + −∑ ∑ ∑
• Toplam D. K. T. = Regresyon K.T.+Artık K.T. • SS(Tc) = SS(R) + SS(e)
Not: Çapraz çarpım terimi sıfırdır. Ref. İspat 7a
48
• REGRESYONUN ANLAMLILIĞI
• KRİTER 1 (F-TESTİ)
• Regresyonun kapsamlı olarak anlamlılığı varyans analizi kullanılarak F-testi ile gerçekleştirilir.
• Varyans analizi için kareler toplamlarına (SS) ek
olarak her bir kareler toplamına ait olan serbestlik derecesine (s.d.) gereksinim vardır.
25
49
• SERBESTLİK DERECESİ
• Eldeki veri setindeki gözlemlerin taşıdığı birbirinden bağımsız bilgi sayısıdır.
• Eşitlik (2.15) için serbestlik dereceleri,
(2.17) ( )1 1 2n n− = + −
50
• KARELER ORTALAMASI
• Her bir kareler toplamının kendi serbestlik derecesine bölünmesi ile elde edilir.
• Regresyon kareler ortalaması.
(2.18a) ( ) ( )1
SS RMS R =
• Artık kareler ortalaması
(2.18b) ( ) ( )2
SS eMS e
n=
−
26
51
• ARTIK KARELER ORTALAMASI
• Eğer model doğru ise, artık kareler ortalaması aynı zamanda rassal hatanın (ε) varyansının (σ2) sapmasız bir tahminleyicisidir.
(2.19) ( ) 22
2 2iSS e e
sn n
= =− −
∑
52
• VARYANS ANALİZİNİN BİLEŞENLERİ
• Değişkenlik Kaynağı • Serbestlik Derecesi
• Kareler Toplamları • Kareler Ortalaması
27
53
Tablo 2.1 Varyans Analiz Tablosu IDeğişkenlik Kaynağı
Kareler Toplamları
Serbestlik Derecesi
Kareler Ortalaması
F-Testi
Regresyona Bağlı Değişkenlik
( )2ˆ∑ −YYi 1
( )( )
1
ˆ2∑ −
=YY
RMSi
Artığa Bağlı Değişkenlik
( )2ˆ∑ − ii YY n-2
( )( )
2
ˆ2
−
−=∑
n
YYeMS
ii
( )( )eMSRMSF =
Toplam Düzeltilmiş Değişkenlik
( )2∑ −YYi
n-1
54
• REGRESYONUN ANLAMLILIĞI İÇİN F TESTİ
• Yi ler şans değişkeni olduğu içinonların fonksiyonları da şans değişkenidir.
• Bu Fonksiyonlardan İkisi:
Regresyon Kareler Ortalaması: MS(R) Artık Kareler Ortalaması: MS(e)
• Bunlar birer şans değişkenidir ve dağılımları,
ortalamaları, varyansları, momentleri vardır.
28
55
• KARELER ORTALAMALARININ BEKLENEN DEĞERLERİ
• Artık kareler ortalamasının beklenen değeri:
(T6.2) ( ) 2E MS e σ⎡ ⎤ =⎣ ⎦ Ref. Tanım 6
• Regresyon kareler ortalamasının beklenen değeri:
(T7.2) ( ) ( )
( )22 21
1
i
SS RE MS R E
X Xσ β
⎡ ⎤⎡ ⎤ = ⎢ ⎥⎣ ⎦
⎣ ⎦
= + −∑
Ref. Tanım 7
56
• YORUMLAR
• MS(e) nin beklenen değeri σ2 olup bu sonuç X ile Y nin ilişkili olup olmamasına diğer bir deyişle β1=0 olup olmamasına bağımlı değildir.
• β1=0 olduğunda MS(R) nin beklenen değeri de σ2
dir. Bununla birlikte β1≠0 ise E[MS(R)] değeri σ2 den büyüktür.
• Sonuç olarak β1=0 olup olmadığının testi MS(R)
ve MS(e) değerleri kullanılarak gerçekleştirilir.
29
57
• F TESTİ
• Her biri kendi serbestlik derecesine bölünmüş iki χ2 değişkeninin birbirine oranı F dağılımı gösterir.
Ref. Tanım 5
• Eğer β1=0 ise tüm Yi ler aynı ortalama μ=β0 ve
aynı varyansa σ2 sahiptir.
58
• F TESTİ• Ayrıca SS(e)/σ2 ve SS(R)/σ2 birbirinden bağımsız χ2 değişkenidir.
(T6.1) ( ) 222 n
SS eχ
σ −=
(2.21) ( ) 212
SS Rχ
σ=
Ref. Tanım 6
• Sonuç olarak F-testi
(2.22) ( )( )
21
1, 2 22
12n
n
MS RF
n MS eχ
χ−−
= =−
30
59
• VARYANS ANALİZİNİN FARKLI YAPILARI
• Farklı değişkenlik kaynakları kullanılarak faklı tablolar hazırlanabilir.
• Bu amaçla bazı kareler toplamları yeniden ele alınmalıdır.
60
• TOPLAM DÜZELTİLMİŞK.T.
• Eşitlik (2.15) in solundaki Toplam Düzeltilmiş Kareler Toplamı,
(2.20a) ( ) ( )2
iSS Tc Y Y= −∑ iki bileşene ayrıştırılabilir.
(I7.1) ( )2 22i iY Y Y nY− = −∑ ∑
Eşitliğin sağındaki ikinci bileşen düzeltme faktörü olarak adlandırılır ve β0 ın yaptığı katkıyı temsil eder. İlk bileşen ise Toplam Kareler Toplamıdır.
Ref. İspat 7b
31
61
• TOPLAM KARELER TOPLAMI I
• Sonuç olarak eşitlik (I7.1) iki bileşenin toplamı olarak,
(I7.4) ( )222
i iY Y Y nY= − +∑ ∑ • Bir diğer gösterim ise,
(I7.5) ( ) ( ) ( )0cSS T SS T SS b= + Ref. İspat 7b
62
• VARYANS ANALİZ TABLOSU II
• Yeni yaklaşım eşitlik (2.13) üzerine oluşturulur. • Eşitlik (2.13) ün karesi alınıp, n adet gözlem için
toplanarak (2.23) ( ) ( )2 22 2 ˆ ˆ
i i i iY nY Y Y Y Y= + − + −∑ ∑ ∑
• T.K. T. = O.K.T.+ R.K.T. + A.K.T. • SS(T) = SS(b0)+ SS(R) + SS(e)
Not: Çapraz çarpım terimleri sıfırdır.
32
63
Tablo 2.2 Varyans Analiz Tablosu IIDeğişkenlik Kaynağı
Kareler Toplamları
Serbestlik Derecesi
Kareler Ortalaması
F-Testi
Ortalamaya Bağlı Değişkenlik
2Yn 1
( )2
0 1nYMS b =
Regresyona Bağlı Değişkenlik
( )2ˆ∑ −YYi 1
( )( )
1
ˆ2
∑ −=
YYRMS
i
Artığa Bağlı Değişkenlik
( )2ˆ∑ − ii YYn-2
( )( )
2
ˆ2
−
−=∑
n
YYeMS
ii
( )( )eMSRMSF =
Toplam Değişkenlik ∑ 2
iY n
64
• TOPLAM KARELER TOPLAMI II
• Eşitlik (2.11b) nin karesi alınır ve n gözlem için toplandığında
(2.24) 2 2 2ˆ
i i iY Y e= +∑ ∑ ∑
• T.K. T. = M.K.T.+A.K.T. • SS(T) = SS(M) + SS(e)
Not: Çapraz çapım terimi sıfırdır.
Ref. İspat 7a
33
65
• MODEL KARELER TOPLAMI
• İki bileşenden oluşur: (2.25) ( )22 2ˆ ˆ
i iY nY Y Y= + −∑ ∑
• M.K. T. = O.K.T.+R.K.T. SS(M) = SS(b0) + SS(R)
• Eşitlik (2.25) nın bir diğer hesaplama formülü (2.26) ( )22 2 2
1i iY nY b X X= + −∑ ∑ Ref. İspat 4
66
• REGRESYONUN ANLAMLILIĞI
• KRİTER 2 (R2)
• R2 kriteri Y etrafındaki toplam değişkenliğin regresyon tarafından açıklanan kısmını ölçer:
(2.16a) ( )( )
( )( )
2
22
ˆ
i
Y Y SS RR
SS TcY Y
−= =
−
∑∑
• Belirlilik katsayısı olarak adlandırılır. • R ise Y ile iY arasındaki korelasyondur.
• Çoklu korelasyon katsayısı olarak adlandırılır.
34
67
• R2 nin ÖZELLİKLERİ
• R2 modelde β0 hariç diğer terimlerin katkısının bir ölçümünü verir.
• Eğer saf hata mevcut ise R2 kesinlikle 1 değerini alamaz.
• Eğer saf hata yok ise R2 değeri, β0 parametresini içeren bir modeldeki parametre sayısına eşit uygun seçilmiş gözlemlere tam bir uyum sağlanarak 1 olacak şekilde belirlenebilir.
Ref. İspat 16
68
• R2 nin ÖZELLİKLERİ
• R2 değeri verilerdeki değişkenliğin açıklanmasında regresyon denkleminin başarısının bir ölçüsü olarak kullanılır.
• Bu nedenle modele yeni bir terim eklenmesine bağlı olarak R2 de oluşan iyileşmenin sadece modele eklenen parametre sayısındakiartıştan kaynaklanmadığı gerçek bir anlama sahip olduğundan emin olunmalıdır.
35
69
• EKK VARSAYIMLARI
• HATALAR εi, 1. ORTALAMASI SIFIR, E(εi)=0 2. SABİT VARYANSLI, V(εi)= σ2 3. BİRBİRİ İLE İLİŞKİSİZ, COV(εi, εj)=0 ŞANS DEĞİŞKENLERİDİR. • Hipotez Testleri Ve Güven Aralıkları İçin Gerekli
Ek Bir Varsayım 4. HATALAR NORMAL DAĞILIM GÖSTERİR
70
• SONUÇLAR
• VARSAYIM 1 den (2.1) ( ) 0 1i iE Y Xβ β= +
• VARSAYIM 2 den V(Yi)= σ2
• VARSAYIM 3 den i≠j için Yi ve Yj ilişkisizdir • VARSAYIM 4 den εi ve εj sadece ilişkisiz değil aynı zamanda bağımsız olmalıdır.
36
71
• b1 in ÖRNEKLEME DAĞILIMI
• b1 Tahminleyicisi, Ortalaması,
(I9.3) ( )1 1E b β= Ref. İspat 9
Varyansı,
(I10.2) ( )( )
2 21 2
1
i
bX X
σ σ=−∑
Ref. İspat 10 olan bir Normal dağılıma sahiptir.
Ref. Tanım 2
Not: Model (2.2) için Yi ler normal dağılış gösterir. b1 tahminleyicisi ise Yi lerin doğrusal bir kombinasyonudur.
72
• (b1-β1)/s(b1) in ÖRNEKLEME DAĞILIMI
• b1 normal dağıldığı için standardize istatistik (b1-β1)/σ(b1)
bir standart normal değişkendir. • Bununla birlikte σ(b1) parametresi s(b1) ile
tahminlenir. • İlgilenilmesi gereken (b1-β1)/s(b1) istatistiğinin dağılımıdır. • Model (2.2) için,
(I11.2) ( )
1 12
1n
b ts b
β−
−=
Ref. Tanım 8 ve İspat 11
37
73
• b0 ınÖRNEKLEME DAĞILIMI
• b0 Tahminleyicisi Ortalaması,
(I13.4) ( )0 0E b β= Ref. İspat 13
Varyansı,
(I14.5) ( )( )
22 2
0 21
i
Xbn X X
σ σ⎛ ⎞⎜ ⎟= + ⋅⎜ ⎟−⎝ ⎠∑
Ref. İspat 14 olan bir Normal dağılıma sahiptir.
Ref. Tanım 2
Not: Model (2.2) için Yi ler normal dağılış gösterir. b0 tahminleyicisi ise Yi lerin doğrusal bir kombinasyonudur.
74
• b1 ve b0 İÇİN ARALIK TAHMİNLERİ
• Hataların normal dağıldığı varsayımı altında b0 ve b1 için % 100 (1-α) güven aralığı
( ){ } 2121112
1;2
21;2
∑ −
⎟⎠⎞
⎜⎝⎛ −−
±=⎟⎠⎞
⎜⎝⎛ −−±
XX
sntbsntb
i
b
αα
( )
21
2
2
0001
21;2
21;2
⎭⎬⎫
⎩⎨⎧
−+⎟
⎠⎞
⎜⎝⎛ −−±=⎟
⎠⎞
⎜⎝⎛ −−±
∑ XXX
nsntbsntb
ib
αα
38
75
• b1 ve b0 İÇİN ANLAMLILIK t-TESTLERİ
• Hataların normal dağıldığı varsayımı altında b0 ve b1 için α anlamlılık seviyesinde,
• H0: β1=β10 ve H0: β0=β00 hipotezleri için test istatistikleri
1
101
bsbt β−
= ve 0
000
bsbt β−
=
76
• BASİT REGRESYONDA ANLAMLILIK TESTİÜZERİNE YORUMLAR
• Verilen her hangi bir α anlamlılık seviyesi için H0: β1=0 hipotezinin testi basit regresyon için anlamlılık testidir
• Hipotezin testi t ya da F testi ile gerçekleştirilebilir.
• Daha esnek olduğundan t testi tercih edilir • Nedeni ise t testinin tek yönlü olarak da
uygulanabilmesidir. • F testi bu esnekliğe sahip değildir.
39
77
• Cov(b0, b1)
• b0 ve b1 tahminleyicileri sadece örnekten örneğe değişkenlik göstermez aynı zamanda verilen bir örnek için birbirine bağımlıdırlar.
(I15.1) ( )( )
20 1 2,
i
XCov b bX X
σ⎡ ⎤⎢ ⎥= −⎢ ⎥−⎣ ⎦∑
Ref. İspat 15
78
• GAUSS-MARKOV TEOREMİ
• Bu teorem, doğrusal regresyon modellerinde en küçük kareler yönteminin kullanılmasına olanak sağlayan önemli bir teoremdir.
• Bu teorem, kabuller zayıf veya eksik olduğu durumlarda da izlenebildiği için önemli bir teoremdir. Başka bir deyişle hata teriminin dağılışı ile ilgili kabuller yapılmasına gerek yoktur.
40
79
• TEOREM
• Parametrelerin en küçük kareler tahminleri, parametrelerin; doğrusal ve sapmasız tahmincileri içerisinde minimum varyanslı olanıdır. Ref. İspat 8 ve 12 Ref. İspat 9 ve 13 Ref. İspat 17
80
• TEOREME AİT BİR ÖNERME
• Regresyonun özel bir durumu olan, Y bağımlı değişkenin b1=0 olacak şekilde açıklanması durumunda b0, Y nin anakütle ortalamasına eşit olacaktır.
• Buna göre bir anakütle ortalamasının en küçük kareler tahmincisi örnek ortalamasıdır. Gauss-Markov teoremine göre bu ifade, örnek ortalaması bir anakütle ortalamasının en iyi doğrusal sapmasız tahmincisidir, şeklinde açıklanabilir. Ref. İspat 16
41
81
• SAF HATA VE UYUM YETERSİZLİĞİ
• Uyumu yapılan regresyon doğrusu belirli bir model ve varsayımlar üzerine hesaplanmış bir doğrudur.
• Varsayımların sağlanıp sağlanmadığının kontrolü kadar modelin doğruluğunun kontrolü de önemlidir.
• Artıklar, bağımlı değişkende gözlenmiş varyasyonu kullanarak uyumu yapılmış model ile ilgili tüm bilgiyi içerir.
82
• SAF HATA VE UYUM YETERSİZLİĞİ TESTİNİN VARSAYIMLARI
• Verilen her Xi seviyesi değerleri için o Yi gözlemleri birbirinden bağımsızdır o Yi gözlemlerinin tüm dağılımları normaldir o Yi gözlemlerinin tüm dağılımları aynı
varyansa sahiptir
42
83
• ARTIĞIN BİLEŞENLERİ
• İki bileşene ayrılır: Rassal Hata (Saf Hata) Sapma Hatası (Uyum Yetersizliği)
84
• RASSAL HATA
• Rassal hatanın hesaplanabilmesi için:
Şans değişkeninin varyansı σ2 bilinmeli ya da
Aynı X seviyesinde tekrarlı gözlemlere ihtiyaç vardır.
• Tekrarlı gözlemlerin tüm X değerlerinde alınması
gerekli değildir. • Tekrarlı gözlemler için ek bir indise gereksinim
vardır. Ref. Tanım 9
43
85
• BİR ARTIĞIN BİLEŞENLERİNE AYRILMASI
• Xj deki u-uncu Artık (2.27) ( ) ( )ˆ ˆ
ju j ju j j jY Y Y Y Y Y− = − + −
• Sağ taraftaki ilk bileşen qi Saf Hata • İkinci bileşen Bi Sapmadır.
86
• BİLEŞENLERİN İNCELENMESİ
• Model doğru ise ( )j jE Y μ= ve ( )ˆ
j jE Y μ= olup sapma sıfırdır. (Bi=0)
• Model yanlış ise ( )ˆj jE Y μ≠ olduğundan sapma
sıfırdan farklıdır. (Bi≠0) • Model doğru da olsa yanlış da olsa E(Yj)=μj ve
( )j jE Y μ= olduğundan rassal hata sıfırdır. (qi=0)
44
87
• BİLEŞENLERİN KARELER ORTALAMALARI
• qi için kareler ortalaması, (n-2)σ2 • Artık kareler ortalaması, Model doğru ise, σ2 Model yanlış ise,
(2.28) ( )
22
2iB
nσ +
−∑
88
• YORUMLAR
• Model doğru ise Bi=0 olduğundan artıklar, rassal hataya denktir ve artık kareler ortalaması, hata varyansının σ2 bir tahminleyicisi olarak kullanılabilecektir.
• Model doğru olmadığında Bi≠0 dır. artıklar hem
qi rassal hem de Bi sapma bileşenlerini içermektedir.
45
89
• YORUMLAR
• Bu durumda artık kareler ortalaması büyüme eğilimi gösterecek ve gözlemlerdeki mevcut şansa bağlı değişkenliğin yeterli bir ölçümünü sağlayamayacaktır.
• Bununla birlikte, kareler ortalaması bir şans
değişkeni olduğu için, sapma mevcut olsa bile büyük bir değer alamayabileceği unutulmamalıdır.
90
• GRAFİKSEL ANALİZ
• Basit regresyon durumunda sapma hatası verilerin grafiklerinin incelenmesi sonucu ortaya çıkarılabilir.
• Model çok karmaşık bir yapıda olduğunda ya da
çok sayıda değişken kullanıldığında sapma hatasının grafikler yardımı ile ortaya çıkarılması mümkün olamayabilir.
46
91
Şekil 2.4
92
Şekil 2.4
47
93
• KARELER TOPLAMLARI
• Eşitlik (2.27) in karesi alınır ve tüm gözlemler üzerinden toplanarak
(2.29) ( ) ( ) ( )21
2
1 1
2
1 1ˆˆ ∑∑ ∑∑ ∑ == == = −+−=− m
j jjjmj
jnu jju
mj
jnu jju YYnYYYY
• Sol taraftaki terim artık kareler toplamı • Sağ taraftaki ilk terim saf hata kareler toplamı • İkinci terim uyum yetersizliği kareler toplamı
Not:Çapraz çarpan terimi sıfırdır.
94
• KARELER TOPLAMLARININ SERBESTLİK DERECELERİ
• Artık Kareler Toplamı için (2.30) 2−= nnr
• Saf Hata Kareler Toplamı için
(2.31) ( ) ∑∑ ==−=−= m
j j
m
j je mnnn11
1
• Uyum Yetersizliği Kareler Toplamı için
(2.32) eru nnn −=
48
95
Tablo 2.3 Varyans analiz Tablosu III
Değişkenlik Kaynağı
Kareler Toplamları
Serbestlik Derecesi
Kareler Ortalaması
F-Testi
Regresyona Bağlı Değişkenlik
( )2ˆ∑ −YYi 1
( )( )
1
ˆ2∑ −
=YY
RMSi
Artığa Bağlı Değişkenlik
( )2ˆ∑ − ii YY 2−= nnr
( )( )
2
ˆ2
−
−=∑
n
YYeMS
ii
( )( )eMSRMSF =
Uyum Yetersizliği ( )2
1ˆ∑ =
−mj jjj YYn eru nnn −=
( )( )u
mj jjj
n
YYnUYMS
2
1ˆ∑ =
−=
Saf Hata ( )2
1 1∑ ∑= =−
mj
jnu jju YY ∑ =
−=m
jje mnn
1 ( )( )
e
mj
jnu jju
n
YYSHMS
2
1 1∑ ∑= =−
=
( )( )SHMSUYMSF =
Toplam Düzeltilmiş Değişkenlik
( )2∑ −YYi
n-1
96
• F TESTİ
• Genel Prosedür,
(2.33) ( )( )SHMSUYMSF =
oranını %(1-α) lık bir F kritik değeri ile test etmektir.
• Bu F değerinin serbestlik dereceleri (2.31) ve (2.32) ile tanımlanmıştır.
49
97
• TESTİN YORUMU
• Test sonucu önemli çıkarsa; başka bir deyişle elde edilen test istatistiği teorik F değerinden büyük çıkarsa; iki varyansın birbirine eşit olduğu hipotezi reddedilir.
• Bu sonuç uyum yetersizliği varyansının saf hata
varyansından istatistiksel olarak büyük olduğu anlamına gelir.
• Sonuç olarak kullanılan regresyon modelinin
yetersiz olduğu söylenebilir.
• Yetersizliğin nerede ve nasıl oluştuğunun anlaşılması için hataların incelenmesi gerekecektir.
98
• TESTİN YORUMU
• Test sonucu önemsiz çıkarsa; F hesap değerinin teorik değerden küçük olması, bu durumda kullanılan modelin olayı açıklamakta yeterli olduğu sonucuna ulaşılır.
• Başka bir deyişle kullanılan model, gerçek
modele yeterli bir yaklaşım göstermektedir.