REGRESYON ANALİZİ DERS 1-2 - Dokuz Eylül Üniversitesi · 2 3 • MODELLEME •DEĞİŞKEN •...

1

REGRESYON ANALİZİBÖLÜM 1-2

Yayın Tarihi: 17-08-2008

2

1. GİRİŞ• REGRESYON

ANALİZİNEDİR?

• MODELLEME

• İstatistik biliminin temel ilgi alanlarından biri: bir şans değişkeninin davranışının bir model kullanılarak tahminlenmesidir.

• İlgilenilen bir şans değişkeninin

davranışını tanımlamak amacıyla matematiksel bir yaklaşımın geliştirilmesini ifade eder.

2

3

• MODELLEME

• DEĞİŞKEN

• Davranışı tahminlenecek değişken, başka değişkenlerin fonksiyonu olarak ortaya çıkabilir.

Bir ürünün fiyatı Belirli bir hastalıktan ölenlerin sayısı Metal bir kablonun dayanım gücü

4

• BAĞIMLI DEĞİŞKEN

• Şans değişkeni bağımlı değişken olarak adlandırılır ve Y ile gösterilir.

• Araştırmada birden fazla gözlem

alındığından gözlemleri birbirinden ayırmak için bir alt indis kullanılır Yi.

3

5

• MODELLEMENİN AMACI

• Koşullar değiştiğinde bağımlı değişkenin ortalamasının E(Yi) nasıl değiştiğini tanımlamaktır.

6

• AÇIKLAYICI DEĞİŞKEN

• Bağımlı değişkenin davranışıüzerinde sağladığı etki için modelealınan değişkenler kestirim, bağımsızya da açıklayıcı değişken olarakadlandırılır.

• Bu değişken X ile gösterilir.

• Farklı bağımsız değişkenleri

tanımlamak için de bir alt indis kullanılır Xij

• Bağımsız değişkenlerin bilinen sabitler olduğu varsayılır.

4

7

• PARAMETRELER

• Tüm modeller bağımsız değişkenlere ilave olarak bilinmeyen sabitler içerir.

• Bilinmeyen bu sabitler parametreler

olarak adlandırılır ve modelin davranışını kontrol eder.

8

• DEĞİŞKENLER ARASINDAKİ İLİŞKİTİPLERİ

• Deterministik ilişki • Yarı deterministik ilişki • Olasılıksal ilişki

5

9

• MODELİN DOĞRUSALLIĞI

• Kullanılan modeller genellikle parametrelerine göre doğrusaldır.

• Parametrelere göre doğrusallık,

modeldeki tüm parametrelerin basit (birinci dereceden) olmasıdır.

• Diğer bir deyişle üstel durumda ya

da bir diğer parametre ile çarpım halinde veya bölüm halinde bir parametrenin bulunmamasıdır.

10

• DOĞRUSAL OLMAYAN MODELLER

• Daha gerçekçi modeller karmaşık olup parametrelerine göre doğrusal değildir.

• Doğrusal olmayan modeller iki

sınıfa ayrılır:

Doğrusal hale dönüştürülebilenler (bağımlı ya da bağımsız değişken üzerine dönüşüm ile)

Doğrusal hale dönüştürülemeyenler

6

11

2. BASİT DOĞRUSAL REGRESYON

• BASİTDOĞRUSAL MODEL

• En basit doğrusal model sadece tek bir bağımsız değişken içerir.

• Bu model, bağımsız değişkenin

değerinin artması ya da azalması durumunda bağımlı değişkenin gerçek ortalamasının sabit bir oranda değiştiğini ifade eder.

12

• FONKSİYONELİLİŞKİ

• E(Yi) ile Xi arasındaki fonksiyonel ilişki,

(2.1) ( ) 0 1i iE Y Xβ β= + • Modelde β0 kesişim terimidir. X=0 iken E(Yi) nin değeridir.

• β1 ise doğrunun eğimidir. X deki birim değişimin E(Yi) deki değişim oranını tanımlar.

7

13

• HATA TERİMİVE İSTATİSTİKSEL MODEL

• Bağımlı değişkenin elde edilen her bir gözlemi Yi nin, ana kütle ortalaması E(Yi) olan bir ana kütleden gelen şans değişkeni olduğu varsayılır.

• Bir gözlemin Yi, kendi ana kütle

ortalamasından E(Yi) sapması, matematiksel modele bir hata terimi eklenerek açıklanır

(2.2) 0 1i iY Xβ β ε= + +

• Bu model bir istatistiksel modeldir.

14

• MODELİN BELİRLENMESİ İÇİN GEREKLİLİKLER

• Olasılıksal modeller bir ya da daha fazla rassal bileşen (hata bileşeni) içerir.

• Her bir hata bileşeninin ait olduğu bir hata kaynağı mevcuttur.

• Modelin tam olarak ifade edilebilmesi için hata teriminin özelliklerinin tanımlanması gereklidir.

8

15

• TAHMİNLEME • Basit doğrusal model iki parametreye β0 ve β1 sahiptir.

• Bu parametreler, veri seti,

(X1,Y1), (X2,Y2),…, (Xn,Yn), kullanılarak tahminlenir.

• Şans değişkeni Y deki değişkenlik her bir gözlenmiş veri çiftinin farklı değerler almasına neden olur.

16

• TAHMİNLEME • Denklem (2.2) de β0, β1 ve ε bilinmeyenlerdir.

• Gerçekte ε u tahminlemek, her bir

gözlem için farklı değerler aldığından, oldukça zordur.

• Buna karşın β0 ve β1 sabit değerler

aldığı için veri seti kullanılarak tahminleri olan b0 ve b1 elde edilebilir.

9

17

• TAHMİNLEMENİN AMACI

• Amaç eldeki veri setine en iyi uyumu gösteren regresyon denkleminin elde edilmesidir.

• Diğer bir deyişle kabul edilebilir b0

ve b1 tahminlerinin elde edilmesidir.

18

• İYİ UYUM NEDİR?

• HATA NEDİR?

• Bu sorunun cevabı, elbette ki “ toplam hatayı minimum yapan uyum, iyi bir uyumdur “ şeklindedir.

• Tipik bir hatanın grafiksel ifadesi Şekil 2.1 de gösterilmektedir.

• Bu hata ( )ˆ

i iY Y− şeklinde, gözlenmiş Yi değerleri ile uyum yapılmış doğru arasındaki dikey uzaklık olarak tanımlanır.

10

19

ŞEKİL 2.1

20

• İYİ UYUM NEDİR?

• VARSAYIM

• Gerçekte verilere uyumu sağlanan matematiksel bir modeldir.

• İyi uyumu model kavramı altında

istatistiksel olarak açıklarsak; model, etki eden faktörlerin etkisi ile doğal varyasyonu birbirinden ayırma derecesidir.

• Aşağıda anlatılanlar doğru modelin

tespit edildiği varsayımı altında iyi uyum kriterleridir.

11

21

• İYİ UYUM KRİTERLERİ

Hata toplamlarının minimize edilmesi Mutlak hata toplamlarının minimize edilmesi Hata kareler toplamlarının minimize edilmesi

22

• HATA TOPLAMLARININ MİNİMİZE EDİLMESİ I

(2.3) ( )∑=−

n

i iiYY

1ˆ

• Bu kriter aynı gözlemler kullanılarak uyumu yapılmış iki doğru üzerinde açıklanabilir.

• Şekil 2.2’ de bu iki doğrudan biri göreceli olarak iyi diğeri ise oldukça kötüdür.

12

23

• HATA TOPLAMLARININ MİNİMİZE EDİLMESİ II

• Her iki durumda da sorun işaretlerden kaynaklanmaktadır, pozitif ve negatif hataların toplamı sıfır değerini vermektedir.

• İyi ve kötü uyum arasındaki farkı

ortaya koymadığı için bu kriter reddedilecektir.

24

ŞEKİL 2.2

13

25

• MUTLAK HATA TOPLAMLARININ MİNİMİZE EDİLMESİ I

(2.4) ∑=−

n

i iiYY

1

ˆ • Pozitif ve negatif değerler bu kriterde birbirlerini

düzeltemez. • Şekil 2.3 de bu kriter açıklanmaktadır.

Verilen kritere göre (b) deki uyum daha iyidir.

26

• MUTLAK HATA TOPLAMLARININ MİNİMİZE EDİLMESİ II

• (b) deki doğru incelendiğinde bu doğrunun uç noktalar için en iyi doğru olduğu görülmektedir.

• Bununla birlikte ortadaki nokta

dikkate alınmamaktadır. • (a) daki doğru ise tüm noktaları

dikkate aldığı için tercih edilebilecektir.

• Bu nedenle probleme ortak bir

çözüm getirmemektedir.

14

27

ŞEKİL 2.3

28

• HATA KARELER TOPLAMLARININ MİNİMİZE EDİLMESİ I

• Hata kareler toplamını minimize eden bir yaklaşımdır.

(2.5) ( )2

1ˆ∑=

−n

i ii YY • Bu kriter “ en küçük kareler

yöntemi “ olarak adlandırılır.

15

29

• HATA KARELER TOPLAMLARININ MİNİMİZE EDİLMESİ II

• Bu Yöntemin Avantajları:

a-) Hataların karesinin alınması işaret problemini ortadan kaldırır. b-) Kare alma işlemi büyük hata terimlerini daha da büyüterek vurgulanmasını sağlar. c-) Kriter uygulanırken tüm noktalar dikkate alınmaktadır.

• Şekil 2.3 de verilen uyumlar bu kritere göre değerlendirildiğinde (a) daki uyum (b) ye göre tercih edilir.

30

• EN KÜÇÜK KARELER (EKK) YÖNTEMİ

• EKK yöntemi gözlemlere en iyi uyum sağlayacak matematiksel modeli bulmaz.

• Matematiksel modeli belirlenmiş bir

durum için, modele en iyi uyum sağlayacak parametre tahminlerini yapar.

• EKK metodu ile elde edilen

parametre tahminleri belirli varsayımlar altında uygun özelliklere sahiptir.

16

31

• EKK TAHMİNLEME PROSEDÜRÜ

• Eşitlik (2.2) kullanıldığında hata (2.6) ii XY 10 ββε −−=

• Tahminleme için n adet gözlem setine (X1,Y1), (X2,Y2),…, (Xn,Yn), sahip olunduğu varsayılsın. • Hata kareler toplamı:

(2.7) ( ) ( )2

1 101

2 ∑∑ ==−−==

n

İ ii

n

i i XYSS ββεε

32

• NORMAL DENKLEMLER (2.8)

∑∑∑∑ ∑

+=

+=2

10

10

iiii

ii

XbXbYX

XbnbY

Ref. İspat 1

• AÇIK FORMÜLLER (2.9a)

( )( )( )∑

∑−

−−= 21 XX

YYXXb

i

ii

(2.9b) XbYb 10 −=

Ref. İspat 2

17

33

• KESTİRİLMİŞ DEĞER

• Y için tahminlenmiş ortalama

(2.10a) 0 1i iY b b X= + (2.10b) ( )1i iY Y b X X= + −

• Eşitlik (2.10) ile belirli bir X değerine karşılık

gelen bağımlı değişken değeri elde edilir. • Bu değer daima regresyon doğrusu üzerindedir ve

kestirilmiş değer olarak adlandırılır.

34

• KESTİRİLMİŞDEĞER

• Uyumu yapılan regresyon doğrusundan hesaplanan her bir değer iki anlama sahiptir:

X in belirli bir değeri için, Y nin anakütle ortalamasının tahmini, E(Yi) .

X in belirli bir değeri için, Y nin kestirilmiş değeri, iY .

• GAUSS-MARKOV teoremine göre iY değeri E(Yi)

nin sapmasız bir tahminleyicisidir.

NOT: Modelin doğru olduğu durumlar için geçerlidir.

18

35

• ARTIKLAR

• Gözlenmiş Yi değerleri ile regresyon denkleminden hesaplanan iY değerleri karşılaştırıldığında, model ile veri seti arasındaki uyum için bir ölçüt elde edilir.

• Bu ölçüt değeri artık olarak adlandırılır.

36

• ARTIKLAR

• GÖZLENMİŞVERİ

• Artıklar uyumu yapılan model ile veriler arasındaki farkı tanımlar:

(2.11a) ˆ

i i ie Y Y= −

• Modelde sabit terim mevcut olduğunda artıkların

toplamı daima sıfırdır. • Gözlenmiş veri:

(2.11b) ˆi i iY Y e= +

• iY bileşeni Yi gözleminin model tarafından

açıklanabilen kısmıdır. • ei ise modelin açıklayamadığı kısımdır.

19

37

• ARTIKLAR İLE HATA ARASINDAKİ FARK

• Artıklar eşitlik (2.11a) ile tanımlanmıştır. • Belirli varsayımlar sağlandığında artıklar

gözlenmiş (tahminlenmiş) hatalar olarak kabul edilebilir.

• Regresyon modelindeki bilimeyen gerçek hata:

(2.12) ( )i i iY E Yε = −

38

• UYUMU YAPILMIŞREGRESYON DOĞRUSUNUN ÖZELLİKLERİ 1. Artıkların toplamı sıfırdır.

∑ ==ni ie1 0

Ref. İspat 1 2. Artık kareler toplamı minimumdur.(EKK

metodu için) 3. Gözlenmiş değerlerin toplamı uyumu yapılmış

değerlerin toplamına eşittir. ∑=∑ ==

ni i

ni i YY 11

ˆ Sonuç olarak ortalamaları da eşittir.

Ref. İspat 5

20

39

4.Bağımsız değişkenin değeri ile ağırlıklandırılmış artıkların toplamı sıfırdır.

∑ ==ni iieX1 0

Ref. İspat 1 5. Uyumu yapılan değerler ile artıklar

arasındaki kovaryans sıfırdır. 0ˆ

1 =∑ = ini ieY

Ref. İspat 6 6. Regresyon doğrusu daima ( )YX , noktasından

geçer. Ref. İspat 4

• UYUMU YAPILMIŞREGRESYON DOĞRUSUNUN ÖZELLİKLERİ

40

• TAHMİNLENMİŞVARYANS

• Örnek varyansını elde etmek için ilk olarak, ( )∑ − 2YYi

hesaplanır. • Bu değer kareler toplamı olarak tanımlanır. • Kareler toplamı serbestlik derecesine n-1

bölünür. • Bir serbestlik derecesi bilinmeyen anakütle

ortalamasının μ tahminlenmesinde Y kullanılmıştır.

21

41


• Sonuç olarak örnek varyansı ( )

11

22

−∑ −

= =

nYYs

ni i

• Örnek varyansı, serbestlik derecesine bölünmüş bir kareler toplamı olduğundan bir kareler ortalaması olarak da adlandırılır.

42


• Regresyon modeli için her bir Yi gözleminin varyansı her bir hata teriminin εi varyansı ile eşittir.

( ) ( ) ( ) 2210

22 σεσεββσσ ==++= iiii XY • Yi gözlemleri Xi seviyelerine bağlı olarak farklı

ortalamalı farklı olasılık dağılımlarından gelir. • Bu dağılımların ortalamaları iY ile

tahminlendiği için Y yerine iY yazılır. • β0 ve β1 tahminlenmesi için iki serbestlik

derecesi kaybedilir.

22

43


• Eğer model doğru ise, artık kareler ortalaması rassal hatanın (ε) varyansının (σ2) sapmasız bir tahminleyicisidir.

(2.19) ( ) 22

2 2iSS e e

sn n

= =− −

∑

44

• TAHMİNLENMİŞ REGRESYONUN HASSASİYETİ

• Eşitlik (2.11) kullanılarak, Yi gözleminin bileşenleri

(2.13) ( ) ( )ˆ ˆi i i iY Y Y Y Y Y= + − + −

23

45

• MODELİN AÇIKLADIĞI KISIM

• İki Bileşenden Oluşur:

Sabit terimin (şans değişkeninin ortalamasının) katkısı.

Regresyonun (bağımsız değişkenin) katkısı.

46

• REGRESYONUN AÇIKLADIĞI KISIM

• Eşitlik (2.13) den sabitin katkısı çıkarılarak,

(2.14) ( ) ( )ˆ ˆi i i iY Y Y Y Y Y− = − + −

• Eşitliğin sağındaki ilk bileşen regresyonun

açıkladığı kısımdır. • Eşitlik (2.14), n adet gözlem üzerinden

toplandığında tüm bileşenler sıfır değerini alır.

24

47

• KARELER TOPLAMLARI

• Eşitlik (2.14) in karesi alınır. (2.15) ( ) ( ) ( )2 22

1 1 1ˆ ˆn n n

i i i ii i iY Y Y Y Y Y= = =

− = − + −∑ ∑ ∑

• Toplam D. K. T. = Regresyon K.T.+Artık K.T. • SS(Tc) = SS(R) + SS(e)

Not: Çapraz çarpım terimi sıfırdır. Ref. İspat 7a

48

• REGRESYONUN ANLAMLILIĞI

• KRİTER 1 (F-TESTİ)

• Regresyonun kapsamlı olarak anlamlılığı varyans analizi kullanılarak F-testi ile gerçekleştirilir.

• Varyans analizi için kareler toplamlarına (SS) ek

olarak her bir kareler toplamına ait olan serbestlik derecesine (s.d.) gereksinim vardır.

25

49

• SERBESTLİK DERECESİ

• Eldeki veri setindeki gözlemlerin taşıdığı birbirinden bağımsız bilgi sayısıdır.

• Eşitlik (2.15) için serbestlik dereceleri,

(2.17) ( )1 1 2n n− = + −

50

• KARELER ORTALAMASI

• Her bir kareler toplamının kendi serbestlik derecesine bölünmesi ile elde edilir.

• Regresyon kareler ortalaması.

(2.18a) ( ) ( )1

SS RMS R =

• Artık kareler ortalaması

(2.18b) ( ) ( )2

SS eMS e

n=

−

26

51

• ARTIK KARELER ORTALAMASI

• Eğer model doğru ise, artık kareler ortalaması aynı zamanda rassal hatanın (ε) varyansının (σ2) sapmasız bir tahminleyicisidir.

(2.19) ( ) 22

2 2iSS e e

sn n

= =− −

∑

52

• VARYANS ANALİZİNİN BİLEŞENLERİ

• Değişkenlik Kaynağı • Serbestlik Derecesi

• Kareler Toplamları • Kareler Ortalaması

27

53

Tablo 2.1 Varyans Analiz Tablosu IDeğişkenlik Kaynağı

Kareler Toplamları

Serbestlik Derecesi

Kareler Ortalaması

F-Testi

Regresyona Bağlı Değişkenlik

( )2ˆ∑ −YYi 1

( )( )

1

ˆ2∑ −

=YY

RMSi

Artığa Bağlı Değişkenlik

( )2ˆ∑ − ii YY n-2

( )( )

2

ˆ2

−

−=∑

n

YYeMS

ii

( )( )eMSRMSF =

Toplam Düzeltilmiş Değişkenlik

( )2∑ −YYi

n-1

54

• REGRESYONUN ANLAMLILIĞI İÇİN F TESTİ

• Yi ler şans değişkeni olduğu içinonların fonksiyonları da şans değişkenidir.

• Bu Fonksiyonlardan İkisi:

Regresyon Kareler Ortalaması: MS(R) Artık Kareler Ortalaması: MS(e)

• Bunlar birer şans değişkenidir ve dağılımları,

ortalamaları, varyansları, momentleri vardır.

28

55

• KARELER ORTALAMALARININ BEKLENEN DEĞERLERİ

• Artık kareler ortalamasının beklenen değeri:

(T6.2) ( ) 2E MS e σ⎡ ⎤ =⎣ ⎦ Ref. Tanım 6

• Regresyon kareler ortalamasının beklenen değeri:

(T7.2) ( ) ( )

( )22 21

1

i

SS RE MS R E

X Xσ β

⎡ ⎤⎡ ⎤ = ⎢ ⎥⎣ ⎦

⎣ ⎦

= + −∑

Ref. Tanım 7

56

• YORUMLAR

• MS(e) nin beklenen değeri σ2 olup bu sonuç X ile Y nin ilişkili olup olmamasına diğer bir deyişle β1=0 olup olmamasına bağımlı değildir.

• β1=0 olduğunda MS(R) nin beklenen değeri de σ2

dir. Bununla birlikte β1≠0 ise E[MS(R)] değeri σ2 den büyüktür.

• Sonuç olarak β1=0 olup olmadığının testi MS(R)

ve MS(e) değerleri kullanılarak gerçekleştirilir.

29

57

• F TESTİ

• Her biri kendi serbestlik derecesine bölünmüş iki χ2 değişkeninin birbirine oranı F dağılımı gösterir.

Ref. Tanım 5

• Eğer β1=0 ise tüm Yi ler aynı ortalama μ=β0 ve

aynı varyansa σ2 sahiptir.

58

• F TESTİ• Ayrıca SS(e)/σ2 ve SS(R)/σ2 birbirinden bağımsız χ2 değişkenidir.

(T6.1) ( ) 222 n

SS eχ

σ −=

(2.21) ( ) 212

SS Rχ

σ=

Ref. Tanım 6

• Sonuç olarak F-testi

(2.22) ( )( )

21

1, 2 22

12n

n

MS RF

n MS eχ

χ−−

= =−

30

59

• VARYANS ANALİZİNİN FARKLI YAPILARI

• Farklı değişkenlik kaynakları kullanılarak faklı tablolar hazırlanabilir.

• Bu amaçla bazı kareler toplamları yeniden ele alınmalıdır.

60

• TOPLAM DÜZELTİLMİŞK.T.

• Eşitlik (2.15) in solundaki Toplam Düzeltilmiş Kareler Toplamı,

(2.20a) ( ) ( )2

iSS Tc Y Y= −∑ iki bileşene ayrıştırılabilir.

(I7.1) ( )2 22i iY Y Y nY− = −∑ ∑

Eşitliğin sağındaki ikinci bileşen düzeltme faktörü olarak adlandırılır ve β0 ın yaptığı katkıyı temsil eder. İlk bileşen ise Toplam Kareler Toplamıdır.

Ref. İspat 7b

31

61

• TOPLAM KARELER TOPLAMI I

• Sonuç olarak eşitlik (I7.1) iki bileşenin toplamı olarak,

(I7.4) ( )222

i iY Y Y nY= − +∑ ∑ • Bir diğer gösterim ise,

(I7.5) ( ) ( ) ( )0cSS T SS T SS b= + Ref. İspat 7b

62

• VARYANS ANALİZ TABLOSU II

• Yeni yaklaşım eşitlik (2.13) üzerine oluşturulur. • Eşitlik (2.13) ün karesi alınıp, n adet gözlem için

toplanarak (2.23) ( ) ( )2 22 2 ˆ ˆ

i i i iY nY Y Y Y Y= + − + −∑ ∑ ∑

• T.K. T. = O.K.T.+ R.K.T. + A.K.T. • SS(T) = SS(b0)+ SS(R) + SS(e)

Not: Çapraz çarpım terimleri sıfırdır.

32

63

Tablo 2.2 Varyans Analiz Tablosu IIDeğişkenlik Kaynağı

Kareler Toplamları

Serbestlik Derecesi

Kareler Ortalaması

F-Testi

Ortalamaya Bağlı Değişkenlik

2Yn 1

( )2

0 1nYMS b =


( )2ˆ∑ −YYi 1

( )( )

1

ˆ2

∑ −=

YYRMS

i


( )2ˆ∑ − ii YYn-2

( )( )

2

ˆ2

−

−=∑

n

YYeMS

ii

( )( )eMSRMSF =

Toplam Değişkenlik ∑ 2

iY n

64

• TOPLAM KARELER TOPLAMI II

• Eşitlik (2.11b) nin karesi alınır ve n gözlem için toplandığında

(2.24) 2 2 2ˆ

i i iY Y e= +∑ ∑ ∑

• T.K. T. = M.K.T.+A.K.T. • SS(T) = SS(M) + SS(e)

Not: Çapraz çapım terimi sıfırdır.

Ref. İspat 7a

33

65

• MODEL KARELER TOPLAMI

• İki bileşenden oluşur: (2.25) ( )22 2ˆ ˆ

i iY nY Y Y= + −∑ ∑

• M.K. T. = O.K.T.+R.K.T. SS(M) = SS(b0) + SS(R)

• Eşitlik (2.25) nın bir diğer hesaplama formülü (2.26) ( )22 2 2

1i iY nY b X X= + −∑ ∑ Ref. İspat 4

66

• REGRESYONUN ANLAMLILIĞI

• KRİTER 2 (R2)

• R2 kriteri Y etrafındaki toplam değişkenliğin regresyon tarafından açıklanan kısmını ölçer:

(2.16a) ( )( )

( )( )

2

22

ˆ

i

Y Y SS RR

SS TcY Y

−= =

−

∑∑

• Belirlilik katsayısı olarak adlandırılır. • R ise Y ile iY arasındaki korelasyondur.

• Çoklu korelasyon katsayısı olarak adlandırılır.

34

67

• R2 nin ÖZELLİKLERİ

• R2 modelde β0 hariç diğer terimlerin katkısının bir ölçümünü verir.

• Eğer saf hata mevcut ise R2 kesinlikle 1 değerini alamaz.

• Eğer saf hata yok ise R2 değeri, β0 parametresini içeren bir modeldeki parametre sayısına eşit uygun seçilmiş gözlemlere tam bir uyum sağlanarak 1 olacak şekilde belirlenebilir.

Ref. İspat 16

68

• R2 nin ÖZELLİKLERİ

• R2 değeri verilerdeki değişkenliğin açıklanmasında regresyon denkleminin başarısının bir ölçüsü olarak kullanılır.

• Bu nedenle modele yeni bir terim eklenmesine bağlı olarak R2 de oluşan iyileşmenin sadece modele eklenen parametre sayısındakiartıştan kaynaklanmadığı gerçek bir anlama sahip olduğundan emin olunmalıdır.

35

69

• EKK VARSAYIMLARI

• HATALAR εi, 1. ORTALAMASI SIFIR, E(εi)=0 2. SABİT VARYANSLI, V(εi)= σ2 3. BİRBİRİ İLE İLİŞKİSİZ, COV(εi, εj)=0 ŞANS DEĞİŞKENLERİDİR. • Hipotez Testleri Ve Güven Aralıkları İçin Gerekli

Ek Bir Varsayım 4. HATALAR NORMAL DAĞILIM GÖSTERİR

70

• SONUÇLAR

• VARSAYIM 1 den (2.1) ( ) 0 1i iE Y Xβ β= +

• VARSAYIM 2 den V(Yi)= σ2

• VARSAYIM 3 den i≠j için Yi ve Yj ilişkisizdir • VARSAYIM 4 den εi ve εj sadece ilişkisiz değil aynı zamanda bağımsız olmalıdır.

36

71

• b1 in ÖRNEKLEME DAĞILIMI

• b1 Tahminleyicisi, Ortalaması,

(I9.3) ( )1 1E b β= Ref. İspat 9

Varyansı,

(I10.2) ( )( )

2 21 2

1

i

bX X

σ σ=−∑

Ref. İspat 10 olan bir Normal dağılıma sahiptir.

Ref. Tanım 2

Not: Model (2.2) için Yi ler normal dağılış gösterir. b1 tahminleyicisi ise Yi lerin doğrusal bir kombinasyonudur.

72

• (b1-β1)/s(b1) in ÖRNEKLEME DAĞILIMI

• b1 normal dağıldığı için standardize istatistik (b1-β1)/σ(b1)

bir standart normal değişkendir. • Bununla birlikte σ(b1) parametresi s(b1) ile

tahminlenir. • İlgilenilmesi gereken (b1-β1)/s(b1) istatistiğinin dağılımıdır. • Model (2.2) için,

(I11.2) ( )

1 12

1n

b ts b

β−

−=

Ref. Tanım 8 ve İspat 11

37

73

• b0 ınÖRNEKLEME DAĞILIMI

• b0 Tahminleyicisi Ortalaması,

(I13.4) ( )0 0E b β= Ref. İspat 13

Varyansı,

(I14.5) ( )( )

22 2

0 21

i

Xbn X X

σ σ⎛ ⎞⎜ ⎟= + ⋅⎜ ⎟−⎝ ⎠∑

Ref. İspat 14 olan bir Normal dağılıma sahiptir.

Ref. Tanım 2

Not: Model (2.2) için Yi ler normal dağılış gösterir. b0 tahminleyicisi ise Yi lerin doğrusal bir kombinasyonudur.

74

• b1 ve b0 İÇİN ARALIK TAHMİNLERİ

• Hataların normal dağıldığı varsayımı altında b0 ve b1 için % 100 (1-α) güven aralığı

( ){ } 2121112

1;2

21;2

∑ −

⎟⎠⎞

⎜⎝⎛ −−

±=⎟⎠⎞

⎜⎝⎛ −−±

XX

sntbsntb

i

b

αα

( )

21

2

2

0001

21;2

21;2

⎭⎬⎫

⎩⎨⎧

−+⎟

⎠⎞

⎜⎝⎛ −−±=⎟

⎠⎞

⎜⎝⎛ −−±

∑ XXX

nsntbsntb

ib

αα

38

75

• b1 ve b0 İÇİN ANLAMLILIK t-TESTLERİ

• Hataların normal dağıldığı varsayımı altında b0 ve b1 için α anlamlılık seviyesinde,

• H0: β1=β10 ve H0: β0=β00 hipotezleri için test istatistikleri

1

101

bsbt β−

= ve 0

000

bsbt β−

=

76

• BASİT REGRESYONDA ANLAMLILIK TESTİÜZERİNE YORUMLAR

• Verilen her hangi bir α anlamlılık seviyesi için H0: β1=0 hipotezinin testi basit regresyon için anlamlılık testidir

• Hipotezin testi t ya da F testi ile gerçekleştirilebilir.

• Daha esnek olduğundan t testi tercih edilir • Nedeni ise t testinin tek yönlü olarak da

uygulanabilmesidir. • F testi bu esnekliğe sahip değildir.

39

77

• Cov(b0, b1)

• b0 ve b1 tahminleyicileri sadece örnekten örneğe değişkenlik göstermez aynı zamanda verilen bir örnek için birbirine bağımlıdırlar.

(I15.1) ( )( )

20 1 2,

i

XCov b bX X

σ⎡ ⎤⎢ ⎥= −⎢ ⎥−⎣ ⎦∑

Ref. İspat 15

78

• GAUSS-MARKOV TEOREMİ

• Bu teorem, doğrusal regresyon modellerinde en küçük kareler yönteminin kullanılmasına olanak sağlayan önemli bir teoremdir.

• Bu teorem, kabuller zayıf veya eksik olduğu durumlarda da izlenebildiği için önemli bir teoremdir. Başka bir deyişle hata teriminin dağılışı ile ilgili kabuller yapılmasına gerek yoktur.

40

79

• TEOREM

• Parametrelerin en küçük kareler tahminleri, parametrelerin; doğrusal ve sapmasız tahmincileri içerisinde minimum varyanslı olanıdır. Ref. İspat 8 ve 12 Ref. İspat 9 ve 13 Ref. İspat 17

80

• TEOREME AİT BİR ÖNERME

• Regresyonun özel bir durumu olan, Y bağımlı değişkenin b1=0 olacak şekilde açıklanması durumunda b0, Y nin anakütle ortalamasına eşit olacaktır.

• Buna göre bir anakütle ortalamasının en küçük kareler tahmincisi örnek ortalamasıdır. Gauss-Markov teoremine göre bu ifade, örnek ortalaması bir anakütle ortalamasının en iyi doğrusal sapmasız tahmincisidir, şeklinde açıklanabilir. Ref. İspat 16

41

81

• SAF HATA VE UYUM YETERSİZLİĞİ

• Uyumu yapılan regresyon doğrusu belirli bir model ve varsayımlar üzerine hesaplanmış bir doğrudur.

• Varsayımların sağlanıp sağlanmadığının kontrolü kadar modelin doğruluğunun kontrolü de önemlidir.

• Artıklar, bağımlı değişkende gözlenmiş varyasyonu kullanarak uyumu yapılmış model ile ilgili tüm bilgiyi içerir.

82

• SAF HATA VE UYUM YETERSİZLİĞİ TESTİNİN VARSAYIMLARI

• Verilen her Xi seviyesi değerleri için o Yi gözlemleri birbirinden bağımsızdır o Yi gözlemlerinin tüm dağılımları normaldir o Yi gözlemlerinin tüm dağılımları aynı

varyansa sahiptir

42

83

• ARTIĞIN BİLEŞENLERİ

• İki bileşene ayrılır: Rassal Hata (Saf Hata) Sapma Hatası (Uyum Yetersizliği)

84

• RASSAL HATA

• Rassal hatanın hesaplanabilmesi için:

Şans değişkeninin varyansı σ2 bilinmeli ya da

Aynı X seviyesinde tekrarlı gözlemlere ihtiyaç vardır.

• Tekrarlı gözlemlerin tüm X değerlerinde alınması

gerekli değildir. • Tekrarlı gözlemler için ek bir indise gereksinim

vardır. Ref. Tanım 9

43

85

• BİR ARTIĞIN BİLEŞENLERİNE AYRILMASI

• Xj deki u-uncu Artık (2.27) ( ) ( )ˆ ˆ

ju j ju j j jY Y Y Y Y Y− = − + −

• Sağ taraftaki ilk bileşen qi Saf Hata • İkinci bileşen Bi Sapmadır.

86

• BİLEŞENLERİN İNCELENMESİ

• Model doğru ise ( )j jE Y μ= ve ( )ˆ

j jE Y μ= olup sapma sıfırdır. (Bi=0)

• Model yanlış ise ( )ˆj jE Y μ≠ olduğundan sapma

sıfırdan farklıdır. (Bi≠0) • Model doğru da olsa yanlış da olsa E(Yj)=μj ve

( )j jE Y μ= olduğundan rassal hata sıfırdır. (qi=0)

44

87

• BİLEŞENLERİN KARELER ORTALAMALARI

• qi için kareler ortalaması, (n-2)σ2 • Artık kareler ortalaması, Model doğru ise, σ2 Model yanlış ise,

(2.28) ( )

22

2iB

nσ +

−∑

88

• YORUMLAR

• Model doğru ise Bi=0 olduğundan artıklar, rassal hataya denktir ve artık kareler ortalaması, hata varyansının σ2 bir tahminleyicisi olarak kullanılabilecektir.

• Model doğru olmadığında Bi≠0 dır. artıklar hem

qi rassal hem de Bi sapma bileşenlerini içermektedir.

45

89

• YORUMLAR

• Bu durumda artık kareler ortalaması büyüme eğilimi gösterecek ve gözlemlerdeki mevcut şansa bağlı değişkenliğin yeterli bir ölçümünü sağlayamayacaktır.

• Bununla birlikte, kareler ortalaması bir şans

değişkeni olduğu için, sapma mevcut olsa bile büyük bir değer alamayabileceği unutulmamalıdır.

90

• GRAFİKSEL ANALİZ

• Basit regresyon durumunda sapma hatası verilerin grafiklerinin incelenmesi sonucu ortaya çıkarılabilir.

• Model çok karmaşık bir yapıda olduğunda ya da

çok sayıda değişken kullanıldığında sapma hatasının grafikler yardımı ile ortaya çıkarılması mümkün olamayabilir.

46

91

Şekil 2.4

92

Şekil 2.4

47

93

• KARELER TOPLAMLARI

• Eşitlik (2.27) in karesi alınır ve tüm gözlemler üzerinden toplanarak

(2.29) ( ) ( ) ( )21

2

1 1

2

1 1ˆˆ ∑∑ ∑∑ ∑ == == = −+−=− m

j jjjmj

jnu jju

mj

jnu jju YYnYYYY

• Sol taraftaki terim artık kareler toplamı • Sağ taraftaki ilk terim saf hata kareler toplamı • İkinci terim uyum yetersizliği kareler toplamı

Not:Çapraz çarpan terimi sıfırdır.

94

• KARELER TOPLAMLARININ SERBESTLİK DERECELERİ

• Artık Kareler Toplamı için (2.30) 2−= nnr

• Saf Hata Kareler Toplamı için

(2.31) ( ) ∑∑ ==−=−= m

j j

m

j je mnnn11

1

• Uyum Yetersizliği Kareler Toplamı için

(2.32) eru nnn −=

48

95

Tablo 2.3 Varyans analiz Tablosu III

Değişkenlik Kaynağı

Kareler Toplamları

Serbestlik Derecesi

Kareler Ortalaması

F-Testi


( )2ˆ∑ −YYi 1

( )( )

1

ˆ2∑ −

=YY

RMSi


( )2ˆ∑ − ii YY 2−= nnr

( )( )

2

ˆ2

−

−=∑

n

YYeMS

ii

( )( )eMSRMSF =

Uyum Yetersizliği ( )2

1ˆ∑ =

−mj jjj YYn eru nnn −=

( )( )u

mj jjj

n

YYnUYMS

2

1ˆ∑ =

−=

Saf Hata ( )2

1 1∑ ∑= =−

mj

jnu jju YY ∑ =

−=m

jje mnn

1 ( )( )

e

mj

jnu jju

n

YYSHMS

2

1 1∑ ∑= =−

=

( )( )SHMSUYMSF =

Toplam Düzeltilmiş Değişkenlik

( )2∑ −YYi

n-1

96

• F TESTİ

• Genel Prosedür,

(2.33) ( )( )SHMSUYMSF =

oranını %(1-α) lık bir F kritik değeri ile test etmektir.

• Bu F değerinin serbestlik dereceleri (2.31) ve (2.32) ile tanımlanmıştır.

49

97

• TESTİN YORUMU

• Test sonucu önemli çıkarsa; başka bir deyişle elde edilen test istatistiği teorik F değerinden büyük çıkarsa; iki varyansın birbirine eşit olduğu hipotezi reddedilir.

• Bu sonuç uyum yetersizliği varyansının saf hata

varyansından istatistiksel olarak büyük olduğu anlamına gelir.

• Sonuç olarak kullanılan regresyon modelinin

yetersiz olduğu söylenebilir.

• Yetersizliğin nerede ve nasıl oluştuğunun anlaşılması için hataların incelenmesi gerekecektir.

98

• TESTİN YORUMU

• Test sonucu önemsiz çıkarsa; F hesap değerinin teorik değerden küçük olması, bu durumda kullanılan modelin olayı açıklamakta yeterli olduğu sonucuna ulaşılır.

• Başka bir deyişle kullanılan model, gerçek

modele yeterli bir yaklaşım göstermektedir.

REGRESYON ANALİZİ DERS 1-2 - Dokuz Eylül Üniversitesi · 2 3 • MODELLEME •DEĞİŞKEN •...

Documents

Transcript of REGRESYON ANALİZİ DERS 1-2 - Dokuz Eylül Üniversitesi · 2 3 • MODELLEME •DEĞİŞKEN •...