Analiza e thjeshte e regresionit
-
Upload
menaxherat -
Category
Documents
-
view
6.062 -
download
5
Transcript of Analiza e thjeshte e regresionit
Ligjërata e 10
Regresioni linear i thjeshtë II
Analiza Statistikore
Qëllimet e mësimit
Në këtë ligjëratë ju do të mësoni:
Si të përdorni analizën e regresioninit për të parashikuar vlerën e e variablës së varur bazuar në variablën e pavarur.
Kuptimin e koefiecentëve të regresionit b0 dhe b1
Të konkludoni rreth koeficientit të pjerrësisë dhe koeficientit të korrelacionit
Se si t’i lexoni dhe interpretoni rezultatet e nxjerra përmes Excel-it.
Korrelacioni dhe Regresioni
• Skater diagrami mund të përdoret për të përshkruar raportet në mes të dy variablave
• Analiza e regresionit përdoret për të përshkruar raportet në mes të dy variablave
• Analiza e korrelacionit përdoret për të matur fortësinë e lidhjeve në mes të dy variablave. – Korrelacioni ka të bëjë vetëm me fortësinë e lidhjeve
në mes të dy variablave
– Nuk tregon shkaqet e lidhjes në mes të variablave
– Skater diagrami është mësuar në vitin e parë
– Korrelacioni gjithashtu është mësuar në vitin e parë.
Hyrje në analizën e regresionit
• Analiza e regresionit përdoret për të :
– Parashikuar vlerën e variablës së varur të bazuar në vlerën e së paku një variable të pavarur.
– Shpjegon efektet e ndryshimit të variablës së pavarur në variablën e varur.
Variabla e varur (Y) : variabla që dëshirojmë ta vlerësojmë ose ta shpjegojmë.
Variabla e pavarur (X): variabla e përdorur për të shpjeguar variablën e varur.
Modeli i regresionit të thjeshtë linear
Vetëm një variabël e pavarur X
Marëdhëniet në mes të X dhe Y përshkruhen përmes funksionit linear.
Ndryshimet në Y supozohet se shkaktohen nga ndryshimet në X
Llojet e raporteve
Y
X
Y
X
Y
Y
X
X
Raporte lineare Raporte jolineare
Llojet e raporteve
Y
X
Y
X
Y
Y
X
X
Lidhje të forta Lidhje të dobëta
(vazhdim
Llojet e raporteve
Y
X
Y
X
Nuk ka lidhje fare
(vazhdim)
Modeli i regresionit të thjeshtë linear ( në populacion)
ii10i εXββY
Komponenta lineare
Ndërprerja në
boshtin Y, në
populacion
Koeficienti i
pjerrësisë së
populacionit
Gabimi i
rastësishëm Variabla e
varur
Variabla e
pavarur
Komponenta e
gabimit të rastësishëm
Modeli i regresioni të thjeshtë linear (vazhdim)
Gabimi i
rastësishëm për
këtë vlerë të Xi
Y
X
Vlerat e
vrojtuara të Y
për Xi
Vlerat e
projektuara të Y
për Xi
ii10i εXββY
Xi
Pjerrësia = β1
Ndërprerja = β0
εi
Ekuacioni i Regresionit të thjesht linear (Vija e parashikuar-vlerësuar)
i10i XbbY
Ekuacioni i regresionit të thjeshtë linear siguron
vlerësimin e vijës së regresionit të popullimit
Vlerësimi i
prerjes së
regresionit
Vlerësimi i
pjerrësisë së
regresionit
Vlera e
vlerësuar (ose
e parashikuar )
e Y për
vrojtimin i Vlera e X për
vrojtimin i
Gabimi i rastësishëm individual ei ka mesatare zero
Metoda e katrorëve më të vegjël
• b0 dhe b1 sigurohen përmes së gjetjeve të vlerave
b0 dhe b1 që minimizojnë shumën e devijimeve të
ngritura në katrorë në mes të Y dhe
2
i10i
2
ii ))Xb(b(Ymin)Y(Ymin
Y
Gjetja e parametrave përmes ekuacionit të katrorëve më të vegjël.
• Koeficientët b0 dhe b1 , dhe rezultatet e tjera të regresionit në këtë ligjëratë do të gjinden përmes përdorimit të Excel-it
Formulat janë të prezantuara në ligjeratën e
regresionit në vitin e parë të studimeve dhe mund
të gjinden edhe në libër të Statistikës (Viti i Parë).
Interpretimi i pjerrësisë dhe ndërprerjes(……
• b0 është vlera mesatare e vlerësuar e Y kur vlera e X është zero
• b1 është ndryshimi mesatar i vlerësuar i vlerës së Y si rezultat i ndryshimit të një njësie të X-it ( është koeficienti i pjerrësisë së vijës së regresionit, mund të jetë pozitiv dhe negativ)
i10i XbbY
Shembull i regresionit të thjeshtë linear
• Një kompani që merret me shitjen e patundshmërive dëshiron të vlerësojë raportet në mes të çmimit të shitjes së shtëpive dhe madhësisë së tyre ( të shprehura në meter katror)
• Një mostër e rastësishme prej 10 shtëpive është marrë:
– Variabla e varur (Y) = Çmimi i shtëpive në $1000
– Variabla e pavarur (X) = madhësia e shtëpive ( shprehur në meter katror - m 2 )
Të dhënat e mostrës për modelin e çmimeve të shtëpive
Çmimi i shtëpive në
$1000
(Y)
Sipërfaqja ne m2
(X)
245 1400
312 1600
279 1700
308 1875
199 1100
219 1550
405 2350
324 2450
319 1425
255 1700
Prezantimi grafik-
• Modeli i çmimeve të shtëpive : diagrami shpërndarës
Regresioni - Përdorimi i Excel-it
• Data/ Data Analysis / Regression
Rezultati i Excel-it
Regression Statistics
Multiple R 0.76211
R Square 0.58082
Adjusted R Square 0.52842
Standard Error 41.33032
Observations 10
ANOVA df SS MS F Significance F
Regression 1 18934.9348 18934.9348 11.0848 0.01039
Residual 8 13665.5652 1708.1957
Total 9 32600.5000
Coefficients Standard Error t Stat P-value Lower 95% Upper 95%
Intercept b0 98.24833 58.03348 1.69296 0.12892 -35.57720 232.07386
Meter katror b1 0.10977 0.03297 3.32938 0.01039 0.03374 0.18580
Ekuacioni i regresionit është:
Çmimi i shtepive 98.24833 0.10977 (meter katror)
i10i XbbY
Prezantimi grafik • Modeli i çmimit të shtëpive: diagrami
shpërndarës dhe vija e regresionit
Çmimi i shtepive 98.24833 0.10977 (meter katror)
Pjerrësia
= 0.10977
Prerja
= 98.248
Interpretimi i prerjes, koeficientit b0
• b0 është vlera mesatare e vlerësuar e Y kur X
është zero (Nëse X = 0 është në vargun e
vlerave të vrojtuara të X )
– Këtu nuk ka shtëpi me 0 meter katror, kështu që
b0 = 98.24833 ,tregon se shtëpitë në vargun e
vrojtuar të madhësive, $98,248.33 është pjesa
e çmimit të shtëpive që nuk mund të spjegohen
me sipërfaqen në meter katror.
Çmimi i shtepive 98.24833 0.10977 (meter katror)
Interpretimi i koeficientit të pjerrësisë, b1
• b1 mat ndryshimin e vlerësuar në mesatare
të Y si rezultat i ndryshimit të një njësie të X
– Këtu b1 = 0.10977 na tregon se në mesatare
çmimi i shtëpive rritet për 0.10977($1000) =
$109.77, për çdo meter shtesë të madhësisë së
shtëpisë.
Çmimi i shtepive 98.24833 0.10977 (meter katror)
Parashikimi përmes analizës së regresionit
2Çmimi i shtepive 98.25 0.1098 (m )
98.25 0.1098(2000)
317.85
Parashikoni çmimin e shtëpisë me
2000 metra katror.
Çmimi i parashikuar për shtëpinë me 2000
m2 është 317.85 ($1,000) = $317,850
Interpolimi kundrejt ekstrapolimit
• Kur përdoret modeli i regresionit për parashikim, parashikoni vetëm në kuadër të vargut të vlerave të vrojtuara
Vargu relevant per
interpolim
Mos provoni të
parashikoni përtej
vargut të vlerave
të vrojtuara të X
Masat e variacionit
• Variacioni total përbëhet nga dy pjesë:
SSE SSR SST Shuma totale e
katroreve
Shuma e katrorëve
të regresionit
Shuma e katrorëve të
gabimit
2
i )YY(SST 2
ii )YY(SSE 2
i )YY(SSR
Ku:
= Vlera mesatare e variablës së varur
Yi = Vlerat e vrojtuara të variablës së varur
i = Vlera e parashikuar e Y për vlerën e dhënë të Xi Y
Y
Masat e variacionit
• SST = Shuma totale e katrorëve
– Masë e variacioneve të vlerës së Yi rreth vlerës mesatare të tyre
• SSR = Shuma e katrorëve të regresionit
– Variacionet e spjegueshme të lidhura me raportet në mes të X dhe Y
• SSE = Shuma e katrorëve të gabimit
• Variacionet e lidhura më shumë me faktorë të tjerë se sa me raportet në mes të X dhe Y (Variacionet e pashpjegueshme)
(vazhdim)
Masat e variacionit (vazhdim)
Xi
Y
X
Yi
SST = (Yi - Y)2
SSE = (Yi - Yi )2
SSR = (Yi - Y)2
_
_
_
Y
Y
Y _ Y
Koefiecienti i determinacionit, r2
• Koeficienti i determinacionit është pjesa e variacioneve totale në variablën e varur e cila spjegohet me variacionet në variablën e pavarur
• Koeficienti i determinacionit gjithashtu quhet r në katror dhe shënohet si r2
1r0 2 Vereni :
2 SSR Shumaekatroreveteregresionitr
SST Shumatotaleekatroreve
Rezultati i Excel-it
Regression Statistics
Multiple R 0.76211
R Square 0.58082
Adjusted R Square 0.52842
Standard Error 41.33032
Observations 10
ANOVA df SS MS F Significance F
Regression 1 18934.9348 18934.9348 11.0848 0.01039
Residual 8 13665.5652 1708.1957
Total 9 32600.5000
Coefficients Standard Error t Stat P-value Lower 95% Upper 95%
Intercept 98.24833 58.03348 1.69296 0.12892 -35.57720 232.07386
Square Feet 0.10977 0.03297 3.32938 0.01039 0.03374 0.18580
58.08% e variacioneve në
çmimin e shtëpive spjegohet
përmes variacioneve në
sipërafqen me meter katror.
0.5808232600.5000
18934.9348
SST
SSRr2
Gabimi standard i vlerësimit (Devijimi standard i vlerësimit)
• Devijimi standard i variacioneve të vrojtimeve rreth vijës së regresionit vlerësohet përmes formulës vijuese:
2n
)YY(
2n
SSES
n
1i
2
ii
YX
Ku:
SSE = shuma e katrorëve të gabimit të rastësishëm
n = madhësia e mostrës
Rezultati i Excel-it
Regression Statistics
Multiple R 0.76211
R Square 0.58082
Adjusted R Square 0.52842
Standard Error 41.33032
Observations 10
ANOVA df SS MS F Significance F
Regression 1 18934.9348 18934.9348 11.0848 0.01039
Residual 8 13665.5652 1708.1957
Total 9 32600.5000
Coefficients Standard Error t Stat P-value Lower 95% Upper 95%
Intercept 98.24833 58.03348 1.69296 0.12892 -35.57720 232.07386
Square Feet 0.10977 0.03297 3.32938 0.01039 0.03374 0.18580
41.33032SYX
Konkluzioni rreth koeficientit të pjerrësisë së popullimit
• Gabimi standard i koeficientit të pjerrësisë (b1) vlerësohet me formulën vijuese
2
i
YXYXb
)X(X
S
SSX
SS
1
ku:
= Vlerësimi i gabimit standard të koeficientit të pjerrësisë
= Gabimi standard i vlerësimit
1bS
2n
SSESYX
Rezultati i Excel-it
Regression Statistics
Multiple R 0.76211
R Square 0.58082
Adjusted R Square 0.52842
Standard Error 41.33032
Observations 10
ANOVA df SS MS F Significance F
Regression 1 18934.9348 18934.9348 11.0848 0.01039
Residual 8 13665.5652 1708.1957
Total 9 32600.5000
Coefficients Standard Error t Stat P-value Lower 95% Upper 95%
Intercept 98.24833 58.03348 1.69296 0.12892 -35.57720 232.07386
Meter katror 0.10977 0.03297 3.32938 0.01039 0.03374 0.18580
0.03297S1b
Konkluzioni rreth pjerrësisë: Testi t
• Testi t për pjerrësinë e populacionit – A ekziston lidhje lineare në mes të X dhe Y në
populacion me nivel të signifikancës α= 0,05? • Hipoteza zero dhe alternative
H0: β1 = 0 (Nuk ka lidhje lineare) H1: β1 0 (Lidhja lineare egziston)
• Testi statistikor
1b
11
S
βbt
sh.l. n 2
ku:
b1 = koeficienti i pjerrësisë së
regresionit
β1 = Pjerrësia e supozuar
Sb = Gabimi standard i
pjerrësisë 1
Konkluzioni rreth pjerrësisë: Testi t
Çmimi i
shtëpive
$1000
(y)
Siperfaqja
(meter katror)
(x)
245 1400
312 1600
279 1700
308 1875
199 1100
219 1550
405 2350
324 2450
319 1425
255 1700
Çmimi i shtepive 98.25 0.1098 (meter katror)
Ekuacioni I regresionit të thjeshtë linear:
Pjerrësia e këtij modeli është
0.1098
A thua sipërfaqja në meter katror
ka ndikim në çmimin e shitjes?
(vazhdim)
Konkluzioni rreth pjerrësisë: Testi t- Shembull
H0: β1 = 0
H1: β1 0
Nga rezultatet e Excel-it:
Coefficients Standard Error t Stat P-value
Intercept 98.24833 58.03348 1.69296 0.12892
Meter katror 0.10977 0.03297 3.32938 0.01039
1bS
t
b1
32938.303297.0
010977.0
S
βbt
1b
11
Konkluzioni rreth pjerrësisë: Testi t- Shembull
H0: β1 = 0
H1: β1 0
Testi statistikor t = 3.329
Ka mjaft të dhëna se sipërfaqja
në meter katror ka ndikim në
çmimin e shitjes së shtëpive.
Nga rezultati i Excel-it:
Refuzo H0
Coefficients Standard Error t Stat P-value
Intercept 98.24833 58.03348 1.69296 0.12892
Meter katror 0.10977 0.03297 3.32938 0.01039
1bS t b1
Vendimi:
Konkluzion:
Refuzo H0 Refuzo H0
a/2=.025
-tα/2
Mos e prano H0
0
tα/2
a/2=.025
-2.3060 2.3060 3.329
sh.l. = 10-2 = 8
(vazhdim
Konkluzioni rreth pjerrësisë: Testi t- Shembull
H0: β1 = 0
H1: β1 0
Vlera e P = 0.01039
Ka mjaft të dhëna se sipërfaqja në
meter katror ka ndikim në çmimin
e shitjes së shtëpive.
Nga rezultati i Excel-it:
Refuzo H0
Coefficients Standard Error t Stat P-value
Intercept 98.24833 58.03348 1.69296 0.12892
Square Feet 0.10977 0.03297 3.32938 0.01039
Vlera e P-
Vendimi: Vlera e P < α kështu që
:
Konkluzion:
(vazhdim)
Testi është dyanësor,
kështu që vlera e p është:
P(t > 3.329)+P(t < -3.329)
= 0.01039
(per 8 sh.l.)
Intervali i besimit për vlerësimin e koeficientit të Pjerrësisë
Intervali I besimit për vlerësimin e pjerrësisë:
Rezultatet e Excel-it për çmimin e shtëpive:
Ne nivel te besueshmerise 95%, intervali i
besueshmerisë për pjerrësinë është: (0.0337, 0.1858)
1b2n1 Stb
Coefficients Standard Error t Stat P-value Lower 95% Upper 95%
Intercept 98.24833 58.03348 1.69296 0.12892 -35.57720 232.07386
Meter katror 0.10977 0.03297 3.32938 0.01039 0.03374 0.18580
sh.l. = n - 2
Intervali i besimit për vlerësimin e Pjerrësisë
Meqenëse vlera e shitjeve se shtëpive është e
shprehur në $1000, ne jemi 95% konfident se efekti
mesatar në cmimin e shitjes është në mes të
$33.70 dhe $185.80 për meter katror të shtuar për
një njësi.
Coefficients Standard Error t Stat P-value Lower 95% Upper 95%
Intercept 98.24833 58.03348 1.69296 0.12892 -35.57720 232.07386
Meter katror 0.10977 0.03297 3.32938 0.01039 0.03374 0.18580
(vazhdim)
Testi t për Koeficientin e Korrelacionit
• Hipotezat:
H0: ρ = 0 (Nuk ka korrelacion në mes të X dhe Y)
HA: ρ ≠ 0 (Ka korrelacion në mes të X dhe Y)
• Testi Statistikor (me n – 2 shkallë të lirisë)
2
r-ρt
1 r
n 2
ρ korrelacioni ne populacion
2
1
2
1
nese b 0
nese b 0
ku
r r
r r
Shembull: Çmimet e shtëpive
A ka evidencë për raporte lineare në mes të
sipërfaqes së shtëpive dhe Çmimit të shitjes
së tyre në nivel të signifikancës 0.05?
H0: ρ = 0 (Nuk ka korrelacion)
H1: ρ ≠ 0 (Korrelacioni ekziston)
a =0.05 , sh.l. = 10 - 2 = 8
2 2
r ρ 0.762 0t 3.329
1 r 1 0.762
n 2 10 2
Shembull: Zgjedhja përmes testit
Konkluzion:
Ka evidencë se
ekziston lidhje
lineare në
nivelin 5% të
signifikancës.
Vendimi:
Refuzo H0
Refuzo H0 Refuzo H0
a/2=0.025
-tα/2
Mos e refuzo H0
0
tα/2
a/2=0.025
-2.3060 2.3060
3.329
Sh.l. = 10-2 = 8
3.329
210
.7621
0.762
2n
r1
ρrt
22
Përfundime
Hyrje në analizën e regresionit
Rishikim i supozimeve të analizës së regresionit
Ekuacioni i regresionit të thjeshtë linear
Përshkrimi i masave të variacionit
Prurja e konkluzioneve rreth pjerrësisë së koeficientit të regresionit
Analizimi i korrelacionit-matja e fortësisë së lidhjeve, etj