New Statystyka - Uniwersytet Ekonomiczny w...
Transcript of New Statystyka - Uniwersytet Ekonomiczny w...
STATYSTYKARafał Kucharski
Uniwersytet Ekonomiczny w Katowicach 2015/16ROND, Finanse i Rachunkowość, rok 2
ZależnośćI przyczynowo-skutkowa,I symptomatyczna,I pozorna (iluzoryczna),
funkcyjna stochastyczna
Korelacjabrak korelacji korelacja krzywoliniowa
korelacja dodatnia korelacja ujemna
Regresja I rodzajuI Rozważmy dwuwymiarową skokową zmienną losową (X ,Y ).I pij = P(X = xi ,Y = yj) – rozkład dwuwymiarowy,I pi · = P(X = xi ), p·j = P(Y = yj) – rozkłady brzegowe,I warunkowa wartość oczekiwana X pod warunkiem Y = yj :
E(X |Y = yj) =∑i
xiP(X = xi |Y = yj) =∑i
xi ·pijp·j,
I warunkowa wartość oczekiwana Y pod warunkiem X = xi :
E(Y |X = xi ) =∑j
yjP(Y = yj |X = xi ) =∑j
yj ·pijpi ·,
I Funkcję h1(y) := E(X |Y = y) nazywamy funkcją regresji I rodzajuzmiennej losowej X względem Y ,
I Funkcję h2(x) := E(Y |X = x) nazywamy funkcją regresji I rodzajuzmiennej losowej Y względem X ,
I Wykresy tych funkcji nazywamy krzywymi regresji I rodzaju.
P(X = i ,Y = j)i \ j 1 2 3 pi ·1 2
32032
232
432
2 332
032
332
632
3 632
132
432
1132
4 532
532
132
1132
p·j 1632
632
1032 1
P(Y = j |X = k)i \ j 1 2 3
1 12 0 1
2
2 12 0 1
2
3 611
111
411
4 511
511
111
E(Y |X = 1) = 1 · 12
+ 3 · 12
= 2,
E(Y |X = 2) = 1 · 12
+ 3 · 12
= 2,
E(Y |X = 3) = 1 · 611
+ 2 · 111
+ 3 · 411
=2011,
E(Y |X = 4) = 1 · 511
+ 2 · 511
+ 3 · 111
=1811.
E(X |Y = 1) =238, E(X |Y = 2) =
236, E(X |Y = 3) =
125.
1
2
3
1 2 3 4
X
Y
Uwaga: przyjmując pij =nijn
możemy wykonać analogiczne obliczeniadla danych empirycznych z tablicy korelacyjnej, otrzymując empirycznekrzywe regresji.
Szereg korelacyjny
numer xi yiobserwacji1 x1 y12 x2 y23 x3 y3
. . . . . .n xn yn
Uwaga: sortując dane nie możemy zgubić informacji o powiązaniachmiędzy cechami!
Tablica korelacyjna
y1 y2 . . . yj . . . ys∑j
x1 n11 n12 . . . n1j . . . n1s n1·x2 n21 n22 . . . n2j . . . n2s n2·...
...... . . . ... . . . ...
...xi ni1 ni2 . . . nij . . . nis ni ·...
...... . . . ... . . . ...
...xr nk1 nk2 . . . nkj . . . nrs nr ·∑i n·1 n·2 . . . n·j . . . n·s n
I nij – liczba obserwacji (xi , yj),I ni · =
∑sj=1 nij ,
I n·j =∑ri=1 nij .
Rozkłady brzegowe i warunkoweI średnia i wariancja ogólna cechy X :
x =1n
r∑i=1
xini ·, S2x =1n
r∑i=1
(xi − x)2ni · =1n
r∑i=1
x2i ni · − (x)2,
I średnia i wariancja ogólna cechy Y :
y =1n
s∑j=1
yjn·j , S2y =1n
s∑j=1
(yj − y)2n·j =1n
s∑j=1
y2i n·j − (y)2,
I średnie i wariancje warunkowe cechy X , dla j = 1, . . . , s :
xj =1n·j
r∑i=1
xinij , S2j (x) =1n·j
r∑i=1
(xi−xj)2nij =1n·j
r∑i=1
x2i nij−(xj)2,
I średnie i wariancje warunkowe cechy Y , dla i = 1, . . . , r :
yi =1ni ·
s∑j=1
yjnij , S2i (y) =1ni ·
s∑j=1
(yj−yi )2nij =1ni ·
s∑j=1
y2j nij−(yi )2.
Kowariancja
Kowariancja: dla szeregu szczegółowego:
cov(x , y) =1n
n∑i=1
(xi − x)(yi − y) =1n
n∑i=1
xiyi − x y ,
dla tablicy korelacyjnej:
cov(x , y) =1n
r∑i=1
s∑j=1
nij(xi − x)(yj − y) =1n
r∑i=1
s∑j=1
nijxiyj − x y .
Uwaga: kowariancja jest trudna w interpretacji – nie interpretujemy.
Współczynnik korelacji liniowej Pearsona
rxy = ryx =cov(x , y)SxSy
=cov(x , y)√S2x S2y
I znak mówi nam o kierunku korelacji:I rxy > 0 – korelacja dodatnia,I rxy < 0 – korelacja ujemna,
I wartość bezwzględna mówi o sile zależności:I [0, 0.2) – bardzo słaba (brak),I [0.2, 0.4) – słaba,I [0.4, 0.6) – umiarkowana,I [0.6, 0.8) – silna,I [0.8, 1.0] – bardzo silna.
Współczynnik zbieżności
I Niezależność zmiennych skokowych: pij = pi · · p·j dla każdych i , j ,I Zastępując prawdopodobieństwa liczebnościami otrzymujemy
warunek niezależności dla danych empirycznych:
nijn
=ni ·n· n·jn
dla każdych i , j
I Przy niezależności cech powinny wystąpić liczebności teoretyczne:
nij =ni · · n·jn
I Do oceny siły zależności służy wielkość
Z =r∑i=1
s∑j=1
(nij − nij)2
nij= n
r∑i=1
s∑j=1
nijni · · n·j
− 1
,
Współczynnik zbieżności c.d.I Współczynnik zbieżności V Cramera:
V =
√Z
n · (min(r , s)− 1)
V ∈ [0, 1], V = 0 – niezależność, V = 1 – zależność funkcyjna.I współczynnik Czuprowa:
T =
√Z
n√
(r − 1)(s − 1),
I współczynnik C Pearsona:
C =
√ZZ + n
,
I współczynnik φ Yule’a:
φ =
√Zn,
Współczynniki asocjacji dla tablic czteropolowychGdy badane zmienne są dychotomiczne, tablica korelacyjna maszczególną postać:
X \ Y y1 y2 Razemx1 a b a+ bx2 c d c + d
Razem a+ c b + d n
Do badania zależności zmiennych możemy wówczas użyćwspółczynników zbieżności korelacyjnej:
I Pearsona-Bravaisa:
V =ad − bc
(a+ b)(a+ c)(b + d)(c + d)
I Bykowskiego:
W =(a+ d)− (b + c)a+ b + c + d
,
I Yula-Kendalla:Q =ad − bcad + bc
.
Przykład: funkcyjna zależność krzywoliniowax y x2 y2 xy−2 4 4 16 −8−1 1 1 1 −10 0 0 0 01 1 1 1 12 4 4 16 8
covxy =15
(−8− 1+ 1+ 8) = 0 =⇒ rxy = 0.
y \ x −2 −1 0 1 2 ni ·0 0 0 1 0 0 11 0 1 0 1 0 24 1 0 0 0 1 2n·j 1 1 1 1 1 5
Z = 5(1+12
+12
+12
+12− 1
)= 10, V =
√10
5 · (min(3, 5)− 1)= 1.
Empiryczne krzywe regresjiI Empiryczna krzywa regresji cechy Y względem cechy X (opisująca
zależność Y od X ) to łamana przechodząca przez punkty (xi , yi ),i = 1, . . . , r ,
I Empiryczna krzywa regresji cechy X względem cechy Y (opisującazależność X od Y ) to łamana przechodząca przez punkty (xj , yj),j = 1, . . . , s ,
I Wariancja średnich warunkowych Y :
S2(yi ) =1n
r∑i=1
(yi − y)2ni · =1n
r∑i=1
(yi )2ni · − (y)2
I Wariancja średnich warunkowych X :
S2(xj) =1n
s∑j=1
(xj − x)2n·j =1n
s∑j=1
(xj)2n·j − (x)2
I Średnie wariancji:
S2i (y) =1n
r∑i=1
S2i (y)ni ·, S2j (x) =1n
s∑j=1
S2j (x)n·j ,
Stosunki korelacyjne
I wychodzimy od równości wariancyjnej:
S2y = S2(yi ) + S2i (y)
I stosunek korelacyjny y względem x (wpływ x na y ) obliczamy jako
eyx =
√S2(yi )S2y
=
√√√√1− S2i (y)S2y
.
I stosunek korelacyjny x względem y (wpływ y na x) obliczamy jako
exy =
√S2(xj)S2x
=
√√√√1− S2j (x)
S2x.
I obliczamy dla danych uporządkowanych w tablicy korelacyjnej,
Stosunki korelacyjne
I Stosunki korelacyjne przyjmują wartości z [0, 1],I zwykle exy 6= eyx ,I są to miary zależności krzywoliniowej,I mamy r2xy ¬ e2xy , r2xy ¬ e2yx ,I za miary krzywoliniowości związku mogą służyć:
mxy = e2xy − r2xy , myx = e2yx − r2xy ,
I zmienna, której wpływ badamy, może być niemierzalna.
Współczynnik korelacji rang Spearmana
I umożliwia określenie siły zależności między cechami porządkowymi,I krok 1: nadajemy obserwacjom rangi – kolejne numery od 1 do n,I jeśli ta sama wartość cechy występuje kilka razy, przypisujemy im
średnią arytmetyczną z kolejnych rang (rangi wiązane),I obliczamy różnice rang di dla kolejnych obserwacji,I przy braku rang wiązanych współczynnik obliczamy z wzoru:
rS = 1− 6∑ni=1 d
2i
n(n2 − 1).
I w przypadku istnienia rang wiązanych najlepiej obliczyć go z wzoruna współczynnik korelacji Pearsona, za wartości cech podstawiającich rangi.
I rS ∈ [−1, 1], interpretacja taka jak współczynnika Pearsona,
Współczynnik korelacji rang Spearmana
Jak wspominam Rangi Wynagrodzenie Rangi„Statystykę”? xi netto yi d2i
dobrze 3 2900 4 1bardzo dobrze 1 5000 1 0
dobrze 3 3800 2 1źle 6 3300 3 9
bardzo źle 7 1000 7 0dobrze 3 2300 5 4
tak sobie 5 2200 6 1
Ranga wiązana: 2+3+43 = 3.
1− 6∑ni=1 d
2i
n(n2 − 1)= 1− 6 · (1+ 1+ 9+ 4+ 1)
7 · (49− 1)≈ 0.7142857.
(a dokładnie rS = 0.704186851).
Współczynnik korelacji cząstkowejI rozpatrujemy zmienne x1, . . . , xk ,I interesuje nas siła związku zmiennych xi oraz xj z wyłączeniem
wpływu pozostałych zmiennych,I wykorzystujemy współczynnik korelacji cząstkowej: rij .ab...zI indeksy przed kropką oznaczają cechy których zależność badamy,
indeksy po kropce – cechy których wpływ wykluczamy,I obliczamy go z wzoru:
rij .kl ...z =−Rij√RiiRjj
,
gdzie:I R jest macierzą współczynników korelacji Pearsona wszystkich
analizowanych zmiennych,I Rij jest dopełnieniem algebraicznym macierzy R ,Rij = (−1)i+j det(Mij), gdzie Mij jest podmacierzą powstałą przezskreślenie i-tego wiersza i j-tej kolumny macierzy R .
Współczynnik korelacji wielorakiejI chcemy badać zależność jednej zmiennej (zmiennej zależnej,
objaśnianej) od jednoczesnego wpływu zespołu innych zmiennych(niezależnych, objaśniających),
I wykorzystujemy współczynnik korelacji wielorakiej: Rw = Ri .ab...zI indeks przed kropką oznacza zmienną objaśnianą, indeksy po
kropce – zmienne objaśniające, których wpływ chcemy badać,I obliczamy go z wzoru:
Rw = Ri .ab...z =
√1− det(R)
det(Ri ),
gdzie:I R jest macierzą współczynników korelacji Pearsona wszystkich
analizowanych zmiennych,I Ri jest macierzą współczynników korelacji zmiennych objaśniających.
I Rw ∈ [0, 1] – interpretujemy tylko siłę związku.
Regresja liniowa
I Jeśli zależność między cechami mierzalnymi X i Y jest liniowa, to:
Yi = aXi + b + εi , i = 1, . . . , n,
gdzie a i b są pewnymi parametrami, zaś εi są odchyleniami(składnikami) losowymi, nie wyjaśnionymi przez X .
I Zmienną Y = aX + b nazywamy regresją (liniową) Y względem X .I Zakładamy (schemat Gaussa-Markowa), że
I Zmienna objaśniająca X jest nielosowa.I Składnik losowy ma rozkład normalny: εi ∼ N(µi , σ
2i ), i = 1, . . . , n.
I Składnik losowy nie wpływa systematycznie na Y : µ = E(εi ) = 0,i = 1, . . . , n.
I Zmienność składnika losowego nie zależy od x : D2(εi ) = σ2,i = 1, . . . , n.
I Składniki losowe są nieskorelowane: cov(εi , εj) = 0, i 6= j .I Estymacji parametrów dokonuje się jedynie na podstawie informacji
zawartych w próbie.
Klasyczna Metoda Najmniejszych KwadratówI Gauss (1801), służy do szacowania parametrów funkcji regresji.I Parametry a i b są nieznane, szacujemy je na podstawie próby.I Otrzymamy wówczas linię regresji próby:
yi = axi + b, i = 1, . . . , n.
I yi – wartość teoretyczna zmiennej Y dla i-tej obserwacji.I a, b – estymatory (oszacowania) parametrów.I Różnice między wartościami teoretycznymi a empirycznymi
nazywamy resztami:
ei = yi − yi = yi − axi − b.
I Reszty ei nie są równe εi , ale można je traktować jako realizacjeskładnika losowego:
axi + b + εi = yi = yi + ei = axi + b + ei .
Klasyczna Metoda Najmniejszych Kwadratów, c.d.Oszacowania a i b mają minimalizować błąd dopasowania:
F (a, b) =n∑i=1
e2i =n∑i=1
(yi − axi − b)2 −→ min .
Przyrównujemy do zera jej pochodne względem parametrów:
∂∑ni=1(yi − axi − b)2
∂b= −2
n∑i=1
(yi − axi − b) = 0
∂∑ni=1(yi − axi − b)2
∂a= −2
n∑i=1
xi (yi − axi − b) = 0.
Po uporządkowaniu otrzymujemy układ równań normalnych:
n∑i=1
yi = nb +
(n∑i=1
xi
)a
n∑i=1
xiyi =
(n∑i=1
xi
)b +
(n∑i=1
x2i
)a
Klasyczna metoda najmniejszych kwadratów, c.d.
Dzieląc pierwsze równanie przez n otrzymujemy:
y = ax + b, ⇐⇒ b = y − ax .
Podstawiając ten wynik do drugiego równania obliczamy:
n∑i=1
xiyi =
(n∑i=1
xi
)(y − ax) +
(n∑i=1
x2i
)a
n∑i=1
xiyi − nx y = a
(n∑i=1
x2i − nx2)
Ostatecznie
a =
∑ni=1 xiyi − nx y∑ni=1 x
2i − nx2
=cov(x , y)S2x
=cov(x , y)Sx · Sy
· SySx
= rxy ·SySx.
Ocena dopasowania linii regresji
I wartości teoretyczne: yi = axi + b,I reszty: ei = yi − yi ,I TSS =
∑ni=1(yi − y)2, zmienność całkowita,
I ESS =∑ni=1(yi − y)2, zmienność objaśniona,
I RSS =∑ni=1 e
2i , suma kwadratów reszt, zmienność nieobjaśniona.
I współczynnik zbieżności:
ϕ2 =RSSTSS
=
∑ni=1(yi − y)2∑ni=1(yi − y)2
.
I współczynnik determinacji: R2 = 1− ϕ2 – jaka część zmiennościzmiennej Y jest wyjaśniona zmiennością zmiennej X .
Ocena dopasowania linii regresji c.d.
I wariancja resztowa:
S2e =1n − 2
n∑i=1
(yi − yi )2 =1n − 2
n∑i=1
e2i ,
I odchylenie standardowe składnika resztowego: Se =√S2e ,
I standardowe błędy szacunku parametrów (błędy średnie szacunku):
S(b) =Se√∑n
i=1(xi − x)2, S(a) = S(b) ·
√∑ni=1 x
2i
n,
I względne średnie błędy szacunku: S(a)/a, S(b)/b,I Uwaga: Var(a) = S2(a), Var(b) = S2(b),I S2e jest nieobciążonym estymatorem (nieznanego) parametru σ2.
Przykład 1
x 1 2 3 4 5 6 20y 5 6 6.5 5 7 9 1
0 5 10 15 20
02
46
810
x
y
Odrzucenie ostatniej obserwacji zmienia znak parametrów
Przykład 2
x 1 1.2 2 3 3.5 10 11 12 14 17 18 20y 7 4 6 5 1 25 21 26 19 15 17 10
0 5 10 15 20
05
10
15
20
25
30
Widzimy dwie odrębne grupy. Parametry w każdej z grup z osobna sąinne niż z całości.
Kwartet Anscombe
Zbiór danych 1-3 1 2 3 4 4Obserwacja Zmienna x y y y x y
1 10.0 8.04 9.14 7.46 8.0 6.582 8.0 6.95 8.14 6.77 8.0 5.763 13.0 7.58 8.74 12.74 8.0 7.714 9.0 8.81 8.77 7.11 8.0 8.005 11.0 8.33 9.26 7.81 8.0 8.476 14.0 9.96 8.10 8.84 8.0 7.047 6.0 7.24 6.13 6.08 8.0 5.258 4.0 4.26 3.10 5.39 19.0 12.509 12.0 10.84 9.13 8.15 8.0 5.5610 7.0 4.82 7.26 6.42 8.0 7.9111 5.0 5.68 4.74 5.73 8.0 6.89
Równania regresji dla wszystkich przypadków mają postać:
y = 3.0+ 0.5x
0 5 10 15 20
02
46
810
Zbiór danych 1
0 5 10 15 20
02
46
810
Zbiór danych 2
0 5 10 15 20
02
46
810
Zbiór danych 3
0 5 10 15 20
02
46
810
Zbiór danych 4
Predykcja na podstawie modelu regresji liniowejI „Dobry” model może posłużyć do przewidywania wartości cechy Y
przy założonej wartości cechy X .I Estymatorem E(Y |X = x) jest
y = a · x + b.
I Dokładność tego oszacowania oceniamy za pomocą estymatorajego odchylenia standardowego:
S(y) = Se
√1n
+(x − x)2∑ni=1(xi − x)2
.
I Estymator pojedynczej realizacji Y |X = x jest także równy
yp = a · x + b,
przy czym błąd takiej prognozy należy powiększyć o możliweodchylenie od średniej:
S(yp) = Se
√1+1n
+(x − x)2∑ni=1(xi − x)2
.
Pewne zależności sprowadzalne do postaci liniowejI Funkcja półlogarytmiczna: y = a ln x + b. Przyjmując z = ln x
otrzymujemy:y = az + b.
I Funkcja wielomianowa: y = axp + b, p ∈ R. Przyjmując z = xp
otrzymujemy:y = az + b.
I Funkcja potęgowa: y = bxa, a > 0. Po zlogarytmowaniu:
ln y = ln b + a ln x .
Przyjmując β = ln b, α = a, z = ln y , u = ln x , otrzymujemy
z = αu + β.
I Funkcja wykładnicza: y = bax , a, b > 0, a 6= 1. Po zlogarytmowaniu:
ln y = ln b + ln a · x .
Przyjmując β = ln b, α = ln a, z = ln y , u = x otrzymujemy
z = αu + β.