Post on 23-Aug-2020
Teoria uczenia statystycznego z perspektywyekonometryka
Bogumiª Kami«ski
Zakªad Wspomagania i Analizy Decyzji
Instytut Ekonometrii
Kolegium Analiz Ekonomicznych
Szkoªa Gªówna Handlowa
7 marca 2017
Rynek energii elektrycznej
�ródªo: Polskie Sieci Elektroenergetyczne, 2013
Przej±cie na metod¦ cen
w¦zªowych:
I do 5400 modeli
predykcyjnych
I 5-minutowe dane
poda»owe, popytowe i
systemowe,
dane pogodowe
I prognozowanie w tej
samej granulacji
I automatyczna kontrola
jako±ci modeli
System przesyªu paliwa gazowego
�ródªo: GAZ-SYSTEM, 2013
Ograniczenia �zyczne w
przesyle (ci±nienie gazu)
Dzienne nominacje dla
63 punktów wej±cia
i 966 punktów wyj±cia
Wspólna charakterystyka problemów
Typowy zbiór danych poddawany analizie:
I liczba obserwacji rz¦du kilku do kilkudziesi¦ciu tysi¦cy
I tysi¡ce zmiennych obja±niaj¡cych
Oczekiwania od modeli:
I maksymalizacja jako±ci prognoz
I krótki czas na przygotowanie modelu (automatyzacja procesu)
Uczenie statystyczne
Pierwotna de�nicja uczenia statystycznego (Vapnik, 1999)
Dla zadanej klasy funkcji F = {α ∈ Λ : f (x , α)}, procesugeneruj¡cego dane (X ,Y ) oraz funkcji straty L(y , y) rozwi¡za¢
problem:
α = argminα
E (L(Y , f (X , α))
na podstawie próby (x1, y1), (x2, y2), . . . , (xn, yn).
Aktualna de�nicja �operacyjna� (James et. al, 2013)
Zestaw narz¦dzi pozwalaj¡cych na modelowanie i rozumienie
zªo»onych zbiorów danych.
Kiedy zawodzi zaªo»enie, »e proces (X ,Y ) jest staªy?
popyt 1
popyt 2
popyt 3poda» 1
poda» 2
poda» 3
•••••
•••••
•••••
Q
P
Twierdzenie Vapnika (dla problemu klasy�kacji)
I zadana klasa funkcji dopuszczalnych FI dla F mo»na wyznaczy¢
tzw. wymiar Vapnika-Chervonenkisa h(F)mierz¡cy jej zdolno±¢ do dopasowywania si¦ do danych
I dysponujemy n-elementow¡ prób¡ estymacyjn¡
I wybieramy funkcj¦ f ∈ F minimalizuj¡c¡ bª¡d na danych
estymacyjnych Re
I chcemy oszacowa¢ oczekiwany bª¡d prognozy Rp
Twierdzenie (Vapnik, 1995)Dla dowolnego ª¡cznego rozkªadu (X ,Y ) z
prawdopodobie«stwem 1− q zachodzi zale»no±¢:
Rp ≤ Re +
√h(F) (1 + ln(2n/h(F)))− ln(q/4)
n︸ ︷︷ ︸ε
Twierdzenie Vapnika: ilustracja
bª¡d
n
Re
ε
Rp
h(F)
Re
ε
Rp
Twierdzenie Vapnika: procedura
I wybieramy rodzin¦ zagnie»d»onych klas funkcji
F1 ⊂ F2 ⊂ F3 ⊂ . . .
⇓
h(F1) ≤ h(F2) ≤ h(F3) ≤ . . .
I wyznaczamy
Re(F1) ≥ Re(F2) ≥ Re(F3) ≥ . . .
ε(F1) ≤ ε(F2) ≤ ε(F3) ≤ . . .
I wybieramy model oszacowany na podstawie klasy funkcji Fi
minimalizuj¡cej oszacowanie Rp
Przykªad regularyzacji (1)
Obserwacje
●●
●
●
●
●
● ●
●
●
●
●
●
●
●
●
●
●
●
●
−4 −2 0 2 4
−1
01
23
45
x
y
Przykªad regularyzacji (2)
proces generuj¡cy dane: y = x2/5 + ε, gdzie ε ∼ N(0, 1)
●●
●
●
●
●
● ●
●
●
●
●
●
●
●
●
●
●
●
●
−4 −2 0 2 4
−1
01
23
45
x
y
Przykªad regularyzacji (3)
Dwukrotnie ró»niczkowalna funkcja f :∑n
i=1(f (xi )− yi )2 → min
−4 −2 0 2 4
02
4
x
y
●●
●
●
●
●
● ●
●
●
●
●
●
●
●
●
●
●
●
●
zagnie»d»ona klasa funkcji:
wygªadzane funkcje sklejane (Hastie et al., 2001)
Przykªad regularyzacji (3)
Dwukrotnie ró»niczkowalna funkcja f :∑n
i=1(f (xi )− yi )2 → min
−4 −2 0 2 4
02
4
x
y
●●
●
●
●
●
● ●
●
●
●
●
●
●
●
●
●
●
●
●
zagnie»d»ona klasa funkcji:
wygªadzane funkcje sklejane (Hastie et al., 2001)
Przykªad regularyzacji (4)
Dwukrotnie ró»niczkowalna funkcja f :∑ni=1(f (xi )− yi )
2 → min, p.w.∫D [f ′′(x)]2dx ≤ δ
−4 −2 0 2 4
02
4
x
y●
●
●
●
●
●
● ●
●
●
●
●
●
●
●
●
●
●
●
●
niebieski: δ → +∞
Przykªad regularyzacji (5)
Dwukrotnie ró»niczkowalna funkcja f :∑ni=1(f (xi )− yi )
2 → min, p.w.∫D [f ′′(x)]2dx ≤ δ
−4 −2 0 2 4
02
4
x
y●
●
●
●
●
●
● ●
●
●
●
●
●
●
●
●
●
●
●
●
niebieski: δ → +∞, zielony: δ = 0
Przykªad regularyzacji (6)
Dwukrotnie ró»niczkowalna funkcja f :∑ni=1(f (xi )− yi )
2 → min, p.w.∫D [f ′′(x)]2dx ≤ δ
−4 −2 0 2 4
02
4
x
y●
●
●
●
●
●
● ●
●
●
●
●
●
●
●
●
●
●
●
●
niebieski: δ → +∞, zielony: δ = 0, czerwony: δ optymalne
Sytuacja praktyczna
Ograniczenia twierdzenia Vapnika:
I trudno±¢ z wyznaczeniem warto±ci h(F) dla zªo»onych klas
funkcji
I nierówno±¢ z twierdzenia jest bardzo konserwatywna
W praktyce stosujemy zwykle procedury alternatywne:
I kryteria informacyjne (AIC, BIC, . . . )
I zbiór walidacyjny
I walidacja krzy»owa
I bootstrapping
Klasyczna ekonometria: model liniowy
I Dysponujemy n obserwacjami i k zmiennymi obja±niaj¡cymi
I W modelu liniowym
f (x) = α0 +k∑
i=1
αkxk
zagnie»d»anie klas modeli to wprowadzanie restrykcji na αk
I Procedury selekcji zmiennych:
min
n∑i=1
(f (xi )− yi )2 p.w.
k∑j=1
1{0}(αj) ≤ δ
I tradycyjne kryteria (AIC, BIC, . . . ) rekomenduj¡ warto±¢ δprzy ró»nych zaªo»eniach asymptotycznych
I nie jest mo»liwe efektywne numerycznie wyznaczanie
rozwi¡za« optymalnych powy»szego zadania dla du»ych k
Tradycyjne kryteria: porównanie
I AIC: asymptotycznie efektywny, ale nie asymptotycznie zgodny
I BIC: asymptotycznie zgodny, ale nie asymptotycznie efektywny
Standardowe mody�kacje:
wielko±¢ próby dobra specy�kacja zªa specy�kacja
du»a AIC TIC
Akaike (1974) (Takeuchi, 1978)
maªa AICc MAIC
(Hurvich i Tsai, 1989) (Fujikoshi i Satoh, 1997)
LASSO (Tibshirani, 1996)
Przykªadowy alternatywny sposób nakªadania restrykcji na
parametry:
min
n∑i=1
(f (xi )− yi )2 p.w.
k∑j=1
|αj | ≤ δ
I Procedura efektywna numerycznie (Osborne et. al, 2000)
I Metoda prawie prawidªowo identy�kuje niezerowe zmienne
(Candes i Plan, 2009)
I Interpretacja w j¦zyku optymalizacji odpornej (Fertis, 2009):
max||∆x ||1,2≤λ
n∑i=1
(f (xi + ∆x)− yi )2 → min
Bª¡d: estymacja a prognoza
Generujemy 20 obserwacji zgodnie z zale»no±ci¡:
Y = 1 +10∑j=1
Xj + ε, gdzie ε ∼ N(0, 1)
Potrzebujemy oszacowa¢:
1) wyraz wolny modelu α0
2) parametry α1, α2, . . . , α10 przy zmiennych Xj
Chcemy oceni¢:
1) oczekiwany bª¡d na danych estymacyjnych (Re)
2) oczekiwany bª¡d prognozy (Rp)
Metody estymacji
Tradycyjna:
MNK (metoda najmniejszych kwadratów):
20∑i=1
yi −
α0 +10∑j=1
αjxi,j
2
→ min
Nowoczesna alternatywa (Tibshirani, 1996):
LASSO (ang. least absolute shrinkage and selection operator):
20∑i=1
yi −
α0 +10∑j=1
αjxi,j
2
→ min
p.w.
10∑j=1
|αj | ≤ δ
Rozkªad estymatorów parametrów
●
● ● ● ● ● ● ● ● ● ●
0.0
0.5
1.0
1.5
2.0
2.5
3.0
3.5
wartosc oczekiwana
● ● ● ● ● ●● ● ● ● ●
α0 α1 α2 α3 α4 α5 α6 α7 α8 α9 α10
●
● ● ● ● ● ● ● ● ● ●
01
23
4
wariancja
●
● ●● ● ●
●●
● ● ●
α0 α1 α2 α3 α4 α5 α6 α7 α8 α9 α10
MNK: czerwone LASSO: czarne
Bª¡d: estymacja a prognoza
Rozkªad ±redniej kwadratu bª¦du
RE MNK RE LASSO RP MNK RP LASSO
01
23
4
← D2(ε)
Selekcja zmiennych je±li k � n (Belloni et. al, 2014a)
Najprostszy model:
yt = dt + 0.2xt + εt
dt = 0.9xt +√1− 0.92ξt
gdzie: εt , ξt ∼ N(0, 1); zakªadamy prób¦ o wielko±ci n = 100.
Procedury:
1. pojedyncza selekcja (w modelu na yt)
2. podwójna selekcja (w modelu na yt i w modelu na dt)
Pojedyncza selekcja
0.5 1.0 1.5 2.0
0.0
0.5
1.0
1.5
2.0
parametr przy d
gest
osc
Podwójna selekcja
0.0 0.5 1.0 1.5 2.0
0.0
0.2
0.4
0.6
0.8
1.0
parametr przy d
gest
osc
Podwójna metoda post-Lasso (Belloni et. al, 2014b)
Dla modelu:
yt = αdt + β0 + βxi + εt
dt = γ0 + γxt + ξt
o ile liczba k zmiennych x speªnia warunek log(k) = o(n1/3
)wtedy
przy niezbyt restrykcyjnych warunkach procedura:
1. dokonaj selekcji zmiennych w obu równaniach za pomoc¡
metody Lasso,
2. dokonaj estymacji pierwszego równania wykorzystuj¡c sum¦
zbiorów zmiennych wybranych w poprzednim kroku,
gwarantuje, »e
σ−1n
√n (α− α) N(0, 1)
Przykªadowe zastosowanie
D. Acemoglu, S. Johnson, J.A. Robinson, The Colonial Origins of
Comparative Development: An Empirical Investigation, The
American Economic Review, 91(5), s. 1369�1401, 2001
±miertelno±¢ osadników
↓pocz¡tkowe instytucje
↓obecne instytucje
↓obecny PKB per capita
Zmienne kontrolne
I peªny zestaw: efekt instytucji nieistotny
I ograniczony zestaw: efekt instytucji istotny
I podwójna selekcja: efekt instytucji istotny
Uwagi ko«cowe
1. Konwergencja kasycznej ekonometrii i data-mining
2. Zagadnienia z bardzo du»¡ liczb¡ potencjalnych zmiennych
obja±niaj¡cych
3. Nauczanie: kluczowe zrozumienie zaªo»e« stosowanych metod
Literatura
[1] Akaike H., A new look at the statistical model identi�cation, IEEE Transactions on AutomaticControl, 19(6), s. 716�723, 1974
[2] Belloni A., Chernozhukov V., Hansen Ch., High-Dimensional Methods and Inference on Structuraland Treatment E�ects, Journal of Economic Perspectives, 28(2), 2014
[3] Belloni A., Chernozhukov V., Hansen Ch., Inference on Treatment E�ects after Selection amongHigh-Dimensional Controls, The Review of Economic Studies, 81(2), s. 608�650, 2014
[4] Candes E.J., Plan Y., Near-ideal model selection by `1 minimization, The Annals of Statistics, 37,s. 2145�2177, 2009
[5] Fertis A.G., A Robust Optimization Approach to Statistical Estimation Problems, rozprawadoktorska, 2009
[6] Fujikoshi Y. and Satoh K., Modi�ed AIC and Cp in multivariate linear regression, Biometrika, 84, s.07�716, 1997
[7] Hurvich C. M. and Tsai C. L., Regression and time series model selection in small samples,Biometrika, 76, 297�307, 1989
[8] James G., Witten D., Hastie T., and Tibsirani R., An Introduction to Statistical Learning, 2013
[9] Osborne M.R., Presnell B., Turlach B.A., On the LASSO and its Dual, Journal of Computationaland Graphical Statistics, 9, s. 319�337, 2000
[10] Takeuchi K., Distribution of information Statistics and Criteria for Adequacy of Models,Mathematical Science, 153, s. 12�18, 1976
[11] Tibshirani R.: Regression shrinkage and selection via the lasso, J. Royal. Statist. Soc B., 58(1), s.267�288, 1996
[12] Vapnik V., The Nature of Statistical Learning Theory, Springer, New York, 1995
[13] Vapnik V., An Overview of Satistical Learning Theory, IEEE Transactions on Neural Networks,10(5), s. 988�999, 1999