Download - Statistisches Data-Mining - ethz.ch · 1 KLASSIFIKATION WBL Statistik — Statist. Datamining 1 Klassiﬁkation Hier betrachten wir die in Data-Mining Anwendungen häuﬁge Situation,

Weiterbildungslehrgang in angewandter Statistik, ETH Zürich 2018

Statistisches Data-Mining

Dr. Martin MächlerSeminar für Statistik, ETH Zürich

[email protected]

Okt. 2018

Inhaltsverzeichnis

0 Übersicht 1

1 Klassifikation 21.1 Der Bayes-Klassifikator . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 21.2 Die „Sicht“der Diskriminanz-Analyse . . . . . . . . . . . . . . . . . . . . . . . 31.3 Die Sicht der Logistischen Regression . . . . . . . . . . . . . . . . . . . . . . . 41.4 Partitionierungs- oder Baum-Modelle (“CART”) . . . . . . . . . . . . . . . . . . 91.5 Aggregierung von Modellen: “Bagging” . . . . . . . . . . . . . . . . . . . . . . 151.6 “Random Forest” für extrem flexible Modellierung . . . . . . . . . . . . . . . . 171.7 Flexible Diskriminanzanalyse . . . . . . . . . . . . . . . . . . . . . . . . . . . 181.8 Weitere Ansätze . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 18

2 Flexible Vorhersage 202.1 Y -Transformations-Modelle, ACE, AVAS . . . . . . . . . . . . . . . . . . . . . 202.2 Übersicht über erwähnte multiple Modelle . . . . . . . . . . . . . . . . . . . . . 212.3 Neuronale Netze und PPR . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 21

3 Regression mit p� n: Lasso 243.1 Einführung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 243.2 Ridge Regression . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 243.3 The Lasso . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 263.4 Lasso extensions . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 27

i

0 ÜBERSICHT WBL Statistik — Statist. Datamining

0 Übersicht

„Data-Mining“ ist seit einigen Jahren ein wichtiger Begriff geworden. Eine vereinfachende Defini-tion wäre „Data-Mining“ ist nichts anderes als Datenanalyse von grossen Datensätzen, bzw. garnur exploratorische Datenanalyse grosser Datensätze1. Dies betrifft jedoch nur einen Teil des DM.In grossen Betrieben wird unter DM oft vielmehr die ganze Informatik und Analyse verstanden,die vorgenommen wird, um aus den Computer-Daten, die “sowieso” aus den Betriebsabläufenanfallen, nützliche Informationen zu extrahieren. Ein Bild dahinter ist die Goldmine, wo man mit-tels geeigneter Schürfwerkzeuge und etlichem Können in einem Haufen Dreck ein Gold-Nuggetfinden kann.

Ein ausführlicher Wikipedia Artikel, http://de.wikipedia.org/wiki/Data_Mining,verwendet die Definition (nach Bensberg): „Data Mining“ ist ein integrierter Prozess, der durchAnwendung von Methoden auf einen Datenbestand Muster entdeckt. Ziel ist dann also die Erken-nung von Mustern (engl. “pattern recognition”).DM ist dann aber auch wieder der ganze Prozess, der zu solchen Mustern führt, bis zur Inter-pretation(!), inklusive Daten-Bereitstellung, -Extraction, und -Aufbereitung. Allerdings wurde beiandern Autoren auch festgehalten, das bloss gilt

Data-Mining = Statistics + Marketing.

Dies stimmt insofern, als Data-Mining auch einfach heisst, dass moderne Methoden der Daten-analyse in Gebieten angewandt werden, wo vorher die Daten kaum analysiert wurden. In diesemBlock geht es aus diesem Grunde um „statistisches Data-Mining“, ohne auf IT-Aspekte oderBetriebs-Abläufe einzugehen.

Die DM-Problemstellungen werden auch aufgeteilt in die beiden Klassen von

1. Beschreibungsproblemen2. Prognoseprobleme

wobei erstere z.B. die Cluster-Verfahren und weitere explorative und deskriptive Datenanalysebeinhalten, wir uns im folgenden jedoch vor allem mit der zweiten Gruppe befassen. Diese „Prog-noseprobleme“ werden dann im wesentlichen unsere beiden Hauptkapitel ausmachen,

1. Klassifikation und

2. “Wirkungsprognosen” d.h. Vorhersage kontinuierlicher Grössen, was wir normalerweise(multiple, flexible, nicht-parametrische) Regression nennen.

Vom Standpunkt der Informatik oder IT wird dieses Thema oft innerhalb des Bereichs “KnowledgeDiscovery in Databases” (KDD) behandelt, und die Prognoseprobleme, die wir hier behandeln, alssogenanntes “Machine Learning”, bzw. “supervised learning”.

Bei all diesen Ansätzen wird die Bedeutung von Inferenz (Tests, Vertrauensintervalle, etc) ver-ringert, oft ebenfalls die Interpretierbarkeit, zugunsten möglichst guter Vorhersagen (“prediction”).Als modernes Textbuch (aus Sicht der Statistik) ist Hastie, Tibshirani, and Friedman (2009) zuempfehlen, bzw. die angewandtere “Version” davon, James, Witten, Hastie, and Tibshirani (2013).

1In diesem Sinne wäre “Big Data Analysis” ein modischerer Titel als “Data Mining”

1

http://de.wikipedia.org/wiki/Data_Mining

1 KLASSIFIKATION WBL Statistik — Statist. Datamining

1 Klassifikation

Hier betrachten wir die in Data-Mining Anwendungen häufige Situation, wo nur die Gruppen-zugehörigkeit von Beobachtungen (Individuen) interessiert, mit anderen Worten, wo die Zielvari-able Y also nicht kontinuierlich ist (wie bei der Regression), sondern nur endliche viele möglicheWerte („Labels“) annimmt. Als Beispiel könnte Yi die Information beinhalten, ob der i-te PatientKrankheits-Typ A, B, oder C hat, oder es könnte beschreiben, ob der i-te potentielle Kunde positivauf eine Werbekampagne reagiert (ja/nein).

Ohne Einschränkung können wir im Weiteren annehmen, dass diese kategoriale Information durchdie Zahlen 0, 1, . . . , J − 1 kodiert wird. D.h. Y ∈ {0, . . . , J − 1}, wobei wir keine Ordnungunter diesen Zahlen 0, 1, . . . , J − 1 implizieren wollen. Nochmals anders ausgedrückt, besteht derStichprobenraum unserer Zielvariable aus J Gruppen („Sub-Populationen“) Πj , j = 0, . . . , J−1,und wir wollen auf Grund von erklärenden Variablen (die hier auch als „Merkmale“ bezeichnetwerden) die Beobachtungen „klassifizieren“, bzw. die richtige Klasse identifizieren.

Unsere Daten können wir betrachten als (Realisierungen von)

(X1, Y1), . . . , (Xn, Yn) i.i.d. , (Xi ∈ Rp),

und das allgemeinste Ziel ist dann Wahrscheinlichkeiten zu berechnen (d.h. zu „schätzen“),

πj(x) = P [Y = j | X = x] (j = 0, 1, . . . , J − 1),

(selbstverständlich∑J−1

j=0 πj(x) ≡ 1) wobei πj(x) ganz ähnlich ist wie die (u.U. nicht-parametrische)Regressionsfunktion m(x) = E [Y | X = x], wobei x ∈ Rp oft mehrdimensional ist. Die (da-her multivariate) Funktion πj(·) erlaubt dann auch die Klasse von Ynew vorherzusagen an einem(neuen) Prädiktor Xnew, via “Bayes-Klassifikator”:

1.1 Der Bayes-Klassifikator

Ein „Klassifikator“ C : Rp → {0, . . . , J − 1} ist eine Funktion, die einem Vektor erklärenderVariablen (hier oft auch „Prädiktor“) X ∈ Rp eine Klasse oder “Label” (effektiv eine der Zahlenin {0, . . . , J − 1}) zuordnet für das entsprechende Y .

Die Qualität eines Klassifikators C() wird dann oft mit dem erwarteten 0-1 “Test set” Fehler

P [C(Xnew) 6= Ynew] ,

(d.h. die Wahrscheinlichkeit von Missklassifikation bei neuen Beobachtungen) gemessen. Im (nor-malen) Falle, wo C = C aus (“Trainings”-)Daten geschätzt wird, betrachten wir den Generalisierungs-Fehler

Ptrain,(Xnew,Ynew)[C(Xnew) 6= Ynew

].

Der optimale Klassifikator bzgl. diesem 0-1 Fehler wird Bayes Klassifikator (“Bayes classifier”)genannt, ist „punktweise“ (d.h. separat für jedes x) gegeben durch

CBayes(x) = arg max0≤j≤J−1

πj(x), (1)

und sein erreichter erwarteter 0-1 “test set” Fehler, das Bayes Risiko, ist

P [CBayes(Xnew) 6= Ynew] .

2


In der Praxis kennen wir natürlich πj(·) nicht, und Bayes-Klassifikator und Bayes-Risiko sindgenauso unbekannt (wie z.B. Bias oder MSE in der Regression).Verschiedenste Methoden und Modelle werden nun benützt, um solche (multivariate bzw. „mul-tiple“) Funktionen zu schätzen, d.h. parametrisch oder nicht-parametrische πj(·) zu erhalten. Mitdiesen wird dann der Klassifikator bestimmt (d.h. ebenfalls geschätzt), indem im Bayes Klassi-fikator die πj(·) durch πj(·) ersetzt werden (“plug in”):

C(x) = arg max0≤j≤J−1

πj(x). (2)

Solche „geschätzte Klassifikatoren“, oder einfach „Klassifikations-Methoden“ sind weit verbreit-et, indem verschiedenste Modelle für πj(·) verwendet werden.

Im Gegensatz dazu gibt es aber auch direkte Arten, Klassifikatoren zu schätzen, die ohne einModell für die bedingten Wahrscheinlichkeiten πj(·) auskommen. Ein wichtiges, kürzlich in Modegekommenes Beispiel sind die “Support Vector Machines” (SVMs), welche wir hier nicht weiterbehandeln.

1.2 Die „Sicht“ der Diskriminanz-Analyse

Diese wird ja in der multivariaten Statistik schon behandelt, so dass wir diese hier kurz in denweiteren Zusammenhang hinein stellen: In der linearen oder quadratischen Diskriminanzanalysenehmen wir folgendes Modell an:

(X | Y = j) ∼ N p(µj , |Σj),

P [Y = j] = pj ,J−1∑j=0

pj = 1; j = 0, 1, . . . , J − 1. (3)

Die uns interessierende bedingte Verteilung von Y | X kann dann mittels der Bayes-Formelberechnet werden als

πj(x) = P [Y = j | X = x] =fX|Y=j(x) pj∑J−1

k=0 fX|Y=k(x) pk, (4)

wobei fX|Y=j(·) hier die Dichte der p-dimensionalen NormalverteilungN p(µj , |Σj) ist. Wir kön-nen diese bedingte Verteilung auch als a-posteriori Verteilung von Y gegeben X interpretieren,wenn wir a-priori für Y die (multinomiale) Verteilung (pj)

J−1j=0 nehmen.

Die unbekannten Parameter in (4) sind µj und |Σj , welche durch die üblichen “Momenten”-Schätzer geschätzt werden. Der einfachste Fall, die lineare Diskriminanzanalyse, setzt dabei gle-iche Kovarianzmatrizen, |Σj ≡ |Σ voraus, und kann diese daher aus allen Beobachtungen schätzen:

µj =n∑i=1

Xi1[Yi=j]/n∑i=1

1[Yi=j] =1

nj

∑i;Yi=j

Xi, wobei nj = #{i;Yi = j},

|Σj =1

nj − 1

n∑i=1

(Xi − µj)(Xi − µj)ᵀ1[Yi=j], bzw.

|Σ =1

n− J

J−1∑j=0

n∑i=1

(Xi − µj)(Xi − µj)ᵀ1[Yi=j]. (5)

3


Ausserdem müssen wir die (a-priori) Verteilung für die „Labels“ Y angeben: oft nimmt man dafürdie relativen Häufigkeiten pj = nj/n. Wenn die Parameter so geschätzt werden, erhält man diebekannten Klassifikatoren (via (4) und (2)) als

Cdiscr.(x) = arg max0≤j≤J−1

δj(x), wobei, falls |Σj ≡ |Σ

δj,LDA(x) = xᵀ |Σ−1µj − µjᵀ |Σ

−1µj/2 + log(pj), bzw. für variables |Σj , (6)

δj,QDA(x) = − log(det( |Σj))/2− (x− µj)ᵀ |Σj−1

(x− µj)/2 + log(pj). (7)

Die beiden Klassifikatoren sind die schon bekannten linearen bzw. quadratischen Diskriminanz-funktionen, LDA bzw. QDA, so genannt, weil δj(·) linear bzw. quadratisch in den Prädiktorvari-abeln x sind.

Die QDA Klassifikatoren sind natürlich flexibler und allgemeiner als ihre linearen “Cousins”, derPreis für diese Flexibilität sind dafür die Jp(p + 1)/2 Parameter aller J Kovarianz-Matrizen|Σj (j = 0, 1, . . . , J − 1) statt bloss p(p + 1)/2 für ein einziges |Σ in der LDA. Speziell im

Falle grösserer p wird QDA typischerweise “overfitten” d.h. zu grosse Variabilität ergeben.

1.3 Die Sicht der Logistischen Regression

Wie wir in (1) gesehen haben, brauchen wir für einen guten Klassifikatoren nur einen gutenSchätzer der bedingten Wahrscheinlichkeiten πj(·) (also weniger als in der Diskriminanzanalyse).

1.3.1 Binäre Klassifikation

Für den Zwei-Klassen Fall einer binärer Zielvariable Y ∈ {0, 1}, liefert die bedingte Wahrschein-lichkeitsfunktion

π(x) = P [Y = 1 | X = x]

schon die volle Information über die bedingte Verteilung von Y gegebenX (da ja P [Y = 0 | X = x] =1− π(x)).

Das logistische Modell für π(·) ist ganz allgemein

log( π(x)

1− π(x)

)=: logit(π(x)) = g(x),

g : Rp → R, (8)

wobei die sogenannte logistische oder Logit- Transformation logit(π) = log(π/(1 − π)) dasIntervall (0, 1) auf die ganze reelle Achse R abbildet. Daher können nun „beliebige“ Modellereellwertiger Funktionen verwendet werden für g(·), d.h. beliebige Regressionsfunktionen.

Dies hat grosse konzeptionelle Konsequenzen für die ganze Klassifikation: Fast beliebige Regressions-Methoden können herbeigezogen werden zur Modellierung von logit(π(x)). Wir kennen schonden Fall

Lineare logistische Regression In Analogie zur multiplen linearen Regressionist ein einfachesund populäres Modell für g(·), die lineare logistische Regression,

g(x) =

p∑j=1

βjxj . (9)

4


Dabei werden die Parameter βj mit Maximum Likelihood (bzw. einer Approximation davon)berechnet.

Als Beispiel betrachten wir einen Datensatz zum Ueberleben (repräsentiert als Y ∈ {0, 1}) frühge-borener Babies als Funktion vom Alter (age) in Wochen, Geburtsgewicht (weight) in Grammund drei weiteren klinischen Grössen.

Survival

600

1200

02

46

8

0.0 0.4 0.8

6.8

7.2

7.6

600 1000 1400

Weight

Age

20 25 30 35

0 2 4 6 8

X1.Apgar

X5.Apgar

0 2 4 6 8 10

6.8 7.0 7.2 7.4 7.6

0.0

0.4

0.8

2030

04

8

pH

Abbildung 1: Ueberleben von 247 Frühgeborenen als Funktion von Alter, Gewicht und 3 weiteren klinis-chen Variablen.

Die lineare logistische Regression wir in R mittels glm durchgeführt:> d.baby <- read.table("http://stat.ethz.ch/Teaching/Datasets/baby.dat", header=TRUE)> fit <- glm(Survival ~ ., data = d.baby, family = "binomial")> summary(fit)

Call:glm(formula = Survival ~ ., family = "binomial", data = d.baby)

Deviance Residuals:Min 1Q Median 3Q Max

-2.3994 -0.7393 0.4220 0.7833 1.9445

Coefficients:Estimate Std. Error z value Pr(>|z|)

(Intercept) -3.0933685 14.3053767 -0.216 0.8288Weight 0.0037341 0.0008468 4.410 1.03e-05 ***Age 0.1588001 0.0761061 2.087 0.0369 *X1.Apgar 0.1159864 0.1108339 1.046 0.2953X5.Apgar 0.0611499 0.1202222 0.509 0.6110pH -0.7380214 1.8964578 -0.389 0.6972---Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1

5


(Dispersion parameter for binomial family taken to be 1)

Null deviance: 319.28 on 246 degrees of freedomResidual deviance: 236.14 on 241 degrees of freedomAIC: 248.14

Number of Fisher Scoring iterations: 4

Wie wir aus den P -Werten für Einzel-Hypothesen H0,j : βj = 0 sehen, kommen die bei-den Prädiktoren weight und age, selber recht stark korreliert, als signifikant heraus, um zubeschreiben, ob ein frühgeborenes Baby überleben wird.

Für die Klassifikation können wir die Wahrscheinlichkeiten mittels predict() extrahieren:predict(fit,type="response") ergibt die geschätzten Wahrscheinlichkeiten π(xi),i = 1, . . . , n. Daraus lässt sich die durchschnittliche „in-sample“ Genauigkeit der Klassifika-tion, 1

n

∑ni=1 1

[Yi=C(xi)] berechnen via mean((predict(fit,type= "response") > 0.5)

== d.baby$Survival), welches hier 0.789ergibt.

1.3.2 Lineare logistische Regression oder LDA?

In der linearen logistischen Regression, ist das Modell für die „log-odds“ (oder die logits)

log

(π(x)

1− π(x)

)=

p∑j=1

βjxj

linear in den Prädiktoren; aber auch die log-odds der LDA in Modell (4) liefern ein lineares Mod-ell in x, eine Konsequenz der angenommenen Normalverteilung. In diesem Sinne sind die bei-den Methoden also ganz ähnlich. In unserem Beispiel sind die Koeffizienten der fünf Prädiktoren0.00309, 0.124, 0.0685, 0.067, -0.763, und die “in-sample” Genauigkeit minim kleiner bei 0.785.

Die lineare logistische Regression trifft keine Annahmen über die erklärenden Variablen (wie mul-tivariate Normalverteilung); andererseits kommt die Einschränkung dadurch, dass die log-oddseine lineare Funktion der Prädiktoren sein müssen. Ausserdem ist die logistische Regression auchim Falle kategorialer erklärender Variablen (d.h. x ∈ {0, 1, . . . ,K}, “Faktoren”) anwendbar.

Andererseits kann LDA auch “maschinell” angewandt werden, wenn keine Normalverteilung derPrädiktoren vorliegt, als “lineare Technik” sogar im Falle von Faktoren. Empirisch liefern LDA

und lineare logistische Regression oft ähnliche Resultate bezüglich Klassifikations-Genauigkeit.

Der Vorteil des logistischen Ansatzes ist aber auch, dass es naheliegend ist, die lineare Funktiondurch eine flexiblere zu ersetzen. Insbesondere können auch additive Modelle s1(x1) + s2(x2) +· · · + sp(xp) (oder beliebige andere nicht–lineare oder –parametrische Modelle z.B. auch Neu-ronale Netze, s. unten) eingesetzt werden.

Die additiven Modelle sind hier eine Verallgemeinerung der “generalized linear models” (glm)und wurden daher “Generalized Additive Models” (GAM) genannt, in der Monographie Hastieand Tibshirani (1990) eingeführt und können in R mittels gam(.) (aus Standardpaket mgcv)verwendet werden.

Das obige Beispiel kann mit einem GAM, (schon vereinfacht via Modellwahl!) modelliert werdenals

> require(mgcv)> afit3 <- gam(Survival ~ s(Weight) + Age,

data = d.baby, family = "binomial")> summary(afit3)

6


Family: binomialLink function: logit

Formula:Survival ~ s(Weight) + Age

Parametric coefficients:Estimate Std. Error z value Pr(>|z|)

(Intercept) -3.75130 2.11457 -1.774 0.0761 .Age 0.16049 0.07562 2.122 0.0338 *---Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1

Approximate significance of smooth terms:edf Ref.df Chi.sq p-value

s(Weight) 2.407 3.029 30.53 1.14e-06 ***---Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1

R-sq.(adj) = 0.324 Deviance explained = 27.6%UBRE = -0.028717 Scale est. = 1 n = 247

> mean((predict(afit3, type="response") > 1/2) == d.baby$Survival) # same as LDA

[1] 0.7854251

> plot(afit3) ## -> nice concave 'Weight' dependency

600 800 1000 1200 1400

−4

−2

02

Weight

s(W

eigh

t,2.4

1)

1.3.3 Der Mehrgruppen-Fall, J > 2

Logistische Regression kann nicht direkt auf die Situation von mehr als zwei Gruppen (oderKlassen) angewandt werden, wo Y ∈ {0, 1, . . . J − 1} und J > 2. Hier gibt’s verschiedeneAnsätze:

7


1) Wir können das Mehrklassen-Problem mit J Klassen darstellen mittels J verschiedener binär-er Probleme, indem wir definieren

Y(j)i =

{1 falls Yi = j,

0 sonst.

D.h. dass wir jeweils die Klasse j allen übrigen Klassen gegenüberstellen. Man kann die entsprechen-den logistischen Regressionen, z.B. lineare,

log

(πj(x)

1− πj(x)

)=

p∑r=1

β(j)r xr

aufstellen, mit entsprechenden Schätzungen πj(x) =(exp(

∑pr=1 β

(j)r ))/(1 + exp(

∑pr=1 β

(j)r )).

Die Schätzungen πj(·) werden sich nicht zu eins summieren, so dass noch eine Normalisierung

πj(x) = πj(x)/

J−1∑k=0

πk(x)

vorgenommen wird. Falls das Ziel nur Klassifikation, C(x) = arg max0≤j≤J−1 πj(x), ist, braucht’sallerdings die Normalisierung nicht!Man beachte, dass dieser Ansatz nicht bloss bei linearer logistischer Regression, sondern bei be-liebiger Modellierung der πj(x) (GAM, neuronale Netze, MARS, etc, s. Kapitel 2) anwendbarist!

Andererseits kann das Problem für den (parametrischen) linearen Fall eleganter formuliert werdenmittels der Multinomial–Verteilung und mittels Maximum Likelihood gelöst werden, ganz analogzur linear logistischen Regression (J = 2) case2. Dies ist in R ’s multinom() (Standard Paketnnet) implementiert.

2) Ein verwandter Ansatz arbeitet mit einer festen Referenz-Klasse, z.B. j = 0, und modelliert“alle gegen die Referenz”, log (πj(x)/π0(x)) = gj(x), für j = 1, . . . , J − 1.

3) Ein anderer Ansatz reduziert das Mehrklassen-Problem auf noch mehr 2-Klassen-Probleme:Statt Klasse j gegen den Rest zu modellieren, wird Klasse j gegen jede andere Klasse k für allePaare (j, k) mit j 6= k modelliert. Nun werden also

(J2

)solcher logistischer Fits gerechnet (anstelle

von nur J im Ansatz “einer gegen alle”).

4) Es ist noch zu erwähnen, dass für geordnete Klassen die (viel einfachere) “Proportional Odds”Modellierung sinnvoll sein kann, wo

logit(P [Y ≤ k | x]) = αk + g(x), k = 1, 2, . . . , J, mit α1 ≤ α2 ≤ . . . ≤ αJ (10)

In R sind diese simplen “proportional odds” Modelle via polr() (= proportional odds logisticregression) im Paket MASS vorhanden.

2Die Likelihood ist L = πn00 πn1

1 · πnJ−1

J−1 , die log-likelihood daher l =∑J−1j=0 nj log πj , wobei die Bedinung∑

j πj ≡ 1 erfüllt sein muss.

8


1.4 Partitionierungs- oder Baum-Modelle (“CART”)

Modelle mit Entscheidungsbäumen stellen einen Klassifikationsansatz dar, der einerseits flexibel,andererseits für Anwender auch besonders gut interpretierbar und recht einsichtig scheint. ZumBeispiel werden Entscheidungsbäume schon seit langem zur Pflanzenbestimmung eingesetzt.

Wie wir sehen werden, entsprechen solche Bäume einer rekursiven Partionierung aller möglichenBeobachtungen und der Daten. In ihrer grundlegenden Monographie zeigen Breiman, Friedman,Olshen, and Stone (1984) Anwendungen nicht nur für Klassifikation sondern auch für Regression(CART:= Classification And Regression Trees).

Man kann das Ziel so formulieren, einen einfachen Klassifikations–Algorithmus anzugeben, beidem nur Ja/Nein-Fragen beantwortet werden müssen der Art “Ist der Blutdruck über 120 ?”. Dieresultierende Struktur kann dann als (verwurzelter) binärer Baum dargestellt werden, wobei jederder Fragen dann einem Knoten des Baums entspricht. Die Blätter des Baums entsprechen danneiner der Gruppen, bzgl. der klassifiziert wird (siehe Beispiel unten).

Im Gegensatz zur Diskriminanzanalyse und den früher behandelten C.A.-Methoden, ist dieserAnsatz „monothetisch“, d.h., der p-dimensionale Raum der Variablen wird in einem Schritt immernur bzgl. einer Koordinate weiter aufgeteilt. Dies kann wesentlich unflexibler sein, als beliebigeSchnitt-Hyperebenen zuzulassen, ist dafür aber meist auch wesentlich interpretierbarer.

Beispiel: Auto-Beurteilung Diese Daten sind von Chambers and Hastie (1991) (z.B. S. 46 f.,66 f., 399). Sie wurden in der April 1990 Ausgabe der amerikanischen Zeitschrift “ConsumerReports” veröffentlicht, im R als cu.summary im rpart Paket.

> require("rpart"); data(cu.summary); summary(cu.summary)

Price Country Reliability Mileage TypeMin. : 5866 USA :49 Much worse :18 Min. :18.00 Compact:221st Qu.:10125 Japan :31 worse :12 1st Qu.:21.00 Large : 7Median :13150 Germany :11 average :26 Median :23.00 Medium :30Mean :15743 Japan/USA: 9 better : 8 Mean :24.58 Small :223rd Qu.:18900 Korea : 5 Much better:21 3rd Qu.:27.00 Sporty :26Max. :41990 Sweden : 5 NA's :32 Max. :37.00 Van :10

(Other) : 7 NA's :57

Hier interessieren wir uns für die angegebene Zuverlässigkeit (RELIABILITY) der verschiede-nen Auto-Typen, mit den 5 Ausprägungen Much worse, worse, average, better undMuch better. Mittels CART wollen wir die 5 Gruppen von 85 Autos aus den anderen Vari-ablen bestimmen (“vorhersagen”). Diese sind PRICE, COUNTRY (Herstellungsland), TYPE (mitKategorien small, medium, large, compact, sporty und Van) und MILEAGE (= Milespro Gallon; umgekehrt proportional zur Anzahl Liter pro 100 km !). In Abb. 2 ist ein (etwas zuwenig “beschnittener”) CART-Baum für diese Fragestellung als “Dendrogramm” gezeichnet. Dasangepasste Modell besteht aus einem binären Entscheidungsbaum. Jeder Knoten ist ein univariater“Split” der Form xk > c und die “Blätter” sind Klassifikationen Y = j.

In einem weiteren Beispiel wurde bei 81 Kindern eine korrektive Wirbelsäulen-Operation vorgenom-men, und zwar so dass möglichst keine Deformation („Kyphosis“) zurückbleibt (kyphosis Dat-en in rpart). Erklärende Variable sind Age (in Monaten), Number (Anzahl betroffener Wirbel)und Start (die ‘Nummer’ des ersten betroffenen Wirbels) und man will damit das Auftretenvon Kyphosis (absent/present vorhersagen. Abb. 3 zeigt den (relevanten Teil-)Baum für diesesBeispiel.

Ein solch binärer Entscheidungsbaum entspricht einer rekursiven Partitionierung des p-dimensionalen“Merkmal”-Raumes in (Hyper)-Quader. Für p = 2 ist dies die in Rechtecke aufgeteilte Ebene, inAbb. 4 für das Kyphosis-Beispiel.

9


Country = Grm,Kor,Mxc,Swd,USA

Type = Spr

Type = Lrg,Mdm,Van

Price >= 29e+3

Price < 15e+3

Price >= 13e+3

Country = Kor,Swd,USA

Mileage < 25

Price < 6109

Jpn,J/U

Cmp,Lrg,Mdm,Sml,Van

Cmp,Sml

< 29e+3

>= 15e+3

< 13e+3

Grm,Mxc

>= 25

>= 6109

average18 12 26 8 21

average18 12 23 5 0

Much wor7 0 2 0 0

average11 12 21 5 0

average7 4 16 0 0

Much wor2 1 0 0 0

average5 3 16 0 0

average4 3 5 0 0

Much wor3 1 0 0 0

average1 2 5 0 0

average1 0 11 0 0

worse4 8 5 5 0

worse4 8 2 3 0

worse0 5 1 0 0

Much wor4 3 1 3 0

worse0 2 0 0 0

Much wor4 1 1 3 0

average0 0 3 2 0

Much bet0 0 3 3 21

worseaveragebetter (unused)Much better

Abbildung 2: rpart() Baum der Autodaten cu.summary des USA consumer reports, April 1990, fürZielvariable Reliability. Man sieht, dass vor allem das Herkunftsland eine massgebende erklärendeVariable ist. Der rechte Teilbaum besteht dabei genau aus den japanischen Autos,(in Japan, bzw. USAproduziert).

Start >= 9

Age < 12

Start < 6

Age >= 131

Age < 93

< 9

>= 12

>= 6

< 131

>= 93

absent17 / 81

absent6 / 62

present8 / 19

absent0 / 2

present6 / 17

absent6 / 12

absent0 / 2

present4 / 10

absent2 / 6

present0 / 4

present0 / 5

Abbildung 3: Beispiel Kyphosis: Klassifikations-(Teil)baum. Jeder Knoten, mit “present” bzw. “absent”bedeutet ob die Kyphosis Krankheit mehrheitlich (d.h. Max.Likelihood!) vorhanden ist. Die Verhältnissea/(a + b) sind die (empirischen) Misklassifikationsraeten, d.h. in diesem binären Fall, b = #{Fälle mitgeg. “Label”}, und a die andern, “falsch” angeschriebenen Fälle.

10


0 50 100 150 200

5

10

15

Age

Sta

rt

●

●

●

●

●

●

●

● ●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

● ●●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●●

●

●

●

●

●

●

●

●●

●

●

●

●

●

●

●

●

●

● ●

●● ●

●

●

Abbildung 4: Beispiel Kyphosis: die zum Baum (Abb. 3) äquivalente rekursive Partition des X Raumes.

Folglich ist die Modellfunktion für CART / Bäume,

gtree(x) =R∑r=1

βr1[x∈Rr],

wobei P = {R1, . . . ,RR} die Partition von Rp ist, welche durch die rekursive Partionierungimpliziert ist. Daher ist die Funktion g(·) stückweise konstant: In jedem Blatt des Baumes wirddas gleiche vorhergesagt.

Die Parameterschätzung β1, . . . , βR ist also ganz leicht, wenn die Partition P = {R1, . . . ,RR}gegeben ist. Für binäre Klassifikation (ebenso wie für Regression!),

βr =

n∑i=1

Yi1[xi∈Rr]/

n∑i=1

1[xi∈Rr], (11)

und auch für J Klassen mit J > 2, klassifiziert man direkt, in dem in jedem Blatt des Baumes,Rr, die Klasse arg maxj #{Yi = j; i ∈ Rr}, vorhergesagt wird.

1.4.1 Baum- / Partitions- Algorithmus:

Die wirkliche Herausforderung ist die Daten-abhängige “Schätzung” der Partition P . Dabei wer-den Einschränkungen vorgenommen, um einen praktisch berechenbaren Algorithmus zu erhalten.Dieser rekursive Partionierungs-Algorithmus ist “greedy” und geht so:

1. Starte mit R = 1 Teilmenge, P = {R} = {Rp}.

2. VerfeinereR inRleft ∪Rright wobei:

Rleft = R× R× . . .× (−∞, d]× R . . .× R,Rright = R× R× . . .× (d, ∞)× R . . .× R,

11


also eine der Koordinatenachsen aufgeteilt wird beim Schnittpunkt d, wobei d aus derMenge der Mittelpunkte zwischen Beobachtungen (der jeweiligen Kovariable) gewählt wird.Diese Suche über die beste “Achse” (d.h. Kovariable) und den “split point” d ist derart, dassdie negative Log-likelihood maximal reduziert wird.3

Bilde die neue Partition P = {R1,R2} mitR1 = Rleft, R2 = Rright.

3. Verfeinere die momentane Partition P wie in Schritt 2, indem eine der Partitions-”Zellen”vonP in zwei geteilt wird. D.h., wir suchen die beste “Zelle” und innerhalb derer eine Suchewie im Schritt 2 für die beste Achse (Kovariable x(j)) und Schnittpunkt d.Dann wird die Partition aufdatiert,

P = Pold \ ausgewählte Partitions-Zelle ∪ {verfeinerte ZellenRleft,Rright}.

4. Iteriere Schritt 3 für eine grosse Anzahl Partitionszellen.

5. Rückwarts Vereinfachen: Beschneide (“prune”) den Baum, bis eine “gute” Modellgrösseerreicht ist, d.h. typischerweise mittels Kreuzvalidierung.

1.4.2 Grösse des Baums: Modellwahl

Eine neuere Implementation verschiedener Varianten von CART wird rpart (“recursive partition-ing”) genannt, und ist (als recommended Package) auch Teil von R . Ein Hauptvorteil gegenüberfrüherer Implementationen (tree(.)) sind die eingebauten Modellwahl-Möglichkeiten. Hierbeimüssen wir uns zunächst klar machen, dass ein Wahrscheinlichkeits-Modell vorliegt. Wenn wirvon einem (konzeptionell grossen angepassten) Baum ausgehen, entspricht jedem Blatt (d.h. End-knoten) i des Baumes mit ni Beobachtungen, eine Multinomial-Verteilung mit Wahrscheinlich-keiten πik, (k = 1, . . . , J) für die Zielgrösse Y ∈ {0, . . . , J − 1} mit Anzahlen (ni1, . . . , niJ),∑

k ni,k = ni. Die (auf den Baum bedingte) Likelihood ist dann∏

leaves i

∏Jk=1 π

nikik und die

Devianz D (= −2 Log-Likelihood) somit

D =∑

leaves i

Di, mit den „Blatt-Devianzen“ Di = −2

J∑k=1

nik log πik. (12)

Damit kann man recht leicht berechnen, wie die Devianz sich ändert, wenn ein Blatt i auf zweineue Blätter aufgesplittet wird (Di wird ersetzt durch zwei neue Di′ und Di′′), bzw. umgekehrtzwei Blätter „beschnitten“ (engl. “pruned”) werden.

Wie gross sollen wir den Baum nun wachsen lassen? Man kann sich leicht überlegen, dass eswohl eine Überanpassung bedeutet, wenn man Blätter mit nur noch einzelnen Beobachtungendrin hat. Effektiv ist die Anzahl (äquivalenter) Modellparameter im wesentlichen proportional zurAnzahl Blätter, deren Anzahl wir als Grösse des Baumes bezeichnen. Genau wie in der Regression(Variabelselektion) brauchen wir hier ein Kriterium zur Modellwahl, nämlich das sogenannte “costcomplexity pruning” (=: cp).

Von einem gegebenen (“grossen”) Baum T0 betrachten wir alle Teilbäume T , die durch Pruningaus T0 entstehen, und für all diese eine Gütemass R(T ) wie z.B. die Devianz (oder aber auch dieMissklassifikationsrate). Dann kann als Kriterium eine Bestrafung für zu grosse Bäume, ähnlichwie Cp in der Regression,

Rα(T ) := R(T ) + α× size(T ), (13)

3Suche über j ∈ {1, . . . , p} und Mittelpunkte d ∈ {(xi,j + xi+1,j)/2, i ∈ {1, 2, . . . , n}}, wobei xi,j die sortiertenWerte von x(j) (= unique(sort(X[,j]))) sind.

12


gewählt und minimiert werden, um einen bezüglich α optimal gestutzten Baum zu bestimmen.Dabei haben Breiman et al. (1984) gezeigt, dass die Folge dieser gestutzten Bäume T (α), α ∈(0,∞) selber “nested” ist, d.h. durch Stutzen (“pruning”) auseinander hervorgehen ( α → ∞entspricht dabei der “Wurzelbaum” T∅ (d.h. kein Split, d.h. konstante Vorhersage).

Für die Modellwahl braucht man also „nur“ noch das beste α zu wählen (bzw. das normierte cp= α/R(T∅) in rpart()). Dabei wird nun K-fach Kreuzvalidierung angewandt (K = 10 perDefault), um kreuzvalidierte Fehlerraten für jedes α zu bestimmen, und α so gewählt, dass dieseFehlerrate minimal wird (bzw. “1 S.E. rule”: ein möglichst kleiner Baum, so dass dessen Fehlerratehöchstens eine Standardabweichung grösser ist als die Minimale).

●

●

●

●

●

●●

●●

●

cp

X−

val R

elat

ive

Err

or0.

50.

60.

70.

80.

91.

01.

11.

2

Inf 0.16 0.066 0.042 0.029 0.021 0.015 0.012 0.0098 0

1 2 3 5 6 10 18 23 26 40

size of tree

Abbildung 5: plotcp(.) zeigt hier für das Kyphosis Beispiel (Abb. 3) die volle “leave-1-out” Kreuzvali-dierung der Fehlerraten von rpart()-Modellen als Funktion von α bzw. cp. Ein Baum mit fünf Blättern(Endknoten) scheint daher optimal.

13


> prp(rp.cu.pr, type = 4, extra = 1, box.palette = "auto") # n_j

Country = Grm,Kor,Mxc,Swd,USA

Type = Spr

Type = Lrg,Mdm,Van

Country = Kor,Swd,USA

Jpn,J/U

Cmp,Lrg,Mdm,Sml,Van

Cmp,Sml

Grm,Mxc

average18 12 26 8 21

average18 12 23 5 0

Much wor7 0 2 0 0

average11 12 21 5 0

average7 4 16 0 0

worse4 8 5 5 0

worse4 8 2 3 0

average0 0 3 2 0

Much bet0 0 3 3 21

Much worseworseaveragebetter (unused)Much better

Abbildung 6: “Optimal” gestutzter Baum mit 5 Blättern (d.h. 4 Splits) für das Autodaten Beispiel (unges-tutzter Baum: Abb. 2).

14


1.5 Aggregierung von Modellen: “Bagging”

Bootstrap aggregating (=: “bagging”) ist eine ganz allgemein nützliche Technik, um die Qualitätvon (stark variierenden) Vorhersagemodellen zu verbessern, und daher besonders auch für Baum-Methoden geeignet.

Allgemein gesagt, betrachten wir eine “Grund-Methode” (“base procedure”), z.B. einen BaumAlgorithmus, welche eine geschätzte Funktion liefert,

g(·) : Rp → R

oder g(·) mit Werten in [0, 1] für Klassifikation.

1.5.1 The bagging algorithm

Bagging works as follows.

1. Generate a bootstrap sample

(X∗1 , Y∗1 ), . . . , (X∗n, Y

∗n )

and compute the bootstrapped estimator g∗(·).

2. Repeat step 1 B times, yielding

g∗1(·), . . . , g∗B(·).

3. Aggregate the bootstrap estimates

gBag(·) = B−1B∑i=1

g∗i(·).

The bagging algorithm is nothing else than an approximation

gBag(·) ≈ E∗[g∗(·)]

which can be made arbitrarily good by increasing B. The novel point is that we should use nowE∗[g ∗ (·)] as a new estimator.

A trivial identity hints at some properties of bagging: write (the theoretical version of baggingwith B =∞)

gBag(·) = g(·) + (E∗[g∗(·)]− g(·))= g(·) + bootstrap bias estimate.

Instead of subtracting the bootstrap bias estimate, we are adding it! What we can hope for is avariance reduction at the price of a higher bias. This turns out to be true if g(·) is a tree-basedestimator.

15


1.5.2 Bagging for trees

It can be shown that for tree-based estimators g(·),

Var(gBag(x))asymp.< Var(g(x)),

for very many x. Thus, bagging is a variance reduction technique. The reason for this is that abagged tree turns out to be a product of probit functions Φ(d − ·) instead of indicator functions1[·≤d]. This causes a variance reduction at the price of some bias. For example,

Var(1[X≤d]) = P[X ≤ d](1− P[X ≤ d]).

If X ∼ N (0, 1) and d = 0, the latter quantity equals 1/4. On the other hand,

Var(Φ(−X)) = Var(U) = 1/12, U ∼ Unif.([0, 1]),

which reduces the variance by the factor 3!

We should use large trees for bagging, because the variance reduction due to bagging asks for alarge tree to balance the bias-variance trade-off.

1.5.3 Subagging

Subagging (subsample aggregating) is a version of bagging: instead of drawing a bootstrap samplein step 1 of the bagging algorithm, we draw

(X∗1 , Y∗1 ), . . . , (X∗m, Y

∗m) without replacement

for some m < n. In some simple cases, it can be shown that m = [n/2] is equivalent to bagging.Thus, subagging with m = [n/2] can be viewed as a computationally cheaper version of bagging.

regression tree for ozone data

m

MS

E

0 50 100 150 200 250 300

1520

2530

subaggingbaggingoriginal

MARS for ozone data

m

MS

E

0 50 100 150 200 250 300

1520

2530

subagging baggingoriginal

Abbildung 7: Mean squared error performance for a large regression tree and MARS and their (su-)baggedversions for an ozone data (different from the previous one).

16


We consider a dataset about ozone concentration with p = 8 predictor variables (different fromthe previous ozone dataset). The performance of (su-)bagging for trees and MARS are shown inFigure 7.

We see that bagging improves a regression tree substantially while it does not improve MARS atall (for this example).

The main drawback of bagging is the loss of interpretation in terms of a tree. It is by no meanssimple to interpret a linear combination of trees.

1.6 “Random Forest” für extrem flexible Modellierung

Die Hauptideen des “Random Forest” Algorithmus sind

1. Viele besonders variable Bäume → Wald (“Forest”)

2. Bootstrap

3. Aggregation (“bagging” := Bootstrap aggregating)

(Zitiert aus Liaw and Wiener (2002, S. 18):)The “random forests” or “RandomForest” algorithm (for both classification and regression) con-sists of the following steps:

1. Draw ntree bootstrap samples from the original data.

2. For each of the bootstrap samples, grow an unpruned classification or regression tree, withthe following modification: at each node, rather than choosing the best split among all pre-dictors, randomly samplemtry of the predictors and choose the best split from among thosevariables.

3. Predict new data by aggregating the predictions of the ntree trees (i.e., majority votes forclassification, average for regression).

Man beachte, dass das oben erwähnte “Bagging”4 für Bäume als Spezialfall von “random forests”gesehen werden kann, wenn dort mtry = p (= Anzahl erklärende Variabeln) gesetzt wird.

Eine Schätzung der (“generalisierten” / “wahren”) Fehlerrate kann — hier ohne Kreuzvalidierung(!)— auf folgende Art gewonnen werden:

1. Bei jeder Bootstrap Iteration berechne die Vorhersage (Y |X = x) für jene Datenpunkte, diegerade nicht im Sample drin sind (Breiman nennt diese “out-of-bag”, oder OOB Daten),wobei der Vorhersage-Baum nur die Daten des Sample (“in bag”) verwendet hat.

2. Zuletzt werden die OOB Vorhersagen aggregiert: Im Mittel wird jeder Datenpunkt in rund36% (nämlich (1 − 1

n)n → e−1) aller Bootstrap Ziehungen nicht dabei, also “OOB” seinund dort eine Vorhersage haben. Für jeden Punkt i werden diese Vorhersagen aggregiert(“Mehrheit” für Klassifikation, “Mittel” für Regression). Dies ergibt eine “OOB-Vorhersage”Yi. Berechne die Fehlerrate zwischen allen Yi und Yi und nenne diese “OOB geschätzteFehlerrate” (“OOB estimate of error rate”).

Unsere Erfahrung bestätigt, dass diese OOB-geschätzte Fehlerrate recht genau ist, falls genügendBäume “gezogen” wurden (andernfalls kann sie systematisch zu gross sein).

4Bagging := “Bootstrap aggregating”

17


Zusätzliche Informationen über Random Forests in R

Das R Paket randomForest enthält viele Optionen; ausserdem wird OOB ganz entscheidendverwendet.

So verwendet z.B. nach dem Anpassen, rfit <- randomForest(), predict(rfit) sel-ber schon OOB Vorhersagen, wohingegen predict(rfit, newdata = <obs>) einen per-fekten Fit (also Unsinn) gibt.

Die Ausgabe von rfit (das implizte print(.)) zeigt nicht nur die Gesamt OOB Fehlerrate,sondern auch die volle J ×J “Confusion” Matrix (für die OOB-basierten Vorhersagen) und grup-penwise (realistische!) Fehlerraten.

importance(rfit), or varImpPlot(rfit) berechnen und visualsieren ein “Wichtigkeits-mass” für jede der erklärenden Variabeln.

Optional gibt, rfit <- randomForest(...., proximity=TRUE) ein Mass der inter-nen Struktur der Daten, eine “Nähe” (“proximity”) der verschiedenen Datenpunkte zueinander.

Mit randomForest und verwandten (und erweiterenden) R Paketen, wie randomSurvivalForest,varSelRF etc, werden viele Bäume an die Daten angepasst und deren Variablenselektion undVorhersagen in ein “finales” Modell kombiniert.

Häufig ergibt dies sehr gute Vorhersagen — mit dem Nachteil, dass diese Modelle kaum mehrinterpretierbar sind.

1.7 Flexible Diskriminanzanalyse

Hastie, Tibshirani, and Buja (1994) (und auch Hastie, Buja, and Tibshirani (1995)) verwendenkonsequent einen Ansatz für multivariate (nichtlineare) Regression um Klassifikation zu lösen,ähnlich wie in Abschnitt 1.3. Bei J Klassen wird ein J-dimensionaler Vektor y = f(x) modelliert,wobei einer Beobachtung x jeweils jene Gruppe j zugeordnet wird, für die yj = maxk yk ist. Esist bekannt, dass (bei gleichgrossen Gruppen) die klassische lineare Diskriminanzanalyse einerlinearen (multivariaten) Regression entspricht.

Flexible Diskriminanzanalyse-Modelle erhält man jetzt mittels Wahl diverser (multivariater) Re-gressionsmethoden, insbesondere auch nichtparametrische, wie “Bruto”, “MARS” (s.u.). Imple-mentiert sind diese im unten erwähnten mda package für R , in den Funktionen fda(), bruto(),mars() etc.

1.8 Weitere Ansätze

1.8.1 Nächste Nachbarn, “Learning Vector Quantization”

Die k-nächste-Nachbar (k nearest neighbor, „knn“) Methode klassifiziert einen Vektor x mit-tels aller schon klassifizierten (Trainings-)Daten. Bezüglich einer („guten“!) Metrik d(x, y) wer-den zu x die k nächsten Nachbarn gesucht. Eine „Abstimmung“ (Mehrheitsregel) bestimmt danndie Klasse j von x. Ein Nachteil ist, dass im Prinzip alle Trainings-Daten für die Klassifikationbenötigt werden. Dem wird versucht abzuhelfen, mit multiedit Verfahren, wobei hier danneher die LVQ (unten) zu empfehlen ist.

18


„Mustererkennung“ Auch dies ist eigenlich nur ein anderes Wort für dasselbe Problem abermit einer etwas andern „Tradition“ (McLachlan (1992)). Originell ist hier die Einführung zweierSonder-Gruppen für „zweifelhaft“ (“doubt”) und „Ausreisser“. Wenn die Zuordnung zu „zweifel-haft“ weniger kostet als Missklassifikation, kann auch hier eine optimale Entscheidungsregel ver-wendet werden, und die vorgeschlagenen Methoden sind auch praktisch nützlich. Insbesonderekann ein (k, l)-knn Klassifikator (l ≤ k) so definiert werden, dass von den k Nachbarn min-destens l die gleiche Klasse y∗ haben müssen, damit y∗ vorhergesagt wird, andernfalls wird als„zweifelhaft“ klassifiziert. Ripley erwähnt, dass Fehlerraten der (2, 2)- und (3, 2)-knn Klassifika-toren verwendet werden können, um das Bayes-Risiko abzuschätzen.

Learning Vector Quantization (LVQ) von Kohonen verbessert die KNN nun mit der Idee, nureinige wenige „Repräsentanten“ anstatt aller Daten zu verwenden und mit diesen eine Nächste-Nachbar–Klassifikation durchzuführen. Die Mischungsmodelle in 1.8.2 sind eine „glatte“ allge-meinere Version davon (s.u.).

Für R sind diese Klassifikatoren (z.T. inklusive Kreuzvalidierung) implementiert im Paket class,in den Funktionen knn(), lvq1, lvq2, lvq3(), olvq1, etc.

1.8.2 “Mixture” Modelle

Hastie and Tibshirani (1996) schlagen einen halb parametrischen Ansatz vor: Jede der Klassenwird modelliert als Mischung einiger normalverteilter Komponenten mit gleicher Kovarianzmatrix|Σ, d.h., f(x | j) =

∑Kjk=1(2π | |Σ|)

−p/2(x − µjk)ᵀ |Σ−1(x − µjk). Die Parameter (Kj und µjk)werden mittels EM-Algorithmus bestimmt. Für gewisse Situationen scheinen diese MDA Modelleallen bisherigen Methoden überlegen. Im R sind diese im CRAN Paket mda implementiert.

Neuronale Netze Werden im Data-Mining auch für Klassifikation verwendet, wir kommen imnächsten Abschnitt darauf zurück.

Boosting “Boosting” ist (wie “Bagging”) eine neue Technologie, ursprünglich erfunden (alsADAboost), mit der Idee, CART-Bäume zu verbessern, indem schlecht vorhergesagte Beobach-tungen stärker gewichtet, wieder ein Baum-Modell angepasst, und das ganze iteriert wird. Zuguter Letzt werden die Vorhersagen aller angepassten Baum-Modelle gewichtet kombiniert füreine “Ensemble”-Vorhersage, die oft deutlich besser ist als der ursprüngliche Baum.

CRAN R Pakete sind gbm, mboost; spezialisiert auch GAMBoost oder CoxBoost. Wie beimBagging, liefern solche Ensemble-Methoden zwar oft deutlich bessere Vorhersagen, sind dafüraber nur noch schwer interpretierbar: Gewichtet kombinierte Bäume sind keine Bäume mehr!

19

2 FLEXIBLE VORHERSAGE WBL Statistik — Statist. Datamining

2 Flexible Vorhersage-Methoden (Regression etc)

Wie erwähnt, geht es hier einerseits im Gegensatz zur Klassifikation um Vorhersagen (“Wirkungsprog-nosen”) kontinuierlicher Grössen, andererseits können viele der hier verwendeten Modelle auchfür Klassifikation verwendet werden, indem sie auf die (kontinuierlichen) Logits der (bedingten)Klassifikations-Wahrscheinlichkeiten angewandt werden. Hier kann aus Zeitgründen nur ein gewiss-er Überblick gegeben werden über vorhandene Modelle und Methoden.

Im WBL Block „Nichtparametrische Regression“ haben wir bereits additive Modelle, und Vari-anten/Verallgemeinerungen wie MARS, Projection Pursuit Regression und Neuronale Netze ken-nengelernt.

Diese werden hier daher zum grossen Teil vorausgesetzt, allenfalls kurz nochmals erwähnt.

2.1 Y -Transformations-Modelle, ACE, AVAS

Diese Modelle sind eine manchmal nützliche Verallgemeinerung der Additiven Modelle, indemzusätzlich zu den sj

(x(j))

noch eine “Transformation” y 7→ θ(y) für die Zielvariable bestimmtwird.

θ(Yi) = α+

p∑j=1

sj(x(j)i ) + Ei, i = 1, . . . , n. (14)

ACE (“Alternating Conditional Expectation”) wurde in Breiman and Friedman (1985) vorgeschla-gen;

AVAS (“Additivity and Variance Stabilizing Transformation”) wurde von Tibshirani (1988) alsVerbesserung von ACE konstruiert. Hier wird θ monoton vorausgesetzt, so dass eine Rücktrans-formation Y = θ−1

(α+

∑pj=1 sj(x

(j)i ))

möglich ist. Auch weitere der unangenehmen Eigen-schaften von ACE sind hier aufgehoben. Allerdings ist wenig Theoretisches bekannt, nicht einmalKonvergenz des Algorithmus bewiesen. Die Grund-Algorithmen stehen im R Package acepackzur Verfügung; bequemere Benützung erlauben die Funktionen transcan() oder gar areg.boot(mit eingebautem Bootstrap um die Variabilität abzuschätzen) aus Harrell’s Hmisc Paket.

Praktisch nützlich sind diese Methoden auch, um einen Hinweis auf eine gute parametrischeTransformation (z.B. “power”, θ(y) = (yλ − 1)/λ) von Yi zu finden, bevor additive Modelleangepasst werden. Wir zeigen hier ein Beispiel der Anwendung von areg.boot() für simulierteDaten:

N <- 200; set.seed(171) # für Reproduzierbarkeit

x1 <- rnorm(N)x2 <- runif(N) # `Noise', der nichts zu y beiträgt

x3 <- factor(sample(c('cat','dog','cow'),N,TRUE)) # auch nur `Noise'

> y <- exp(x1 + rnorm(200)/3)> f <- areg.boot(y ~ x1 + x2 + x3, B = 40)> plot(f)

20


0 2 4 6 8 12 16 20 24

−3−1

12

34

y

Tran

sfor

med

y

−2.5 −1.5 −0.5 0.5 1.5 2.5 3.5

−3−1

12

34

5

x1

Tran

sfor

med

x1

0.0 0.2 0.4 0.6 0.8 1.0−0.1

6−0

.06

0.02

0.10

x2

Tran

sfor

med

x2

x3

Tran

sfor

med

x3

−0.0

50.

000.

05cat cow dog

Abbildung 8: areg.boot(y ˜ x1 + x2 + x3, B = 40) berechnet 40 Bootstrap Versionen vonavas(). Die Daten wurden künstlich generiert mit y <- exp(x1 + rnorm(200)/3). Wie gewün-scht, ist die angepasste Transformation von y sehr nahe bei log(y), die Transformation (bzw. glatte Funk-tion) von x1 praktisch linear, und jene von x2 und x3 im wesentlichen flach.

2.2 Übersicht über erwähnte multiple Modelle

Additive Modelle Yi = α+∑p

j=1 sj(x(j)i ) + Ei gam(y ∼ s(x1) + s(x2)

+ x3)

ACE/AVAS θ(Yi) = α+∑p

j=1 sj(x(j)i ) + Ei ace(x,y,..),

avas(x,y,..); fernertranscan,areg.boot

Projection Pursuit Regressionund Neuronale Netze

Yi = α+∑M

j=1 sj(αjᵀxi) + Ei ppr(..) und via

“library(nnet”:nnet(x,y, size=..,. . .)

Etwas mehr Details und Referenzen über die erwähnten Methoden findet man in Venables andRipley (2002, Kap. 10).

2.3 Neuronale Netze und PPR

Wir betrachten hier nur die am weitest verbreiteten “Feedforward” Netzwerke mit “hidden layers”(versteckten Schichten), und speziell mit einem hidden layer. Ein solches Netz wird auch Twolayer Perceptron genannt.

Für eine Beobachtung (x,y) werden die (multivariaten) Outputs yk (k = 1, . . . ,m) durch fol-gende Modellgleichung aus den Inputs xj (j = 1, . . . , p) berechnet,

yk = φ0

⟨αk +

∑h

whkφh⟨αh +

∑j

wjhxj⟩⟩, (15)

21


InputsHidden Units Outputs

1

2

p

j :

1

q

h : 1

2

k :wj, h

wh, k

Abbildung 9: Einfaches (“feed-forward”) Neuronales Netz mit einer ‘hidden layer’.

wobei für unsere Regression-Situation m = 1 (“ein Output-Knoten”) ist. Für die φh des “hiddenLayers” wird praktisch immer die logistische Funktion (“Sigmoid” genannt) verwendet, φh(x) =ex/(1 + ex), während die “Aktivierungsfunktion” φ0 am Ausgang im Falle der Regression meistals Identität (“linear”) gewählt wird. Zur Anpassung (“Training”) eines solchen Netzwerks wird“Backpropagation”, eine schnelle, grob approximative Gradientenmethode, verwendet.

Das Neuronale Netz hat n − df = 48 − 19 = 31 Residuen–Freiheitsgrade, RSS = 13.7, undCp = 13.7 + 2 · (19)σ = 34.8 und ist damit gut, aber klar schlechter als das beste GAM. Es isttypisch, dass das NN eher zu viele Parameter braucht.

Neuronale Netze zur Klassifikation Im Data-Mining wurden neuronale Netze (die “künstlicheGehirne” suggerieren) auch viel für Klassifikation eingesetzt. Ripley (1994) (& Ripley (1993))gibt eine Übersicht und vergleicht N.N. mit andern Methoden (u.a. LDA, Proj. Pursuit, Bäume,LVQ) auch an Anwendungsdaten.

Auch hier gibt es im wesentlichen die beiden Ansätze mit einem logistischen Output (für J = 2)oder für jede Klasse j = 1, 2, . . . , J einen separaten Output mit anschliessender Maximum-Regel.Als Beispiel klassifizieren wir noch einmal die Iris-Daten in R ; wir haben J = 3 Klassen (dieSpezies) verwenden ein neuronales Netz mit drei Outputs und Maximum-Regel für den Out-put. Dies entspräche einem “plugin” Bayes-Klassifikator (2), wenn die drei Outputs korrekt aufWahrscheinlichkeiten (π1(x), π2(x), π3(x)) normiert wären:

> library(nnet)# sample half of the iris data -- "stratified" : half from each species:

> set.seed(101)> samp <- c(sample(1:50,25), sample(51:100,25), sample(101:150,25))

# -- Formula: Species is "factor" -> Classification

> (nn.ir <- nnet(Species ~ ., data = iris, subset = samp,+ size = 2, rang = 0.1, decay = 5e-4, maxit = 300))> summary(nn.ir)a 4-2-3 network with 19 weights

options were - softmax modelling decay=5e-04b->h1 i1->h1 i2->h1 i3->h1 i4->h1

-27.81 0.97 -0.54 2.87 5.34b->h2 i1->h2 i2->h2 i3->h2 i4->h2

22


-0.34 -0.78 -1.57 2.77 0.93b->o1 h1->o1 h2->o16.03 -3.33 -7.92

b->o2 h1->o2 h2->o2-1.62 -16.90 11.45b->o3 h1->o3 h2->o3-4.41 20.23 -3.53

## Evaluate at the "test data" : those not sampled as training> Y.pred <- predict(nn.ir, iris[-samp, 1:4], type = "class")> table(iris[-samp, "Species"], Y.pred) # Confusion matrix:

setosa versicolor virginicasetosa 25 0 0versicolor 0 24 1

virginica 0 4 21

# 4+1 or 1+1, 3+0, 2+0, 5+0 misclassifications -- dep. on starting values

## Full (in- and out-sample) table:table(iris[, "Species"], predict(nn.ir, iris[,1:4], type= "class"))# --> same misclassifications (i.e. had perfect fit to training data)

Ideen sind — ähnlich wie oben — Prinzipien wie multivariate (nichtlineare) Regression, undauch “thresholding” (= diskretisieren von kontinuierlichen Variabeln). Venables and Ripley (2002,Kap.11, bes. 11.6 ff), zeigen dass ein Problem der NN die vielen lokalen Maxima der Zielfunk-tion sind, so dass je nach (zufälligen) Startgewichten andere Lösungen entstehen. Es wird dannvorgeschlagen, für die Klassifikation ein Mittelwert über die (in ihrem Beispiel 20) Lösungen zunehmen.

Ripley (1996) ist ein wichtiges Textbuch zum Thema. In Hastie et al. (1994) (u.a.) werden bessereResultate als mit NN erzielt.

23

3 REGRESSION MIT P � N : LASSO WBL Statistik — Statist. Datamining

3 Regression mit grossem p : Variabelselektion mit Regularisierung,Lasso, etc

3.1 Einführung

Die folgenden Überlegungen und Methoden sind sowohl für Klassifikation und Regression rel-evant. Aus verschiedenen Gründen werden wir uns jedoch im ganzen Abschnitt auf Regressionfokussieren.

In Situationen mit vielen potentiellen erklärenden Variabeln, welche dann teilweise stark korreliertsein können, leiden die klassischen Regressions Methoden darunter, dass die geschätzten Koef-fizienten sehr schlecht bestimmbar (“ill-determined”) werden können. D.h dass die Koeffizientensehr hohe Varianz (und Korrelation) haben auch wenn das angepasste Regressionsmodell (“Fit”)wohlbestimmt ist.

In der multiplen linearen Regression mit dem Modell Yi = xiᵀβ + εi, (i = 1, . . . , n), oder

äquivalentY = Xβ + ε, (16)

wobei β,xi ∈ Rp, und X die n×pMatrix der Zeilen x1,x2,. . . ,xn (oder Spalten x(1),. . . ,x(p)) ist,hatten wir angenommen, dass die Anzahl Beobachtungen n grösser sei als die Anzahl Parameterp, d.h., n > p, damit, z.B. die Matrix XᵀX von vollem Rang p ist.

Eine Hauptmotivation für dieses Thema ist das vermehrte Auftreten von Daten, mit (potentiell) vielmehr erklärenden Variabeln als Beobachtungen, kurz gesagt, wo p� n . Ein wichtiges solchesAnwendungsgebiet ist die “Bio Informatik”, z.B. bei der Untersuchung von “genomischen Dat-en”, wo z.B. ein sogenannter “Microarray” Gen-Expressions Niveaus von Tausenden von Genen(p = 1000–50’000) enthält (für eine Zellprobe), und meist nur ein paar Dutzend solcher Arrays(n = 20–100) vorliegen. Die Zielvariable Y ist hier oft binär, z.B. “normal” vs “krank”), was einKlassifikationsproblem mit J = 2 Klassen bedeutet. Dies als Regressionsproblem (d.h. mit L2

Verlust) zu behandeln kann hier nützlich sein.5

3.2 Ridge Regression

Let’s consider the regression model (16), or

Yi = β0 + β1xi,1 + . . .+ βpxi,p + εi, i = 1, . . . , n.

For least squares, one can see that β′0 = Y (= 1/n∑n

i=1 Yi) when the model is re-written as

Yi = β′0 + β1(xi,1 − x.,1) + . . .+ βp(xi,p − x.,p) + εi.

Hence, in all of the following, we will assume that all the variables (Y., and x.,j =: x(j)) have beencentered, i.e., mean subtracted, such that no intercept is needed, and we use the equivalent modelfor the transformed variables,

Yi = β1xi,1 + . . .+ βpxi,p + εi, i = 1, . . . , n. (17)

Note that in order to have βj on a comparable scale, one also typically scales the x(j)’s such that∥∥x(j)∥∥ = 1 for all j .

5Daneben gibt’s Regularisierungs- und Lasso-Methoden für logistische oder multinomiale Regression.

24


Let’s now assume that the variables (column vectors) x(j) = (xi,j)ni=1 and x(k) are highly corre-

lated (positively or negatively), or equivalently, since they both have mean 0, x(k) ≈ cx(j) (forc 6= 0) or x(j) ≈ 1/cx(k). As a consequence, in the following part of the model,

βjx(j) + βkx

(k) ≈ βjx(j) + βk (cx(j))

= (βj + βkc)x(j)

≈ (βj/c+ βk)x(k)

the coefficients of x(j) and x(k) are not well determined individually, but their model term (βjx(j)+βkx

(k)) still is. Geometrically, in the βj-βk-plane the high confidence region forms narrow ellipses,i.e., the β components themselves are linearly related, or that the coefficients of βj and βk them-selves highly correlated but not be well determined individually, i.e., have a large variance. In theextreme case of “perfect” correlation, the matrix X would have columns j and k collinear andhence only have rank ≤ p − 1. When the correlation is less extreme, X is still of full rank p andXᵀX is close to a singular matrix.6 One approach to this problem is to regularize it by improvingthe condition of the matrix corresponding to XᵀX.

To give a numerical example, say x(2) ≈ −2x(1), then 1x(1) is close to 3x(1) + x(2) and hence to5x(1)+2x(2) or 51x(1)+25x(2). One way to make the linear combination more clearly determinedis to restrict the coefficients to small (absolute) values, or, more conveniently requiring that

∑j β

2j

be “small”. This leads to the so called ridge regression

β(s) = arg min‖β‖2≤s

‖Y −Xβ‖2 ,

which can be shown (by way of a Lagrange multiplier) to be equivalent to

β∗(λ) = arg min

β{‖Y −Xβ‖2 + λ ‖β‖2}, (18)

where there is a one-to-one relationship between λ and the bound s above, and the limit λ → 0

corresponds to s = max ‖β‖2 →∥∥βLS∥∥2, i.e., the ordinary least squares. As there, by setting

derivatives ∂/∂β to zero, this minimization problem is equivalent to the “normal equations”

(XᵀX + λI)β∗

= XᵀY, (19)

where the p×pmatrix (XᵀX+λI) will be non-singular as soon as λ > 0 and “well-conditioned”as soon as λ is large enough, even when n < p and XᵀX is clearly singular.

The ridge penalty entails that βj(λ) → 0 (“shrinking”) when λ → ∞, and also, typically, βj →βj′ (“shrinking together”) for two different coefficients.

Hence it seems intuitive that β∗

will have some bias (E[β∗] 6= β), but that its variance(s) can be

considerably smaller than Var βLS

such that mean squared errors are smaller. As for smoothing(in particular, spline smoothing) we have a regularization parameter λ which determines the trade-off between bias and variance, and as there, we’d use something like cross validation to determinean approximately optimal value for λ.

In the literature (and the R function lm.ridge() from the package MASS) there are “cheaper”approaches like GCV for determining an approximately optimal λ. In practice, one often wantsto look at the ridge traces, i.e., a plot of the coefficients βj(λ) vs λ. As an example we considerLongley’s macro economical data, for once modelling y = GNP.deflator as function of the othersix variables. The ridge traces βj(λ) are shown in Figure 10. We have used a “relevant” intervalfor λ where the shrinking towards zero is visible (but still somewhat distant from the limit).

6such that Cov(β) = σ2(XᵀX)−1 will have very large entries corresponding to the high variance (and correlation)of βj and βk.

25


0.00 0.01 0.02 0.03 0.04 0.05 0.06 0.07 0.08 0.09 0.10

−3

−2

−1

01

23

45

67

8

λ

β j

GCV kLW

Unemployed

Armed.ForcesPopulation

GNP.deflatorGNP

Year

Abbildung 10: Ridge traces for the six coefficients βj(λ) (j = 1, . . . , 6) for the Longley data. The verticallines indicate traditional estimates of the optimal ridge parameter λ.

3.3 The Lasso

In some sense, the “Lasso” (Tibshirani, 1996) regression is just a simple variant of ridge regression.However with the goal of variable selection in mind, the lasso brings a major improvement:

The lasso can be defined by restricting the absolute instead of the squared values of the coefficients,i.e.,

β(s) = arg min∑j |βj |≤s

‖Y −Xβ‖2 ,

or

β∗(λ) = arg min

β{‖Y −Xβ‖2 + λ

p∑j=1

|βj |},

= arg minβ

{‖Y −Xβ‖2 + λ‖β‖1}. (20)

As opposed to the ridge regression case above, this problem is not solvable by simple linear algebrabut rather needs quadratic programming or related algorithms.

On the other hand, the solution is much more interesting, because it will be frequent that βj willbecome exactly 0 as soon as λ > λj , in other words, choosing λ here, automatically means modelselection, namely only choosing regressor variables x(j) with βj 6= 0. This can be visualizedconsidering the “lasso traces”, Fig. 11.

26


* * * * * * * * * * *

0.0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1.0

−15

−10

−5

0

5

10

15

20

25

30

35

lars(x = longley.x, y = longley.y, trace = TRUE)

β max β

Sta

ndar

dize

d C

oeffi

cien

ts

*

** *

* * * *

*

*

*

* ** *

* * * * * * *

* * * ** * * * * * *

* * * * * *

* ** *

** * * *

* *

* *

*

*

*

LASSO ( longley )

2

3

451

6

0 1 2 4 6 8 9 10

Abbildung 11: Lasso traces for the six coefficients βj(λ) (j = 1, . . . , 6) for the Longley data.

3.4 Lasso extensions

3.4.1 Regularization and variable selection via the elastic net

The elastic net has been propagated by Zou and Hastie (2003), J.R. Statist. Soc. B, and is imple-mented in R package elasticnet. For any fixed non-negative λ1 and λ2, we define the naïveelastic net criterion

L(λ1, λ2,β) = ‖Y −Xβ‖2 + λ2 ‖β‖2 + λ1‖β‖1, (21)

and the naïve elastic net estimator β is the minimizer of (21), β = arg minβ L(λ1, λ2,β).

This procedure can be viewed as a penalized least squares method. Let

α = λ2/ (λ1 + λ2) ,

then solving β in (21) is equivalent to the optimization problem

β = arg minβ

‖Y −Xβ‖2 , subject to (1− α)‖β‖1 + α ‖β‖2 ≤ t for some t. (22)

We call the function (1 − α)‖β‖1 + α ‖β‖2 the “elastic net penalty”, which is a convex com-bination of the lasso and ridge penalty. When α = 1, the naïve elastic net becomes simple ridgeregression.

Here, we consider only α < 1. For all α ∈ [0, 1), the elastic net penalty function is singular(without first derivative) at 0 and it is strictly convex for all α > 0, thus having the characteristicsof both the lasso and ridge regression. Note that the lasso penalty (α = 0) is convex but not strictlyconvex. These arguments can be seen clearly from Fig. 12.

27


β1

β2

α = 0α = 1 2α = 1

Abbildung 12: Two-dimensional contours of the ridge, lasso, and elastic net (α = 12 ) penalties.

3.4.2 The Adaptive Lasso and its Oracle Properties

Based on Hui Zou (2006), JASA. Let us consider the lasso with penalty weights,

arg minβ

∥∥Y − p∑j=1

βjxj

∥∥2 + λ ·p∑j=1

wj |βj | . (23)

where w is a known weights vector. Zou shows that if the weights are data-dependent and clev-erly chosen, the weighted lasso can possess so called oracle properties. The new methodology,called the adaptive lasso, is defined as follows. Suppose β is a

√n consistent estimator of β.

For example, we can use the least squares βols . Pick a γ > 0, and define the weight vector w

componentwise as wj = 1

|βj|γ . The adaptive lasso estimates β∗(n) are then given by

β∗(n) = arg minβ

∥∥∥Y − p∑j=1

βjxj

∥∥∥2 + λ ·p∑j=1

wj |βj | . (24)

It is worth emphasizing that (24) is a convex optimization problem, and thus has no multiple localminimal and its global minimizer can be efficiently found.

3.4.3 Lasso – sparse modelling

As of June 1, 2017, there are 79 R packages on CRAN (out of 10730) all with the word “LAS-SO"(or “lasso", “Lasso", . . . ) in their title.

There are many more that use lasso and its techniques, e.g., hdi (from SfS, ETHZ) which do nothave lasso in their title.

Sparse high-dimensional modelling has been a hot topic for the last 15 years and may remainimportant in the age of big data.

28


Ein aktuelle Monographie mit etlichen Beispielen (und mathematischer Theorie) ist Hastie, Tib-shirani, and Wainwright (2015).

29

LITERATURVERZEICHNIS WBL Statistik — Statist. Datamining

Literatur

Breiman, L. and J. H. Friedman (1985). Estimating optimal transformations for multiple regres-sion and correlation. JASA 80, 580–619.

Breiman, L., J. H. Friedman, R. Olshen, and C. J. Stone (1984). Classification and RegressionTrees. Monterey, California: Wadsworth.

Chambers, J. M. and T. J. Hastie (1991). Statistical Models in S. Computer Science. Wadsworth.

Hastie, T., A. Buja, and R. Tibshirani (1995). Penalized discriminant analysis. Annals of Statistics23, 73–102.

Hastie, T. and R. Tibshirani (1996). Discriminant analysis by Gaussian mix-tures. Journal of the Royal Statistical Society B 58, 155–176. longer Tech.Rep. athttp://playfair.stanford.edu/reports/hastie/.

Hastie, T., R. Tibshirani, and A. Buja (1994). Flexible discriminant analysis by optimal scoring. JASA89(428), 1255–1270.

Hastie, T., R. Tibshirani, and J. Friedman (2009). The Elements of Statistical Learning- Data Mining,Inference and Prediction (2nd ed.). New York: Springer-Verlag.

Hastie, T., R. Tibshirani, and M. Wainwright (2015). Statistical Learning with Sparsity, The Lasso andGeneralizations. CRC Press, a Chapmann and Hall Book.

Hastie, T. J. and R. J. Tibshirani (1990). Generalized Additive Models, Volume 43 of Monographs onStatistics and Applied Probability. London: Chapman & Hall.

James, G., D. Witten, T. Hastie, and R. Tibshirani (2013). An Introduction to Statistical Learning. SpringerTexts in Statistics. Springer.

Liaw, A. and M. Wiener (2002, December). Classification and regression by randomForest. R News 2(3),18–22.

McLachlan, G. J. (1992). Discriminant Analysis and Statistical Pattern Recognition. Wiley series inprobability and mathematical statistics. Applied probability and statistics. New York (etc.): Wiley.

Ripley, B. D. (1993). Statistical aspects of neural networks. In O. E. Barndorff-Nielsen, J. L. Jensen,and W. S. Kendall (Eds.), Networks and Chaos – Statistical and Probabilistic Aspects, Number 50 inMonographs on Statistics and Applied Probability. Chapman & Hall.

Ripley, B. D. (1994). Neural networks and related methods for classification (with discussion). Journal ofthe Royal Statistical Society B 56(3), 409–456.

Ripley, B. D. (1996). Pattern Recognition and Neural Networks. Cambridge University Press.

Tibshirani, R. (1988). Estimating transformations for regression via additivity and variance stabilization.JASA 83(402), 394–405.

Venables, W. N. and B. D. Ripley (2002). Modern Applied Statistics with S (4 ed.). Statistics and Com-puting. Springer-Verlag, New York.

30