Statistisches Data-Mining - ethz.ch .1 KLASSIFIKATION WBL Statistik — Statist....

download Statistisches Data-Mining - ethz.ch .1 KLASSIFIKATION WBL Statistik — Statist. Datamining 1 Klassiï¬kation

of 31

  • date post

    13-Aug-2019
  • Category

    Documents

  • view

    212
  • download

    0

Embed Size (px)

Transcript of Statistisches Data-Mining - ethz.ch .1 KLASSIFIKATION WBL Statistik — Statist....

  • Weiterbildungslehrgang in angewandter Statistik, ETH Zürich 2018

    Statistisches Data-Mining

    Dr. Martin Mächler Seminar für Statistik, ETH Zürich

    maechler@stat.math.ethz.ch

    Okt. 2018

    Inhaltsverzeichnis

    0 Übersicht 1

    1 Klassifikation 2 1.1 Der Bayes-Klassifikator . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2 1.2 Die „Sicht“der Diskriminanz-Analyse . . . . . . . . . . . . . . . . . . . . . . . 3 1.3 Die Sicht der Logistischen Regression . . . . . . . . . . . . . . . . . . . . . . . 4 1.4 Partitionierungs- oder Baum-Modelle (“CART”) . . . . . . . . . . . . . . . . . . 9 1.5 Aggregierung von Modellen: “Bagging” . . . . . . . . . . . . . . . . . . . . . . 15 1.6 “Random Forest” für extrem flexible Modellierung . . . . . . . . . . . . . . . . 17 1.7 Flexible Diskriminanzanalyse . . . . . . . . . . . . . . . . . . . . . . . . . . . 18 1.8 Weitere Ansätze . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 18

    2 Flexible Vorhersage 20 2.1 Y -Transformations-Modelle, ACE, AVAS . . . . . . . . . . . . . . . . . . . . . 20 2.2 Übersicht über erwähnte multiple Modelle . . . . . . . . . . . . . . . . . . . . . 21 2.3 Neuronale Netze und PPR . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 21

    3 Regression mit p� n: Lasso 24 3.1 Einführung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 24 3.2 Ridge Regression . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 24 3.3 The Lasso . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 26 3.4 Lasso extensions . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 27

    i

  • 0 ÜBERSICHT WBL Statistik — Statist. Datamining

    0 Übersicht

    „Data-Mining“ ist seit einigen Jahren ein wichtiger Begriff geworden. Eine vereinfachende Defini- tion wäre „Data-Mining“ ist nichts anderes als Datenanalyse von grossen Datensätzen, bzw. gar nur exploratorische Datenanalyse grosser Datensätze1. Dies betrifft jedoch nur einen Teil des DM. In grossen Betrieben wird unter DM oft vielmehr die ganze Informatik und Analyse verstanden, die vorgenommen wird, um aus den Computer-Daten, die “sowieso” aus den Betriebsabläufen anfallen, nützliche Informationen zu extrahieren. Ein Bild dahinter ist die Goldmine, wo man mit- tels geeigneter Schürfwerkzeuge und etlichem Können in einem Haufen Dreck ein Gold-Nugget finden kann.

    Ein ausführlicher Wikipedia Artikel, http://de.wikipedia.org/wiki/Data_Mining, verwendet die Definition (nach Bensberg): „Data Mining“ ist ein integrierter Prozess, der durch Anwendung von Methoden auf einen Datenbestand Muster entdeckt. Ziel ist dann also die Erken- nung von Mustern (engl. “pattern recognition”). DM ist dann aber auch wieder der ganze Prozess, der zu solchen Mustern führt, bis zur Inter- pretation(!), inklusive Daten-Bereitstellung, -Extraction, und -Aufbereitung. Allerdings wurde bei andern Autoren auch festgehalten, das bloss gilt

    Data-Mining = Statistics + Marketing.

    Dies stimmt insofern, als Data-Mining auch einfach heisst, dass moderne Methoden der Daten- analyse in Gebieten angewandt werden, wo vorher die Daten kaum analysiert wurden. In diesem Block geht es aus diesem Grunde um „statistisches Data-Mining“, ohne auf IT-Aspekte oder Betriebs-Abläufe einzugehen.

    Die DM-Problemstellungen werden auch aufgeteilt in die beiden Klassen von

    1. Beschreibungsproblemen 2. Prognoseprobleme

    wobei erstere z.B. die Cluster-Verfahren und weitere explorative und deskriptive Datenanalyse beinhalten, wir uns im folgenden jedoch vor allem mit der zweiten Gruppe befassen. Diese „Prog- noseprobleme“ werden dann im wesentlichen unsere beiden Hauptkapitel ausmachen,

    1. Klassifikation und

    2. “Wirkungsprognosen” d.h. Vorhersage kontinuierlicher Grössen, was wir normalerweise (multiple, flexible, nicht-parametrische) Regression nennen.

    Vom Standpunkt der Informatik oder IT wird dieses Thema oft innerhalb des Bereichs “Knowledge Discovery in Databases” (KDD) behandelt, und die Prognoseprobleme, die wir hier behandeln, als sogenanntes “Machine Learning”, bzw. “supervised learning”.

    Bei all diesen Ansätzen wird die Bedeutung von Inferenz (Tests, Vertrauensintervalle, etc) ver- ringert, oft ebenfalls die Interpretierbarkeit, zugunsten möglichst guter Vorhersagen (“prediction”). Als modernes Textbuch (aus Sicht der Statistik) ist Hastie, Tibshirani, and Friedman (2009) zu empfehlen, bzw. die angewandtere “Version” davon, James, Witten, Hastie, and Tibshirani (2013).

    1In diesem Sinne wäre “Big Data Analysis” ein modischerer Titel als “Data Mining”

    1

    http://de.wikipedia.org/wiki/Data_Mining

  • 1 KLASSIFIKATION WBL Statistik — Statist. Datamining

    1 Klassifikation

    Hier betrachten wir die in Data-Mining Anwendungen häufige Situation, wo nur die Gruppen- zugehörigkeit von Beobachtungen (Individuen) interessiert, mit anderen Worten, wo die Zielvari- able Y also nicht kontinuierlich ist (wie bei der Regression), sondern nur endliche viele mögliche Werte („Labels“) annimmt. Als Beispiel könnte Yi die Information beinhalten, ob der i-te Patient Krankheits-Typ A, B, oder C hat, oder es könnte beschreiben, ob der i-te potentielle Kunde positiv auf eine Werbekampagne reagiert (ja/nein).

    Ohne Einschränkung können wir im Weiteren annehmen, dass diese kategoriale Information durch die Zahlen 0, 1, . . . , J − 1 kodiert wird. D.h. Y ∈ {0, . . . , J − 1}, wobei wir keine Ordnung unter diesen Zahlen 0, 1, . . . , J − 1 implizieren wollen. Nochmals anders ausgedrückt, besteht der Stichprobenraum unserer Zielvariable aus J Gruppen („Sub-Populationen“) Πj , j = 0, . . . , J−1, und wir wollen auf Grund von erklärenden Variablen (die hier auch als „Merkmale“ bezeichnet werden) die Beobachtungen „klassifizieren“, bzw. die richtige Klasse identifizieren.

    Unsere Daten können wir betrachten als (Realisierungen von)

    (X1, Y1), . . . , (Xn, Yn) i.i.d. , (Xi ∈ Rp),

    und das allgemeinste Ziel ist dann Wahrscheinlichkeiten zu berechnen (d.h. zu „schätzen“),

    πj(x) = P [Y = j | X = x] (j = 0, 1, . . . , J − 1),

    (selbstverständlich ∑J−1

    j=0 πj(x) ≡ 1) wobei πj(x) ganz ähnlich ist wie die (u.U. nicht-parametrische) Regressionsfunktion m(x) = E [Y | X = x], wobei x ∈ Rp oft mehrdimensional ist. Die (da- her multivariate) Funktion πj(·) erlaubt dann auch die Klasse von Ynew vorherzusagen an einem (neuen) Prädiktor Xnew, via “Bayes-Klassifikator”:

    1.1 Der Bayes-Klassifikator

    Ein „Klassifikator“ C : Rp → {0, . . . , J − 1} ist eine Funktion, die einem Vektor erklärender Variablen (hier oft auch „Prädiktor“) X ∈ Rp eine Klasse oder “Label” (effektiv eine der Zahlen in {0, . . . , J − 1}) zuordnet für das entsprechende Y .

    Die Qualität eines Klassifikators C() wird dann oft mit dem erwarteten 0-1 “Test set” Fehler

    P [C(Xnew) 6= Ynew] ,

    (d.h. die Wahrscheinlichkeit von Missklassifikation bei neuen Beobachtungen) gemessen. Im (nor- malen) Falle, wo C = Ĉ aus (“Trainings”-)Daten geschätzt wird, betrachten wir den Generalisierungs- Fehler

    Ptrain,(Xnew,Ynew) [ Ĉ(Xnew) 6= Ynew

    ] .

    Der optimale Klassifikator bzgl. diesem 0-1 Fehler wird Bayes Klassifikator (“Bayes classifier”) genannt, ist „punktweise“ (d.h. separat für jedes x) gegeben durch

    CBayes(x) = arg max 0≤j≤J−1

    πj(x), (1)

    und sein erreichter erwarteter 0-1 “test set” Fehler, das Bayes Risiko, ist

    P [CBayes(Xnew) 6= Ynew] .

    2

  • 1 KLASSIFIKATION WBL Statistik — Statist. Datamining

    In der Praxis kennen wir natürlich πj(·) nicht, und Bayes-Klassifikator und Bayes-Risiko sind genauso unbekannt (wie z.B. Bias oder MSE in der Regression). Verschiedenste Methoden und Modelle werden nun benützt, um solche (multivariate bzw. „mul- tiple“) Funktionen zu schätzen, d.h. parametrisch oder nicht-parametrische π̂j(·) zu erhalten. Mit diesen wird dann der Klassifikator bestimmt (d.h. ebenfalls geschätzt), indem im Bayes Klassi- fikator die πj(·) durch π̂j(·) ersetzt werden (“plug in”):

    Ĉ(x) = arg max 0≤j≤J−1

    π̂j(x). (2)

    Solche „geschätzte Klassifikatoren“, oder einfach „Klassifikations-Methoden“ sind weit verbreit- et, indem verschiedenste Modelle für πj(·) verwendet werden.

    Im Gegensatz dazu gibt es aber auch direkte Arten, Klassifikatoren zu schätzen, die ohne ein Modell für die bedingten Wahrscheinlichkeiten πj(·) auskommen. Ein wichtiges, kürzlich in Mode gekommenes Beispiel sind die “Support Vector Machines” (SVMs), welche wir hier nicht weiter behandeln.

    1.2 Die „Sicht“ der Diskriminanz-Analyse

    Diese wird ja in der multivariaten Statistik schon behandelt, so dass wir diese hier kurz in den weiteren Zusammenhang hinein stellen: In der linearen oder quadratischen Diskriminanzanalyse nehmen wir folgendes Modell an:

    (X | Y = j) ∼ N p(µj , |Σj),

    P [Y = j] = pj , J−1∑ j=0

    pj = 1; j = 0, 1, . . . , J − 1. (3)

    Die uns interessierende bedingte Verteilung von Y | X kann dann mittels der Bayes-Formel berechnet werden als

    πj(x) = P [Y = j | X = x] = fX|Y=j(x) pj∑J−1

    k=0 fX|Y=k(x) pk , (4)

    wobei fX|Y=j(·) hier die Dichte der p-dimensionalen NormalverteilungN p(µj , |Σj) ist. Wir kön- nen diese bedingte Verteilung auch als a-posteriori Verteilung von Y gegeben X interpretieren, wenn wir a-priori für Y die (multinomiale) Verteilung (pj)J−