Lineární metody pro klasifikacikti.mff.cuni.cz/~marta/nove3.pdf · 2015. 3. 4. · Lineární...
Transcript of Lineární metody pro klasifikacikti.mff.cuni.cz/~marta/nove3.pdf · 2015. 3. 4. · Lineární...
![Page 1: Lineární metody pro klasifikacikti.mff.cuni.cz/~marta/nove3.pdf · 2015. 3. 4. · Lineární metody pro klasifikaci Lineární a logistická regrese, LDA, QDA (kvadratická), optimální](https://reader033.fdocuments.net/reader033/viewer/2022060813/609187cae88b3074d56f04b9/html5/thumbnails/1.jpg)
Lineární metody pro klasifikaci
●Lineární a logistická regrese, LDA, QDA (kvadratická),
● optimální separující nadrovina – bude časem
Tento a některé obrázky z Elem. of Stat. Learning (složitější kniha), zbytek Intro.. (jednodušší)
![Page 2: Lineární metody pro klasifikacikti.mff.cuni.cz/~marta/nove3.pdf · 2015. 3. 4. · Lineární metody pro klasifikaci Lineární a logistická regrese, LDA, QDA (kvadratická), optimální](https://reader033.fdocuments.net/reader033/viewer/2022060813/609187cae88b3074d56f04b9/html5/thumbnails/2.jpg)
Lineární regrese pro klasifikaci
![Page 3: Lineární metody pro klasifikacikti.mff.cuni.cz/~marta/nove3.pdf · 2015. 3. 4. · Lineární metody pro klasifikaci Lineární a logistická regrese, LDA, QDA (kvadratická), optimální](https://reader033.fdocuments.net/reader033/viewer/2022060813/609187cae88b3074d56f04b9/html5/thumbnails/3.jpg)
Hlavně nekódovat 1,2,3,...● diagnózy atd. není vhodné kódovat 1,2,3,...,● protože
● nemá moc smysl uspořádání,● není důvod věřit ve stejnost intervalů mezi.
● Pro dvouhodnotový cíl lin.reg. ekvivalentní výsledek s LDA, jinak se nedoporučuje používat.
![Page 4: Lineární metody pro klasifikacikti.mff.cuni.cz/~marta/nove3.pdf · 2015. 3. 4. · Lineární metody pro klasifikaci Lineární a logistická regrese, LDA, QDA (kvadratická), optimální](https://reader033.fdocuments.net/reader033/viewer/2022060813/609187cae88b3074d56f04b9/html5/thumbnails/4.jpg)
● Tj. pravděpodobnost třídy aproximuji lineární funkcí.
nelineárně by šlo:● lze rozdělit i lineárními řezy.
Lin. reg. 2
P (g i / x)
![Page 5: Lineární metody pro klasifikacikti.mff.cuni.cz/~marta/nove3.pdf · 2015. 3. 4. · Lineární metody pro klasifikaci Lineární a logistická regrese, LDA, QDA (kvadratická), optimální](https://reader033.fdocuments.net/reader033/viewer/2022060813/609187cae88b3074d56f04b9/html5/thumbnails/5.jpg)
Logistická regrese● logit funkce (logistická)● Učíme lineární funkci na transformovaný vstup
● Učí se iterativněmaximalizacílog. věrohodnosti.
![Page 6: Lineární metody pro klasifikacikti.mff.cuni.cz/~marta/nove3.pdf · 2015. 3. 4. · Lineární metody pro klasifikaci Lineární a logistická regrese, LDA, QDA (kvadratická), optimální](https://reader033.fdocuments.net/reader033/viewer/2022060813/609187cae88b3074d56f04b9/html5/thumbnails/6.jpg)
Naučený model
● tj.
● obecně:
P (default /balance)= e−10.6513+0.0055balance
1+e−10.6513+0.0055balance
P (¬default /balance)= 11+e−10.6513+0.0055balance
![Page 7: Lineární metody pro klasifikacikti.mff.cuni.cz/~marta/nove3.pdf · 2015. 3. 4. · Lineární metody pro klasifikaci Lineární a logistická regrese, LDA, QDA (kvadratická), optimální](https://reader033.fdocuments.net/reader033/viewer/2022060813/609187cae88b3074d56f04b9/html5/thumbnails/7.jpg)
Diskrétní vstup: kóduji novými prom.● např. Student=1 pokud „Zam=student“.● Pokud Zam={student, zamest., osvc, duchodce}
● každý (kromě 1) vlastní dummy variable.
![Page 8: Lineární metody pro klasifikacikti.mff.cuni.cz/~marta/nove3.pdf · 2015. 3. 4. · Lineární metody pro klasifikaci Lineární a logistická regrese, LDA, QDA (kvadratická), optimální](https://reader033.fdocuments.net/reader033/viewer/2022060813/609187cae88b3074d56f04b9/html5/thumbnails/8.jpg)
Okomentujte výsledky
![Page 9: Lineární metody pro klasifikacikti.mff.cuni.cz/~marta/nove3.pdf · 2015. 3. 4. · Lineární metody pro klasifikaci Lineární a logistická regrese, LDA, QDA (kvadratická), optimální](https://reader033.fdocuments.net/reader033/viewer/2022060813/609187cae88b3074d56f04b9/html5/thumbnails/9.jpg)
LDA -Lineární diskriminační analýza● předpokládá normální rozložení X pro jednotlivá g.
![Page 10: Lineární metody pro klasifikacikti.mff.cuni.cz/~marta/nove3.pdf · 2015. 3. 4. · Lineární metody pro klasifikaci Lineární a logistická regrese, LDA, QDA (kvadratická), optimální](https://reader033.fdocuments.net/reader033/viewer/2022060813/609187cae88b3074d56f04b9/html5/thumbnails/10.jpg)
LDA● Z dat spočteme:
Vznikne z logaritmu pravděpodobnosti tříd, kvadratický člen (a další) všude stejný, mažeme.
![Page 11: Lineární metody pro klasifikacikti.mff.cuni.cz/~marta/nove3.pdf · 2015. 3. 4. · Lineární metody pro klasifikaci Lineární a logistická regrese, LDA, QDA (kvadratická), optimální](https://reader033.fdocuments.net/reader033/viewer/2022060813/609187cae88b3074d56f04b9/html5/thumbnails/11.jpg)
Příklad:
● Pokud by apriorní pravděpodobnost jedné třídy byla nižší, posune se i rozhodovací hranice.
![Page 12: Lineární metody pro klasifikacikti.mff.cuni.cz/~marta/nove3.pdf · 2015. 3. 4. · Lineární metody pro klasifikaci Lineární a logistická regrese, LDA, QDA (kvadratická), optimální](https://reader033.fdocuments.net/reader033/viewer/2022060813/609187cae88b3074d56f04b9/html5/thumbnails/12.jpg)
Matice záměn (confusion matrix) vyhodnocení klasifikace
● Chyba klasifikátoru: (252+23)/10000=0.0275● Je klasifikátor:
– skvělý– lepší než triviální– špatný?
![Page 13: Lineární metody pro klasifikacikti.mff.cuni.cz/~marta/nove3.pdf · 2015. 3. 4. · Lineární metody pro klasifikaci Lineární a logistická regrese, LDA, QDA (kvadratická), optimální](https://reader033.fdocuments.net/reader033/viewer/2022060813/609187cae88b3074d56f04b9/html5/thumbnails/13.jpg)
Různá cena chyby
● Celkem přestalo splácet 333, my jsme z nich poznali jen 81 – tj. 252 jsme minuli.
● Můžeme brát jako rizikové už ty s pravděpodobnostní default >0.2, pak jich odhalíme víc.● černá: celá chyba● modrá: neplatící● oranž: platící
![Page 14: Lineární metody pro klasifikacikti.mff.cuni.cz/~marta/nove3.pdf · 2015. 3. 4. · Lineární metody pro klasifikaci Lineární a logistická regrese, LDA, QDA (kvadratická), optimální](https://reader033.fdocuments.net/reader033/viewer/2022060813/609187cae88b3074d56f04b9/html5/thumbnails/14.jpg)
Klasifikace (diskrétní cíl G)● Chyba daná maticí L rozměru KxK, K počet tříd G.● nuly na diagonále, všude nezáporná● L(k,l) cena za označení prvku G
k jakožto G
l.
● Bayesovsky optimální klasifikátor, bayes rate.
![Page 15: Lineární metody pro klasifikacikti.mff.cuni.cz/~marta/nove3.pdf · 2015. 3. 4. · Lineární metody pro klasifikaci Lineární a logistická regrese, LDA, QDA (kvadratická), optimální](https://reader033.fdocuments.net/reader033/viewer/2022060813/609187cae88b3074d56f04b9/html5/thumbnails/15.jpg)
ROC křivka
![Page 16: Lineární metody pro klasifikacikti.mff.cuni.cz/~marta/nove3.pdf · 2015. 3. 4. · Lineární metody pro klasifikaci Lineární a logistická regrese, LDA, QDA (kvadratická), optimální](https://reader033.fdocuments.net/reader033/viewer/2022060813/609187cae88b3074d56f04b9/html5/thumbnails/16.jpg)
QDA – každý svou kovarianč. matici
„Ty elipsy mohou být pro různé třídy různé“.● Více parametrů – otázka, zda jsou třeba.● LDA i QDA často používané, často dobré.
![Page 17: Lineární metody pro klasifikacikti.mff.cuni.cz/~marta/nove3.pdf · 2015. 3. 4. · Lineární metody pro klasifikaci Lineární a logistická regrese, LDA, QDA (kvadratická), optimální](https://reader033.fdocuments.net/reader033/viewer/2022060813/609187cae88b3074d56f04b9/html5/thumbnails/17.jpg)
QDA či expanze báze – malý rozdíl
![Page 18: Lineární metody pro klasifikacikti.mff.cuni.cz/~marta/nove3.pdf · 2015. 3. 4. · Lineární metody pro klasifikaci Lineární a logistická regrese, LDA, QDA (kvadratická), optimální](https://reader033.fdocuments.net/reader033/viewer/2022060813/609187cae88b3074d56f04b9/html5/thumbnails/18.jpg)
Srovnání klasifikátorů● LDA – předpokládá norm. rozložení,● logist. regrese ne,● obojí vede k lineární rozhodovací hranici.
gausovské korelované x t-distribution (placatější)
![Page 19: Lineární metody pro klasifikacikti.mff.cuni.cz/~marta/nove3.pdf · 2015. 3. 4. · Lineární metody pro klasifikaci Lineární a logistická regrese, LDA, QDA (kvadratická), optimální](https://reader033.fdocuments.net/reader033/viewer/2022060813/609187cae88b3074d56f04b9/html5/thumbnails/19.jpg)
Srovnání 2
● splněné předpoklady – lepší predikce při méně datech,
● nesplněné – často horší.
normální,různé kovariance
norm., nekorel.cíl fce X
12,X
22,X
1X
2
norm, nekorel,složitější cíl. fce
![Page 20: Lineární metody pro klasifikacikti.mff.cuni.cz/~marta/nove3.pdf · 2015. 3. 4. · Lineární metody pro klasifikaci Lineární a logistická regrese, LDA, QDA (kvadratická), optimální](https://reader033.fdocuments.net/reader033/viewer/2022060813/609187cae88b3074d56f04b9/html5/thumbnails/20.jpg)
Shrnutí● Lineární regresi jen pro dvouhodnotový cíl.● LDA, pokud předpokládáme cílové třídy
normálně rozložené (je stabilnější),● logistická regrese – zhruba jako LDA,● QDA – občas se hodí,● nejbližší sousedi umí i libovolně nelineární
hranici; pro jednoduché hranice mohou být výrazně horší.
![Page 21: Lineární metody pro klasifikacikti.mff.cuni.cz/~marta/nove3.pdf · 2015. 3. 4. · Lineární metody pro klasifikaci Lineární a logistická regrese, LDA, QDA (kvadratická), optimální](https://reader033.fdocuments.net/reader033/viewer/2022060813/609187cae88b3074d56f04b9/html5/thumbnails/21.jpg)
Co Vás čeká
![Page 22: Lineární metody pro klasifikacikti.mff.cuni.cz/~marta/nove3.pdf · 2015. 3. 4. · Lineární metody pro klasifikaci Lineární a logistická regrese, LDA, QDA (kvadratická), optimální](https://reader033.fdocuments.net/reader033/viewer/2022060813/609187cae88b3074d56f04b9/html5/thumbnails/22.jpg)
Optimální separující nadrovina
![Page 23: Lineární metody pro klasifikacikti.mff.cuni.cz/~marta/nove3.pdf · 2015. 3. 4. · Lineární metody pro klasifikaci Lineární a logistická regrese, LDA, QDA (kvadratická), optimální](https://reader033.fdocuments.net/reader033/viewer/2022060813/609187cae88b3074d56f04b9/html5/thumbnails/23.jpg)
Reduced rank – ubírání dimenzí
![Page 24: Lineární metody pro klasifikacikti.mff.cuni.cz/~marta/nove3.pdf · 2015. 3. 4. · Lineární metody pro klasifikaci Lineární a logistická regrese, LDA, QDA (kvadratická), optimální](https://reader033.fdocuments.net/reader033/viewer/2022060813/609187cae88b3074d56f04b9/html5/thumbnails/24.jpg)
Projekce do dvojic kanonických prom.
![Page 25: Lineární metody pro klasifikacikti.mff.cuni.cz/~marta/nove3.pdf · 2015. 3. 4. · Lineární metody pro klasifikaci Lineární a logistická regrese, LDA, QDA (kvadratická), optimální](https://reader033.fdocuments.net/reader033/viewer/2022060813/609187cae88b3074d56f04b9/html5/thumbnails/25.jpg)
Příklad – Samohlásky (Vowels)
![Page 26: Lineární metody pro klasifikacikti.mff.cuni.cz/~marta/nove3.pdf · 2015. 3. 4. · Lineární metody pro klasifikaci Lineární a logistická regrese, LDA, QDA (kvadratická), optimální](https://reader033.fdocuments.net/reader033/viewer/2022060813/609187cae88b3074d56f04b9/html5/thumbnails/26.jpg)
(log) Věrohodnost
Trénovací data Predikce likelihood loglikX G Pzelená Pmodrá Pžlutá1 zelená 1/2 0 1/2 1/2 -12 zelená 1/3 1/3 1/3 1/3 -log33 modrá 0 1 0 1 02 modrá 1/3 1/3 1/3 1/3 -log31 žlutá 1/2 0 1/2 1/2 -1
-2-2log3
U logistické regrese:
P pro index zelené