Dimenziócsökkentés, valamint jellemzőszelekciós eljárások

32
Dimenziócsökkentés, valamint jellemzőszelekciós eljárások SFS, SBS, GSFS, GSBS, SFFS, SFBS, ASSFS PCA, LDA, ICA, LLE, MS Aggregációk

description

Dimenziócsökkentés, valamint jellemzőszelekciós eljárások. SFS, SBS, GSFS, GSBS, SFFS, SFBS, ASSFS PCA, LDA, ICA, LLE, MS Aggregációk. Jellemzőszelekciós eljárások. - PowerPoint PPT Presentation

Transcript of Dimenziócsökkentés, valamint jellemzőszelekciós eljárások

Page 1: Dimenziócsökkentés, valamint jellemzőszelekciós eljárások

Dimenziócsökkentés,valamint jellemzőszelekciós

eljárásokSFS, SBS, GSFS, GSBS, SFFS, SFBS,

ASSFSPCA, LDA, ICA, LLE, MS

Aggregációk

Page 2: Dimenziócsökkentés, valamint jellemzőszelekciós eljárások

Jellemzőszelekciós eljárások• Általánosságban:

egy sok elemű attribútumhalmaz egy –sokkal kevesebb elemet tartalmazó – részhalmazának a kiválasztása a cél, oly módon, hogy a klasszifikáció minősége ne romoljon

• Heurisztikák:– Információ-nyereség (Info-Gain) alapján (lásd

döntési fánál, később)– Különböző statisztikai alapú elgondolások szerint

(pl. 2 statisztika)– CFS Subset Selection– SFS, SBS, …

Page 3: Dimenziócsökkentés, valamint jellemzőszelekciós eljárások

CFS (Correlation-based F. S.)

• Olyan feature-részhalmazokat keres (k: elemszám), amelyek jól korrelálnak az osztállyal, de egymással legkevésbé korrelálnak

• Merit fgv. minél nagyobb legyen:

Page 4: Dimenziócsökkentés, valamint jellemzőszelekciós eljárások

2 statisztika

• A jellemzők itt diszkrét értékkészletűek

• Minden osztályra és minden jellemzőre megnézzük, hogy mennyire függnek egymástól (2 érték), hogy:

• a jellemző milyen értéket vesz fel

• a jellemző bele tartozik-e az osztályba vagy nem• Minél kevésbé független (val. szám. értelemben statisztikailag) az

osztályozás a jellemző értékétől, annál inkább megfelelő a jellemző.

• Rangsoroljuk a jellemzőket, és kiválasztjuk az első k legjobbat, vagy

egy küszöbértéknél nagyobb 2 értékű attribútumokat tartjuk meg.

Page 5: Dimenziócsökkentés, valamint jellemzőszelekciós eljárások

• Két (A és B) esemény független, ha (akk. és csak akk.):

• Def.:

• Vegyük észre: a 2 érték tagjai (P(A)-P(A|B))2 alakúak. (A esemény: az attribútum értéke Ci; B esemény: osztály=P vagy osztály=N). Tehát, ha függőek, akkor 2 nagy lesz, és az a jó.

( ) ( | ), ( ) ( | )P A P A B P B P B A

Page 6: Dimenziócsökkentés, valamint jellemzőszelekciós eljárások

Dimenziócsökkentés nem független attribútumoknál

• Ha erős korreláció van az attribútumok értékei között, vagy az attribútum valamilyen függvénye más attribútumoknak– Elhagyás– Aggregáció: az egymással összefüggő

attribútumok aggregálása egy db. értékké (összeg, maximum, középértékek, stb.)

Page 7: Dimenziócsökkentés, valamint jellemzőszelekciós eljárások

Dimenziócsökkentés tértranszformációval

• PCA: Principal Component Analysis (Főkomponens analízis)

• LDA: Linear Discriminant analysis• ICA: Independent Component Analysis (Független

komponens analízis)• LLE: Locally Linear Embedding („pontonként

lineáris beágyazás”)• MDS: Multidimensional Scaling (Sokdimenziós

beágyazás)• SOM: Self Organizing Map (Önszervező háló)

Page 8: Dimenziócsökkentés, valamint jellemzőszelekciós eljárások

PCA (Principal Component AnalysisFőkomponensanalízis)

• Fogalmak, állítások:– Standardizálás– Kovariancia mátrix: szimmetrikus, és pozitív

szemidefinit– Rayleigh hányados, és ennek jelentése– A Rayleigh hányados stacionárius pontjai

éppen a kovariancia mátrix sajátvektorai

Page 9: Dimenziócsökkentés, valamint jellemzőszelekciós eljárások

Standardizálás (ez már ismétlés)

• Attribútumonként (xi) el kell végezni (most egy másik felírással):– Centralizáció:

– Szórás normalizáció:

Page 10: Dimenziócsökkentés, valamint jellemzőszelekciós eljárások

Kovariancia mátrix• Definíció:

• Tétel: C szimmetrikus és pozitív szemidefinit mátrix.

• Szimmetrikus:

• Pozitív szemidefinit:

• (Egy A mátrix poz. sz. def., ha: )

Page 11: Dimenziócsökkentés, valamint jellemzőszelekciós eljárások

A Rayleigh hányados• Definíció (Rayleigh coeff.):

• Def.:

Page 12: Dimenziócsökkentés, valamint jellemzőszelekciós eljárások

A C mátrix sajátértékei a sajátvektoraihoz (v) tartozó τ(v) hányadosok

Page 13: Dimenziócsökkentés, valamint jellemzőszelekciós eljárások

• Tehát, a C mátrix sajátvektorai olyan irányok, amelyekre vetítve a tanítópontokat, azok szórása extrémális (maximális).

• A C mátrix pozitív szemidefinit és szimmetrikus sajátértékek nemnegatívak, és a sajátvektorok ortogonálisak (biz. HF).

• Legyenek a sajátvektorok a sajátértékek szerint rendezve:

• Legyen a rendezés szerint (C1,...,Cn a C mátrix 1-re normált sajátvektorai):

• Ekkor tehát igaz:

• A PCA transzformáció egy z vektorra:

1

1 1

01 1

ˆ ˆ ˆ ˆ( )( ) ( ( ) )

0

k kT T T T

i i ii i

n

Ax Ax A x x A ACAk k

Page 14: Dimenziócsökkentés, valamint jellemzőszelekciós eljárások

Kifehérítés (Whitening)• Ha az A mátrixot a következőképpen definiáljuk:

akkor:1 1

1 01 1

ˆ ˆ ˆ ˆ( )( ) ( ( ) )

0 1

k kT T T T

i i ii i

Ax Ax A x x A ACAk k

1

1

1 1,...,

T

n

n

A C C

Page 15: Dimenziócsökkentés, valamint jellemzőszelekciós eljárások

Dimenziócsökkentés PCA-val

• Mivel a sajátvektorok variancia (amit a sajátérték ad meg) szerint vannak csökkenő sorrenden, meg lehet adni azt, hogy a szórás hány százalékát tartsuk meg transzformáció után. A kis szórású irányok (amelyekhez kis sajátérték tartozik) kevésbé informatívak, ezért azt elhagyhatjuk.

Page 16: Dimenziócsökkentés, valamint jellemzőszelekciós eljárások

SVD (Singular Value Decomposition, Szinguláris értékfelbontás)

• Az X adatmátrix (M*N-es, N db. jellemzővektort tartalmaz, amik M attribútummal rendelkeznek)

• U egy M*M-es, V egy N*N-es mátrix ortonormált oszlopvektorokkal egy diagonális mátrix, a diagonálisában az un. szinguláris értékekkel

• Áll.: A mátrix diagonális elemei (tehát a szinguláris értékek) az XTX mátrix sajátértékeinek négyzetgyökei.

• Itt a V tartalmazza az XTX sajátvektorait, 2 a sajátértékeket. (biz. táblán)

TX U V

2( )T T T T T T T TX X U V U V V U U V V V

Page 17: Dimenziócsökkentés, valamint jellemzőszelekciós eljárások

• Azok az irányok melyekre az XTX kovarianciamátrix sajátértéke 0 (vagy nagyon kicsi) elhagyhatók.

• Így az SVD dimenziócsökkentése:– Végezzük el X szinguláris felbontását.

– Rendezzük át a mátrixot úgy, hogy a diagonális elemei nemnövekvők legyenek. Legyen ennek a mátrixnak a rangja R. Ekkor a diagonálisában pontosan R nemnulla szingulárisérték van.

– Rendezzük át a V és U mátrixokat a átrendezésének megfelelően.

– Legyenek U*, V* azok a mátrixok melyeket U-ból és V-ből az első R sor meghagyásával kapunk, * -ot pedig ez -ból az első R sor és oszlop meghagyásával nyerjük.

– Így jó közelítése lesz X-nek:

– Emellett, a V* * egy olyan bázis lesz, ami a kovarianciát megőrzi (lsd. előző oldal lent alulról a 2. levezetés) (esetleg jóval) kisebb dimenzióban.

* * * *TX U V

Page 18: Dimenziócsökkentés, valamint jellemzőszelekciós eljárások

ICA• A PCA transzformáció azt célozza meg, hogy olyan ortogonális

transzformációt találjon, amely alkalmazása után a kovarianciamátrix diagonális:

• Két valószínűségi változó függetlensége nem egyezik meg azzal a fogalommal, hogy nem korrelálnak. Az ICA a függetlenséget célozza meg. (A függetlenségből következik a korrelálatlanság, de fordítva nem igaz.)

• Ha az attribútumok között van nem Gauss eloszlású, akkor a két fogalom (ICA, PCA) eltérő.

• Sokféle ICA modell létezik, különböző zajok és eloszlások modellezésére. Szakirodalom a következő dián.

Page 19: Dimenziócsökkentés, valamint jellemzőszelekciós eljárások

Rokon területek

• Faktor Analízis (FA)• Fő-faktor Analízis (PFA)• Maximális Valószínűségű Faktor Analízis (MLFA)• CCA: Canonical Component Analysis• Irodalom:

Page 20: Dimenziócsökkentés, valamint jellemzőszelekciós eljárások

LDA (Linear Discriminant Analysis, Lineáris Diszkrimináns Analízis)

• Ez az eljárás osztálycímkéket használ fel.

• Tehát felügyelt módszerek esetében használatos.

• A cél: olyan irányokat meghatározni, amelyek „mentén” a lineáris szeparáció maximalizálható: az egyes osztályok szórása kicsi, de az osztályok középpontjai közötti távolság (ezek szórása) nagy (mindez egy-egy irányra vetítve).

• Nem feltétlenül ortogonális irányokat keresünk.

Page 21: Dimenziócsökkentés, valamint jellemzőszelekciós eljárások
Page 22: Dimenziócsökkentés, valamint jellemzőszelekciós eljárások

• A célfüggvény, aminek a stacionárius pontjait keressük (Fisher hányados):

Page 23: Dimenziócsökkentés, valamint jellemzőszelekciós eljárások

• Számláló: az egyes osztályok közepeinek „szórása”, kovariancia mátrixa

• Nevező: Az egyes osztályok (külön számított) kovarianciájának összege

• Ezt akarjuk maximalizálni (azaz olyan vetítés irányt keresünk, hogy a számláló nagy legyen, a nevező kicsi).

• Tehát: olyan irányokat keresünk, amire, a különböző osztályok (közepei) minél távolabb esnek, miközben az egyes osztályok „belső” szórása ezekben az irányokban minél kisebb.

Page 24: Dimenziócsökkentés, valamint jellemzőszelekciós eljárások
Page 25: Dimenziócsökkentés, valamint jellemzőszelekciós eljárások

• Bizonyítás: szorgalmi feladat (j az osztályok száma)

• Jelentése: olyan dimenzióredukciót ad meg az LDA, hogy az [(osztályok száma)-1] lesz a maximális dimenziószám.

Page 26: Dimenziócsökkentés, valamint jellemzőszelekciós eljárások

Ortonormált diszkrimináns vektorok módszere

Page 27: Dimenziócsökkentés, valamint jellemzőszelekciós eljárások

LLE (Locally Linear Embedding, Lokálisan Lineáris Beágyazás)

• Input X: D dimenziós N darabszámú adat; output Y: N db. adat d < D dimenzióban. Algoritmus:

– 1. X minden Xi elemének megkeressük a k legközelebbi szomszédját.

– 2. Minden Xi-t megpróbálunk előállítani -leírni- a lehető legjobban szomszédjai súlyozott összegeként, azaz minden Xi-hez kiszámítunk olyan súlyokat, amikkel képezve a szomszédos vektorok súlyozott összegét, az un. rekonstrukciós hiba minimális.

Page 28: Dimenziócsökkentés, valamint jellemzőszelekciós eljárások

– 3. A leképezett Yi vektorokat úgy kell meghatározni, hogy az ún. beágyazási költségfüggvény minimális legyen.

– Azaz az Yi pontokat úgy kell meghatározni, hogy az eredeti térben számolt súlyokkal rekonstruálva ezeket (ugyanazokat a szomszédait használva) a kisebb dimenziós térben a teljes hiba minimális legyen.

Page 29: Dimenziócsökkentés, valamint jellemzőszelekciós eljárások

MDS (Multidimensional Scaling, Sokdimenziós Skálázás)

• Input X: D dimenziós N darabszámú adat; output Y: N db. adat d < D dimenzióban. Algoritmus:

– 1. Számítsuk ki minden Xi Xj vektor távolságát, legyen ez az Mi,j mátrix.

– 2. Válasszunk véletlenszerűen Yi pontokat a d dimenziós térben.

– 3. Számítsuk ki minden Yi Yj vektor távolságát, legyen ez az mi,j mátrix.

– 4. Minimalizáljuk az un. stresszfüggvényt, ami azt méri, hogy Mi,j és mi,j mennyire térnek el: Yi-ket változtassuk meg úgy, hogy a stressz függvény értéke csökkenjen.

– Ismételjük 3. És 4. Pontot, amíg van javulás a stressz értékben. 2

, ,,

2,

,

( )

( , )( )

i j i ji j

i ji j

M m

stress M mM

Page 30: Dimenziócsökkentés, valamint jellemzőszelekciós eljárások

SOM (Self Organizing Map, Önszervező háló, Kohonen háló)

• A „neuronhálós” terminológiát használva: egy egyrétegű háló, ennek a rétegének van egy előre rögzített topológiája, azaz a rétegben a neuronok egy rácson, vagy felületen (általában 1-3, leggyakrabban 2 dimenziós), egymástól rögzített távolságban helyezkednek el.

Page 31: Dimenziócsökkentés, valamint jellemzőszelekciós eljárások

• Minden neuronhoz tartozik egy súlyvektor, aminek a dimenziója megegyezik az input adatok attribútumszámával.

• A neuronok között (a rácson) értelmezett egy szomszédsági függvény.

• Tanítás: – Inicializálása a súlyvektoroknak

– t=0:lépésköz:1• Minden input adatra:

– határozzuk meg a legjobban illeszkedő neuront

– változtassuk meg ezen neuron és a hozzá a rácson közel eső neuronok súlyvektorait

Page 32: Dimenziócsökkentés, valamint jellemzőszelekciós eljárások

• Xi input vektorra legjobban az a neuron illeszkedik, amely súlyvektorának (wk) eltérése az input vektortól minimális.

• Ennek a neuronnak megfelel az output térben egy rácspont. Az illeszkedő rácsponttól a többi rácspont bizonyos távolságra helyezkedik el.

• Az egyes neuronok súlyvektorai ezeknek a távolságoknak valamilyen monoton csökkenő függvénye szerinti mértékben módosulnak, ezt adja meg a szomszédsági függvény.

( 1) ( ) ( , ( )) ( ) ( ( ))k k i k i kw n w n x w n n x w n