Features Selection's algorithms

Algoritmi di feature selection

Simone Rutigliano

Corso di Laurea in Informatica Magistrale

2 aprile 2015

Outline

1. ReliefFReliefCalcoliMissing valueMulticlass

2. mRMRMutual

InformationMinima

Ridondanza

MassimaRilevanza

FormuleBenefici

3. CFSubsetCorrelazioni

4. PCAAnalisi

5. Chi-SquaredEsempio

6. Info GainEntropiaEsempio

7. PageRankDefinizioneCalcoloEsempio

8. SVM

9. Gain RatioEsempio

Simone Rutigliano Algoritmi di feature selection 2 aprile 2015 1 / 108

ReliefFmRMR

CFSubsetPCA

Chi-Squared

Info GainPageRank

SVMGain Ratio

ReliefCalcoli

Missing valueMulticlass

Outline


2. mRMRMutual

InformationMinima

Ridondanza

MassimaRilevanza

FormuleBenefici


4. PCAAnalisi




8. SVM



ReliefFmRMR

CFSubsetPCA

Chi-Squared

Info GainPageRank

SVMGain Ratio

ReliefCalcoli


Relief

Valuta gli attributi sulla base di quanto siano in grado didiscriminare le istanze vicine

Data una istanza, cerca:

nearest hit: l’istanza piu vicina della stessa classenearest miss: l’istanza piu vicina di classe diversa


ReliefFmRMR

CFSubsetPCA

Chi-Squared

Info GainPageRank

SVMGain Ratio

ReliefCalcoli


Caratteristiche

Qualita:

le feature possono essere anche dipendenti tra lorocomplessita O(n) in tempo dove n indica il numero di featuretolleranza al rumorerobusta alle interazioni tra featureapplicabile sia a dati binari che a dati continui

Limiti:

Non discrimina le feature ridondantiUn basso numero di istanze di training puo alterare i risultatiLimitato a problemi di classificazione binariaNon tratta dati incompleti


ReliefFmRMR

CFSubsetPCA

Chi-Squared

Info GainPageRank

SVMGain Ratio

ReliefCalcoli


ReliefF - Idea di base

Trova i primi k piu vicini di ogni classe ottenendo il vettoreprobabilistico dei pesi di ogni classe

Estensione di ReliefFornisce stime probabilistiche piu affidabiliPermette di trattare dati incompletiGestisce dataset multi-classe


ReliefFmRMR

CFSubsetPCA

Chi-Squared

Info GainPageRank

SVMGain Ratio

ReliefCalcoli


Calcolo

Dato un campione di p istanze estratte dal training set, il valore diogni istanza sara:

SCr (fi ) =1

2

p∑t=1

d(ft,i − fNM(xt ),i )− d(ft,i − fNH(xt ),i )

dove:

d : funzione distanza

ft,i : feature i dell’istanza t

NM(xt) : istanze vicine a xt di classe differente

NH(xt) : istanze vicine a xt di della stessa classe


ReliefFmRMR

CFSubsetPCA

Chi-Squared

Info GainPageRank

SVMGain Ratio

ReliefCalcoli


Calcolo

Il valore calcolato rappresenta la qualita della feature

Un buon attributo deve avere:I valori simili per istanze appartenenti alla stessa classe

ft,i − fNH(xt ),i ≈ 0

I valori differenti per istanze appartenenti a classi differenti

|ft,i − fNM(xt ),i | � 0

Approccio probabilistico della funzione distanza

Reliefx = P(valori differenti di X | classe differente)−P(valori differenti di X | stessa classe)


ReliefFmRMR

CFSubsetPCA

Chi-Squared

Info GainPageRank

SVMGain Ratio

ReliefCalcoli


Missing value

Le probabilita condizionate saranno approssimate in base allafrequenza relativa definita dal training set

Definita la funzione distanza dist(Attribute, Instance1, Instance2)

se una istanza (e.g. I 1) ha missing value:

dist(A, I 1, I 2) = 1− P(value(A, I 2)|class(I 1))

se entrambe hanno missing value:

dist(A, I 1, I 2) = 1−#values(A)∑

V

(P(V |class(I 1)) x P(V |class(I 2)))

dove V rappresenta tutti i possibili valori dell’attributo A


ReliefFmRMR

CFSubsetPCA

Chi-Squared

Info GainPageRank

SVMGain Ratio

ReliefCalcoli


Dataset multi-classe

cerca il vicino di classe differente (near missing M(C )) perogni classe diversa da quella considerata (R)

verra calcolata la media delle probabilita di ogni classedifferente∑

C 6=class(R)

[P(C)

1−P(class(R)) x dist(A,R,M(C ))]

n

dove n rappresenta la cardinalita di C


ReliefFmRMR

CFSubsetPCA

Chi-Squared

Info GainPageRank

SVMGain Ratio

Mutual InformationMinima RidondanzaMassima Rilevanza

FormuleBenefici

Outline


2. mRMRMutual

InformationMinima

Ridondanza

MassimaRilevanza

FormuleBenefici


4. PCAAnalisi




8. SVM



ReliefFmRMR

CFSubsetPCA

Chi-Squared

Info GainPageRank

SVMGain Ratio


FormuleBenefici

mRMR - Idea di base

Consiste nel calcolo della

minima ridondanza tra le features

massima rilevanza delle features con la classe target


ReliefFmRMR

CFSubsetPCA

Chi-Squared

Info GainPageRank

SVMGain Ratio


FormuleBenefici

Mutual Information - Definizione

La mutua informazione rappresenta i bit di informazione cheuna delle variabili fornisce riguardo l’altra

Date due variabili casuali X e Y, la mutua informazione edefinita come

I (X ; Y ) = H(X )− H(X |Y ) = H(Y )− H(Y |X )

dove le entropie sono calcolate

H(X ) = −∑i∈X

P(xi ) · log(P(xi ))

H(X ,Y ) = −∑i∈X

∑j∈Y

P(xi , yj ) · log(P(xi , yj ))


ReliefFmRMR

CFSubsetPCA

Chi-Squared

Info GainPageRank

SVMGain Ratio


FormuleBenefici

Considerazioni

Indipendenza: I (X ; Y ) = 0

Simmetria: I (X ; Y ) = H(X )−H(X |Y ) = H(Y )−H(Y |X ) = I (Y ; X )

Riflessivita: I (X ; X ) = H(X )


ReliefFmRMR

CFSubsetPCA

Chi-Squared

Info GainPageRank

SVMGain Ratio


FormuleBenefici

Minima Ridondanza - Definizione

Consiste nel selezionare le features in modo tale che siano traloro piu dissimilari

Il subset che si otterra sara il piu rappresentativo possibiledell’intero dataset

Formalmente consiste nel

Calcolare una funzione Red calcolata sul set di feature S

Trovare il subset che minimizza la funzione calcolata

min Red(S)


ReliefFmRMR

CFSubsetPCA

Chi-Squared

Info GainPageRank

SVMGain Ratio


FormuleBenefici

Calcolo per variabili discrete

Red(S) =1

|S |2∑

xi ,xj∈S

I (xi ; xj )

dove

|S | e il numero di features presenti nel subset S

xi e xj rappresentano rispettivamente la i-esima e j-esimafeature del subset S

I (xi ; xj ) rappresenta la mutua informazione tra le due feature


ReliefFmRMR

CFSubsetPCA

Chi-Squared

Info GainPageRank

SVMGain Ratio


FormuleBenefici

Calcolo per variabili continue

Red(S) =1

|S |2∑

xi ,xj∈S

|c(xi ; xj )|

dove

|S | e il numero di features presenti nel subset S

xi e xj rappresentano rispettivamente la i-esima e j-esimafeature del subset S

|c(xi ; xj )| indica il valore assoluto del coefficiente dicorrelazione di Pearson tra le feature xi e xj


ReliefFmRMR

CFSubsetPCA

Chi-Squared

Info GainPageRank

SVMGain Ratio


FormuleBenefici

Massima Rilevanza - Definizione

Ricercare le feature che riescano ad approssimare la funzione

max Dep(S , c) Dep = I ({x1, . . . , xm}; c)

con il valor medio di tutti i valori della mutua informazione trale singole feature xi e la classe c


ReliefFmRMR

CFSubsetPCA

Chi-Squared

Info GainPageRank

SVMGain Ratio


FormuleBenefici

Calcolo per variabili discrete

In caso di variabili discrete l’obiettivo sara massimizzare la funzioneDep calcolata nel seguente modo

Dep(S , c) =1

|S |∑xi∈S

I (xi ; c)

dove

S indica il set contenente tutte le features

xi indica la i-sima feature da considerare

c indica la classe target


ReliefFmRMR

CFSubsetPCA

Chi-Squared

Info GainPageRank

SVMGain Ratio


FormuleBenefici

Calcolo per variabili continue. . .

Per le variabili continue bisogna usare la F-statistic come misuraper calcolare la rilevanza tra le features xi e la classe target c

F (xi , c) =

∑K

nk (xk−x)

K−1

σ2

dove:

σ2 =

∑k

(nk−1)σ2k

n−K

K indica le classi denotate da c

x e il valor medio di xi di tutti i campioni

xk e il valor medio di xi di tutti i campioni di classe k

nk e σk indicano dimensione e varianza della k−classe


ReliefFmRMR

CFSubsetPCA

Chi-Squared

Info GainPageRank

SVMGain Ratio


FormuleBenefici

. . . calcolo per variabili continue

In caso di variabili continue l’obiettivo sara massimizzare lafunzione Dep calcolata nel seguente modo

Dep(S , c) =1

|S |∑xi∈S

F (xi ; c)

dove

F indica la funzione F − test calcolata sulle feature inrelazione alla classe target

S indica il set contenente tutte le features

xi indica la i-sima feature da considerare

c indica la classe target


ReliefFmRMR

CFSubsetPCA

Chi-Squared

Info GainPageRank

SVMGain Ratio


FormuleBenefici

Calcolo mRMR

Variabili discrete

MID - Mutual Information DifferenceMIQ - Mutual Information Quotient

Variabili continue

FCD - F-test Correlation DifferenceFCQ - F-test Correlation Quotient


ReliefFmRMR

CFSubsetPCA

Chi-Squared

Info GainPageRank

SVMGain Ratio


FormuleBenefici

Discrete - MID

Consiste nel trovare le features che massimizzino la differenza tradipendenze e ridondanze di queste features dalla classe targetattraverso il calcolo della mutua informazione

max(Dep(S , c)− Red(S))

dove ricordiamo che

Dep(S , c) = 1|S |∑

xi∈S

I (xi ; c)

Red(S) = 1|S |2

∑xi ,xj∈S

I (xi ; xj )


ReliefFmRMR

CFSubsetPCA

Chi-Squared

Info GainPageRank

SVMGain Ratio


FormuleBenefici

Discrete - MIQ

Consiste nel trovare le features che massimizzino il rapporto tradipendenze e ridondanze di queste features dalla classe targetattraverso il calcolo della mutua informazione

maxDep(S , c)

Red(S)

dove ricordiamo che

Dep(S , c) = 1|S |∑

xi∈S

I (xi ; c)

Red(S) = 1|S |2

∑xi ,xj∈S

I (xi ; xj )


ReliefFmRMR

CFSubsetPCA

Chi-Squared

Info GainPageRank

SVMGain Ratio


FormuleBenefici

Continuous - FCD

Consiste nel trovare le features che massimizzino la differenza tradipendenze e ridondanze di queste features dalla classe targetattraverso il calcolo del F-test

max((Dep(S , c)− Red(S))

dove ricordiamo che

Dep(S , c) = 1|S |∑

xi∈S

F (xi ; c)

Red(S) = 1|S |2

∑xi ,xj∈S

|c(xi ; xj )|


ReliefFmRMR

CFSubsetPCA

Chi-Squared

Info GainPageRank

SVMGain Ratio


FormuleBenefici

Continuous - FCQ

Consiste nel trovare le features che massimizzino il rapporto tradipendenze e ridondanze di queste features dalla classe targetattraverso il calcolo del F-test

maxDep(S , c)

Red(S)

dove ricordiamo che

Dep(S , c) = 1|S |∑

xi∈S

F (xi ; c)

Red(S) = 1|S |2

∑xi ,xj∈S

|c(xi ; xj )|


ReliefFmRMR

CFSubsetPCA

Chi-Squared

Info GainPageRank

SVMGain Ratio


FormuleBenefici

Benefici

Con lo stesso numero di features, mRMR garantisce maggiorerappresentativita al dataset offrendo una migliore proprieta digeneralizzazione

Allo stesso modo, possiamo usare un set di feature mRMR piupiccolo per ricoprire in maniera piu efficace lo stesso spazioricoperto da feature set convenzionale piu grande


ReliefFmRMR

CFSubsetPCA

Chi-Squared

Info GainPageRank

SVMGain Ratio

Correlazioni

Outline


2. mRMRMutual

InformationMinima

Ridondanza

MassimaRilevanza

FormuleBenefici


4. PCAAnalisi




8. SVM



ReliefFmRMR

CFSubsetPCA

Chi-Squared

Info GainPageRank

SVMGain Ratio

Correlazioni

CFSubset - Idea alla base

Cerca in maniera esaustiva il subset ottimale che sia in grado di

massimizzare la predizione della classe

minimizzare la ridondanza tra le feature


ReliefFmRMR

CFSubsetPCA

Chi-Squared

Info GainPageRank

SVMGain Ratio

Correlazioni

CFSubset - Calcolo

La funzione di merito associata sara

MS =k · rcf√

k + k · (k − 1) · rff

Dove :

rcf : correlazione media tra la classe c e la feature f ∈ S

attributi discreti : Correlazione basata sulla entropiaattributi continui : Correlazione di Pearson

rff : intercorrelazione media feature-feature

k : numero di feature f ∈ S


ReliefFmRMR

CFSubsetPCA

Chi-Squared

Info GainPageRank

SVMGain Ratio

Correlazioni

Correlazione di Pearson

Misura il peso della correlazione lineare tra due variabili

In particolare indica:

Forza della relazione (forte, debole o nulla) → da 0 a 1

Direzione della relazione → positiva(+) o negativa(-)


ReliefFmRMR

CFSubsetPCA

Chi-Squared

Info GainPageRank

SVMGain Ratio

Correlazioni

Correlazione di Pearson

Assumptions:

Variabili sono quantitative o ordinali

Seguono una distribuzione normale

Relazione lineare

ρX ,Y =

∑i (xi − x)(yi − y)√∑

j (xj − x)2 ·∑

k (yk − y)2


ReliefFmRMR

CFSubsetPCA

Chi-Squared

Info GainPageRank

SVMGain Ratio

Correlazioni

In dettaglio ...

Nel caso in cui le due feature siano gia entrambe continue, lacorrelazione verra calcolata con:

rXY =

∑(x , y)

n · σxσy

dove:

X e Y sono due variabili continue espresse in termini dideviazioni standard

n rappresenta il numero di osservazioni


ReliefFmRMR

CFSubsetPCA

Chi-Squared

Info GainPageRank

SVMGain Ratio

Correlazioni

... in dettaglio ...

Se uno dei due attributi e discreto e l’altro continuo, lacorrelazione di Pearson calcolata sara:

rXY =k∑

i=1

p(X = xi ) · rXbi Y

dove Xbi =

{1 se X = xi

0 altrimenti


ReliefFmRMR

CFSubsetPCA

Chi-Squared

Info GainPageRank

SVMGain Ratio

Correlazioni

... in dettaglio

Se invece, entrambi gli attributi risultano essere discreti, essiverranno dapprima discretizzati ed in seguito verra calcolata lacorrelazione nel seguente modo:

rXY =k∑

i=1

m∑j=1

p(X = xi ,Y = yj ) · rXbi Ybj

dove :

Xbi =

{1 se X = xi

0 altrimentiYbj =

{1 se Y = yj

0 altrimenti


ReliefFmRMR

CFSubsetPCA

Chi-Squared

Info GainPageRank

SVMGain Ratio

Correlazioni

Correlazione basata su entropia

Per attributi di carattere discreto verra utilizzato il concetto dientropia dell’attributo

SU = 2 ·[

H(X ) + H(Y )− H(X ,Y )

H(Y ) + H(X )

]dove:

SU rappresenta la misura di incertezza simmetrica

H(X ) : entropia della feature X

H(X ,Y ) : entropia congiunta di X e Y (ogni possibilecombinazioni di valori sia di X che di Y)


ReliefFmRMR

CFSubsetPCA

Chi-Squared

Info GainPageRank

SVMGain Ratio

Analisi

Outline


2. mRMRMutual

InformationMinima

Ridondanza

MassimaRilevanza

FormuleBenefici


4. PCAAnalisi




8. SVM



ReliefFmRMR

CFSubsetPCA

Chi-Squared

Info GainPageRank

SVMGain Ratio

Analisi

PCA

Riduce la dimensionalita del dataset combinando le variabili ingiocoMantiene lo stesso apporto informativo del dataset originaleLe nuove variabili, chiamate Principal Components (PC), sononon correlate, e sono ordinate in base all’informazione cheessa contiene


ReliefFmRMR

CFSubsetPCA

Chi-Squared

Info GainPageRank

SVMGain Ratio

Analisi

PCA - Idea di base

Trova l’asse che meglio rappresenta la piu grande variazione(First principal component) e proietta tutti i punti suquest’asse

Definisce la nuova dimensionalita sulla base degli autovettoridella matrice di covarianza associata


ReliefFmRMR

CFSubsetPCA

Chi-Squared

Info GainPageRank

SVMGain Ratio

Analisi

PCA - Algoritmo

1 X ← Creare la matrice istanze/attributi N x d , dove ogni rigarappresenta l’istanza xn

2 Sottrarre il valor medio x da ogni vettore riga xn ∈ X

3 Σ← matrice di covarianza di X

4 Trovare gli autovalori e gli autovettori di Σ : a1j , a2j , · · · , adj

5 I primi p autovettori con autovalori piu alti formeranno la PCG ← [a1j , a2j , · · · , apj ] con p < d


ReliefFmRMR

CFSubsetPCA

Chi-Squared

Info GainPageRank

SVMGain Ratio

Analisi

Proprieta ottimale della PCA

La matrice G e costituita dai primi p autovettori della matrice dicovarianza S soddisfano il problema di minimo:

minG∈<d x p

‖X − G (GᵀX )‖2F tale che GᵀG = Ip

Proiezione PCA minimizza l’errore di ricostruzione delle proiezionilineari della dimensione p


ReliefFmRMR

CFSubsetPCA

Chi-Squared

Info GainPageRank

SVMGain Ratio

Analisi

Rappresentazione grafica

Restituisce laproiezionemigliore

Minimizzal’errorequadraticomedio

Le principalcomponentsono tra loroortogonali


ReliefFmRMR

CFSubsetPCA

Chi-Squared

Info GainPageRank

SVMGain Ratio

Analisi

Principal Component

First Principal component (PC1)

direzione lungo la quale c’e la maggiore varianza

Second Principal component (PC2)

direzione con la varianza massima trascurata dai dati

ortogonale con PC1Simone Rutigliano Algoritmi di feature selection 2 aprile 2015 42 / 108

ReliefFmRMR

CFSubsetPCA

Chi-Squared

Info GainPageRank

SVMGain Ratio

Analisi

Quante componenti considerare?

Si considera la distribuzione degli autovaloriSi mantengono un numero tale di autovettori in grado dicoprire l’80-90% della varianza del dataset


ReliefFmRMR

CFSubsetPCA

Chi-Squared

Info GainPageRank

SVMGain Ratio

Analisi

PCA non lineare usando Kernel

PCA tradizionale applica una trasformazione lineare

Potrebbe non essere efficace su dati non lineari

Soluzione: applica una trasformazione non lineare a spazidimensionali molto alti

φ : x → φ(x)

Computazionalmente efficiente: applica il kernel trick

riscrittura in termini di prodotto interno

K (xi , xj ) = φ(xi ) · φ(xj )


ReliefFmRMR

CFSubsetPCA

Chi-Squared

Info GainPageRank

SVMGain Ratio

Esempio

Outline


2. mRMRMutual

InformationMinima

Ridondanza

MassimaRilevanza

FormuleBenefici


4. PCAAnalisi




8. SVM



ReliefFmRMR

CFSubsetPCA

Chi-Squared

Info GainPageRank

SVMGain Ratio

Esempio

χ2 - Idea di base

Verifica se esiste una correlazione tra le feature e l’attributo diclasse usando la statistica χ2

Il test statistico sara:

χ2 =C∑

i=1

(Oi − Ei )2

Eicon gradi di liberta = C − 1

dove

C = numero di categorie

Oi = frequenze osservate per la categoria i

Ei = frequenze attese per la categoria i


ReliefFmRMR

CFSubsetPCA

Chi-Squared

Info GainPageRank

SVMGain Ratio

Esempio

Area di rigetto

Verranno definite le ipotesi statistiche

H0 : la feature e dipendente dalla classe target

H1 : la feature e indipendente dalla classe target

Si rigetta H0 se χ2 > χ2α

(con C − 1 gradi di liberta)


ReliefFmRMR

CFSubsetPCA

Chi-Squared

Info GainPageRank

SVMGain Ratio

Esempio

χ2 nella feature selection

1. Crea la matrice di contingenza (F x C)

2. Esegue la statistica χ2 tra le occorrenze del termine e quelledella classe

Calcola i gradi di liberta (df = (#rows-1)(#cols-1))

Ricerca nella χ2 table del valore χ2α da usare per il confronto

3. Se χ2 > χ2α l’ipotesi H0 verra rigettata

χ2 alto, dipendenza tra la feature e l’attributo di classe alta


ReliefFmRMR

CFSubsetPCA

Chi-Squared

Info GainPageRank

SVMGain Ratio

Esempio

χ2 test statistic

Il test statistico sara:

χ2(D, t, c) =∑

et∈{0,1}

∑ec∈{0,1}

(Net ec − Eet ec )2

Eet ec

Dove:

ec =

{1 se il documento e di classe c

0 altrimenti

et =

{1 se il termine t e incluso nel documento

0 altrimenti

N rappresenta la frequenza osservata in DE rappresenta la frequenza attesa (i.e. E11 e la frequenzaattesa di t e c che co-occorrono nel documento assumendoche il termine sia indipendente dalla classe)


ReliefFmRMR

CFSubsetPCA

Chi-Squared

Info GainPageRank

SVMGain Ratio

Esempio

Tabella di contingenza

In una tabella di contingenza:

Le celle contengono il numero di casi che presentanocongiuntamente le due variabili (frequenze di cella)

I totali di riga/colonna sono chiamati frequenze marginali

Le righe/colonne intermedie sono distribuzioni condizionate

XY y1 y2 · · · yk totale

x1 f1,1 f1,2 · · · f1,k f1,.

x2 f2,1 f2,2 · · · f2,k f2,....

......

. . ....

...xh fh,1 fh,2 · · · fh,k fh,.

totale f.,1 f.,2 · · · f.,k 1


ReliefFmRMR

CFSubsetPCA

Chi-Squared

Info GainPageRank

SVMGain Ratio

Esempio

Esempio

Verificare se esiste correlazione tra:

Hand preference vs. Gender

Hand Preference: Left vs. Right

Gender: Male vs. Female

Le ipotesi da verificare saranno:

H0: Non esiste correlazione tra Hand Preference e Gender

H1: La Hand Preference e dipendente dal Gender


ReliefFmRMR

CFSubsetPCA

Chi-Squared

Info GainPageRank

SVMGain Ratio

Esempio

Esempio ...

Risultati campionati nella tabella di contingenza:


ReliefFmRMR

CFSubsetPCA

Chi-Squared

Info GainPageRank

SVMGain Ratio

Esempio

... esempio ...


ReliefFmRMR

CFSubsetPCA

Chi-Squared

Info GainPageRank

SVMGain Ratio

Esempio

... esempio


ReliefFmRMR

CFSubsetPCA

Chi-Squared

Info GainPageRank

SVMGain Ratio

Entropia Esempio

Outline


2. mRMRMutual

InformationMinima

Ridondanza

MassimaRilevanza

FormuleBenefici


4. PCAAnalisi




8. SVM



ReliefFmRMR

CFSubsetPCA

Chi-Squared

Info GainPageRank

SVMGain Ratio

Entropia Esempio

Information Gain - Idea di base

Valuta gli attributi sulla base del guadagno di informazioneche apporta al dataset

Guadagno ottenuto riducendo l’incertezza iniziale

IG (Attr) = Entropy(S)−∑

v∈Values(Attr)

|Sv ||S |· Entropy(Sv )

dove:

S : dataset di training

Attr : rappresenta l’attributo da analizzare

v : valori degli attributi Attr

Sv : subset di istanze con attributo Attr valorizzato con v


ReliefFmRMR

CFSubsetPCA

Chi-Squared

Info GainPageRank

SVMGain Ratio

Entropia Esempio

Entropia

Prendendo in cosiderazione:

S dataset di training

C1 . . .Ck etichette di classe

RF (Ci ,S) frequenze relative dei s ∈ S di classe Ci

L’entropia E di S sara calcolata come:

E (S) = −k∑

i=1

RF (Ci ,S) log(RF (Ci ,S))


ReliefFmRMR

CFSubsetPCA

Chi-Squared

Info GainPageRank

SVMGain Ratio

Entropia Esempio

Entropia

Misura il quantitativo di incertezza presente in S

High entropy significa che S segue una distribuzione uniforme

RF (C1,S) = · · · = RF (Ck , S)

low entropy significa che S proviene da una distribuzione nonuniforme dove alcuni eventi sono molto piu probabili degli altri

RF (Ci , S)� RF (Cj ,S) ∀i 6= j

zero entropy significa che S conterra eventi certiannullandone l’incertezza

RF (Ci , S) = 1 RF (Cj , S) = 0 ∀j 6= i


ReliefFmRMR

CFSubsetPCA

Chi-Squared

Info GainPageRank

SVMGain Ratio

Entropia Esempio

Classificazione binaria

In un problema di classificazione binaria (C1 positivo, C2 negativo)dove:

p rappresenta la proporzione di esempi positivi in Sn rappresenta la proporzione di esempi negativi in S

L’entropia di S e computata come:

E (S) = −p · log2p − n · log2n


ReliefFmRMR

CFSubsetPCA

Chi-Squared

Info GainPageRank

SVMGain Ratio

Entropia Esempio

Esempio ...

Day Outlook Temp Humidity Wind PlayTennis

D1 Sunny Hot High Weak NoD2 Sunny Hot High Strong NoD3 Overcast Hot High Weak YesD4 Rain Mild High Weak YesD5 Rain Cool Normal Weak YesD6 Rain Cool Normal Strong NoD7 Overcast Cool Normal Weak YesD8 Sunny Mild High Weak NoD9 Sunny Cold Normal Weak Yes

D10 Rain Mild Normal Strong YesD11 Sunny Mild Normal Strong YesD12 Overcast Mild High Strong YesD13 Overcast Hot Normal Weak YesD14 Rain Mild High Strong No


ReliefFmRMR

CFSubsetPCA

Chi-Squared

Info GainPageRank

SVMGain Ratio

Entropia Esempio

... esempio ...

Descrizione del dataset:

istanze di training : 14istanze classificate come Yes : 9istanze classificate come No : 5

Entropia del dataset:

E (S) = − 9

14· log2

(9

14

)− 5

14· log2

(5

14

)= 0.940

Descrizione dell’attributo outlook:

sunny overcast rainyes 2 4 3no 3 0 2

tot 5 4 5


ReliefFmRMR

CFSubsetPCA

Chi-Squared

Info GainPageRank

SVMGain Ratio

Entropia Esempio

... esempio ...

Le entropie dei valori di outlook saranno:

E (sunny) = −2

5· log2

(2

5

)− 3

5· log2

(3

5

)= 0.971

E (overcast) = −4

4· log2

(4

4

)− 0

4· log2

(0

4

)= 0

E (rain) = −2

5· log2

(2

5

)− 3

5· log2

(3

5

)= 0.971

L’entropia totale di outlook sara:

E (outlook) =5

14· 0.971 +

4

14· 0 +

5

14· 0.971 = 0.694

L’information gain ottenuta dall’attributo outlook sara:

IG (outlook) = 0.940− 0.694 = 0.246


ReliefFmRMR

CFSubsetPCA

Chi-Squared

Info GainPageRank

SVMGain Ratio

Entropia Esempio

... esempio

Eseguendo lo stesso test anche sugli altri attributi otterremo:

IG (temperature) = 0.029

IG (humidity) = 0.151

IG (windy) = 0.048

Quindi il ranking ottenuto sulla base dell’information gainapportato dagli attributi sara:

1 outlook

2 humidity

3 windy

4 temperature


ReliefFmRMR

CFSubsetPCA

Chi-Squared

Info GainPageRank

SVMGain Ratio

DefinizioneCalcolo

Esempio

Outline


2. mRMRMutual

InformationMinima

Ridondanza

MassimaRilevanza

FormuleBenefici


4. PCAAnalisi




8. SVM



ReliefFmRMR

CFSubsetPCA

Chi-Squared

Info GainPageRank

SVMGain Ratio

DefinizioneCalcolo

Esempio

PageRank

Implementazione del Wrapper Model:

Utilizzare lo stesso algoritmo sia per la feature selection siaper la fase di raccomandazione

Subset ottimizzato per la raccomandazione


ReliefFmRMR

CFSubsetPCA

Chi-Squared

Info GainPageRank

SVMGain Ratio

DefinizioneCalcolo

Esempio

Idea di base

Pesatura dei link in base all’importanza del sito da cui proviene

L’importanza di un link da una qualunque sorgente dovrebbeessere attenuato dal numero dei siti che la sorgente vota


ReliefFmRMR

CFSubsetPCA

Chi-Squared

Info GainPageRank

SVMGain Ratio

DefinizioneCalcolo

Esempio

Definizione

Indicata con P una generica pagina, il suo punteggio sara

r(P) =∑

Q∈BP

r(Q)

|Q|

doveBP = { insieme di tutte le pagine puntanti a P}|Q| = numero degli outlink di Q


ReliefFmRMR

CFSubsetPCA

Chi-Squared

Info GainPageRank

SVMGain Ratio

DefinizioneCalcolo

Esempio

Calcolo punteggio PageRank . . .

Se abbiamo n pagine P1,P2, . . . ,Pn ed assegniamo a ciascunapagina un arbitrario punteggio iniziale r0(Pi ) = 1

n

Il punteggio r(P) puo essere calcolato mediante la seguenteiterazione:

rj (Pi ) =∑

Q∈BPi

rj−1(Q)

|Q|j = 1, 2, 3, . . .


ReliefFmRMR

CFSubsetPCA

Chi-Squared

Info GainPageRank

SVMGain Ratio

DefinizioneCalcolo

Esempio

. . . calcolo punteggio PageRank . . .

Ponendo: πᵀj = (rj (P1), rj (P2), . . . , rj (Pn))

Definiamo la matrice di Google per righe P tale che:

pij =

{ 1Pi

se Pi si connette con la pagina Pj

0 altrimenti

La precedente iterazione si puo riscrivere come:

πᵀj = πᵀj−1P


ReliefFmRMR

CFSubsetPCA

Chi-Squared

Info GainPageRank

SVMGain Ratio

DefinizioneCalcolo

Esempio

. . . calcolo punteggio PageRank

Se il limite esiste, il vettore PageRank e definito

πᵀ = limj→∞

πᵀj

la i-sima componente del vettore PageRank e ilpunteggio(pagerank) della pagina Pi

Per assicurare la convergenza del processo iterativo la matriceP deve essere modificata


ReliefFmRMR

CFSubsetPCA

Chi-Squared

Info GainPageRank

SVMGain Ratio

DefinizioneCalcolo

Esempio

Esempio di graph web

1 2

3

54

6

Matrice Google per righe P

P =

0 12

12 0 0 0

12 0 1

2 0 0 0

0 12 0 1

2 0 0

0 0 0 0 12

12

0 0 12

12 0 0

0 0 0 0 0 1


ReliefFmRMR

CFSubsetPCA

Chi-Squared

Info GainPageRank

SVMGain Ratio

DefinizioneCalcolo

Esempio

Matrice Google per righe

La matrice di Google per righe P e

non-negativasomma degli elementi sulle righe pari a zero1 o uno

Se la matrice P ha tutte le righe con somma pari a uno allorasi parla di matrice stocastica:

autovalore dominante uguale a 1iterazione PageRank converge all’autovettore sinistronormalizzato πᵀ = πᵀP t.c. πᵀ1 = 1

1nodi danglingSimone Rutigliano Algoritmi di feature selection 2 aprile 2015 72 / 108

ReliefFmRMR

CFSubsetPCA

Chi-Squared

Info GainPageRank

SVMGain Ratio

DefinizioneCalcolo

Esempio

Esempio nodo dangling

1 2

3

54

6

P =

0 12

12 0 0 0

12 0 1

2 0 0 0

0 12 0 1

2 0 0

0 0 0 0 12

12

0 0 12

12 0 0

0 0 0 0 0 0

sIl nodo 6 e un nodo dangling in quanto non ha outlink


ReliefFmRMR

CFSubsetPCA

Chi-Squared

Info GainPageRank

SVMGain Ratio

DefinizioneCalcolo

Esempio

Trasformazione Matrice di Google per righe . . .

Stocastica

Sostituire ad ogni riga nulla il vettore 1ᵀ

n

La nuova matrice stocastica si indica con P

Irriducibile

Aggiungere una matrice di perturbazione E = 11ᵀ

n

La nuova matrice sara uguale a

¯P = dP + (1− d)E d ∈ [0, 1]


ReliefFmRMR

CFSubsetPCA

Chi-Squared

Info GainPageRank

SVMGain Ratio

DefinizioneCalcolo

Esempio

. . . Trasformazione Matrice di Google per righe

La matrice di Google attualmente utilizzata e ottenutaconsiderando la matrice di perturbazione E = 1vᵀ dove vᵀ e unvettore di personalizzazione dell’utente

¯P = dP + (1− d)1vᵀ d ∈ [0, 1]


ReliefFmRMR

CFSubsetPCA

Chi-Squared

Info GainPageRank

SVMGain Ratio

DefinizioneCalcolo

Esempio

Damping factor d

Fattore il cui valore e stabilito da Google

Nella documentazione originale fornita dal Searcher il dampingfactor e pari a 0,85 (puo subire aggiustamenti a discrezione diGoogle)

Attraverso il damping factor, Google puo determinare il valorepercentuale di PageRank che transita da una pagina all’altra estabilire un valore minimo di PageRank attribuito ad ognunadelle pagine presenti nei suoi archivi


ReliefFmRMR

CFSubsetPCA

Chi-Squared

Info GainPageRank

SVMGain Ratio

DefinizioneCalcolo

Esempio

Esempio . . .

Consideriamo l’insieme di rilevanza composto da sei pagine webaventi la seguente struttura ad hyperlink

1 2

3

56

4


ReliefFmRMR

CFSubsetPCA

Chi-Squared

Info GainPageRank

SVMGain Ratio

DefinizioneCalcolo

Esempio

. . . Esempio . . .

La matrice di Google per righe corrispondente al grafo sara laseguente

P =

0 12

12 0 0 0

0 0 0 0 0 013

13 0 0 1

3 0

0 0 0 0 12

12

0 0 0 12 0 1

2

0 0 0 1 0 0


ReliefFmRMR

CFSubsetPCA

Chi-Squared

Info GainPageRank

SVMGain Ratio

DefinizioneCalcolo

Esempio

. . . Esempio . . .

Considerato che il nodo 2 e un nodo dangling allora sara necessariotrasformarla in matrice stocastica

1 2

3

56

4

P =

0 12

12 0 0 0

16

16

16

16

16

16

13

13 0 0 1

3 0

0 0 0 0 12

12

0 0 0 12 0 1

2

0 0 0 1 0 0

s


ReliefFmRMR

CFSubsetPCA

Chi-Squared

Info GainPageRank

SVMGain Ratio

DefinizioneCalcolo

Esempio

. . . Esempio . . .

La matrice stocastica ottenuta e una matrice riducibile

P =

0 12

12 0 0 0

16

16

16

16

16

16

13

13 0 0 1

3 0

0 0 0 0 12

12

0 0 0 12 0 1

2

0 0 0 1 0 0


ReliefFmRMR

CFSubsetPCA

Chi-Squared

Info GainPageRank

SVMGain Ratio

DefinizioneCalcolo

Esempio

. . . Esempio . . .

Per ottenere una matrice irriducibile settiamo il parametrod = 0.85 da applicare alla formula 2

¯P = 0.85 ∗ P +0.15 ∗ 11ᵀ

6

2 ¯P = dP + (1−d)11ᵀ

nSimone Rutigliano Algoritmi di feature selection 2 aprile 2015 81 / 108

ReliefFmRMR

CFSubsetPCA

Chi-Squared

Info GainPageRank

SVMGain Ratio

DefinizioneCalcolo

Esempio

. . . Esempio . . .

6 5

4

2

3

22

2

1

1

11

1 0.85 · 0 + 0.15 · 16

2 0.85 · 12 + 0.15 · 1

6

3 0.85 · 1 + 0.15 · 16

0.85 ∗

. . .

......

.... . . 0 1

212

. . . 12 0 1

2

. . . 1 0 0

+ 0.15 ∗

. . .

......

.... . . 1

616

16

. . . 16

16

16

. . . 16

16

16


ReliefFmRMR

CFSubsetPCA

Chi-Squared

Info GainPageRank

SVMGain Ratio

DefinizioneCalcolo

Esempio

. . . Esempio

Il vettore di PageRank associato alla precedente matrice sara

πᵀ = (0.3721 0.05396 0.0415 0.375 0.206 0.286)

PageRank indipendente dalla query


ReliefFmRMR

CFSubsetPCA

Chi-Squared

Info GainPageRank

SVMGain Ratio

DefinizioneCalcolo

Esempio

Esempio di raccomandazione . . .

Data una query contenente i termini t1 e t2

Inverted term-document associato sara

t1 −→ doc1, doc4, doc6t2 −→ doc1, doc3...


ReliefFmRMR

CFSubsetPCA

Chi-Squared

Info GainPageRank

SVMGain Ratio

DefinizioneCalcolo

Esempio

. . . Esempio di raccomandazione

Calcoliamo l’insieme di rilevanza per la query q = (t1, t2)

Insieme di rilevanza {1 3 4 6}

I PageRank dei 4 documenti possono essere confrontati perindividuare quale dei documenti e il piu rilevante

ordinare le componenti del vettore pagerank associate aidocumenti selezionati in modo decrescente

π4 π6 π3 π1

doc4 −→ documento piu rilevanteseguono doc6, doc3, doc1


ReliefFmRMR

CFSubsetPCA

Chi-Squared

Info GainPageRank

SVMGain Ratio

Outline


2. mRMRMutual

InformationMinima

Ridondanza

MassimaRilevanza

FormuleBenefici


4. PCAAnalisi




8. SVM



ReliefFmRMR

CFSubsetPCA

Chi-Squared

Info GainPageRank

SVMGain Ratio

Classificatore lineare

Definito un dataset etichettato in maniera binaria

Etichette di classe:

istanze negative -1

#istanze positive +1

Trovare una retta che sia in grado di classificare i dati in manieracorretta


ReliefFmRMR

CFSubsetPCA

Chi-Squared

Info GainPageRank

SVMGain Ratio


Entrambe le soluzioni risultano corrette


ReliefFmRMR

CFSubsetPCA

Chi-Squared

Info GainPageRank

SVMGain Ratio


In realta le soluzioni che possono soddisfare il problema possoessere potenzialmente infinite


ReliefFmRMR

CFSubsetPCA

Chi-Squared

Info GainPageRank

SVMGain Ratio

Support Vector Machine (SVM) - Idea di base

Un SVM lineare e un classificatore che riesce a trovare la rettaclassificante con il piu ampio margine possibile


ReliefFmRMR

CFSubsetPCA

Chi-Squared

Info GainPageRank

SVMGain Ratio

Definizioni

Un vettore W in uno spazio d-dimensionalerappresenta una lista di d numeri, e.g.W = (−1, 2)ᵀ

Vettore e un segmento orientato nello spazio

La norma del vettore ‖W ‖ rappresenta la sualunghezza

W ᵀX : proiezione dell’asseX su W

W ᵀX = 0→ punti che siintersecano con l’asse

W ᵀX = 1 : linea parallela aW ᵀX = 0 shiftata di 1

‖W ‖


ReliefFmRMR

CFSubsetPCA

Chi-Squared

Info GainPageRank

SVMGain Ratio

SVM - boundary e margini

Trovare il coefficiente angolare della retta (W ) e l’offset della retta(b) tale che:

tutti gli esempi positivi (X,Y=1) ricadano nella zona rossa

tutti gli esempi negativi (X,Y=-1) ricadano nella zona blu

il margine M sia massimizzato


ReliefFmRMR

CFSubsetPCA

Chi-Squared

Info GainPageRank

SVMGain Ratio

SVM come ottimizzazione di vincoli

Variabili:Vettore Woffset della retta bN punti (Xi ,Yi ) dove Yi = {−1, 1}

Funzione obiettivo:

max2

‖W ‖→ min ‖W ‖

Vincoli da considerare:

∀i se Yi =

{1 W ᵀXi + b ≥ 1

−1 W ᵀXi + b ≤ −1

unificabile in:Yi (W ᵀXi + b) ≥ 1


ReliefFmRMR

CFSubsetPCA

Chi-Squared

Info GainPageRank

SVMGain Ratio

SVM come Quadratic Program

Funzione obiettivo quadratica

Vincoli lineari

Questo problema e conosciuto come Quadratic Program(QP) per il quale esistono algoritmi che ricercano la soluzioneglobale piu efficiente


ReliefFmRMR

CFSubsetPCA

Chi-Squared

Info GainPageRank

SVMGain Ratio

Casi non separabili

Nel caso in cui ci dovessimo trovare in questa situazione

Esistono due possibili soluzioniSimone Rutigliano Algoritmi di feature selection 2 aprile 2015 95 / 108

ReliefFmRMR

CFSubsetPCA

Chi-Squared

Info GainPageRank

SVMGain Ratio

SVM con slack variable

Rilassare i vincoli

Per un dato boundary (W , b) si andranno a calcolare quantemisclassification sono state considerate

I vincoli diventeranno:

Yi (W ᵀXi + b) ≥ 1− εi


ReliefFmRMR

CFSubsetPCA

Chi-Squared

Info GainPageRank

SVMGain Ratio

SVM con slack variable

Il nuovo obiettivo diventa quindi:

Minimizzare gli errori di misclassification e le istanze presentiall’interno dei margini

minw

{‖ w ‖2 +C

∑i

εi

}

C indica il trade-off tra la larghezza dei margini e lemisclassification

In questo caso verra aggiunto un ulteriore vincolo

∀i εi ≥ 0


ReliefFmRMR

CFSubsetPCA

Chi-Squared

Info GainPageRank

SVMGain Ratio

SVM con kernel trick

Il prodotto scalare viene tramutato in una funzione kernel nonlineare φ

L’algoritmo crea l’iperpiano che massimizza i margini nelnuovo spazio delle feature trasformato

φ


ReliefFmRMR

CFSubsetPCA

Chi-Squared

Info GainPageRank

SVMGain Ratio

Ricapitolando

SVM massimizza il margine di separazione tra gli iperpianiLa funzione di decisione viene creata sulla base del subset diesempi (support vectors)


ReliefFmRMR

CFSubsetPCA

Chi-Squared

Info GainPageRank

SVMGain Ratio

Esempio

Outline


2. mRMRMutual

InformationMinima

Ridondanza

MassimaRilevanza

FormuleBenefici


4. PCAAnalisi




8. SVM



ReliefFmRMR

CFSubsetPCA

Chi-Squared

Info GainPageRank

SVMGain Ratio

Esempio

Gain Ratio - Idea di base

Estensione dell’information gain classico

Mira a penalizzare gli attributi con un numero elevato di valori

Normalizza l’InfoGain usando l’entropia di S in relazioneall’attributo Attr (Split information)

SplitInformation(S ,Attr) = −∑

v∈Values(Attr)

|Sv ||S |

log

(|Sv ||S |

)

Definizione di GainRatio:

GainRatio(S ,Attr) =IG (S ,Attr)

SplitInformation(S ,Attr)


ReliefFmRMR

CFSubsetPCA

Chi-Squared

Info GainPageRank

SVMGain Ratio

Esempio

Esempio ...

Riprendendo l’esempio definito in precedenza

Day Outlook Temp Humidity Wind PlayTennis

D1 Sunny Hot High Weak NoD2 Sunny Hot High Strong NoD3 Overcast Hot High Weak YesD4 Rain Mild High Weak YesD5 Rain Cool Normal Weak YesD6 Rain Cool Normal Strong NoD7 Overcast Cool Normal Weak YesD8 Sunny Mild High Weak NoD9 Sunny Cold Normal Weak Yes

D10 Rain Mild Normal Strong YesD11 Sunny Mild Normal Strong YesD12 Overcast Mild High Strong YesD13 Overcast Hot Normal Weak YesD14 Rain Mild High Strong No


ReliefFmRMR

CFSubsetPCA

Chi-Squared

Info GainPageRank

SVMGain Ratio

Esempio

... esempio ...

Descrizione del dataset:

istanze di training : 14

istanze classificate come Yes : 9

istanze classificate come No : 5

Descrizione dell’attributo outlook:

sunny overcast rainyes 2 4 3no 3 0 2

tot 5 4 5


ReliefFmRMR

CFSubsetPCA

Chi-Squared

Info GainPageRank

SVMGain Ratio

Esempio

... esempio ...

La Split information dell’attributo outlook sara:

SI (S , outlook) = SI (S , sunny)+SI (S , overcast)+SI (S , rain) = 1.577

dove:

SI (S , sunny): − 514 · log2

(5

14

)= 0, 5305

SI (S , overcast): − 414 · log2

(4

14

)= 0, 5160

SI (S , rain): − 514 · log2

(5

14

)= 0, 5305

Quindi la gain ratio dell’attributo outlook sara:

GainRatio(S , outlook) =IG (S , outlook)

SI (S , outlook)=

0.246

1.577= 0.156


ReliefFmRMR

CFSubsetPCA

Chi-Squared

Info GainPageRank

SVMGain Ratio

Esempio

... esempio

Usando l’approccio del Gain Ratio il nuovo ranking sara:

GainRatio(S , outlook) =IG (S , outlook)

SI (S , outlook)=

0.246

1.577= 0.156

GainRatio(S , humidity) =IG (S , humidity)

SI (S , humidity)=

0.151

1= 0.151

GainRatio(S ,wind) =IG (S ,wind)

SI (S ,wind)=

0.048

0.9= 0.053

GainRatio(S , temperature) =IG (S , temperature)

SI (S , temperature)=

0.029

1.788= 0.016


ReliefFmRMR

CFSubsetPCA

Chi-Squared

Info GainPageRank

SVMGain Ratio

Esempio

Ricapitolando

Di seguito sono mostrati gli attributi con i rispettivi valori e ilnumero di istanze avvalorate in quel modo

outlook

sunny : 5

overcast : 4

rainy : 5

humidity

{high : 7

normal : 7

windy

{strong : 6

weak : 8temperature

hot : 4

mild : 6

cool : 3

cold : 1

InfoGain GainRatioOutlook .246 .156 Lhumidity .151 .151windy .048 .053 Ktemperature .029 .016 L


ReliefFmRMR

CFSubsetPCA

Chi-Squared

Info GainPageRank

SVMGain Ratio

References I

Monica Bianchini, Marco Gori, and Franco Scarselli.

Inside pagerank.

ACM Trans. Internet Technol., 5(1):92–128, February 2005.

Isabelle Guyon, Jason Weston, Stephen Barnhill, and Vladimir Vapnik.

Gene selection for cancer classification using support vector machines.

Machine learning, 46(1-3):389–422, 2002.

M. A. Hall.

Correlation-based Feature Subset Selection for Machine Learning.

PhD thesis, University of Waikato, Hamilton, New Zealand, 1998.

Harold Hotelling.

Analysis of a complex of statistical variables into principal components.

Journal of educational psychology, 24(6):417, 1933.


ReliefFmRMR

CFSubsetPCA

Chi-Squared

Info GainPageRank

SVMGain Ratio

References II

Igor Kononenko, Edvard Simec, and Marko Robnik-Sikonja.

Overcoming the myopia of inductive learning algorithms with relieff.

Applied Intelligence, 7(1):39–55, 1997.

Hanchuan Peng, Fuhui Long, and Chris Ding.

Feature selection based on mutual information: criteria ofmax-dependency, max-relevance, and min-redundancy.

IEEE Transactions on Pattern Analysis and Machine Intelligence,27:1226–1238, 2005.

George Waddel Snedecor and William G. Cochran.

Statistical methods.

Iowa State University Press, 1989.


Features Selection's algorithms

Data & Analytics

Transcript of Features Selection's algorithms