Download - Rangsorolás tanulása

Rangsorolás tanulása

ápr. 24.

Állásra jelentkezők rangsorolása

Rangsorolási feladat

Adott elemek egy halmaza o1…n és egy q lekérdezés

Az {oi,q} párokat (gazdag) jellemzőtérrel írjuk le

Rangsoroljuk o1…n elemeket q-szerinti relavancia szempontjából!

A kimenet az o1…n elemek egy rendezett listája

Rangsorolás tanulásaTanító adatbázis:

Modell:

OnOQOqR :),(

Rangsorolás vs. regresszióEgyszerű megoldás: helyezést, mint valós értéket regresszáljuk

Célfüggvény más! Konkrét értékek nem érdekesek, csak a rendezés

Az egyes lekérdezések közti normalizáció problémás:pl. f(q1,o1,18) = f(q2, o2,72) = 1

Rangsorolás vs. osztályozásSokszor a gyakorlatban csak néhány releváns elem ismert a lekérdezéshez (nem teljes rangsor).

Releváns/nem-releváns bináris osztályozás?

Egy halmazból mindig a legrelevánsabbakat kell kiválasztani! (globális osztályozó predikálhat mindent nem-relevánsnak)

Rangsorolásnál az adott O belüli (relatív) rangsor a kérdés és nem egy abszolút rangsor.

Kiértékelési metrikákKendall tau:

Releváns elem választásnál:

rel(k): a k.-nak visszaadott elem releváns-eP(k)= precízió@k

MAP: AveP átlagolva több q,O pár felett

reciprok rangsor = 1/rank, ahol rank az első releváns elem helyezéseMRR: reciprok rangsor átlagolva több q,O pár felett

Megközelítések• Pontszerű (pointwise) megközelítésRegressziós (teljes rangsorolás) vagy osztályozási (releváns

elemek) problémaként kezeljük

• Pár-alapú (pairwise) megközelítésAz egyes O-kon belül párokat formálunk, arra az

osztályozási feladatra vezetjük vissza, hogy oi elem relevánsabb-e, mint oj.

Rangsorolásnál mindenki mindenkivel versenyez.

• Lista-alapú (listwise) megközelítésA rangsorolást közvetlenül tanuljuk. Egy q,O pár egy egyed

SVMrank

SVMrank

http://www.cs.cornell.edu/people/tj/svm_light/svm_rank.html

Tfh. f(x) lineáris, ekkor:

…

http://www.cs.cornell.edu/people/tj/svm_light/svm_rank.html

ListMLE – Plackett Luce Modell

π egy rangsorolása O elemeinekπ-1(i) a rangsor i. pozíciójában álló elems egy pontszám az egyes értékekhez

• P egy eloszlás• s szerint csökkenő(növekvő) sorrendnek a legnagyobb(legkissebb) a valószínűsége

ListMLELegyen

Keressük azt az paramétervektort ami maximalizálja a tanító adatbázis megfigyelésének valószínűségét (MLE) a Plackett-Luce modell alapján:

ixi es

)|},({maxarg

)exp(

)exp(log)|},({

1

1 1)(,

)(,1

1

1

m

m

i

n

jn

jkki

jim

XL

x

xXL

i

i

i

i

ListMLEsorrend helyett releváns találatok

)|},({maxarg

)'exp()exp(log)|},({

1

1'

1

m

m

i YyXx

m

YXL

xyYXL

i

i

Jelölje Yi az i. lekérdezéshez releváns találatok halmazát

iYy

?

Megjegyzések

• A pontszerű megközelítésnél számottevően jobbak a pár- ill. lista-alapú módszerek

• A gyakorlatban a pár- és lista-alapú módszerek versenyképesek

• Tanító példák száma:• Pár-alapúnál |Q\|O|2• Lista-alapúnáé |Q\ tanító példa

Összegzés• Rangsorolási feladat

• Teljes rangsor• Releváns elemek

• Pontszerű (pointwise) megközelítés• Regresszió• Releváns/nem releváns osztályozás

• Pár-alapú (pairwise) megközelítés• SVMrank

• Lista-alapú (listwise) megközelítés• ListMLE