Rangsorolás tanulása
ápr. 24.
Állásra jelentkezők rangsorolása
Rangsorolási feladat
Adott elemek egy halmaza o1…n és egy q lekérdezés
Az {oi,q} párokat (gazdag) jellemzőtérrel írjuk le
Rangsoroljuk o1…n elemeket q-szerinti relavancia szempontjából!
A kimenet az o1…n elemek egy rendezett listája
Rangsorolás tanulásaTanító adatbázis:
Modell:
OnOQOqR :),(
Rangsorolás vs. regresszióEgyszerű megoldás: helyezést, mint valós értéket regresszáljuk
Célfüggvény más! Konkrét értékek nem érdekesek, csak a rendezés
Az egyes lekérdezések közti normalizáció problémás:pl. f(q1,o1,18) = f(q2, o2,72) = 1
Rangsorolás vs. osztályozásSokszor a gyakorlatban csak néhány releváns elem ismert a lekérdezéshez (nem teljes rangsor).
Releváns/nem-releváns bináris osztályozás?
Egy halmazból mindig a legrelevánsabbakat kell kiválasztani! (globális osztályozó predikálhat mindent nem-relevánsnak)
Rangsorolásnál az adott O belüli (relatív) rangsor a kérdés és nem egy abszolút rangsor.
Kiértékelési metrikákKendall tau:
Releváns elem választásnál:
rel(k): a k.-nak visszaadott elem releváns-eP(k)= precízió@k
MAP: AveP átlagolva több q,O pár felett
reciprok rangsor = 1/rank, ahol rank az első releváns elem helyezéseMRR: reciprok rangsor átlagolva több q,O pár felett
Megközelítések• Pontszerű (pointwise) megközelítésRegressziós (teljes rangsorolás) vagy osztályozási (releváns
elemek) problémaként kezeljük
• Pár-alapú (pairwise) megközelítésAz egyes O-kon belül párokat formálunk, arra az
osztályozási feladatra vezetjük vissza, hogy oi elem relevánsabb-e, mint oj.
Rangsorolásnál mindenki mindenkivel versenyez.
• Lista-alapú (listwise) megközelítésA rangsorolást közvetlenül tanuljuk. Egy q,O pár egy egyed
SVMrank
SVMrank
SVMrank
http://www.cs.cornell.edu/people/tj/svm_light/svm_rank.html
Tfh. f(x) lineáris, ekkor:
…
ListMLE – Plackett Luce Modell
π egy rangsorolása O elemeinekπ-1(i) a rangsor i. pozíciójában álló elems egy pontszám az egyes értékekhez
• P egy eloszlás• s szerint csökkenő(növekvő) sorrendnek a legnagyobb(legkissebb) a valószínűsége
ListMLELegyen
Keressük azt az paramétervektort ami maximalizálja a tanító adatbázis megfigyelésének valószínűségét (MLE) a Plackett-Luce modell alapján:
ixi es
)|},({maxarg
)exp(
)exp(log)|},({
1
1 1)(,
)(,1
1
1
m
m
i
n
jn
jkki
jim
XL
x
xXL
i
i
i
i
ListMLEsorrend helyett releváns találatok
)|},({maxarg
)'exp()exp(log)|},({
1
1'
1
m
m
i YyXx
m
YXL
xyYXL
i
i
Jelölje Yi az i. lekérdezéshez releváns találatok halmazát
iYy
?
Megjegyzések
• A pontszerű megközelítésnél számottevően jobbak a pár- ill. lista-alapú módszerek
• A gyakorlatban a pár- és lista-alapú módszerek versenyképesek
• Tanító példák száma:• Pár-alapúnál |Q\|O|2• Lista-alapúnáé |Q\ tanító példa
Összegzés• Rangsorolási feladat
• Teljes rangsor• Releváns elemek
• Pontszerű (pointwise) megközelítés• Regresszió• Releváns/nem releváns osztályozás
• Pár-alapú (pairwise) megközelítés• SVMrank
• Lista-alapú (listwise) megközelítés• ListMLE
Top Related