Post on 12-Jan-2016
description
IGrid index
Roman Krejčík
Obsah
Motivace Prokletí dimenze Míry podobnosti IGrid, IGrid+ Experimentální porovnání
Motivace
Pro data reprezentovaná vektory vysokých dimenzí jsou tradiční indexační metody neefektivní.
IGrid index – navržen pro indexaci vyskodimenzionálních dat
Prokletí dimenzionality
Ve vysokých dimenzích (pro Lp metriky) : Neexistuje „hluboký prostor“ Ztrácí se rozdíly mezi nejbližším a
nejvzdálenějším sousedem.
Formálněji: Pro dimenzi → ∞ (při splnění jistých podmínek)
(Dmax - Dmin) / Dmin → 0 (ve většině případů)
Prokletí dimenzionality 2
Příčina Způsob výpočtu vzdálenosti/podobnosti Mnoho dimenzí → i nejbližší sousedé se
pravděpodobně v některých složkách vektorů odlišují o hodně (pro náhodná uniformně rozdělená data)
Důsledky pro MAM: Neexistují shluky, regiony se překrývají MAM degradují na sekvenční průchod
Prokletí dimenzionality 3
Má taková podobnost smysl ? Uspořádní není stabilní Nepatrná změna dat může nejbližího souseda změnit v
nejvzdálenějšího. Modelování reálných objektů vnáší nepřesnosti
Řešení Aproximativní vyhledávání, redukce dimenze Použítí vhodnější podobnostní míry
Podobnostní míra
Běžná podobnost založená na Lp vzdálenosti ui, li – horní a dolní mez hodnot příslušné dimenze Zohledňuje „podobnost a odlišnost“ složek Chtěli bychom zohlednit pouze „podobnost“
ppd
i ii
ii
lu
yxYXSim
/1
1
1),(
Mřížka
Rozdělení vektorového prostoru mřížkou
Každá dimenze na kd
intervalů každý interval obsahuje
stejně objektů – tj N / kd
kd konstanta zavislá na dimenzi
Lepší podobnost
p
kYXSi
p
ii
iid
dnm
yxkYXPSim
/1
,,
1),,(
S[…] – dimenze ve kterých X a Y leží ve stejném intervalu m,n – horní a dolní mez příslušného intervalu mřížky Vychází z původní podobnosti Zohledňuje pouze složky vektoru X,Y které jsou „blízko“
IGrid index
Podobný invertovanému seznamu V paměti je uloženo:
meze všech intervalů mřížky (tj. d ∙ kd intervalů) pro každý interval seznam objektů v něm ležících pro jednotlivé záznamy v seznamech souřadnice
odkazovaného objektu pro příslušnou dimenzi
Velikost reprezentace je lineárně závislá na počtu objektů
NN dotaz v IGrid indexu
Podobnost měříme podle PSim
1. Pro dotaz (tj. bod prostoru) Q se najde příslušný interval mřížky pro každou dimenzi
2. Pro každý interval se projde invertovaný seznam a spočítá příspěvek do celkové podobnosti
3. Jednotlivé příspěvky se příčítají do hashovací tabulky indexované objekty
4. Na konci se z hash tabulky vyberou objekty s největší hodnotou podobnosti
Složitost NN dotazu
Index obsahuje N ∙ d záznamů v invertovaných seznamech
Prochází se 1 / kd indexu (tj. N ∙ d / kd záznamů)
Složitost závislá na parametru indexu kd
Jaká je optimální hodnota ?
Optimální hodnota kd
Vysoké kd zvyšuje rychlost vyhledávání Příliš vysoké kd → krátké intervaly → “false
drop”
→ kd nejmenší takové kdy se neprojeví prokletí dimezionality lze teoreticky ukázat, že kd musí být alespoň
lineárně závislé na d, prakticky kd = θ ∙ d pro θ od 0.5 do 1
Vylepšení metody
Objekty ležící v sousedních intervalech mohou být také podobné. Řešení: rozdělit jednotlivé intervaly na g
segmentů Invertované seznamy až pro segmenty Při dotazovaní se prochází g segmentů
nejbližších dotazu Experimentálně: už g = 3 uspokojivé výsledky
Korelace dimenzí
Vysoký počet dimenzí → některé jsou korelované
Pokud dimenze d1,d2 korelované → podobné objekty leží pravděpodobně ve stejných intervalech pro d1 a d2
Zohledníme korelace intervalů při výpočtu podobností
Podobnost CSim
Spočteme korelaci pro všechny dvojice intervalů různých dimenzí cij počet objektů ležících v obou intervalech i a j f nejvíce korelovaných intervalů označíme jako
závislé CSim(X,Y):
Počet závislých dvojit intervalů i,j kde X leží v i a Y leží v j
IGrid+ index
Podobnostní míra PCSim = PSim + CSim
Potřebujeme navíc spočítat závislé intervaly Jak volit parametr f ? (počet závislých dvojic)
Cheme rozumně vyvážit příspěvek od PSim i CSim
f = 1 / ((d – 1) ∙ kd
Experimentální porovnání
Smysluplnost použité podobnostï porovnání Lp, PSim, PCSim
Rychlost dotazů porovnání iGrid, iGrid+, VA-file
Parametr kd
resp. θ, neboť kd = θ ∙ d
Smysluplnost podobnosti
Testovací sada – vektory klasifikované do tříd Pro každý objekt NN-5 objektů Měří se počet objektů ze stejné třídy ve
výsledkuData / Dimenze
Random Euclidan PSim PCSim
A / 8 60 293 354 386
B / 160 65 255 636 671
C / 14 1499 2535 2619 2671
D / 39 144 688 755 802
E / 34 926 1371 1538 1606
Efektivita dotazování
Zdroje
Charu C. Aggarwal, Philip S. Yu:
The IGrid Index: Reversing the Dimensionality Curse For Similarity Indexing in High Dimensional Space