IGrid index

Roman Krejčík

Motivace Prokletí dimenze Míry podobnosti IGrid, IGrid+ Experimentální porovnání

Motivace

Pro data reprezentovaná vektory vysokých dimenzí jsou tradiční indexační metody neefektivní.

IGrid index – navržen pro indexaci vyskodimenzionálních dat

Prokletí dimenzionality

Ve vysokých dimenzích (pro Lp metriky) : Neexistuje „hluboký prostor“ Ztrácí se rozdíly mezi nejbližším a

nejvzdálenějším sousedem.

Formálněji: Pro dimenzi → ∞ (při splnění jistých podmínek)

(Dmax - Dmin) / Dmin → 0 (ve většině případů)

Prokletí dimenzionality 2

Příčina Způsob výpočtu vzdálenosti/podobnosti Mnoho dimenzí → i nejbližší sousedé se

pravděpodobně v některých složkách vektorů odlišují o hodně (pro náhodná uniformně rozdělená data)

Důsledky pro MAM: Neexistují shluky, regiony se překrývají MAM degradují na sekvenční průchod

Prokletí dimenzionality 3

Má taková podobnost smysl ? Uspořádní není stabilní Nepatrná změna dat může nejbližího souseda změnit v

nejvzdálenějšího. Modelování reálných objektů vnáší nepřesnosti

Řešení Aproximativní vyhledávání, redukce dimenze Použítí vhodnější podobnostní míry

Podobnostní míra

Běžná podobnost založená na Lp vzdálenosti ui, li – horní a dolní mez hodnot příslušné dimenze Zohledňuje „podobnost a odlišnost“ složek Chtěli bychom zohlednit pouze „podobnost“

yxYXSim

Mřížka

Rozdělení vektorového prostoru mřížkou

Každá dimenze na kd

intervalů každý interval obsahuje

stejně objektů – tj N / kd

kd konstanta zavislá na dimenzi

Lepší podobnost

yxkYXPSim

S[…] – dimenze ve kterých X a Y leží ve stejném intervalu m,n – horní a dolní mez příslušného intervalu mřížky Vychází z původní podobnosti Zohledňuje pouze složky vektoru X,Y které jsou „blízko“

IGrid index

Podobný invertovanému seznamu V paměti je uloženo:

meze všech intervalů mřížky (tj. d ∙ kd intervalů) pro každý interval seznam objektů v něm ležících pro jednotlivé záznamy v seznamech souřadnice

odkazovaného objektu pro příslušnou dimenzi

Velikost reprezentace je lineárně závislá na počtu objektů

NN dotaz v IGrid indexu

Podobnost měříme podle PSim

1. Pro dotaz (tj. bod prostoru) Q se najde příslušný interval mřížky pro každou dimenzi

2. Pro každý interval se projde invertovaný seznam a spočítá příspěvek do celkové podobnosti

3. Jednotlivé příspěvky se příčítají do hashovací tabulky indexované objekty

4. Na konci se z hash tabulky vyberou objekty s největší hodnotou podobnosti

Složitost NN dotazu

Index obsahuje N ∙ d záznamů v invertovaných seznamech

Prochází se 1 / kd indexu (tj. N ∙ d / kd záznamů)

Složitost závislá na parametru indexu kd

Jaká je optimální hodnota ?

Optimální hodnota kd

Vysoké kd zvyšuje rychlost vyhledávání Příliš vysoké kd → krátké intervaly → “false

drop”

→ kd nejmenší takové kdy se neprojeví prokletí dimezionality lze teoreticky ukázat, že kd musí být alespoň

lineárně závislé na d, prakticky kd = θ ∙ d pro θ od 0.5 do 1

Vylepšení metody

Objekty ležící v sousedních intervalech mohou být také podobné. Řešení: rozdělit jednotlivé intervaly na g

segmentů Invertované seznamy až pro segmenty Při dotazovaní se prochází g segmentů

nejbližších dotazu Experimentálně: už g = 3 uspokojivé výsledky

Korelace dimenzí

Vysoký počet dimenzí → některé jsou korelované

Pokud dimenze d1,d2 korelované → podobné objekty leží pravděpodobně ve stejných intervalech pro d1 a d2

Zohledníme korelace intervalů při výpočtu podobností

Podobnost CSim

Spočteme korelaci pro všechny dvojice intervalů různých dimenzí cij počet objektů ležících v obou intervalech i a j f nejvíce korelovaných intervalů označíme jako

závislé CSim(X,Y):

Počet závislých dvojit intervalů i,j kde X leží v i a Y leží v j

IGrid+ index

Podobnostní míra PCSim = PSim + CSim

Potřebujeme navíc spočítat závislé intervaly Jak volit parametr f ? (počet závislých dvojic)

Cheme rozumně vyvážit příspěvek od PSim i CSim

f = 1 / ((d – 1) ∙ kd

Experimentální porovnání

Smysluplnost použité podobnostï porovnání Lp, PSim, PCSim

Rychlost dotazů porovnání iGrid, iGrid+, VA-file

Parametr kd

resp. θ, neboť kd = θ ∙ d

Smysluplnost podobnosti

Testovací sada – vektory klasifikované do tříd Pro každý objekt NN-5 objektů Měří se počet objektů ze stejné třídy ve

výsledkuData / Dimenze

Random Euclidan PSim PCSim

A / 8 60 293 354 386

B / 160 65 255 636 671

C / 14 1499 2535 2619 2671

D / 39 144 688 755 802

E / 34 926 1371 1538 1606

Efektivita dotazování

Zdroje

Charu C. Aggarwal, Philip S. Yu:

The IGrid Index: Reversing the Dimensionality Curse For Similarity Indexing in High Dimensional Space

IGrid index

Documents

Transcript of IGrid index

iGrid ooo - Electronic Visualization Laboratory · 2007-06-21 · iGrid is connected to the JGN, the WIDE Project Network (in cooperation with NTT, TTNet and PNJC), APAN and the APAN/TransPAC

Índice · Index · Index

Securing Optical Network Data - STAR TAP · Securing Optical Network Data IGrid 2005 Carter Bullard September 26-29, 2005

iGW VM - iGrid T&D · iGW-VM • Porting to Linux & Windows platforms, from servers to embedded systems • Redundant hot-standby architecture • Extremely scalable and adaptable

Copyright AARNet 20051 Australia’s e-Research Infrastructure IGRID - 27 September 2005 George McLaughlin International Developments, AARNet Enhancing Global.

Italo Epicoco, Ph.D. University of Lecce, Italy Italo.epicoco@unile.it iGrid: a Relational Information Service A novel resource & service discovery approach.

Feb. 27 2006 - ON*VECTOR Photonics Workshop iGrid 2005 Cyber-Infrastructure iGrid2005 Cyber-infrastructure Paola Grosso GigaPort project UvA.

index [] · index ... index

iGrid 2005 Highlights

TRIUMF a TIER 1 Center for ATLAS Canada Steven McDonald TRIUMF Network & Computing Services steven.mcdonald@triumf.ca iGrid 2005 – San Diego Sept 26 th.

Index / Index / Índice

Versatile and modular extension units · Smart Solutions for Smart Grids iGrid T&D Headquarters C/ Marie Curie, 8-14, Parc Tecnològic 08042 – Barcelona, Catalonia (Spain) Tel.

Advanced Optical Technologies for Data Intensive Applications Kim Roberts iGrid 2005.

iGrid 2005 Workshop, 26-29Sep05, UCSD/CalIT2 - NASA · 2010. 3. 25. · iGrid 2005 Workshop, 26-29Sep05,UCSD/CalIT2 Accelerating the Use of Multi-10Gigabit per Second International

B Index BCOM Index DBLCDBAT Index CMDIBASS Index GS cmdty … · 2015. 12. 4. · B Index BCOM Index DBLCDBAT Index CMDIBASS Index GS cmdty Index Bloomberg Commodity DBIQ Diversified

TransLight/StarLight Enables iGrid Applications

767 INDEX [] · 767 INDEX ... index ...

· 3 Index INDEX ..................................................................................................... 3 INDEX OF FIGURES

Urban Lambda Grids for Advanced Biomedical Collaboration Jonathan C. Silverstein iGrid 2005 September 27, 2005.

Index [assets.cambridge.org]assets.cambridge.org/97811070/21259/index/9781107021259_index.pdfIndex ... Index