Fast Shortest Path Distance Estimation in Large Networks
-
Upload
jaime-tyler -
Category
Documents
-
view
39 -
download
1
description
Transcript of Fast Shortest Path Distance Estimation in Large Networks
![Page 1: Fast Shortest Path Distance Estimation in Large Networks](https://reader036.fdocuments.net/reader036/viewer/2022062314/5681309c550346895d9687aa/html5/thumbnails/1.jpg)
Fast Shortest Path DistanceEstimation in Large Networks
Michalis Potamias, Francesco Bonchi,Carlos Castillo, and Aristides Gionis
発表 : 秋葉 拓哉 ( コンピュータ科学専攻 M1)
2011/10/24 Web 工学
![Page 2: Fast Shortest Path Distance Estimation in Large Networks](https://reader036.fdocuments.net/reader036/viewer/2022062314/5681309c550346895d9687aa/html5/thumbnails/2.jpg)
どんな論文?
• 最短路クエリのアルゴリズムと実験
• チーム:– 主著者はボストン大学– 他 3 名は Yahoo! Research (Barcelona, Spain)– 主著者がインターンした際の成果
• CIKM 2009 の Student Best Paper– ちなみに同会議の Best Paper も Yahoo! Research– 現在 CIKM 2011 開催中 (Glasgow)
![Page 3: Fast Shortest Path Distance Estimation in Large Networks](https://reader036.fdocuments.net/reader036/viewer/2022062314/5681309c550346895d9687aa/html5/thumbnails/3.jpg)
話の流れ
1. 最短路クエリ問題とは?
2. ランドマークを用いた最短距離の推定
3. ランドマーク選択の手法の検討
4. 実験結果
![Page 4: Fast Shortest Path Distance Estimation in Large Networks](https://reader036.fdocuments.net/reader036/viewer/2022062314/5681309c550346895d9687aa/html5/thumbnails/4.jpg)
最短路クエリ問題とは?
![Page 5: Fast Shortest Path Distance Estimation in Large Networks](https://reader036.fdocuments.net/reader036/viewer/2022062314/5681309c550346895d9687aa/html5/thumbnails/5.jpg)
Social Search
![Page 6: Fast Shortest Path Distance Estimation in Large Networks](https://reader036.fdocuments.net/reader036/viewer/2022062314/5681309c550346895d9687aa/html5/thumbnails/6.jpg)
Social Search
![Page 7: Fast Shortest Path Distance Estimation in Large Networks](https://reader036.fdocuments.net/reader036/viewer/2022062314/5681309c550346895d9687aa/html5/thumbnails/7.jpg)
Context-Aware Search
「木」を検索
![Page 8: Fast Shortest Path Distance Estimation in Large Networks](https://reader036.fdocuments.net/reader036/viewer/2022062314/5681309c550346895d9687aa/html5/thumbnails/8.jpg)
「木」を検索
Context-Aware Search
![Page 9: Fast Shortest Path Distance Estimation in Large Networks](https://reader036.fdocuments.net/reader036/viewer/2022062314/5681309c550346895d9687aa/html5/thumbnails/9.jpg)
これらの応用におけるグラフ・最短距離
• Social Search– Social Network: 人を頂点,枝を友人関係
• Context-Aware Search– Web Graph: ページを頂点,枝をリンク
これらのグラフ上での最短距離を結果のランキングの指標に使う
![Page 10: Fast Shortest Path Distance Estimation in Large Networks](https://reader036.fdocuments.net/reader036/viewer/2022062314/5681309c550346895d9687aa/html5/thumbnails/10.jpg)
最短経路問題のその他の需要
10
経路設計道 乗り換え案内・
データマイニング
[WF94, Sco06]
情報検索・データベース[HWYY07, TWRC09]
生物情報学[RAS+05, RS06]
コンピュータネットワーク
[BLM+06, PS06]
その他 ...XML, オントロジー , ...
基礎的な問題 → 需要も幅広い
![Page 11: Fast Shortest Path Distance Estimation in Large Networks](https://reader036.fdocuments.net/reader036/viewer/2022062314/5681309c550346895d9687aa/html5/thumbnails/11.jpg)
最短距離を知りたいけど…
• 幅優先探索: ( : 辺の本数 )
• 世の中のグラフはとても大きい
• 毎回幅優先探索するのは遅すぎる
Twitter のユーザ数 人
Facebook のユーザ数 人
Google の持つページ数 ページ( 多分ちょっと古いデータ )
![Page 12: Fast Shortest Path Distance Estimation in Large Networks](https://reader036.fdocuments.net/reader036/viewer/2022062314/5681309c550346895d9687aa/html5/thumbnails/12.jpg)
最短経路クエリ処理
1. 前処理
2. クエリ処理
「本郷から駒場」
「中野から秋葉原」
「札幌から那覇」
「 30 分です」
「 20 分です」
「 7 時間です」
前計算データ
![Page 13: Fast Shortest Path Distance Estimation in Large Networks](https://reader036.fdocuments.net/reader036/viewer/2022062314/5681309c550346895d9687aa/html5/thumbnails/13.jpg)
最短経路クエリ処理
1. 前処理
2. クエリ処理
「本郷から駒場」
「中野から秋葉原」
「札幌から那覇」
「 30 分です」
「 20 分です」
「 7 時間です」
前計算データ
活用
![Page 14: Fast Shortest Path Distance Estimation in Large Networks](https://reader036.fdocuments.net/reader036/viewer/2022062314/5681309c550346895d9687aa/html5/thumbnails/14.jpg)
ランドマークを用いた最短距離の推定
![Page 15: Fast Shortest Path Distance Estimation in Large Networks](https://reader036.fdocuments.net/reader036/viewer/2022062314/5681309c550346895d9687aa/html5/thumbnails/15.jpg)
三角不等式
• グラフ 上での の最短距離
• ★
( は任意の頂点 )
![Page 16: Fast Shortest Path Distance Estimation in Large Networks](https://reader036.fdocuments.net/reader036/viewer/2022062314/5681309c550346895d9687aa/html5/thumbnails/16.jpg)
上界による最短距離推定( 単一ランドマーク )
• ★これをそのまま使う
1. 前処理– 頂点 を 1 つ選ぶ(ランドマーク)– , を全頂点に対し前計算しておく
( 幅優先探索 )
2. クエリ処理
u
s t
![Page 17: Fast Shortest Path Distance Estimation in Large Networks](https://reader036.fdocuments.net/reader036/viewer/2022062314/5681309c550346895d9687aa/html5/thumbnails/17.jpg)
上界による最短距離推定( 複数ランドマーク )
ランドマークを単一 () から複数 () にしよう
• ★複数頂点に使う
1. 前処理– 一定数の頂点集合を決める(ランドマーク)– 各 に対し , を全長点に対し前計算 (BFS)
2. クエリ処理}
s t
![Page 18: Fast Shortest Path Distance Estimation in Large Networks](https://reader036.fdocuments.net/reader036/viewer/2022062314/5681309c550346895d9687aa/html5/thumbnails/18.jpg)
ランドマーク選択の手法
![Page 19: Fast Shortest Path Distance Estimation in Large Networks](https://reader036.fdocuments.net/reader036/viewer/2022062314/5681309c550346895d9687aa/html5/thumbnails/19.jpg)
ランドマークの選択
• 個のランドマークを選びましょう– は 20 とか 100 とか 300 とか
• ベースライン : ランダムな選択– [Tang+, SIGCOMM’03], [Kleinberg+, FOCS’04], [Vieira+, CIKM’07]
• 本論文の Key Insight:–ランダムより良いヒューリスティクスがある
のでは?
![Page 20: Fast Shortest Path Distance Estimation in Large Networks](https://reader036.fdocuments.net/reader036/viewer/2022062314/5681309c550346895d9687aa/html5/thumbnails/20.jpg)
アイディア
• 多くの最短路が通る点がよさそう
• グラフの中央っぽい点がよさそう
グラフ グラフ
良い例 嫌な例
![Page 21: Fast Shortest Path Distance Estimation in Large Networks](https://reader036.fdocuments.net/reader036/viewer/2022062314/5681309c550346895d9687aa/html5/thumbnails/21.jpg)
Basic Strategies
• Degree Strategy– 次数の高いものから選ぶ
• Centrality Strategy– Closeness Centrality の小さいものから選ぶ
頂点の Closeness Centrality とは?
つまり,全長点への距離の平均.小さいものほど `` 中央’’ に近いと考える.実際には,ランダムサンプルにより近似して計算.
![Page 22: Fast Shortest Path Distance Estimation in Large Networks](https://reader036.fdocuments.net/reader036/viewer/2022062314/5681309c550346895d9687aa/html5/thumbnails/22.jpg)
Constrained Strategies
• アイディア–近いところに一杯あっても無駄
• Degree/ Strategy–既に選んだ頂点から距離は選択禁止
• Centrality/ Strategy
![Page 23: Fast Shortest Path Distance Estimation in Large Networks](https://reader036.fdocuments.net/reader036/viewer/2022062314/5681309c550346895d9687aa/html5/thumbnails/23.jpg)
Partitioning-Based Strategies
• アイディア– 色々なところに散らばっているとよさそう
• Graph Partitioning を使おう
Graph Partitioning とは?
1. グラフ を 個の近いサイズの成分に分解2. 違う成分間の辺数を最小化
NP-困難であり,ヒューリスティクスがよく研究されている(10th DIMACS Implementation Challenge 開催中 )
![Page 24: Fast Shortest Path Distance Estimation in Large Networks](https://reader036.fdocuments.net/reader036/viewer/2022062314/5681309c550346895d9687aa/html5/thumbnails/24.jpg)
Partitioning-Based Strategies
• Degree/P– 各分割で次数最高の点
• Centrality/P– 各分割で Closeness Centrality 最高の点
• Border/P– 各分割で以下を最大化する点 (≒縁に近い点 )
![Page 25: Fast Shortest Path Distance Estimation in Large Networks](https://reader036.fdocuments.net/reader036/viewer/2022062314/5681309c550346895d9687aa/html5/thumbnails/25.jpg)
評価実験
![Page 26: Fast Shortest Path Distance Estimation in Large Networks](https://reader036.fdocuments.net/reader036/viewer/2022062314/5681309c550346895d9687aa/html5/thumbnails/26.jpg)
データセット
Table 1
![Page 27: Fast Shortest Path Distance Estimation in Large Networks](https://reader036.fdocuments.net/reader036/viewer/2022062314/5681309c550346895d9687aa/html5/thumbnails/27.jpg)
近似精度 (相対誤差 )
Table 2
![Page 28: Fast Shortest Path Distance Estimation in Large Networks](https://reader036.fdocuments.net/reader036/viewer/2022062314/5681309c550346895d9687aa/html5/thumbnails/28.jpg)
近似精度 (相対誤差 )
Figure 3
![Page 29: Fast Shortest Path Distance Estimation in Large Networks](https://reader036.fdocuments.net/reader036/viewer/2022062314/5681309c550346895d9687aa/html5/thumbnails/29.jpg)
厳密手法とのクエリ時間の比較
Table 5
![Page 30: Fast Shortest Path Distance Estimation in Large Networks](https://reader036.fdocuments.net/reader036/viewer/2022062314/5681309c550346895d9687aa/html5/thumbnails/30.jpg)
Social Search での精度
Figure 5
![Page 31: Fast Shortest Path Distance Estimation in Large Networks](https://reader036.fdocuments.net/reader036/viewer/2022062314/5681309c550346895d9687aa/html5/thumbnails/31.jpg)
まとめ
• 話したこと– 最短経路クエリ問題とは– ランドマークを用いた最短経路の推定– ランドマークを選択の戦略– 実験結果
• 話さなかったこと– ランドマーク選択の NP-困難性– 下界による推定,上界と下界を同時に用いた推定
( うまくいかない )
![Page 32: Fast Shortest Path Distance Estimation in Large Networks](https://reader036.fdocuments.net/reader036/viewer/2022062314/5681309c550346895d9687aa/html5/thumbnails/32.jpg)
Related Work( 本論文の後の文献を含む )
• 交通ネットワークでの最短路クエリ– より構造が活用しやすいため多くの手法あり– ALT (A* + landmarks), Reach, Hierarchical, …
• 厳密最短路クエリ– ALT– 2-HOP [Cohen+, SODA’02] [Cheng+, EDBT’09]– 対称性 [Xiao+, EDBT’09]– 木分解 [Wei, SIGMOD’10]
• 近似最短路クエリ– NSI [Rattigan+, SIGKDD’06]– Landmark [Potamias+, CIKM’09 ( 本論文 )]– Distance-Sketch [Das Sarma+, WSDM’10]– Path-Sketch [Gubichev+, CIKM’10]
• 到達可能性クエリ