論文読み会 Information Cascades と Graph Algorithms
-
Upload
cyberagent -
Category
Technology
-
view
793 -
download
2
Transcript of 論文読み会 Information Cascades と Graph Algorithms
WWW2017読み会
Information Cascades & Graph Algorithms
武内慎株式会社サイバーエージェント
秋葉原ラボ
2017/11/30
自己紹介
武内慎
・趣味:温泉巡り、ポケモンGO
・名古屋大学大学院 修士卒
・理学研究科 素粒子的宇宙論
・通信キャリア
・ガラケー、スマホ開発関連業務
・2015〜 サイバーエージェント
・DMP コンサル
・2017/3〜 自社サービスのデータ分析業務 @秋葉原ラボ
0. 自己紹介
1. Information Cascades & Graph Algorithmsの概要
2. <Graph Algorithms> The k-peak Decomposition: Mapping the Global Structure of Graphs3. <Information Cascade> Why Do Cascade Sizes Follow a Power-Law?4. 感想・まとめ
Information Cascades & Graph Algorithms 目次
<Information Cascades>
・カスケード現象の予測、検出
・カスケード現象の理解
<Graph Algorithms>
・グラフ理論におけるアルゴリズムの改善
・ネットワーク分析手法の提案
※昨年までは「 SOCIAL NETWORKS & GRAPH ANALYSIS」
1.概要 Information Cascades & Graph Algorithmsとは
1.概要 ざっくり俯瞰
WWW2017 session タイトル テーマ
Information cascades Why Do Cascade Sizes Follow a Power-Law? カスケードの理解
Information cascades DeepCas: An End-to-end Predictor of Information Cascades
カスケードの予測
Information cascades Cascades: A View from Audience カスケードの理解
Information cascades Detecting Large Reshare Cascades in Social Networks
カスケードの検出
Graph Algorithms ESCAPE: Efficiently Counting All 5-Vertex Subgraphs
コミュニティ検出(subgraph counting)
Graph Algorithms The k-peak Decomposition: Mapping the Global Structure of Graphs
コミュニティ検出(degree peeling)
Graph Algorithms Scalable Motif-aware Graph Clustering コミュニティ検出(graph motif clustering)
Graph Algorithms Indexing Public-Private Graphs 可達性
※赤字が、今回ご紹介する論文
1.概要 著者で見てみる
WWW2017 session タイトル 1st Author 分野(出身) 1st Author 所属
Information cascades Why Do Cascade Sizes Follow a Power-Law? 計算機科学 University
Information cascades DeepCas: An End-to-end Predictor of Information Cascades
計算機科学、哲学 University, Google
Information cascades Cascades: A View from Audience 計算機科学 University, Twitter
Information cascades Detecting Large Reshare Cascades in Social Networks
計算機科学、哲学 Facebook, Virginia Tech.
Graph Algorithms ESCAPE: Efficiently Counting All 5-Vertex Subgraphs
計算機科学 National Laboratories, University
Graph Algorithms The k-peak Decomposition: Mapping the Global Structure of Graphs
計算機科学 University
Graph Algorithms Scalable Motif-aware Graph Clustering 計算機科学 University
Graph Algorithms Indexing Public-Private Graphs 数学 Google
<Graph Algorithms>
The k-peak Decomposition: Mapping the Global Structure of Graphs
2.The k-peak Decomposition: Mapping the Global Structure of Graphs
<やりたいこと>
・グラフの大域的な特徴をパッと理解したい
・グラフの中心(次数が高い)だけでなく
その周辺構造の情報もなるべく落としたくない
<方針・やっていること>
・Degree peeling(次数で皮剥き)の新手法[k-peak decomposition]と、 それを使った可視化方法[mountain plot]を提案
<用語整理>
・グラフG(V, E):ノード集合V、エッジ集合Eの組み(無向グラフ)・Gの誘導部分グラフ:ノード部分集合U (V ⊇ U)と、
Uに含まれるノード間のエッジのみを残したエッジ部分集合の組み
・Degree(次数):そのノードに生えているエッジの数
ノード:1 エッジ:(1,4)
グラフG:(V={1,2,3,4,5,6},
E={(1,4),(2,4),(3,4),(4,5),(5,6)})
2.The k-peak Decomposition: Mapping the Global Structure of Graphs 概要
<k-peak decomposition(提案手法)を使ったグラフの大域的特徴可視化>
次数が極端に大きい一部のノードとそれに接続する多くの周辺ノード
グラフが等規模に別れる
各ノード
次数(※)
(※)みたいなもの。後述。
2.The k-peak Decomposition アウトプットイメージ
グラフ内の多くのノードが1つの塊に含まれる
<degree peelingとは>目的:グラフの特徴を取り出したい
方針:ノードの次数毎にグラフ構造を分解
<既存手法 (k-core decomposition)>k-shell:次数k以上のノードの塊の中で、 k個繋がっているノードの誘導部分グラフ
k-core:j-shells(j >= k)を連結したグラフの誘導部分グラフ
単純な例:木
1-shellに含まれる
1-shell 1-shell
1-shell
1-shell
これらも1-shellに含まれる
× ×××
1-shell 1-shell
1-shell
1-shell
1-shell
1-shell
全体が1-shell(よって、木は1-core、1縮退グラフ)
2.The k-peak Decomposition 3分解説(1/3)
既存手法の場合、所属するshellが違っていても、上位のshellとのエッジはカウントできる。
既存手法 提案手法
2.The k-peak Decomposition 3分解説(2/3)
<既存手法と提案手法の違い>
<既存手法 (k-core decomposition)>k-shell:次数k以上のノードの塊の中で、
k個繋がっているノードの誘導部分グラフ
k-core:j-shells(j >= k)を連結したグラフの誘導部分グラフ
<提案手法 (k-peak decomposition)>k-contour:次数kのノードの塊の中で、
k個繋がっているノードの誘導部分グラフ
k-peak:j-contours(j >= k)を連結したグラフの誘導部分グラフ
既存手法 提案手法
2.The k-peak Decomposition 3分解説(3/3)
<既存手法と提案手法の違い>
<既存手法 (k-core decomposition)>k-shell:次数k以上のノードの塊の中で、
k個繋がっているノードの誘導部分グラフ
k-core:j-shells(j >= k)を連結したグラフの誘導部分グラフ
<提案手法 (k-peak decomposition)>k-contour:次数kのノードの塊の中で、
k個繋がっているノードの誘導部分グラフ
k-peak:j-contours(j >= k)を連結したグラフの誘導部分グラフ
緑色のノードに注目。緑色ノードから4-contourに接続するエッジはカウントできないので 0-contourになる。(contour = 等高線)
k-peakとk-coreを比較することで、低次数領域の構造を捉える事ができる。
<どう計算できる?>
グラフG中の最も高いk-coreを取り除いて、残りのノードについてcore数を計算する。これを、グラフが空になるまで繰り返す。
2.The k-peak Decomposition 計算アルゴリズム
2.The k-peak Decomposition mountains
<グラフ構造の可視化(mountain plot)>k-mountain:
下記の2つのノード集合を合わせたものの誘導部分グラフ
・k-contour・k-peakを除くことでそのcore数が減少するノード
4-mountain
3-mountain
<可視化できている情報>・分割できる領域の数・各領域の幅(ノード数) ・各領域の形(mountainの中での次数の分布 )・peak数とcore数の差分 (より高次のcontourに依存している、周辺のノード )
緑色のノードは、4-peakを取り除く前は、3-core4-peakを取り除いた後は、0-core→ core数が減少するので4-mountainに含まれる
<Information Cascade>
Why Do Cascade Sizes Follow a Power-Law?
3.Why Do Cascade Sizes Follow a Power-Law?
<課題>
・既存モデルのCGM(Cascade generation model[Leskovec 2007])を使うと、 twitterネットワーク上のカスケードサイズ分布の予測が、現実と異なる。
<方針>
・実際のネットワーク構造(twitter)を分析し、妥当な仮定を設定し直した。
・ネットワークの階層構造(次数の高いノードから低いノードへの情報拡散) ・リツイートされる確率が可変(人によって影響力が違う)
3.Why Do Cascade Sizes Follow a Power-Law? 概要
観測値 予測値カスケードサイズのギャップが存在
10^2以上のサイズの存在確率が10倍くらい大きい
カスケードサイズ(log)
存在確率(log)
3.Why Do Cascade Sizes Follow a Power-Law? 結論
<提案モデルの仮定、変数整理>・twitterのフォロワーネットワーク: randomDAG(有向非巡回グラフ )・カスケード: リツイートの連なり
・randomDAGでノードが接続する確率:
・隣人ノードにリツイートされる平均確率:
・ネットワーク全体のノード数:
・リツイートが他のノードに リツイートされない平均確率:
<カスケードサイズkの確率分布>
カスケードサイズはいくつかの変数に依存する形で書け、 でnが十分大きいとき、マクローリン展開を使うと、べき分布 (power-law)となることが示せる。
3.Why Do Cascade Sizes Follow a Power-Law? この研究の意義
<やってること>
情報カスケードサイズ分布のモデル構築
<意義>
1.ネットワーク構造から、そのネットワークで生み出されるカスケードの サイズ分布が予測できるようになる
2.カスケードサイズの分布を決めるマクロな因子を把握できる
3.情報拡散の様子(ミクロな事象)が理解できる
ソーシャルネットワークの理解と、その上で発生するカスケード現象の理解
4.感想・まとめ
・カスケード現象の研究について、まだまだ課題は多そう。
・特に、理論研究を実ネットワークへ適用する部分
・特定のネットワーク分析目的の手法開発とか
・ミクロな事象を仮定してマクロな性質を導く、 統計力学っぽい論文がWWWに通っていたので嬉しい。