論文読み会 Information Cascades と Graph Algorithms

19
WWW2017読み会 Information Cascades & Graph Algorithms 武内慎 株式会社サイバーエージェント 秋葉原ラボ 2017/11/30

Transcript of 論文読み会 Information Cascades と Graph Algorithms

Page 1: 論文読み会 Information Cascades と Graph Algorithms

WWW2017読み会

Information Cascades & Graph Algorithms

武内慎株式会社サイバーエージェント

秋葉原ラボ

2017/11/30

Page 2: 論文読み会 Information Cascades と Graph Algorithms

自己紹介

武内慎

・趣味:温泉巡り、ポケモンGO

・名古屋大学大学院 修士卒

 ・理学研究科 素粒子的宇宙論

・通信キャリア

 ・ガラケー、スマホ開発関連業務

・2015〜 サイバーエージェント

 ・DMP コンサル

 ・2017/3〜 自社サービスのデータ分析業務 @秋葉原ラボ

Page 3: 論文読み会 Information Cascades と Graph Algorithms

0. 自己紹介

1. Information Cascades & Graph Algorithmsの概要

2. <Graph Algorithms>  The k-peak Decomposition: Mapping the Global Structure of Graphs3. <Information Cascade>  Why Do Cascade Sizes Follow a Power-Law?4. 感想・まとめ

Information Cascades & Graph Algorithms 目次

Page 4: 論文読み会 Information Cascades と Graph Algorithms

<Information Cascades>

 ・カスケード現象の予測、検出

 ・カスケード現象の理解

<Graph Algorithms>

・グラフ理論におけるアルゴリズムの改善

・ネットワーク分析手法の提案

※昨年までは「 SOCIAL NETWORKS & GRAPH ANALYSIS」

1.概要 Information Cascades & Graph Algorithmsとは

Page 5: 論文読み会 Information Cascades と Graph Algorithms

1.概要 ざっくり俯瞰

WWW2017 session タイトル テーマ

Information cascades Why Do Cascade Sizes Follow a Power-Law? カスケードの理解

Information cascades DeepCas: An End-to-end Predictor of Information Cascades

カスケードの予測

Information cascades Cascades: A View from Audience カスケードの理解

Information cascades Detecting Large Reshare Cascades in Social Networks

カスケードの検出

Graph Algorithms ESCAPE: Efficiently Counting All 5-Vertex Subgraphs

コミュニティ検出(subgraph counting)

Graph Algorithms The k-peak Decomposition: Mapping the Global Structure of Graphs

コミュニティ検出(degree peeling)

Graph Algorithms Scalable Motif-aware Graph Clustering コミュニティ検出(graph motif clustering)

Graph Algorithms Indexing Public-Private Graphs 可達性

※赤字が、今回ご紹介する論文

Page 6: 論文読み会 Information Cascades と Graph Algorithms

1.概要 著者で見てみる

WWW2017 session タイトル 1st Author 分野(出身) 1st Author 所属

Information cascades Why Do Cascade Sizes Follow a Power-Law? 計算機科学 University

Information cascades DeepCas: An End-to-end Predictor of Information Cascades

計算機科学、哲学 University, Google

Information cascades Cascades: A View from Audience 計算機科学 University, Twitter

Information cascades Detecting Large Reshare Cascades in Social Networks

計算機科学、哲学 Facebook, Virginia Tech.

Graph Algorithms ESCAPE: Efficiently Counting All 5-Vertex Subgraphs

計算機科学 National Laboratories, University

Graph Algorithms The k-peak Decomposition: Mapping the Global Structure of Graphs

計算機科学 University

Graph Algorithms Scalable Motif-aware Graph Clustering 計算機科学 University

Graph Algorithms Indexing Public-Private Graphs 数学 Google

Page 7: 論文読み会 Information Cascades と Graph Algorithms

<Graph Algorithms>

The k-peak Decomposition: Mapping the Global Structure of Graphs

2.The k-peak Decomposition: Mapping the Global Structure of Graphs

Page 8: 論文読み会 Information Cascades と Graph Algorithms

<やりたいこと>

・グラフの大域的な特徴をパッと理解したい

 ・グラフの中心(次数が高い)だけでなく

  その周辺構造の情報もなるべく落としたくない

<方針・やっていること>

・Degree peeling(次数で皮剥き)の新手法[k-peak decomposition]と、 それを使った可視化方法[mountain plot]を提案

<用語整理>

・グラフG(V, E):ノード集合V、エッジ集合Eの組み(無向グラフ)・Gの誘導部分グラフ:ノード部分集合U (V ⊇ U)と、

Uに含まれるノード間のエッジのみを残したエッジ部分集合の組み

・Degree(次数):そのノードに生えているエッジの数

ノード:1 エッジ:(1,4)

グラフG:(V={1,2,3,4,5,6},

E={(1,4),(2,4),(3,4),(4,5),(5,6)})

2.The k-peak Decomposition: Mapping the Global Structure of Graphs 概要

Page 9: 論文読み会 Information Cascades と Graph Algorithms

<k-peak decomposition(提案手法)を使ったグラフの大域的特徴可視化>

次数が極端に大きい一部のノードとそれに接続する多くの周辺ノード

グラフが等規模に別れる

各ノード

次数(※)

(※)みたいなもの。後述。

2.The k-peak Decomposition アウトプットイメージ

グラフ内の多くのノードが1つの塊に含まれる

Page 10: 論文読み会 Information Cascades と Graph Algorithms

<degree peelingとは>目的:グラフの特徴を取り出したい

方針:ノードの次数毎にグラフ構造を分解

<既存手法 (k-core decomposition)>k-shell:次数k以上のノードの塊の中で、 k個繋がっているノードの誘導部分グラフ

k-core:j-shells(j >= k)を連結したグラフの誘導部分グラフ

単純な例:木

1-shellに含まれる

1-shell 1-shell

1-shell

1-shell

これらも1-shellに含まれる

× ×××

1-shell 1-shell

1-shell

1-shell

1-shell

1-shell

全体が1-shell(よって、木は1-core、1縮退グラフ)

2.The k-peak Decomposition 3分解説(1/3)

Page 11: 論文読み会 Information Cascades と Graph Algorithms

既存手法の場合、所属するshellが違っていても、上位のshellとのエッジはカウントできる。

既存手法 提案手法

2.The k-peak Decomposition 3分解説(2/3)

<既存手法と提案手法の違い>

<既存手法 (k-core decomposition)>k-shell:次数k以上のノードの塊の中で、

    k個繋がっているノードの誘導部分グラフ

k-core:j-shells(j >= k)を連結したグラフの誘導部分グラフ

<提案手法 (k-peak decomposition)>k-contour:次数kのノードの塊の中で、

     k個繋がっているノードの誘導部分グラフ

k-peak:j-contours(j >= k)を連結したグラフの誘導部分グラフ

Page 12: 論文読み会 Information Cascades と Graph Algorithms

既存手法 提案手法

2.The k-peak Decomposition 3分解説(3/3)

<既存手法と提案手法の違い>

<既存手法 (k-core decomposition)>k-shell:次数k以上のノードの塊の中で、

    k個繋がっているノードの誘導部分グラフ

k-core:j-shells(j >= k)を連結したグラフの誘導部分グラフ

<提案手法 (k-peak decomposition)>k-contour:次数kのノードの塊の中で、

     k個繋がっているノードの誘導部分グラフ

k-peak:j-contours(j >= k)を連結したグラフの誘導部分グラフ

緑色のノードに注目。緑色ノードから4-contourに接続するエッジはカウントできないので 0-contourになる。(contour = 等高線)

k-peakとk-coreを比較することで、低次数領域の構造を捉える事ができる。

Page 13: 論文読み会 Information Cascades と Graph Algorithms

<どう計算できる?>

グラフG中の最も高いk-coreを取り除いて、残りのノードについてcore数を計算する。これを、グラフが空になるまで繰り返す。

2.The k-peak Decomposition 計算アルゴリズム

Page 14: 論文読み会 Information Cascades と Graph Algorithms

2.The k-peak Decomposition mountains

<グラフ構造の可視化(mountain plot)>k-mountain:

下記の2つのノード集合を合わせたものの誘導部分グラフ

・k-contour・k-peakを除くことでそのcore数が減少するノード

4-mountain

3-mountain

<可視化できている情報>・分割できる領域の数・各領域の幅(ノード数) ・各領域の形(mountainの中での次数の分布 )・peak数とcore数の差分 (より高次のcontourに依存している、周辺のノード )

緑色のノードは、4-peakを取り除く前は、3-core4-peakを取り除いた後は、0-core→ core数が減少するので4-mountainに含まれる

Page 15: 論文読み会 Information Cascades と Graph Algorithms

<Information Cascade>

Why Do Cascade Sizes Follow a Power-Law?

3.Why Do Cascade Sizes Follow a Power-Law?

Page 16: 論文読み会 Information Cascades と Graph Algorithms

<課題>

・既存モデルのCGM(Cascade generation model[Leskovec 2007])を使うと、 twitterネットワーク上のカスケードサイズ分布の予測が、現実と異なる。

<方針>

・実際のネットワーク構造(twitter)を分析し、妥当な仮定を設定し直した。

 ・ネットワークの階層構造(次数の高いノードから低いノードへの情報拡散) ・リツイートされる確率が可変(人によって影響力が違う)

3.Why Do Cascade Sizes Follow a Power-Law? 概要

観測値 予測値カスケードサイズのギャップが存在

10^2以上のサイズの存在確率が10倍くらい大きい

カスケードサイズ(log)

存在確率(log)

Page 17: 論文読み会 Information Cascades と Graph Algorithms

3.Why Do Cascade Sizes Follow a Power-Law? 結論

<提案モデルの仮定、変数整理>・twitterのフォロワーネットワーク:  randomDAG(有向非巡回グラフ )・カスケード: リツイートの連なり

・randomDAGでノードが接続する確率: 

・隣人ノードにリツイートされる平均確率:

・ネットワーク全体のノード数: 

・リツイートが他のノードに リツイートされない平均確率:

<カスケードサイズkの確率分布>

カスケードサイズはいくつかの変数に依存する形で書け、    でnが十分大きいとき、マクローリン展開を使うと、べき分布 (power-law)となることが示せる。

Page 18: 論文読み会 Information Cascades と Graph Algorithms

3.Why Do Cascade Sizes Follow a Power-Law? この研究の意義

<やってること>

 情報カスケードサイズ分布のモデル構築

<意義>

 1.ネットワーク構造から、そのネットワークで生み出されるカスケードの  サイズ分布が予測できるようになる

 2.カスケードサイズの分布を決めるマクロな因子を把握できる

 3.情報拡散の様子(ミクロな事象)が理解できる

ソーシャルネットワークの理解と、その上で発生するカスケード現象の理解

Page 19: 論文読み会 Information Cascades と Graph Algorithms

4.感想・まとめ

・カスケード現象の研究について、まだまだ課題は多そう。

 ・特に、理論研究を実ネットワークへ適用する部分

 ・特定のネットワーク分析目的の手法開発とか

・ミクロな事象を仮定してマクロな性質を導く、 統計力学っぽい論文がWWWに通っていたので嬉しい。