論文読み会 Information Cascades と Graph Algorithms

WWW2017読み会

Information Cascades & Graph Algorithms

武内慎株式会社サイバーエージェント

秋葉原ラボ

2017/11/30

自己紹介

武内慎

・趣味：温泉巡り、ポケモンGO

・名古屋大学大学院修士卒

　・理学研究科　素粒子的宇宙論

・通信キャリア

　・ガラケー、スマホ開発関連業務

・2015〜サイバーエージェント

　・DMP コンサル

　・2017/3〜自社サービスのデータ分析業務 @秋葉原ラボ

0.　自己紹介

1.　Information Cascades & Graph Algorithmsの概要

2.　<Graph Algorithms>　　The k-peak Decomposition: Mapping the Global Structure of Graphs3.　<Information Cascade>　　Why Do Cascade Sizes Follow a Power-Law?4.　感想・まとめ

Information Cascades & Graph Algorithms 目次

＜Information Cascades＞

　・カスケード現象の予測、検出

　・カスケード現象の理解

＜Graph Algorithms＞

・グラフ理論におけるアルゴリズムの改善

・ネットワーク分析手法の提案

※昨年までは「 SOCIAL NETWORKS & GRAPH ANALYSIS」

1.概要　Information Cascades & Graph Algorithmsとは

1.概要　ざっくり俯瞰

WWW2017 session タイトルテーマ

Information cascades Why Do Cascade Sizes Follow a Power-Law? カスケードの理解

Information cascades DeepCas: An End-to-end Predictor of Information Cascades

カスケードの予測

Information cascades Cascades: A View from Audience カスケードの理解

Information cascades Detecting Large Reshare Cascades in Social Networks

カスケードの検出

Graph Algorithms ESCAPE: Efficiently Counting All 5-Vertex Subgraphs

コミュニティ検出(subgraph counting)

Graph Algorithms The k-peak Decomposition: Mapping the Global Structure of Graphs

コミュニティ検出(degree peeling)

Graph Algorithms Scalable Motif-aware Graph Clustering コミュニティ検出(graph motif clustering)

Graph Algorithms Indexing Public-Private Graphs 可達性

※赤字が、今回ご紹介する論文

1.概要　著者で見てみる

WWW2017 session タイトル 1st Author 分野(出身) 1st Author 所属

Information cascades Why Do Cascade Sizes Follow a Power-Law? 計算機科学 University

Information cascades DeepCas: An End-to-end Predictor of Information Cascades

計算機科学、哲学 University, Google

Information cascades Cascades: A View from Audience 計算機科学 University, Twitter

Information cascades Detecting Large Reshare Cascades in Social Networks

計算機科学、哲学 Facebook, Virginia Tech.

Graph Algorithms ESCAPE: Efficiently Counting All 5-Vertex Subgraphs

計算機科学 National Laboratories, University

Graph Algorithms The k-peak Decomposition: Mapping the Global Structure of Graphs

計算機科学 University

Graph Algorithms Scalable Motif-aware Graph Clustering 計算機科学 University

Graph Algorithms Indexing Public-Private Graphs 数学 Google

<Graph Algorithms>

The k-peak Decomposition: Mapping the Global Structure of Graphs

2.The k-peak Decomposition: Mapping the Global Structure of Graphs

＜やりたいこと＞

・グラフの大域的な特徴をパッと理解したい

　・グラフの中心(次数が高い)だけでなく

　　その周辺構造の情報もなるべく落としたくない

＜方針・やっていること＞

・Degree peeling(次数で皮剥き)の新手法[k-peak decomposition]と、　それを使った可視化方法[mountain plot]を提案

＜用語整理＞

・グラフG(V, E)：ノード集合V、エッジ集合Eの組み(無向グラフ)・Gの誘導部分グラフ：ノード部分集合U (V ⊇ U)と、

Uに含まれるノード間のエッジのみを残したエッジ部分集合の組み

・Degree(次数)：そのノードに生えているエッジの数

ノード：1 エッジ：(1,4)

グラフG：(V={1,2,3,4,5,6},

E={(1,4),(2,4),(3,4),(4,5),(5,6)})

2.The k-peak Decomposition: Mapping the Global Structure of Graphs　概要

＜k-peak decomposition(提案手法)を使ったグラフの大域的特徴可視化＞

次数が極端に大きい一部のノードとそれに接続する多くの周辺ノード

グラフが等規模に別れる

各ノード

次数(※)

(※)みたいなもの。後述。

2.The k-peak Decomposition　アウトプットイメージ

グラフ内の多くのノードが１つの塊に含まれる

＜degree peelingとは＞目的：グラフの特徴を取り出したい

方針：ノードの次数毎にグラフ構造を分解

＜既存手法 (k-core decomposition)＞k-shell：次数k以上のノードの塊の中で、 k個繋がっているノードの誘導部分グラフ

k-core：j-shells(j >= k)を連結したグラフの誘導部分グラフ

単純な例：木

1-shellに含まれる

1-shell 1-shell

1-shell

1-shell

これらも1-shellに含まれる

× ×××

1-shell 1-shell

1-shell

1-shell

1-shell

1-shell

全体が1-shell(よって、木は1-core、1縮退グラフ)

2.The k-peak Decomposition　３分解説(1/3)

既存手法の場合、所属するshellが違っていても、上位のshellとのエッジはカウントできる。

既存手法提案手法


＜既存手法と提案手法の違い＞

＜既存手法 (k-core decomposition)＞k-shell：次数k以上のノードの塊の中で、

　　　　k個繋がっているノードの誘導部分グラフ


＜提案手法 (k-peak decomposition)＞k-contour：次数kのノードの塊の中で、

　　　　　k個繋がっているノードの誘導部分グラフ

k-peak：j-contours(j >= k)を連結したグラフの誘導部分グラフ

既存手法提案手法


＜既存手法と提案手法の違い＞

＜既存手法 (k-core decomposition)＞k-shell：次数k以上のノードの塊の中で、

　　　　k個繋がっているノードの誘導部分グラフ


＜提案手法 (k-peak decomposition)＞k-contour：次数kのノードの塊の中で、

　　　　　k個繋がっているノードの誘導部分グラフ

k-peak：j-contours(j >= k)を連結したグラフの誘導部分グラフ

緑色のノードに注目。緑色ノードから4-contourに接続するエッジはカウントできないので 0-contourになる。(contour = 等高線)

k-peakとk-coreを比較することで、低次数領域の構造を捉える事ができる。

＜どう計算できる？＞

グラフG中の最も高いk-coreを取り除いて、残りのノードについてcore数を計算する。これを、グラフが空になるまで繰り返す。

2.The k-peak Decomposition　計算アルゴリズム

2.The k-peak Decomposition　mountains

＜グラフ構造の可視化(mountain plot)＞k-mountain：

下記の２つのノード集合を合わせたものの誘導部分グラフ

・k-contour・k-peakを除くことでそのcore数が減少するノード

4-mountain

3-mountain

＜可視化できている情報＞・分割できる領域の数・各領域の幅(ノード数)　・各領域の形(mountainの中での次数の分布 )・peak数とcore数の差分　(より高次のcontourに依存している、周辺のノード )

緑色のノードは、4-peakを取り除く前は、3-core4-peakを取り除いた後は、0-core→ core数が減少するので4-mountainに含まれる

<Information Cascade>

Why Do Cascade Sizes Follow a Power-Law?

3.Why Do Cascade Sizes Follow a Power-Law?

＜課題＞

・既存モデルのCGM(Cascade generation model[Leskovec 2007])を使うと、　twitterネットワーク上のカスケードサイズ分布の予測が、現実と異なる。

＜方針＞

・実際のネットワーク構造(twitter)を分析し、妥当な仮定を設定し直した。

　・ネットワークの階層構造(次数の高いノードから低いノードへの情報拡散)　・リツイートされる確率が可変(人によって影響力が違う)

3.Why Do Cascade Sizes Follow a Power-Law?　概要

観測値予測値カスケードサイズのギャップが存在

10^2以上のサイズの存在確率が10倍くらい大きい

カスケードサイズ(log)

存在確率(log)

3.Why Do Cascade Sizes Follow a Power-Law?　結論

＜提案モデルの仮定、変数整理＞・twitterのフォロワーネットワーク：　randomDAG(有向非巡回グラフ )・カスケード：　リツイートの連なり

・randomDAGでノードが接続する確率：　

・隣人ノードにリツイートされる平均確率：

・ネットワーク全体のノード数：　

・リツイートが他のノードに　リツイートされない平均確率：

＜カスケードサイズkの確率分布＞

カスケードサイズはいくつかの変数に依存する形で書け、　　でnが十分大きいとき、マクローリン展開を使うと、べき分布 (power-law)となることが示せる。

3.Why Do Cascade Sizes Follow a Power-Law?　この研究の意義

＜やってること＞

　情報カスケードサイズ分布のモデル構築

＜意義＞

　1.ネットワーク構造から、そのネットワークで生み出されるカスケードの　　サイズ分布が予測できるようになる

　2.カスケードサイズの分布を決めるマクロな因子を把握できる

　3.情報拡散の様子(ミクロな事象)が理解できる

ソーシャルネットワークの理解と、その上で発生するカスケード現象の理解

4.感想・まとめ

・カスケード現象の研究について、まだまだ課題は多そう。

　・特に、理論研究を実ネットワークへ適用する部分

　・特定のネットワーク分析目的の手法開発とか

・ミクロな事象を仮定してマクロな性質を導く、　統計力学っぽい論文がWWWに通っていたので嬉しい。

論文読み会 Information Cascades と Graph Algorithms

Technology

Transcript of 論文読み会 Information Cascades と Graph Algorithms