Post on 10-Jun-2015
description
Information Network or Social Network?
The Structure of the Twitter Follow Graph
Seth A. Myers, Aneesh Sharma, Pankaj Gupta, and Jimmy LinTwitter, Inc.
東京大学大学院工学系研究科システム創成学専攻大橋・鳥海研福井 思佳
2014/5/31 とりらぼ輪読会1
目標• Twitter フォロー・グラフのトポロジー的解析か
ら、• Twitter はソーシャル・ネットワークなのか、あ
るいは情報ネットワークなのか ? という疑問に答える
2
定義• ソーシャル・ネットワーク• 次数相関 degree assortativity :高• 最短経路長 shortest path length :短• 連結成分 connected components :大• クラスタ係数 clustering coefficients :大• 相互性 reciprocity :高
• 情報ネットワーク• 次数 vertex degrees :高• 相互性 : 低• 2 ホップで連結しているノード数 two-hop
neighborhoods :多3
使用データ• Twitter フォロー・グラフ全データ( 2012 年後
半)• アクティブ・ユーザ数: 175,000,000• 有向リンク数: 20,000,000,000
• 双方向リンク: 42% →無向リンク: 4bl.• 単方向リンク: 58%
• 国別データ• ブラジル• 日本• アメリカ
4
比較対象• Facebook• ノード数: 721,000,000• 無向リンク数: 68,700,000,000
• MSN メッセンジャー• ノード数: 180,000,000• 無向リンク数: 1,300,000,000
5
分析項目1. 次数分布 degree distributions2. 連結成分 connected components3. 最短経路長 shortest path lengths4. クラスタ係数 clustering coefficient5. 2 ホップで連結しているノード数 two-hop
neighborhoods6. 次数相関 degree assortativity
6
1. 次数分布• 【定義】• Inbound degree (in-degree) :フォロワー数• Outbound degree (out-degree) :フォローイング
数• 【分析対象】• 全ノード/国別ノードそれぞれに対して• In-degree distribution• Out-degree distribution• Mutual degree distribution
7
8
・べき分布・ヘビーテール( Out-degree よりもヘビー)
9
次数分布に関する考察• Out-degree の方が上限が高い:直感に反する• ∵ フォロワーをフォローし返す著名人の存在• “non-social” な特徴 : 社会的関係を維持可能な上限
150[1]
10
・ Out-degree2000にピーク
11
次数分布に関する考察• Out-degree の方が上限が高い:直感に反する• ∵ フォロワーをフォローし返す著名人の存在• “non-social” な特徴 : 社会的関係を維持可能な上限
150[1]
• Out-degree2,000 にピーク:スパム防止• 2,200 フォロワー未満のアカウントへの上限数
12
高次数多い
国別はいずれも全体と似た特徴
13
次数分布に関する考察• Out-degree の方が上限が高い:直感に反する• ∵ フォロワーをフォローし返す著名人の存在• “non-social” な特徴 : 社会的関係を維持可能な上限
150[1]
• Out-degree2,000 にピーク:スパム防止• 2,200 フォロワー未満のアカウントへの上限数
• Mutual は in-degree, out-degree に比べると小さいものの高次数• 国別の特徴は全体とほとんど変わらない
14
15
統計的な考察• フィッティング:• In-degree, Mutual degree :べき分布• Out-degree :対数正規分布
• Out-degree と他を比較:• パーセンタイルごとの次数:高• 最大次数:小• → 典型的なユーザのフォローイング数 > フォ
ロワー数16
Social graph or Info graph? -- 次数分布から
• ソーシャル・グラフの特徴からは外れる• Out-degree 大きすぎる• → 個人が維持可能な社会的関係数を超えている
17
2. 連結成分• 【定義】• 強連結 strongly connected graph• :有向グラフにおいて、相異なる全ての頂点間
に経路が存在• 弱連結 weakly connected graph :強連結でない
18
19
連結成分に関する考察• 最大成分に含まれるユーザの割合:• 弱連結: 92.9%• 最大成分以外の成分はほとんどがただ 1 つのノード
から構成• それらを除くと 99.94% が最大成分に含まれる
• 強連結: 68.7%• 他のソーシャル・メディア( 99% )より少ない• 30% 以上のユーザは 1 つも双方向リンクを持たない• → 情報発信/受信一方に特化
20
Social graph or Info graph? -- 連結成分から
• ソーシャル・グラフの特徴からは外れる• リンクの双方向性が低すぎる
21
3. 最短経路長• 【計算手法】• 2 ノード間に考えられる経路数: N(N-1)=2.6*• 双方向でも 7.3*• 計算量大きすぎるため近似解• Hyper ANF algorithm[2]
• HyperLogLog counter[3] ( cardinality estimation algo )で種類の数を推定
• The number of shortest paths of length n through which a user is connected can be approximated as the change in her neighborhood size after the nth jump.
• ( N 回目のジャンプ後の、リンク数の変化として、経路長 n の数を推定する) 22
23
24
平均経路長に関する考察( 1/3 )• 平均経路長:• 双方向グラフ: 4.17• 有向グラフ: 4.05• 他のソーシャル・ネットワークとの比較:• MSN メッセンジャー: 6.6• Facebook : 4.74• FB の方が 平均次数:高、分岐因子:大 にもかかわ
らず、最短経路長の方は Twitter の方が短い• → ソーシャル・ネットワークはリンク数が大きくな
るほど平均経路長が小さくなる、という先行研究 [5]と反する 25
平均経路長に関する考察( 2/3 )• 国別の特徴:• 全体の特徴から大きく外れない中で、• ブラジルの平均経路長:短• アメリカの平均経路長:長• → 先行研究と矛盾するというより
は、 connectivity ( 連結性、人間関係を指す ?) の違いでは
26
平均経路長に関する考察( 3/3 )• Spid:• Spid = 平均経路長分布の分散/分布の平均値• ソーシャル・ネットワーク: spid < 1• ウェブ・グラフ: spid > 1
• 双方向グラフの spid : 0.115• 有向グラフの spid : 0.108• → ソーシャル・ネットワークの特徴を持つ• FB の spid : 0.09 より大• →Twitter の方が分布がやや大きい
27
Social graph or Info graph? -- 平均経路長から
• ソーシャル・グラフの特徴を示す• 平均経路長、 spid いずれも満たす
28
4. クラスタ係数• ソーシャル・ネットワークの特徴:クラスタ係
数高
29
次数が高くなる→ クラスタ係数小さくな
る
30
クラスタ係数に関する考察( 1/2 )• 次数が高くなるとクラスタ係数が小さくなる• 他のソーシャル・ネットワークとの比較:• クラスタ係数は Facebook より小さい
• MSN メッセンジャーより大きい• K=5: MSN*1.5=Twitter• K-20: MSN*1.9=Twitter
/次数 5 20 100
Twitter (mutual) 0.4 0.3 0.14Facebook 0.23 0.19 0.14
31
日本のみ異なる特徴
32
クラスタ係数に関する考察( 2/2 )• 日本の特異性:• クラスタ係数:高• 双方向性:高• → 双方向グラフはノード数に対してリンク数多• 次数 200-1000 の範囲にピーク• → 高次数・高クラスタ係数のユーザらによ
る” cliques”
33
Social graph or Info graph? -- クラスタ係数から
• ソーシャル・グラフの特徴を示す• 高いクラスタ係数を持つ
34
5. 2 ホップで連結しているノード数• 2 ホップで連結しているノード:新規リンク予測 [6]• 【定義】• Inbound two-hop :ノードのフォロワーのフォロワー
• このユーザから情報を受け取るポテンシャルを持つ• Outbound two-hop: ノードのフォローイングのフォロー
イング• このユーザに情報を伝えるポテンシャルを持つ
• Non-unique two-hop neighborhoods :ユーザのフォロワーの inbound degrees の和• Unique two-hop neighborhoods
35
36
2 ホップで連結しているノード数に関する考察
• 次数 3000 以下では、 2 ホップで連結しているノード数は次数の 2乗を上回る• → 情報収集/伝播いずれにも効率的• 次数 100 以下では、 unique と non-unique が同様の挙動• ユーザ数が少ないうちは、新規 two-hop neighborhoods の
ほとんどが unique
• Facebook との比較:• 友達 100 人のユーザ:平均 27,500 人の友達の友達• フォロワー数 100 人のユーザ : Unique inbound two-hop
neighborhoods : 497,000• フォローイング数 100 人のユーザ : Unique outbound two-
hop neighborhoods : 367,000
• → 次数の 2乗より多いが、 Twitter より少ない37
Social graph or Info graph? --2 ホップで連結しているノードから
• 情報ネットワークとして効率的な構造• 情報収集/伝播を拡散
38
6. 次数相関• ソーシャル・ネットワークと他の大規模ネット
ワークを区別する最大の指標 [4]• ソーシャルネットワーク: 0.1 - 0.4• Facebook : 0.226
• 【定義】
39
次数相関に関する考察( 1/2 )• SOD – DOD : 0.272• “ 自分のフォローイング数が多いほど、フォローイ
ングのフォローイング数も増加する”• Social user が他の social user を刺激• → ソーシャル・ネットワークの相互性を示す
• SID – DOD : 0.241• “ 自分のフォロワー数が多いほど、フォローイング
のフォローイング数も増加する”• 有名になるほど他のユーザをソーシャルにする• →social network theory と一致
40
次数相関に関する考察( 2/2 )• SOD – DID : -0.118• “ 自分のフォローイング数が多いほど、フォローイ
ングのフォロワー数は減少する”• Since the fact that the edge is present increases both
the SOD and the DID by one, (SOD, DID 個別で見るといずれも増加しているので ?) 正の相関となるはずで、予想外の結果
• SID – DID : -0.296• “ 自分のフォロワー数が多いほど、フォローイング
のフォロワー数は減少する”• 先行研究 [7,8] と合致しない
41
Social graph or Info graph? -- 次数相関から
• ソーシャル・グラフの特徴を示す部分とそうでない部分がみられる• 矛盾する、直感に反する結果
42
考察( 1/3 )• 個別のユーザにとって、 Twitter は• 情報ネットワークからスタート• 有名なユーザをフォロー: preferential attachment
• →徐々にソーシャル・ネットワークとしての要素強まる• 有名かどうか以外の基準でフォロー• 所属コミュニティを発見(現実のつながり、共通の興味
など)
• → リンクが追加された順序を考慮した分析へ43
考察( 2/3 )
•利用時間が増えるにつれフォロワー数は増加•新規ユーザと古参ユーザが混在
new
experienced
44
考察( 3/3 )• 次数相関への説明• SID – DOD, SOD – DOD の正の相関 :•利用時間が増えるにつれフォローイング数は増加• Figure7 (b) より
• SOD – DID の負の相関 :• フォロー数の多いユーザは、フォローイング数
の少ないユーザをフォローする傾向• Figure7 (c) より
• → 著名人よりも社会的つながりを優先45
今後の展望、結論• Twitter はソーシャル・グラフの特徴を示す部分と
そうでない部分がみられる• Twitter における行動に 2 つの流れがあるのでは ?•①情報収集•②双方向的な社会的つながり
• ソーシャル・ネットワークなのか、あるいは情報ネットワークなのか、特徴を精査• 直感的には、ユーザの混在が要因か ?
46
参考文献• [1] R. Dunbar. Neocortex size as a constraint on group size in primates.
Journal of Human Evolution, 1992.• [2] P. Boldi, M. Rosa, S. Vigna. HyperANF: approximating the neighborhood
function of very large graphs on a budget. WWW 2011.• [3] P. Flajolet, C. Fusy, O. Gandouet, and F. Meunier. HyperLogLog: the
analysis of a near-optimal cardinality estimation algorithm Analysis of Algorithms, 2007.
• [4] M. Newman and J. Park. Why social networks are different from other types of networks. Physical Review, 2003.
• [5] J. Leskovec, J. Kleinberg, and C. Faloutsos. Graphs over time: densification laws, shrinking diameters and possible explanations. KDD 2010.
• [6] P. Gupta, A. Goel, J. Lin, A. Sharma, D. Wang, and R. Zadeh. WTF: The Who to Follow service at Twitter. WWW 2013.
• [7] M. Newman. Mixing patterns in networks. Physical Review, 2003. • [8] M. Newman and J. Park. Why social networks are different from other
types of networks. Physical Review, 2003. 47