グラフマイニング技術とその応用asn/201501_sogo/201503_tutorial...グラフマイニング技術とその応用...
Transcript of グラフマイニング技術とその応用asn/201501_sogo/201503_tutorial...グラフマイニング技術とその応用...
グラフマイニング技術とその応用
大阪大学 大学院情報科学研究科
ビッグデータ工学講座 教授
鬼塚 真
2015.3.11
人・モノ・場所などのつながりから新たな知識を発見する
グラフマイニング
ビッグデータをリアルタイムに分析処理
分散データ処理エンジン
自己紹介
所属~H26.6 NTT研究所 特別研究員
H26.7~ 大阪大学 ビッグデータ工学講座 教授
これまでの研究開発マルチメディアデータベースの研究開発XMLストリーム/データベースの高速化ウェブの検索システムの開発
現在の研究テーマグラフマイニング高速化・分散処理エンジン
画像検索
ホームラン検索
アラートシステム
カラオケ検索
大規模分散データベース
2
全体構成
概要
グラフマイニングの応用例企業間取引分析,ウェブグラフ,テロリスト
ソーシャル分析,トレンド分析,IoT での応用
グラフマイニングの高速化技術グラフクラスタリング
PageRank 計算
3
グラフデータの有用性データ構造の多様化
Web, facebook, 写真などの多様な情報の増加や,携帯端末の急速な普及
単純な表構造での表現・処理能力の限界
人・物・場所といった多様な情報のつながり(ウェブ上あるいは実世界のどの場所で利用者が何を参照したか、等)を表現可能なグラフ構造が有効
大量のグラフデータを分析することが重要
4
高速グラフマイニング技術
巨大なグラフデータウェブグラフは世界で 100億ページ超
Facebook のソーシャルグラフは12億人規模
購買ログ/利用ログ: 利用者とアイテムのグラフ
グラフマイニング処理のコスト大階層型クラスタリング: ,但し ノード数
ランダムウォーク: ,但し エッジ数, 繰り返し回数
)( 2NO)(mtO t
Nm
高速なグラフマイニング技術が不可欠
5
我々の研究の取り組み高速グラフクラスタリングアルゴリズム
高速 modularity クラスタリング[AAAI’13]
高速 SCAN クラスタリング [DEIM’14]
高速 top-k PageRank アルゴリズムtop-k PageRank[VLDB’12,14, KDD’12,
SIGMOD’13, AAAI’13]
top-k SimRank[ICDE’13]
繰返し型分析の分散最適化技術Query optimization[VLDB’13]
分散NMF最適化[DEIM’14]
6
グラフマイニングの応用例
7
グラフマイニングの事例NHK の震災ビッグデータ
企業間の取引データをCGで可視化し,復興後に早期に立ち上がった企業を明らかにしている
Google のランキング計算ウェブのリンク構造を捉えて,影響力のあるウェブ
ページのランキング計算を実現
ソーシャルネットワークの分析ダークネットワーク:テロリストやバイヤーのネットワーク
を解析して,中枢の人物を捉える
8
9
ページランクを可視化した例
出展: The architecture of complexity, ASIS Keynote 2006
10
global salafi jihad ネットワーク分析
出展: The topology of dark networks, CACM vol.51, no.10, 2008.
bin Laden
9/11 Attacks, 2001
Bali Bombing, 2002
バリ島爆弾テロ事件
アメリカ同時多発テロ事件
Pink: bin laden グループYellow: core arabsBlue: maghreb arabsGreen: southeast asians
11
トレンド分析
グラフマイニングの事例人間関係の分析: 俳優・政治家のソーシャル分析
グラフの均等分割: 交通量に基づく道路網の均等メッシュ分割
トレンド分析: 論文メタデータを用いた技術年表の生成
多様なグラフデータ 分析結果
グラフ分析
道路網の最適メッシュ分割
政治家の勢力分析
12
13Copyright©2014 NTT corp. All Rights Reserved.
• Wikipediaから芸能人のページを機械的に収集
• 同ページに登場する芸能人のつながりをグラフ化
利用例1: 俳優のソーシャル分析
グラフ抽出
芸能人約3,000人のつながりから隠れたコミュニティや影響力を分析
14
円の大きさ=芸能界への影響力
円の色=コミュニティ
15
女性俳優女性モデル
宝塚 男性モデル
AKB系ハロプロ系
お笑い芸人
タレント(バラエティ一般)
タレント(バラエティ司会者)女性アナウンサー
ジャニーズ系
男性俳優
16Copyright©2014 NTT corp. All Rights Reserved.
男性俳優クラスタ
映画・舞台
ドラマ
影響力ランキング1. 勝新太郎2. 三谷幸喜3. 北大路欣也4. ビートたけし5. 杉良太郎6. 蜷川幸雄7. 三船敏郎8. …
17
女性俳優女性モデル
宝塚 男性モデル
AKB系ハロプロ系
お笑い芸人
タレント(バラエティ一般)
タレント(バラエティ司会者)女性アナウンサー
ジャニーズ系
男性俳優
18Copyright©2014 NTT corp. All Rights Reserved.
ジャニーズ系クラスタ
男性俳優クラスタ
お笑いクラスタ
影響力ランキング1. 香取慎吾2. 中居正広3. 森光子4. 木村拓哉5. 滝沢秀明6. 稲垣吾郎7. 国分太一8. 草なぎ剛9. 近藤真広10.亀梨和也
利用例2: 論文データから技術年表生成• IT分野の論文データを利用
• 論文・著者・論文タイトル中の単語をグラフ化+年代分割
• 技術年表として技術の変遷を可視化
グラフ抽出
50年以上に渡る計算機科学領域の技術動向を分析
AutomataRelational
19
技術の変遷の可視化
2015/3/3 20
長いクラスタを時系列分解して可視化
短いクラスタを時系列方向の関連を導出して可視化
技術の変遷の可視化
2015/3/3 21
トレンドの変遷を分析するクラスタ間分析
graphs,algorithm,networks,time,schedulig
graphs,algorithm,networks,time,complexity
2011 2012 201316,471件15,893件15,405件
201014,223件
技術の変遷の可視化
2015/3/3 22
トレンドの変遷を分析するクラスタ間分析
protein,analysis,structure,gene,molecular
protein,analysis,prediction,gene,structure
protein,analysis,prediction,networks,gene,structure
利用例3: IoT の応用例
• EUとの共同プロジェクト: smart city, energy, shopping,…
• EU: スペイン サンタンデル,フランス リヨン等
• JP: 大阪
• テストベッドを利用したIoTの実証実験
• 既存テストベッドの活用と相互連携
• 利用者の参加による実証実験
• アーキテクチャ
• センサを利用してデータを収集・
• サーバ側でビッグデータ処理
• アクチュエータなどを用いてサービスを実現
23
Horizontal Scenario
• A horizontal and extensible platform for hosting services and applications from various domains
APIs, Data as a Service, user portal, service management portal
user future behaviouruser context
security and privacy
user preferences user location
environmentalcontext
Het
erog
enou
s Io
T de
vice
sdi
vers
app
licat
ion
dom
ains SmartHome SmartTransport
SmartHealth SmartCity
SmartShopping
Device as a Service; device/service discovery, generic APIs for resource access
» Large scale experimentation in real-life environments: Santander, Lyon, ˃ Smart city, smart building, open data, participatory sensing
» Smaller scale, experimental platforms» Smart home, smart health, smart transport, art Art&Science
» 18000のセンサを街中に設置
» MapReduce + Hive でデータ処理
» 様々な応用空き駐車スペースの掲示,バスの運行状況の把握,電子クーポン配布,空気の汚れ・騒音のセンシング,ゴミ箱の状況を検知
» Large scale experimentation in real-life environments: Osaka train station: smart city, smart building
» Smaller scale, experimental platform at Osaka and Kansai area» Smart POS, smart energy, smart health, smart transport, Osaka Osampo service(ISID)
» 収集:iBeacon を使って人の行動をセンシング˃ アプリックス社の beacon ⇔ MacBook, iPad mini
» 分析:相互クラスタリング(matrix/tensor factorization)˃ (利用者,展示物,状況)の3つ組みをテンソル分解
» 制御:リモコンを使って機器を制御(照明,音楽,アロマディフューザ)˃ A君が休憩スペースに来ると,レモングラスのアロマが香る
グラフマイニングの高速化技術
29
30Copyright©2014 NTT corp. All Rights Reserved.
クラスタ分析とは
クラスタ分析は、大量のデータから関連性の高いデータのグループを自動的に抽出してデータの隠れた構造を発見します
入力:グラフ構造
クラスタ解析
ソーシャルグラフやWebグラフ等の人や物のつながりを表すグラフ構造
野球派
サッカー派 テニス派
バスケ派
出力:グラフ構造に隠れたコミュニティ
入力されたグラフ構造に隠れた、類似した人や物同士のコミュニティ・グループ構造を自動的に発見
31Copyright©2014 NTT corp. All Rights Reserved.
クラスタ分析高速化技術
繰り返し
グラフ構造を階層的に集約
決定した処理順序に基づき類似データを探索。探索により得られた類似データ集合を階層的に集約し、不要な計算を削減。
グラフ構造を入力 グラフ構造から隠れた構造を獲得
野球派
サッカー派 テニス派
バスケ派
グラフ構造の計算順序を最適化
グラフ構造の統計情報に基づき、計算時間の短くなる処理順序を決定。
処理順序
Shiokawa et al. AAAI’13
32Copyright©2014 NTT corp. All Rights Reserved.
・Intel Xeon Quad-Core L5640・2.26GHz・144GB RAM・g++ 4.1.2
評価実験
計算機スペック
既存手法Louvain法
Grapon(集約のみ)
Grapon(集約+次数)
Grapon(全て)
•現状最速のLouvain法と比べ,15.0倍~58.0倍の高速化に成功
• 1.2億ノード,10億エッジの処理を6時間から3分程度に短縮
33Copyright©2014 NTT corp. All Rights Reserved.
ノード群を入力
野球選手 野球コーチ
重要度の高いノードを発見
野球監督 野球ショップのオーナ
Personalized PageRank (PPR)とは
PPR実行
PPRは一部のノード群を指定して重みづけをすることで、
指定ノード群への影響が強い重要なノード群を自動的に決定します
34Copyright©2014 NTT corp. All Rights Reserved.
ノード群を入力
重要度の低いノードを枝刈り
重要度の上限値を利用して重要度の低いノードを枝刈りすることにより計算量削減
野球選手 野球コーチ
重要度の高いノードを発見
野球監督 野球ショップのオーナ
Top-k PPR高速化技術
グラフの行列化による重要度の計算
ノードを並び替えてから行列分解を行うことにより、行列のゼロ要素を増やし計算量削減
+
−=
dss cAc)1(
=
−
ds PRQPC T
1
ノードの並び替えと行列分解重要度計算の効率化
Fujiwara et al. KDD’12
35Copyright©2014 NTT corp. All Rights Reserved.
処理速度の評価
上位K個(Kは10,50,100)のランキングを求める処理で従来手法と比較し、50倍高速
•繰返し型分析を対象: グラフ分析・クラスタリング
•課題: 繰返し処理において冗長な処理がある
繰返し型処理の分散クエリ最適化技術
PageRank 計算の例
グラフのデータ転送を繰り返して冗長実行
収束したデータでも繰返して冗長実行query
initialize
return
convergence?
Onizuka et al. PVLDB’13
36
•実体化ビューを利用
1. 操作対象データを繰返し更新される部分/されない部分に分割
2. 更新されない部分データにアクセスする処理を実体化して再利用
•差分計算方式
1. 繰返し更新される部分を差分計算し,収束データの処理を排除
冗長性を自動的に排除する
query
initialize
return
convergence?
invariant view construction
initialize
return
convergence?
U = variant view(U)
materialized view
invariant view construction
initialize
return
convergence?
U += variant view(delta U)
materialized view
37
• PageRank/k-means のケースで 5倍高速
• MapReduce/Spark 環境の両方において同様の傾向
評価実験
PageRank Computation/webbase-2001 K-means clustering/mnist8m
0
50
100
150
200
250
1 2 3 4 5 6 7 8 9 1011121314151617re
spon
se t
ime
(min
)
# of iterations
defaultviewview + incremental
0
5
10
15
20
25
1 11 21 31 41 51 61 71
resp
onse
tim
e (m
in)
# of iterations
defaultviewview + incremental
38
まとめ:グラフマイニングと応用大規模グラフデータの分析・可視化動向:単純な表構造データから、人・物・場所といった
多様な情報のつながりを表現するグラフ構造へ
技術:大規模グラフの高速処理エンジン: 1億規模のデータを数分で分析
グラフマイニングの応用例企業間取引分析,ウェブグラフ,テロリスト
ソーシャル分析,トレンド分析,IoT での応用
キラーアプリ探索中:多言語翻訳,知識の構造化
39