グラフマイニング技術とその応用asn/201501_sogo/201503_tutorial...グラフマイニング技術とその応用...

39
グラフマイニング技術とその応用 大阪大学 大学院情報科学研究科 ビッグデータ工学講座 教授 鬼塚 2015.3.11 人・モノ・場所などのつながりから新たな 知識を発見する グラフマイニング ビッグデータをリアルタイムに分析処理 分散データ処理エンジン

Transcript of グラフマイニング技術とその応用asn/201501_sogo/201503_tutorial...グラフマイニング技術とその応用...

Page 1: グラフマイニング技術とその応用asn/201501_sogo/201503_tutorial...グラフマイニング技術とその応用 大阪大学大学院情報科学研究科 ビッグデータ工学講座教授

グラフマイニング技術とその応用

大阪大学 大学院情報科学研究科

ビッグデータ工学講座 教授

鬼塚 真

2015.3.11

人・モノ・場所などのつながりから新たな知識を発見する

グラフマイニング

ビッグデータをリアルタイムに分析処理

分散データ処理エンジン

Page 2: グラフマイニング技術とその応用asn/201501_sogo/201503_tutorial...グラフマイニング技術とその応用 大阪大学大学院情報科学研究科 ビッグデータ工学講座教授

自己紹介

所属~H26.6 NTT研究所 特別研究員

H26.7~ 大阪大学 ビッグデータ工学講座 教授

これまでの研究開発マルチメディアデータベースの研究開発XMLストリーム/データベースの高速化ウェブの検索システムの開発

現在の研究テーマグラフマイニング高速化・分散処理エンジン

画像検索

ホームラン検索

アラートシステム

カラオケ検索

大規模分散データベース

2

Page 3: グラフマイニング技術とその応用asn/201501_sogo/201503_tutorial...グラフマイニング技術とその応用 大阪大学大学院情報科学研究科 ビッグデータ工学講座教授

全体構成

概要

グラフマイニングの応用例企業間取引分析,ウェブグラフ,テロリスト

ソーシャル分析,トレンド分析,IoT での応用

グラフマイニングの高速化技術グラフクラスタリング

PageRank 計算

3

Page 4: グラフマイニング技術とその応用asn/201501_sogo/201503_tutorial...グラフマイニング技術とその応用 大阪大学大学院情報科学研究科 ビッグデータ工学講座教授

グラフデータの有用性データ構造の多様化

Web, facebook, 写真などの多様な情報の増加や,携帯端末の急速な普及

単純な表構造での表現・処理能力の限界

人・物・場所といった多様な情報のつながり(ウェブ上あるいは実世界のどの場所で利用者が何を参照したか、等)を表現可能なグラフ構造が有効

大量のグラフデータを分析することが重要

4

Page 5: グラフマイニング技術とその応用asn/201501_sogo/201503_tutorial...グラフマイニング技術とその応用 大阪大学大学院情報科学研究科 ビッグデータ工学講座教授

高速グラフマイニング技術

巨大なグラフデータウェブグラフは世界で 100億ページ超

Facebook のソーシャルグラフは12億人規模

購買ログ/利用ログ: 利用者とアイテムのグラフ

グラフマイニング処理のコスト大階層型クラスタリング: ,但し ノード数

ランダムウォーク: ,但し エッジ数, 繰り返し回数

)( 2NO)(mtO t

Nm

高速なグラフマイニング技術が不可欠

5

Page 6: グラフマイニング技術とその応用asn/201501_sogo/201503_tutorial...グラフマイニング技術とその応用 大阪大学大学院情報科学研究科 ビッグデータ工学講座教授

我々の研究の取り組み高速グラフクラスタリングアルゴリズム

高速 modularity クラスタリング[AAAI’13]

高速 SCAN クラスタリング [DEIM’14]

高速 top-k PageRank アルゴリズムtop-k PageRank[VLDB’12,14, KDD’12,

SIGMOD’13, AAAI’13]

top-k SimRank[ICDE’13]

繰返し型分析の分散最適化技術Query optimization[VLDB’13]

分散NMF最適化[DEIM’14]

6

Page 7: グラフマイニング技術とその応用asn/201501_sogo/201503_tutorial...グラフマイニング技術とその応用 大阪大学大学院情報科学研究科 ビッグデータ工学講座教授

グラフマイニングの応用例

7

Page 8: グラフマイニング技術とその応用asn/201501_sogo/201503_tutorial...グラフマイニング技術とその応用 大阪大学大学院情報科学研究科 ビッグデータ工学講座教授

グラフマイニングの事例NHK の震災ビッグデータ

企業間の取引データをCGで可視化し,復興後に早期に立ち上がった企業を明らかにしている

Google のランキング計算ウェブのリンク構造を捉えて,影響力のあるウェブ

ページのランキング計算を実現

ソーシャルネットワークの分析ダークネットワーク:テロリストやバイヤーのネットワーク

を解析して,中枢の人物を捉える

8

Page 9: グラフマイニング技術とその応用asn/201501_sogo/201503_tutorial...グラフマイニング技術とその応用 大阪大学大学院情報科学研究科 ビッグデータ工学講座教授

9

Page 10: グラフマイニング技術とその応用asn/201501_sogo/201503_tutorial...グラフマイニング技術とその応用 大阪大学大学院情報科学研究科 ビッグデータ工学講座教授

ページランクを可視化した例

出展: The architecture of complexity, ASIS Keynote 2006

10

Page 11: グラフマイニング技術とその応用asn/201501_sogo/201503_tutorial...グラフマイニング技術とその応用 大阪大学大学院情報科学研究科 ビッグデータ工学講座教授

global salafi jihad ネットワーク分析

出展: The topology of dark networks, CACM vol.51, no.10, 2008.

bin Laden

9/11 Attacks, 2001

Bali Bombing, 2002

バリ島爆弾テロ事件

アメリカ同時多発テロ事件

Pink: bin laden グループYellow: core arabsBlue: maghreb arabsGreen: southeast asians

11

Page 12: グラフマイニング技術とその応用asn/201501_sogo/201503_tutorial...グラフマイニング技術とその応用 大阪大学大学院情報科学研究科 ビッグデータ工学講座教授

トレンド分析

グラフマイニングの事例人間関係の分析: 俳優・政治家のソーシャル分析

グラフの均等分割: 交通量に基づく道路網の均等メッシュ分割

トレンド分析: 論文メタデータを用いた技術年表の生成

多様なグラフデータ 分析結果

グラフ分析

道路網の最適メッシュ分割

政治家の勢力分析

12

Page 13: グラフマイニング技術とその応用asn/201501_sogo/201503_tutorial...グラフマイニング技術とその応用 大阪大学大学院情報科学研究科 ビッグデータ工学講座教授

13Copyright©2014 NTT corp. All Rights Reserved.

• Wikipediaから芸能人のページを機械的に収集

• 同ページに登場する芸能人のつながりをグラフ化

利用例1: 俳優のソーシャル分析

グラフ抽出

芸能人約3,000人のつながりから隠れたコミュニティや影響力を分析

Page 14: グラフマイニング技術とその応用asn/201501_sogo/201503_tutorial...グラフマイニング技術とその応用 大阪大学大学院情報科学研究科 ビッグデータ工学講座教授

14

円の大きさ=芸能界への影響力

円の色=コミュニティ

Page 15: グラフマイニング技術とその応用asn/201501_sogo/201503_tutorial...グラフマイニング技術とその応用 大阪大学大学院情報科学研究科 ビッグデータ工学講座教授

15

女性俳優女性モデル

宝塚 男性モデル

AKB系ハロプロ系

お笑い芸人

タレント(バラエティ一般)

タレント(バラエティ司会者)女性アナウンサー

ジャニーズ系

男性俳優

Page 16: グラフマイニング技術とその応用asn/201501_sogo/201503_tutorial...グラフマイニング技術とその応用 大阪大学大学院情報科学研究科 ビッグデータ工学講座教授

16Copyright©2014 NTT corp. All Rights Reserved.

男性俳優クラスタ

映画・舞台

ドラマ

影響力ランキング1. 勝新太郎2. 三谷幸喜3. 北大路欣也4. ビートたけし5. 杉良太郎6. 蜷川幸雄7. 三船敏郎8. …

Page 17: グラフマイニング技術とその応用asn/201501_sogo/201503_tutorial...グラフマイニング技術とその応用 大阪大学大学院情報科学研究科 ビッグデータ工学講座教授

17

女性俳優女性モデル

宝塚 男性モデル

AKB系ハロプロ系

お笑い芸人

タレント(バラエティ一般)

タレント(バラエティ司会者)女性アナウンサー

ジャニーズ系

男性俳優

Page 18: グラフマイニング技術とその応用asn/201501_sogo/201503_tutorial...グラフマイニング技術とその応用 大阪大学大学院情報科学研究科 ビッグデータ工学講座教授

18Copyright©2014 NTT corp. All Rights Reserved.

ジャニーズ系クラスタ

男性俳優クラスタ

お笑いクラスタ

影響力ランキング1. 香取慎吾2. 中居正広3. 森光子4. 木村拓哉5. 滝沢秀明6. 稲垣吾郎7. 国分太一8. 草なぎ剛9. 近藤真広10.亀梨和也

Page 19: グラフマイニング技術とその応用asn/201501_sogo/201503_tutorial...グラフマイニング技術とその応用 大阪大学大学院情報科学研究科 ビッグデータ工学講座教授

利用例2: 論文データから技術年表生成• IT分野の論文データを利用

• 論文・著者・論文タイトル中の単語をグラフ化+年代分割

• 技術年表として技術の変遷を可視化

グラフ抽出

50年以上に渡る計算機科学領域の技術動向を分析

AutomataRelational

19

Page 20: グラフマイニング技術とその応用asn/201501_sogo/201503_tutorial...グラフマイニング技術とその応用 大阪大学大学院情報科学研究科 ビッグデータ工学講座教授

技術の変遷の可視化

2015/3/3 20

長いクラスタを時系列分解して可視化

短いクラスタを時系列方向の関連を導出して可視化

Page 21: グラフマイニング技術とその応用asn/201501_sogo/201503_tutorial...グラフマイニング技術とその応用 大阪大学大学院情報科学研究科 ビッグデータ工学講座教授

技術の変遷の可視化

2015/3/3 21

トレンドの変遷を分析するクラスタ間分析

graphs,algorithm,networks,time,schedulig

graphs,algorithm,networks,time,complexity

2011 2012 201316,471件15,893件15,405件

201014,223件

Page 22: グラフマイニング技術とその応用asn/201501_sogo/201503_tutorial...グラフマイニング技術とその応用 大阪大学大学院情報科学研究科 ビッグデータ工学講座教授

技術の変遷の可視化

2015/3/3 22

トレンドの変遷を分析するクラスタ間分析

protein,analysis,structure,gene,molecular

protein,analysis,prediction,gene,structure

protein,analysis,prediction,networks,gene,structure

Page 23: グラフマイニング技術とその応用asn/201501_sogo/201503_tutorial...グラフマイニング技術とその応用 大阪大学大学院情報科学研究科 ビッグデータ工学講座教授

利用例3: IoT の応用例

• EUとの共同プロジェクト: smart city, energy, shopping,…

• EU: スペイン サンタンデル,フランス リヨン等

• JP: 大阪

• テストベッドを利用したIoTの実証実験

• 既存テストベッドの活用と相互連携

• 利用者の参加による実証実験

• アーキテクチャ

• センサを利用してデータを収集・

• サーバ側でビッグデータ処理

• アクチュエータなどを用いてサービスを実現

23

Page 24: グラフマイニング技術とその応用asn/201501_sogo/201503_tutorial...グラフマイニング技術とその応用 大阪大学大学院情報科学研究科 ビッグデータ工学講座教授

Horizontal Scenario

• A horizontal and extensible platform for hosting services and applications from various domains

APIs, Data as a Service, user portal, service management portal

user future behaviouruser context

security and privacy

user preferences user location

environmentalcontext

Het

erog

enou

s Io

T de

vice

sdi

vers

app

licat

ion

dom

ains SmartHome SmartTransport

SmartHealth SmartCity

SmartShopping

Device as a Service; device/service discovery, generic APIs for resource access

Page 25: グラフマイニング技術とその応用asn/201501_sogo/201503_tutorial...グラフマイニング技術とその応用 大阪大学大学院情報科学研究科 ビッグデータ工学講座教授

» Large scale experimentation in real-life environments: Santander, Lyon, ˃ Smart city, smart building, open data, participatory sensing

» Smaller scale, experimental platforms» Smart home, smart health, smart transport, art Art&Science

Page 26: グラフマイニング技術とその応用asn/201501_sogo/201503_tutorial...グラフマイニング技術とその応用 大阪大学大学院情報科学研究科 ビッグデータ工学講座教授

» 18000のセンサを街中に設置

» MapReduce + Hive でデータ処理

» 様々な応用空き駐車スペースの掲示,バスの運行状況の把握,電子クーポン配布,空気の汚れ・騒音のセンシング,ゴミ箱の状況を検知

Page 27: グラフマイニング技術とその応用asn/201501_sogo/201503_tutorial...グラフマイニング技術とその応用 大阪大学大学院情報科学研究科 ビッグデータ工学講座教授

» Large scale experimentation in real-life environments: Osaka train station: smart city, smart building

» Smaller scale, experimental platform at Osaka and Kansai area» Smart POS, smart energy, smart health, smart transport, Osaka Osampo service(ISID)

Page 28: グラフマイニング技術とその応用asn/201501_sogo/201503_tutorial...グラフマイニング技術とその応用 大阪大学大学院情報科学研究科 ビッグデータ工学講座教授

» 収集:iBeacon を使って人の行動をセンシング˃ アプリックス社の beacon ⇔ MacBook, iPad mini

» 分析:相互クラスタリング(matrix/tensor factorization)˃ (利用者,展示物,状況)の3つ組みをテンソル分解

» 制御:リモコンを使って機器を制御(照明,音楽,アロマディフューザ)˃ A君が休憩スペースに来ると,レモングラスのアロマが香る

Page 29: グラフマイニング技術とその応用asn/201501_sogo/201503_tutorial...グラフマイニング技術とその応用 大阪大学大学院情報科学研究科 ビッグデータ工学講座教授

グラフマイニングの高速化技術

29

Page 30: グラフマイニング技術とその応用asn/201501_sogo/201503_tutorial...グラフマイニング技術とその応用 大阪大学大学院情報科学研究科 ビッグデータ工学講座教授

30Copyright©2014 NTT corp. All Rights Reserved.

クラスタ分析とは

クラスタ分析は、大量のデータから関連性の高いデータのグループを自動的に抽出してデータの隠れた構造を発見します

入力:グラフ構造

クラスタ解析

ソーシャルグラフやWebグラフ等の人や物のつながりを表すグラフ構造

野球派

サッカー派 テニス派

バスケ派

出力:グラフ構造に隠れたコミュニティ

入力されたグラフ構造に隠れた、類似した人や物同士のコミュニティ・グループ構造を自動的に発見

Page 31: グラフマイニング技術とその応用asn/201501_sogo/201503_tutorial...グラフマイニング技術とその応用 大阪大学大学院情報科学研究科 ビッグデータ工学講座教授

31Copyright©2014 NTT corp. All Rights Reserved.

クラスタ分析高速化技術

繰り返し

グラフ構造を階層的に集約

決定した処理順序に基づき類似データを探索。探索により得られた類似データ集合を階層的に集約し、不要な計算を削減。

グラフ構造を入力 グラフ構造から隠れた構造を獲得

野球派

サッカー派 テニス派

バスケ派

グラフ構造の計算順序を最適化

グラフ構造の統計情報に基づき、計算時間の短くなる処理順序を決定。

処理順序

Shiokawa et al. AAAI’13

Page 32: グラフマイニング技術とその応用asn/201501_sogo/201503_tutorial...グラフマイニング技術とその応用 大阪大学大学院情報科学研究科 ビッグデータ工学講座教授

32Copyright©2014 NTT corp. All Rights Reserved.

・Intel Xeon Quad-Core L5640・2.26GHz・144GB RAM・g++ 4.1.2

評価実験

計算機スペック

既存手法Louvain法

Grapon(集約のみ)

Grapon(集約+次数)

Grapon(全て)

•現状最速のLouvain法と比べ,15.0倍~58.0倍の高速化に成功

• 1.2億ノード,10億エッジの処理を6時間から3分程度に短縮

Page 33: グラフマイニング技術とその応用asn/201501_sogo/201503_tutorial...グラフマイニング技術とその応用 大阪大学大学院情報科学研究科 ビッグデータ工学講座教授

33Copyright©2014 NTT corp. All Rights Reserved.

ノード群を入力

野球選手 野球コーチ

重要度の高いノードを発見

野球監督 野球ショップのオーナ

Personalized PageRank (PPR)とは

PPR実行

PPRは一部のノード群を指定して重みづけをすることで、

指定ノード群への影響が強い重要なノード群を自動的に決定します

Page 34: グラフマイニング技術とその応用asn/201501_sogo/201503_tutorial...グラフマイニング技術とその応用 大阪大学大学院情報科学研究科 ビッグデータ工学講座教授

34Copyright©2014 NTT corp. All Rights Reserved.

ノード群を入力

重要度の低いノードを枝刈り

重要度の上限値を利用して重要度の低いノードを枝刈りすることにより計算量削減

野球選手 野球コーチ

重要度の高いノードを発見

野球監督 野球ショップのオーナ

Top-k PPR高速化技術

グラフの行列化による重要度の計算

ノードを並び替えてから行列分解を行うことにより、行列のゼロ要素を増やし計算量削減

+

−=

dss cAc)1(

=

ds PRQPC T

1

ノードの並び替えと行列分解重要度計算の効率化

Fujiwara et al. KDD’12

Page 35: グラフマイニング技術とその応用asn/201501_sogo/201503_tutorial...グラフマイニング技術とその応用 大阪大学大学院情報科学研究科 ビッグデータ工学講座教授

35Copyright©2014 NTT corp. All Rights Reserved.

処理速度の評価

上位K個(Kは10,50,100)のランキングを求める処理で従来手法と比較し、50倍高速

Page 36: グラフマイニング技術とその応用asn/201501_sogo/201503_tutorial...グラフマイニング技術とその応用 大阪大学大学院情報科学研究科 ビッグデータ工学講座教授

•繰返し型分析を対象: グラフ分析・クラスタリング

•課題: 繰返し処理において冗長な処理がある

繰返し型処理の分散クエリ最適化技術

PageRank 計算の例

グラフのデータ転送を繰り返して冗長実行

収束したデータでも繰返して冗長実行query

initialize

return

convergence?

Onizuka et al. PVLDB’13

36

Page 37: グラフマイニング技術とその応用asn/201501_sogo/201503_tutorial...グラフマイニング技術とその応用 大阪大学大学院情報科学研究科 ビッグデータ工学講座教授

•実体化ビューを利用

1. 操作対象データを繰返し更新される部分/されない部分に分割

2. 更新されない部分データにアクセスする処理を実体化して再利用

•差分計算方式

1. 繰返し更新される部分を差分計算し,収束データの処理を排除

冗長性を自動的に排除する

query

initialize

return

convergence?

invariant view construction

initialize

return

convergence?

U = variant view(U)

materialized view

invariant view construction

initialize

return

convergence?

U += variant view(delta U)

materialized view

37

Page 38: グラフマイニング技術とその応用asn/201501_sogo/201503_tutorial...グラフマイニング技術とその応用 大阪大学大学院情報科学研究科 ビッグデータ工学講座教授

• PageRank/k-means のケースで 5倍高速

• MapReduce/Spark 環境の両方において同様の傾向

評価実験

PageRank Computation/webbase-2001 K-means clustering/mnist8m

0

50

100

150

200

250

1 2 3 4 5 6 7 8 9 1011121314151617re

spon

se t

ime

(min

)

# of iterations

defaultviewview + incremental

0

5

10

15

20

25

1 11 21 31 41 51 61 71

resp

onse

tim

e (m

in)

# of iterations

defaultviewview + incremental

38

Page 39: グラフマイニング技術とその応用asn/201501_sogo/201503_tutorial...グラフマイニング技術とその応用 大阪大学大学院情報科学研究科 ビッグデータ工学講座教授

まとめ:グラフマイニングと応用大規模グラフデータの分析・可視化動向:単純な表構造データから、人・物・場所といった

多様な情報のつながりを表現するグラフ構造へ

技術:大規模グラフの高速処理エンジン: 1億規模のデータを数分で分析

グラフマイニングの応用例企業間取引分析,ウェブグラフ,テロリスト

ソーシャル分析,トレンド分析,IoT での応用

キラーアプリ探索中:多言語翻訳,知識の構造化

39