ビジネスリテラシーとしての統計 ビッグデータと統計の活用

52
Rakuten Inc. RIT. Masaya Mori July. 11 th , 2012 ビジネスリテラシーとしての統計 ビッグデータと統計の活用

description

楽天におけるデータ活用(スーパーDBやレコメンデーションエンジン)とビッグデータへのチャレンジに関する紹介。特に、昨今注目されている、統計手法の活用事例(の一部)について紹介する。

Transcript of ビジネスリテラシーとしての統計 ビッグデータと統計の活用

Page 1: ビジネスリテラシーとしての統計 ビッグデータと統計の活用

Rakuten Inc. RIT. Masaya Mori July. 11th, 2012

ビジネスリテラシーとしての統計 ビッグデータと統計の活用

Page 2: ビジネスリテラシーとしての統計 ビッグデータと統計の活用

2

Introduction

Introduction

データ活用 SuperDB

BigDataの時代へ

統計の活用

情報爆発

Page 3: ビジネスリテラシーとしての統計 ビッグデータと統計の活用

3

Introduction

• 森 正弥 (もり まさや)

• 楽天株式会社 執行役員

• 開発アーキテクチャ部 部長

• ビッグデータ部 副部長

• 楽天技術研究所 所長

• 職掌

– 開発部署のマネジメント

– 研究開発の推進・統括

Masaya Mori

Twitter: @emasha

Page 4: ビジネスリテラシーとしての統計 ビッグデータと統計の活用

4

Rakuten Group

Introduction

データ活用 SuperDB

BigDataの時代へ

統計の活用

情報爆発

Page 5: ビジネスリテラシーとしての統計 ビッグデータと統計の活用

5

楽天株式会社 会社概要

代表取締役会長兼社長 三木谷 浩史

従業員数 単体3,209人、グループ7,615人

設立日 1997年2月17日

IPO 2000年4月19日(ジャスダック)

資本金 1,079億円(2011年12月末現在)

連結売上高 3,799億円(2011年度)

連結営業利益 756億円(2011年度)

楽天市場(eコマース事業)を中核とした, 総合インターネットサービス企業

Page 6: ビジネスリテラシーとしての統計 ビッグデータと統計の活用

6

国内グループ流通総額

+22.3% YoY

Edy  及びクレジットカード

+29.5% YoY

*1

*2

トラベル+14.9% YoY

*3

国内EC+16.4% YoY

*4

579730

8961,059

1,232220

260

305

366

420

355

482

657

1,268

1,642

1,154

1,473

1,859

2,693

3,294

0

500

1,000

1,500

2,000

2,500

3,000

3,500

2007年 2008年 2009年 2010年 2011年

(単位:十億円)

国内グループ流通総額推移(カード、電子マネー含む)

*1: Edy決済取扱高=電子マネーEdyにより決済された金額(モバイル(おサイフケータイ)及びカード)10/1Q~ *2: クレジットカード・ショッピング取扱高=クレジットカードのショッピング取扱高(楽天グループのサービス利用を含む)

*3: トラベル予約流通総額=予約受付時に対する流通総額(キャンセル前、税別料金に換算) =国内/海外施設予約、海外航空券、楽天バスサービス、国内/海外ダイナミックパッケージ、レンタカー

*4: 国内EC流通総額=モール(通常購入・共同購入)、モバイル、オークション(旧フリマ含む)、ブックス、GORA、ビジネス、ダウンロード、チケット、 ネットスーパー、チェックアウト、楽天競馬、toto、ShowTime、メディアレンタル

Page 7: ビジネスリテラシーとしての統計 ビッグデータと統計の活用

7

海外拠点&楽天技術研究所

• 13か国にてサービスを展開 – マレーシアにて,EC事業に参入

• 楽天技術研究所は,2拠点(Tokyo, New York)

Free Cause(USA) Linkshare(USA) Tradoria(Germany)

Page 8: ビジネスリテラシーとしての統計 ビッグデータと統計の活用

8

ビッグデータ部 楽天技術研究所

Introduction

データ活用 SuperDB

BigDataの時代へ

統計の活用

情報爆発

Page 9: ビジネスリテラシーとしての統計 ビッグデータと統計の活用

9

ビッグデータ関連部署

グループ

コアサービス部

ビッグデータ部

楽天技術研究所

•ID, Mail, Checkout •会員データマーケティング •スーパーDB、商用技術、構造化データ

•サーチ、レコメンド、ランキング、広告 •Hadoop, Cassandra, etc. •OSS、非構造化データ

•データマイニング、 NLP •分散処理基盤、O2O、Next Reality •独自技術、理論的側面を支える

Page 10: ビジネスリテラシーとしての統計 ビッグデータと統計の活用

10

•サーチ、レコメンド、ランキング、広告 •Hadoop, Cassandra, etc. •OSS、非構造化データ

ビッグデータ部

執行役員 部長

Terje Marthinussen

タリア・マルティヌッセン

非構造ビッグデータのインタラクティブな活用 とプラットフォーム構築に挑む

Page 11: ビジネスリテラシーとしての統計 ビッグデータと統計の活用

11

理論的側面を支える楽天技術研究所

今後大きく成長する技術のシーズから、 インターネットを活用した人々の生活(リアリティ)

を豊かにする 新しいサービス・事業の可能性を創出する

ミッション

Next Reality - 来るべき豊かなリアリティを -

コンセプト

技術の理論面を担うR&D組織

Tokyo & NY

Page 12: ビジネスリテラシーとしての統計 ビッグデータと統計の活用

12

Personalize Platform Recommender Engine

(working on) Data Mining, NLP, Semantic Web

Recommender

Platform

SPDB

item DB user DB purchase history DB

page - view history DB

[ recommender logic ]

Collaborative filter

retargeting

basket !

Search Tech

Global Catalogue Creation Noise Detection

Next E-Commerce Platform

Page 13: ビジネスリテラシーとしての統計 ビッグデータと統計の活用

13

企業における データの活用

データ活用 SuperDB

BigDataの時代へ

統計の活用

Introduction

情報爆発

Page 14: ビジネスリテラシーとしての統計 ビッグデータと統計の活用

14

企業における情報の活用

•情報の活用例 •Last.fm •230カ国以上に3000万人以上のユーザ •膨大なユーザの嗜好を分析,個々人にあった音楽を推薦・提供. •毎日1000万回以上の視聴情報を解析

•Pandora Radio •ユーザデータに加え,曲の旋律,歌詞,声質,楽器,拍子,コード進行等を細かく解析 •ユーザの評価を組み合わせ,よりよい曲を提供 •1億人以上のユーザを持ち,成長を続ける

• 情報解析のビジネス価値の発見 • インターネット企業においては、データ活用は主たる基幹機能 • データ分析の結果をオンラインサービスに直接反映。レスポンスをすぐにうけ、短いPDCAで改善ができる、ビジネスのコア

Page 15: ビジネスリテラシーとしての統計 ビッグデータと統計の活用

15

情報活用型企業

•情報の活用例 •decide.com •デバイス、電子機器の価格変動予想 •買い時なのか、新製品の待ち時なのかを提供 •数百のECサイトから10万以上の価格データを収集 •ブログ、ニュース、プレスリリース等もあわせて解析 •1日で25GBのデータを処理 •Amazon Cloud と Hadoop を活用。クラウド→ビッグデータ企業

Page 16: ビジネスリテラシーとしての統計 ビッグデータと統計の活用

16

Decide.com: 意思決定支援

Buy or Wait?

Analysis And

Prediction

When you want to buy

You can check if it is good time to buy it or not by using Decide.com. Wait for new version.

Page 17: ビジネスリテラシーとしての統計 ビッグデータと統計の活用

17

各Webサイトからのクロール • Decide.com is crawling price info of 100,000 items

from several hundreds EC sites, etc.

Crawling

EC sites

News Blog

Maker info Press Release

They are crawling data from all relative sites.

Page 18: ビジネスリテラシーとしての統計 ビッグデータと統計の活用

18

BigData of Today

Hadoop Cluster

Analysis And

Prediction

25GB data / day

• They utilize Amazon public cloud and built a Hadoop Cluster on it. It’s BigData of today.

Page 19: ビジネスリテラシーとしての統計 ビッグデータと統計の活用

19

SuperDB データ活用 SuperDB

BigDataの時代へ

統計の活用

Introduction

情報爆発

Page 21: ビジネスリテラシーとしての統計 ビッグデータと統計の活用

21

スーパーDB •Rakuten has tons of businesses, and so have many kinds of business data. It’s diversified. •We aggregate such data into one big dataware house.

DWH

Rakuten Super DB

多様なビジネスデータ

That is our important core generating revenue.

Page 22: ビジネスリテラシーとしての統計 ビッグデータと統計の活用

22

カード情報

アンケート

購入履歴

会員属性

スーパーポイント

ログイン

楽天 スーパーDB

デモグラフィック (基本属性)

ビヘイビア (行動)

ジオグラフィック (地理情報)

サイコグラフィック (心理的属性)

外部データ (Mosaic 等)

ファイル

加工・集計・分析

・パーソナライズ

・リコメンデーション

・行動ターゲティング広告

・営業支援

データ提供 アプリケーション

全体像

集約

楽天クーポン

・・・・ 利用

ファイル ファイル

Page 23: ビジネスリテラシーとしての統計 ビッグデータと統計の活用

23

顧客の属性データや購買履歴を利用し、顧客をいくつかのグループに分類する。→楽天会員全員をクラスタリング

A B

C

D

E F

G H I

J A

B

C

D

E F

G H I

J

お手軽 ビューティー

おしゃれメンズ

グルメ 大好き

本・CD・ゲーム 家でじっくり派

家事は お任せ

顧客クラスタリング

顧客クラスタリングの考え方

Page 24: ビジネスリテラシーとしての統計 ビッグデータと統計の活用

24

顧客クラスタリング(続き)

A

X X

X X

X X

X X X X

X X X X

X X

1 2 3 4 5 6

7 8 9 10 11 12

13 14 15 16 17 18

19 20 21 22 23 24

25 26 27 28 29 30

31 32 33 34 35 36

施策実施

1 2 3 4 5 6

7 8 9 10 11 12

13 14 15 16 17 18

19 20 21 22 23 24

25 26 27 28 29 30

31 32 33 34 35 36

反応結果をフィードし

施策をブラッシュアップ

活用イメージ

クラスタ(顧客セグメント)作成 各クラスタに対し施策を実施

クラスタリングしたグループごとにきめ細かいアプローチを実施

Page 25: ビジネスリテラシーとしての統計 ビッグデータと統計の活用

25

「統計」の活用 データ活用 SuperDB

BigDataの時代へ

統計の活用

Introduction

情報爆発

Page 26: ビジネスリテラシーとしての統計 ビッグデータと統計の活用

26

スーパーDBの活用からの統計の活用 •多種多様なビジネスデータを格納したスーパーDBの活用より、楽天においてはデータ分析・活用のシーンは幅広く見られるようになった。 •その中では、「統計」の活用も主にマーケティングの部署や楽天技術研究所において広まってきている。

Page 27: ビジネスリテラシーとしての統計 ビッグデータと統計の活用

27

広義の「統計」の活用

•データに対するアプローチや基本姿勢として業務の現場において実践

•量的なあるいは時系列的なデータの分布から •全体の傾向を見たり、トレンド・法則性を把握 •データの概要を把握

•統計量の計算 •平均、分散、中央値、劣度

•複数データの相関 •散布図を描く

•基本的な視点は常にある •質的変数の場合は、クロス集計を •独立性検定ではp値を

Page 28: ビジネスリテラシーとしての統計 ビッグデータと統計の活用

28

search word: “プレゼント”

“present” is used as

Christmas present

12/24

(present)

時系列で傾向を見ることは必須

•E-commerce には季節的なトピックは非常に多くあふれている

Page 29: ビジネスリテラシーとしての統計 ビッグデータと統計の活用

29

広義の「統計」の活用 •PDCAサイクルにのせる

•全体やトレンドの理解、未知の事実の発見をしたりした結果を •フィードバックとしてビジネス施策やサービスアプリケーションに

•結果、ユーザの反応がダイレクトに得られ •PDCAサイクルによる継続的な改善活動を、短期間で回すことができる

•インターネットサービスの大きな特徴であり、醍醐味

Preprocess Look at

data Statistics

Analysis Action Log

DATA

Page 30: ビジネスリテラシーとしての統計 ビッグデータと統計の活用

30

「統計」の活用の事例 データ活用 SuperDB

BigDataの時代へ

統計の活用

Introduction

情報爆発

Page 31: ビジネスリテラシーとしての統計 ビッグデータと統計の活用

31

楽天ブックスでの書籍の販売量と順位の関係 •いわゆる「ロングテール」、べき乗則に従う

•従来の「80対20の法則(パレートの法則)」の様に、販売順位上位20%の商品が全体の販売量の80%を構成、という分布上の特徴をもたない •販売量の約3分の1は、販売量が非常に少ないマイナーな商品の集合によって形成されるという特徴を有す •年間の集計量でも月間の集計量でもべき乗則に従う •各書籍ジャンル別でも、CD/DVDも従う

http://web.sfc.keio.ac.jp/~iba/papers/2008jacs08-iba.pdf

• 平均や分散が意味をもたず、それはすなわち、一般的な商品、典型的な商品がないことを指す。

• 市場のスケールこそに目を向けるべきという知見。

Page 32: ビジネスリテラシーとしての統計 ビッグデータと統計の活用

32

サーチワードの分析 •サーチには季節性があり、キーワードによってサーチボリュームと検索される日数には、商品ごとの特徴の違いがある。 •それを分布から明らかにしつつ、ビジネス施策へのインプットとしていく

Page 33: ビジネスリテラシーとしての統計 ビッグデータと統計の活用

33

「欲しいものが 見つからない」

•正しいキーワードでないと検索できず大きな機会損失 問題認識

検索キーワードを入れたのに結果が0件

検索キーワードがわからない

検索キーワードが間違っている

•「もしかして」検索として代替キーワードを表示 アプローチ

【応用例(仮)】 もしかして検索

Page 34: ビジネスリテラシーとしての統計 ビッグデータと統計の活用

34

• 自動辞書構築のための独自スコアリングと雑音除去 チャレンジ

)(),()()|( wtyAvailabili

uwDistancewyProbabilituwScore ⋅++

=δγ

どれだけ検索されるのか?

どれだけ似ているのか? 検索可能なのか?

独自スコア 1

提示単語選択 2

この辺りが最適な候補

• 表層近似+検索率+検索保証のスコアとグラフ解析選択 ロジック

【応用例(仮)】 もしかして検索

Page 35: ビジネスリテラシーとしての統計 ビッグデータと統計の活用

35

商品の需要予測 •商品の需要予測を行い、バイヤーが予測をインプットに、購買を決定 •ポアソン回帰モデル・数量化1類(週でユニットを切る)の適用 •numpy, scipy を利用したプログラミングを積極的に行う分析

• Input • p : price of Rakuten • p* : item cost • a : price of Other

• Output • u = # of unit sales

• Model • It's calculated for each product by using pre-order data • u = EXP [ε_rakuten ((p - p*)/p*) - ε_other ((p - a)/a) ] • - ε_rakuten ((p - p*)/p*) : Effect of rakuten price • - ε_other ((p - a)/a) : Effect of other price

Page 36: ビジネスリテラシーとしての統計 ビッグデータと統計の活用

36

楽天レシピ投稿日とレシピランクの相関分析

•至極単純な相関分析。ランクは早いうちがあがる。 •しかし、これにより強い相関を導き出したことにより、ユーザーへのアプローチやキャンペーン施策等に変化がある

Page 37: ビジネスリテラシーとしての統計 ビッグデータと統計の活用

37

検索結果のパーソナライズの研究

•ロジスティック回帰 (従属変数に質的変数を) とフィッシュバインモデル(多属性態度モデル。対象物への態度は主要な属性についての評価の総和) •ユーザーが気にする要因 は何なのかを明らかにし、検索結果表示をパーソナライズしていく研究

βxw

x

T +=

=∑

k

jj

k

u

uukp

)exp()exp()|(商品属性

説明変数

(ユーザのデモグラ、利用傾向等)

・カテゴリ値に変換,ダミー変数化

説明変数に対する重み

設備kの効用

商品kの(確率)効用

PRML本 chap.4 より

Page 38: ビジネスリテラシーとしての統計 ビッグデータと統計の活用

38

類似商品の発見

•商品検索における類似商品の研究。共起尺度(ダイス係数等)の適用。 •比較分析をしているユーザーデータから類似の商品を発見

Page 39: ビジネスリテラシーとしての統計 ビッグデータと統計の活用

39

ABテストでの検定利用

A

X X

X X

X X

X X X X

X X X X

X X

1 2 3 4 5 6

7 8 9 10 11 12

13 14 15 16 17 18

19 20 21 22 23 24

25 26 27 28 29 30

31 32 33 34 35 36

施策実施

1 2 3 4 5 6

7 8 9 10 11 12

13 14 15 16 17 18

19 20 21 22 23 24

25 26 27 28 29 30

31 32 33 34 35 36

反応結果をフィードし

施策をブラッシュアップ

クラスタ(顧客セグメント)作成 各クラスタに対し施策を実施

•施策を行う集団(A)と行わない集団(B)の反応に「有意な差」があるか •差が有意かどうか検定。母比率の差の検定 •有意な差が出現しうるよう、サンプル数を検討。事前に、信頼度と想定される差を決める。その際に、有意差がでるようにサンプル数を決める。

Page 40: ビジネスリテラシーとしての統計 ビッグデータと統計の活用

40

「統計」の活用

•何も高度な技術を適用していない。 •回帰分析においても説明変数を何にするか。 •変数に入れるためのデータの加工の仕方。 •あるいはそもそもの仮説の立て方。それらこそが重要。 •その基本を外さないことこそが、「統計」活用において肝要。

Page 41: ビジネスリテラシーとしての統計 ビッグデータと統計の活用

41

(余談) 商品購入間隔の研究

Page 42: ビジネスリテラシーとしての統計 ビッグデータと統計の活用

42

(余談) 商品購入間隔の研究

•ノンパラメトリックな外れ値検出法(Distance based outlier detection)を利用。 •「統計」における代表的な手法が有効でないことを確認した上で行った。 •逆説的に「統計」の知識が活用されているといえる。 •何にもまして基礎は大事である。

Page 43: ビジネスリテラシーとしての統計 ビッグデータと統計の活用

43

情報爆発 BigData

データ活用 SuperDB

BigDataの時代へ

統計の活用

Introduction

情報爆発

Page 44: ビジネスリテラシーとしての統計 ビッグデータと統計の活用

44

情報爆発

Along with this, we are increasingly getting difficulty of processing data.

Page 45: ビジネスリテラシーとしての統計 ビッグデータと統計の活用

45

Big Data

It’s getting more and more difficult to handle with it.

Page 46: ビジネスリテラシーとしての統計 ビッグデータと統計の活用

46

楽天にあるビッグデータ

ビッグデータへの取り組み

• 78,000,000+ 会員 • 800,000,000+ 購買情報 • 68,000,000+ レビュー、口コミ • 3,000,000+ 1ヶ月あたりの宿泊情報 • 37,000+ 市場出店店舗 • 60,000+ 登録ホテル • 銀行、クレジットカード情報…. • 莫大な量のサーチワード • 1日あたり数百ギガバイト以上のAccess Log • etc

Page 47: ビジネスリテラシーとしての統計 ビッグデータと統計の活用

47

大規模基盤の活用・構築

•大規模基盤の活用・構築 •クラウドの普及、技術のコモディティ化を踏まえ •パブリッククラウドの活用、プライベートの構築 •Hadoopクラスターの構築、NoSQLの活用・構築

• レコメンド、ターゲティング広告、検索改善、ログ解析での活用 • OSSの活用、貢献、開発が進む

Page 48: ビジネスリテラシーとしての統計 ビッグデータと統計の活用

48

サーチエンジン 購買履歴

価格

レビュー

検索ワード 売上高

売上率

売上件数

楽天プロダクトランキング

製品マスタDB

商品件数

製品コード

スペック

製品名

発売日 購買時間帯

■処理内容 ・ランキングデータ集計 ・製品ページ用データ生成

■データ量

・1日/1億レコード

・1日/300GB

■M/R 処理時間

・1時間半

■ノード数

・70台

RAN DB

Calculate

Rakuten Product

Page 49: ビジネスリテラシーとしての統計 ビッグデータと統計の活用

49

検索での関連語提示や辞書構築での活用

Batch

Batch

NGS Hive Shared Hadoop

Cluster dictionary batch Server

Batch

NGS common platform for hive

suggest batch server

Dictionary Index

Suggest Index

update search index

update search index

sync analyzed data

検索エンジン

クラスターから検索解析用のHiveに 関連語の提示や辞書構築等での活用

日次 300GBの データを解析

Page 50: ビジネスリテラシーとしての統計 ビッグデータと統計の活用

50

ビッグデータの時代へ

•統計の知識は、企業におけるデータ活用において重要な位置を占める。

•今後は、データが大規模化。 •「統計」の知識に加え、大量データ処理の技術、プログラミングの技術もあわせて必要。 •そのため、今後はそのような他のスキルや知識を踏まえた人材が要求される。

•しかし、大事なことは「統計」の知識の活用機会というのは、ますます広がりこそすれ、その意義は失われることはないだろうということ。

Page 51: ビジネスリテラシーとしての統計 ビッグデータと統計の活用

51

For closing データ活用 SuperDB

BigDataの時代へ

統計の活用

Introduction

情報爆発

Page 52: ビジネスリテラシーとしての統計 ビッグデータと統計の活用

Rakuten Inc. RIT. Masaya Mori July. 11th, 2012

ビジネスリテラシーとしての統計 ビッグデータと統計の活用