ビッグデータ時代のテキストマイニング ~マーケティング活用事...
Transcript of ビッグデータ時代のテキストマイニング ~マーケティング活用事...
1
All rights reserved, Copyright © Hiroshi Sasaki, Rikkyo Univ., 2012
ビッグデータ時代のテキストマイニング ~マーケティング活用事例~
立教大学 経営学部 教授 佐々木宏
2012/11/22 数理システムユーザーコンファレンス2012
資料のなかの会社名、システム名、製品名は一般に各社の登録商標または商標です。 ただし、資料中には「TM」「©」「 ® 」は明記しておりません。
2
All rights reserved, Copyright © Hiroshi Sasaki, Rikkyo Univ., 2012
本日の内容
Ⅰ トレンド:ビッグデータ Ⅱ ビッグデータをキーワードにしたテキストマイニング の事例 Ⅲ テキストマイニングの効率化
3
All rights reserved, Copyright © Hiroshi Sasaki, Rikkyo Univ., 2012
本日のView Point • デジタル・アカシックレコードの探索*
– ライフログ:個人が単位 – デジタル・アカシックレコード:社会が単位(人類の歴史がWeb上に
瞬々刻々と刻み込まれている) • Follows仮説
– 投げ縄型曲線** • ある事象が普及するとき、別な普及曲線から前兆を知ることができる
– スパイラル曲線 • 2つの異なる位相をもつ波動がスパイラル型進化を起こす
– 組織波動進化仮説:ゆらぎと組織パフォーマンスの関係***
• 異なるビッグデータを同期化させる *拙稿(2009)「ブログリサーチ」(同文舘) **拙稿(2009)「ブログリサーチ」(同文舘),p.139 ***拙稿(1993)「情報戦略と戦略策定組織のスパイラル進化-ゆらぎと波動変換の場の創造-」,情報システムフォーラム,No.376,pp.58-63,日本情報システム・ユーザ協会」)
4
All rights reserved, Copyright © Hiroshi Sasaki, Rikkyo Univ., 2012
Ⅰ トレンド:ビッグデータ
データマイニングはどう変わったか。 1. データソース 2. データマイニングの着眼点 3. ツールやサービス 4. 学術的厳密性と実務的整合性 5. ビッグデータ・ニーズ
5
All rights reserved, Copyright © Hiroshi Sasaki, Rikkyo Univ., 2012
データマイニングはどう変わったか。 1.データソース
• データソース – 3V: ソースの量、多様性、速度 – 4つ目のV:Veracity(正確さ)
• データのタイプ – トランザクション・データ、顧客データベース、テキスト・データ
(VOC、ソーシャル・メディア)、Webログデータ、静止画、動画、音声、GPSデータ(位置・時刻・利用者情報)、スマートメーター(次世代電力計)からの収集データ、RFID、センサー etc.
• データの所在 – 個人:ライフログ – 業務:トランザクション・データ、Webログデータ、センサーデータ*
など – 社会:デジタル・アカシックレコード(メール、SNS、ブログなど)
*移動車両や家電機器などに組み込まれたセンサーからの情報
6
All rights reserved, Copyright © Hiroshi Sasaki, Rikkyo Univ., 2012
データマイニングはどう変わったか。 2.データマイニングの着眼点
• 空間軸 – 関係性の構築: 点=>線=>面
• 時間軸 – 離散=>連続 – リアルタイム(分散処理) – 前兆と未来予測
• 多様なソースから関連性のあるデータの抽出 – 同種ビッグ・データ内 – 異種ビッグ・データ間の同期化
• 関係性(ネットワーク)の構築と分析
7
All rights reserved, Copyright © Hiroshi Sasaki, Rikkyo Univ., 2012
データマイニングはどう変わったか。 2.データマイニングの着眼点
市場・社会 統計的手法による母集団の推定 (基準:全体の傾向、期待値、有意確率・・・)
シグナルの発見 (基準:驚き、外れ値)
平均値 vs 外れ値
8
All rights reserved, Copyright © Hiroshi Sasaki, Rikkyo Univ., 2012
データマイニングはどう変わったか。 3.ツールやサービス
1.新しいデータ処理プロセス 2.データの構造化 3.既存手法とのリンケージ 4.ツールやソフトウェア 5. ITベンダー/インテグレータ
9
All rights reserved, Copyright © Hiroshi Sasaki, Rikkyo Univ., 2012
データマイニングはどう変わったか。 4.学術的厳密性と実務的整合性
• リガー (学術的厳密性) vs. レリバンス(実務的整合性)*
マーケティング リサーチ
アカデミック リサーチ
Rigor Relevance
*佐々木宏(2011),「リガー vs レリバンス -そのはざまで揺れ動く情報経営研究-」,日本情報経営学会第62回全国大会統一論題セッション(神戸大学),ニューセオリーホライゾン(予稿集),pp.1-8. H.Sasaki(2012),”IS research and its standpoint -Revisiting the "reference discipline" problem from Japan-”, Tokyo Keizai University Information Systems Symposium 2012.
社会科学
実務
10
All rights reserved, Copyright © Hiroshi Sasaki, Rikkyo Univ., 2012
データマイニングはどう変わったか。 4.学術的厳密性と実務的整合性
• (影響のない範囲で)厳密性を犠牲にして鮮度を優先 – 不完全データの許容 ex)Web上のゴミ – 厳密な統計的有意性の検定はあまり意味をなさない
• 品質と鮮度のトレードオフ – 今何が起きているか、将来どうなるかについてヒントや確信を与える
品 質
鮮度
厳密な調査 (ex 学術調査)
鮮度の高い調査
11
All rights reserved, Copyright © Hiroshi Sasaki, Rikkyo Univ., 2012
データマイニングはどう変わったか。 5.ビッグデータ・ニーズ
製品
市場
既存
新規
既存 新規
市場浸透 製品開発 市場開発 多角化
アンゾフ(1965) 「企業戦略論(Corporate Strategy)」の『成長ベクトル』を活用して作成
ビッグデータをからめた新しいビジネスモデルを開発したい SNSをプラットフォームにした事業者とコラボレートしたい
既存商品の売上向上を図りたい マーケティング(4P)に活用したい 顧客浸透と新規顧客を獲得に役立たせたい 自社、商品の評判の変 化の兆しを即座に知りたい 市場開発のためのマーケティング・リサーチ SNSなどを利用して、新しい市場・販路を拡大したい
新商品のヒントが欲しい 世の中のトレンドを知りたい 競合他社の動向を知りたい
意思決定に役立たせる
ベンダー・サイド:下記を支援するところにビジネスチャンス
顧客・社会とのインタラクション
12
All rights reserved, Copyright © Hiroshi Sasaki, Rikkyo Univ., 2012
Ⅱ ビッグデータをキーワードにした テキストマイニングの事例
1. ビッグデータ(新聞記事) 2. eWOM(学術誌) 3. 普及曲線とスパイラル曲線 4. 過去のIT関連ブーム
Key Question: 新聞記事から、ビッグデータについて何がわかるか?
13
All rights reserved, Copyright © Hiroshi Sasaki, Rikkyo Univ., 2012
「ビッグデータ」関連の新聞記事検索 • 2012/09/15 日経テレコン
– キーワード:ビッグデータ – 全期間、全新聞を対象に抽出: 314件
• 新聞記事の特徴 – 日本語は完璧 – 新聞記事に深いコンテキストは少ない(次ページ参照)
• ビッグデータの多様な表現:「BIGDATA」に統一 – 膨大で雑多なデータの集合体「ビッグデータ」 – 大量(の)データ「ビッグデータ」 – 膨大な(量の)データ「ビッグデータ」 – 爆発的に増大する企業内データ「ビッグデータ」 – 爆発的に増える(コンピュータ)データ「ビッグデータ」 – 爆発的に増え(続け)るデータ「ビッグデータ」 – ビッグデータ(爆発的に増えているデータ) – バイト級の巨大なデータ(ビッグデータ) – コンピューター情報「ビッグデータ」 – 膨大なデジタルデータの塊「ビッグデータ」
14
All rights reserved, Copyright © Hiroshi Sasaki, Rikkyo Univ., 2012
「ビッグデータ」関連の新聞記事検索
• 不要な単語を除外
– (要旨を電子版に) (編集委員 XXXX) (執筆者名)など
• 類似語を統一 – 企業名:日立製作所と日立、日本IBMとIBM など
– 外部記憶装置(ストレージ)とストレージ
– ハードディスク駆動装置(HDD)と HDD
– IT(情報技術)とIT
– データベース(DB)とDB
– 交流サイト(SNS)とSNS
– スマートフォン(高機能携帯電話=スマホ)とスマホ
– 人工知能(AI)とAI
– 基本ソフト(OS)「リナックス(Linux)」とLinax など
• 単語フィルター:一般用語の「データ」を除く
15
All rights reserved, Copyright © Hiroshi Sasaki, Rikkyo Univ., 2012
単語頻度 分析 名詞 トップ30件
単語 品詞 頻度 1 BIGDATA 名詞 247 2 データ 名詞 232 3 企業 名詞 167 4 活用 名詞 152 5 分析 名詞 149 6 膨大 名詞 144 7 開発 名詞 128 8 技術 名詞 114 9 情報 名詞 114
10 サービス 名詞 109 11 システム 名詞 108 12 提供 名詞 107 13 必要 名詞 107 14 今後 名詞 101 15 大量 名詞 95 16 ソフトウェア 名詞 93 17 顧客 名詞 93 18 発表 名詞 92 19 利用 名詞 90 20 従来 名詞 88 21 解析 名詞 87 22 日本 名詞 81 23 東京 名詞 80 24 サーバ 名詞 79 25 ICT 名詞 77 26 クラウドコンピューティング 名詞 74 27 日本IBM 名詞 72 28 富士通 名詞 71 29 同社 名詞 70 30 収集 名詞 69 All rights reserved, Copyright © Hiroshi Sasaki, Rikkyo Univ., 2012
16
All rights reserved, Copyright © Hiroshi Sasaki, Rikkyo Univ., 2012
係り受け頻度分析
• 話題一般 – 頻度10回超
係り元単語 係り元品詞 係り先単語 係り先品詞 頻度
1 BIGDATA 名詞 活用 名詞 52 2 データ 名詞 分析 名詞 48 3 爆発的 名詞 増える 動詞 48 4 BIGDATA 名詞 分析 名詞 28 5 データ 名詞 保存 名詞 25 6 BIGDATA 名詞 呼ぶ 動詞 24 7 サービス 名詞 提供 名詞 24 8 データ 名詞 解析 名詞 24 9 BIGDATA 名詞 解析 名詞 23
10 技術 名詞 開発 名詞 21 11 サービス 名詞 始める 動詞 20 12 データ 名詞 活用 名詞 20 13 注目 名詞 集める 動詞 20 14 システム 名詞 構築 名詞 18 15 動き 名詞 広がる 動詞 17 16 ICT 名詞 活用 名詞 15 17 システム 名詞 開発 名詞 15 18 データ 名詞 集める 動詞 15 19 開発 名詞 発表 名詞 15 20 情報 名詞 分析 名詞 15 21 データ量 名詞 増える 動詞 14 22 日立製作所 名詞 発表 名詞 14 23 分析 名詞 役立てる 動詞 14 24 データ 名詞 処理 名詞 13 25 情報 名詞 収集 名詞 13 26 発売 名詞 発表 名詞 13 27 スマホ 名詞 普及 名詞 12 28 データ 名詞 収集 名詞 12 29 企業 名詞 蓄積 名詞 12 30 分析 名詞 生かす 動詞 12 31 BIGDATA 名詞 処理 名詞 11 32 ICT 名詞 進化 名詞 11 33 クラウドコンピューティング 名詞 使う 動詞 11
17
All rights reserved, Copyright © Hiroshi Sasaki, Rikkyo Univ., 2012
注目語:ビッグデータ・キーワード、主要プレーヤー
単語順位(名詞) 単語 出現頻度
27 日本IBM 72
28 富士通 71
58 日立製作所 46
80 NEC 37
145 オラクル 25
174 EMC 22
200 NTTデータ 20
222 SAP 19
○主要プレーヤー 【共起ルール抽出】 5 回以上 【注目語を含む表現】 5 回以上
単語 頻度
11 システム 108
24 サーバ 79
26 クラウドコンピューティング 74
36 スマホ 57
45 ストレージ 52
52 センサー 49
110 データセンター 30
154 Hadoop 24
189 データベース 21
221 GPS 19
○キーワード 【共起ルール抽出】 10 回以上 【注目語を含む表現】 10 回以上
18 注目語:システム、サーバ、クラウドコンピューティング、スマホ システム サーバ クラウドコンピューティング スマホ
All rights reserved, Copyright © Hiroshi Sasaki, Rikkyo Univ., 2012
19 注目語:ストレージ、センサー、データセンター、Hadoop
ストレージ センサー データセンター Hadoop
All rights reserved, Copyright © Hiroshi Sasaki, Rikkyo Univ., 2012
20 注目語:データベース、GPS
データベース GPS
All rights reserved, Copyright © Hiroshi Sasaki, Rikkyo Univ., 2012
21
All rights reserved, Copyright © Hiroshi Sasaki, Rikkyo Univ., 2012
注目語:主要プレーヤー 日本IBM 富士通 日立製作所 NEC
All rights reserved, Copyright © Hiroshi Sasaki, Rikkyo Univ., 2012
22
All rights reserved, Copyright © Hiroshi Sasaki, Rikkyo Univ., 2012
注目語:主要プレーヤー オラクル EMC NTTデータ SAP
All rights reserved, Copyright © Hiroshi Sasaki, Rikkyo Univ., 2012
23
All rights reserved, Copyright © Hiroshi Sasaki, Rikkyo Univ., 2012
ハード&ソフト 先端技術・ソリューション系 ソリューション系 ストレージ系 データベース系
富士通
IBM 日立
NEC
オラクル
EMC
NTTデータ
SAP システム
サーバ クラウドコン
ピューティング
スマホ
ストレージ
センサー
データセンター
パソコン Hadoop
データベース
GPS
コレスポンデンス分析結果* ビッグデータ・キーワード&主要プレーヤー
カテゴリ(関連技術) ベンダー
*コレスポンデンス分析は、TMSの対応バブル分析機能で出力可能
24
All rights reserved, Copyright © Hiroshi Sasaki, Rikkyo Univ., 2012
Ⅱ ビッグデータをキーワードにした テキストマイニングの事例
1. ビッグデータ(新聞記事) 2. eWOM(学術誌) 3. 普及曲線とスパイラル曲線 4. 過去のIT関連ブームとの比較
Key Question: ビッグデータのコアとなる理論は何か? (eWOM関連リサーチの検証)
25
All rights reserved, Copyright © Hiroshi Sasaki, Rikkyo Univ., 2012
ここでちょっとアカデミック! WOM研究からeWOM研究へ
• 2012/06/09 EBSCOデータベース(世界中の文献データを収集)からWOMとeWOMの文献(査読付き学術誌)をすべて抽出する – WOM:250件 – eWOM:17件
• eWOMで参照の多い著者はだれかを特定する(サイテーション部分のテキストマイニング)
26
All rights reserved, Copyright © Hiroshi Sasaki, Rikkyo Univ., 2012
eWOM文献から 参照の多かったもの(5件超)
著者 Reference文献数 Hennig-thurau 15 Dellarocas 13 Kats Elihu 6 Rogers 6 Senecal 6 Hung 6 Godes 6 Brown 6
1. Hennig-Thurau et al. (2004) : eWOMのことばを定着させた。 ‘any positive or negative statement made by potential, actual, or former customers about a product or company, which is made available to a multitude of people and institutions via the Internet’.
2. Katz &Lazarsfeld (1955):WOMのことばを定着させた。’WOM is defined as the act of exchanging marketing information among consumers, and plays an essential role in changing consumer attitudes and behaviour towards products and services’.
3. Dellarocas(2003):従来のWOMとeWOMの相違点を分析した。 4. Rogers(1983):WOMの普及。普及曲線のS-shapedカーブ。 5. その他:まだ参照は少ないが、Breazeale(2009): eWOM研究の包括的レビューした。
27
All rights reserved, Copyright © Hiroshi Sasaki, Rikkyo Univ., 2012
WOM:250件+eWOM:7件の文献のAbstractを分析 名詞頻度:マーケティング関連の単語がかなり多い
単語 頻度 単語 頻度 consumer 116 source 40 study 95 brand 38 article 91 one 38 product 91 decision 37 communication 82 datum 36 information 82 response 35 mouth 76 two 35 research 74 effect 34 marketing 73 findings 34 advertising 68 strategy 34 result 68 experience 33 model 66 role 33 word 65 sales 33 customer 59 time 33 service 53 company 32 effects 51 firm 32 process 50 present 32 influence 46 relationship 32 implication 44 services 32 behavior 43 diffusion 31 factor 43 impact 31 paper 42 satisfaction 31 market 40 analysis 30 purchase 40
28
All rights reserved, Copyright © Hiroshi Sasaki, Rikkyo Univ., 2012
WOM:250件+eWOM:7件の文献のAbstractを分析 注目語: Diffusion, Innovation • 条件:名詞、共起、3回以上
29
All rights reserved, Copyright © Hiroshi Sasaki, Rikkyo Univ., 2012
WOM:250件+eWOM:7件の文献のAbstractを分析 eWOMの特徴語 • 条件:名詞
30
All rights reserved, Copyright © Hiroshi Sasaki, Rikkyo Univ., 2012
サイテーション分析と実務への応用
• アカデミックな論文のサイテーション分析 – ナレッジチェーンの把握が目的(下図参照*)
– 分析手法
• 有向グラフ(directed graph)
• 社会ネットワーク分析
• 実務への応用例 – 普及(流行)の元を辿る
例)ビッグデータと4V
大量=Volume、多様=Variety、速度=Velocity
正確さ=Veracity だれがほんとの言いだしっぺ?
*拙稿(2007)「入門ビジネスリーダーシップ 第14章グローバル・リーダーシップと研究 ストリーム,日本評論社,pp.267-286
31
All rights reserved, Copyright © Hiroshi Sasaki, Rikkyo Univ., 2012
Ⅱ ビッグデータをキーワードにした テキストマイニングの事例
1. ビッグデータ(新聞記事) 2. eWOM(学術誌) 3. 普及曲線とスパイラル曲線 4. 過去のIT関連ブームとの比較
Key Question: S字カーブとスパイラル曲線はどのように出現するか? Follow仮説の提示と検証例を示します。
32
All rights reserved, Copyright © Hiroshi Sasaki, Rikkyo Univ., 2012
正規分布の場合: σ:標準偏差=0.8, μ:平均値=0
S字型曲線(S-Shaped Curve)
• S字型曲線を作るモデル – 正規分布に基づくS字カーブ、ロジスティック・モデル、Bassモデル、・・・
マーケターが知りたいこと クリティカルマス 変曲点 最終的な到達点
採用分布
Rogers
33
All rights reserved, Copyright © Hiroshi Sasaki, Rikkyo Univ., 2012
S字型曲線とスパイラル曲線 • 流行や普及をどこで感知するか
– Googleなどの検索キー – 新聞記事 – SNSなどのeWOM
• eWOMから連続した曲線を構成 – S字型曲線:時間軸を動かし、eWOMデータから曲線(波動)を構成する*
*検索キーやマーケットバスケット分析(アソシエーション・ルー ルの導出)では時間軸固定で同時出現する単語、商品に注 目している
– スパイラル曲線:2つの位相のずれた波動の重なりで出現 • 事業戦略と組織 • マーケティング活動と成果
– CM、プロモーション、メディア発表 • eWOMと販売
34
All rights reserved, Copyright © Hiroshi Sasaki, Rikkyo Univ., 2012
Follows仮説
• XがYの動きに連動し、位相のずれた普及曲線(S-shaped
curve)を描くことを予想し、検証する • Y: Y1,Y2,・・・Ynに拡張可能 • Z: 時間のずれ(オプション)
• XとY、2つの位相のずれた波動の動きが継続すればスパイラル曲線が出現する
Follows仮説 X follows Y by Z
35
All rights reserved, Copyright © Hiroshi Sasaki, Rikkyo Univ., 2012
波動の位相が同期化している例
0
5,000
10,000
15,000
20,000
0
10,000
20,000
30,000
40,000
50,000
期待
不安
*拙稿「ブログリサーチ」,同文舘,p.27,図2-4
ブログ中に「期待」、「不安」があるものをそれぞれすべて抽出*
36
All rights reserved, Copyright © Hiroshi Sasaki, Rikkyo Univ., 2012
波動の位相が同期化している例
2005/10/16
2005/10/23 2005/10/30 2005/11/06
2005/11/13
2005/11/20 2005/11/27
2005/12/04
2005/12/11 2005/12/18 2005/12/25
2006/01/01
2006/01/08 2006/01/15
2006/01/22 2006/01/29 2006/02/05
2006/02/12 2006/02/19
2006/02/26
2006/03/05
2006/03/12
2006/03/19
2006/03/26
2006/04/02
2006/04/09
2006/04/16
2006/04/23 2006/05/07
2006/05/14
2006/05/21 2006/05/28 2006/06/04
2006/06/11
2006/06/18
2006/06/25
2006/07/02 2006/07/09
2006/07/16
2006/07/23
2006/07/30
2006/08/06
2006/08/13 2006/08/20
2006/08/27 2006/09/03
2006/09/10 2006/09/17
2006/09/24 2006/10/01
2006/10/08 2006/10/15 2006/10/22
2006/10/29
2006/11/05
2006/11/12
2006/11/19 2006/11/26
2006/12/03
2006/12/10
2006/12/17
2006/12/24
2006/12/31
2007/01/07
2007/01/14
2007/01/21 2007/01/28
2007/02/04
2007/02/11
2007/02/18 2007/02/25
2007/03/04
2007/03/11 2007/03/18
2007/03/25
2007/04/01 2007/04/08 2007/04/15 2007/04/22 2007/04/29
2007/05/06
2007/05/13
2007/05/20 2007/05/27
2007/06/03 2007/06/10
2007/06/17
2007/06/24 2007/07/01
2007/07/08 2007/07/15
2007/07/22 2007/07/29
2007/08/05
2007/08/12
2007/08/19
2007/08/26
2007/09/02
2007/09/09
2007/09/16
2007/09/23
2007/09/30
2007/10/07
2007/10/14
2007/10/21
2007/10/28
2007/11/04 2007/11/11
2007/11/18
2007/11/25 2007/12/02
2007/12/09
2007/12/16
2007/12/23 2007/12/30 2008/01/06
2008/01/13 2008/01/20 2008/01/27
2008/02/03
2008/02/10 2008/02/17
2008/02/24
2008/03/02 2008/03/09
2008/03/16 2008/03/23 2008/03/30
2008/04/06 2008/04/13
2008/04/20
2008/04/27
2008/05/04 2008/05/11 2008/05/18 2008/05/25 2008/06/01 2008/06/08
2008/06/15 2008/06/22 2008/06/29 2008/07/06
2008/07/13 2008/07/20 2008/07/27 2008/08/03
2008/08/10
2008/08/17 2008/08/24
2008/08/31 2008/09/07
2008/09/14
2008/09/21 2008/09/28
2008/10/05 2008/10/12 2008/10/19
y = 2.1644x + 4025.3 R² = 0.8938
10000
20000
30000
40000
5000 10000 15000
期待
不安
外れ値の検証:2008年8月10日 北京五輪:9日、柔道の女子48キロ級で谷亮子が銅メダルに終わり、 五輪3連覇を逃したが、最多となる5大会連続のメダル獲得となった。
期待が大きければ不安も大きい
37
All rights reserved, Copyright © Hiroshi Sasaki, Rikkyo Univ., 2012
位相がずれている例:インフルエンザの流行*
1
10
100
1,000
10,000
100,000
1,000,000
2006
/1/1
2006
/1/8
2006
/1/1
5
2006
/1/2
2
2006
/1/2
9
2006
/2/5
2006
/2/1
2
2006
/2/1
9
2006
/2/2
6
2006
/3/5
2006
/3/1
2
2006
/3/1
9
2006
/3/2
6
ブログ件数
インフルエンザ疾病件数
ピーク1月22日の週
ピーク1月29日の週
*拙稿「ブログリサーチ」,同文舘,p.140,図5-17
仮説: ブログ書き込み follows インフルエンザ発症 by 1week
38
All rights reserved, Copyright © Hiroshi Sasaki, Rikkyo Univ., 2012
位相がずれている例:インフルエンザの流行*
0
20,000
40,000
60,000
80,000
100,000
120,000
140,000
160,000
0 1,000 2,000 3,000 4,000 5,000 6,000 7,000 8,000
ブログ件数
インフルエンザ疾病件数
*拙稿「ブログリサーチ」,同文舘,p.141,図5-18
39
All rights reserved, Copyright © Hiroshi Sasaki, Rikkyo Univ., 2012
位相がずれている例: クールビズ とウォームビズ
0
2
4
6
8
10
12
14
16
18
20
0
20
40
60
80
100
120
2005
-01-
0220
05-0
2-27
2005
-04-
2420
05-0
6-19
2005
-08-
1420
05-1
0-09
2005
-12-
0420
06-0
1-29
2006
-03-
2620
06-0
5-21
2006
-07-
1620
06-0
9-10
2006
-11-
0520
06-1
2-31
2007
-02-
2520
07-0
4-22
2007
-06-
1720
07-0
8-12
2007
-10-
0720
07-1
2-02
2008
-01-
2720
08-0
3-23
2008
-05-
1820
08-0
7-13
2008
-09-
0720
08-1
1-02
2008
-12-
2820
09-0
2-22
2009
-04-
1920
09-0
6-14
2009
-08-
0920
09-1
0-04
2009
-11-
2920
10-0
1-24
2010
-03-
2120
10-0
5-16
2010
-07-
1120
10-0
9-05
2010
-10-
3120
10-1
2-26
2011
-02-
2020
11-0
4-17
2011
-06-
1220
11-0
8-07
2011
-10-
0220
11-1
1-27
2012
-01-
2220
12-0
3-18
2012
-05-
1320
12-0
7-08
クールビズ
ウォームビズ
マーケットバスケット分析が時間的に同期化したファクターの共起関係に注目する のに対し、他のファクターからの波及、時間のずれた共起(相関)関係に注目する
仮説: ウォームビズ follows クールビズ
40
All rights reserved, Copyright © Hiroshi Sasaki, Rikkyo Univ., 2012
位相がずれている例: クールビズとウォームビズ
2005_2Q
2005_3Q
2005_4Q
2006_1Q
2006_2Q 2006_3Q
2006_4Q
2007_1Q
2007_2Q
2007_3Q
2007_4Q
2008_1Q
2008_2Q
2008_3Q
2008_4Q
2009_1Q
2009_2Q
2009_3Q
2009_4Q
2010_1Q
2010_2Q
2010_3Q
2010_4Q
2011_1Q 2011_2Q
2011_3Q
2011_4Q
2012_1Q
2012_2Q 0.01
1
100
1 10 100 1000
注)対数軸のため、0の値を0.01に変更している
スパイラル・ダウン
41
All rights reserved, Copyright © Hiroshi Sasaki, Rikkyo Univ., 2012
ビッグデータのトレンド Google Insights と 日経新聞の同期化
0
100
200
300
400ビッグデータ
Bigdata
日経新聞記事
42
All rights reserved, Copyright © Hiroshi Sasaki, Rikkyo Univ., 2012
ビッグデータのトレンド Google Insights と 日経新聞の同期化
0
10
20
30
0 20 40 60 80 100
日経記事件数
Google検索件数
仮説:新聞記事 follows Web検索
43
All rights reserved, Copyright © Hiroshi Sasaki, Rikkyo Univ., 2012
Ⅱ ビッグデータをキーワードにした テキストマイニングの事例
1. ビッグデータ(新聞記事) 2. eWOM(学術誌) 3. 普及曲線とスパイラル曲線 4. 過去のIT関連ブーム 5. POSとeWOM
Key Question: ビッグ・データのトレンドは、どう広がるか? =>過去のIT関連ブームは、どのように普及し収束していったか?
44
All rights reserved, Copyright © Hiroshi Sasaki, Rikkyo Univ., 2012
これまでのIT関連ブーム • BPR
– ハマー&チャンピー:リエンジニアリング • ERP
– 業務統合ソフト • データウェアハウス
– リレーショナルデータベース – コッド博士:OLAP
• SCM – ゴールドラット:ザ・ゴール、制約理論 – I2などのソフトウェア
• ブームの共通点 – IT関連企業が、ソリューションやソフトウェアを準備 – 日本企業は欧米の優れた事例を調査して、自社に適用可能性を判断
45
All rights reserved, Copyright © Hiroshi Sasaki, Rikkyo Univ., 2012
タイムラグ分析*
• 異なるデータソースを用いて同期化 – 新聞記事 – アカデミック文献
• それぞれを包括的にレビューし、データを抽出、テキストマイニングを実施、関連性を分析する
• ITドリブンのイノベーション普及とFollow仮説(H.Sasaki) – Structure follows strategy (Chandler,1962) by 2-4 years. – The diffusion of publication is slower than the diffusion of
innovation.
*以下、次の報告資料を利用:H.Sasaki(2012),”IS research and its standpoint -Revisiting the “reference discipline” problem from Japan-”, Tokyo Keizai University Information Systems Symposium 2012.
46
All rights reserved, Copyright © Hiroshi Sasaki, Rikkyo Univ., 2012
タイムラグ(文献と新聞)*: Outsourcing
B
A
5年
4年
タイムラグ 1年
The
num
ber o
f art
icle
s 日経記事: 2,326件 日経記事中組織変革関連: 632件 論文(全世界:ジャーナル誌):210件
新聞記事 組織変革 ジャーナル掲載
(A)イノベーション普及:新聞記事=>組織変化 (B)文献発刊 :新聞記事=>ジャーナル掲載
47
All rights reserved, Copyright © Hiroshi Sasaki, Rikkyo Univ., 2012
タイムラグ(文献と新聞)*: ERP
B
A
6年
3年
新聞記事 組織変革 ジャーナル掲載
(A)イノベーション普及:新聞記事=>組織変化 (B)文献発刊 :新聞記事=>ジャーナル掲載
日経: 702件 日経記事中組織変革関連: 354件 論文(全世界:ジャーナル誌):109件
タイムラグ:3年
The
num
ber o
f art
icle
s
48
All rights reserved, Copyright © Hiroshi Sasaki, Rikkyo Univ., 2012
タイムラグ(文献と新聞)*: SCM
B
A
6年
2年
新しいサイクルの出現
日経記事: 1,222件 日経記事中組織変革関連: 782件 論文(全世界:ジャーナル誌):162件
タイムラグ:4年
The
num
ber o
f art
icle
s
(A)イノベーション普及:新聞記事=>組織変化 (B)文献発刊 :新聞記事=>ジャーナル掲載
新聞記事 組織変革 ジャーナル掲載
49
All rights reserved, Copyright © Hiroshi Sasaki, Rikkyo Univ., 2012
スパイラル曲線: SCM
SCM(News)
SCM
(Org
aniza
tiona
l cha
nge)
50
All rights reserved, Copyright © Hiroshi Sasaki, Rikkyo Univ., 2012
Ⅲ テキストマイニングの効率化
51
テキストマイニングと仮説検証プロセス
ビッグ・データ (多様なソース)
即時処理
バッチ処理 原データ
アルゴリズム 埋め込み
テキストマイニング・ソフト
統計ソフトウェアなど
データ 収集
仮説・検証
形容詞(ポジ・ネガ) 名詞(共起) 動詞(過去・現在・未来)
即座に情報提供
変化・シグナルをウォッチ
定型化
高速アナリティクス
All rights reserved, Copyright © Hiroshi Sasaki, Rikkyo Univ., 2012
52
All rights reserved, Copyright © Hiroshi Sasaki, Rikkyo Univ., 2012
おわり
ご清聴、ありがとうございました sasaki-h(a)rikkyo.ac.jp