OSS (オープンソース・ソフトウェア)が
アナリティクスの未来を切り開く
オープンソースデータ分析ソフト3製品
株式会社 KSK アナリティクス 北島 聡
2014 年度 統計関連学会連合大会 @ 東京大学( 2014 年 9 月 14 日〜16 日)
(データマイニング・機械学習)
統計関連学会連合大会 オープンソース 検索
本日の資料は にアップしております。
よろしければ検索サイトで以下のキーワードなどを入力してご覧ください。
http://www.kdnuggets.com/2014/06/kdnuggets-annual-software-poll-rapidminer-continues-lead.html
© KSK Analytics Inc., RapidMiner Japan Partner
2014 年 6 月、世界で最も有名なデータマイニング系情報サイト
「 kdnuggets.com 」が調査
http://www.kdnuggets.com/2014/06/kdnuggets-annual-software-poll-rapidminer-continues-lead.html
© KSK Analytics Inc., RapidMiner Japan Partner
過去1年、実際の分析プロジェクトで
活用した分析ソフトはなんですか?
http://www.kdnuggets.com/2014/06/kdnuggets-annual-software-poll-rapidminer-continues-lead.html
© KSK Analytics Inc., RapidMiner Japan Partner
http://www.kdnuggets.com/2014/06/kdnuggets-annual-software-poll-rapidminer-continues-lead.html
© KSK Analytics Inc., RapidMiner Japan Partner
http://www.kdnuggets.com/2014/06/kdnuggets-annual-software-poll-rapidminer-continues-lead.html
© KSK Analytics Inc., RapidMiner Japan Partner
世界で最も使われているRapidMiner をご紹介
http://www.kdnuggets.com/2014/06/kdnuggets-annual-software-poll-rapidminer-continues-lead.html
© KSK Analytics Inc., RapidMiner Japan Partner
無料で利用することが出来るため、ビジネス・アカデミックを問わず強力に支援
© KSK Analytics Inc., RapidMiner Japan Partner
© KSK Analytics Inc., RapidMiner Japan Partner
豊富な分析アルゴリズムに加え、モデル評価やデータ加工( ETL )など幅広い機能を保有
他のオープンソースも活用できるため、さらに幅広いアルゴリズムで分析可能
パッケージ数 5,800 以上最先端アルゴリズムも多い
追加モデル数、約 100 個
これらは RapidMiner でエクステンション(無料)をインストールして頂くことでご利用できます
© KSK Analytics Inc., RapidMiner Japan Partner
RapidMiner の画面
© KSK Analytics Inc., RapidMiner Japan Partner
エクステンション(無料)は、リコメンデーションや、時系列分析、Web マイニングなどにも対応
分かりやすい操作画面( GUI )データ分析が初めての方・学生の方にも分析の楽しさを伝えることができます© KSK Analytics Inc., RapidMiner Japan Partner
強力なビジュアライゼーションデータから視覚的に関連性や仮説を発見できます
© KSK Analytics Inc., RapidMiner Japan Partner
高度な分析もノンプログラミングで簡単操作プログラムと向き合う時間
Data と向き合う時間<
© KSK Analytics Inc., RapidMiner Japan Partner
• 分かりやすい操作画面( GUI )でデータ分析が初めての学生にも簡単にデータ分析の楽しさを伝えることができます
• 強力なビジュアライゼーションで、データから早期に関連性や仮説などを発見することが出来ます実際にその操作画面とビジュアライゼーション、
ノンプログラミングでできる分析をご覧ください
<デモ>
RapidMiner Studio 6 のご利用は、以下の Web ページから、必要箇所に入力してください。ダウンロード URL とログイン用のユーザー名とパスワードがメールで届きます。無料でご利用頂けます(期間の制限はありません)
RapidMiner Studio 6 のご利用は、以下の Web ページから、必要箇所に入力してください。ダウンロード URL とログイン用のユーザー名とパスワードがメールで届きます。無料でご利用頂けます(期間の制限はありません)
http://www.rapidminer.jp/download/software/
商品名 RapidMiner によるデータマイニング トレーニング(ベーシック & アドバンスド)
対象者 ビジネスユーザー、データサイエンスチーム
形式 お客さま指定日(2日間、あるいは4日間) ※オンサイト(講師派遣)コース
こんな方にオススメ
RapidMiner の使い方・機能について素早く理解したいRapidMiner を使用した予測モデルの作成や評価を行いたいRapidMiner を使用した高度な予測分析手法を学びたいRapidMiner で相関ルール作成やマーケットバスケット分析を行いたいRapidMiner で顧客のセグメンテーション、クラスター分析を行いたい
価格 基本料金 15万円 + 受講者数 × 5万円 (ベーシックコース)基本料金 15万円 + 受講者数 × 5万円 (アドバンスドコース)
定員 1名〜5名まで
RapidMiner のトレーニング
※RapidMiner の無料版のご利用を検討されている方にもオススメのトレーニングです
詳細はこちらまで: http://www.rapidminer.jp/service/training/
© KSK Analytics Inc.
※ オープンコース2014 年 11 月 12 日(水)ー 13 日(木) 、 12 月 17 日(水)ー 18 日(木)料金はオンサイトコースに比べお得です!(ベーシックコース: 14万円 /1 名)
R は素晴らしい!
しかし、 R ユーザーが口をそろえて言うのが・・・
© KSK Analytics Inc., Revolution Analytics Japan Partner
重い© KSK Analytics Inc., Revolution Analytics Japan Partner
重いかなり必死
© KSK Analytics Inc., Revolution Analytics Japan Partner
実行速度が重い大規模データが重い
© KSK Analytics Inc., Revolution Analytics Japan Partner
・・・というか扱えない
R ユーザーの多くはドクターストップ(限界)もよく知っている
© KSK Analytics Inc., Revolution Analytics Japan Partner
© KSK Analytics Inc., Revolution Analytics Japan Partner
一方、世の中のデータ量は・・・
© KSK Analytics Inc., Revolution Analytics Japan Partner
http://www.datacenterjournal.com/it/birth-death-big-data/
© KSK Analytics Inc., Revolution Analytics Japan Partner
http://www.datacenterjournal.com/it/birth-death-big-data/
ひたすら増えていく・・・
© KSK Analytics Inc., Revolution Analytics Japan Partner
ひたすら増えていく・・・
© KSK Analytics Inc., Revolution Analytics Japan Partner
2010 年の体重が 123kg だとすれば、2020 年には 4000kg(4 トン ) になる
© KSK Analytics Inc., Revolution Analytics Japan Partner
分析者や分析業務も増えてきたのに・・・
分析に革命が起こる
<- + 革命
大規模データを高速に実行できるレボリューション R をご紹介
※GLM:一般化線形モデル
データ件数
時間(秒)
© KSK Analytics Inc., Revolution Analytics Japan Partner
R vs レボリューション R ( ScaleR )のパフォーマンス比較
※GLM:一般化線形モデル
データ件数
時間(秒)
© KSK Analytics Inc., Revolution Analytics Japan Partner
R vs レボリューション R ( ScaleR )のパフォーマンス比較
※GLM:一般化線形モデル
データ件数
時間(秒)
© KSK Analytics Inc., Revolution Analytics Japan Partner
オープンソース R はデータ件数が 25万件で約 80秒
R vs レボリューション R ( ScaleR )のパフォーマンス比較
※GLM:一般化線形モデル
データ件数
時間(秒)
© KSK Analytics Inc., Revolution Analytics Japan Partner
R vs レボリューション R ( ScaleR )のパフォーマンス比較
※GLM:一般化線形モデル
データ件数
時間(秒)
© KSK Analytics Inc., Revolution Analytics Japan Partner
レボリューション R はデータ件数が 500万件で 10秒以下
R vs レボリューション R ( ScaleR )のパフォーマンス比較
※GLM:一般化線形モデル
データ件数
時間(秒)
© KSK Analytics Inc., Revolution Analytics Japan Partner
レボリューション R はデータ件数が 500万件で 10秒以下
R vs レボリューション R ( ScaleR )のパフォーマンス比較
※GLM:一般化線形モデル
データ件数
時間(秒)
© KSK Analytics Inc., Revolution Analytics Japan Partner
レボリューション R はデータ件数が 500万件で 10秒以下
しかも、メモリ 8GB の普通のノート PC で
R vs レボリューション R ( ScaleR )のパフォーマンス比較
R ユーザーであれば移行はスムーズ
オープンソース R の記載例
レボリューション R の記載例
© KSK Analytics Inc., Revolution Analytics Japan Partner
分析したいデータ量が 100GB だとすると・・・
サーバー 1台( 8 コア)Hadoop クラスタ 8台
Hadoop vs サーバー 1台
© KSK Analytics Inc., Revolution Analytics Japan Partner
分析したいデータ量が 100GB だとすると・・・
<概ね、サーバー 1台の方が 8倍〜 10倍の速度で早いです。 (※データ量が 1TB 以上だと Hadoop をオススメします)
サーバー 1台( 8 コア)Hadoop クラスタ 8台
Hadoop vs サーバー 1台
http://www.kdnuggets.com/2014/06/kdnuggets-annual-software-poll-rapidminer-continues-lead.html
© KSK Analytics Inc., RapidMiner Japan Partner
http://www.kdnuggets.com/2014/06/kdnuggets-annual-software-poll-rapidminer-continues-lead.html
© KSK Analytics Inc., RapidMiner Japan Partner
商用ソフト(緑色)としても人気が高い
特に R ユーザーからの移行が多く、
利用者は急速に拡大中
http://www.kdnuggets.com/2014/06/kdnuggets-annual-software-poll-rapidminer-continues-lead.html
© KSK Analytics Inc., RapidMiner Japan Partner
http://www.kdnuggets.com/2014/06/kdnuggets-annual-software-poll-rapidminer-continues-lead.html
© KSK Analytics Inc., RapidMiner Japan Partner
http://www.kdnuggets.com/2014/06/kdnuggets-annual-software-poll-rapidminer-continues-lead.html
© KSK Analytics Inc., RapidMiner Japan Partner
しかも、ソフト単体の利用者は、 RapidMiner(35.1%) に次いで
2番目に高い (13.3%)
でも、お高いんでしょう?
© KSK Analytics Inc., Revolution Analytics Japan Partner
でも、お高いんでしょう?
いえ、アカデミックは・・・
© KSK Analytics Inc., Revolution Analytics Japan Partner
© KSK Analytics Inc., Revolution Analytics Japan Partner
© KSK Analytics Inc., Revolution Analytics Japan Partner
無料です!
© KSK Analytics Inc., Revolution Analytics Japan Partner
無料です!
http://info.revolutionanalytics.com/free-academic.html
無料です!
http://info.revolutionanalytics.com/free-academic.html
株式会社 KSK アナリティクスはビジネスにおけるサポートを事業にしており、アカデミックにおけるサポートは取り扱っておりません。アカデミック利用に関してご不明な点があれば、恐れ入りますが上記サイトより Revolution Analytics 社へ直接問い合わせ下さい。
データ分析のプロセス実は 8割以上は前処理(データ加工)
社外データ
業務システム
EXCEL
様々なデータ形式膨大なデータ量複雑なデータ構造 分析用
データ
クラス分類
回帰分析
パターン解析
クラスタリン
グ
繰り返しのデータ加工
CSV
© KSK Analytics Inc., NYSOL Partner
データ分析のプロセス実は 8割以上は前処理(データ加工)
社外データ
業務システム
EXCEL
様々なデータ形式膨大なデータ量複雑なデータ構造 分析用
データ
クラス分類
回帰分析
パターン解析
クラスタリン
グ
繰り返しのデータ加工
CSV
© KSK Analytics Inc., NYSOL Partner
前処理
http://www.slideshare.net/SatoshiKitajima2/m1-38513054 © KSK Analytics Inc., NYSOL Partner
デーサイエンティスト必見
M-1 グランプリ漫才 前処理の頂点は誰だ!?
Maeshori
より詳細はこちらをご覧ください
M-1 グランプリ 出場者のご紹介
1.
2.
3.
4.
パッケージを使わずに勝負します!
最強と名高い” dplyr” と” data.table”パッケージを使います!
データベースを代表して出場します!
「にそる」と読みます。日本で誕生したオープンソースで、無料で使えます!
(R_base と表記 )
(R_pkg と表記 )
© KSK Analytics Inc., NYSOL Partner
列選択 行選択 列計算 並び替え 複合
は 5 つ前処理
データは 6 つ1 2 3 4 5 6
データ件数 千件 一万件 十万件 百万件 一千万件 一億件データ量 約 100KB 約 1MB 約 10MB 約 100MB 約 1GB 約 10GB
© KSK Analytics Inc., NYSOL Partner
0.5秒
R_base R_pkg PostgreSQL NYSOL
1 2 3 4 5 6
データ件数 千件 一万件 十万件 百万件 一千万件 一億件データ量 約 100KB 約 1MB 約 10MB 約 100MB 約 1GB 約 10GB
1秒
R_base R_pkg PostgreSQL NYSOL
1 2 3 4 5 6
データ件数 千件 一万件 十万件 百万件 一千万件 一億件データ量 約 100KB 約 1MB 約 10MB 約 100MB 約 1GB 約 10GB
5秒
1秒
R_base R_pkg PostgreSQL NYSOL
1 2 3 4 5 6
データ件数 千件 一万件 十万件 百万件 一千万件 一億件データ量 約 100KB 約 1MB 約 10MB 約 100MB 約 1GB 約 10GB
5秒
45秒
R_base R_pkg PostgreSQL NYSOL
1 2 3 4 5 6
データ件数 千件 一万件 十万件 百万件 一千万件 一億件データ量 約 100KB 約 1MB 約 10MB 約 100MB 約 1GB 約 10GB
1 分
5 分
R_base R_pkg PostgreSQL NYSOL
1 2 3 4 5 6
データ件数 千件 一万件 十万件 百万件 一千万件 一億件データ量 約 100KB 約 1MB 約 10MB 約 100MB 約 1GB 約 10GB
R_base R_pkg PostgreSQL NYSOL
10 分
1 時間
30 分
R は一部の前処理がメモリエラーで計測不可
1 2 3 4 5 6
データ件数 千件 一万件 十万件 百万件 一千万件 一億件データ量 約 100KB 約 1MB 約 10MB 約 100MB 約 1GB 約 10GB
1
23
( R_pkg)
結果発表!
データ分析のプロセス実は 8割以上は前処理(データ加工)
社外データ
業務システム
EXCEL
様々なデータ形式膨大なデータ量複雑なデータ構造 分析用
データ
クラス分類
回帰分析
パターン解析
クラスタリン
グ
繰り返しのデータ加工
CSV
© KSK Analytics Inc., NYSOL Partner
前処理
データ分析のプロセス実は 8割以上は前処理(データ加工)
社外データ
業務システム
EXCEL
様々なデータ形式膨大なデータ量複雑なデータ構造 分析用
データ
クラス分類
回帰分析
パターン解析
クラスタリン
グ
繰り返しのデータ加工
CSV
© KSK Analytics Inc., NYSOL Partner
前処理の「 M コマンド」
M コマンド・ UNIX コマンド・約 70種類・ CSV データ
組み合わせは無限大・各コマンドを 「パイプ」で接続
仕組みはシンプル
© KSK Analytics Inc., NYSOL Partner
© KSK Analytics Inc., NYSOL Partner
© KSK Analytics Inc., NYSOL Partner
約 70種類
M コマンドの他にも「頻出パターンマイニング」や「データマイニング・機械学習」「テキストマイニング」「可視化」などさまざま
データ分析のプロセス実は 8割以上は前処理(データ加工)
社外データ
業務システム
EXCEL
様々なデータ形式膨大なデータ量複雑なデータ構造 分析用
データ
クラス分類
回帰分析
パターン解析
クラスタリン
グ
繰り返しのデータ加工
CSV
© KSK Analytics Inc., NYSOL Partner
前処理の「 M コマンド」
データ分析のプロセス実は 8割以上は前処理(データ加工)
社外データ
業務システム
EXCEL
様々なデータ形式膨大なデータ量複雑なデータ構造 分析用
データ
クラス分類
回帰分析
パターン解析
クラスタリン
グ
繰り返しのデータ加工
CSV
© KSK Analytics Inc., NYSOL Partner
前処理の「 M コマンド」
パズルに似た新しい知的感覚NYSOL はコマンドが主役。一つのコマンドの役割は、入力した CSV データに対して、一つの処理をし、 CSV データを出力するだけ。このシンプルなコマンドをパズルのように組み合わせるだけで広い分野でのデータ活用を可能にします。
移植性の高い CSV データNYSOL は CSV データの扱いに特化しています。 Excel や DB から CSV データを出力すれば、簡単に NYSOL で扱うことができます。さらに NYSOL から出力される CSV データは、 R や RapidMiner 、 DB など外部ソフトとの連携も移植性が高く柔軟に機能します。
© KSK Analytics Inc., NYSOL Partner
一台でも大規模データNYSOL で扱えるデータはメモリ量ではなくHDD に依存します。一般的に Hadoop などで分散処理が必要とされる数百 GB 〜数TB (数千万件〜数億件程度)の大規模なデータでも一台のサーバーで処理することも可能です。
驚きの高速処理これまで商用版のデータベースで 20 時間以上かかっていた 7億件のデータ処理が、ノート PC で 1 時間以内に終了したケースもあります。 NYSOL は主に C++言語で開発され、各コマンドは一つの機能を高速に処理するよう設計されています。
© KSK Analytics Inc., NYSOL Partner
最先端アルゴリズムNYSOL は大学や研究機関などの学術界で生み出された 最新・最高峰のデータ解析/データマイニングのコマンドおよびアルゴリズムを採用しています。洗練されたアルゴリズムはビジネス現場でも広く活躍しています。
フリーソフトウェアNYSOL は大学などの研究成果を広く産業界に還元する目的で設立されました。そのため、NYSOL が提供するソフトウェアは無料でご利用頂くことができます。また、ご希望の企業様には、 NYSOL のビジネスサポートも提供しています。
© KSK Analytics Inc., NYSOL Partner
安心のビジネスサポートビジネスとしてデータを活用するには、ソフトウェアのサポートや分析支援などが必要になる場合があります。また社内に分析人材を育成したいニーズも高まってきました。詳しくは KSK アナリティクスまで問い合わせ下さい。
© KSK Analytics Inc., NYSOL Partner
© KSK Analytics Inc., NYSOL Partner
© KSK Analytics Inc., NYSOL Partner
商品名 NYSOL によるデータマイニング トレーニング(データ加工編: 1 日コース)
対象者 ビジネスユーザー、データサイエンスチーム
形式 お客さま指定日( 1 日間)こんな方にオススメ
データ加工が必要なデータがたくさんあるさまざまなデータ加工が必要SQL スクリプトを得意としている人材が少ないデータベースでは速度のパフォーマンスが出ないデータベースでは大規模データを扱えない
価格 基本料金 15万円 + 受講者数 × 5万円
定員 1名〜5名程度
NYSOL のトレーニング
※ オンサイト(講師派遣)コース
※NYSOL ソフトウェアの商用サポートもご提供しております。
※Windows ユーザーにもオススメです
© KSK Analytics Inc., NYSOL Partner
20XX 年1 月 2 月 3 月 4 月 5 月 6 月 7 月以降
データ加工、データ分析トレーニング
データ分析スタートダッシュサービス
お客さま内データ分析
データ分析サポートサービス
お客様弊 社
使用ソフトウェアは主にオープンソース初期トレーニング & スキルトランスファーで早期成果必要であればビジネスサポート
KSK アナリティクスのデータ分析サービス
© KSK Analytics Inc.
東京大学経済学研究棟 1F受付右側でブース出展しています。
ご不明な点がございましたらお気軽にお越しください。
出展期間: 2014 年 9 月 14 日〜 16 日 9:00 〜18:00 (最終日は 15:00まで) このポスターが目印で
す
3 製品を使った無料ハンズオンセミナーも開催中
http://www.rapidminer.jp/service/seminar/#sei2
株式会社 KSK アナリティクス セールス & マーケティング本部www.ksk-anl.com sales@ksk-
anl.comお気軽に問い合わせ下さい