トレジャーデータ 導入体験記 リブセンス編

52

Transcript of トレジャーデータ 導入体験記 リブセンス編

Page 1: トレジャーデータ 導入体験記 リブセンス編
Page 2: トレジャーデータ 導入体験記 リブセンス編

page

1. 自己紹介 2. 事業紹介 3. 導入当時 4. 活用方法 5. 導入前後 6. 安定運用化 7. 今後の期待 8. まとめ

本日の流れ

2

Page 3: トレジャーデータ 導入体験記 リブセンス編

page

1. 自己紹介

3

Page 4: トレジャーデータ 導入体験記 リブセンス編
Page 5: トレジャーデータ 導入体験記 リブセンス編

page

Fluentd歴 < TreasureData歴

5

Page 6: トレジャーデータ 導入体験記 リブセンス編

page

執筆書籍

6

サーバ/インフラエンジニア養成読本ログ収集~可視化編 [現場主導のデータ分析環境を構築!] (Software Design plus) 出版社/メーカー: 技術評論社 定価: 本体1,980円+税

Page 7: トレジャーデータ 導入体験記 リブセンス編

page 7

Page 8: トレジャーデータ 導入体験記 リブセンス編

page

拙作の公開中Fluentdプラグイン

8

rewrite-tag-filter geoip mysql-replicator munin twitter anonymizer mysql-query

gamobile watch-process twilio sentry feedly

Page 9: トレジャーデータ 導入体験記 リブセンス編

page

2. 事業紹介

9

Page 10: トレジャーデータ 導入体験記 リブセンス編

あたりまえを、発明しよう。

Page 11: トレジャーデータ 導入体験記 リブセンス編
Page 12: トレジャーデータ 導入体験記 リブセンス編
Page 13: トレジャーデータ 導入体験記 リブセンス編
Page 14: トレジャーデータ 導入体験記 リブセンス編
Page 15: トレジャーデータ 導入体験記 リブセンス編
Page 16: トレジャーデータ 導入体験記 リブセンス編
Page 17: トレジャーデータ 導入体験記 リブセンス編

可視化された未来型 不動産プラットフォームサービス

Page 18: トレジャーデータ 導入体験記 リブセンス編

page

3. 導入当時

18

Page 19: トレジャーデータ 導入体験記 リブセンス編

page

導入当時

19

MySQL5.0系を利用。その構成にムリが生じ始めていた

トランザクションテーブルとログテーブルの混在

分析クエリによるスロークエリの温床

本番のスキーマ変更のレビュー工数の手間

データのサイジング計画を建てる手間

Page 20: トレジャーデータ 導入体験記 リブセンス編

page

導入当時

20

MySQLへの高コストなINSERTクエリによるページ表示遅延

INSERTコストを下げる為に、可能な限りログを定期的に消し込む必要がある。消し込みバッチが増殖。

消し込める範囲も限られるため、INSERTクエリと消し込みクエリにより、レプリケーション遅延は常態化する

例え非同期化してもレプリケーション遅延は直らない

Page 21: トレジャーデータ 導入体験記 リブセンス編

page

これじゃダメだ!

21

Page 22: トレジャーデータ 導入体験記 リブセンス編

page

事業加速のスピードをさらに上げたい

22

Page 23: トレジャーデータ 導入体験記 リブセンス編

page

Hadoop基盤が必要であることは明白 しかし少ない人員で誰が運用するのか

23

Page 24: トレジャーデータ 導入体験記 リブセンス編

page

かの有名な太田さんや古橋さんがBigdata as a Serviceを

“TreasureData”として サービスインする噂を耳にする

24

Page 25: トレジャーデータ 導入体験記 リブセンス編

page

当時のトレジャーデータのメンバー

25

引用元 http://itpro.nikkeibp.co.jp/article/NEWS/20120928/426103/

Page 26: トレジャーデータ 導入体験記 リブセンス編

page

2012年5月 太田さんにメール 数営業日後、全サーバへの導入完了

26

Page 27: トレジャーデータ 導入体験記 リブセンス編

page

1つの社内スタートアップメディアを先行事例として試験導入

27

Page 28: トレジャーデータ 導入体験記 リブセンス編

page

4. 活用方法

28

Page 29: トレジャーデータ 導入体験記 リブセンス編

page

活用方法

29

ユーザの行動ログの収集と分析

集計結果のGoogleSpreadSheet書き出しが圧倒的に多い

さまざまな履歴データの保管と集計

A/Bテスト

不達メールアドレスのクリーニング

名寄せ処理、クロールデータ etc…

機械学習 (Hivemall)

Page 30: トレジャーデータ 導入体験記 リブセンス編

page

活用方法

30

行動ログの分析(A/Bテストや不正ユーザ検出)

KPIダッシュボードへの書き出し(GoogleSpreadSheetベース)

レガシーブラウザのコンバージョン数のモニタリング

デグレが発生し取りこぼしが発生しても早期に検出可能

ロボットのクロール状況の追跡

ロボットからのクロールが意図通りかモニタリング

レスポンスタイムや500エラーの発生率の追跡

JavaScript SDKを用いたWebビーコン型アクセス解析

Page 31: トレジャーデータ 導入体験記 リブセンス編

page

A/Bテストなどの裏側ではTreasureDataが大活躍31

活用方法

Page 32: トレジャーデータ 導入体験記 リブセンス編

page

単にABテストをすると必要な 計測回数を満たしていないこともある

32

Page 33: トレジャーデータ 導入体験記 リブセンス編

page

あるメディアでのA/Bテスト事例

33

引用元:【テストツール不要】明日から試せる転職会議式ABテストのはじめ方http://qiita.com/kekekenta/items/8b1f9d2a17c4c6a6b638

Page 34: トレジャーデータ 導入体験記 リブセンス編

page

途中でクリック率が反転する例

34

引用元:【テストツール不要】明日から試せる転職会議式ABテストのはじめ方http://qiita.com/kekekenta/items/8b1f9d2a17c4c6a6b638

Page 35: トレジャーデータ 導入体験記 リブセンス編

page

A/Bテストの計測量が足りているかは信頼区間を計算するべきである

35

Page 36: トレジャーデータ 導入体験記 リブセンス編

page

信頼区間の計算手法など、詳しくは 「転職会議 2倍」で検索!

36

Page 37: トレジャーデータ 導入体験記 リブセンス編

page

参考になる弊社公開記事

37

【テストツール不要】明日から試せる転職会議式ABテストのはじめ方http://qiita.com/kekekenta/items/8b1f9d2a17c4c6a6b638

Page 38: トレジャーデータ 導入体験記 リブセンス編

page

参考になる弊社公開スライド

38

登録数2倍にしてと言われた時の正しい対処法http://www.slideshare.net/KurosawaChihiro/2-42758053

Page 39: トレジャーデータ 導入体験記 リブセンス編

page 39

「コンバージョン数を2倍にしてくれ」と言われた時の対処法http://www.slideshare.net/tsuyoshika/2-52482724

参考になる弊社公開スライド

Page 40: トレジャーデータ 導入体験記 リブセンス編

page

5. 導入前後

40

Page 41: トレジャーデータ 導入体験記 リブセンス編

page

導入前後

41

スキーマやデータサイズの呪縛から解放された

クエリの結果をURLとして参照できる

GoogleSpreadSheet書き出しでリアルタイム更新されるダッシュボードが手軽に作れることに感激する

Hadoopの運用が任せられるため事業に集中出来る

サポートチャットの対応が素晴らしいため心強い

新規事業立ち上げに伴う導入支援にも応えていただけた

Page 42: トレジャーデータ 導入体験記 リブセンス編

page

サポートチャット利用状況

42

Page 43: トレジャーデータ 導入体験記 リブセンス編

page

いつもありがとうございます!

43

Page 44: トレジャーデータ 導入体験記 リブセンス編

page

6. 安定運用化

44

Page 45: トレジャーデータ 導入体験記 リブセンス編

page

安定運用化

45

td-agentの監視はもちろん必要(Mackerl + PagerDutyなど)

td-agentのバッファサイズなどのチューニングも必要

社内向けにクエリのクックブックを提供

社内向けにWebコンソールの運用ガイドラインを定める

Teamユーザの発行方針

Saved Queiesの命名ルール

一部のノウハウはQiitaなどで公開中

Page 46: トレジャーデータ 導入体験記 リブセンス編
Page 47: トレジャーデータ 導入体験記 リブセンス編
Page 48: トレジャーデータ 導入体験記 リブセンス編

page

7. 今後の期待

48

Page 49: トレジャーデータ 導入体験記 リブセンス編

page

今後の期待

49

Pythonを用いた独自UDF対応

ストリーミングデータ処理の対応

環境変数への対応(Hivemallの乱数seedを固定したい)

Hivemallを用いた予測結果をDynamoDBへ書き出したい

億単位の全組み合わせ予測結果を事前に計算しておきたい

コンソールのスピードや使い勝手の改善

2016 Q1のNew Web Consoleが楽しみです

Page 50: トレジャーデータ 導入体験記 リブセンス編

page

8. まとめ

50

Page 51: トレジャーデータ 導入体験記 リブセンス編

page

まとめ

51

TreasureDataを契約して良かった

導入によるメリットは計り知れない

今ではHiveよりもPrestoをメインに利用している

共に成長すること3年、今後の動向が楽しみです

Page 52: トレジャーデータ 導入体験記 リブセンス編

page

Thanks!

52

ご清聴ありがとうございました。