トレジャーデータ 導入体験記 リブセンス編

Post on 24-Jan-2017

3.025 views 2 download

Transcript of トレジャーデータ 導入体験記 リブセンス編

page

1. 自己紹介 2. 事業紹介 3. 導入当時 4. 活用方法 5. 導入前後 6. 安定運用化 7. 今後の期待 8. まとめ

本日の流れ

2

page

1. 自己紹介

3

page

Fluentd歴 < TreasureData歴

5

page

執筆書籍

6

サーバ/インフラエンジニア養成読本ログ収集~可視化編 [現場主導のデータ分析環境を構築!] (Software Design plus) 出版社/メーカー: 技術評論社 定価: 本体1,980円+税

page 7

page

拙作の公開中Fluentdプラグイン

8

rewrite-tag-filter geoip mysql-replicator munin twitter anonymizer mysql-query

gamobile watch-process twilio sentry feedly

page

2. 事業紹介

9

あたりまえを、発明しよう。

可視化された未来型 不動産プラットフォームサービス

page

3. 導入当時

18

page

導入当時

19

MySQL5.0系を利用。その構成にムリが生じ始めていた

トランザクションテーブルとログテーブルの混在

分析クエリによるスロークエリの温床

本番のスキーマ変更のレビュー工数の手間

データのサイジング計画を建てる手間

page

導入当時

20

MySQLへの高コストなINSERTクエリによるページ表示遅延

INSERTコストを下げる為に、可能な限りログを定期的に消し込む必要がある。消し込みバッチが増殖。

消し込める範囲も限られるため、INSERTクエリと消し込みクエリにより、レプリケーション遅延は常態化する

例え非同期化してもレプリケーション遅延は直らない

page

これじゃダメだ!

21

page

事業加速のスピードをさらに上げたい

22

page

Hadoop基盤が必要であることは明白 しかし少ない人員で誰が運用するのか

23

page

かの有名な太田さんや古橋さんがBigdata as a Serviceを

“TreasureData”として サービスインする噂を耳にする

24

page

当時のトレジャーデータのメンバー

25

引用元 http://itpro.nikkeibp.co.jp/article/NEWS/20120928/426103/

page

2012年5月 太田さんにメール 数営業日後、全サーバへの導入完了

26

page

1つの社内スタートアップメディアを先行事例として試験導入

27

page

4. 活用方法

28

page

活用方法

29

ユーザの行動ログの収集と分析

集計結果のGoogleSpreadSheet書き出しが圧倒的に多い

さまざまな履歴データの保管と集計

A/Bテスト

不達メールアドレスのクリーニング

名寄せ処理、クロールデータ etc…

機械学習 (Hivemall)

page

活用方法

30

行動ログの分析(A/Bテストや不正ユーザ検出)

KPIダッシュボードへの書き出し(GoogleSpreadSheetベース)

レガシーブラウザのコンバージョン数のモニタリング

デグレが発生し取りこぼしが発生しても早期に検出可能

ロボットのクロール状況の追跡

ロボットからのクロールが意図通りかモニタリング

レスポンスタイムや500エラーの発生率の追跡

JavaScript SDKを用いたWebビーコン型アクセス解析

page

A/Bテストなどの裏側ではTreasureDataが大活躍31

活用方法

page

単にABテストをすると必要な 計測回数を満たしていないこともある

32

page

あるメディアでのA/Bテスト事例

33

引用元:【テストツール不要】明日から試せる転職会議式ABテストのはじめ方http://qiita.com/kekekenta/items/8b1f9d2a17c4c6a6b638

page

途中でクリック率が反転する例

34

引用元:【テストツール不要】明日から試せる転職会議式ABテストのはじめ方http://qiita.com/kekekenta/items/8b1f9d2a17c4c6a6b638

page

A/Bテストの計測量が足りているかは信頼区間を計算するべきである

35

page

信頼区間の計算手法など、詳しくは 「転職会議 2倍」で検索!

36

page

参考になる弊社公開記事

37

【テストツール不要】明日から試せる転職会議式ABテストのはじめ方http://qiita.com/kekekenta/items/8b1f9d2a17c4c6a6b638

page

参考になる弊社公開スライド

38

登録数2倍にしてと言われた時の正しい対処法http://www.slideshare.net/KurosawaChihiro/2-42758053

page 39

「コンバージョン数を2倍にしてくれ」と言われた時の対処法http://www.slideshare.net/tsuyoshika/2-52482724

参考になる弊社公開スライド

page

5. 導入前後

40

page

導入前後

41

スキーマやデータサイズの呪縛から解放された

クエリの結果をURLとして参照できる

GoogleSpreadSheet書き出しでリアルタイム更新されるダッシュボードが手軽に作れることに感激する

Hadoopの運用が任せられるため事業に集中出来る

サポートチャットの対応が素晴らしいため心強い

新規事業立ち上げに伴う導入支援にも応えていただけた

page

サポートチャット利用状況

42

page

いつもありがとうございます!

43

page

6. 安定運用化

44

page

安定運用化

45

td-agentの監視はもちろん必要(Mackerl + PagerDutyなど)

td-agentのバッファサイズなどのチューニングも必要

社内向けにクエリのクックブックを提供

社内向けにWebコンソールの運用ガイドラインを定める

Teamユーザの発行方針

Saved Queiesの命名ルール

一部のノウハウはQiitaなどで公開中

page

7. 今後の期待

48

page

今後の期待

49

Pythonを用いた独自UDF対応

ストリーミングデータ処理の対応

環境変数への対応(Hivemallの乱数seedを固定したい)

Hivemallを用いた予測結果をDynamoDBへ書き出したい

億単位の全組み合わせ予測結果を事前に計算しておきたい

コンソールのスピードや使い勝手の改善

2016 Q1のNew Web Consoleが楽しみです

page

8. まとめ

50

page

まとめ

51

TreasureDataを契約して良かった

導入によるメリットは計り知れない

今ではHiveよりもPrestoをメインに利用している

共に成長すること3年、今後の動向が楽しみです

page

Thanks!

52

ご清聴ありがとうございました。