トレジャーデータ導入体験記リブセンス編

1. 自己紹介 2. 事業紹介 3. 導入当時 4. 活用方法 5. 導入前後 6. 安定運用化 7. 今後の期待 8. まとめ

本日の流れ

1. 自己紹介

Fluentd歴 < TreasureData歴

執筆書籍

サーバ/インフラエンジニア養成読本ログ収集～可視化編 [現場主導のデータ分析環境を構築!] (Software Design plus) 出版社/メーカー: 技術評論社定価: 本体1,980円＋税

拙作の公開中Fluentdプラグイン

rewrite-tag-filter geoip mysql-replicator munin twitter anonymizer mysql-query

gamobile watch-process twilio sentry feedly

2. 事業紹介

あたりまえを、発明しよう。

可視化された未来型不動産プラットフォームサービス

3. 導入当時

導入当時

MySQL5.0系を利用。その構成にムリが生じ始めていた

トランザクションテーブルとログテーブルの混在

分析クエリによるスロークエリの温床

本番のスキーマ変更のレビュー工数の手間

データのサイジング計画を建てる手間

導入当時

MySQLへの高コストなINSERTクエリによるページ表示遅延

INSERTコストを下げる為に、可能な限りログを定期的に消し込む必要がある。消し込みバッチが増殖。

消し込める範囲も限られるため、INSERTクエリと消し込みクエリにより、レプリケーション遅延は常態化する

例え非同期化してもレプリケーション遅延は直らない

これじゃダメだ！

事業加速のスピードをさらに上げたい

Hadoop基盤が必要であることは明白しかし少ない人員で誰が運用するのか

かの有名な太田さんや古橋さんがBigdata as a Serviceを

“TreasureData”としてサービスインする噂を耳にする

当時のトレジャーデータのメンバー

引用元 http://itpro.nikkeibp.co.jp/article/NEWS/20120928/426103/

2012年5月太田さんにメール数営業日後、全サーバへの導入完了

1つの社内スタートアップメディアを先行事例として試験導入

4. 活用方法

活用方法

ユーザの行動ログの収集と分析

集計結果のGoogleSpreadSheet書き出しが圧倒的に多い

さまざまな履歴データの保管と集計

A/Bテスト

不達メールアドレスのクリーニング

名寄せ処理、クロールデータ etc…

機械学習 (Hivemall)

活用方法

行動ログの分析（A/Bテストや不正ユーザ検出）

KPIダッシュボードへの書き出し(GoogleSpreadSheetベース)

レガシーブラウザのコンバージョン数のモニタリング

デグレが発生し取りこぼしが発生しても早期に検出可能

ロボットのクロール状況の追跡

ロボットからのクロールが意図通りかモニタリング

レスポンスタイムや500エラーの発生率の追跡

JavaScript SDKを用いたWebビーコン型アクセス解析

A/Bテストなどの裏側ではTreasureDataが大活躍31

活用方法

単にABテストをすると必要な計測回数を満たしていないこともある

あるメディアでのA/Bテスト事例

引用元：【テストツール不要】明日から試せる転職会議式ABテストのはじめ方http://qiita.com/kekekenta/items/8b1f9d2a17c4c6a6b638

途中でクリック率が反転する例

引用元：【テストツール不要】明日から試せる転職会議式ABテストのはじめ方http://qiita.com/kekekenta/items/8b1f9d2a17c4c6a6b638

A/Bテストの計測量が足りているかは信頼区間を計算するべきである

信頼区間の計算手法など、詳しくは「転職会議 2倍」で検索！

参考になる弊社公開記事

【テストツール不要】明日から試せる転職会議式ABテストのはじめ方http://qiita.com/kekekenta/items/8b1f9d2a17c4c6a6b638

参考になる弊社公開スライド

登録数2倍にしてと言われた時の正しい対処法http://www.slideshare.net/KurosawaChihiro/2-42758053

「コンバージョン数を2倍にしてくれ」と言われた時の対処法http://www.slideshare.net/tsuyoshika/2-52482724

参考になる弊社公開スライド

5. 導入前後

導入前後

スキーマやデータサイズの呪縛から解放された

クエリの結果をURLとして参照できる

GoogleSpreadSheet書き出しでリアルタイム更新されるダッシュボードが手軽に作れることに感激する

Hadoopの運用が任せられるため事業に集中出来る

サポートチャットの対応が素晴らしいため心強い

新規事業立ち上げに伴う導入支援にも応えていただけた

サポートチャット利用状況

いつもありがとうございます！

6. 安定運用化

安定運用化

td-agentの監視はもちろん必要（Mackerl + PagerDutyなど）

td-agentのバッファサイズなどのチューニングも必要

社内向けにクエリのクックブックを提供

社内向けにWebコンソールの運用ガイドラインを定める

Teamユーザの発行方針

Saved Queiesの命名ルール

一部のノウハウはQiitaなどで公開中

7. 今後の期待

今後の期待

Pythonを用いた独自UDF対応

ストリーミングデータ処理の対応

環境変数への対応（Hivemallの乱数seedを固定したい）

Hivemallを用いた予測結果をDynamoDBへ書き出したい

億単位の全組み合わせ予測結果を事前に計算しておきたい

コンソールのスピードや使い勝手の改善

2016 Q1のNew Web Consoleが楽しみです

8. まとめ

まとめ

TreasureDataを契約して良かった

導入によるメリットは計り知れない

今ではHiveよりもPrestoをメインに利用している

共に成長すること3年、今後の動向が楽しみです

Thanks!

ご清聴ありがとうございました。

トレジャーデータ 導入体験記 リブセンス編

Engineering

Transcript of トレジャーデータ 導入体験記 リブセンス編

クエストカード 公開 経験値 条件 経験値 条件 経験値クエストカード 公開 条件 イベント 報酬 経験値！クリア 条件 クエストカード 公開

ヒト初回投与試験(FIH 試験)を含む 早期臨床試験の …ヒト初回投与試験(FIH 試験)を含む早期臨床試験のチェックリスト 1 ．被験薬のもつリスク要因の評価

受験操作ガイド 試験開始 - SOLIDWORKSSOLIDWORKS 認定試験 受験操作ガイド: 試験終了 • 試験は、試験終了のメッセージが表示され、試験終了時間になると自動的に終了されます。

物理実験 I 情報実験第 12 回

濃縮度試験 - mhlw...濃縮度試験 年 月 日 毒 性 試 験 試験期間 22． 1．15 ～ 22． 3．19 試験期間 ． ． ～ ． ． 依 被験物質 分 散 剤 被験物質

トレジャーデータ株式会社について（for all Data_Enthusiast!!）

2019年度 医学部授業・試験等予定表 - Fujita Health …...：STH ：総合試験、卒業試験 基礎総合試験 共用試験CBT・OSCE 総合試験 卒業試験 総合試験

単位〔人、％〕 電験1種 電験2種 電験3種 電験計 電工1種 ...（2）電気工事士試験受験申込者の勤務先 電気工事士試験受験申込者のうち就業者の勤務先について、下表－7に示す。

営業さんまで、社員全員がSQLを使う 「越境型組織」 ができるまでの3+1のポイント | リブセンス

認定試験操作ガイド ～試験の開始～認定試験操作ガイド ～試験終了後～ 注意： 試験時間 (試験開始後 60 分) になると、試験終了のメッセージが表示されますので、”OK”

7777－－－4444））））実証試験実証試験～～サイトサイト ...（（（（7777－－－4444））））実証試験実証試験～～サイトサイトサイト2222～～

Landslide...CS Fallback, SRVCC, VoLTEサポート (要オプション) 課金精度試験(CDR Generation/Validation)サポート (要オプション) MME試験 SGW試験 PGW試験

JEMIC技能試験プログラムŠ€能試験プログラム 2018年度ディジタルマルチメータ技能試験 プログラムの ¡称 2018年度ディジタルマルチメータ技能試験プログラム

東海道新幹線において発生した 西日本旅客鉄道株式 …2019/01/01 · E1 試験体4 E2 試験体5 E2 試験体6 E1 試験体7 E1 試験体8 E1 試験体9 E1 試験体10

NEWAGE 実験７：地上実験まとめ

第69回税理士試験受験案内－1－ 平 成 31 年 度 第69回税理士試験受験案内 国 税 審 議 会 試 験 実 施 日 程 等 受験申込用紙の交付 平成

アイビーティー オンライン試験（IBT方式） 2021 受験案内

7 B A ò...Ⅲ.出願期間・試験日程 一般入学試験 社会人入学試験 出願期間 一次試験日 一次試験 合格発表日 A群 二次 試験日 B群 二次試験

Iwate Medical University Clinical Research Center...国際共同治験 医師主導治験 EDC治験 ②国際共同治験・医師主導治験等受託状況 国際共同治験 医師主導治験

【総合職試験・一般職試験（大卒程度試験）】...総合職試験の大まかな流れ （院卒者試験・法務区分及び大卒程度試験・教養区分を除く。）

トレジャーデータ導入体験記リブセンス編

Transcript of トレジャーデータ導入体験記リブセンス編

クエストカード公開経験値条件経験値条件経験値クエストカード公開条件イベント報酬経験値！クリア条件クエストカード公開

ヒト初回投与試験(FIH 試験)を含む早期臨床試験の …ヒト初回投与試験(FIH 試験)を含む早期臨床試験のチェックリスト 1 ．被験薬のもつリスク要因の評価

受験操作ガイド試験開始 - SOLIDWORKSSOLIDWORKS 認定試験受験操作ガイド: 試験終了 • 試験は、試験終了のメッセージが表示され、試験終了時間になると自動的に終了されます。

濃縮度試験 - mhlw...濃縮度試験年月日毒性試験試験期間 22． 1．15 ～ 22． 3．19 試験期間．．～．．依被験物質分散剤被験物質

2019年度医学部授業・試験等予定表 - Fujita Health …...：STH ：総合試験、卒業試験基礎総合試験共用試験CBT・OSCE 総合試験卒業試験総合試験

単位〔人、％〕電験1種電験2種電験3種電験計電工1種 ...（2）電気工事士試験受験申込者の勤務先電気工事士試験受験申込者のうち就業者の勤務先について、下表－7に示す。

営業さんまで、社員全員がSQLを使う「越境型組織」ができるまでの3+1のポイント | リブセンス

認定試験操作ガイド～試験の開始～認定試験操作ガイド～試験終了後～注意：試験時間 (試験開始後 60 分) になると、試験終了のメッセージが表示されますので、”OK”

JEMIC技能試験プログラムŠ€能試験プログラム 2018年度ディジタルマルチメータ技能試験プログラムの ¡称 2018年度ディジタルマルチメータ技能試験プログラム

東海道新幹線において発生した西日本旅客鉄道株式 …2019/01/01 · E1 試験体4 E2 試験体5 E2 試験体6 E1 試験体7 E1 試験体8 E1 試験体9 E1 試験体10

第69回税理士試験受験案内－1－平成 31 年度第69回税理士試験受験案内国税審議会試験実施日程等受験申込用紙の交付平成

アイビーティーオンライン試験（IBT方式） 2021 受験案内

7 B A ò...Ⅲ.出願期間・試験日程一般入学試験社会人入学試験出願期間一次試験日一次試験合格発表日 A群二次試験日 B群二次試験

Iwate Medical University Clinical Research Center...国際共同治験医師主導治験 EDC治験 ②国際共同治験・医師主導治験等受託状況国際共同治験医師主導治験

【総合職試験・一般職試験（大卒程度試験）】...総合職試験の大まかな流れ（院卒者試験・法務区分及び大卒程度試験・教養区分を除く。）