re:Growth athena

Post on 07-Jan-2017

556 views 1 download

Transcript of re:Growth athena

re:Invent新サービス Athena

千葉 淳クラスメソッド株式会社

2016 年 12 月 6 日

自己紹介

所属:クラスメソッド株式会社

仕事:ソリューションアーキテクト

好きな AWS: Lambda

名前:千葉 淳

Athenaとは?

Day1 キーノートで発表

データ分析の顧客課題データ分析の大量作業、大量な知識必要

出典: http://www.slideshare.net/AmazonWebServicesJapan/awswebinar-awsbig-data

Athena が解決ETL 、データロードが不要!S3 上データへ対話的 SQL クエ

リ複数フォーマット対応! (CSV/TSV/JSON/Apache log

等 ) 答え

Athena の特徴?サーバーレス ( 高可用性、運用が楽 )早い ( 並列実行、チューニング済み )コスト効率がよい ( スキャン $5/TB)ツール連携 (JDBC, QuickSight)

事例DataXu 社 180TB/ 日を可視化

画面解説

Athena の画面

クエリ実行画面

よく使うクエリの保存画面

ELB 用ログテーブル作成、 CloudFront ログテーブル作成のサンプル等用意

結果確認画面

データベース / テーブル作成画面

Athena におけるデータベース / テーブルデータベースは「テーブルの論理グループ」テーブルは、データの定義

所属するデータベースデータを保存している S3 の場所 ( ファイル / パス )データフォーマットカラムの定義パーティション

データベース / テーブルのポイントSQL でもテーブル作成 OKパーティショニング = 検索データを減らす

コスト削減パフォーマンスの向上

パーティショニング - Hive -

テーブル作成時に 指定

パーティショニング – Hive 以外 -

日付ごとにパーティションを追加する必要あり

JDBC で自動化を検討

まとめ

まとめS3 上のデータを SQL にて直接分析様々なフォーマット対応 (CSV/TSV/

JSON/Apache log 等 )サーバレスで高可用性、運用管理不要ツールと連携し可視化 (JDBC 、 QuickSight)

Appendix検証記事は Developers.IO( 現在 13 記事 )

おしまい