ニコニコデータセット...
-
Upload
shibao-kouichiro -
Category
Entertainment & Humor
-
view
1.790 -
download
5
description
Transcript of ニコニコデータセット...
ニコニコデータセット分析環境作ってみた
13年7月27日土曜日
自己紹介芝尾幸一郎 @shibacow
ソフトウェアエンジニアデータアナリスト趣味でランキングサイト作ってます。
http://nico-ran.jp/
13年7月27日土曜日
今日のアジェンダデータセット解析環境の作り方もっと楽にする方法データ分析をもっと楽しく宣伝
13年7月27日土曜日
データ分析環境Amazon - Hadoop環境
Hiveで分析対話的に分析できる環境を作る。
hive> SELECT smid,count(*) as cnt FROM nicodata.comment_data_sampling100 WHERE comment_string LIKE "%wwwwww%" GROUP BY smid ORDER BY cnt DESC limit 10;
13年7月27日土曜日
コメント情報加工コメント情報にsmid追加
{"date":1175712661,"no":2,"vpos":3208,"comment":"\u30d0\u30fc\u30ed\u30fc\u30fbu30fb\u30fb\u30fb\u30fb\u30fb\u30fb\u30fb\u30fb\u30fb\u30fb\u30fb\u30fb\u30fb\u30fb\u30fb\u30fb\u30fb\u30fb\u30fb\u30fb\u30fb","command":""} smid追加{"vpos":3208,"no":2,"command":"","filename":"comment_src\/0011\/sm110003.dat","video_id":"sm110003","comment":"バーロー・・ ・・・・・・・・・・・・・・・・・・・・","date":1175712661}
GitHubで公開https://github.com/shibacow/niconico_dataset_add_smid
13年7月27日土曜日
amazon EMRを使うAmazon EC2を利用した簡単Hadoop環境
従量課金で使った分だけお金を払う。
13年7月27日土曜日
データセットの準備
S3データ整形 HadoopFS
Hive取り込み
Jsonデータ取り出し
データ分析
13年7月27日土曜日
サンプリング分析はなるだけサンプリングで行うCPUと時間の節約正しい判断に必要な最少十分なデータ
hive> insert overwrite table videoinfo_sampling1 select * from videoinfo where cast(substr(smid,3) as int) % 100 = 0;
13年7月27日土曜日
あまりに複雑今までの内容はあまりに複雑なので、ちょっとずるをします。
13年7月27日土曜日
(内容をまとめた)夏コミ出します夏コミ原稿書きました今までしゃべった内容がまとまってます。88888の多い動画は!? ニコニコ動画のデータを分析してみよう新刊 「ななかInside PRESS vol.3」8/12 月曜日(3日目) 東ぺ-15a「第7開発セクション」
13年7月27日土曜日
改めて考えてみる皆がやりたいのは分析環境「構築」ではな
く「分析」そのもの ____
/ \ ( ;;;;(
/ _ノ ヽ__\) ;;;;)
/ (─) (─ /;;/| (__人__) l;;,´ 構築メンドくせ…
/ ∩ ノ)━・'/( \ / _ノ´.| |
.\ " /__| |
\ /___ /
13年7月27日土曜日
閃いたWebで出来ればいいんじゃね
| \ __ / _ (m) _ |ミ| / `´ \ ____ /⌒ ⌒\ /( ●) (●)\/::::::⌒(__人__)⌒::::: \| |r┬-| |/ `ー'´ ∩ノ ⊃( \ /_ノ.\ “ ____ノ / \_ ____ /
13年7月27日土曜日
13年7月27日土曜日
ニコニコデータセット分析環境作ってみた(Webに)
13年7月27日土曜日
これは何ニコニコ動画データセットをweb経由で分析出来るWebアプリケーション
13年7月27日土曜日
DEMOwwwを多く含む動画を探してみよう
8888コメントはいつくらいからどのくらい使われるようになったか?
13年7月27日土曜日
wwwwを多く含む動画wwwwwを含むコメントを抜き出し、smid単位で集約して、その数を数え、多い順に並べよ
SELECT smid,count(*) as cnt FROM nicodata.comment_data_sampling100 WHERE comment_string LIKE "%wwwwww%" GROUP BY smid ORDER BY cnt DESC LIMIT 100
13年7月27日土曜日
結果sm6102000!6298sm12846600! 5032sm13005200! 3592sm12297700! 3376sm1773000!3203sm11756100! 3161sm179700!3028sm9440300!2984sm16683900! 2745sm18365300! 2738sm5123700!2690
クソゲーオブザイヤー2008
13年7月27日土曜日
88888の発生8888はいつくらいから使われ始めたか?88888を含むコメントを抽出し、コメント投稿月で集約後カウントせよ。
SELECT substr(from_unixtime(`date`),1,7) as ymd,count(*) FROM nicodata.comment_data_sampling100 WHERE `comment_string` LIKE "%88888888%" GROUP BY substr(from_unixtime(`date`),1,7) ORDER BY ymd
13年7月27日土曜日
8888コメント数推移
13年7月27日土曜日
なぜ作ったし
webで誰でも手軽に解析を始められる他の人と分析結果を共有できる。とにかくやって見て解析の面白さに気づける
13年7月27日土曜日
仕組み
Shib by tagomoris
Hive
Hadoop(AmazonEMR)
Amazon EC2
Web
Nodejs
13年7月27日土曜日
バックエンド
m1.medeum m1.largem1.large
m1.largem1.large
マスター
スレーブ x 4
13年7月27日土曜日
休日だけ運用利用者が多そうな土日だけ運用。毎週土日スポットインスタンス利用で月5000円くらい。何とかなる金額。
13年7月27日土曜日
カンパ募集とはいえ、良いサーバに変えたり、土日以外も運用すればお金がかかる。と言うわけでカンパ希望
13年7月27日土曜日
不具合実験プロジェクトなのでまだ不具合たくさん日本語が通らない(致命的)。SQLにスキーマ名(niconicodata)が必要
13年7月27日土曜日
URL
http://nicodata.info/サーバ台数少ないので優しく使ってサンプリングテーブルを使って
13年7月27日土曜日
協力者募集 デザイナー
Nodejs詳しい人。
面白がって使ってくれる人。
13年7月27日土曜日
文化的な話
13年7月27日土曜日
Make文化隆盛何故Make(個人のDIY)文化が流行ったか?二つの要因Arduino(手軽な開発環境) インターネット (知識の共有)
13年7月27日土曜日
今までの大規模データ研究者や企業内の専門家中心野生の研究者の二つの壁面白いデータは、企業か大学の中大規模データ分析に必要なCPUパワーを個人では用意出来ない。
13年7月27日土曜日
(野生)大規模データの隆盛野生の人がオープンデータに興味を持つために、面白いデータ(ニコニコ動画データセット)安価で手軽なCPUパワー(AWS)の両輪が必要
13年7月27日土曜日
ドワンゴへの要望・謝意データを定期的にアップデートしてほしい。
太っ腹なデータ公開ありがとうございました。
13年7月27日土曜日
宣伝夏コミ原稿書きました88888の多い動画は!? ニコニコ動画のデータを分析してみよう新刊 「ななかInside PRESS vol.3」8/12 月曜日(3日目) 東ぺ-15a「第7開発セクション」
13年7月27日土曜日
宣伝2岐阜県大垣市でデータ分析のレクチャーします。
8/30-9/1
参加費無料
http://www.softopia.or.jp/new-service/datavisual/
13年7月27日土曜日
宣伝3データ分析研究会 Googleグループやってます。
https://groups.google.com/forum/#!forum/niconico-data-analyser
13年7月27日土曜日
宣伝4最後に、ニコニコデータビューアーのURLをもう一度
http://nicodata.info/ (土曜日曜のみ開けます)
@shibacowでした
13年7月27日土曜日