Download - Seleniumでデータスクレイピング

Transcript
Page 1: Seleniumでデータスクレイピング

Seleniumでニコニコ動画をスクレイピング

TeraBytes

Page 2: Seleniumでデータスクレイピング

スクレイピングの際の注意

今回行った成果は、以下のURLを理解したうえで行いました。

当成果に対して何か問題があればご連絡お願いします。

http://qiita.com/nezuq/items/c5e827e1827e7cb29011

http://qiita.com/nezuq/items/3cc9772118ad112c18dc

https://account.nicovideo.jp/rules/account

Page 3: Seleniumでデータスクレイピング

コメントを解析したい

これ

Page 4: Seleniumでデータスクレイピング

どうやってとってくるか?

Page 5: Seleniumでデータスクレイピング

Webスクレイピングで取得

ウェブページから画像やテキストのデータを抜き取ること

Page 6: Seleniumでデータスクレイピング

スクレイピングも楽にできます

Page 7: Seleniumでデータスクレイピング

既存ライブラリ・APIの弱み

動的なウェブページに弱い

欲しいHTML 取ってくるHTML

Page 8: Seleniumでデータスクレイピング

Selenium

Page 9: Seleniumでデータスクレイピング

Seleniumって?

Webブラウザを自動操作してくれる

IDEやAPIを提供

Webアプリのテストに使われるが

こいつでWebスクレイピングします

Page 10: Seleniumでデータスクレイピング

コメント抽出

Page 11: Seleniumでデータスクレイピング

自動で動画ページへ移動

Page 12: Seleniumでデータスクレイピング

自動で動画ページへ移動

Seleniumドライバーの定義

動画ページにアクセス

ログインフォーム自動入力

Page 13: Seleniumでデータスクレイピング

コメントをデータベースに保存

Page 14: Seleniumでデータスクレイピング

コメントをMongoに保存

DOMの探索(読み込み待ち)

コメントの抽出

Page 15: Seleniumでデータスクレイピング

ある程度集まったので解析

Page 16: Seleniumでデータスクレイピング

前処理(形態素解析)

python + mecabで形態素解析

mecab-ipadic-neologdを使用

neologd適用従来のmecab

人名やサブカルの解析に強い

Page 17: Seleniumでデータスクレイピング

再生時間1:00までの解析結果

Page 18: Seleniumでデータスクレイピング

まとめ

Seleniumなら動的ページに対してもスクレイピングできる

スクレイピングの参考にしてください

ごちうさ難民は時事に強い