Seleniumでニコニコ動画をスクレイピング
TeraBytes
スクレイピングの際の注意
今回行った成果は、以下のURLを理解したうえで行いました。
当成果に対して何か問題があればご連絡お願いします。
http://qiita.com/nezuq/items/c5e827e1827e7cb29011
http://qiita.com/nezuq/items/3cc9772118ad112c18dc
https://account.nicovideo.jp/rules/account
コメントを解析したい
これ
どうやってとってくるか?
Webスクレイピングで取得
ウェブページから画像やテキストのデータを抜き取ること
スクレイピングも楽にできます
既存ライブラリ・APIの弱み
動的なウェブページに弱い
欲しいHTML 取ってくるHTML
Selenium
Seleniumって?
Webブラウザを自動操作してくれる
IDEやAPIを提供
Webアプリのテストに使われるが
こいつでWebスクレイピングします
コメント抽出
自動で動画ページへ移動
自動で動画ページへ移動
Seleniumドライバーの定義
動画ページにアクセス
ログインフォーム自動入力
コメントをデータベースに保存
コメントをMongoに保存
DOMの探索(読み込み待ち)
コメントの抽出
ある程度集まったので解析
前処理(形態素解析)
python + mecabで形態素解析
mecab-ipadic-neologdを使用
neologd適用従来のmecab
人名やサブカルの解析に強い
再生時間1:00までの解析結果
まとめ
Seleniumなら動的ページに対してもスクレイピングできる
スクレイピングの参考にしてください
ごちうさ難民は時事に強い
Top Related