Wikipediaで位置情報のテキストマインニングっぽいことをやってみた...

Post on 24-May-2015

1.688 views 2 download

Transcript of Wikipediaで位置情報のテキストマインニングっぽいことをやってみた...

Wikipediaで位置情報のテキストマインニングっぽいことをやってみた

Prototyping for Experimental Rapid implementedversion of Location information application

はてな id:babydaemonsTwitter @babydaemons

Self Introduction:・ブラック系ITベンダの切り込み隊長・つい最近までプロジェクトが4スレッド並行稼働・Nagoya.pmしか活動してない。orz・妻一人、息子一人

・はてな id:babydaemons・Twitter @babydaemons・その他 http://www.google.com/?q=babydaemons

今日のお題:

https://github.com/babydaemons/p5-MediaWiki-DumpFile-Parse/

Agenda:

・WikipediaのDBの提供って?・そのデータってどう使うの?・テキストマインニングって?・その位置情報は何に使うの?・まとめ

Agenda:

・WikipediaのDBの提供って?・そのデータってどう使うの?・テキストマインニングって?・その位置情報は何に使うの?・まとめ

jawiki-latest-pages-articles

.xml.bz2

*.xml.bz2 1.6GB*.xml 8.0GB

EmacsやVimで開くのは

神業!

Memory 16GB MacBook Pro所有の大先生

Agenda:

・WikipediaのDBの提供って?・そのデータってどう使うの?・テキストマインニングって?・その位置情報は何に使うの?・まとめ

Perlでは

MediaWiki::DumpFile::Pages

On CPAN

Rubyでは

https://github.com/yohasebe/wp2txt/

Faculty of Global Communications, Doshisha University

貧民業では?

Memory 4GB MacBook Air所有の大貧民

https://github.com/babydaemons/wikipedia-scipts/

Agenda:

・WikipediaのDBの提供って?・そのデータってどう使うの?・テキストマインニングって?・その位置情報は何に使うの?・まとめ

その対象:緯度・経度

住所(日本語のみ)

Agenda:

・WikipediaのDBの提供って?・そのデータってどう使うの?・テキストマインニングって?・その位置情報は何に使うの?・まとめ

概要はテレビCMで!!

某社の位置情報DBとWikipedia記事の紐付け

Released onガラケー!!

PC/スマホ?お察し下さい

orz

ちなみにプロダクトコードは

Java

Perlはprototyping

Javaでプロトタイプ出来ないんですか?

関数型言語クラスタとテストクラスタの大家

Agenda:

・WikipediaのDBの提供って?・そのデータってどう使うの?・テキストマインニングって?・その位置情報は何に使うの?・まとめ

まとめ:

・Wikipediaのダンプ超デカっ!・MySQL取り込み鬼門!・生データなら楽チン!・正規表現最強!・詳細は夜の部で聞いてね!・だれかMakefile.PMの書き方 教えてください。m(_ _)m