日本のオープンデータプラットフォームをPythonでつくる
39
日本の オープンデータ プラットフォームを Pythonでつくる 2015-10-10 @PyConJP
-
Upload
yuta-kashino -
Category
Software
-
view
15.246 -
download
0
Transcript of 日本のオープンデータプラットフォームをPythonでつくる
自己紹介• バクフー株式会社 代表取締役 柏野 雄太 (かしの ゆうた)
• 大規模リアルタイムデータのデータプラットフォーム
• PPPP preprocess /process /persistence /providing
自己紹介• 大規模リアルタイムのデータプラットフォーム
リアルタイムデータ 処理process
ストアpersistence
API, 検索ストリーミング
API, 検索可視化 通知
API, 検索可視化
API, 検索ストリーミング
ES/S3
ES/S3
ES/S3
ES/Solr/mongoDB
経済データ 異常値検知整形
混雑データ 分類変換
気象データ 分類/異常値検知変換
自然言語処理/センチメント解析整形twitter
前処理preprocess
提供providing
自己紹介• Zope3の開発
• Python
• いくつかの本
• バックグラウンドは宇宙物理学
• 大規模データ統計解析,科学計算
日本の経済・社会統計の現状
• 重要経済・社会統計はほぼオープンデータ
• 各行政機関のデータの出し方は雑多
• Excel/PDFというクローズな公開形式
• 機械で読むのが困難なゴミにあふれている
• APIがおかしい
• 重要統計が一カ所にない
データプラットフォーム• 多様な場所へデータを取得するロボット
• Excel/PDFなどのオープンでないデータに対応
• データを時系列として首尾一貫した形式
• スケーラブルなデータストア
• 容易なデータ探索・即可視化ができるインタフェース
• 正しいRESTで機械可読を容易に