卒研中間発表資料:個人に最適化したフィードリーダの構築
description
Transcript of 卒研中間発表資料:個人に最適化したフィードリーダの構築
日付:2011/ 10/ 21
個人に最適化したフィードリーダの構築大阪府立大学工業高等専門学校 5年電子情報コース花川研究室 / 清原弘貴
By jot.punkt under CC-BY http://www.flickr.com/photos/janramroth/1287533046/
目次
Speaker:清原 弘貴
1.はじめに2.システムの概要3.動作原理4.これまでの成果5.今後の課題
1. 1 はじめに : 背景
Speaker:清原 弘貴
フィードリーダとはニュースフィードを登録するだけで自動でWebサイトの新着記事を取得できる
(Google Readerなど)
欠点 取得した記事をすべて表示するので 登録数が多いと読み切れない
未読記事の多いニュースリーダ
1. 2 はじめに : 目的
Speaker:清原 弘貴
開発したいフィードリーダ
ニュースフィードの登録
利用者
目的:利用者が興味をもつであろう記事のみを表示する フィードリーダを構築
最適化されたニュースフィード
2. システムの概要
Speaker:清原 弘貴
特徴抽出
分類新着記事
好まれる記事ソーシャルブックマーク
好まれる特徴
学習
分類のために利用者の興味を調べる必要がある -> ソーシャルブックマークをもとに学習する
好まれない記事 好まれない特徴
好まれる特徴 好まれる記事 好まれる記事
3.1 動作原理 : 特徴抽出
Yahoo!形態素解析
特徴抽出したい文
必要な品詞
✤ 文中の単語を特徴とする
✤ Yahoo!形態素解析を用いた
特徴となる単語
Speaker:清原 弘貴
クライアント
(名詞,動詞,形容詞,形容動詞,副詞,連体詞)
1つの記事あたり5つの特徴語を抽出した
3.1 動作原理 : 分類✤ 新着記事の分類
-> 推奨すべき記事 or 推奨すべきでない記事
✤ スパムフィルタの原理を参考に,実際にメーラなどに使われているモジュールを使用
✤ フィッシャー法というアルゴリズムで実装されている✤ http://examples.oreilly.com/9780596529321/
Speaker:清原 弘貴
4. これまでの成果
✤ 動作の主要部分
✤ 開発者用の画面
✤ ユーザ登録
Speaker:清原 弘貴
開発者用の画面から見た新着記事
新着記事取得 → 記事の分類
実装できたもの
4. これまでの成果
✤ 動作の主要部分
✤ 開発者用の画面
✤ ユーザ登録
Speaker:清原 弘貴
新着記事取得 → 記事の分類
実装できたもの
推奨される記事かどうかを表す値の変動が確認できた
4. これまでの成果(2)
Speaker:清原 弘貴
利用者の興味が抽出できているのが確認できた
開発者用の画面から問い合わせた特徴語
今後の課題✤ ユーザ向け画面の作成✤ 分類の精度向上
✤ 動作原理の理解
Speaker:清原 弘貴
・特徴語の品詞によって重み付けする・他のアルゴリズムを使う (分類機の候補にPA法,ベイジアンフィルタなど)
・フィッシャー法や形態素解析の理解
おわりに
Speaker:清原 弘貴
ご清聴ありがとうございました