Twitter からの地域特徴語辞書の構築と その観光情報検索への応用 · DEIM...

8
DEIM Forum 2014 B3-4 Twitter からの地域特徴語辞書の構築と その観光情報検索への応用 長谷川馨亮 吉川 正俊 京都大学大学院情報学研究科 606–8501 京都府京都市左京区吉田本町 E-mail: {[email protected]., qiang@, yoshikawa@}i.kyoto-u.ac.jp あらまし 本研究では,観光地域に関する記述の時空間的遷移を明らかにするため,Twitter からの地域特徴語辞書を 構築する手法を提案する.地名との共起を利用して観光スポットの特徴語をツイートから抽出し,隣接スポットの特 徴語との類似に基づいて観光地域を動的に特定し,その特徴語辞書の構築手法を提案する.さらに,時間軸での特徴 語の分布を考慮して,その観光地域の時期ごとの特徴語辞書を生成する.また,構築された特徴語辞書を用いた観光 ツイートの検索手法も提案する. キーワード マイクロブログ, Twitter, ユーザ体験, 特徴語辞書, 時空間連続性, 共起関係 1. はじめに 近年,インターネット上ではマイクロブログや SNS などの ユーザが自ら情報を発信するメディアである CGMConsumer Generated Media)が急速に普及してきている.CGM にはユー ザ体験についての情報が大量に蓄積されているが,蓄積された 情報を整理・活用するための技術の開発は十分に進んでいない という現状がある. 特に,代表的なマイクロブログである Twitter (注1は,1 つの 投稿が 140 文字以内と短く,ユーザが体験したことをスマート フォンやタブレットなどの携帯端末からどこでもリアルタイム で気軽に投稿できる点が特徴である. そうした特徴から,Twitter には地域に密着した情報が多数投 稿されている.例えば,観光においては,多くのユーザが観光 地を訪れたその場でその場所を訪れた感想をその場で撮った写 真とともに携帯端末から Twitter に投稿している.また,夏祭 りや音楽フェスティバルのような大規模なイベントではイベン ト中の写真や感想,入場規制の状況といった情報などを Twitter に投稿するユーザも多い.また,震災や豪雨などで公共交通機 関による帰宅が困難になり,自宅に帰るまでの様子を Twitter 投稿したりするユーザもよく見られる. こうした投稿は携帯端末からリアルタイムで投稿されるた め,従来の Web サイトなどだけでは得られない最新の情報を Twitter から得ることができ,得られた情報を観光地の PR やイ ベントの運営改善,防災対策などに役立てられると考えられる. また,Twitter では,ユーザが過去の自分の投稿を全てダウン ロードできるようになるサービスが提供されている. (注2.こ うしたデータが広く利用可能になることにより,Twitter ユーザ の側からも Twitter に投稿されたコンテンツを整理,検索,共 有したいといったニーズがより高まるものと考えられる. (注1):http://twitter.com (注2):http://blog.twitter.com/2012/12/your-twitter-archive.html しかし現状では,Twitter に投稿されたコンテンツを有効活用 するための技術は発展途上である.そのため,例えば以前の観 光について振り返るために過去の Twitter の投稿を見返そうと しても,Twitter で過去の投稿を閲覧するには最新の投稿から順 に遡っていくしかなく,一度投稿した書き込みを後から見返し たり整理したりすることが困難である. また,Twitter の普及に伴い,従来はブログや SNS の日記など をメインとして投稿していたユーザが,Twitter を中心に普段の 出来事を投稿するようになった,というケースも存在する.こ うしたユーザは一度 Twitter に書いたことを再度ブログや SNS に投稿しない傾向があり,情報の共有がされにくい一因である. Web サイトやブログでは 1 ページあたりの文章量が多いため, 地名や観光地の名前をクエリとした従来のキーワード検索によ り探したい情報を得ることができた.しかし,Twitter からあ るイベントや観光地についての投稿を検索しようとしても,ツ イートの文字数制限により,同じ体験が複数の投稿に分けて記 述されていたり,その体験を表すキーワードが省略された投稿 が多かったりするので,従来のキーワードによる検索だけでは 漏れが生じる [1] [2] [3].そのため Twitter からもれなく情報を 検索するためには,地名や観光地以外の手がかりが必要となる. そこで,我々は Twitter 上に投稿されたコンテンツの中から, 地域の特徴を表す特徴語を抽出し,地域特徴語辞書を構築する 手法を提案する.そして,構築された特徴語辞書の応用例とし て,地域特徴語辞書を利用して Twitter からユーザの観光体験 を検索する手法についても提案する. 2. 関連研究 Twitter からユーザ体験を検索するための手法は有光ら [1] よっても提案されている.有光らの手法ではユーザ体験をいく つかの行動によって定義し,それぞれの行動は決められた順に 遷移していくものとしているが,本研究ではユーザ体験をいく つかの地名によって定義し,その際に空間の連続性を考慮して いる点,また,ユーザ体験を定義する地名列に含まれる各地名

Transcript of Twitter からの地域特徴語辞書の構築と その観光情報検索への応用 · DEIM...

Page 1: Twitter からの地域特徴語辞書の構築と その観光情報検索への応用 · DEIM Forum 2014 B3-4 Twitterからの地域特徴語辞書の構築と その観光情報検索への応用

DEIM Forum 2014 B3-4

Twitterからの地域特徴語辞書の構築とその観光情報検索への応用

長谷川馨亮† 馬 強† 吉川 正俊†

†京都大学大学院情報学研究科 〒 606–8501京都府京都市左京区吉田本町E-mail: {[email protected]., qiang@, yoshikawa@}i.kyoto-u.ac.jp

あらまし 本研究では,観光地域に関する記述の時空間的遷移を明らかにするため,Twitterからの地域特徴語辞書を

構築する手法を提案する.地名との共起を利用して観光スポットの特徴語をツイートから抽出し,隣接スポットの特

徴語との類似に基づいて観光地域を動的に特定し,その特徴語辞書の構築手法を提案する.さらに,時間軸での特徴

語の分布を考慮して,その観光地域の時期ごとの特徴語辞書を生成する.また,構築された特徴語辞書を用いた観光

ツイートの検索手法も提案する.

キーワード マイクロブログ, Twitter,ユーザ体験,特徴語辞書,時空間連続性,共起関係

1. は じ め に

近年,インターネット上ではマイクロブログや SNS などの

ユーザが自ら情報を発信するメディアである CGM(Consumer

Generated Media)が急速に普及してきている.CGMにはユー

ザ体験についての情報が大量に蓄積されているが,蓄積された

情報を整理・活用するための技術の開発は十分に進んでいない

という現状がある.

特に,代表的なマイクロブログである Twitter(注1)は,1 つの

投稿が 140文字以内と短く,ユーザが体験したことをスマート

フォンやタブレットなどの携帯端末からどこでもリアルタイム

で気軽に投稿できる点が特徴である.

そうした特徴から,Twitterには地域に密着した情報が多数投

稿されている.例えば,観光においては,多くのユーザが観光

地を訪れたその場でその場所を訪れた感想をその場で撮った写

真とともに携帯端末から Twitter に投稿している.また,夏祭

りや音楽フェスティバルのような大規模なイベントではイベン

ト中の写真や感想,入場規制の状況といった情報などを Twitter

に投稿するユーザも多い.また,震災や豪雨などで公共交通機

関による帰宅が困難になり,自宅に帰るまでの様子を Twitterに

投稿したりするユーザもよく見られる.

こうした投稿は携帯端末からリアルタイムで投稿されるた

め,従来の Web サイトなどだけでは得られない最新の情報を

Twitterから得ることができ,得られた情報を観光地の PRやイ

ベントの運営改善,防災対策などに役立てられると考えられる.

また,Twitterでは,ユーザが過去の自分の投稿を全てダウン

ロードできるようになるサービスが提供されている.(注2).こ

うしたデータが広く利用可能になることにより,Twitterユーザ

の側からも Twitter に投稿されたコンテンツを整理,検索,共

有したいといったニーズがより高まるものと考えられる.

(注1):http://twitter.com

(注2):http://blog.twitter.com/2012/12/your-twitter-archive.html

しかし現状では,Twitterに投稿されたコンテンツを有効活用

するための技術は発展途上である.そのため,例えば以前の観

光について振り返るために過去の Twitterの投稿を見返そうと

しても,Twitterで過去の投稿を閲覧するには最新の投稿から順

に遡っていくしかなく,一度投稿した書き込みを後から見返し

たり整理したりすることが困難である.

また,Twitterの普及に伴い,従来はブログや SNSの日記など

をメインとして投稿していたユーザが,Twitterを中心に普段の

出来事を投稿するようになった,というケースも存在する.こ

うしたユーザは一度 Twitterに書いたことを再度ブログや SNS

に投稿しない傾向があり,情報の共有がされにくい一因である.

Webサイトやブログでは 1ページあたりの文章量が多いため,

地名や観光地の名前をクエリとした従来のキーワード検索によ

り探したい情報を得ることができた.しかし,Twitter からあ

るイベントや観光地についての投稿を検索しようとしても,ツ

イートの文字数制限により,同じ体験が複数の投稿に分けて記

述されていたり,その体験を表すキーワードが省略された投稿

が多かったりするので,従来のキーワードによる検索だけでは

漏れが生じる [1] [2] [3].そのため Twitterからもれなく情報を

検索するためには,地名や観光地以外の手がかりが必要となる.

そこで,我々は Twitter上に投稿されたコンテンツの中から,

地域の特徴を表す特徴語を抽出し,地域特徴語辞書を構築する

手法を提案する.そして,構築された特徴語辞書の応用例とし

て,地域特徴語辞書を利用して Twitter からユーザの観光体験

を検索する手法についても提案する.

2. 関 連 研 究

Twitterからユーザ体験を検索するための手法は有光ら [1]に

よっても提案されている.有光らの手法ではユーザ体験をいく

つかの行動によって定義し,それぞれの行動は決められた順に

遷移していくものとしているが,本研究ではユーザ体験をいく

つかの地名によって定義し,その際に空間の連続性を考慮して

いる点,また,ユーザ体験を定義する地名列に含まれる各地名

Page 2: Twitter からの地域特徴語辞書の構築と その観光情報検索への応用 · DEIM Forum 2014 B3-4 Twitterからの地域特徴語辞書の構築と その観光情報検索への応用

が出現する順番は特に指定していない点が異なる.

文書から個人の経験を抽出する経験マイニングという研究も

行われている.倉島ら [4]はブログに書かれた経験の状況,行

動,主観の関係をルールとして抽出する手法を提案している.

しかし Twitterをはじめとするマイクロブログでは,従来のブ

ログと異なり一つの投稿が短く内容が断片化されているため,

マイクロブログのコンテンツを整理するためにはブログとは異

なる手法が必要となる.

CGMの投稿から特定の地域に関する情報を抽出する手法も

いくつか提案されている.Yin ら [5] は Flickr 上の位置情報つ

きの写真から,LGTA(Latent Geographical Topic Analysis) によ

りテキストの特徴とジオタグの情報を考慮して地域ごとに特徴

的な話題を抽出するための手法を提案している.Hongら [6]は

Twitter上の位置情報付きの投稿から,地域ごとに特徴的な話題

を抽出するための手法を提案しており,Yinらの手法よりもよ

り高い精度でのトピックの抽出が可能となっている.

地域の特徴を表す語を抽出する手法は田原ら [7]によっても

提案されている.田原らの手法では特定の地域で生活するユー

ザのツイートに含まれる語を地域の特徴を表す語であると考え,

普段とは異なる出来事を表す語を抽出している.一方本研究で

は,ユーザの属性を問わず地名を含むツイートに含まれる語は

地域の特徴語を表す語であるとしている.また,時空間の連続

性を考慮して地域特徴語を整理する手法は,田原らの手法によ

り抽出された語にも適用可能であると考えられる.

3. 地域特徴語辞書

地域特徴語辞書とは,地名とさまざまな単語との共起関係に

基づきその場所の特徴を表す単語を収集し記録するものである.

Twitter においてある場所に関する情報が記述されたツイー

トを検索しようとしても,探したい場所に関する全ツイートの

本文にその地名が含まれているわけではないため地名をクエリ

としてキーワード検索を行うだけでは探したい場所に関するツ

イートを全て取得することはできない.そこで,その場所に関

する情報を記述する際に地名以外によく用いられる単語がわか

れば,その単語をクエリとしてキーワード検索を行うことで地

名が含まれてはいないがその場所に関するツイートを検索する

ことができるようになる.

例えば,八坂神社でおみくじを引いた体験について記述した

ツイートに「おみくじ」という単語のみが現れ「八坂神社」と

いう単語は現れていない場合,従来のキーワード検索によって

「八坂神社」を問合せとして検索を行っても,おみくじについ

て記述したツイートは検索結果に含まれない.しかし,「おみく

じ」という単語が「八坂神社」という地名と強く関連している

という情報がわかれば,「おみくじ」という単語をクエリとして

キーワードを行うことで八坂神社についての検索結果におみく

じを引いた体験について記述したツイートも含めることができ

る.こうした手がかりとなりうる単語としては,その地域にあ

る名所や施設,名産物,その地域でよく行われる行動などを表

す単語が挙げられる.

本研究ではこうした地域特徴語を Twitter 上の投稿から抽出

することを目的とする.Twitterでは多くのユーザが体験したこ

とをリアルタイムで投稿しているため,Webサイトなどよりも

最新の情報がより早く反映され,常に最新の地域の情報を反映

した地域特徴語辞書を作成することができる.

地域特徴語辞書にはその地域と関連の深い単語が多く含まれ

るため,含まれる単語からその地域の特徴を知ることができる.

さらに,地域特徴語辞書に含まれる単語からは地域の特徴の時

期ごとの変化や周辺地域との関連性などもわかる.異なる時期

に投稿されたツイートから地域特徴語辞書を作成すると,地域

特徴語辞書に含まれる単語も変化する.また,地域特徴語辞書

に含まれる単語の特徴が似ている地域の分析により地域の関係

を捉え直すことができるようになる.

本章では,こうした時期の違いや隣接する地域との関係を考

慮しながら地域の特徴を反映させた地域特徴語辞書を構築する

方法を提案する.

3. 1 ツイートの収集方法

本研究で扱う地域特徴語辞書は,Twitter上の投稿から作成す

る.地域特徴語辞書では,それぞれの単語が単に含まれている

かどうかだけでなく,単語の出現頻度から地名と各単語の共起

関係を表す共起度を計算する.ある地名を含むツイートの中に

より頻繁に出現する単語であるほど共起度も高くなり,共起度

が高い単語ほどその場所との関連が強い単語であると考える.

この単語と共起度の組を地名ごとに記録したものが,本研究で

扱う地域特徴語辞書となる.

3. 2 共起度の計算

まず,地名 pkと求める単語wとの共起度 cooc(pk,w)を Jaccard

係数により求める.

cooc(pk,w) =Tpk∩w

Tpk∪w=

Tpk∩w

Tpk + Tw − Tpk∩w(1)

Tpk∩w は pk と w を共に含むツイートの個数,Tpk∪w は pk と

wのどちらか一方のみを含むツイートの個数,Tpk,Tw はそれ

ぞれ pk,wを含むツイートの個数を表している.

地名との共起度の高い単語の中には,場所や時期ごとのその

地域の特徴を表す語も存在する一方で,場所や時期に関係ない

地域の特徴を表す語も存在する.前者に該当する語は特定の時

期や場所におけるツイートから作成した地域特徴語辞書におい

て共起度が高くなる一方で,後者に該当する語はどの地域特徴

語辞書でも共起度が高くなる.本研究では前者に該当する語を

特定の時期や場所における地域の特徴を表す語として抽出した

いが,単に (1)式における cooc(pk,w)の値を比べるだけでは両

者を区別することができない.そこで,TF-IDF の考え方に基

づいた以下の指標を用いる.

Co(pk,w) = cooc(pk,w) × logTall

Tw(2)

Tall は,逆文書頻度の計算対象となるツイート集合に含まれ

る全ツイートの件数を表す.

3. 3 地域特徴語辞書の類似性

次に,2つの地域特徴語辞書間の類似度について考える.単

語 w1,w2, ...,wn について地名 pk との共起度 co(pk,wl)が記録さ

Page 3: Twitter からの地域特徴語辞書の構築と その観光情報検索への応用 · DEIM Forum 2014 B3-4 Twitterからの地域特徴語辞書の構築と その観光情報検索への応用

れている地名 pk についての地域特徴語辞書 dk をベクトル d⃗k で

表すものとする.

d⃗pk = (co(pk,w1), co(pk,w2), · · · , co(pk,wn)) (3)

2つの地域特徴語辞書 di, d j の類似度 S (di, d j)を求めるための

方法として,まずはコサイン類似度を用いる方法が挙げられる.

S cos(d⃗i, d⃗ j) =d⃗i · d⃗ j

|d⃗i||d⃗ j|(4)

次に,KLダイバージェンスを用いる方法が挙げられる.

skl(d⃗i, d⃗ j) =∑

k

di(xk) logdi(xk)d j(xk)

(5)

(5)式の値は d⃗i と d⃗ j について非対称となり,負の値も取りうる

ため,S kl(d⃗i, d⃗ j)と S kl(d⃗ j, d⃗i)それぞれの絶対値をとった上で絶

対値が小さい方の値を KLダイバージェンスにより計算した 2

つの地域特徴語辞書間の類似度として用いる.

S kl(d⃗i, d⃗ j) = min(|skl(d⃗i, d⃗ j)|, |skl(d⃗ j, d⃗i)|) (6)

さらに,平均的な確率分布までの KLダイバージェンスの平

均である JSダイバージェンスを用いる方法が挙げられる.

S js(d⃗i, d⃗ j) =12

∑k

( di(xk) log2di(xk)

di(xk) + d j(xk)

+d j(xk) log2d j(xk)

di(xk) + d j(xk)) (7)

(7)式の値は d⃗i と d⃗ j について対称となる.

3. 4 空間の連続性を考慮した地域特徴語辞書の構築

地域特徴語辞書の構築のために複数の地名 p1, · · · , pm につい

てツイートを収集することでそれぞれの地名における地域特徴

語辞書 (d⃗p1 , · · · , d⃗pm )を作成することができるが,これらの地域

特徴語辞書を複数のセグメントに統合し,特徴が類似したエリ

アごとに地域特徴語辞書をまとめる方法について考える.

地名 p1, · · · , pm における地域特徴語辞書に対してセグメン

テーションを行うとき,まずランダムに選んだ地名 pk と物理

的な距離が最も近い場所 pl について地域特徴語辞書の類似度

S (d⃗k, d⃗l)を計算する.計算した類似度の値が閾値以上であれば

pk と p j は特徴が類似したエリアであるとみなし 2つの地域特

徴語辞書を同じセグメントに統合する.そうでない場合は pk

と pl は異なるセグメントであるとみなしセグメントの統合は

行わない.この処理を pk との物理的な距離が一定の閾値以下

である地名について距離が近い順に行うと,pk と一定の距離以

内にある場所のうち類似度が閾値以上である場所が同じセグメ

ントに統合される.

pk についての処理が終われば,pk と同じセグメントに属し

ない場所からランダムにひとつ地名 pm を選び,pk と同じセグ

メントに属さず pm との距離が一定以下である場所に対して同

様の処理を繰り返す.すると,処理の対象となる全ての場所が

いずれかのセグメントに属することになる(1つのセグメント

が単独の場所から構成される場合も含む).この時点でセグメ

ント内の場所における地域特徴語辞書を統合する.

そうしてできたセグメントの中からランダムにひとつセグメ

ント sk を選び,sk との距離が一定以下のセグメントについて

同様の処理を繰り返し,各セグメントにおける地域特徴語辞書

の類似度が閾値以上であればセグメントを統合する(セグメン

ト間の物理的な距離は,それぞれのセグメントに属する場所の

うち最も物理的な距離が短くなる 2地点の距離とする).

この処理を統合可能なセグメントがなくなるまで繰り返し,

最終的に得られたセグメントが特徴が類似したエリアとなる.

こうして得られたセグメントに対して,次節で述べる時間の連

続性を考慮したセグメンテーションを行う.

3. 5 時間の連続性を考慮した地域特徴語辞書の構築

観光地ではある特定の時期にイベントが行われたり,その季

節ならではの名物が存在したりというように,時間の経過に

伴ってその場所での体験は変化していく.そこで,地域特徴語

辞書の作成に利用するツイートの期間を変化させることで時間

の経過による観光地の様子の変化を地域特徴語辞書に反映させ

られると考えられる.

ある地名 pi についての地域特徴語辞書を作成する際に用い

るツイートの期間を,1日,1週間,1ヶ月といったようにある

一定の期間で区切り,ツイートの期間が連続した複数の地域特

徴語辞書 (d⃗u1pi , · · · , d⃗

umpi )を作成する.ここで u1, · · · , um は,1日

目から m日目,あるいは 1週目から m週目というように,各

地域特徴語辞書に含まれるツイートの期間を表す.つまり,d⃗umpi

は地名 pi についての期間 um における地域特徴語辞書を表す.

また,ある場所 pi における期間 u1, · · · , um における地域特徴

語辞書が存在するとき,場所 pi においてある単語 wの共起度

を調べようとするとどの期間の共起度を単語 wの共起度として

用いるか決定する必要がある.そのために地域特徴語辞書に対

して特徴が類似した時期ごとにセグメンテーションを行い,探

したい期間を含むセグメントにおける共起度を単語 wの共起度

とする.さらに,予めセグメンテーションをしておくことで期

間 u1, · · · , um における全ての地域特徴語辞書に対してその都度

検索を行うよりも処理速度を向上させることができる.

期間 u1, · · · , um において地域特徴語辞書のセグメンテーショ

ンを行う方法について考える.まず,u1 と u2,u2 と u3 という

ように隣接する期間 ui と ui+1 の類似度 S (d⃗uipi ,⃗dui+1pi )を計算する.

S (d⃗u1pi , d⃗

u2pi ), · · · , S ( ⃗dun−1

pi , d⃗unpi ) における最大値が S (d⃗uk

pi ,⃗duk+1pi ) であ

るとき,期間 uk と uk+1 を統合し,1つのセグメント uk′ として

扱う.統合したセグメントにおける地域特徴語辞書 ⃗duk′pi におい

て各単語の共起度 Couk′ (pi,w) の計算を再度行い,共起度の値

を更新する.

この処理を類似度の値が一定以上である期間の組がなくなる

まで繰り返し行うと,期間 u1, · · · , um がいくつかのセグメント

に分割される.すると,特徴が類似した期間のセグメントが得

られ,検索システムなどから地域特徴語辞書を利用して単語 w

の共起度を求める際には,検索したい期間が含まれるセグメン

トにおける単語 wの共起度を解として用いることができる.

4. 地域特徴語辞書を利用した観光体験検索

本章では,前章で提案した手法により構築された地域特徴語

Page 4: Twitter からの地域特徴語辞書の構築と その観光情報検索への応用 · DEIM Forum 2014 B3-4 Twitterからの地域特徴語辞書の構築と その観光情報検索への応用

図 1 提案手法によるツイート組織化の流れ

辞書を利用してあるユーザの観光体験を表すツイートをまとめ

て検索する手法について述べる.ある体験に関するツイート群

をまとめて検索し整理してユーザに提示することを,以下では

組織化と呼ぶ.提案手法を応用することによって,観光体験以

外のユーザ体験検索も実現可能であると考えている.

観光体験は,地名の系列で表すことができる.例えば,京都

を観光する場合には,最初に八坂神社を見学し,それから高台

寺に寄り,その後清水寺に向かうといったコースが考えられる

が,このコースを観光した体験を「八坂神社,高台寺,清水寺」

という地名の系列で表現することができる.

図 1に提案手法によるツイートの組織化の流れの概略を示し

た.システムには予め,3.節の方法で作成した地域特徴語辞書

を保持させておくものとする.ユーザがシステムに与える入力

は検索したい観光体験を表す地名の系列,観光体験が行われた

期間,整理する対象とする Twitterのユーザアカウントとし,シ

ステムは検索したい観光体験を表すツイートの系列を出力する.

なお,ユーザが入力として与える地名列には,必ずしもその

観光体験を表す地名が全て含まれる必要はない.提案手法では,

時空間連続性を考慮することで入力された地名列に含まれない

地名に関する情報も補完して検索を行うことができる.

図 1に示したように,まずシステムは候補となるツイートを

収集する.ユーザは観光体験の前後数日間にも観光体験に関す

るツイートを投稿している場合があるため,候補となるツイー

トとして観光体験が行われた期間の前後数日間のツイートを対

象に検索を行う.候補となるツイートが決まれば,各ツイート

に対して関連度を計算する.これまでの研究 [2] で,以下の 2

つの観点を考慮した関連度の計算方法を提案している.

• 内容関連度

ツイートの本文にある観光地との関連が強い単語が含まれて

いれば,そのツイートはその観光地に関して述べている可能性

が高い.そこで,地名とツイート中に含まれる単語の共起度か

らツイートと観光体験の関連度を計算する.共起度の計算のた

めに,時間と空間の連続性を考慮して作成した地域特徴語辞書

を使用する.

• コンテキスト関連度

Twitterでは 1つの話題が複数のツイートに断片化して投稿さ

れることが多いため,求める観光体験に関するツイートがあれ

ば,その前後のツイートも同じ観光体験について記述している

可能性が高い.そこで,コンテキストを考慮してツイートと観

光体験の関連度を計算する.

関連度が高いツイートをまとめて最終的な出力結果として

ユーザに提示する.

5. 実 験

5. 1 地域特徴語辞書の構築手法

本研究で提案した地域特徴語辞書の構築手法を評価する実験

を行った.本節の実験では,提案手法により実際に地域特徴語

辞書の構築及びセグメンテーションを行い,できた地域特徴語

辞書にどのような単語が含まれるか,地域特徴語辞書がどのよ

うなセグメントに分かれるかを評価することを目的とする.

5. 1. 1 実 験 方 法

地域特徴語辞書を作成するためのデータセットとして,京

都市内の地名や観光地の名前(約 50 箇所)をクエリとして

数日おきに Twitter API(注3)によりツイートを収集したものを用

いる.地域特徴語辞書作成のための形態素解析ツールとして

MeCab(注4)を用いた.なお,本稿の実験においては,(2)式を計

算する際には出現頻度が 5回以上の単語のみを対象としている.

5. 1. 2 時間の連続性を考慮した特徴語の抽出

本研究で提案した時間の連続性を考慮して地域特徴語辞書の

セグメンテーションを行う手法を評価する実験を行った.この

実験では提案したセグメンテーション手法によりどのように地

域特徴語辞書が分割されるかを示し,地域特徴語辞書の類似度

の計算手法が地域特徴語辞書の分割のされ方にどのような影響

を及ぼすかを調べる.

2013年 6月 8日から 7月 30日にかけて投稿された「清水寺」

を含むツイートから期間中の各日について 1日ごとに区切った

地域特徴語辞書を作成し,5. 1. 2で提案した手法によりセグメ

ンテーションを行った.類似度の計算では 3. 3で提案した以下

の 3 つの手法を用い,それぞれの手法でどのようにセグメン

テーションが行われるかを比較した.

Method C コサイン類似度 (S cos(d⃗i, d⃗ j)).

Method K KLダイバージェンス (S kl(d⃗i, d⃗ j)).

Method J JSダイバージェンス (S js(d⃗i, d⃗ j)).

まず,それぞれの手法で類似度の値が以下の条件 Case 1を満

たすものがなくなるまでセグメンテーションの処理を繰り返し

た.それぞれの閾値は,できあがるセグメントの数がそれぞれ

の手法間でできるだけ近くなるように手動で設定した.すると,

図 2に示したように地域特徴語辞書が分割された.

Case 1 Method C scos(d⃗i, d⃗ j) >= 0.6

Method K skl(d⃗i, d⃗ j) <= 0.4

Method J s js(d⃗i, d⃗ j) <= 0.15

処理の結果,Method C では 20 個,Method K では 20 個,

Method Jでは 22個のセグメントに分割された.

セグメントの分割のされ方の違いを,いくつかの箇所に着目

して述べる.まず,6月 18日前後の分割のされ方が 3つの手法

でそれぞれ異なることがわかる.これは,6月 18日に清水寺の

本堂を支える柱の修理が開始され(注5),そのことに関するツイー

(注3):http://dev.twitter.com/

(注4):http://mecab.sourceforge.jp/

(注5):http://www.iza.ne.jp/news/newsarticle/natnews/topics/663157/

Page 5: Twitter からの地域特徴語辞書の構築と その観光情報検索への応用 · DEIM Forum 2014 B3-4 Twitterからの地域特徴語辞書の構築と その観光情報検索への応用

図 2 Case 1 によるセグメンテーションの結果

表 1

Case 1 : Method C

2013 年 6 月 18 日

cooc(pk,w) の上位 10 単語

単語 cooc(pk,w)

修理 1.3008

本堂 1.0329

柱 0.9671

始まる 0.8612

餅 0.7240

支える 0.6810

伝統 0.6431

影響 0.6431

わらび 0.6315

工法 0.6312

表 2

Case 2 : Method K

2013 年 7 月 13 日~15 日

cooc(pk,w) の上位の単語

単語 cooc(pk,w)

京都 0.4642

雨 0.3110

金閣寺 0.2057

祇園祭 0.2020

楽しい 0.1983

豪雨 0.1927

祇園 0.1737

食べる 0.1718

観光 0.1604

来る 0.1484

以下抜粋

降る 0.1295

ゲリラ 0.1189

雷 0.1189

トが大量に投稿されたことが原因であると考えられる.

Method Cでは 6月 18日の地域特徴語辞書のみが独立したセ

グメントになり,前後の期間である 6月 8日から 17日までと,

19日から 25日まではそれぞれ 1つのセグメントとなった.

6月 18日の辞書では修理,本堂,柱といった単語の共起度が

大変高くなっており,関連する単語が共起度の上位 10 件中 8

件を占めている(修理,本堂,柱,始まる,支える,伝統,影

響,工法)(表 1を参照).一方,17日までの辞書と 19日以降

の辞書ではそうした単語は共起度の上位には現れていない.

Method K,Jでは,6月 18日から 25日までの期間が,Method

C よりもより細かく分割された.Method C と同様に,6月 18

日からのセグメントと 6月 20日のセグメントでは本堂の柱の

修理に関する単語の共起度が高くなっていた.また,6月 20日

のセグメントと 24日~25日のセグメントでは共起度が高い単

語にそれほど差異はみられなかったが,6月 22日~23日のセ

グメントにおいて「大阪」「ユノ」といった単語の共起度が高

くなっていた.これは,6月 7日に東方神起のユノが清水寺と

大阪城ホールを訪れたことを記述したツイートがこの期間中に

大量にリツイートされたことによるものと考えられる.

Method Jでは,6月 8日から 16日までの期間が他の 2手法

よりも更に細かく分割された.この要因には 12日までの期間

に東方神起のユノに関するツイートが多数投稿されたこと,16

日に抹茶を含むツイートが比較的多く投稿されたことなどが考

えられるが,清水寺周辺の特徴を大きく変化させるようなイベ

ントは見られなかった.

Case 1により分割されたセグメントに対して,更にそれぞれ

の手法により類似度の値が以下の条件 Case 2を満たすものが

なくなるまでセグメンテーションの処理を繰り返した.すると,

図 3に示したように地域特徴語辞書が分割された.

Case 2 Method C scos(d⃗i, d⃗ j) >= 0.5

図 3 Case 2 によるセグメンテーションの結果

Method K skl(d⃗i, d⃗ j) <= 1.5

Method J s js(d⃗i, d⃗ j) <= 0.4

処理の結果,Method Cでは 8個,Method Kでは 9個,Method

Jでは 7個のセグメントに分割された.

Method Cでは,6月 18日,7月 1日,7月 19日,7月 30日

の地域特徴語辞書がそれぞれ独立したセグメントとなった.こ

のうち 6月 18日の地域特徴語辞書については,先程述べたよ

うに本堂の柱の修理に関する単語の共起度が高くなっていたが,

残りの 3日については特に特徴的な単語がなく,地域特徴語辞

書に記録された単語の数が極端に少なかった(7月 1日:9件,

7月 19日:7件,7月 30日:18件).このため,地域特徴語

辞書の内容の違いにより別のセグメントに分割されたというよ

りは,地域特徴語辞書のサイズの違いにより他のセグメントと

統合されないままになってしまったと考えられる.

これら 3日間の地域特徴語辞書に含まれる単語は,いずれも

どの期間の地域特徴語辞書にも共通して含まれるような地名や

動詞などの単語のみであったため,セグメントとしては前後の

期間に統合される方が望ましいと考える.

この結果から,コサイン類似度による類似度計算方法では,

地域特徴語辞書のサイズに結果が左右されてしまうといえる.

Method K では,他の二つの手法に比べて 7 月 10 日から 19

日の期間が細かく分割された.7月 13日には京都府でゲリラ豪

雨が発生しており(注6),7月 13日から 15日のセグメントでは,

豪雨,雨,ゲリラ,雷,降るといったゲリラ豪雨に関する単語

の共起度が高くなっていた(表 2を参照).

5. 1. 3 空間の連続性を考慮した地域特徴語の抽出

本研究で提案した空間の連続性を考慮して地域特徴語辞書の

セグメンテーションを行う手法を評価する実験を行った.この

実験では提案したセグメンテーション手法によりどのように地

域特徴語辞書が分割されるかを示す.

2013年 9月 1日から 12月 31日に投稿されたツイートを用

いて,京都市内の 35箇所に関する地域特徴語辞書を構築した.

Google Maps API(注7)を用いて以上の場所における緯度と経度

を抽出し,緯度と経度を用いて各地点間の距離を計算した.四

条,鴨川のように通りや川の名前を表す地名については,その

通りや川に属する 2点を結ぶ直線であると仮定した.通常の場

所同士の距離は 2点間の直線距離とし,通常の場所と通りや川

の距離は,点と直線の距離を表す公式を使用して求めた.通り

(注6):http://www.gera-gera.com/2013/07/13/gerira-gouu-kansai/

(注7):http://code.google.com/intl/ja/apis/maps/

Page 6: Twitter からの地域特徴語辞書の構築と その観光情報検索への応用 · DEIM Forum 2014 B3-4 Twitterからの地域特徴語辞書の構築と その観光情報検索への応用

図 4 京都市内の観光地におけるセグメンテーションの結果

や川同士の距離は,直線を表す 2点のうち 1点を決め,その点

同士の直線距離を求める距離とした.

地域特徴語辞書間の類似度として,(7) 式により計算される

s js(d⃗i, d⃗ j)の値を用いた.類似度を最初に計算する場所として清

水寺を選び,距離が 2000m 以内かつ s js(d⃗i, d⃗ j) <= 5.5である場

所の地域特徴語辞書を同じセグメントであるとみなしてセグメ

ンテーションの処理を繰り返した.

セグメンテーションの結果,図 4のようにセグメントが分割

された.図中で同じ色の円または線分により示された場所は同

じセグメントであることを示す.

セグメント 1 : 図中赤色 清水寺,護国神社,円山公園,三十

三間堂,祇園,知恩院,京都国立博物館,高台寺,智積院,鴨

川,四条,五条,河原町

セグメント 2 : 橙 建仁寺,二年坂,三年坂

セグメント 3 : 黄 南禅寺,京都御所,平安神宮,八坂神社,大

文字山,三条

セグメント 4 : 緑 下鴨神社,銀閣寺,仁和寺,嵐山,今出川

セグメント 5 : 水色 金閣寺,妙心寺,龍安寺,北野天満宮

セグメント 6 : 青 京都駅,京都タワー,梅小路公園,烏丸

このように,35 地点の地域特徴語辞書が 6 つのセグメント

に分割された.セグメント 1,2,3,5,6に属する場所はそれぞれ近

接しているが,セグメント 4 では銀閣寺,下鴨神社,仁和寺,

嵐山というそれぞれ 2km~5km程度離れた場所が同じセグメン

トに統合された.これは,今出川における地域特徴語辞書を今

出川通全体を表すものとして扱い,今出川通上の 2点烏丸今出

川,河原町今出川を通る直線全体を今出川であると定義したた

めである.セグメント 4の他の 4地点と今出川通を表す直線の

延長からの距離はそれぞれ 2km以内となっている.

このような現象を改善する方法としては,通りや川を直線で

はなく線分として扱い,線分から離れた点と線分の距離は,線

分の端点との距離で表すことにするという方法,同じセグメン

トに含まれる複数の点との距離が閾値以上になってしまった点

はそのセグメントから除外するという方法などが考えられる.

5. 2 地域特徴語辞書を利用した観光体験ツイートの組織化

地域特徴語辞書を利用した観光体験ツイート組織化の性能を

評価する実験を行った.本節では,まず関連度による組織化手

法の評価により最適な組織化手法を検討する.その結果に基づ

き地域特徴語辞書の構築手法が観光体験の組織化性能に及ぼす

影響を検討し,地域特徴語辞書の構築手法の評価を行う.

5. 2. 1 実 験 方 法

今回の評価実験では,複数の被験者に以下の観光地を含む

コースを観光してもらい,観光中,及びその前後数日間におい

て観光に関するツイートを投稿してもらった.被験者は各コー

ス 3名でありそれぞれの被験者を UA1, · · · ,UD4 と表す.

コース A 金閣寺,北野天満宮 (2013/11/28,UA1,UA2,UA3)

コース D 銀閣寺,京都御所 (2013/11/21,UD1,UD2,UD3)

それぞれの観光は,2013年 11月 21日から 28日の期間のうち

いずれか 1日に行われた.被験者のツイートを Twitter API に

より取得し,テストデータとして実験に用いた.

被験者には投稿した各ツイートが観光体験に関連している

かどうかを関連ランクとして 1(関連する)または 0(関連し

ない)の 2段階にランク付けしてもらった.各ユーザのテスト

データに対して関連度を計算し,それぞれの指標が閾値以上で

あるツイートを求める体験を表すツイートとして組織化を行い,

閾値を変化させていきながらそれぞれの結果について正解デー

タと比較して適合率,再現率,F値を計算し,評価指標とした.

5. 2. 2 関連度による組織化

関連度計算の提案手法を評価するために,適合率-再現率曲線

を用いて提案手法とベースラインによる組織化性能を比較した.

テストデータとして,コース Aとコース Dを観光した 6ユー

ザが 2013年 11月 1日から 12月 15日にかけて投稿したツイー

トを用いた.ベースラインとして,観光で訪れた地名をクエリ

とするキーワード検索による組織化の結果と,今回の実験で用

いる 11/1~12/15に投稿された全ツイートを正解データとする

組織化の結果を用いた.キーワード検索のクエリは各コースで

実際に訪れた場所から 3箇所を選び以下のように設定した.

コース A 金閣寺 or天満宮 or龍安寺

コース D 銀閣寺 or御所 or植物園

この実験では,関連ランクが 1であるツイートを正解データと

して適合率,再現率,F値を計算した.

提案手法としては,内容関連度 Rc(ti)を用いた組織化の結果

とコンテキスト関連度 Rx(ti) を用いた組織化の結果を用いた.

コンテキスト関連度については,Rx(ti)を求める式 [2]において

X = 1として直前直後のツイートの影響のみを考慮した組織化

の結果から,X = 5として 5件前,5件後のツイートの影響ま

で考慮する組織化の結果までの 5パターンについて比較した.

また,コンテキスト関連度の計算での µt の値は,過去の実

験 [2]の結果より µt = 10と設定した.内容関連度の計算での σ

の値については,予備実験の結果より σ = 0.01と設定した.

表 3,4はそれぞれコース Aを観光したユーザ(ユーザ UA1,

UA2, UA3),コース Dを観光したユーザ(ユーザ UD1, UD2, UD3)

のツイートについて,6つの提案手法および 2つのベースライ

ンにおいて F値が最大となるときの各関連度の閾値,適合率,

再現率,F値をまとめたものである.

6つの提案手法間で F値の最大値を比較すると,ユーザ UD2

以外の全てのユーザのツイートにおいてコンテキスト関連度

Rx(ti)において X = 5とした Rx(ti|X = 5)の F値が最も大きく,

以下 F値が大きい順に Rx(ti|X = 4),Rx(ti|X = 3),Rx(ti|X = 2),

Rx(ti|X = 1),Rc(ti)となった.

ユーザ UD2 においてはコンテキスト関連度 Rx(ti|X = 1)の F

値がわずかに内容関連度 Rc(ti)の F値を下回った.しかし,こ

Page 7: Twitter からの地域特徴語辞書の構築と その観光情報検索への応用 · DEIM Forum 2014 B3-4 Twitterからの地域特徴語辞書の構築と その観光情報検索への応用

(a) ユーザ UA1 (b) ユーザ UA2 (c) ユーザ UA3

図 5 関連度 : コース A :適合率–再現率曲線

(a) ユーザ UD1 (b) ユーザ UD2 (c) ユーザ UD3

図 6 関連度 : コース D :適合率–再現率曲線

のとき Rc(ti) を求める式 [2] より,検索したい地名と共起する

単語が一切含まれないツイートも検索結果に含まれる,こと

になる.Rc(ti) = 0.01となるツイートを除くと F値の最大値は

0.4719となり,Rx(ti|X = 1)の F値の方が大きくなる.

ベースラインと提案手法で F 値の最大値を比較すると,全

ユーザでキーワード検索の F値が最も小さくなり,次に期間中

の全ツイートを用いたときの F値が小さくなった.ただし,先

ほど述べたユーザ UD2 の内容関連度 Rc(ti) と同様に,ユーザ

UA2,UD1についても F値が最大となるとき Rc(ti) = 0.01となり

検索結果に全ツイートが含まれ実質無意味である.Rc(ti) = 0.01

のツイートを除いた時の F値の最大値は UA2 では 0.4931,UD1

では 0.7073となり,UD1 では全ツイートの結果を用いたベース

ラインの方がわずかに F値の最大値が大きい.

図 5(a),5(b),5(c),6(a),6(b),6(c)はそれぞれユーザ UA1,

UA2, UA3, UD1, UD2, UD3 のツイートにおける提案手法とベース

ラインの適合率–再現率曲線を表している.

どのユーザでも再現率 0.2以上の範囲ではおおむねRx(ti|X = 5)

による組織化の適合率が最も高くなっている.ユーザ UD2 に

おいては提案手法間の適合率の差があまり見られないが,これ

は普段は投稿が少なくテストデータの大半(134 件中 100 件)

が観光中のツイートであったためであると考えられる.一方,

ユーザ UA1, UA2, UA3, UD3 は X を 3以上にした場合でも適合率

がある程度向上しているがこれは普段からツイートが多く(観

光中のツイートがテストデータに占める割合はいずれも 4分の

1以下)前後のツイートの内容を考慮することの効果がより顕

著に現れたためであると考えられる.

これらの結果から,提案手法によりキーワード検索やある期

間の全ツイートを単に取り出す検索よりもより高精度での観光

体験の組織化が可能になること,特にコンテキスト関連度で前

後数件のツイートの内容を考慮することによりさらに精度が向

上することがわかった.よって以下の実験では関連度の計算に

Rx(ti|X = 5)を用いる.

表 3 コース A : F 値が最大の時の適合率と再現率 (関連度)ユーザ 計算手法 閾値 適合率 再現率 F 値

UA1

Rc(ti) 0.0798 0.2646 0.4273 0.3268

Rx(ti |X = 1) 0.1639 0.2571 0.6923 0.3750

Rx(ti |X = 2) 0.2567 0.2923 0.8120 0.4299

Rx(ti |X = 3) 0.3665 0.3203 0.7692 0.4523

Rx(ti |X = 4) 0.5425 0.3803 0.6923 0.4909

Rx(ti |X = 5) 0.7520 0.4419 0.6496 0.5260キーワード — 1.0000 0.0513 0.0976

全ツイート — 0.1577 1.0000 0.2724

UA2

Rc(ti) 0.0100 0.3299 1.0000 0.4962

Rx(ti |X = 1) 0.0941 0.3896 0.9278 0.5488

Rx(ti |X = 2) 0.4597 0.6087 0.5773 0.5926

Rx(ti |X = 3) 0.5576 0.6489 0.6289 0.6387

Rx(ti |X = 4) 0.6383 0.6768 0.6907 0.6837

Rx(ti |X = 5) 0.8666 0.7423 0.7423 0.7423キーワード — 1.0000 0.1134 0.2037

全ツイート — 0.3299 1.0000 0.4450

UA3

Rc(ti) 0.0999 0.2632 0.4583 0.3343

Rx(ti |X = 1) 0.1874 0.2283 0.6583 0.3391

Rx(ti |X = 2) 0.4761 0.3136 0.4417 0.3668

Rx(ti |X = 3) 0.5105 0.3200 0.6667 0.4324

Rx(ti |X = 4) 0.6492 0.3697 0.6500 0.4713

Rx(ti |X = 5) 0.7816 0.4328 0.7250 0.5421キーワード — 1.0000 0.0583 0.1102

全ツイート — 0.1615 1.0000 0.2781

表 4 コース D : F 値が最大の時の適合率と再現率 (関連度)ユーザ 計算手法 閾値 適合率 再現率 F 値

UD1

Rc(ti) 0.0100 0.6270 0.9875 0.7670

Rx(ti |X = 1) 0.0643 0.6696 0.9625 0.7897

Rx(ti |X = 2) 0.2263 0.7426 0.9375 0.8287

Rx(ti |X = 3) 0.4057 0.7849 0.9165 0.8439

Rx(ti |X = 4) 0.4324 0.7624 0.9625 0.8508

Rx(ti |X = 5) 0.7367 0.7835 0.9500 0.8588キーワード — 1.0000 0.1375 0.2418

全ツイート — 0.5970 1.0000 0.7477

UD2

Rc(ti) 0.0100 0.4255 1.0000 0.5970

Rx(ti |X = 1) 0.0619 0.4430 0.8750 0.5882

Rx(ti |X = 2) 0.3385 0.7500 0.6000 0.6667

Rx(ti |X = 3) 0.3262 0.7073 0.7250 0.7160

Rx(ti |X = 4) 0.2066 0.6000 0.9750 0.7429

Rx(ti |X = 5) 0.2152 0.6061 1.0000 0.7547キーワード — 1.0000 0.0750 0.1395

全ツイート — 0.3540 1.0000 0.5229

UD3

Rc(ti) 0.0365 0.2097 0.7647 0.3291

Rx(ti |X = 1) 0.2365 0.3656 0.6667 0.4722

Rx(ti |X = 2) 0.3092 0.4135 0.8431 0.5548

Rx(ti |X = 3) 0.5159 0.5286 0.7255 0.6116

Rx(ti |X = 4) 0.5524 0.5222 0.9216 0.6667

Rx(ti |X = 5) 0.6351 0.5663 0.9216 0.7015キーワード — 1.0000 0.1176 0.2105

全ツイート — 0.1308 1.0000 0.2313

5. 2. 3 地域特徴語辞書構築方法の間接的評価

本節では,地域特徴語辞書構築方法を間接的に評価する.具

体的には,観光体験ツイートの組織化に使用する地域特徴語辞

書の構築方法を変化させ,その際に観光体験ツイートの組織化

性能にどのような変化が生じるかを調べる.

観光体験ツイート組織化に用いる地域特徴語辞書の構築方法

については,以下の 2通りを試した.ベースラインで用いる地

域特徴語辞書は前節の実験で用いたものと同じである.

Page 8: Twitter からの地域特徴語辞書の構築と その観光情報検索への応用 · DEIM Forum 2014 B3-4 Twitterからの地域特徴語辞書の構築と その観光情報検索への応用

提案手法 時空間連続性を考慮した地域特徴語辞書構築

期間 観光した日を含むセグメント

コース A 2013年 11月 25日~12月 9日

コース D 2013年 11月 18日~25日

場所 ユーザが訪れた場所を含むセグメント

コース A 金閣寺,北野天満宮,龍安寺,妙心寺

コース D 銀閣寺,今出川,下鴨神社,嵐山,仁和寺,大文字山

ベースライン 時空間連続性を考慮しない地域特徴語辞書構築

期間 2013年 11月 1日~30日

場所 コース A :金閣寺,コース D :銀閣寺

テストデータとして,コース Aとコース Dを観光した 6ユー

ザが 11月 1日から 12月 15日にかけて投稿したツイートを用

いた.この実験では,関連ランクが 1 であるツイートを正解

データとして適合率,再現率,F値を計算した.

前節の実験の結果に基づいて,関連度計算手法として前後 5

件のツイートの影響を考慮するコンテキスト関連度 Rx(ti|X = 5)

を用いた.µt,σの値は前節の実験と同様に,µt = 10,σ = 0.01

とそれぞれ設定した.

表 5,6はそれぞれコース Aを観光したユーザ(ユーザ UA1,

UA2, UA3),6 つの提案手法において F 値が最大となるときの

各関連度の閾値,適合率,再現率,F値と,2つのベースライ

ンにおける適合率,再現率,F値をまとめたものである.提案

手法とベースラインにおいて F値の最大値を比較すると,コー

ス Aのユーザのツイートにおいて平均約 23%F値が向上してい

る.一方,コース Dのユーザではあまり差が見られなかった.

これは地域特徴語辞書に対して時空間連続性を考慮したセグ

メンテーションを行うことにより,地域特徴語辞書に含まれる

単語及び共起度が変化したためであると考えられる.コース A

では,ベースラインで用いた地域特徴語辞書には金閣寺のみに

関する単語が多くみられ,他に訪れた場所に関する特徴語はあ

まり見られなかった.その中にはたとえば,「三島」「由紀夫」

(小説「金閣寺」の著者),「横山」「由依」「はん」「輝く」(「金

閣寺よりも輝きたい」がキャッチフレーズである AKB48のメン

バー)のように金閣寺には関連しているが観光とはあまり関係

ないような単語も見られた.一方,セグメンテーションにより

作成された地域特徴語辞書では,「紅葉」「石庭」のような訪れ

たエリアに共通する特徴を表すような単語の共起度が高くなっ

ており,こうした単語を含むツイートの関連度が高くなること

でツイート組織化の F値が向上したと考えられる.

一方,コース D では,提案手法によるセグメンテーション

の結果,訪れた場所のうち銀閣寺と下鴨神社は同じ単語に含ま

れたが,時間をかけて訪れた京都御所や京都府立植物園は別の

セグメントとなってしまった.また,ベースラインで用いた地

域特徴語辞書においても,銀閣寺特有の単語があまりみられな

かった.このことから,組織化性能にあまり差が生じなかった

と考えられる.

これらの結果から,観光体験ツイートの組織化においては地

域特徴語辞書のセグメンテーションによりユーザが訪れた場所

がうまくセグメントで分割された場合には組織化性能が向上す

ること,現在の提案手法では適切なセグメンテーションが行え

表 5 コース A : F 値が最大の時の適合率と再現率 – Rx(ti |X = 5)ユーザ 計算方法 閾値 適合率 再現率 F 値

UA1提案手法 0.7361 0.5658 0.7350 0.6394

ベースライン 0.7520 0.4419 0.6496 0.5260

UA2提案手法 0.5500 0.7040 0.9072 0.7928

ベースライン 0.8666 0.7423 0.7423 0.7423

UA3提案手法 0.6933 0.6797 0.8667 0.7619

ベースライン 0.7816 0.4328 0.7250 0.5421

表 6 コース D : F 値が最大の時の適合率と再現率 – Rx(ti |X = 5)ユーザ 計算方法 閾値 適合率 再現率 F 値

UD1提案手法 0.3914 0.8021 0.9625 0.8750

ベースライン 0.7520 0.7835 0.9500 0.8588

UD2提案手法 0.2203 0.6610 0.9750 0.7879

ベースライン 0.8666 0.6061 1.0000 0.7547

UD3提案手法 0.5623 0.8293 0.6667 0.7391

ベースライン 0.6351 0.5663 0.9216 0.7015

る場合とそうでない場合があるので手法の更なる改善が必要で

あることがわかった.

6. ま と め

本稿では,Twitter上のツイートから地域特徴語辞書を構築す

る手法,それにより Twitter上に投稿された観光体験に関する

ツイートを組織化するための手法を提案した.

評価実験では,提案手法により構築された地域特徴語辞書に

地域・時期ごとの特徴が反映されていることと,キーワード検

索やある期間の全ツイートを取り出す検索よりも高精度での観

光体験の組織化が可能になることが検証された.

謝 辞

本研究の一部は,科研費(課題番号 25700033)と SCAT研究

費助成による.

文 献

[1] 有光淳紀,馬強,吉川正俊.ユーザ体験指向の Twitter 検索手法.第 3 回データ工学と情報マネジメントに関するフォーラム(DEIM2011)論文集,2011.

[2] 長谷川馨亮,馬強,吉川正俊.行動の時空間連続性とコンテン

ツの共有価値を考慮した観光ツイートの組織化.第 5 回データ工学と情報マネジメントに関するフォーラム(DEIM2013)論文集,2013.

[3] Hasegawa, K., Qiang M., Yoshikawa M.: Trip Tweets Search by Con-sidering Spatio-temporal Continuity of User Behavior. In: DEXA,(2012) 141–155

[4] Kurashima, T., Fujimura, K., Okuda, H.: Discovering AssociationRules on Experiences from Large-Scale Blog Entries. In: ECIR,(2009) 546–553

[5] Yin, Z., Cao, L., Han, J, Zhai, C., Huang, T.,: Geographical topicdiscovery and comparison. In: WWW, (2011) 247–256

[6] Hong, L., Ahmed, A., Gurumurthy, S., Smola, A., Tsioutsiouliklis,K.: Discovering geographical topics in the twitter stream. In: WWW,(2012) 769–778

[7] 田原琢士,馬強.Twitter から有益な日常情報を発見するための特徴語による地域ユーザの検索.第 6 回データ工学と情報マネジメントに関するフォーラム(DEIM2014)論文集,2014.

[8] Toda, H., Kitagawa, H., Fujimura, K., Kataoka, R.: Topic structuremining using temporal co-occurrence. In: ICUIMC, (2008) 236–241

[9] Cui, C., Kitagawa, H.: Topic activation analysis for documentstreams based on document arrival rate and relevance. In: SAC(2005) 1089–1095