Twitter における不愉快情報への接触を防ぐための 応答 ... · 2018-02-09 ·...

59
平成 27 年度修士論文 Twitter における不愉快情報への接触を防ぐための 応答メッセージ不可視化システムの提案 電気通信大学 大学院情報システム学研究科 社会知能情報学専攻 学籍番号 : 1451005 氏名 : 植田 智明 主任指導教員 : 大須賀 昭彦 教授 指導教員 : 折原 良平 客員教授 指導教員 : 田原 康之 准教授 提出年月日 : 平成 28 1 28 ()

Transcript of Twitter における不愉快情報への接触を防ぐための 応答 ... · 2018-02-09 ·...

平成 27年度修士論文

Twitterにおける不愉快情報への接触を防ぐための応答メッセージ不可視化システムの提案

電気通信大学 大学院情報システム学研究科社会知能情報学専攻

学籍番号 : 1451005

氏名 : 植田 智明

主任指導教員 : 大須賀 昭彦 教授指導教員 : 折原 良平 客員教授指導教員 : 田原 康之 准教授

提出年月日 : 平成 28年 1月 28日 (木)

概要

Twitterにおいて,投稿者の意図や期待に反する他のユーザからの応答は投稿者を不愉快にさせることがある.こうした不愉快感は SNS疲れの原因の一つでもある.例えば,タイムライン上に質問を問いかけた時に,他のユーザからの回答を望んでいるにもかかわらず,質問の意義を問いただす質問など,回答ではない反応が送られるといった場面が挙げられる.その背景には SNS 特有の投稿文字数の制限やユーザやトピックに関する前提知識の有無などの,オンラインならではのユーザ間の障壁がある.この障壁によりユーザ同士でのミスコミュニケーションの解決は困難である場合が多い.不愉快に感じることを防止するためには,投稿者にとって期待しない応答を不可視化し,目に触れる機会を減らすことが有効であると考えられる.本論文では,リプライ形式でないツイートに対し,ユーザの期待する反応別の分類手法の提案と分類器の精度評価を行った.また,提案手法を実装したクライアントを開発し,操作ログを用いた評価を行った.分類精度の評価により,全項目の平均 F 値は60.6% となった.さらに,投稿時期の新しいデータを用いた追加学習により,平均 F

値は 64.4% まで改善した.クライアントの操作ログを用いた評価により,投稿者の期待する反応を識別し,期待しないリプライに対して警告表示を行う提案手法と手法を実装したクライアントは,投稿者の期待する反応に応じたツイートの分類と警告表示により,内容を閲覧するかどうかの取捨選択を効果的に行うことができた.また,よくやり取りするユーザからのリプライは警告や不可視化を行わないといった,ユーザ同士の関係性を考慮し,不可視化を限定的に行うといった改良が必要であることが浮かび上がった.これらの評価実験を通して,提案手法は不愉快な応答メッセージを持つ可能性の高いリプライに接触する機会を減らすのに有効であることを示した.

i

目次

第 1章 はじめに 1

第 2章 関連研究 3

2.1 オンラインコミュニケーション研究 . . . . . . . . . . . . . . . . . . . . 3

2.2 ツイート分類研究 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4

2.3 ツイートからのユーザ情報推定・抽出研究 . . . . . . . . . . . . . . . . . 6

2.4 Twitterを題材にした文字列・自然言語処理研究 . . . . . . . . . . . . . 7

2.5 ソーシャルネットワーク研究 . . . . . . . . . . . . . . . . . . . . . . . . 8

第 3章 応答ツイート不可視化の有効性 12

3.1 Twitterの利用動向アンケート調査 . . . . . . . . . . . . . . . . . . . . . 12

3.2 アンケートの調査結果と考察 . . . . . . . . . . . . . . . . . . . . . . . . 13

3.3 不可視化の有効性と評価の指針 . . . . . . . . . . . . . . . . . . . . . . . 13

第 4章 投稿者が期待する反応に応じた分類 15

4.1 投稿者の期待する反応 . . . . . . . . . . . . . . . . . . . . . . . . . . . . 15

4.2 分類項目の定義 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 16

4.2.1 ひとりごと (ML) . . . . . . . . . . . . . . . . . . . . . . . . . . 16

4.2.2 宣伝・ニュース (AN) . . . . . . . . . . . . . . . . . . . . . . . . 17

4.2.3 感想・コメント・主張 (ICC) . . . . . . . . . . . . . . . . . . . . 18

4.2.4 Topic-providing(TP) . . . . . . . . . . . . . . . . . . . . . . . . 18

4.2.5 Information Needs(IN) . . . . . . . . . . . . . . . . . . . . . . . 19

4.2.6 募集 (RC) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 20

4.2.7 挨拶 (GT) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 20

4.2.8 チェーンタグ (CT) . . . . . . . . . . . . . . . . . . . . . . . . . 21

ii

4.3 分類手法 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 21

4.3.1 教師ラベルの付与 . . . . . . . . . . . . . . . . . . . . . . . . . . 22

4.3.2 前処理 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 22

4.3.3 素性ベクトル化 . . . . . . . . . . . . . . . . . . . . . . . . . . . 22

4.3.4 特徴選択 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 23

4.3.5 分類器の学習 . . . . . . . . . . . . . . . . . . . . . . . . . . . . 23

第 5章 実装 25

5.1 提案手法を実装したクライアントの概要 . . . . . . . . . . . . . . . . . . 25

5.1.1 提案手法による投稿ツイート分類機能 . . . . . . . . . . . . . . . 26

5.1.2 分類結果に応じた反応のミュート機能 . . . . . . . . . . . . . . . 26

5.1.3 クラウドソーソング機能 . . . . . . . . . . . . . . . . . . . . . . 26

5.2 Azure MLにおける分類器の構築とWebサービス化 . . . . . . . . . . . 28

5.2.1 Azure MLにおける分類器の構築方法 . . . . . . . . . . . . . . . 28

5.2.2 提案手法の実装とWebサービス化 . . . . . . . . . . . . . . . . . 29

5.3 Twitterクライアントの機能 . . . . . . . . . . . . . . . . . . . . . . . . 30

5.3.1 Twitterクライアントの実装 . . . . . . . . . . . . . . . . . . . . 32

5.3.2 Twitterクライアントの外観と配信 . . . . . . . . . . . . . . . . . 33

第 6章 評価実験 35

6.1 交差検定による各分類器の精度評価 . . . . . . . . . . . . . . . . . . . . 35

6.1.1 実験方法 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 35

6.1.2 実験結果と考察 . . . . . . . . . . . . . . . . . . . . . . . . . . . 35

6.2 データセット 2を用いた各分類器の精度評価 . . . . . . . . . . . . . . . 37

6.2.1 実験方法 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 37

6.2.2 実験結果と考察 . . . . . . . . . . . . . . . . . . . . . . . . . . . 38

6.3 追加学習による精度向上評価 . . . . . . . . . . . . . . . . . . . . . . . . 39

6.3.1 実験方法 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 39

6.3.2 結果と考察 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 39

6.4 クライアントの操作ログによる評価 . . . . . . . . . . . . . . . . . . . . 41

6.4.1 実験方法 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 41

6.4.2 結果と考察 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 41

第 7章 まとめ 45

iii

謝辞 47

参考文献 48

研究業績 51

iv

図目次

3.1 Twitterにおけるストレス経験の要因 . . . . . . . . . . . . . . . . . . . 14

5.1 システムの全体像 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 25

5.2 警告表示の例 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 27

5.3 投稿画面におけるクラウドソーシング機能 . . . . . . . . . . . . . . . . . 28

5.4 TL上のツイートに対するクラウドソーシング機能 . . . . . . . . . . . . 29

5.5 分類器の構築 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 30

5.6 分類結果の可視化 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 31

5.7 アプリケーションの外観 . . . . . . . . . . . . . . . . . . . . . . . . . . . 34

6.1 Topic-providingツイートの文字数分布 . . . . . . . . . . . . . . . . . . . 36

6.2 ユーザ 7の警告解除率の変化 . . . . . . . . . . . . . . . . . . . . . . . . 43

v

表目次

4.1 投稿者の期待する反応別分類定義 . . . . . . . . . . . . . . . . . . . . . . 16

6.1 10重交差検定による分類評価結果 . . . . . . . . . . . . . . . . . . . . . 36

6.2 データセット 2に対する分類結果 . . . . . . . . . . . . . . . . . . . . . . 38

6.3 追加学習による分類結果 . . . . . . . . . . . . . . . . . . . . . . . . . . . 40

6.4 ログの分析結果 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 42

1

第 1章

はじめに

近年,Twitterなどのオンライン上でユーザ同士が気軽にメッセージのやり取りができるサービスにおいて,“SNS疲れ”が問題視されている [1, 2, 3].例えば,現在利用している SNSのアカウントを削除し,他のサービスへ移行する例 [4, 5]が確認されており,SNS

疲れが原因の一つであるとされている.こういった SNS疲れは,ユーザにとって身体的,精神的疲労による実生活への影響も懸念されるため,未然に防ぐ必要がある.SNS疲れを防ぐためには,ユーザに否定的な感情を抱かせるやり取りやメッセージを回避することが必要である.否定的な感情を抱かせるやり取りの例としては,“話がかみ合わない”,“冗談が通じない”といったユーザ間のミスコミュニケーション発生が挙げられる.Twitterにおいて,小規模なミスコミュニケーションは頻繁に起こっていると考えられ,

その例として投稿者の意図と閲覧者の反応のずれが挙げられる.このようなずれの例として,質問を問いかけた時に,他のユーザからの回答を望んでいるにもかかわらず,質問の意義を問いただす質問など,回答ではない反応が送られるといった場面が挙げられる.現実の会話でこのようなミスコミュニケーションが発生した場合,話し合いによって解決を図ることが多い.しかし,SNSなどのオンライン上では,面識のない相手や年齢の離れた相手とやり取りをする機会が多いため,会話における特定の人物やトピックに関する前提知識の共有をしていないということが解決の障壁となる.さらに,Twitterにおいては投稿文字数制限による説明の不足やリツイート (RT)で想定外のユーザにまで発信が届くことによる,投稿ユーザの周辺情報の欠落などが前掲の障壁に加わることになる.このような障壁により,ユーザ同士での話し合いによる解決は難しいため,相手に対する暴言や相手ユーザに対するブロックやリムーブといった負の対応をすることがある.こうした負の対応は,相手に強い否定感情を抱かせるだけでなく,場合によっては炎上に至ることもあるため,未然に防ぐ必要がある.

2

本研究では,機械学習を用いて投稿者の意図に則した期待する反応を認識し,期待しない反応が他のユーザから送られてきた際に,それらを一時的に不可視化 (ミュート)する.その内容を見るかどうかを投稿者の意思に委ねることによって,ユーザ間のミスコミュニケーションによる否定的な感情に繋がるやり取りを未然に防ぎ,疲れを軽減する事を目的としている.また,提案手法を実装した Twitterクライアントを開発した.本研究の貢献の一つは,Zhaoら [6]の分類手法をベースとし,目的とする分類はユーザ

が他のユーザからどういった反応を望んでいるのかに着目している点である.また,提案手法を実装した Twitterクライアントを開発し,実データによる評価を行った点が挙げられる.本論文では,リプライ形式*1でないツイートに対する投稿者の期待する反応の分類項目の定義と分類手法の提案及び,各分類器と提案手法を実装したクライアントの操作ログによる評価を行った.評価実験により,他のユーザからの返信を期待しない4項目の平均適合率は 65.2%であった.加えて,クライアントの操作ログにより,ユーザにとって不愉快となる可能性のある応答ツイートへ接触する機会を減らすのに有効であることを示した.また,クラウドソーシングで収集したツイートを用いた追加学習による精度向上を確認した.本論文の構成は以下の通りである.まず,2章で関連研究を紹介し,3章では分類項目

の定義と項目の説明を行う.4章では具体的な分類手法について述べ,5章でクライアント実装に関する詳細を述べる.6章で評価実験と考察を行い,最後に 7章を本論のまとめとする.

*1 @ツ イ ー ト を 持 つ Mention 形 式 の う ち ,先 頭 に@username を 含 む も の .https://support.twitter.com/articles/223454

3

第 2章

関連研究

ここでは本研究に関連する研究について述べる.

2.1 オンラインコミュニケーション研究長谷川ら [7]は,メール等のオンライン上の対話における発話行為が相手の感情にどの

ような影響を与えるのかという観点で,受け手の感情予測と目的の感情を喚起させる応答文の生成を行った.例えば,落ち込んでいる相手に,励ましの言葉を送ることで,喜びの感情を喚起させることができる.その一方で,感情を害するような暴言を送ると,悲しみや怒りといった感情が喚起される.円滑なコミュニケーションを送るためには,こうした発言により相手がどのような感情を抱くかを予測することが重要であると筆者らは述べている.この研究の応用として,受け手の感情予測では,気分を害するような発話のフィルタリング,目的の感情を喚起する応答文生成では,日本語入力の支援技術の高度化が挙げられている.この論文では,多彩な言語表現を認識するために大規模な計算資源を要することが述べられており,その解決策として,マイクロブログに着目している.このマイクロブログから多くのユーザによる対話データを収集し,人手によるタグ付けを行っており,一対他法によって多値分類器を構築,N-gramと呼ばれる素性化手法を用いて文字列をベクトル化し,感情の予測を行った.また,応答文生成には機械翻訳手法を応用し,人手による評価と自動評価を行い手法の有効性を示した.こうした研究は本研究におけるユーザの投稿に対する応答の分析において参考になると考えられる.來迎ら [8]は,SNSやメール等において,“気疲れ”を起こす要因として,送信者の返信

への期待感と受信者の相手のメッセージに対して返信しなければならないという義務感,自分の発信に対して返信がないことに対する不安感,更新や返信が気になってしまい逐一

4

確認してしまうという身体的な疲労感を挙げている.気疲れを軽減するコミュニケーションツールの設計において,送信者の持つ他のユーザからの返信への期待感を小さくすることに着目した.返信が来ることへの期待感を小さくすることにより,受信者の返信をしなければならないという義務感の軽減を目的としている.この研究では,雑談などのインフォーマルなコミュニケーションに限定し,一定時間で相手が見たか見ていないかに関わらずメッセージを消去する手法を提案した.メッセージが一定時間で消えるのは送信者,受信者双方が理解しているため,返信への期待感や義務感を軽減できるとしている.この提案手法を実装したアプリケーションの試作を行っている.提案手法の評価項目として,アプリケーションの確認回数や返信に対する時間の短さ,メッセージの内容が短文や返事のみに変わるといった文章の長さの変化が挙げられており,今後の本研究の評価軸の一つとして有用であると考えられる.稲葉ら [9]は,雑談などの非タスク指向型の対話システム構築において,発話を人手で

生成することに対するコストの大きさや発話候補にない話題を扱えないといった問題点を挙げ,Twitterから発話として使用可能な文章を自動取得することを目的とした手法の提案を行った.手法としては,任意の話題語を Twitterで検索し,取得した文章を稲葉らが定めたルールによってフィルタリングを行う.ルールとしては,話題語と名詞が連続している文や人名や代名詞が含まれている文,文法的に語順がおかしい文,時間を特定する語を含む文や不十分な比較をしている文を除くといった処理を行っている.教師データから単語に対して自動で点数付けを行い,閾値以上のものを発話候補文として獲得する.さらに,より自然で親しみやすい発話を実現するため,ですます調から“~でしょうか”といった語りかけ調への語尾の変換を行ったとしている.実験対象のデータは日本語ツイート15億件とし,話題語は 2010年の検索ランキングに上位の単語とした.ベースラインには3種類あり,ルールによるフィルタリングを行わず点数付けのみを行ったもの,Support Vector Machine(SVM)による点数付けを行ったもの,ルールによるフィルタリングを行い,SVMによる点数付けを行ったものとしている.判定方法としては1文につき3名の評価者が独立して判定を行う.これにより,提案手法がもっとも高い正解率となり,有効性を示した.今後の本研究において,ユーザ同士の会話において,理想のやり取りであるかどうかを判定するのに有用な手法であると考えられる.

2.2 ツイート分類研究Zhaoら [6]は,Twitterにおけるツイートの中から,IN(Information Needs:他のユー

ザから回答を求める質問形式のツイート) を抽出し,時系列データとして解析を行った.

5

Information Needsの抽出には,N-gram,概念辞書 (WordNet*1),形態素解析,6種のメタデータ (長さ,単語数,語彙数,大文字から始まる単語数,URLを含むか,リプライかどうか)といった多岐にわたる素性を集め,その部分集合を使って作成された SVM分類器を用いた.また,特徴選択手法である Bi-Normal Separation(BNS)を使用することで,特徴次元数の削減とノイズの削減による精度向上を果たした.さらに AdaboostDivという独自のブースト手法で複数の分類器を束ねることにより,86.6% という高い精度を得た.構築した分類器を基に IN ツイートを抽出し,時系列的な分析を行った.IN ツイートは議論の発端となることが多く,エントロピー分析によって,こうした議論の発生と拡散を可視化した.また,Google トレンドのキーワード予測を IN ツイートとそれ以外のツイートで行い,INツイートの方がより多くのキーワードを予測できたとしている.また,Zhaoらはこうした分類・分析手法を効果的なオンライン広告や推薦システムに応用できるとした.この研究では,Information Needsを‘?’を含むものとして定義をしているが,これは英語圏特有の文化であり,日本語では疑問文に対して‘?’を付与しなければならないという文法規則は無いため,Information Needsの定義を日本語に対して,そのまま適応することは難しいと考えらえる.しかし,分類手法として,SVMや BNSといった手法は強力であり,本研究における分類器構築の参考とした.原ら [10]は,Twitterなどのマイクロブログにおけるインフォーマルな書き込みの分類

手法の提案を行った.インフォーマルな書き込みとは,投稿者自身の心情や状態といったメッセージのこと指す.この研究では,インフォーマルな書き込みを 10 項目の分類項目として定義した.例として,心情,話者の状態,話者の行動・体験,外界の状況といったものが挙げられる.本研究ではこれらの項目を総合して,第 4章で定義を行うひとりごと(ML)ツイートとして分類を行っている.分類器としては,Parametric Mixture

Models(PMM) 単体と SVM 単体及び,SVM を組み合わせたものを用いて精度の評価を行い,PMM と SVM を組み合わせた分類器がもっとも精度が良かったものとしている.本研究においても,ひとりごとツイートのより詳細な分類において,このような分類の定義と手法は非常に有用であると考えられる.山本ら [11]は,“雨が降ってきた”や“電車が止まった”といった他者の生活行動に関わ

る実生活ツイートの抽出を行った.山本らは実生活の局面を,教師あり機械学習手法で局面の階層的推定を試みた.しかし,Twitterは短文である傾向が強く,単純なキーワードによるラベル付けでは,十分な精度が得られないとして,山本らはまず,大量のツイートから Labeled Latent Dirichlet Allocation(L-LDA)を用いてトピックを抽出した.こうし

*1 https://wordnet.princeton.edu/

6

て得られたトピックに分類される語彙集合とツイートを日本語形態素解析器のMeCabを使って処理して得られた語彙集合との生起確率を求めることで,トピックと局面の対応関係を構築した.局面の推定には,ツイートから単語を抽出し,トピック中の各単語の生起確率とトピックと局面の関連度を用いて,局面ごとのスコアを算出するとしている.評価実験には,提案手法の他にベースライン手法として L-LDA,SVM,マルチラベル Naive

Bayes分類器との比較を行った.結果としては,提案手法が最も良い結果となり,さらに訓練データが数が少量でも良好な推定精度が得られたとしている.本研究においても,単なるキーワードに依らない分類を試みており,さらなる推定精度向上手法として山本らの研究は有用である.加えて,少ない学習用データで幅広い表現に対応できると考えられることから,実用的な分類器として構築する上で有効であると考えられる.

2.3 ツイートからのユーザ情報推定・抽出研究田中ら [12]はマイクロブログの投稿をユーザの意見や評判の傾向を示すセンサとしてよ

り効果的に活用するためには,ユーザの年齢や性別,職業といったユーザ属性を抽出する必要があると主張した.しかし,実際のマイクロブログではユーザ情報の公開範囲をユーザ自身が決定しており,このような属性を非公開としているユーザからは,意見を十分に抽出できないとしている.また,投稿内容に着目した職業推定研究が行われているが,手法が十分に確立されていないのが現状であると論じた.田中らは投稿内容に加えて,投稿時間に着目し,ユーザのライフスタイルを考慮することで,マイクロブログへの投稿内容と投稿時間との関係を分析・類型化した.この類型化の結果を用いてユーザの職業の推定を行った.田中らは,マイクロブログ上の明示的な情報だけでは職業を推定できない問題と同じ職業でも多様なライフスタイルが存在する問題の二つを挙げ,それぞれに対する対応策を提案している.前者には,“おはよう”や“おやすみ”といったライフスタイルに密着した単語の出現する時間帯や曜日を考慮し,後者には,似た職業でもライフスタイルの異なるユーザを整理することや分類することで解決したとしている.属性推定モデル構築手法としては,大きく二つの要素技術で実現されており,各職業に特徴的な単語の出現数を示す単語ベクトルと生活習慣ベクトルを統合して学習,曜日や時間帯別の投稿数の類似性をもとにユーザ群のクラスタリングを行い,そのセントロイド (クラスタの重心)のベクトルを先述のベクトルに関連づける.属性推定には,推定対象ユーザの投稿内容と投稿時間をもとに,構築したモデルを適用することで,ユーザの属性を推定できるとしている.評価実験には,職業を公開しているユーザを無作為に収集し,該当するユーザの投稿を収集,投稿が 1,000件を超えているユーザを対象に行ったとしている.カイ自乗値を用いた

7

特徴選択を行って学習した SVMとの推定精度の比較を行い,特定の職業においては提案手法の方がより高精度であったことから,有効性を示した.また,職業別に時間帯における投稿数を示し,詳細な考察を行っている.本研究においては,現段階で投稿時間を考慮していないが,閲覧者の多い時間帯や少ない時間を狙って投稿するユーザが確認されており,このような時系列変化を考慮したツイート種別分析手法は有用であると考えられる.Ritter らは [13] は Twitter から,誰でも知りうるイベントの抽出フレームワーク

TWICALを提案した.提案手法は最終的にその日にあったイベントを自動でカレンダー表示するものとなっている.TWICAL には品詞タグ付けや固有表現抽出,イベントフレーズの抽出といったコンポーネントで構成されており,イベントの重要度計算や分類を行う.Ritter らが過去の研究において独自に実装した品詞タグ付け手法や固有表現抽出手法は,Twitter特有の文法的な誤りや誤字の多さといったノイズに強いものとなっている.品詞タグをもとに,WordNet からイベントに関わる用語を取得し,割り当てを行ことでイベントの抽出を行っている.さらに,LinkLDA を用いてイベントを自動分類し,“明日”や“今週の金曜日”といった時間表現を日付形式に変換するフレームワークを用いて正規化を行った.また,イベントの重要度を特定の日付に強い関連を示すものと定義し,日常的なイベントが出力されるのを防ぎながら,重要度の高いイベントのみをカレンダー形式で表示する手法となっている.評価実験においては,固有表現抽出とイベント抽出手法を 1-4 gramに置き換えて比較を行った.提案手法の固有表現抽出と日付の正規化を行ったものが最も適合率の高いものとなった.また,提案するフレームワークは apple

社の iPhone発売日等の抽出が出来ており,有効性が伺える.本研究においても,イベントに関わるツイートを宣伝・ニュースツイートとして,抽出・検知を試みた.特に日付などが含まれているツイートはこうしたツイートである可能性が高く,日付を精度よく処理している Ritterらの手法は精度を上げるために有効であると考えられる.

2.4 Twitterを題材にした文字列・自然言語処理研究Taoら [14]は Twitter上で重複する本文を持つツイートの検知を行った.Twitter検索

を行うと同一の本文が多数表示され,ストレスフルであると Tao らは述べている.これらは,多くが同じ情報を参照しており,最新の情報であるとは限らないため,それを見たユーザが古い情報のまま拡散するといった問題点を掲げた.この研究では,ツイート本文の重複度を5段階に定義した.文字列の類似度計算手法や投稿時間,投稿ユーザフォロー・フォロワーの共通度合いなども考慮に入れ,重複ツイートの検知を行った.編集距離をベースラインとし,どの類似度計算手法の組み合わせが有効かを検証したところ,統

8

語的,意味的,文脈的特徴を全て反映したものが精度が良かったものの,トピックによって得手不得手があることがわかった.また,重複ツイートの中から,レベル別に分類をする実験では,全ての特徴を反映すると完全一致の重複ツイートを取りこぼしてしまうことがわかり,分類の前に編集距離を用いて完全一致のツイートだけ別処理とすることにより,精度を向上させた.また,Taoらはこの提案手法をツイート検索システムとして実装し,実データに対して適用した.検索において重複ツイートを 45%減らすことができたと主張している.本研究においても,判定結果の高速化に対して,このような類似度の高いツイートの判定結果をキャッシュとして用いることで,判定処理時間を短縮するのに有効であると考えられ,応用性の高い研究である.Oliveiraら [15]は固有表現抽出と呼ばれる,文章中から固有名詞や時間表現を抽出する

技術について Twitter向けに改良を行った.Oliveiraらは Twitterから得られるツイートの本文には文法的な誤りや誤字が頻繁に発生する上に,断続的に大量のデータが入力されること,リアルタイム性が求められることや多様な言語に対応することが求められていると述べた.この研究では,文法への依存を下げることを目標に据えており,文法を用いない5種類の比較的処理の軽いフィルタを用意した.5種類のフィルタはそれぞれ固有の語句フィルタ,前後の語句を考慮し未知の固有表現を抽出する文脈フィルタ,接辞を用いて文章の切れ目を抽出する接辞フィルタ,学習データにない語句を推論する辞書フィルタ,頭文字が大文字であれば固有名詞であると判定する名詞フィルタとなっている.これらのフィルタを直列,並列に組み合わせることで,固有表現抽出を実現した.評価実験として,実際のツイートを対象に条件付き確率場を使った手法との比較を行い,3%の精度向上と処理時間を 40%以上の削減を達成したことで,手法の有効性を示した.一部のフィルタは日本語に対して適用することができないため,日本語には対応できないと考えられるが,前処理として有用な手法が幾つかあることから,これらは前処理に応用できると考えられる.

2.5 ソーシャルネットワーク研究Yang らは [16] はソーシャルネットワークに対してグラフ理論的なアプローチを適用

し,Twitterにおけるスパムアカウントの検知を試みた.この研究では,Mr.SPAと CIA

の二つのアルゴリズムを提案,評価を行った.Twitter上には多くのスパムアカウントが存在しており,運営側もアカウント凍結に乗り出してはいるものの,一部のアカウントは何かしらの手段によって凍結を免れていると Yangらは主張した.まず,スパムアカウントの特徴を分析するため,予備実験を行った.これにより,スパムアカウント同士でフォ

9

ローしあうこと,一般アカウントに紛れたスパム活動をサポートするアカウントの存在やスパムアカウントはハブとなるアカウントと末端の葉のアカウントの2種類に分けられるという特徴を発見した.スパム活動をサポートするアカウントの種類を3種類定義し,それらのアカウントを検知するアルゴリズム Mr.SPA を提案した.このアルゴリズムは対象のアカウントをフォローフォロワー関係に基づいて点数化する.スパムアカウントをフォローしていればいるほど点数が高くなり,スパムサポートアカウントである可能性が高いといったルール付けがなされている.このアルゴリズムにより,スパムアカウントのハブアカウントを効率良く探すことができる.もう一つのアルゴリズム CIAは対象のアカウントがスパムかどうかを判定するものとなっており,予備実験で得られたスパムアカウントのツイート本文の意味的な類似度をもとに,未知のスパムアカウントを検知する仕組みとなっている.評価実験としては,幅優先・深さ優先探索アルゴリズムとの比較を行い,提案手法の有効性を示した.岩崎ら [17]は Twitterといった Consumer Generated Media(CGM)における炎上を分

析し,犯罪自慢や価値観の押し付け (SBCV)に類する炎上の予測を行った.幾つかの実例を出しながら炎上原因の分析を行った.SBCV型の炎上は,あるトピックに対する発言者の評価と世評が対立する場合に発生するとの仮説を立てた.事例ごとに世評の時系列的な変化を扱うために日次極性*2という指標を提案した.また,各事例を可視化しながら考察を行い,仮説の検証を行った.岩崎らはさらに決定木分類器を用いて SBCV 型の炎上のモデル化を行い,高い精度での検知を行った.評価実験にはこの決定木をモデルを投稿前の時点で得られる属性のみで行う必要があるため,味方率 (フォロワーによる RT) の代わりに割引累積日次極性を属性に組み込んで予測を行った.10 重交差検定により,F 値94%という高い精度が得られたとしている.小川ら [18]は Twitter上において沈黙の螺旋*3が起こりうるかどうかの検証と意見分布

の認知 (自らの意見が多数派であるか少数派であるかどうかの自覚),フォロワーとの同質性を分析した.フォロワーのユーザとの同質性の推定には機械学習手法の一つであるランダムフォレストを使用したとしている.小川らは,アンケートによる社会学的な調査と回答者の Twitterにおける発信や行動を用いることにより,個人の内部状態と行動,コミュニケーションネットワークを考慮したモデルを構築した.実験結果により,意見分布の認知と同質性における分析において,多数派であれば自身と同じ意見をの拡散や賛意を示す

*2 日毎の肯定的な Tweet数と否定的な Tweet数の差をトピックに関する全トピック数で割った値である.*3 沈黙の螺旋理論とは,少数派の意見を持っている自覚を持つ人は,多数派の意見を持つ人々からの反対や隔絶を恐れて,意見の表明を行い辛くなるという理論のことである.

10

ため,公式 RT・非公式 RT*4が促進されることがわかった.ツイートやメンションにおいて,意見表明が行われ,公式 RTや非公式 RTによって,自身と同じ意見を持つツイートを肯定し,拡散するという行動が見られた.これらの結果から,Twitterにおいても沈黙の螺旋理論における多数派の意見への一極集中が起こりうるとの結論を示した.Guerra ら [19] は様々な SNS におけるコミュニティ内の意見の相違における偏向度合

の測定を行った.同一コミュニティ内の複数の偏向を可視化し,数値化による分析を行った.Modularityといった従来指標では,コミュニティ内のグループは検知できるものの,そのコミュニティ内での意見の対立構造やその度合いはわからないとしている.そこで,Guerra らは偏向度数をネットワーク構造的に定義し,6 種類のコミュニティネットワークに対して適用した.空手クラブのコミュニティにおいては,二人の指導者の間で意見が対立しており,提案手法ではそれを数値化できていたことを示した.また,アメリカの銃規制に関するコミュニティでは,個人が独立した意見を主張していたか,それともある意見保有者を中心にして集まったかなど,単なる賛成か反対か以上のグループ構造を抽出できたとしている.Myers ら [20] は Retweet(RT) によるネットワーク構造の変化の分析と予測を行った.

Myers らは,RT によって元ツイートのユーザのフォロワーが短時間のうちに急増するという,RT フォローバースト (フォロワーが短期間のうちに急激に増える) 現象に着目した.フォローやアンフォロー (フォローを外すこと) という時系列情報を含んだデータセットに対して4種類の分析を行った.その分析とは,Twitterにおけるネットワーク構造の特徴分析,フォローバースト分析,ユーザのエゴネットワーク*5分析,バーストしたコンテンツの分析となっている.Twitterにおけるネットワーク構造の特徴分析では,1ヶ月で全体の約 9%に変化があり,7%がフォロー,2.3%がアンフォローという内訳となっており,単純に成長するネットワークではないと考察した.また,ユーザ属性に着目し,ツイート数が極端に多いまたは少ないとアンフォローされるとの分析を示した.フォローバースト分析では,3名の特徴の異なるユーザのツイート数や RT数を時系列化し,ユーザ属性によって RTされてもフォローが伸びないこともあると分析した.また,ユーザのエゴネットワーク分析では,バースト前後でのフォロワーの傾向の変化を分析した.分析により,バーストによって類似度の高いユーザの割合が増えるとの結果を示した.バーストしたコンテンツの分析では,バーストしたツイートの本文をトークンに分割し,出現頻度を求めたところ,政治活動に関する話題が多く占めており,多くの人が関わる物事ほど

*4 非公式 RTとは通常のツイートの先頭に対して,“RT @投稿者の username”という引用符を付加して投稿を行うものである.

*5 あるユーザ uから距離 1のユーザ,直接のフォロワーの事を指す.

11

バーストしやすいとの結果を示した.モデル構築では,ツイートの類似度の分布を考慮し,対数正規分布に従うように構築した.また,ユーザの類似度に応じたフォロー確率を求め,モデルに反映した.時間曲線化面積を用いた評価により,ランダムや RTを見た人の数といった他の指標よりも良い精度が得られ,ネットワーク構造の変化予測を行うことができたとしている.

12

第 3章

応答ツイート不可視化の有効性

ここでは,本研究が行った予備調査について,詳しく述べる.

3.1 Twitterの利用動向アンケート調査本研究では,Twitter利用目的や利用実態を把握するために Twitterユーザ 145名に対

して,アンケート調査を実施した.質問内容は,以下に示す通りである.

• 普段使用するアカウントのフォロー数• 普段使用するアカウントのフォロワー数• 保持しているアカウント数• 否定的な感情を抱いた経験の有無とその原因• Twitterの利用における当初の目的• 普段のつぶやきの主な内容• 空中リプライ*1の使用状況と具体的な用途• ミュート機能の使用状況• 指定期間ミュート機能*2がある場合の設定期間の長さ

回答方法は選択式を基本とし,一部の項目には自由記述欄を設け,回答してもらった.

*1 空中リプライとは,Mention 形式をとらずに,特定の相手に対するメッセージを直接投稿する行為である.相手にそれとなくメッセージを伝えるのに用いられるが,相手先を明示しないため,意図した相手以外のユーザに誤解を招くことがある.

*2 指定期間ミュート機能とは,指定したユーザを選択可能な一定期間ミュートを行う機能である.

13

3.2 アンケートの調査結果と考察否定的な感情の有無の項目では,回答者の 85%が他のユーザからのリプライによって,

否定的な感情を抱いた経験があると回答した.その具体的な内容として,図 3.1に示すように,“他のユーザへの誹謗中傷”や“TL(タイムライン)*3上での言い争い”,リプライにおける“論点のずれたやり取り”といったものが挙げられた.誹謗中傷や言い争いに関しては,キーワードによるフィルタリングといった既存の技術や手法によって,否定的な感情を抱くことを回避することができると考えられる.その一方で,“論点のずれたやり取り”は文脈やユーザ間の関係など,単なるキーワードによるフィルタリングでは検知が難しいと考えられる.また,“論点のずれたやり取り”は 34%と比較的高い上に,誹謗中傷や言い争いの原因にもなりうると考えられるため,誹謗中傷などの不利益を被る前にこうしたやり取りを回避する必要がある.言い争いや論点のずれたやり取りという要因が上位に位置することを踏まえると,Twitterにおける他者からの反応の中でも,特に否定的な感情に繋がりやすいのはリプライであると考えられる.リプライは公式に提供されているミュート機能では適用対象でないため,ユーザにとって回避が難しい.また,リプライを受け取ったユーザは返信の義務感の発生という精神的な負担もあり,否定的な感情をより喚起させるものと考えられる.

3.3 不可視化の有効性と評価の指針オンライン上での“論点のずれたやり取り”はある程度やり取りを重ねて,初めて気

付く場合が多いと考えられ,その原因にはユーザ自身と相手ユーザが会話における特定人物やトピックに関する前提知識の共有ができていないということが挙げられる.特にTwitterにおいては,投稿文字数制限による説明の不足や省略,RTによる想定外のユーザまで発信が届くといった要因が加わり,より発生しやすくなると考えられる.さらに,Twitterにおける TLのコンテンツはユーザによって異なるため,相手ユーザが見ていないツイートに対する感想やコメントがリプライを求めているように見えたり,空中リプライを自分に対するものではないかと勘違いしたりしてしまうことや,特定のユーザと会話したいが為に元ツイートの内容と関連が無いリプライを送るといったことが発生する.このような様々な要因による発生した論点や投稿の意図からずれたリプライからユーザを守るためには,こういったリプライをユーザに見せず,やり取りを回避することが必要

*3 時系列順に並べられた投稿ツイートの一覧

14

図 3.1 Twitterにおけるストレス経験の要因

であると考えられる.ツイートやリプライを不可視化するミュート機能は,当初はサードパーティ製クライアントの独自機能であったが,2014年 5月 13日に公式の機能として追加*4された.このことから,Twitter社側もミュート機能によって特定のユーザのツイートを不可視化し,ユーザが閲覧するコンテンツを制御することの有効性を認識していると考えられる.こうした考察から,投稿者の意図とずれていると思われるリプライの内容を一時的に伏せ,ユーザに取捨選択させることは有効であると考えられる.システム構築を見越した自動ミュート機能に関する質問において,誤判定により本来

ミュートする必要のないものまでミュートすることを心配する声があった.そのため,システムの評価としては,否定的な感情につながるツイートをミュートできるかどうかよりも,必要のないツイートまでミュートしてしまうかどうかで評価を行うのが妥当であると考えられる.したがって,本研究では適合率を重視する.

*4 https://blog.twitter.com/ja/2014/0513mute

15

第 4章

投稿者が期待する反応に応じた分類

ここではツイート分類のための手法及び分類器に関する詳細について述べる.

4.1 投稿者の期待する反応投稿者の意図と受信者の反応のずれを検知するためには,投稿の際に投稿者が他のユー

ザに対してどんな反応を期待しているかを知る必要がある.ツイートに対する他のユーザからの反応にはリプライ (返信),いいね*1,RT(リツイート, Retweet) の3種類がある.各反応は期待するかしないかの2値であり,それらの組み合わせは 8通りとなる.全てのツイートはこの 8通りのいずれかに当てはまると考えられる.投稿者は何かしらの意図や目的を持って発信すると考えられる.例えば,何か知りたい

情報があれば,その答え (リプライ) が得られるように,質問形式のツイートを行う.また,フォロワーを増やしたい,たくさんのいいねや RTを得たいユーザは他のユーザに求める反応を直接促したり,出来事を面白おかしく投稿したり,他のユーザの人気のあるツイートの本文をコピーして投稿したりするといった行動をする.その一方で,投稿者は単に投稿する行為そのものを目的に投稿を行うことがある.例としては,“もう帰りたい”,“眠い”といった他のユーザに対して,何も反応を期待せず,閲覧者も反応のしようがないといったものが挙げられる.こうした投稿者の期待する反応別に分類することは,Twitterからの有用性の高い情報

の抽出の観点からも有意義なことであり,スパムフィルタとしての利用やユーザの意見・関心事の抽出,娯楽性の高いメディアの抽出に応用できると考えられる.

*1 2015 年 11 月 3 日 に Favorite(お 気 に 入 り) 機 能 の 名 称 が い い ね に 変 更 と な っ た .https://blog.twitter.com/2015/hearts-on-twitter

16

表 4.1 投稿者の期待する反応別分類定義

期待する反応リプライ いいね RT 項目名

0 0 0 ひとりごと (ML)

0 0 1 宣伝・ニュース (AN)

0 1 0 感想・コメント・主張 (ICC)

0 1 1 Topic-providing(TP)

1 0 0 Information Needs(IN)

1 0 1 募集 (RC)

1 1 0 挨拶 (GT)

1 1 1 チェーンタグ (CT)

4.2 分類項目の定義本研究では,表 4.1に示すように投稿者の期待する反応に基づいた 8つの項目を定義し

た.表 4.1の“期待する反応”は‘0’が期待しない,‘1’が期待することを示している.8通りの期待する反応と実際のツイートを突き合わせ,各分類項目に特有な表現をもとに名前をつけた結果がここで示す分類項目である.各項目を具体的なツイート例と共に順に追って説明する.

4.2.1 ひとりごと (ML)

ひとりごと (ML : Monologue)ツイートは自身の身の回りの出来事や予定,現在地,身体状態,愚痴,思考をまとめるためのメモ書き,空中リプライなどである.他の項目と比べ,他のユーザが知りえない領域への言及という自己完結性を持つ.そのため,他ユーザからの反応は期待しないものと推察される.手がかり表現・特徴としては,以下の通りとなっている.

• 体の状態を示す語や現在地を示すもの• これからの意思や予定を示すもの• 詠嘆から始まるツイート• 単語のみといった参照関係が不明なもの

17

また,例として以下のツイートが挙げられる.

• 22時になったら宿題やる• 教科書忘れた 気にしない• スタバなう>< (画像)

• 新しいパーカー欲しいなぁ• 外でたら雨降ってる... 傘持ってない、どうしよ

4.2.2 宣伝・ニュース (AN)

宣伝・ニュース (AN : Advertising and News)ツイートは,店舗やサービスの宣伝,社会的な出来事のニュースなどの多くのユーザに RTしてもらうことで,たくさんの人に伝えたいという意図や併記した URLへの誘導という目的を持つ.投稿者と投稿内容における主体が異なる場合が多いため,原則的にリプライは期待しないものと考えられる.手がかり表現・特徴としては,以下の通りとなっている.

• 時,場所や演者に関する情報やイベントやブログの告知が含まれているもの• ニュースの内容,見出しや記事のアドレスを含み,見出しが記述されているもの

また,例として以下のツイートが挙げられる.

• 〈東京メトロ/丸ノ内線〉関東地方 運転見合わせ 09:48分頃、新宿御苑前駅でホームドア点検を行っている影響で、池袋ー荻窪駅間の運転を見合わせています。

• 12/12(金) 初ワンマンライブ渋谷 REXにて決定! 2014年 12月 12日(金)ワンマンライブ【OPEN/START】18:00/18:30

• Android 5.0以降向け [0.10β] 新機能 ・キーボードショートカットに一部対応 バグ修正 ・投稿画面で通知時に落ちるバグを修正 https://dply.me/faah42*2

• 植田智明さん、樋口尚吾さん(社会知能情報学専攻博士前期 2年)が JAWS2015で奨励賞を受賞 http://goo.gl/fb/SuLbf4 *3

• 西日本・北陸中心に雪 暴風雪・大雪に警戒 http://nhk.jp/N4NL4M6X #nhk news

 *4

*2 @kennel Devより https://twitter.com/Kennel Dev/status/678444946727165952*3 @uectokyoより https://twitter.com/uectokyo/status/651270589123010560*4 @nhk newsより https://twitter.com/nhk news/status/690823544213635073

18

4.2.3 感想・コメント・主張 (ICC)

感想・コメント・主張 (ICC : Impressions, Comments and Claims)ツイートは,ユーザが TL上の話題や社会情勢・TV番組といった,大域的な話題に対する感想や意見,立場を明らかにするものである.これらのツイートは積極的な議論よりも,同意や共感といったいいねを期待するものと考えられる.リプライによる批評や批判,多くのユーザへの拡散は炎上に繋がることがあり,リプライや RTを期待しないものと考えられる.手がかり表現・特徴としては,以下の通りとなっている.

• 物事に対する評価を示す形容詞を含むもの• 対象を評価する動詞を含むもの• 番組や放送局のハッシュタグを付与しているもの• 評価やコメントの対象を引用しているもの• 議論の対象を明示し,論じているもの

また,例として以下のツイートが挙げられる.

• ほしい> RT

• あの付近の道路は見通しが悪いから、信号を付けるなどの対応を至急すべきだと思う。

•(映画の作品名)面白かった!みんなも見たほうがいい• 2.1Aのモバイルバッテリーだと、何かの拍子に出力不安定になって、電源異常の割り込みでMacが再起動するみたい

4.2.4 Topic-providing(TP)

Topic-providingツイートは,非日常的な場面の画像や面白いと思われる稀有な体験談,会話内容や課題を指定し,ユーザの投稿を促すハッシュタグを含むツイートを TL上に発信すること,いわば TLへの話題提供を行うツイートで,いいねや RTをしてもらうことを意識したものである.性質上,フォロワーでないユーザからの的外れなリプライに晒される機会が多くなることや内容を脚色している場合も多いと考えられるため,リプライは期待しないものと考えられる.手がかり表現・特徴としては,以下の通りとなっている.

• 画像を持つものに関しては,画像の説明やコメントを含むもの

19

• 画像を持たないものに関しては,ユーザに指定した課題の投稿を促すハッシュタグを含むもの

• “「」”で会話形式をとるもの• 診断メーカー*5などを使って投稿されたツイート

また,例として以下のツイートが挙げられる.

• Twitterでトピック推定したら、「無い 上司 激務 解雇 企業 感情 病 未来」っていうキーワードを含むトピックが出てきて、現代社会の闇を垣間見た

• これは笑う (画像 URL)• 内定式で社内報と入館証用の写真撮られたけど、俺だけ笑顔が不気味という理由で呼び出されて取り直しになった

• 大学前車横転してんぞ... (画像 URL)*6

• 回転寿司のこのボタンって押すとどうなるんだろうか (画像 URL)*7

4.2.5 Information Needs(IN)

Information Needs ツイートは,TL や特定ユーザへの質問となっており,知識の正誤確認や物事の詳細・おすすめ,特定個人の情報を尋ねるものである.発信者はフォロワーの中に答えてくれる人がいるという期待の上で発信していることから,いいねや RTは期待しておらず,回答や提案のリプライを期待しているものと考えられる.手がかり表現・特徴としては,以下の通りとなっている.

• “~なの?”といった質問文の形式をとるもの• “おすすめ教えて”といった他者の意見を募るもの

また,例として以下のツイートが挙げられる.

• 広島と福岡間で安く行く方法を教えてください• (歌詞の一部分)この歌の曲名なんだっけ?

• なんかおすすめの飴かガムないですか?

• iPhoneで Simejiってどうなの?

*5 https://shindanmaker.com/*6 @2UTom 3 https://twitter.com/2UTom 3/status/503383213398425600*7 @sekimiya https://twitter.com/sekimiya/status/505319482139504640

20

• 基礎物理学のテスト範囲って どこ??

• 誰かオリジナルパーカー作れるサイト知らんかな 知ってたら教えてください

4.2.6 募集 (RC)

募集 (RC : Recruit) ツイートは,AN ツイートと同様の意図に加え,情報や条件に該当する人や興味を持った人からのリプライを期待するものである.ANの特性に加え,応募のリプライも期待していると考えられる.手がかり表現・特徴としては,以下の通りとなっている.

• “募集”や“~な人返信ください”などのユーザからのリプライを募る表現を含むもの

• “ しませんか?”や“誰か~しよ”などのフォロワーを誘う表現を含むもの

また,例として以下のツイートが挙げられる.

• 【交換希望】○○缶バッヂ 譲)○○ 求)○○ 会場での手渡し可能 (画像 URL)• ○○会の企画をしています。 6月 7日 (日) 11時~16時 ○○駅周辺 まだまだ参加者募集中なので 参加したい方は RT後にリプください

• 誰か池袋で暇な人いない?• 【ゆるぼ】 お茶の水 新宿で昼ご飯• 【緩募】Moto360 1st Gen. 23mm メタルバンドモデル (ブラック) 14k 中古 (画像URL)*8

4.2.7 挨拶 (GT)

挨拶 (GT : Greeting)ツイートは,実世界で使われる挨拶を TLに対して発信するものである.意味が通る範囲で略されることが多い.挨拶は特に相手からのリプライやいいねを期待していると考えられる.また,挨拶ツイートに対して,挨拶で返すやりとりが見受けられる.手がかり表現・特徴としては,以下の通りとなっている.

• 現実世界で使われる挨拶表現• 挨拶の省略表現を含むもの

*8 @2UTom 3 https://twitter.com/2UTom 3/status/649223890007293954)

21

また,例として以下のツイートが挙げられる.

• おは!!

• 寝ます おやすみなさい• ただいま• おはようございます!!!

4.2.8 チェーンタグ (CT)

チェーンタグ (CT : Chaintag)ツイートはハッシュタグに期待している反応 (リプライ,いいね,RT,フォロー)を明示または,“繋がりたい”といったフォローを催促するといった内容を含むものである.投稿者は指定した反応を強く欲していると考えられる.こうしたハッシュタグは,TL上で連鎖的に拡散するためチェーンタグと名付けた.手がかり表現・特徴としては,以下の通りとなっている.

• ハッシュタグに“フォロー”や“リプライ”,“いいね”,“ふぁぼ”,“RT”といった語句を含むもの

• フォロワーを増やすためにいいねや RTを期待する表現を含むもの

また,例として以下のツイートが挙げられる.

• 絵描きさんと繋がりたい #RTした人で気になった方フォローさせていただく(画像 URL)

• 思ってる事を 3つ言う #RTした人にやる #いいねしたひとにやる• 呼び方:第一印象:今の印象:関係:願望:一言:#リプした人にやる #いいねした人にやる

• #ふぁぼした人がどれだけ好きか具体的に表す• #2015年もあと少しなのでいいねしてくれた人に一言

4.3 分類手法本研究では,教師あり学習手法の一つである Support Vector Machine(SVM)を利用し,

先述のツイート項目別に学習を行い,8つの分類器を作成した.具体的な処理を以下に説明する.

22

4.3.1 教師ラベルの付与

Twitter Streaming API*9を用いて取得した日本語ツイートに対し,前掲の定義に従い,手動で教師ラベルを付与した.2014年 11月 1日~2015年 5月 30日の期間のツイートのうち,日にちと時間帯をランダムに選出し,クライアント名などから人の手によって投稿されたと判断される,返信形式をとらないツイートを使用した.本論文では,別々の手がかり表現や特徴を持つものに対しては,複数のラベルを付与し,学習や評価には利用しないこととした.また,字面の表す意味と実質的な意味との違いがあるツイートに関しては,字面を優先し,単一のラベルを付与することとした.この際,特殊文字で解読不能なものや URLのみのものを除いて,最終的に 13,004件のツイートに単一のラベルを付与した.このツイート群をデータセット 1とする.

4.3.2 前処理

URL などの英字文字列による後述の素性ベクトル化における素性数の肥大化を防ぐため,前処理として URL(http://)と@ (ユーザ名)の正規化を行った.URLは“URL”,ユーザ名に関しては,“@UN”に変換することとした.URLやユーザ名といったユニークな文字列に対する正規化による素性数を削減することは,学習・分類にかかる処理時間の短縮が見込まれる.また,分類器における特定文字列に対する過学習を抑制することもできるため,前処理における正規化は有用である.

4.3.3 素性ベクトル化

素性化にはツイートの本文に対して,N-gram(N=1, 2, 3 : 1-gram,2-gram,3-gramの組み合わせ) を使用した.予備実験において,日本語形態素解析器 kuromoji*10と比較したところ,N-gramがより精度よく分類できたため採用した.この N-gramは文字列を任意の N文字単位で分解し,文字列のトークン化を行う手法である.本研究においては,この手法を用いて学習用のツイートをトークン化し,各トークンに一意の番号を割り振ることで素性辞書を作成した.本研究において,N=1, 2, 3となった理由は,後述の特徴選択手法との組み合わせを検証を行う予備実験において,1≦ N ≦ 5 における全ての組み合わせを試行し,特徴選択手法を使用しない場合は,N=1, 2が,特徴選択を使用した場合

*9 https://dev.twitter.com/streaming/overview*10 http://www.atilika.org/

23

は,N=1, 2, 3が最も高い F値となった.また,特徴選択を使用した方が使用しない場合に比べて高い精度が得られたため,特徴選択と素性ベクトル手法として,N-gram(N=1,

2, 3)を使用することとした.

4.3.4 特徴選択

先述のN-gramでは,形態素解析などの方式と比べ,冗長性の高い素性が多く発生し,特徴次元数が大きくなってしまうという欠点がある.そこで次元の削減を目的として用いられるのが特徴選択手法である.代表的なものとして,Information Gainや TF-IDF(IDF)

などの素性の評価値に基づくものがあげられる.こうした特徴選択手法は,次元の削減だけでなく,精度の向上も見込むことができるため有用である.本研究では,Bi-Normal

Separation(BNS)[21]を用いた.BNSは上記の従来手法と異なり,素性全体の出現頻度は正規分布に従うとの仮定に基づき,素性が正例の場合と負例の場合でどれだけ分布に差があるかを考慮したものである.こうした工夫により,従来手法よりも精度良く特徴的な素性を選別できるとされているため採用した.予備実験において,データセット 1 に対して項目ごとに値域を変化させながら 10重交差検定を繰り返し行い,F値が最大となるときの評価値 b の値域を求めた.その評価値の値域によって選択された素性群を使用して各項目の分類器の学習を行った.評価値 bは素性毎に算出され,以下の式によって導出される.

b = ||F−1(tpr)− F−1(fpr)||

tpr = tp/(tp+ fn)

fpr = fp/(fp+ tn)

ただし,F−1 は逆正規累積分布関数.tp は正例のツイート群中における素性を含むツイート数,tnは素性を含まないツイート数である.fpは負例のツイート群中における素性を含むツイート数,fnは素性を含まないツイート数である.

4.3.5 分類器の学習

本研究では,分類器として Support Vector Machine(SVM) を用いた.SVM は関連研究 [6, 9, 10]など様々な研究において使用されている有用な手法である.また,未知の分類対象においても,高い精度が得られるという汎化性能を持つ [22]とされていることから採用した.また,本研究では8項目に対してそれぞれの SVM 分類器を構築した.本来,

24

SVMは 2値分類器であるため,複数の分類項目を扱う場合にはマルチクラス分類器を用いるのが一般的であると考えられるが,マルチクラス分類器では原則として,項目によって素性化手法を変更することや,素性ベクトルに属性値を付与することができない.本研究では将来的に分類項目ごとに最適な素性化手法や属性値の付与を行うことによる精度向上を考慮しており,8つの SVM分類器を独立させて用いることとした.特徴選択,分類器の学習,精度評価においては,Windows マシン上で行った.プログ

ラミング言語は Java を使用し,開発環境には Eclipse を用いてプログラムを構築した.使用した SVMのライブラリは SVMlight*11の Javaインターフェースである JNI Kernel

Extension for SVMlight*12を用いた.線形カーネルを採用し,パラメータ C はデフォルト値を使用した.データセット 1において,対象とする分類項目と一致するラベルを持つツイートを正例,それ以外を負例として学習させた.

*11 http://svmlight.joachims.org/*12 http://people.aifb.kit.edu/sbl/software/jnikernel/

25

第 5章

実装

ここでは,提案手法の実装に関して,詳しく述べる

5.1 提案手法を実装したクライアントの概要本研究では,最終的に図 5.1に示すような,システムを想定している.本論文では,提

案手法の実装とユーザが提案手法に基づくミュート機能やラベル付けを行うクラウドソーシング機能が利用できる Android 向け Twitter クライアントの実装を行った.このクライアントが持つ大きな機能は以下のものが挙げられる.

投稿

返信・通知

ラベル付ツイートデータの蓄積

不愉快なツイートなど

他ユーザーの反応・リプライ(返信)・いいね・リツイート(RT)

通常表示

ユーザー フレームワーク(Twitterクライアント) Twitterサーバー

一時的不可視化

ツイート投稿

分類結果との照合

返信内容の識別

メッセージの取捨選択

期待する反応別に分類

結果の保持

クラウドソーシング

蓄積したデータで再学習・反映

分類機

図 5.1 システムの全体像

26

• 提案手法による投稿ツイート分類機能• 分類結果に応じた反応のミュート機能• ラベル付きデータを収集するクラウドソーソング機能

機能の概要を順に説明する.

5.1.1 提案手法による投稿ツイート分類機能

Twitterクライアントから利用する分類器はMicrosoft Azure Machine Learning(Azure

ML)*1を用いて実装した.本研究では,提案手法を Azure ML上でも実装し,データセット 1を学習データとして,項目ごとに計 8個の分類器を構築した.判定結果を得る仕組みとしては,クライアント機能を持った Androidアプリケーションから,ツイートの本文を素性ベクトル化して送信し,判定結果を得る方式をとった.

5.1.2 分類結果に応じた反応のミュート機能

前項での判定結果に応じて,投稿したツイートに対する他のユーザの反応の不可視化を行う.いいねや RTを期待しない場合,それぞれの反応があったことを通知をせず,一切表示しないという処理を行う.一方で,リプライに関しては,図 5.2のような表示を行う.図 5.2は“けんねる”というユーザの“Update Info ”という ANツイートに対するリプライの警告表示である.TL上でどのユーザからどのツイートに対するリプライがあったかはユーザに警告を提示し,リプライの内容を一時的に不可視化するという方式をとった.この警告はユーザの操作により,簡単に解除することが出来る.この方式であれば,システム側が誤ってミュートしてしまった場合でも,ユーザ側で対処することが容易である.

5.1.3 クラウドソーソング機能

一般性のある学習用データを確保するためには,出来る限り多くのユーザから教師ラベル付きデータを収集する必要がある.本研究では,評価用のデータ収集のみならず,さらなる精度向上のための学習データ収集も兼ねたクラウドソーシングの機能を実装した.アプリケーションのインターフェースは図 5.3や図 5.4に示すようなものとなっている.これらのクラウドソーシングによるユーザから得られたデータは Microsoft Azure Mobile

*1 https://azure.microsoft.com/ja-jp/services/machine-learning/

27

図 5.2 警告表示の例

Apps*2に構築したデータベースへ格納される仕組みとなっている.図 5.3では,投稿者の期待する反応を投稿時に直接尋ねる形式となっている.この機能

を使用して投稿した場合のクライアントの動作は,分類器によるツイートの分類結果よりもユーザの期待する反応が優先される.したがって,この機能は手動での反応ミュート機能としても動作する.図 5.4では,TL上のツイートに対して,ラベル付けを行える機能となっている.投稿者

の期待する反応を直接尋ねるものではないが,ユーザ属性によって AN,RC,INや ICC

の投稿をしない場合があり,全項目のツイートを収集するために,他者が投稿したツイートに対するラベル付け機能を用意した.また,ユーザ自身が不愉快に思ったツイートを直接収集するため,“気に入らない”ボタンを設けた.こちらのラベル付け機能は,投稿後となるため,ユーザ自身のツイートに対してラベル付けを行っても,ツイートの判定は分類器が優先される仕様となっている.本論文では,この機能により 2015 年 8 月 25 日~2015 年 12 月 29 日の期間において,

約 1,800件のラベル付きデータを収集した.不愉快報告ツイートを除く,1,463件をデータセット 2とし,後述の評価実験に用いた.

*2 https://azure.microsoft.com/ja-jp/services/app-service/mobile/

28

図 5.3 投稿画面におけるクラウドソーシング機能

5.2 Azure MLにおける分類器の構築とWebサービス化Azure MLは機械学習アルゴリズムを使ったデータ処理を Webアプリケーションとし

て,容易に構築することができるサービスである.本研究では,このサービスを用いて分類器の入出力のWebアプリケーション化を行っ

た.こうしたサービスを使う利点は,障害に強いということやサーバサイドプログラミングに精通していなくても容易にセキュリティを確保したシステム構築を行える点である.一方で,使用できるプログラミング言語が限られていることやメモリに制限があるといった制約も存在する.しかし,サーバ構築コストや障害に強いという利点は提案手法のクライアントユーザからの信頼において,重要であるため Azure MLを利用した.Azure ML

における分類器の構築とWebサービス化に関する詳細を述べる.

5.2.1 Azure MLにおける分類器の構築方法

Azure MLは図 5.5のようなドロップアンドドロップで構成要素を繋ぎ合わせ,入力から出力までの処理の流れを定義することができる.構成要素には,分類アルゴリズム,特徴選択機能,データクリーニング,データ形式の変換・選択などが用意されており,これらを自由に組み合わせることで,機械学習による予測や分類を行うことができる.分類結果や予測結果は図 5.6に示すように可視化することができる.加えて,任意のコードを実

29

図 5.4 TL上のツイートに対するクラウドソーシング機能

行させる構成要素も用意されており,R言語と Pythonがサポートされている.

5.2.2 提案手法の実装とWebサービス化

本研究では,提案手法の SVM分類器を Azure ML上で実装した.SVMは Azure ML

上では,“Two-Class Support Vector Machine”として提供されている.本研究では,この SVMを用いた.このサービスへの入力は素性化された密ベクトルとなっている.入力された密ベクトルは,Pythonのスクリプト実行で疎ベクトルに変換し,SVMに入力される.この処理は,学習と分類の 2つの処理において共通して実行される.SVMの出力は‘0’か‘1’の2値となり,サービスとしての出力となる.

Web サービス (API) 化においては,先述の分類器の入力がWeb サービスの入力に切り替えられ,Webサービスエンドポイントが生成される.このエンドポイントに対して,

30

図 5.5 分類器の構築

APIキーと素性化したツイートを添えてアクセスすることにより,分類結果を得ることができる.本研究では,項目ごとに計 8個の分類器を構築し,8つのWebサービスとして構築した.

5.3 Twitterクライアントの機能提案手法をユーザにとって使いやすい形で利用できるために,本研究では Android ア

プリケーションとして Twitterクライアントを実装した.システム全体における,このア

31

図 5.6 分類結果の可視化

プリケーションの役目としては以下のものが挙げられる.

• Twitterクライアントとしてのユーザ操作機能の提供• Azureの提供するサービスとの通信機能• 投稿したツイートの密ベクトルへの変換• 受信した分類結果の統合• 期待しない反応のミュート• 期待しないリプライへの警告表示

32

• クラウドソーシング機能• 評価用の行動ログ収集

5.3.1 Twitterクライアントの実装

Twitter クライアントを Android アプリケーションとして実装した理由は,Java 言語で実装することができることやアプリケーションの配信が容易であることが挙げられる.対応しているバージョンは Android 4.2*3以上となっている.Twitter クライアントとしてのユーザ操作機能の実装には Twitter4j*4を用いた.このライブラリにより,ツイートの投稿機能やいいね機能,RT機能といった基本的な操作機能や Streaming APIを使ったツイートの取得などに対応している.投稿したツイートの密ベクトルへの変換に関しては,N-gramでトークン化したツイー

トをWindows 上で作成した素性辞書を利用してベクトル表現に変換することで実現した.Android 端末において,8 項目分の素性辞書をメモリ上に展開することは非効率的であり,本来は Azure ML 上で実装すべきである.しかし,Azure ML 上で実行できるPythonは 2.x系となっており,日本語 (マルチバイト文字)処理に問題があるため,クライアント上で素性化とベクトルへの変換を行った.この仕様は分類器の素性辞書の変更に伴ってアプリの更新が必要となるため,長期的な運用を考慮すると,中間の素性化サーバを用意する必要がある.受信した分類結果の統合においては,8 つの分類器を独立させているため,一つのツ

イートに対し複数の分類器が正であると判定する場合がある.その場合のクライアントの動作としては,正であると判定した各分類器の期待する反応の論理和を取った反応を受け入れることとしている.また,すべての分類器が負であると判定した場合には,MLツイートと判定された時と同じ動作となり,全ての反応がミュートまたは警告表示される.評価用の行動ログはユーザが以下のような操作や外部からのイベントがあった際に記録

することとした.

• ツイート/リプライ• 他のユーザのツイートに対するいいねや RT

• 他のユーザからリプライ,ふぁぼや RT

• 投稿者が期待しない他のユーザからのふぁぼや RTのミュート

*3 http://developer.android.com/about/dashboards/index.html*4 http://twitter4j.org/ja/index.html

33

• 投稿者が期待しない他のユーザからのリプライに対する警告• 上記の警告の解除

こうしたログは Azure Mobile Appsにおける SQLデータベースに保存される.ログには,以下のような情報が含まれる.

• ユーザ自身のアカウント ID

• 操作やイベントを示すカテゴリ• 対象のツイート ID

• 相手ユーザのアカウント ID

• リプライ元のツイート ID

• タイムスタンプ• クライアントのバージョン

5.3.2 Twitterクライアントの外観と配信

本研究において実装したクライアントは図 5.7 に示すような外観である.ユーザインターフェース (UI) に関しては,Google の提唱するマテリアルデザイン*5を参考にした.アプリを多くのユーザに配信するため,DeployGate*6を利用した.このサービスはAndroid端末における公式のアプリケーションマーケットである Google play*7とは異なり,開発中のアプリケーションを配布するのに特化している.DeployGateには,Google

play にはない,どの端末にどのバージョンが入っているかの管理やダウンロードのパスワード制限機能がある.Google playと同様にアプリケーションの更新の通知やバグなどの報告機能を持つ.このサービスを用いて,約 50台の端末にインストールしてもらった.

*5 https://www.google.com/design/spec/material-design/introduction.html*6 https://deploygate.com*7 https://play.google.com/store

34

図 5.7 アプリケーションの外観

35

第 6章

評価実験

本研究では,提案手法を用いて作成された 8つの分類器に対し,データセット 1を用いた交差検定による精度評価と,データセット 2を使用した分類精度評価を行った.さらに提案手法の有効性を検証するクライアントの操作ログを用いた評価を行った.分類器の精度評価に関しては,第3章第3節において述べた通り,不愉快な応答メッセージを持つ可能性の高いリプライをミュートできるかどうかよりも,必要のないツイートまでミュートしてしまうかどうかで評価を行うため,特にリプライを期待しない項目の適合率を重視する.

6.1 交差検定による各分類器の精度評価6.1.1 実験方法

この実験では,提案手法における精度を検証するため,データセット 1を用いた 10重交差検定を行った.評価指標として,適合率,再現率,F値を用いた.

6.1.2 実験結果と考察

実験結果を表 6.1に示す. 表 6.1より,ML,AN,TP,GT,CTの 5項目に関しては F

値 0.7を超える精度が得られた.特に,ML,GTの 2項目においては,F値 0.8を超える高い精度が得られた.ML に関しては,適合率に比べて再現率が高いという結果が得られた.これは,学習

データに含まれるMLツイートのデータ数は他の項目に比べて多いため,他の項目の投稿までもMLであると判定してしまったためである.また,MLツイートは挨拶を除く感嘆

36

表 6.1 10重交差検定による分類評価結果

項目 適合率 再現率 F値 BNS評価値 個数

ML 0.810 0.831 0.820 0.0 < b < 3.5 5,888

AN 0.837 0.757 0.795 0.1 < b < 2.9 1,550

ICC 0.419 0.334 0.372 0.8 < b < 3.0 1,394

TP 0.692 0.764 0.726 0.6 < b < 3.8 2,317

IN 0.794 0.603 0.686 0.2 < b < 3.8 564

RC 0.760 0.510 0.611 1.0 < b < 3.8 289

GT 0.932 0.851 0.890 0.3 < b < 3.6 492

CT 0.868 0.662 0.751 1.0 < b < 3.8 510

図 6.1 Topic-providingツイートの文字数分布

詞を含む文章が多いが,提案手法ではこうした品詞を考慮していないことが,適合率の方が低い要因の一つであると考えられる.精度を上げるためには,感嘆詞を含むツイートに対する前処理が必要であると考えられる.ICCに関しては,全項目中,精度が最も低いことがわかる.ニュースツイートをそのま

ま引用し,末部にユーザ自身の感想を付与するツイートは ANツイートとの差分が小さく

37

なるため,学習が困難であったと推察される.また,主張や考察に関しては,発信者毎に特有の言い回しがあり,分類項目を通しての特徴を見つけるのは困難であると考えられる.精度向上のためには,感想・コメント・主張という 3つの小分類のそれぞれに対し,独立した分類器を作成することや AN分類器との連携,学習データの増量といったことが挙げられる.

TPに関しては,画像有りと画像無しで特徴とする素性に大きく差が出たことが精度低下の要因となっていると考えられる.詳しく調べたところ,図 6.1に示す通り,画像有りでは画像の情報量が大きいためか,数文字程度の説明や感想にとどまり,画像つき TPツイートの半数が画像の URL を除いて 20 文字以内であることがわかった.一方の画像無しでは,1つのツイートで内容を完結させるため,100文字以上のツイートが半数を占めることがわかった.こうした特徴を踏まえると,精度の向上のためには,画像の有無で分類器を分けるといった工夫をする必要があると考えられる.INに関しては,Zhaoら [21]の Information Needsの定義とは異なり,’?’に依存しな

い定義をしているため,言い回しによって特徴的な素性が大きく異なるため,精度が低いものとなった.RC に関しては,真陽性となったツイートを俯瞰したところ,“交換希望”や“募集”

といった語を持つツイートが見受けられた.一方で,“~しませんか?”や“~で~しない?”といった勧誘ツイートを検知できていなかった.また,“交換希望”という語句を含むツイートが多く散見された.このような語句は他のユーザが検索機能で探しやすくするために,投稿者によって意図的に付与されていると考えられる.分類器がこうした語句を含むツイートの検知に特化したため,低い再現率となったと考えられる.精度向上のためには,学習データ量の調整や勧誘表現のツイートを増やすことが挙げられる.これらの結果から,交差検定における全項目の平均 F値は 70.6%となった.各項目が

独立した分類器であるという特徴を生かし,項目ごとに最適な素性化手法や前処理を施し,さらなる精度向上を目指す必要がある.

6.2 データセット 2を用いた各分類器の精度評価6.2.1 実験方法

この実験では,データセット 1で学習した分類器をデータセット 2を用いて評価した.ただし,Twitterのお気に入り機能の名称変更に伴い,分類の際に“いいね”を“ふぁぼ”に文字列置換を行った.分類方法と評価指標は前項と同様である.

38

表 6.2 データセット 2に対する分類結果

項目 適合率 再現率 F値 BNS評価値 個数

ML 0.588 0.913 0.716 0.0 < b < 3.5 368

AN 0.560 0.467 0.510 0.1 < b < 2.9 139

ICC 0.686 0.327 0.444 0.8 < b < 3.0 366

TP 0.543 0.490 0.515 0.6 < b < 3.8 284

IN 0.720 0.410 0.521 0.2 < b < 3.8 88

RC 0.864 0.247 0.384 1.0 < b < 3.8 77

GT 0.955 0.867 0.909 0.3 < b < 3.6 98

CT 0.841 0.860 0.851 1.0 < b < 3.8 43

6.2.2 実験結果と考察

実験結果を表 6.2に示す.6.2より,ML,AN,TP,IN,GT,CTの 6項目に関してはF値 0.5を超える精度が得られた.特に,GT,CTの 2項目においては,F値 0.85を超える高い精度が得られた.これらの 2項目に関しては,特有のキーワードを含むため,実データにおいても高い識別精度が得られたと考えられる.MLに関しては,他の項目の投稿までもMLであると判定してしまうという傾向がより

強く表れており高い再現率となった.このままでは,投稿したツイートに対する反応が全て不可視化されかねないため,より適合率を重視した BNS評価値を設定する必要があると考えられる.ANに関しては,再現率が大きく低下する結果となった.この項目はニュースという最

新のトピックや時期を表す語句を扱うため,時期の新しいツイートに対しては既知の素性では対応しきれなかったものと考えられる.クラウドソーシングにより,新出の語句を補充することができれば,分類精度を改善できると考えられる.ICCに関しては,交差検定時よりも高い精度が得られた.引用ツイート機能*1により,

ニュース記事等への感想コメントの文字数制限が緩和された.従来までは少ない素性で分類を行っていたニュース記事の内容に対するコメントや意見を検知しやすくなったと考えられる.

*1 https://support.twitter.com/articles/20170062

39

TPに関しては,ANと同様に新出の語句や表現といった“流行”を扱うものと考えられるため,学習用のデータが古くなるほど精度は低下していくと考えられる.INに関しては,再現率が低下した.Twitterにおけるアンケート機能*2の実装により,

質問におけるツイートの本文の特徴が変化したと考えられる.RCに関しては,適合率が上昇し,再現率が半減するという結果となった.特にアニメ

グッズなどの交換を希望する意図のツイートに関しては,そのアニメの放送時期に依存して投稿されるものが多いため,既知の素性では対応できなかったと考えられる.この項目においても,クラウドソーシングを使った追加学習により,新出の語句を補充することができれば,再現率を改善できると考えられる.これらの結果から,リプライを期待しない4項目 (ML,AN,ICC,TP)の平均適合率

は 59.4%となった.また,全項目の平均 F値は 60.6%となった.特徴的なキーワードが変化しない項目に関しては,交差検定時とほぼ同等かそれ以上の精度が得られたものの,その他の項目に関しては,学習データに含まれる語句に依存することがわかった.また,学習用データと分類対象の投稿時期や Twitter側の仕様変更により,特徴が異なることが確認されたため,クラウドソーシングによる追加学習の効果を検証する必要があると考えられる.

6.3 追加学習による精度向上評価6.3.1 実験方法

クラウドソーシングによる追加学習の有効性を評価するため,データセット 1にデータセット 2の半分を加えて学習し,残り半分を分類する評価を行った.BNS評価値は前項と同一である.2分割したデータセット 2をそれぞれ学習用データと評価用データとして入れ替え,平均を取った.評価指標は前項と同様である.

6.3.2 結果と考察

実験結果を表 6.3 に示す.表 6.3 と前掲の表 6.2 を比較すると,CT 以外の全項目で F

値が向上した.MLに関しては,再現率が低下したものの,適合率と F値の改善が確認された.MLは

*2 Twitter 社が 2015 年 10 月 21 日に提供を開始した2択~4択で回答することのできるアンケート機能である.本論文執筆時点で,ツイートがアンケートであるかどうかを判定することは出来ない.https://blog.twitter.com/2015/introducing-twitter-polls

40

表 6.3 追加学習による分類結果

項目 適合率 再現率 F値 BNS評価値

ML 0.626 0.899 0.738 0.0 < b < 3.5

AN 0.624 0.561 0.591 0.1 < b < 2.9

ICC 0.766 0.382 0.506 0.8 < b < 3.0

TP 0.591 0.486 0.533 0.6 < b < 3.8

IN 0.726 0.430 0.540 0.2 < b < 3.8

RC 0.838 0.339 0.477 1.0 < b < 3.8

GT 0.976 0.866 0.918 0.3 < b < 3.6

CT 0.842 0.860 0.851 1.0 < b < 3.8

幅広い語句を網羅しているが,追加学習によって特徴的な新出語彙が補充されたことによって,実データに対する適合率が向上したと考えられる.ANに関しては,適合率と再現率の両方が改善され,F値が向上した.この項目は特に

流行しているものの語句や新出語句に敏感な分類器であると考えられる.そのため,学習データに含まれない語句を持つツイートに対して精度が低下すると考えられる.この結果から,クラウドソーシングによって語彙を補充し,分類器を更新することで新出語句を含むツイートの分類に対応することができたと言える.ICCに関しては,適合率と再現率の両方が改善され,F値が向上した.幅広い語彙を網

羅するMLツイートとの区別が難しいことには変わりないが,長期間かつ幅広い話題を網羅しながらツイートを集める必要があると考えられるため,クラウドソーシングでこれらのツイートを継続的に収集することが有効であると考えられる.TPに関しては,再現率が下がったものの,適合率が改善され,F値が向上した.この

項目に関しても新出語句や RTやいいねされやすい表現に“流行”があり,それらが分類に作用したものと考えられる.IN に関しては,適合率と再現率の両方が改善され,F 値が向上した.データセット内

の INツイート群には,説明が不十分であるものも含まれているため,より質の高い学習データを得るためにクラウドソーシングは有用であると考えられる.RCに関しては,適合率に低下が見られたが,再現率が大きく改善したため,全項目の

中で F値が最も向上した.再現率の改善は,交換希望対象の具体的な名称を網羅したことが大きな要因であると考えられる.しかし,依然として勧誘ツイートは検知ができていな

41

いため,勧誘ツイートを重点的に集めて学習する必要がある.GTに関しては,適合率が向上し,再現率が低下した.CTと同様に特徴的なキーワー

ドが決まっているため,顔文字に挨拶文を含むものは検知が困難であり,このようなツイートが分類対象に含まれていたことにより再現率が若干低下したものと考えられる.CTに関しては,クラウドソーシングで得られたデータはこの項目の数が少なかったこ

とや,特徴的な表現が新たに加えられたツイートにも共通していたために,変化が見られなかったと考えられる.これらの結果から,リプライを期待しない4項目 (ML,AN,ICC,TP)の平均適合率

は 65.2%となった.また,全項目の平均 F値は 64.4%となった.クラウドソーシングにより8項目中 7項目の F値が向上し,全体平均の F値が改善されたことから,新しいラベル付きツイートを用いた追加学習は実データに対する分類精度向上手法として,有効であると言える.

6.4 クライアントの操作ログによる評価6.4.1 実験方法

提案手法を実装したクライアントによる有効性を検証するため,操作ログによるユーザの使用動向の分析を行った.解析対象期間は 2015 年 11 月 26 日~2016 年 1 月 7 日である.ログを収集できたユーザ数は 24名となり,そのうち,評価に充分なログ数を確保できたのは 7名であった.得られたログから,ユーザ毎にクライアントを使用して投稿した回数,リプライを期待していないツイートに対する他のユーザからのリプライ数,図 5.2

に示す警告表示を解除した回数と警告を解除したリプライに対して,ユーザが無反応 (リプライ,いいね,RTを行わなかった)もしくは“気に入らない”ボタンを押すといった無視回数の 4種類の数値を算出した.また,投稿した回数と警告表示を解除した回数から警告解除率を求めた.これらの数値をもとに考察を行う.

6.4.2 結果と考察

結果を表 6.4に示す.総ログ数はユーザ毎の各反応の通知やリプライの投稿,いいねやRT操作等を全て合計した数値を示している.表 6.4より,ユーザ 1-4の 4名が警告を必ず解除していることがわかった.また,このユーザ群は全員がツイート非公開アカウン

42

表 6.4 ログの分析結果

ユーザ フォロワー 総ログ数 投稿数 警告数 解除数 無視回数 警告解除率

1 約 100名 97 50 4 4 2 100%

2 約 600名 34 9 2 2 2 100%

3 約 400名 31 5 2 2 1 100%

4 約 300名 302 51 29 29 0 100%

5 約 100名 414 174 24 17 9 71%

6 約 100名 197 83 12 8 2 67%

7 約 2,000名 306 78 24 7 5 29%

ト*3となっており,承認したユーザ以外がリプライを送ることが原則なく,警戒をする必要がないため,すべての警告を解除したと考えられる.しかし,ユーザ 1は警告を解除したものの無視したものが解除回数 4回に対して 2回,ユーザ 2に関しては,解除回数 2回に対して 2回とも無視する結果となった.ユーザ 3関しては,警告解除回数 2回に対し,1回無視していることがわかった.これはクライアントの利用期間がまだ短いため,内容が気になってしまい,警告を解除してしまったと考えられる.ユーザ 1-3に関しては,警告解除後に無視をしたということから,本システムに対する信頼度が高まることに繋がると推察されるため,今後,警告解除率の低下が期待される.ユーザ 4もツイート非公開アカウントであるが,投稿や他のユーザへの応答が多いこと

から,ソーシャルメディア活動に対して,積極的なユーザであると言える.他のユーザとの交流を求めているユーザであると考えられ,すべての警告を解除したと考えられる.さらに,無視回数も 0となっており,律儀なユーザであると推察される.また,リプライは様々なユーザから送られてきており,ある特定のユーザとだけやり取りを続けているわけではないことがわかった.こうしたユーザ属性では,本システムの効果は得られにくいと考えられる.残りのユーザ 5-7は,警告表示を解除と保留を使い分けていることがわかった.ユーザ

5 はユーザ 6,7 と比較して,投稿数に対する警告数が少ないことがわかる.ユーザ 5 では,一つのツイートに対して,他のユーザからの複数の反応が集中し,すべての反応がミュートされていることが確認された.このようなツイートの一部において,クラウドソーシング機能による項目の報告があった.照らし合わせると,いいねや RTを期待する

*3 https://support.twitter.com/articles/243055

43

0

5

10

15

20

25

30

35

40

45

1 2 3 4 5 6 7 8

イベント回数

使用日数

ツイート数 リプライミュート数 解除数

図 6.2 ユーザ 7の警告解除率の変化

TP意図したものであった.分類器による判定ではMLとなっていたことから,誤判定であったことがわかった.TPを意図したユーザにとって,ツイートに対する反応が全て不可視化されるのは不愉快であると考えられるため,各項目の精度の改善と再現率の方が高いML分類器の判定範囲の調整が必要であると考えられる.ユーザ 6 は比較的投稿が多く,そのツイートも ML と判定されたものが多く占めてい

た.また,このユーザは継続的にクライアントを使用し続けていることから,判定をある程度信用し,リプライを送ったユーザの IDなど見て取捨選択した可能性があると言える.リプライに関するログを詳しく分析したところ,数名の特定のユーザとやり取りが多く,こうしたユーザからのリプライの警告は解除する傾向があった.警告解除や無視に関しては,特に偏りは見られなかったことから,期待した反応やユーザの情報によって取捨選択を行ったものと考えられる.ユーザ 4とユーザ 6の考察から,よくやり取りするユーザからのリプライは警告や不可視化を行わないといった,ユーザ同士の関係性を考慮することでシステムとしての完成度が高まると考えられる.ユーザ 7 は最も低い解除率となった.このユーザも,一つのツイートに対して,他の

ユーザからの反応が集中していることが確認できた.また,使用期間の初日以外において,警告の解除は確認されなかった.無視回数も総ログ数と解除数を考慮すると高いものとなっている.他のユーザと同様にリプライの内容が気になり,解除したものと思われる.本論文では,フォロワー数が 2,000を超え,ソーシャルメディア活動に対して強く積極

的であると考えられるユーザ 7 に着目した.ユーザ 7 のツイート関連のログイベントを時系列に並べたものを図 6.2に示す.図 6.2において,ログのなかった日は除いて示している.クライアントの利用初期では高い警告解除率が確認されていたが,2日目以降は警

44

告の解除が見られなかった.警告解除率が初日の時点で 50%となっていた.また,初日のうち,初期の警告表示に関しては,解除したもののリプライを無視したことが確認できた.初日のうちにシステムに対する信頼度が高まったため,解除をしなくなったと考えられる.2日目以降も投稿と警告表示が確認されたが,解除されておらず,他のクライアントでリプライを送った形跡も確認できなかった.このことからも,ユーザ 7は本システムを信頼したと考えられ,本研究の狙い通り,閲覧するかどうかの取捨選択を効果的に行うことができたと考えられる.ユーザ 7の投稿のうち,クラウドソーシング機能を併用していたものを調査したところ,ツイート投稿に際して,どの反応も期待しないと報告し,分類器による判定と一致していたことがわかった.このことからも,本システムにおける分類結果を信用していたことが伺える.ユーザ 7の結果から,ユーザ 1-3に関しても推察通り,システムに対する信頼度が上がれば,警告解除率が下がると考えられる.これらの結果と考察をまとめると以下のようになる.

• 利用の初期段階では,ユーザはあえて警告を解除することで,システムに対する信頼度を測っている.

• 警告を解除してリプライの内容を見たが,無視する場合がある.• 他のユーザとの交流を積極的に行うユーザにとっては,警告表示の解除が手間となる.

• よく会話を行うユーザのリプライは期待する反応に依らず,解除する傾向にある.• システムに対する信頼度の高いユーザは,期待する反応と相手ユーザとの関係性を考慮しながら,内容を閲覧するかどうかの取捨選択を行っている.

これらの結果を踏まえると,投稿者の期待する反応を識別し,期待しないリプライに対して警告表示を行う提案手法と手法を実装したクライアントは,他のユーザからのリプライを受け取る機会の多い,一部のユーザからの信頼を得ることができた.期待しないツイートに対するリプライを完全に不可視化せず,内容のみを隠すという警告表示に留めたことも,ユーザに対して安心感や信頼感をもたらした要因の一つであるとも考えられる.また,投稿者の期待する反応に応じたツイートの分類と警告表示により,内容を閲覧するかどうかの取捨選択を効果的に行うことができた.これにより,提案手法は不愉快な応答メッセージを持つ可能性の高いリプライに接触する機会を減らすのに有効であるといえる.一方で,よくやり取りするユーザからのリプライは警告や不可視化を行わないといった,ユーザ同士の関係性を考慮し,不可視化を限定的に行うといった改良が必要であることと考えられる.

45

第 7章

まとめ

本論文では,リプライ形式でないツイートに対し,ユーザの期待する反応別の分類手法の提案と分類器の精度評価を行った.また,提案手法を実装したクライアントを開発し,操作ログを用いた評価を行った.本研究では,“SNS疲れ”に繋がる否定的な感情を抱かせるやり取りやメッセージを回

避するため,械学習を用いて投稿者の意図に則した期待する反応を認識し,期待しない反応が他のユーザから送られてきた際に,それらを一時的に不可視化 (ミュート) する.リプライの内容を見るかどうかを投稿者の意思に委ねることによって,ユーザ間のミスコミュニケーションによる否定的な感情に繋がるやり取りを未然に防ぎ,疲れを軽減するという手法を提案した.この手法を実現するため,投稿者の期待する反応に応じた分類項目の定義を行った.項目はツイートに対する 3つの反応 (リプライ,いいね,RT)の 8通りの組み合わせを基に定義した.また,教師あり学習アルゴリズムを用いるため,収集したツイートに対してラベル付けを行い,投稿者の期待する反応に応じた分類を行う SVM分類器を構築した.また,構築した分類器から,投稿したツイートの分類結果を取得し,結果に応じて不可視化を行う Twitterクライアントを開発した.開発した Twitterクライアントは Twitterの基本操作機能を備え,提案手法における分類に基づいた不可視化を行う機能も備えている.リプライの不可視化に関しては,仲の良いユーザからのメッセージの見逃しや分類器の誤判定を考慮し,リプライを送信したユーザは表示し,メッセージの内容のみを隠すという警告表示に留めた.評価実験により,リプライを期待しない4項目の実データに対する平均適合率は 59.4%,

全項目の平均 F 値は 60.6% となった.さらに,クラウドソーシングで投稿時期の新しいデータを追加して学習することにより,それぞれ平均適合率は 65.2%,平均 F 値は64.4%まで改善した.この結果より,クラウドソーシングによる追加学習を継続的に行う

46

ことで,精度の向上と新語への対応が行えることを示した.クライアントの操作ログの評価より,投稿者の期待する反応を識別し,期待しないリプ

ライに対して警告表示を行う提案手法と手法を実装したクライアントは,投稿者の期待する反応に応じたツイートの分類と警告表示により,内容を閲覧するかどうかの取捨選択を効果的に行うことができた.これにより,提案手法は不愉快な応答メッセージを持つ可能性の高いリプライに接触する機会を減らすのに有効であるといえる.一方で,よくやり取りするユーザからのリプライは警告や不可視化を行わないといった,ユーザ同士の関係性を考慮し,不可視化を限定的に行うといった改良が必要であることが示された.今後の課題として,以下の項目が挙げられる.

• 分類器の精度向上• ユーザ同士の友好度の算出手法の提案とシステムへの反映• 評価対象ユーザの拡大とさらなるログ収集の継続• 継続的なクラウドソーシング• リプライの内容識別

47

謝辞

本研究を遂行するにあたり,ご多忙の中,終始適切かつ丁寧なご指導を下さった折原良平客員教授,大須賀昭彦教授,田原康之准教授,清雄一助教に深く感謝致します. ご多忙の中,週 1 回のゼミを初めとして熱心な研究指導を賜り,貴重な勉学の機会を与えて下さったことに厚く御礼申し上げます.また,研究の機会と議論・研鑽の場を提供して頂き,御指導頂いた国立情報学研究所/東京大学の本位田真一教授をはじめ,活発な議論と貴重な御意見を頂いた研究グループの皆様,大須賀・田原研究室の皆様に感謝致します.本研究を行う過程で非常に多くの方から御支援を頂きました.ツイート例として投稿の使用・論文掲載を快諾してくださった@sekimiya氏を始め,利

用実態アンケートへの回答や多くの方に協力を呼びかけてくださった Twitterユーザの皆様に感謝致します.また,実装した Twitterクライアントを使用し,評価に必要なログの収集やクラウドソーシングへの協力してくださったユーザの皆様や所属研究室の皆様に感謝致します.本研究で用いたオープンソース・ソフトウェアである SVMlightを開発をされているコー

ネル大学の研究グループを始め,本研究の主要な開発言語である Java及び AndroidOS,その他ライブラリの開発者,実験環境の一部で利用したMicrosoft Azureなど,御支援を頂いたすべての方々に心より感謝申し上げます.最後に,本論文の執筆中のみならず,修士課程の 2年間,経済的・精神的に支えてくだ

さった両親と家族に感謝いたします.

48

参考文献

[1] Toshihiko Yamakami. Towards understanding SNS fatigue: exploration of social

experience in the Virtual World. In Computing and Convergence Technology (IC-

CCT), 2012 7th International Conference on, pp. 203–207. IEEE, 2012.

[2] T. Ravindran, A.Y.K. Chua, and G.D. Hoe-Lian. Characteristics of Social Net-

work Fatigue. In Information Technology: New Generations (ITNG), 2013 Tenth

International Conference on, pp. 431–438, April 2013.

[3] 加藤千枝. 「SNS疲れ」に繋がるネガティブ経験の実態 : 高校生 15名への面接結果に基づいて (研究). 社会情報学, Vol. 2, No. 1, pp. 31–43, jun 2013.

[4] Christian Maier, Sven Laumer, Andreas Eckhardt, and Tim Weitzel. When Social

Networking Turns to Social Overload: Explaining the stress, Emotional Exhaus-

tion, and Quitting Behavior from Social Network sites’ Users. In ECIS, p. 71,

2012.

[5] Xinlin Yao, Chee Wei Phang, and Hong Ling. Understanding the Influences of

Trend and Fatigue in Individuals’ SNS Switching Intention. In System Sciences

(HICSS), 2015 48th Hawaii International Conference on, pp. 324–334, Jan 2015.

[6] Zhe Zhao and Qiaozhu Mei. Questions About Questions: An Empirical Analysis

of Information Needs on Twitter. In Proceedings of the 22Nd International Con-

ference on World Wide Web, WWW ’13, pp. 1545–1556, Republic and Canton of

Geneva, Switzerland, 2013. International World Wide Web Conferences Steering

Committee.

[7] 長谷川貴之, 鍜治伸裕, 吉永直樹, 豊田正史. オンライン上の対話における聞き手の感情の予測と喚起. 人工知能学会論文誌, Vol. 29, No. 1, pp. 90–99, 2014.

[8] 來迎直裕, 小笠原直人, 佐藤究, 布川博士. 消えるメッセージによる義務感を軽減するコミュニケーションツール. 情報処理学会研究報告. EC, エンタテインメントコンピューティング, Vol. 2014, No. 1, pp. 1–6, mar 2014.

49

[9] 稲葉通将, 神園彩香, 高橋健一. Twitterを用いた非タスク指向型対話システムのための発話候補文獲得. 人工知能学会論文誌, Vol. 29, No. 1, pp. 21–31, 2014.

[10] 原正和, 浅井拓海, 高橋寛幸, 但馬康宏, 菊井玄一郎. マイクロブログのインフォーマルな書き込みに対する自動分類. 情報処理学会研究報告. MPS, 数理モデル化と問題解決研究報告, Vol. 2014, No. 25, pp. 1–2, feb 2014.

[11] 山本修平, 佐藤哲司. トピックと局面の対応関係に基づく実生活ツイートのマルチラベル分類. 情報処理学会論文誌データベース(TOD), Vol. 7, No. 2, pp. 24–36, jun

2014.

[12] 田中成典, 中村健二, 加藤諒, 寺口敏生. マイクロブログの投稿時間に着目したユーザの職業推定に関する研究. 情報処理学会論文誌データベース(TOD), Vol. 6, No. 5,

pp. 71–84, dec 2013.

[13] Alan Ritter, Mausam, Oren Etzioni, and Sam Clark. Open Domain Event Ex-

traction from Twitter. In Proceedings of the 18th ACM SIGKDD International

Conference on Knowledge Discovery and Data Mining, KDD ’12, pp. 1104–1112,

New York, NY, USA, 2012. ACM.

[14] Ke Tao, Fabian Abel, Claudia Hauff, Geert-Jan Houben, and Ujwal Gadiraju.

Groundhog Day: Near-duplicate Detection on Twitter. In Proceedings of the 22Nd

International Conference on World Wide Web, WWW ’13, pp. 1273–1284, Re-

public and Canton of Geneva, Switzerland, 2013. International World Wide Web

Conferences Steering Committee.

[15] Diego Marinho de Oliveira, Alberto H.F. Laender, Adriano Veloso, and Altigran S.

da Silva. FS-NER: A Lightweight Filter-stream Approach to Named Entity Recog-

nition on Twitter Data. In Proceedings of the 22nd International Conference on

World Wide Web, WWW ’13 Companion, pp. 597–604, Republic and Canton of

Geneva, Switzerland, 2013. International World Wide Web Conferences Steering

Committee.

[16] Chao Yang, Robert Harkreader, Jialong Zhang, Seungwon Shin, and Guofei Gu.

Analyzing Spammers’ Social Networks for Fun and Profit: A Case Study of Cyber

Criminal Ecosystem on Twitter. In Proceedings of the 21st International Conference

on World Wide Web, WWW ’12, pp. 71–80, New York, NY, USA, 2012. ACM.

[17] 岩崎祐貴, 折原良平, 清雄一, 中川博之, 田原康之, 大須賀昭彦. CGMにおける炎上の分析とその応用. 人工知能学会論文誌, Vol. 30, No. 1, pp. 152–160, 2015.

[18] 小川祐樹, 山本仁志, 宮田加久子. Twitter における意見の多数派認知とパーソナル

50

ネットワークの同質性が発言に与える影響:原子力発電を争点とした Twitter上での沈黙の螺旋理論の検証. 人工知能学会論文誌, Vol. 29, No. 5, pp. 483–492, 2014.

[19] Pedro Henrique Calais Guerra, Wagner Meira Jr., Claire Cardie, and Robert Klein-

berg. A Measure of Polarization on Social Media Networks Based on Community

Boundaries. In Emre Kiciman, Nicole B. Ellison, Bernie Hogan, Paul Resnick, and

Ian Soboroff, editors, ICWSM. The AAAI Press, 2013.

[20] Seth A. Myers and Jure Leskovec. The Bursty Dynamics of the Twitter Information

Network. In Proceedings of the 23rd International Conference on World Wide Web,

WWW ’14, pp. 913–924, New York, NY, USA, 2014. ACM.

[21] George Forman. BNS Feature Scaling: An Improved Representation over Tf-idf for

Svm Text Classification. In Proceedings of the 17th ACM Conference on Informa-

tion and Knowledge Management, CIKM ’08, pp. 263–270, New York, NY, USA,

2008. ACM.

[22] 栗田多喜夫. パターン認識と機械学習 (音声・言語・音響教育,一般). 電子情報通信学会技術研究報告. SP, 音声, Vol. 110, No. 81, pp. 61–66, jun 2010.

51

研究業績

論文誌植田智明,折原良平,清雄一,田原康之,大須賀昭彦:不愉快な応答ツイートの不可視

化,人工知能学会論文誌・論文特集「エージェント技術とその応用」, (投稿中)

国際会議Tomoaki Ueda, Ryohei Orihara, Yuichi Sei, Yasuyuki Tahara and Akihiko Ohsuga:

Towards the Elimination of the Miscommunication between Users in Twitter : Tweet

classification based on expected responses by user ,The 28th Australasian Joint Confer-

ence on Artificial Intelligence(AI 2015), 2015.12, p589-p595, Short採択 採択率 58%

査読付き国内シンポジウム植田智明,折原良平,清雄一,田原康之,大須賀昭彦:Twitter におけるミスコミュニ

ケーションの解消に向けて ―ユーザの期待する反応に応じたツイート分類― ,合同エージェントワークショップ&シンポジウム 2015 (JAWS 2015), pp.306-313 (2015.10), Long

採択 Long採択率 15% 奨励賞受賞

全国大会植田智明,折原良平,清雄一,田原康之,大須賀昭彦:ユーザーの期待する反応に応じ

たツイート分類,2015年度人工知能学会全国大会(第 29回)論文集, 3M4-5 (2015.6)