Positive Unlabeled Learning for Deceptive Reviews Detection

Positive Unlabeled Learning for Deceptive Reviews Detection

by Y.Ren, etc

担当： Quasi_quant2010

EMNLP2014読み会@PFI1

【EMNLP2014読み会】

本論文を読んだ動機- 負例に偏ったデータにおける情報推薦の考察 -


データがスパース性を持つ場合、負例に偏ったデータが大半

検索連動広告ではCTRが数%

通常の識別モデルでは、データの大半が負例のため、汎化性能が低い

低い汎化性能のため、10-fold・CVとかABテストとかで性能を担保する

バイアス高い・・・

基本的な疑問

人間の観測測度で、データがスパース性を持つのでは？

神様の観測測度で、データはデンス性を持っているはず？

PU(Positive Unlabeled) Learning

データをスパースからデンスにし、スパース正則化でRecallを上げる

今回の論文はスパース正則化ではない

神様と人間の中間を目指す!!

Likely Positive(注)後述とLikely Negativeにより情報がデンスになる

例えば短文データの場合、同義語への拡張が識別可能性を上げる

本論文のタスク具体例- 同じ商品なのに、レビューが全く違う -

異なるユーザー嗜好でレビューが変化するのは望ましい

ただし、ユーザーレビューが他ユーザーに有益とは限らない

本論文は、ユーザーを欺くレビューを発見するタスクの実証

ECサイトの品質向上を狙った応用が考えられる


レビューがユーザーの役に立たない

レビューがユーザーの役に立つ

アイディア①：スパースからデンスへ- |Reliable Negative| ≫ |Positive| -

典型的な例として、データが負例に偏っている場合がある

負例ラベルを持つデータには、正例を持ってもよいものもある

正例ラベル(=P)、ラベルなしデータ(=U)が与えられた時、本当の意味での負例(RN)が識別できれば、U/RNが分かる

U/RNをさらに、Likely Positive(LP)・ Likely--Negatibe(LN)として分類し、学習データをデンスにすることで、学習関数の識別可能性を上げるただし、本研究ではスパース正則化は議論の対象外


アイディア②：先行研究との違い- {Unlabelled/Reliable Negative}を使う -

ノーテーション

P = Positive samples

U = Unlabelled samples

RN = Reliable Negative samples

U/RN = Unlabelled / Reliable Negative samples

先行研究①

P・RNをのみから学習関数を求める為、識別可能性に限界がある

先行研究②

P・RN・U/RNを使う

本研究

P・RN・U/RNを使い、学習関数を求める。他方、特徴量生成の際、global・local特徴量を考慮する事で、識別可能性を高める


U/RNをポジ・ネガを識別する特徴量ソースとして利用できれば苦労しないが・・・

先行研究の結果- U/RNの活用と特徴量生成の工夫 -


U/RNをポジ・ネガ識別の新たな特徴量ソースとして利用すれば識別可能性は上がる

本研究では、global・local特徴量ソースをマージしている

U/RNを使用- Global SPUL : global特徴量のみを考慮- Local SPUL : local特徴量のみを考慮- LELC : SPULと異なる点は、特徴量にglobal・local性を考慮しない

U/RNを使用しない- Spy-EM : SpyでRNを抽出し、NBで学習関数推定- Roc-SVM : RocchioでRNを抽出し、SVMで学習関数推定

ポジ・ネガ識別の特徴量ソースとしてU/RNを利用

[11 Xiao] IJCAI, Similarity-Based Approach for Positive and Unlabelled Learning

問題設定- PU Learningと計算手順 -

Given

Positiveデータとラベルなしデータ

Positiveデータ、{“+1”:秋口には飲みたくなるビール}

ラベルなしデータ、{“null”:苦みのあるプレミアムビール}

Then

Step1 : Reliable Negative Extraction

Step2 : PとRNを使ったポジ・ネガの単語表現(ベクトル)作成

Step3 : Step2で計算した単語表現によるLPとLN構築

Step4 : P∪LP・RN∪LNを使った、ソフトSVMによる識別予測EMNLP2014読み会@PFI7

PU

RNLP

LN PとRNがポジ・ネガを表現していればよいLP・LNを構築できる・・・

PとRNを使ったポジ・ネガの単語表現構築- LDAにより(文書内)単語に潜在意味を付与 -

抽出したRNにLDAを適用し、単語トピックを同定。

次に、各レビュー文書を以下のような表現に変換；

{“トピック”:青, “単語”:国境の長い, “φ”:1.0e-5}

1レビューを上記JSONの集まりと考え、k-meansでRNをクラスタリング(コサイン類似度)

ただし、内積を計算する際、トピックが異なる場合はゼロ


[持橋大地] 機械学習に基づく自然言語処理, IBIS 2013 tutorial

論文中にはLDAを使ったとだけ記述。Multi Grain-LDAなどの記述なし。また、どの様にBoWを作ったかも記述なし・・・

スパースなデータでk-meansで大丈夫？Sparse k-meansとかもあるが・・・

PとRNを使ったポジ・ネガの単語表現構築- RNで作成したクラスターがネガ表現としてGood -

PとRN(= Ui=1 RNi)を使ってn個のp・nの単語ベクトル構築

従来

レビュー文にtf-idfを適用してからk-means

割り引いた頻度情報でクラスタリング

提案手法

レビュー文にLDAを適用してからk-means

潜在意味を獲得


n

n

p・nがよりリッチな情報に

P∪LP・RN∪LNを使った、識別予測(ソフトSVM)- 新規性:Global・Local特徴量のマージ -

Population Property : Global特徴量

Individual Property : Local特徴量

Similarity Weight : Global特徴量 + Local特徴量


先行研究のSPUL Localに相当

先行研究のSPUL Globalに相当

提案手法のMPIPULに相当

データ- Positive and Unlabelled sample -

6977レビューがPositiveとして記録(TripAdvisor)

ただし、Positiveレビューの内、以下を除去

1. 5つ星でないレビュー

2. 英語でないレビュー

3. 75文字未満のレビュー

4. 初めてレビューを書き込んだ人の場合は、除去


Likely Positiveとして機能するのは1・3・4

Positive Unlabelled

訓練データ 72 648 720

Positive decceptive

訓練データ 360 360 720

Positive decceptive

テストデータ 40 40 80 訓練データのデータ量を20%・30%・40%と変えて頑強性も評価

訓練データの内訳

結果①- 人手の評価 -

3人にテストデータのラベルを予測させた

個々人のバイアスを除くため、

多数決による予測ラベル決定

3人中２人がP(ポジ)と判断した時、P(ポジ)

全会一致による欺くレビューの決定

3人中3人がN(ネガ)と判断した時、N(ネガ)

→ 人間は、ユーザーを欺くレビューを62.4%の正確性で予測


注）ユーザーを欺くレビュー(ネガ)を予測できた場合。よくある、Precision is ポジRecall is ポジ+ネガ

ではないので注意

結果②- 実験結果：提案手法、MPIPUL -


Global特徴量のみを考慮

Local特徴量のみを考慮

①LDAを用いた潜在意味獲得②Global・Local特徴量をマージ

LDAを利用したことによる性能向上の考察

SPUL-local(global) vs SPUL-local(global)-ldaは・・・

Global・Local特徴量のマージによる性能向上の考察

SPUL-local(global)-ldaとMPIPULを比較すべきでは・・・

スパースなデータにk-meansで大丈夫・・・

Stopwordを除きk-meansで文書クラスタリングした場合は・・・

Sparse k-meansあるけど・・・

本タスクの比較として適切でない

個人的な気づき- サービスのステージにおける手法選択 -

モデルという観点では、RN・Pが増えるほど半教師から教師あり学習へ近づき、LP・LNに対する考察が深まる

LP・LNの考察が性能向上という観点で重要!!

実務という観点では、サービス開始時期はコールドスタートになるので、機械情報推薦する場合は拡張の工夫が必要。本手法はLP・LNも考慮するので適している


RN P

- - - : サービス構築の為の累積コスト：企業利益(日次)

時間

サービス開始時期

サービス安定時期

参考文献 Positive Unlabeled Learning for Data Stream

Classification

Similarity-Based Approach for Positive and Unlabelled Learning

The effect of adding relevance information in a relevance feedback environment

Building Text Classifiers Using Positive and Unlabeled Examples

Partially Supervised Classification of Text Documents

Experimental Perspectives on Learning from Imbalanced Data


Positive Unlabeled Learning for Deceptive Reviews Detection

Data & Analytics

Transcript of Positive Unlabeled Learning for Deceptive Reviews Detection