Minimally Supervised Classification to Semantic Categories using Automatically Acquired Symmetric...

21
Minimally Supervised Classification to Semantic Categories using Automatically Acquired Symmetric Patterns 小小小小小 B 小小 小小 COLING 2014 小小小 ※ 小小小小小小小小小小小小小小小小小小小小小小小小

Transcript of Minimally Supervised Classification to Semantic Categories using Automatically Acquired Symmetric...

Page 1: Minimally Supervised Classification to Semantic Categories using Automatically Acquired Symmetric Patterns

Minimally Supervised Classification to Semantic Categories using Automatically Acquired Symmetric

Patterns

小町研究室  B 4 堺澤 勇也

COLING 2014 読み会

※ このスライド中のすべての図はこの論文中のものです

Page 2: Minimally Supervised Classification to Semantic Categories using Automatically Acquired Symmetric Patterns

対象パターン ( e.g., “X and Y” ) と I-k-NN を使用して、名詞の意味分類をする

先行研究とは違い、事前に対象パターンを定義せず、生のテキストから教師なし手法でパターンを自動で抽出する

実験結果から、対象パターンは word embedding 手法と比較して分類素性として良い素性だった

簡単な kNN アルゴリズムで最新の異なる手法の実験結果を上回る結果になった

この論文の主張

Page 3: Minimally Supervised Classification to Semantic Categories using Automatically Acquired Symmetric Patterns

この論文のタスクは名詞の意味カテゴリの分類である Semantic Categorization of Concrete Nouns :

名詞カテゴリに相当する具体的な“もの”に着目 名詞の文脈に依存しない性質は異なりレベルの分類に適

してしる Dataset :

CSLB property norms dataset を使用 被験者30人が638個の具体的な名詞に対してカテゴ

リを付けてもらったもの

タスク定義

Page 4: Minimally Supervised Classification to Semantic Categories using Automatically Acquired Symmetric Patterns

CSLB 内の2725個のカテゴリから以下の二つを満たすものが欲しい

(1) 単一の名詞カテゴリ (2) 顕著な意味カテゴリ

そのために以下のような操作をする 1つの名詞にのみアノテーションされてるもの (名詞

の5%である35の名詞に現れるもののみ) 低頻度のカテゴリを消去 各意味カテゴリ c に対して、 c のカテゴリだとアノ

テーションされた名詞全体の各名詞のこの名詞はカテゴリ c であるとアノテーションした人数が10人以上のもの

最後に、色やサイズなどなど具体的なものに相当しないカテゴリを除く

これにより残ったカテゴリは以下の4つとなった Animacy (animals), edibiliy (food items) Is_a_tool (tools), is_worn (clothes)

Category Selection

Page 5: Minimally Supervised Classification to Semantic Categories using Automatically Acquired Symmetric Patterns

Patterns : 構造的なフレーズ表現から提供される、単語とワイ

ルドカードの組み合わせから構成される 例 → “ X such as Y”, “X is a country”

Symmetric Patterns : 交換可能な二つのワイルドカードを含むパターンを

指す 例 → “ X and Y”, “X or Y”, “X as well as Y”

先行研究では、このパターンは意味的に似ている単語ペアを見つけることが出来ている

対象パターン

Page 6: Minimally Supervised Classification to Semantic Categories using Automatically Acquired Symmetric Patterns

Flexible Patterns : 完全な教師なし手法で生のテキストから抽出される 以下の二つの構成要素がキーアイディアとなる

high frequency words (HFW), content words (CW) コーパス内の単語の出現回数を基に、言語内の各単

語はどちらかに定義される HFW はほとんど機能語、 CW はほとんど内容語とな

る この二つは、生のテキストからパターンを抽出する

のに有用である

自動獲得の為に使用するパターン

Page 7: Minimally Supervised Classification to Semantic Categories using Automatically Acquired Symmetric Patterns

CWs と HFWs による単語の分類を基に、大きなコーパスを詳しく読み込むことで抽出される

抽出されたパターンは、 CW ワイルドカードと HFWsにとって変わる実際の単語で構成される

(例) “The boy is happy and joyful” は内容語が CW となり、 →  “ The CW is CW and CW” となる。

上記の表現から、与えられた長さの制限(この論文では最大5)の単語の系列を抽出し、 Flexible patterns としてそれを示す。

上記の文章から、長さの制限を5とすると、“ The CW is CW and” と “ CW is CW and CW” が Flexible patternsとなる

Flexible Patterns の獲得

Page 8: Minimally Supervised Classification to Semantic Categories using Automatically Acquired Symmetric Patterns

最初に二つの CW を含む Flexible patterns を抽出する そして、それらの CW を入れ替えることが可能なパターン

を選択 つまり、 CW1 と CW2 を含むパターンを抽出し、それら

を入れ替えたパターンがコーパス中 (今回は google books 5-gram を使用)に出現するならばそれらは対象パターンである

例 “cats and dogs”, “dogs and cats ” がある

→  “ CW and CW” は対象パターン “countries such as France” はあるが“ France such as

countries” はない →  “ CW such as CW” は対象パターンではない

対象パターンの自動抽出

Page 9: Minimally Supervised Classification to Semantic Categories using Automatically Acquired Symmetric Patterns

グラフの構築 ノードが単語、エッジが単語間の関係に相当する すべての対象パターン P に関与する単語ペアを取り、そ

の単語ペアが現れる頻度が α を超えた場合、それらの単語のノードをエッジで結ぶ

重みは単語ペアのパターンの頻度の相乗平均で決まる ラベル伝搬

iterative variant of the k-Nearest Neighbors algorithm (I-k-NN) を使用してラベルを伝搬させる

シードの拡張 新たなシードを獲得するために、グラフ上強いエッジ

(頻度が β 以上)にノード v を与え、それがラベル l がついたノード γ とつくか、ラベル l がついたノードの隣接 δl につくかまで繰り返す

Model :重み付き無向グラフ

Page 10: Minimally Supervised Classification to Semantic Categories using Automatically Acquired Symmetric Patterns

シード拡張の例

+1

-1-1

+1

ノードは単語を指すエッジは単語間の関係を指す(ノード内の数字は人手でアノテーション)

Page 11: Minimally Supervised Classification to Semantic Categories using Automatically Acquired Symmetric Patterns

シード拡張の例

+1

-1-1

+1

ノードは単語を指すエッジは単語間の関係を指す(ノード内の数字は人手でアノテーション)

ノード間で同じ対象パターンがコーパス中β (この論文では50) 以上現れるときそれらのノードを結ぶ

Page 12: Minimally Supervised Classification to Semantic Categories using Automatically Acquired Symmetric Patterns

シード拡張の例

+1

+1

-1-1

+1

+1

ノードは単語を指すエッジは単語間の関係を指す(ノード内の数字は人手でアノテーション)

ノード間で同じ対象パターンがコーパス中β (この論文では50) 以上現れるときそれらのノードを結ぶ

ノード間で l とラベル付けされているノードとつながったノードはラベル l としてラベル付けされる(これをつながっているすべてのノードがラベル付けされるまで繰り返す)

Page 13: Minimally Supervised Classification to Semantic Categories using Automatically Acquired Symmetric Patterns

グラフ構築の例

+1

+1

-1-1

+1

-1

ノードは単語を指すエッジは単語間の関係を指す(ノード内の数字は人手でアノテーション)

Page 14: Minimally Supervised Classification to Semantic Categories using Automatically Acquired Symmetric Patterns

グラフ構築の例

+1

+1

-1-1

+1

-1

ノードは単語を指すエッジは単語間の関係を指す(ノード内の数字は人手でアノテーション)

ノード間で同じ対象パターンがコーパス中に α (この論文では3) 以上現れるときそれらのノードを結ぶ

重みはその対象パターン相乗平均とする

Page 15: Minimally Supervised Classification to Semantic Categories using Automatically Acquired Symmetric Patterns

ラベル伝搬の例 : I-k-NN

+1

+1

-1-1

+1

-1

緑のノードに対するラベル伝搬を考える

Page 16: Minimally Supervised Classification to Semantic Categories using Automatically Acquired Symmetric Patterns

ラベル伝搬の例 : I-k-NN

+1

+1

-1-1

+1

-1

緑のノードに対するラベル伝搬を考える

左の緑ノードは +1 とラベル付けされたノードが2つ、 -1 とラベル付けされたノードが3つくっついているのでそれらの比は、 max(2,3) / 5 = 3 / 5右の緑ノードは、 -1  とラベル付けされたノードが一つだけくっついているので比は、 1 / 1 = 1

Page 17: Minimally Supervised Classification to Semantic Categories using Automatically Acquired Symmetric Patterns

ラベル伝搬の例 : I-k-NN

+1

+1

-1

-1

-1

+1

-1

緑のノードに対するラベル伝搬を考える

左の緑ノードは +1 とラベル付けされたノードが2つ、 -1 とラベル付けされたノードが3つくっついているのでそれらの比は、 max(2,3) / 5 = 3 / 5右の緑ノードは、 -1  とラベル付けされたノードが一つだけくっついているので比は、 1 / 1 = 1

求めた比の最大値をとるものだけを採用するこれを、すべてのノードにラベルがつくまで繰り返す

Page 18: Minimally Supervised Classification to Semantic Categories using Automatically Acquired Symmetric Patterns

ここでは、対象パターンの素性としての役割と I-k-NN のラベル伝搬手法としての有用性を示すために二つのタイプのベースラインと比較している

分類素性ベースライン

ラベル伝搬ベースライン

実験

Page 19: Minimally Supervised Classification to Semantic Categories using Automatically Acquired Symmetric Patterns

分類素性ベースライン SENNA

Word embedding 手法をベースとするディープネットワーク

今回の比較では単語の類似性測定として二つの word embedding 間の cos 類似度を使用

Brown Brown アルゴリズムによって示される単語クラスタリング

手法 グラフを構築する為に、単語の類似性として、バイナリツ

リー (単語は葉ノードに対応)の距離を使用 ラベル伝搬ベースライン

N-Cut 正規化したグラフカットアルゴリズム

MAD (Modified Adsorption) 確率的なグラフベースのラベル伝搬アルゴリズム

各ベースライン

Page 20: Minimally Supervised Classification to Semantic Categories using Automatically Acquired Symmetric Patterns

実験結果

ほとんどの手法で SP ( symmetric patterns ) がよい精度を出していることが確認出来る

また I-k-NN は単純なアルゴリズムながら他の手法と同等かそれを上回る精度を出している

Page 21: Minimally Supervised Classification to Semantic Categories using Automatically Acquired Symmetric Patterns

ラベルシードセットサイズの分析

( a ) : 異なった分類素性の比較

( b ) : 異なったラベル伝搬アルゴリズムの比較

( c ) : トップ4つの性能モデル

どれも提案手法が一番高い F値を示していることがわかる