Minimally Supervised Classification to Semantic Categories using Automatically Acquired Symmetric...

Minimally Supervised Classification to Semantic Categories using Automatically Acquired Symmetric

Patterns

小町研究室　 B ４　堺澤　勇也

COLING 2014 読み会

※ このスライド中のすべての図はこの論文中のものです

対象パターン（ e.g., “X and Y” ）と I-k-NN を使用して、名詞の意味分類をする

先行研究とは違い、事前に対象パターンを定義せず、生のテキストから教師なし手法でパターンを自動で抽出する

実験結果から、対象パターンは word embedding 手法と比較して分類素性として良い素性だった

簡単な kNN アルゴリズムで最新の異なる手法の実験結果を上回る結果になった

この論文の主張

この論文のタスクは名詞の意味カテゴリの分類である Semantic Categorization of Concrete Nouns :

名詞カテゴリに相当する具体的な“もの”に着目名詞の文脈に依存しない性質は異なりレベルの分類に適

してしる Dataset :

CSLB property norms dataset を使用被験者３０人が６３８個の具体的な名詞に対してカテゴ

リを付けてもらったもの

タスク定義

CSLB 内の２７２５個のカテゴリから以下の二つを満たすものが欲しい

（１）単一の名詞カテゴリ（２）顕著な意味カテゴリ

そのために以下のような操作をする１つの名詞にのみアノテーションされてるもの（名詞

の５％である３５の名詞に現れるもののみ）低頻度のカテゴリを消去各意味カテゴリ c に対して、 c のカテゴリだとアノ

テーションされた名詞全体の各名詞のこの名詞はカテゴリ c であるとアノテーションした人数が１０人以上のもの

最後に、色やサイズなどなど具体的なものに相当しないカテゴリを除く

これにより残ったカテゴリは以下の４つとなった Animacy (animals), edibiliy (food items) Is_a_tool (tools), is_worn (clothes)

Category Selection

Patterns : 構造的なフレーズ表現から提供される、単語とワイ

ルドカードの組み合わせから構成される例　→　“ X such as Y”, “X is a country”

Symmetric Patterns : 交換可能な二つのワイルドカードを含むパターンを

指す例　→　“ X and Y”, “X or Y”, “X as well as Y”

先行研究では、このパターンは意味的に似ている単語ペアを見つけることが出来ている

対象パターン

Flexible Patterns : 完全な教師なし手法で生のテキストから抽出される以下の二つの構成要素がキーアイディアとなる

high frequency words (HFW), content words (CW) コーパス内の単語の出現回数を基に、言語内の各単

語はどちらかに定義される HFW はほとんど機能語、 CW はほとんど内容語とな

るこの二つは、生のテキストからパターンを抽出する

のに有用である

自動獲得の為に使用するパターン

CWs と HFWs による単語の分類を基に、大きなコーパスを詳しく読み込むことで抽出される

抽出されたパターンは、 CW ワイルドカードと HFWsにとって変わる実際の単語で構成される

（例） “The boy is happy and joyful” は内容語が CW となり、 → 　“ The CW is CW and CW” となる。

上記の表現から、与えられた長さの制限（この論文では最大５）の単語の系列を抽出し、 Flexible patterns としてそれを示す。

上記の文章から、長さの制限を５とすると、“ The CW is CW and” と “ CW is CW and CW” が Flexible patternsとなる

Flexible Patterns の獲得

最初に二つの CW を含む Flexible patterns を抽出するそして、それらの CW を入れ替えることが可能なパターン

を選択つまり、 CW1 と CW2 を含むパターンを抽出し、それら

を入れ替えたパターンがコーパス中（今回は google books 5-gram を使用）に出現するならばそれらは対象パターンである

例 “cats and dogs”, “dogs and cats ” がある

→ 　“ CW and CW” は対象パターン “countries such as France” はあるが“ France such as

countries” はない → 　“ CW such as CW” は対象パターンではない

対象パターンの自動抽出

グラフの構築ノードが単語、エッジが単語間の関係に相当するすべての対象パターン P に関与する単語ペアを取り、そ

の単語ペアが現れる頻度が α を超えた場合、それらの単語のノードをエッジで結ぶ

重みは単語ペアのパターンの頻度の相乗平均で決まるラベル伝搬

iterative variant of the k-Nearest Neighbors algorithm (I-k-NN) を使用してラベルを伝搬させる

シードの拡張新たなシードを獲得するために、グラフ上強いエッジ

（頻度が β 以上）にノード v を与え、それがラベル l がついたノード γ とつくか、ラベル l がついたノードの隣接 δl につくかまで繰り返す

Model :重み付き無向グラフ

シード拡張の例

+1

-1-1

+1

ノードは単語を指すエッジは単語間の関係を指す（ノード内の数字は人手でアノテーション）


+1

-1-1

+1


ノード間で同じ対象パターンがコーパス中β （この論文では５０）以上現れるときそれらのノードを結ぶ


+1

+1

-1-1

+1

+1


ノード間で同じ対象パターンがコーパス中β （この論文では５０）以上現れるときそれらのノードを結ぶ

ノード間で l とラベル付けされているノードとつながったノードはラベル l としてラベル付けされる（これをつながっているすべてのノードがラベル付けされるまで繰り返す）

グラフ構築の例

+1

+1

-1-1

+1

-1


グラフ構築の例

+1

+1

-1-1

+1

-1


ノード間で同じ対象パターンがコーパス中に α （この論文では３）以上現れるときそれらのノードを結ぶ

重みはその対象パターン相乗平均とする

ラベル伝搬の例 : I-k-NN

+1

+1

-1-1

+1

-1

緑のノードに対するラベル伝搬を考える


+1

+1

-1-1

+1

-1


左の緑ノードは +1 とラベル付けされたノードが２つ、 -1 とラベル付けされたノードが３つくっついているのでそれらの比は、 max(2,3) / 5 = 3 / 5右の緑ノードは、 -1 　とラベル付けされたノードが一つだけくっついているので比は、 1 / 1 = 1


+1

+1

-1

-1

-1

+1

-1


左の緑ノードは +1 とラベル付けされたノードが２つ、 -1 とラベル付けされたノードが３つくっついているのでそれらの比は、 max(2,3) / 5 = 3 / 5右の緑ノードは、 -1 　とラベル付けされたノードが一つだけくっついているので比は、 1 / 1 = 1

求めた比の最大値をとるものだけを採用するこれを、すべてのノードにラベルがつくまで繰り返す

ここでは、対象パターンの素性としての役割と I-k-NN のラベル伝搬手法としての有用性を示すために二つのタイプのベースラインと比較している

分類素性ベースライン

ラベル伝搬ベースライン

実験

分類素性ベースライン SENNA

Word embedding 手法をベースとするディープネットワーク

今回の比較では単語の類似性測定として二つの word embedding 間の cos 類似度を使用

Brown Brown アルゴリズムによって示される単語クラスタリング

手法グラフを構築する為に、単語の類似性として、バイナリツ

リー（単語は葉ノードに対応）の距離を使用ラベル伝搬ベースライン

N-Cut 正規化したグラフカットアルゴリズム

MAD (Modified Adsorption) 確率的なグラフベースのラベル伝搬アルゴリズム

各ベースライン

実験結果

ほとんどの手法で SP （ symmetric patterns ）がよい精度を出していることが確認出来る

また I-k-NN は単純なアルゴリズムながら他の手法と同等かそれを上回る精度を出している

ラベルシードセットサイズの分析

（ a ） : 異なった分類素性の比較

（ b ） : 異なったラベル伝搬アルゴリズムの比較

（ c ） : トップ４つの性能モデル

どれも提案手法が一番高い F値を示していることがわかる

Minimally Supervised Classification to Semantic Categories using Automatically Acquired Symmetric...

Science

Transcript of Minimally Supervised Classification to Semantic Categories using Automatically Acquired Symmetric...