EMNLP 2015 yomikai

1

EMNLP 読み会Graph-based Readability Assessment Method using Word Coupling

2015/10/24@niam

Zhiwei Jiang, Gang Sun, Qing Gu∗, Tao Bai, Daoxu Chen

2

自己紹介を兼ねて

• 専門：自然言語処理，言語教育， NLP 応用数百語ぐらいの単語テストの結果を用いて，学習者が知っている単語を当てるタスク機械学習的な手法：ラベル伝搬法sklearn.semi_supervised.LabelPropagation/LabelSpreading 関数あたり．

• 去年の EMNLP 2014@ カタールに，ラベル伝搬＋言語教育ネタで通しました．

• この論文も，ラベル伝搬＋言語教育なので読みます．

3

タイトルを見るGraph-based Readability Assessment Method using Word Coupling• Graph-based : Gaussian Random Field

(GRF, ICML 2003), scikit-learn でいうところの LabelPropagation 関数使ったよ

• Readability Assessment ：昔からあるタスク．例えば，与えられた英文テキストが，英検何級レベルですか？というような識別問題

• Word Coupling ：これが新しく，著者らが提案している，単語間関係を考慮して識別するための前処理

4

ラベル伝搬法 1/2INPUT:枝に重みが付いたグラフノードの一部へのラベル

枝の重みに従ってラベルを伝搬

OUTPUT:全ノードのラベル

大敵：ハブノード

[Zhu+, ICML 2003]

Hub ノードを省く話は日本では，Ikumi Suzuki で検索すると出てくる

5

ラベル伝搬法 2/2簡単な半教師あり学習法．重要な手法は２つ• Gaussian Random Field

– sklearn とこの論文では Label Propagation という名前

Zhu+, Technical Report CMU-CALD, 2002Zhu+, ICML 2003←GRF ． ICML 2013 classic paper prize– 出力を確率値とみなせる（全ノードの値を足すと１）

• Learning with Local and Global Consistency– Zhou+, NIPS 2004– 言語処理では， Komachi+, EMNLP 2008 等で

使用– 出力は確率値とみなせない

6

この研究の全体像

1. 単語 - 文書関係(TF-IDF)

2. 単語間の難易度の差

3. 単語 - 文書関係各文書に対して，単語次元の素性ベクトルができる

4. グラフを構築

7

1. 単語 - 文書関係

普通の tf-idf 行列．f(t,d): 語 t が文書 d に出てきた頻度

8

2. 単語間の難易度の差

語 t に関して i 番目の要素が以下であるような確率ベクトルを作る

語 t が現れる文の数 nt のうち， l(s)=i （難しさが i 程度）であるものの比率

l(s): 文 s に対して，この値が大きいほど難しいとみなせるような素性の値．非負の整数値に丸め．（後述）

p は確率分布なので，下記の式で Jensen-Shanon Divergenceを計算．（ただし， JSD の名前は出てこない）

2 単語間の関係を，下記のように定義

9

3. 単語間の難易度の差を考慮した単語 - 文書行列

単語 - 文書行列

単語 - 文書行列TF-IDF

単語間の難易度の差を表す行列

10

4. グラフの構築

単語 - 文書行列

単語 - 文書行列TF-IDF

単語間の難易度の差を表す行列

N(di):di の k 近傍

M: 単語 - 文書行列 .各文書に対して単語次元の素性ベクトル

11

実際に，どのようなものを文 s の難易度としているか

語 t を含む文 s の難易度分布を通じて，語の難易度差に変換

12

グラフのマージ* を surface, lexical, syntactic と変えることで，3 種類のグラフが出来る

ラベル伝搬法はハブ（多くのノードと繋がるノード）があると性能が悪化する→ハブがなるべく出来ないようにマージ

１．ノード v に対し， 3 種のどのグラフでもk 近傍になっているノード集合を，v と繋ぐ． Nc(v)=S(v) とする

2. |S(v)|<k の時， v’∈Nsur(v)∪Nlex(v)∪Nsyn(v)\S(v) のうち，Nc(v) との共通 k 近傍が最も小さい v’ から， Nc(v) に足していく（ |Nc(v)|=k になるまで）

S(v)=

13

結果 1/3使用したデータセット中国語と英語の 2 言語で実験（ Readability Assessment の研究ではちゃんとやっている方）

CPT: Chinese Primary Textbook中国語文書について 6 段階の難易度を人手でつけたものENCT: English New Concept Textbook英語文書について 4 段階の難易度を人手でつけたもの

14

結果 2/3 提案手法

15

結果 3/3

ちゃんと，単語間難易度の差を考慮して分類することには意味があるよ

16

まとめ• word coupling と言っているが，要するに，単語

間の難易度の差（近さ）を考慮した， Readability Assessment の手法を提案した– これまでの Readability Assessment ：教師あり学習

＆単語間難易度の差などは未考慮．– 提案：半教師あり＋単語間の難易度の差を考慮．

• 単純に教師あり→半教師ありにしたら良いという話でもない事は実験からも分かる．

• ラベル伝搬性能を落とすハブが出来ないように考慮しつつ， surface, lexical, syntactic な情報をすべて入れて，ようやく，性能を上げている印象．

EMNLP 2015 yomikai

Engineering

Transcript of EMNLP 2015 yomikai