EMNLP 2015 yomikai
-
Upload
yo-ehara -
Category
Engineering
-
view
8.995 -
download
0
Transcript of EMNLP 2015 yomikai
1
EMNLP 読み会Graph-based Readability Assessment Method using Word Coupling
2015/10/24@niam
Zhiwei Jiang, Gang Sun, Qing Gu∗, Tao Bai, Daoxu Chen
2
自己紹介を兼ねて
• 専門:自然言語処理,言語教育, NLP 応用数百語ぐらいの単語テストの結果を用いて,学習者が知っている単語を当てるタスク機械学習的な手法:ラベル伝搬法sklearn.semi_supervised.LabelPropagation/LabelSpreading 関数あたり.
• 去年の EMNLP 2014@ カタールに,ラベル伝搬+言語教育ネタで通しました.
• この論文も,ラベル伝搬+言語教育なので読みます.
3
タイトルを見るGraph-based Readability Assessment Method using Word Coupling• Graph-based : Gaussian Random Field
(GRF, ICML 2003), scikit-learn でいうところの LabelPropagation 関数使ったよ
• Readability Assessment :昔からあるタスク.例えば,与えられた英文テキストが,英検何級レベルですか?というような識別問題
• Word Coupling :これが新しく,著者らが提案している,単語間関係を考慮して識別するための前処理
4
ラベル伝搬法 1/2INPUT:枝に重みが付いたグラフノードの一部へのラベル
枝の重みに従ってラベルを伝搬
OUTPUT:全ノードのラベル
大敵:ハブノード
[Zhu+, ICML 2003]
Hub ノードを省く話は日本では,Ikumi Suzuki で検索すると出てくる
5
ラベル伝搬法 2/2簡単な半教師あり学習法.重要な手法は2つ• Gaussian Random Field
– sklearn とこの論文では Label Propagation という名前
Zhu+, Technical Report CMU-CALD, 2002Zhu+, ICML 2003←GRF . ICML 2013 classic paper prize– 出力を確率値とみなせる(全ノードの値を足すと1)
• Learning with Local and Global Consistency– Zhou+, NIPS 2004– 言語処理では, Komachi+, EMNLP 2008 等で
使用– 出力は確率値とみなせない
6
この研究の全体像
1. 単語 - 文書関係(TF-IDF)
2. 単語間の難易度の差
3. 単語 - 文書関係各文書に対して,単語次元の素性ベクトルができる
4. グラフを構築
7
1. 単語 - 文書関係
普通の tf-idf 行列.f(t,d): 語 t が文書 d に出てきた頻度
8
2. 単語間の難易度の差
語 t に関して i 番目の要素が以下であるような確率ベクトルを作る
語 t が現れる文の数 nt のうち, l(s)=i (難しさが i 程度)であるものの比率
l(s): 文 s に対して,この値が大きいほど難しいとみなせるような素性の値.非負の整数値に丸め.(後述)
p は確率分布なので,下記の式で Jensen-Shanon Divergenceを計算.(ただし, JSD の名前は出てこない)
2 単語間の関係を,下記のように定義
9
3. 単語間の難易度の差を考慮した単語 - 文書行列
単語 - 文書行列
単語 - 文書行列TF-IDF
単語間の難易度の差を表す行列
10
4. グラフの構築
単語 - 文書行列
単語 - 文書行列TF-IDF
単語間の難易度の差を表す行列
N(di):di の k 近傍
M: 単語 - 文書行列 .各文書に対して単語次元の素性ベクトル
11
実際に,どのようなものを文 s の難易度としているか
語 t を含む文 s の難易度分布を通じて,語の難易度差に変換
12
グラフのマージ* を surface, lexical, syntactic と変えることで,3 種類のグラフが出来る
ラベル伝搬法はハブ(多くのノードと繋がるノード)があると性能が悪化する→ハブがなるべく出来ないようにマージ
1.ノード v に対し, 3 種のどのグラフでもk 近傍になっているノード集合を,v と繋ぐ. Nc(v)=S(v) とする
2. |S(v)|<k の時, v’∈Nsur(v)∪Nlex(v)∪Nsyn(v)\S(v) のうち,Nc(v) との共通 k 近傍が最も小さい v’ から, Nc(v) に足していく( |Nc(v)|=k になるまで)
S(v)=
13
結果 1/3使用したデータセット中国語と英語の 2 言語で実験( Readability Assessment の研究ではちゃんとやっている方)
CPT: Chinese Primary Textbook中国語文書について 6 段階の難易度を人手でつけたものENCT: English New Concept Textbook英語文書について 4 段階の難易度を人手でつけたもの
14
結果 2/3 提案手法
15
結果 3/3
ちゃんと,単語間難易度の差を考慮して分類することには意味があるよ
16
まとめ• word coupling と言っているが,要するに,単語
間の難易度の差(近さ)を考慮した, Readability Assessment の手法を提案した– これまでの Readability Assessment :教師あり学習
&単語間難易度の差などは未考慮.– 提案:半教師あり+単語間の難易度の差を考慮.
• 単純に教師あり→半教師ありにしたら良いという話でもない事は実験からも分かる.
• ラベル伝搬性能を落とすハブが出来ないように考慮しつつ, surface, lexical, syntactic な情報をすべて入れて,ようやく,性能を上げている印象.