理想の教育棟におけるゼロ・ エネルギー・ビルの取り組み理想の教育棟におけるゼロ・ エネルギー・ビルの取り組み 東京大学生産技術研究所
ゼロ照応解析のための 統語的パタンの学習
description
Transcript of ゼロ照応解析のための 統語的パタンの学習
ゼロ照応解析のための統語的パタンの学習
飯田 龍 乾 健太郎 松本 裕治奈良先端科学技術大学院大学
{ryu-i,inui,matsu}@is.naist.jp
FIT2006 9,6,2006
2FIT2006 9,6,2006
はじめにゼロ照応解析 : 文章内のゼロ代名詞を検出し,ゼロ代名詞の先行詞を同定する処理ゼロ代名詞 : 述語と直接の係り関係にない必須の項を指す省略された要素
応用 : 機械翻訳や情報抽出で必須の処理
奈良、平安時代に中央政府の最北の出先機関だったとされる国史跡・秋田城跡に派遣された役人 1 は、サケやマスなどを食材にした郷土料理は( φ1ガ)口にせず、あくまで「関西風」の食事にこだわっていたことが(φ2ガ)分かった。
先行詞
ゼロ代名詞 ゼロ代名詞
3FIT2006 9,6,2006
発表の焦点ゼロ照応解析の問題を文内と文間で二つに分割
文内ゼロ照応 文間ゼロ照応
それぞれ捉える特徴が異なる文内ゼロ照応解析の問題を,文の構造情報を機械学習に基づく解析手法と統合することにより,解析精度の向上を目指す
太郎は遅刻して( φ ガ)授業に遅れた。統語的なパタンlocal topic の遷移
そこにいたお年寄りたちは、ただボーッとしているような感じの人がほとんどだった。私は近づくのを躊躇った。しかし、私が近くに行くと、とてもうれしそうに話を( φ ガ)してくれ、笑顔を見せてくれた。
談話の挿入global topic の遷移
4FIT2006 9,6,2006
文内ゼロ照応解析の問題設定先行詞同定 : 与えられたゼロ代名詞に対して先行詞候補集合から適切な先行詞を同定する処理
(文内)照応性判定 : ゼロ代名詞が文内に先行詞を持つか否かを分類する処理
太郎は遅刻して( φ ガ)授業に遅れた。
(φ ガ ) 早く帰りたい。
「太郎」を先行詞として同定
「照応性あり」と決定
「照応性なし」と決定
5FIT2006 9,6,2006
人手で作成した規則に基づく手法(村田ら 95, 田村ら 95 , 中岩ら 96 )
センタリング理論 (Grosz ら 95) などの言語学的な知見に基づく南 (`74) の節間の主語同一性の分析を利用統語的なパタンを網羅的に記述することは困難
機械学習に基づく手法( Soon ら 01, 関ら 01, Ng ら 02, 磯崎ら 04, Yang ら 05, 飯田ら 05 )
表層情報からわかる簡単な素性で規則ベースの手法と同程度の精度を得ているMUC の CO タスク , ACE program の Entity Detection and Tracking タスクのデータを対象に着実に進歩している 文内と文間を区別せずに処理している
先行研究
6FIT2006 9,6,2006
文内ゼロ照応解析の手がかり統語的なパタンが手がかりとなる
太郎は遅刻をして( φ ガ)授業に遅れた。
NP が~して (φ ガ ) ~する。 NP は φ の先行詞となりやすい
先生も遅れたので( φ ガ)怒られなかった。NP が~ので (φ ガ ) ~する。 NP は φ の先行詞となりにくい
メアリはジョンに( φ ガ)タバコをやめるように言った。NP に (φ ガ ) ~するように言った。 NP は φ の先行詞となりやすい
NP が (φ ガ ) ~するように言った。 NP は φ の先行詞となりにくい
7FIT2006 9,6,2006
提案手法探索先行分類型モデル (飯田ら , 05 )で解析
既存のゼロ照応解析で利用されている情報に加え統語パタンも同時に学習する
8FIT2006 9,6,2006
探索先行分類型モデル照応解析の問題を 2段階で解析1. 先行詞同定
トーナメントモデル ( 飯田ら , 03)2 つの先行詞候補の間で勝ち抜き戦を行い先行詞を唯一に決定
2. 照応性判定(先行詞が文章内にあるか否かを判定)
φ
社会党独自超党派八日
村山首相
ゼロ代名詞
先行詞候補集合
トーナメントモデル
…
村山首相最尤先行詞候補
村山首相 独自 社会党 φ
村山首相
…
照応性判定モデル
: 照応性あり ( 文章内に
先行詞を持つ )
φ
φ村山首相
score θ≧
9FIT2006 9,6,2006
探索先行分類型モデル
φ
社会党独自超党派八日
村山首相
ゼロ代名詞
先行詞候補集合
トーナメントモデル
…
村山首相最尤先行詞候補
照応性判定モデル
: 照応性あり ( 文章内に
先行詞を持つ )
φ
φ村山首相
score θ≧
先行詞同定と照応性判定の各処理で統語パタンを利用する
10FIT2006 9,6,2006
提案手法探索先行分類型モデル (飯田ら , 05 )で解析
ゼロ照応解析で利用されている情報に加え統語パタンも同時に学習する
1. 文の構造をどのように表現するか
2. どのようにして構造から重要な統語パタンを学習するか
11FIT2006 9,6,2006
文節を単位とした係り受け木で表現文の構造の表現
メアリはジョンに( φ ガ)タバコをやめるように言った。係り受け解析
メアリは述語
やめるようにゼロ代名詞
φ ガ述語
言った。先行詞
ジョンに タバコを
ゼロ代名詞と先行詞のパスを抽出
述語やめるように
ゼロ代名詞φ ガ
述語言った。
先行詞 ジョンに
12FIT2006 9,6,2006
木構造から統語パタンを学習
文の構造の表現 (Cont’d)
述語やめるように
ゼロ代名詞φ ガ
述語言った。
先行詞 ジョンに
内容語の情報を削除機能語をノードの子にする
述語ゼロ代名詞 述語先行詞
に よう に た 。
13FIT2006 9,6,2006
トーナメントモデルで利用する構造2 つの候補とゼロ代名詞の関係を学習
左の候補 述語右の候補
(TI)左の候補 述語ゼロ代名詞 述語
(TL)
右の候補
(TR)
述語ゼロ代名詞 述語
述語やめるように
ゼロ代名詞φ ガ
述語言った。
右の候補ジョンに
左の候補メアリは
14FIT2006 9,6,2006
最終的に利用する訓練事例先行詞同定
TL TI
root
TR …
…
1f 2f nf
先行詞候補とゼロ代名詞の関係を表す素性
2 つの先行詞候補とゼロ代名詞の間の部分木
ラベル :左側が先行詞 +1 右側が先行詞 -1
T
root
…
…
1f 2f nf
先行詞候補とゼロ代名詞の関係を表す素性
最尤先行詞候補とゼロ代名詞の間の部分木
ラベル :φ が文内に先行詞を持つ +1 φ が文内に先行詞を持たない -1
照応性判定
15FIT2006 9,6,2006
統語パタンの学習カーネル法に基づく手法
Tree Kernel (Collins and Duffy 01)Hierarchical DAG Kernel (鈴木ら 05)
ブースティングに基づく手法分類に寄与する部分構造を decision stump を弱学習器としたブースティング (工藤ら 04)
16FIT2006 9,6,2006
目次1. ゼロ照応解析
2. 先行研究
3. 文の構造情報を利用した解析手法
4. 評価実験と考察
5. まとめと今後の課題
17FIT2006 9,6,2006
評価実験日本語新聞記事中の文内ゼロ照応解析の問題新聞記事コーパスに照応関係タグを付与(http://cl.naist.jp/~ryu-i/coreference_tag.html)
訓練用 パラメタ推定用 評価用文章数 137 60 150事例数 1,229 846 1,104
文内に先行詞を持つ事例 : 524 (全体の 47.5%)
適切にゼロ照応の関係を同定できた個数文内に先行詞を持つゼロ代名詞の個数
システムが文内に先行詞を持つと出力したゼロ代名詞の個数
適切にゼロ照応の関係を同定できた個数
再現率 =
精度 =
18FIT2006 9,6,2006
評価実験5 分割交差検定 ( ガ格のみを対象に )あらかじめ教える情報 :
ゼロ代名詞の出現位置述語と係り関係にある格関係,連体修飾の関係対象となるゼロ代名詞以外の箇所のゼロ照応関係(他の箇所をうまく解析できた場合の上限を見る)
比較する 4 つのモデルNg and Cardie (02) ( ベースラインモデル )
ゼロ代名詞に対してある先行詞候補がゼロ照応関係にあるか否かを分類照応性判定の問題は候補探索の副作用として解く
Ng and Cardie (02) のモデル
探索先行分類型モデル
統語パタンを利用しない BM_ORG SCM_ORG
ゼロ代名詞と先行詞候補の間の木構造を利用 BM_TREE SCM_TREE
19FIT2006 9,6,2006
文内ゼロ照応の先行詞同定の結果
どちらのモデルに関しても部分構造から統語パタンを学習することにより先行詞同定の精度が向上
すでに解析精度の良い探索先行分類型モデルに関しても約 3ポイントの向上
Ng and Cardie (02) のモデル 探索先行分類型モデルパタンを利用しない
0.523 (274/524) 0.712 (373/524)
木構造を利用 0.656 (344/524) 0.740 (388/524)
20FIT2006 9,6,2006
文内ゼロ照応の解析結果先行詞同定 + 照応性判定 の再現率 - 精度曲線
BM_ORG
BM_TREE
木構造 (BM_TREE)パタンを利用しない (BM_ORG)Ng and Cardie
(02) のモデル
21FIT2006 9,6,2006
文内ゼロ照応の解析結果先行詞同定 + 照応性判定 の再現率 - 精度曲線
木構造 (BM_TREE)パタンを利用しない (BM_ORG)
木構造 (SCM_TREE)パタンを利用しない(SCM_ORG)
Ng and Cardie (02) のモデル探索先行分類型モデル
BM_ORG
BM_TREE
SCM_TREE
SCM_ORG
22FIT2006 9,6,2006
誤り分析 (文内のゼロ照応解析 )文内に直接引用を含む場合に解析を誤る場合が多い
文の中に異なる談話が埋め込まれる文間ゼロ照応の問題に近い
談話の構造を考えなければならない
「選手はそのときの経験を生かしてくれた。(φi ガ)言わなくても分かっていた」と古前田監督 i 。
緑色の候補 : システムが出力した先行詞赤色の候補 : φi の先行詞
23FIT2006 9,6,2006
まとめ文の統語的なパタンを学習し,そのパタンを分類に利用するゼロ照応解析モデルを提案した
先行詞同定,照応性判定それぞれで既存手法より解析精度が向上することを示した
24FIT2006 9,6,2006
今後の課題Kernel 法を用いた場合との比較
Tree Kernel (Collins ら 01) や HDAG Kernel(鈴木ら 05)
文間ゼロ照応の解析に取り組む引用の中の現象を参考に
述語項構造解析格解析や連体修飾の解析との統合
25FIT2006 9,6,2006
26FIT2006 9,6,2006
タグの一致率ゼロ代名詞タグ付与の一致率を調査
二人の作業者が 137 記事を対象にタグ付与ガ格のみ:作業者の一致率 84.6% (1670/1975)
27FIT2006 9,6,2006
ゼロ照応解析全体の解析手順文内と文間を 2段階で解析
φ
社会党独自超党派八日
村山富市首相
ゼロ代名詞
先行詞候補集合
…
文内ゼロ照応解析モデル
scoreintra θ≧ intra
文内の最尤先行詞候補NPi を先行詞に決定scoreintra<θintra
scoreinter θ≧ inter文間ゼロ照応解析モデル 文間の最尤
先行詞候補NPj を先行詞に決定scoreinter<θinter
照応性なし(φ は外界照応)
28FIT2006 9,6,2006
全体の解析結果θintra と θinter を変動させて再現率 - 精度曲線を描く
緑色の線 : 文内と文間を区別しない探索先行分類型モデル( 統語パタンは学習しない )赤色の線 : 提案手法
閾値をうまく推定することで既存手法より精度が向上
0.024θintra= 0.0170.013
0.0110.0080.0060.0040.001
-0.007
29FIT2006 9,6,2006
推定した閾値を利用して得られた実験結果再現率 精度 F値
BM ORG 0.426 (223/524)
0.308 (223/724)
0.357
BM PATH 0.439 (230/524)
0.311 (230/740)
0.364
BM TREE 0.573 (300/524)
0.382 (300/786)
0.458
SCM ORG 0.536 (280/524)
0.580 (280/483)
0.557
SCM PATH 0.600 (314/524)
0.494 (314/636)
0.542
SCM TREE 0.649 (339/524)
0.577 (339/588)
0.610
30FIT2006 9,6,2006
文内ゼロ照応の先行詞同定の結果
Ng and Cardie のモデル「パタンを利用しない パスを利用 木構造を利用」の順で解析精度が向上
探索先行分類型モデル「パタンを利用しない 木構造を利用」で解析精度の向上
機能語を含む部分構造から統語パタンを学習することにより先行詞同定の精度が向上
Ng and Cardie (02) のモデル 探索先行分類型モデルパタンを利用しない
0.523 (274/524) 0.712 (373/524)
パスを利用 0.536 (281/524) 0.693 (363/524)木構造を利用 0.656 (344/524) 0.714 (388/524)
31FIT2006 9,6,2006
文内ゼロ照応の解析結果先行詞同定 + 照応性判定 の再現率 - 精度曲線
木構造パス
パタンを利用しない木構造
パスパタンを利用しないNg and Cardie
(02) のモデル
探索先行分類型モデル