ゼロ照応解析のための 統語的パタンの学習

31
ゼゼゼゼゼゼゼゼゼゼ ゼゼゼゼゼゼゼゼゼ ゼゼ ゼ ゼ ゼゼゼ ゼゼ ゼゼ ゼゼゼゼゼゼゼゼゼゼゼゼゼ {ryu-i,inui,matsu}@is.naist.jp FIT2006 9,6,2006

description

ゼロ照応解析のための 統語的パタンの学習. 飯田 龍 乾 健太郎 松本 裕治 奈良先端科学技術大学院大学 {ryu-i,inui,matsu}@is.naist.jp FIT2006 9,6,2006. はじめに. 先行詞. 奈良、平安時代に中央政府の最北の出先機関だったとされる国史跡・秋田城跡に派遣された 役人 1 は、サケやマスなどを食材にした郷土料理は ( φ 1 ガ) 口にせず 、あくまで「関西風」の食事にこだわっていたことが ( φ 2 ガ) 分かった 。. ゼロ代名詞. ゼロ代名詞. - PowerPoint PPT Presentation

Transcript of ゼロ照応解析のための 統語的パタンの学習

Page 1: ゼロ照応解析のための 統語的パタンの学習

ゼロ照応解析のための統語的パタンの学習

飯田 龍 乾 健太郎 松本 裕治奈良先端科学技術大学院大学

{ryu-i,inui,matsu}@is.naist.jp

FIT2006 9,6,2006

Page 2: ゼロ照応解析のための 統語的パタンの学習

2FIT2006 9,6,2006

はじめにゼロ照応解析 : 文章内のゼロ代名詞を検出し,ゼロ代名詞の先行詞を同定する処理ゼロ代名詞 : 述語と直接の係り関係にない必須の項を指す省略された要素

応用 : 機械翻訳や情報抽出で必須の処理

奈良、平安時代に中央政府の最北の出先機関だったとされる国史跡・秋田城跡に派遣された役人 1 は、サケやマスなどを食材にした郷土料理は( φ1ガ)口にせず、あくまで「関西風」の食事にこだわっていたことが(φ2ガ)分かった。

先行詞

ゼロ代名詞 ゼロ代名詞

Page 3: ゼロ照応解析のための 統語的パタンの学習

3FIT2006 9,6,2006

発表の焦点ゼロ照応解析の問題を文内と文間で二つに分割

文内ゼロ照応 文間ゼロ照応

それぞれ捉える特徴が異なる文内ゼロ照応解析の問題を,文の構造情報を機械学習に基づく解析手法と統合することにより,解析精度の向上を目指す

太郎は遅刻して( φ ガ)授業に遅れた。統語的なパタンlocal topic の遷移

そこにいたお年寄りたちは、ただボーッとしているような感じの人がほとんどだった。私は近づくのを躊躇った。しかし、私が近くに行くと、とてもうれしそうに話を( φ ガ)してくれ、笑顔を見せてくれた。

談話の挿入global topic の遷移

Page 4: ゼロ照応解析のための 統語的パタンの学習

4FIT2006 9,6,2006

文内ゼロ照応解析の問題設定先行詞同定 : 与えられたゼロ代名詞に対して先行詞候補集合から適切な先行詞を同定する処理

(文内)照応性判定 : ゼロ代名詞が文内に先行詞を持つか否かを分類する処理

太郎は遅刻して( φ ガ)授業に遅れた。

(φ ガ ) 早く帰りたい。

「太郎」を先行詞として同定

「照応性あり」と決定

「照応性なし」と決定

Page 5: ゼロ照応解析のための 統語的パタンの学習

5FIT2006 9,6,2006

人手で作成した規則に基づく手法(村田ら 95, 田村ら 95 , 中岩ら 96 )

センタリング理論 (Grosz ら 95) などの言語学的な知見に基づく南 (`74) の節間の主語同一性の分析を利用統語的なパタンを網羅的に記述することは困難

機械学習に基づく手法( Soon ら 01, 関ら 01, Ng ら 02, 磯崎ら 04, Yang ら 05, 飯田ら 05 )

表層情報からわかる簡単な素性で規則ベースの手法と同程度の精度を得ているMUC の CO タスク , ACE program の Entity Detection and Tracking タスクのデータを対象に着実に進歩している 文内と文間を区別せずに処理している

先行研究

Page 6: ゼロ照応解析のための 統語的パタンの学習

6FIT2006 9,6,2006

文内ゼロ照応解析の手がかり統語的なパタンが手がかりとなる

太郎は遅刻をして( φ ガ)授業に遅れた。

NP が~して (φ ガ ) ~する。 NP は φ の先行詞となりやすい

先生も遅れたので( φ ガ)怒られなかった。NP が~ので (φ ガ ) ~する。 NP は φ の先行詞となりにくい

メアリはジョンに( φ ガ)タバコをやめるように言った。NP に (φ ガ ) ~するように言った。 NP は φ の先行詞となりやすい

NP が (φ ガ ) ~するように言った。 NP は φ の先行詞となりにくい

Page 7: ゼロ照応解析のための 統語的パタンの学習

7FIT2006 9,6,2006

提案手法探索先行分類型モデル (飯田ら , 05 )で解析

既存のゼロ照応解析で利用されている情報に加え統語パタンも同時に学習する

Page 8: ゼロ照応解析のための 統語的パタンの学習

8FIT2006 9,6,2006

探索先行分類型モデル照応解析の問題を 2段階で解析1. 先行詞同定

トーナメントモデル  ( 飯田ら , 03)2 つの先行詞候補の間で勝ち抜き戦を行い先行詞を唯一に決定

2. 照応性判定(先行詞が文章内にあるか否かを判定)

φ

社会党独自超党派八日

村山首相

ゼロ代名詞

先行詞候補集合

トーナメントモデル

村山首相最尤先行詞候補

村山首相 独自 社会党 φ

村山首相

照応性判定モデル

         : 照応性あり    ( 文章内に

先行詞を持つ )

φ

φ村山首相

score θ≧

Page 9: ゼロ照応解析のための 統語的パタンの学習

9FIT2006 9,6,2006

探索先行分類型モデル

φ

社会党独自超党派八日

村山首相

ゼロ代名詞

先行詞候補集合

トーナメントモデル

村山首相最尤先行詞候補

照応性判定モデル

         : 照応性あり    ( 文章内に

先行詞を持つ )

φ

φ村山首相

score θ≧

先行詞同定と照応性判定の各処理で統語パタンを利用する

Page 10: ゼロ照応解析のための 統語的パタンの学習

10FIT2006 9,6,2006

提案手法探索先行分類型モデル (飯田ら , 05 )で解析

ゼロ照応解析で利用されている情報に加え統語パタンも同時に学習する

1. 文の構造をどのように表現するか

2. どのようにして構造から重要な統語パタンを学習するか

Page 11: ゼロ照応解析のための 統語的パタンの学習

11FIT2006 9,6,2006

文節を単位とした係り受け木で表現文の構造の表現

メアリはジョンに( φ ガ)タバコをやめるように言った。係り受け解析

メアリは述語

やめるようにゼロ代名詞

φ ガ述語

言った。先行詞

ジョンに タバコを

ゼロ代名詞と先行詞のパスを抽出

述語やめるように

ゼロ代名詞φ ガ

述語言った。

先行詞 ジョンに

Page 12: ゼロ照応解析のための 統語的パタンの学習

12FIT2006 9,6,2006

木構造から統語パタンを学習

文の構造の表現 (Cont’d)

述語やめるように

ゼロ代名詞φ ガ

述語言った。

先行詞 ジョンに

内容語の情報を削除機能語をノードの子にする

述語ゼロ代名詞 述語先行詞

に よう に た 。

Page 13: ゼロ照応解析のための 統語的パタンの学習

13FIT2006 9,6,2006

トーナメントモデルで利用する構造2 つの候補とゼロ代名詞の関係を学習

左の候補 述語右の候補

(TI)左の候補 述語ゼロ代名詞 述語

(TL)

右の候補

(TR)

述語ゼロ代名詞 述語

述語やめるように

ゼロ代名詞φ ガ

述語言った。

右の候補ジョンに

左の候補メアリは

Page 14: ゼロ照応解析のための 統語的パタンの学習

14FIT2006 9,6,2006

最終的に利用する訓練事例先行詞同定

TL TI

root

TR …

  1f   2f   nf

先行詞候補とゼロ代名詞の関係を表す素性

2 つの先行詞候補とゼロ代名詞の間の部分木

ラベル :左側が先行詞 +1 右側が先行詞 -1

T

root

  1f   2f   nf

先行詞候補とゼロ代名詞の関係を表す素性

最尤先行詞候補とゼロ代名詞の間の部分木

ラベル :φ が文内に先行詞を持つ +1    φ が文内に先行詞を持たない -1

照応性判定

Page 15: ゼロ照応解析のための 統語的パタンの学習

15FIT2006 9,6,2006

統語パタンの学習カーネル法に基づく手法

Tree Kernel (Collins and Duffy 01)Hierarchical DAG Kernel (鈴木ら 05)

ブースティングに基づく手法分類に寄与する部分構造を decision stump を弱学習器としたブースティング (工藤ら 04)

Page 16: ゼロ照応解析のための 統語的パタンの学習

16FIT2006 9,6,2006

目次1. ゼロ照応解析

2. 先行研究

3. 文の構造情報を利用した解析手法

4. 評価実験と考察

5. まとめと今後の課題

Page 17: ゼロ照応解析のための 統語的パタンの学習

17FIT2006 9,6,2006

評価実験日本語新聞記事中の文内ゼロ照応解析の問題新聞記事コーパスに照応関係タグを付与(http://cl.naist.jp/~ryu-i/coreference_tag.html)

訓練用 パラメタ推定用 評価用文章数 137 60 150事例数 1,229 846 1,104

文内に先行詞を持つ事例 : 524 (全体の 47.5%)

適切にゼロ照応の関係を同定できた個数文内に先行詞を持つゼロ代名詞の個数

システムが文内に先行詞を持つと出力したゼロ代名詞の個数

適切にゼロ照応の関係を同定できた個数

再現率 =

精度 =

Page 18: ゼロ照応解析のための 統語的パタンの学習

18FIT2006 9,6,2006

評価実験5 分割交差検定 ( ガ格のみを対象に )あらかじめ教える情報 :

ゼロ代名詞の出現位置述語と係り関係にある格関係,連体修飾の関係対象となるゼロ代名詞以外の箇所のゼロ照応関係(他の箇所をうまく解析できた場合の上限を見る)

比較する 4 つのモデルNg and Cardie (02) ( ベースラインモデル )

ゼロ代名詞に対してある先行詞候補がゼロ照応関係にあるか否かを分類照応性判定の問題は候補探索の副作用として解く

Ng and Cardie (02) のモデル

探索先行分類型モデル

統語パタンを利用しない BM_ORG SCM_ORG

ゼロ代名詞と先行詞候補の間の木構造を利用 BM_TREE SCM_TREE

Page 19: ゼロ照応解析のための 統語的パタンの学習

19FIT2006 9,6,2006

文内ゼロ照応の先行詞同定の結果

どちらのモデルに関しても部分構造から統語パタンを学習することにより先行詞同定の精度が向上

すでに解析精度の良い探索先行分類型モデルに関しても約 3ポイントの向上

Ng and Cardie (02) のモデル 探索先行分類型モデルパタンを利用しない

0.523 (274/524) 0.712 (373/524)

木構造を利用 0.656 (344/524) 0.740 (388/524)

Page 20: ゼロ照応解析のための 統語的パタンの学習

20FIT2006 9,6,2006

文内ゼロ照応の解析結果先行詞同定 + 照応性判定 の再現率 - 精度曲線

BM_ORG

BM_TREE

木構造 (BM_TREE)パタンを利用しない (BM_ORG)Ng and Cardie

(02) のモデル

Page 21: ゼロ照応解析のための 統語的パタンの学習

21FIT2006 9,6,2006

文内ゼロ照応の解析結果先行詞同定 + 照応性判定 の再現率 - 精度曲線

木構造 (BM_TREE)パタンを利用しない (BM_ORG)

木構造 (SCM_TREE)パタンを利用しない(SCM_ORG)

Ng and Cardie (02) のモデル探索先行分類型モデル

BM_ORG

BM_TREE

SCM_TREE

SCM_ORG

Page 22: ゼロ照応解析のための 統語的パタンの学習

22FIT2006 9,6,2006

誤り分析 (文内のゼロ照応解析 )文内に直接引用を含む場合に解析を誤る場合が多い

文の中に異なる談話が埋め込まれる文間ゼロ照応の問題に近い

  談話の構造を考えなければならない 

「選手はそのときの経験を生かしてくれた。(φi ガ)言わなくても分かっていた」と古前田監督 i 。

緑色の候補 : システムが出力した先行詞赤色の候補 : φi の先行詞

Page 23: ゼロ照応解析のための 統語的パタンの学習

23FIT2006 9,6,2006

まとめ文の統語的なパタンを学習し,そのパタンを分類に利用するゼロ照応解析モデルを提案した

先行詞同定,照応性判定それぞれで既存手法より解析精度が向上することを示した

Page 24: ゼロ照応解析のための 統語的パタンの学習

24FIT2006 9,6,2006

今後の課題Kernel 法を用いた場合との比較

Tree Kernel (Collins ら 01) や HDAG Kernel(鈴木ら 05)

文間ゼロ照応の解析に取り組む引用の中の現象を参考に

述語項構造解析格解析や連体修飾の解析との統合

Page 25: ゼロ照応解析のための 統語的パタンの学習

25FIT2006 9,6,2006

Page 26: ゼロ照応解析のための 統語的パタンの学習

26FIT2006 9,6,2006

タグの一致率ゼロ代名詞タグ付与の一致率を調査

二人の作業者が 137 記事を対象にタグ付与ガ格のみ:作業者の一致率 84.6% (1670/1975)

Page 27: ゼロ照応解析のための 統語的パタンの学習

27FIT2006 9,6,2006

ゼロ照応解析全体の解析手順文内と文間を 2段階で解析

φ

社会党独自超党派八日

村山富市首相

ゼロ代名詞

先行詞候補集合

文内ゼロ照応解析モデル

scoreintra θ≧ intra

文内の最尤先行詞候補NPi を先行詞に決定scoreintra<θintra

scoreinter θ≧ inter文間ゼロ照応解析モデル 文間の最尤

先行詞候補NPj を先行詞に決定scoreinter<θinter

照応性なし(φ は外界照応)

Page 28: ゼロ照応解析のための 統語的パタンの学習

28FIT2006 9,6,2006

全体の解析結果θintra と θinter を変動させて再現率 - 精度曲線を描く

緑色の線 : 文内と文間を区別しない探索先行分類型モデル( 統語パタンは学習しない )赤色の線 : 提案手法

閾値をうまく推定することで既存手法より精度が向上

0.024θintra= 0.0170.013

0.0110.0080.0060.0040.001

-0.007

Page 29: ゼロ照応解析のための 統語的パタンの学習

29FIT2006 9,6,2006

推定した閾値を利用して得られた実験結果再現率 精度 F値

BM ORG 0.426 (223/524)

0.308 (223/724)

0.357

BM PATH 0.439 (230/524)

0.311 (230/740)

0.364

BM TREE 0.573 (300/524)

0.382 (300/786)

0.458

SCM ORG 0.536 (280/524)

0.580 (280/483)

0.557

SCM PATH 0.600 (314/524)

0.494 (314/636)

0.542

SCM TREE 0.649 (339/524)

0.577 (339/588)

0.610

Page 30: ゼロ照応解析のための 統語的パタンの学習

30FIT2006 9,6,2006

文内ゼロ照応の先行詞同定の結果

Ng and Cardie のモデル「パタンを利用しない パスを利用 木構造を利用」の順で解析精度が向上

探索先行分類型モデル「パタンを利用しない 木構造を利用」で解析精度の向上

機能語を含む部分構造から統語パタンを学習することにより先行詞同定の精度が向上

Ng and Cardie (02) のモデル 探索先行分類型モデルパタンを利用しない

0.523 (274/524) 0.712 (373/524)

パスを利用 0.536 (281/524) 0.693 (363/524)木構造を利用 0.656 (344/524) 0.714 (388/524)

Page 31: ゼロ照応解析のための 統語的パタンの学習

31FIT2006 9,6,2006

文内ゼロ照応の解析結果先行詞同定 + 照応性判定 の再現率 - 精度曲線

木構造パス

パタンを利用しない木構造

パスパタンを利用しないNg and Cardie

(02) のモデル

探索先行分類型モデル