結束性と首尾一貫性から見た ゼロ照応解析

33
1 結結結結結結 結結結結結結 結結結結結結 結結結 結結結結結 結結結結 ,, 結結結結結結結結結結結結結 結結結結結結結 {ryu-i,inui,matsu}@is.naist.jp NL187-7 Sep, 24, 2008

description

NL187-7 Sep, 24, 2008. 結束性と首尾一貫性から見た ゼロ照応解析. 飯田龍,乾健太郎,松本裕治 奈良先端科学技術大学院大学 情報科学研究科 {ryu-i,inui,matsu}@is.naist.jp. 研究の対象. ゼロ照応解析 文章中の省略されている格要素を検出して その指し先を補完するタスク 情報抽出のような応用処理で必須となる要素技術 言語理解の実現度の良い試金石. 先行詞. - PowerPoint PPT Presentation

Transcript of 結束性と首尾一貫性から見た ゼロ照応解析

Page 1: 結束性と首尾一貫性から見た ゼロ照応解析

1

結束性と首尾一貫性から見たゼロ照応解析

飯田龍,乾健太郎,松本裕治奈良先端科学技術大学院大学 情報科学研究科{ryu-i,inui,matsu}@is.naist.jp

NL187-7 Sep, 24, 2008

Page 2: 結束性と首尾一貫性から見た ゼロ照応解析

2

NL-187-7, Sep, 24, 2008

研究の対象ゼロ照応解析

文章中の省略されている格要素を検出してその指し先を補完するタスク

情報抽出のような応用処理で必須となる要素技術 言語理解の実現度の良い試金石

政府 1 は低所得者を (φ1 ガ ) 支援する計画を(φexo ニ ) 発表した。 関係省庁 2 の協力を (φ1 ガ )(φ2 ニ ) 要請する。

先行詞

照応詞 ( ゼロ代名詞 )

Page 3: 結束性と首尾一貫性から見た ゼロ照応解析

3

NL-187-7, Sep, 24, 2008

今回の研究の焦点結束性と首尾一貫性の観点から

ゼロ照応解析の問題を考える

結束性: 文体レベルのつながりの良さセンタリング理論 (Grosz et al. 1995)

首尾一貫性 : 意味レベルのつながりの良さ修辞構造理論 (Mann&Thompson, 1988)Schank のスクリプト知識 (1977)

Page 4: 結束性と首尾一貫性から見た ゼロ照応解析

4

NL-187-7, Sep, 24, 2008

結束性の観点から照応解析を考える センタリング理論 (Grosz et al., 1995) に基づ

く照応解析 (Walker et al., 1994)

1. 現在の発話の談話要素を顕現性の高いものから並べる [ 主題 ( ゼロ )> 主語 > 間接目的語 > 直接目的語 >その他 ]

2. 次の発話中にもし照応詞(代名詞など)が存在すれば, 1 の中で最も高くランク付けされた談話要素を先行詞に決定する

太郎が 公園を 散歩していました.(φ ガ ) 次郎を 噴水の前で 見つけました.(φ ガ ) (φ ニ ) 昨日の試合の結果を 聞きました.

太郎 > 公園

( 太郎 ) > 次郎 > 噴水,前

Page 5: 結束性と首尾一貫性から見た ゼロ照応解析

5

NL-187-7, Sep, 24, 2008

規則ベースの手法と機械学習ベースの手法センタリング理論に基づく規則ベースの手

法特徴 : 文を単位とした段階的な談話の更新欠点 : 前文の先行詞候補のみしか扱えない

機械学習に基づく解析手法 (Soon et al., 2001; Ng and Cardie, 2002, etc.)照応詞と先行詞の候補が

照応関係となるか否かの 2 値分類問題を解く特徴 : 前方文脈すべての候補を解析対象に含む欠点 : 解析の際の探索回数が爆発する実際に解析する際に

非常に問題になる

Page 6: 結束性と首尾一貫性から見た ゼロ照応解析

6

NL-187-7, Sep, 24, 2008

提案手法 : 段階的に候補をキャッシングする

キャッシュ : 後で参照されそうな n-best を保持インフルエンザ 1 が 二年ぶりに (φ1

ガ ) 大流行する 兆しを みせ始めた。厚生省の まとめによると、 昨年 十二月 下旬現在の 患者報告数 2 は (φ2

ガ ) 約四千六百人で、前年同期の 七倍。A香港型を 中心に B型、 Aソ連型の 三種類の ウイルスが 混合流行しており、同省は 「受験シーズンが ピークで、 長期間 (φ1 ガ ) 流行する 可能性も ある」と 注意を 呼び掛けている。同省に よると、 都道府県、 政令指定都市から 報告された インフルエンザと みられる 疾患の 患者数は 昨年 十二月 二十四日現在、 全国で 四千五百九十四人で、 前年同期の 七・一倍。

インフルエンザ,厚生省,患者報告

更新

インフルエンザ,二年ぶり,兆し

キャッシュ : size=3

この中から先行詞を探索する

Page 7: 結束性と首尾一貫性から見た ゼロ照応解析

7

NL-187-7, Sep, 24, 2008 提案手法 : 段階的なキャッシングを利用した照応解析キャッシュ : 後で参照されそうな n-best を

保持インフルエンザ 1 が 二年ぶりに (φ1

ガ ) 大流行する 兆しを みせ始めた。厚生省の まとめによると、 昨年 十二月 下旬現在の 患者報告数 2 は (φ2

ガ ) 約四千六百人で、前年同期の 七倍。A香港型を 中心に B型、 Aソ連型の 三種類の ウイルスが 混合流行しており、同省は 「受験シーズンが ピークで、 長期間 (φ1 ガ ) 流行する 可能性も ある」と 注意を 呼び掛けている。同省に よると、 都道府県、 政令指定都市から 報告された インフルエンザと みられる 疾患の 患者数は 昨年 十二月 二十四日現在、 全国で 四千五百九十四人で、 前年同期の 七・一倍。

インフルエンザ,二年ぶり,兆し

インフルエンザ,厚生省,患者報告

インフルエンザ,患者報告数,ウイ

ルス

更新

更新

キャッシュ : size=3

先行詞らしい n-best を残す教師有り学習の問題

現在の文内の候補とキャッシュ内の候補からどのように次のキャッシュの要素を選択するか ?

Page 8: 結束性と首尾一貫性から見た ゼロ照応解析

8

NL-187-7, Sep, 24, 2008

キャッシュ更新ための訓練事例作成と実行訓練

テスト候補集合全体を分類しスコア上位 N 個をキャッシュ

インフルエンザ,二年ぶり,兆し

厚生省,昨年,患者報告数

A香港型,同省

文 1 の候補

φ1

φ3 φ4

φ2

正例 負例インフルエンザ,兆し

二年ぶり

正例 負例患者報告数,インフルエンザ

厚生省,昨年,二年ぶり,兆し

文 2 の候補

文 3 の候補

Page 9: 結束性と首尾一貫性から見た ゼロ照応解析

9

NL-187-7, Sep, 24, 2008

キャッシングのさまざまな方法段階的にキャッシュの内容を更新

(局所キャッシュモデル )局所キャッシュモデルは文章末までに何回も更新

するので,最初に出現した談話要素をうまく保持できない ?

文章全体の談話要素をあらかじめランキング( 大域キャッシュモデル )

局所キャッシュと大域キャッシュの両方を利用( 混合キャッシュモデル )

Page 10: 結束性と首尾一貫性から見た ゼロ照応解析

10

NL-187-7, Sep, 24, 2008

評価実験文間のゼロ照応解析で各ゼロ代名詞が出現し

たときに,どのくらいキャッシュに正解を保持できているのか ?

データ : NAISTテキストコーパス (飯田ら , 2007)訓練事例 : 1163記事, 4895事例評価事例 2 種類

報道記事 : 1157記事, 4365事例社説記事 : 609記事, 5231事例

ベースライン1 文前までの候補を抽出する (平均候補数 : 7)2 文前までの候補を抽出する (平均候補数 : 14)

Page 11: 結束性と首尾一貫性から見た ゼロ照応解析

11

NL-187-7, Sep, 24, 2008

評価実験 (Cont’d) キャッシュサイズ

局所キャッシュモデル N = 7, 14大域キャッシュモデル M = 7, 14混合キャッシュモデル N+M = 14

局所モデルのサイズ : N=7大域モデルのサイズ : M=7

学習 / 分類最大エントロピーモデル (Megam http://www.cs.utah.e

du/~hal/megam/) 評価尺度

先行詞のカバー率 : 各ゼロ代名詞に対し,キャッシュ内に先行詞をどのくらい含んでいるか ?

候補の削減率 : 候補全体に対して探索すべき候補を削減できているか ?

Page 12: 結束性と首尾一貫性から見た ゼロ照応解析

12

NL-187-7, Sep, 24, 2008

キャッシュモデルで利用する素性 候補の品詞 候補が引用の中に出現しているか否か 候補が最初の文に出現したか否か 候補の助詞の情報 ( 間接的に主題 , 文法役割を表す ) 候補が格助詞“は”,“が”,“に”,“を” など

を伴った最も直前の候補か否か

候補が最後の文節に係る ゼロ代名詞から候補までさかのぼったときに出現し た接続表現 キャッシュの中の要素か否か 文間の距離

局所キャッシュモデル

でのみ利用可能

談話要素の顕現性に関連する

Page 13: 結束性と首尾一貫性から見た ゼロ照応解析

13

NL-187-7, Sep, 24, 2008

実験結果 ( 報道記事 )

baseline(1 文前 )

先行詞のカバー

先行詞候補の削減率

baseline(2 文前 )

局所キャッシュ

N=7

N=14

混合キャッシュ

大域キャッシュN=7

N=14

Page 14: 結束性と首尾一貫性から見た ゼロ照応解析

14

NL-187-7, Sep, 24, 2008

キャッシュモデルを用いた候補削減の具体例局所キャッシュモデル (N=7)

理論的な予測に基づいて酵素の構造を一部変え、目的の化学反応を起こりやすくする新しい酵素を作ることに世界で初めて成功したと、NECと江崎グリコ の共同研究チーム i が十一日、発表した。酵素は五千以上もの原子からなり、構造が複雑なため、こうした理論予測は難しかった。有用な化学物質 を効率 よく作れ、医薬品や食品などの分野 に応用できそうだ。( φi ガ)実験したのは「ネオプルラナーゼ」という酵素。先行詞候補 キャッシュされた先行詞候補

Page 15: 結束性と首尾一貫性から見た ゼロ照応解析

15

NL-187-7, Sep, 24, 2008

今回の研究の焦点結束性と首尾一貫性の観点から

ゼロ照応解析の問題を考える

結束性: 文体レベルのつながりの良さセンタリング理論 (Grosz et al. 1995)

首尾一貫性 : 意味レベルのつながりの良さ修辞構造理論 (Mann&Thompson, 1988)Schank のスクリプト知識 (1977)

Page 16: 結束性と首尾一貫性から見た ゼロ照応解析

16

NL-187-7, Sep, 24, 2008

首尾一貫性からゼロ照応解析を考えるさまざまな意味レベルの関係

修辞構造理論 (Mann&Thompson, 88) Schank のスクリプト知識 (1977)

(A ガ ) 罪を犯す (A ガ ) 捕えられる (A ガ ) 罰せられる

含意関係認識のための知識獲得 (Lin&Pantel 2001, Torisawa 2006, Abe et al. 2008, Szpektor&Dagan 2008, etc.)

この知識をゼロ照応解析に利用する

Page 17: 結束性と首尾一貫性から見た ゼロ照応解析

17

NL-187-7, Sep, 24, 2008

知識獲得のための 3 種類の手がかり 動詞の項が類似する場合は関係も類似

DIRT(Lin&Pantel, 2001) が有名X is the author of Y X wrote Y

今回は unaryDIRT (Szpektor&Dagan, 2008) を利用X is the author of X wrote ( 単項のみを扱う )

並列構造で何回も出現する (Torisawa 2003, 2006) 村山富市首相は...に会見し,...と述べた. { 会見する , 述べる }

同一文章内で同じ名詞句 ( アンカー ) を伴って出現する (Pekar 2006)

Page 18: 結束性と首尾一貫性から見た ゼロ照応解析

18

NL-187-7, Sep, 24, 2008

共起情報の抽出アンカーを考慮した共起抽出

「代名詞」や「名詞 - 非自立」,「名詞 - 接尾」以外の名詞が同一文章中に複数回出現している場合,それらを近似的に同一指示関係とみなす

ガ格の係り受け関係のみ抽出

例 ) 村山首相が ... と言った...首相が ... 否定した.

{ ガ : 言う, ガ :否定する }

Page 19: 結束性と首尾一貫性から見た ゼロ照応解析

19

NL-187-7, Sep, 24, 2008

動詞対のスコアの計算方法共起の抽出

約 20 年分の新聞記事から抽出自己相互情報量 PMI で算出

)()(

),(log),(

ji

jiji vPvP

vvPvvPMI

データスパースネスの問題を回避するためpLSI (Hoffman, 1999) を用いてスムージングを行う

z

jiji zPzvPzvPvvP )()|()|(),(

Page 20: 結束性と首尾一貫性から見た ゼロ照応解析

25

NL-187-7, Sep, 24, 2008

評価実験: ガ格ゼロ代名詞の先行詞同定 アンカーを用いた動詞対のスコアを素性に加えた

場合に精度が向上するかを調査 データ : NAIST テキストコーパス

訓練 : 1163 記事, 9122 事例 評価 : 1157 記事, 8952 事例どこにゼロ代名詞が出現しているかは与える

先行詞同定のモデルトーナメントモデル ( 飯田ら , 2004)

+ 局所キャッシュモデル (N=14) 精度の上限 : 91.5% 学習・分類

Support Vector Machine (svmlight)カーネル : 線形,多項 2 次 パラメタ : default 値

Page 21: 結束性と首尾一貫性から見た ゼロ照応解析

26

NL-187-7, Sep, 24, 2008

4 種類の素性 ゼロ代名詞 ( と述語 ) に関する素性

passive/active, 引用の中 , etc. 先行詞候補に関する素性

格助詞 (e.g. は / が / を / に /etc.), 主辞の品詞 , etc. ゼロ代名詞と先行詞候補の対に関する素性

選択選好のスコア , 先行詞とゼロ代名詞の距離, etc. 先行詞候補対に関する素性

選択選好のスコアの差 , 距離の差 , etc.

( 詳しくは Iida et al.(2007) などを参照 )+ ゼロ代名詞側の動詞と先行詞が係る動詞の間のスコ

ア(MIanchor(vi,vj))

Page 22: 結束性と首尾一貫性から見た ゼロ照応解析

27

NL-187-7, Sep, 24, 2008

実験結果: 先行詞同定の評価

動詞対のスコアを単純に素性に加えただけでも効果あり

カーネル スコア無し スコア有り

線形 0.457 (4091/8952)

0.464 (4157/8952)

多項 2 次 0.506 (4529/8952)

0.510 (4562/8952)

McNemar 検定 p < 0.05 で有意差あり

Page 23: 結束性と首尾一貫性から見た ゼロ照応解析

28

NL-187-7, Sep, 24, 2008

動詞対のスコアを利用して解析できるようになった例(φi ガ ) 支持する (φi ガ ) 推進する

米国 i は米露間の現実的な戦略的利益に立ってエリツィン政権を( φi ガ)支持せざるを得ず、「エリツィンのジレンマはクリントンのジレンマ」という状況に置かれているためだ。... ロシアの脅威を骨抜きにした状態で米露核軍縮を( φi ガ)推進し、同時に旧東欧諸国への北大西洋条約機構拡大を目指している。

Page 24: 結束性と首尾一貫性から見た ゼロ照応解析

29

NL-187-7, Sep, 24, 2008

まとめ結束性と首尾一貫性の観点から

ゼロ照応の問題を考察結束性の観点から

キャッシュモデルの実現例を提案先行詞候補を削減し,解析を効率化

首尾一貫性の観点から動詞間の推論規則のスコアをゼロ照応解析に導入

ガ格ゼロ代名詞の先行詞同定で有効に働くことを示した

Page 25: 結束性と首尾一貫性から見た ゼロ照応解析

30

NL-187-7, Sep, 24, 2008

今後の方向性キャッシュモデルの話題

いろんな記述スタイルに対してキャッシュサイズによる振舞いの違いを調査

動詞対のスコアの話題スコア計算に利用したコーパスの規模と精度の関係

省略の連鎖を考慮した解析

(φj ガ ) 〈動詞 i〉

(φi ガ ) 〈動詞 i〉〈先行詞〉

Page 26: 結束性と首尾一貫性から見た ゼロ照応解析

31

NL-187-7, Sep, 24, 2008

Page 27: 結束性と首尾一貫性から見た ゼロ照応解析

32

NL-187-7, Sep, 24, 2008

実験結果 ( 報道記事 ) Cont’d

先行詞のカバー

先行詞候補の削減率

N=7

N=14N=21 N=28 N=50

局所キャッシュ

Page 28: 結束性と首尾一貫性から見た ゼロ照応解析

33

NL-187-7, Sep, 24, 2008

大域キャッシュモデル文章全体の談話要素をランキング

大蔵省は 1  十日、 64 特殊法人の 33 整理・合理化の 60  一環と 21  して、 明治時代から 40 続いている 塩の 20 専売制を 15  一九九六年中に 75 廃止する方針を 18 固めた。 現在は 19  国が 10 JTに 13 委託している 塩事業を 29 民営化、 72

 JTが 4 独占管理している 塩の 35 輸入・販売を 41 自由化する。 ただ、 塩の 50 製造・販売の 58  混乱を 47 避ける ため、 80  五年間の 59 経過期間を 28 設定。 53 新たに 70 民間法人の 36 塩事業センターを 30 設立し、 緊急時向けの 27 塩備蓄などを 42 (φ ガ ) 行う。 専売制の 14 廃止は、 6  最終的に 74  約六百人の 56  人員削減に 48  つながる 大規模な 61  行政改革で、 65  二月 78  十日に 57 予定されている 総務庁への 26 特殊法人見直し報告に 45 盛り込む。 文字が白いほど先行詞らしさのスコアが大きい

Page 29: 結束性と首尾一貫性から見た ゼロ照応解析

34

NL-187-7, Sep, 24, 2008

大域キャッシュモデル訓練時

評価時分類器が出力するスコア (確率 / 分離平面から

の距離 ) を用いてランキング, n-best を決定する

政府 1 は低所得者を (φ1 ガ )支援する計画を発表した。 関係省庁の協力を (φ1 ガ ) 要請する。

正例 : ( 一度でも先行詞になる候補 )

負例 : ( それ以外 )

政府 低所得者,計画,関係省庁,協力

Page 30: 結束性と首尾一貫性から見た ゼロ照応解析

35

NL-187-7, Sep, 24, 2008

大域キャッシュモデル 評価時大蔵省は 1  十日、 64 特殊法人の 33 整理・合理化の 60  一環と 21  して、 明治時代から 40 続いている 塩の 20 専売制を 15  一九九六年中に 75 廃止する方針を 18 固めた。 現在は 19  国が 10 JTに 13 委託している 塩事業を 29 民営化、 72

 JTが 4 独占管理している 塩の 35 輸入・販売を 41 自由化する。 ただ、 塩の 50 製造・販売の 58  混乱を 47 避ける ため、 80  五年間の 59 経過期間を 28 設定。 53 新たに 70 民間法人の 36 塩事業センターを 30 設立し、 緊急時向けの 27 塩備蓄などを 42 (φ ガ ) 行う。 専売制の 14 廃止は、 6  最終的に 74  約六百人の 56  人員削減に 48  つながる 大規模な 61  行政改革で、 65  二月 78  十日に 57 予定されている 総務庁への 26 特殊法人見直し報告に 45 盛り込む。

Page 31: 結束性と首尾一貫性から見た ゼロ照応解析

36

NL-187-7, Sep, 24, 2008

混合キャッシュモデル

局所的な談話の遷移を捉える

局所キャッシュモデル

大域的な談話の主題を捉える

大域キャッシュモデル

cache size=N cache size=M

混合キャッシュモデルcache size=N+M

2 つのモデルの結果を両方利用する

Page 32: 結束性と首尾一貫性から見た ゼロ照応解析

38

NL-187-7, Sep, 24, 2008

実験結果 ( 報道記事 )

キャッシュモデル 候補の削減率 先行詞のカバー率baseline(1 文前 ) 0.149 0.521 (2273/4365)

baseline(1 文前 ) 0.269 0.713 (3112/4365)

局所モデル (N=7) 0.146 0.850 (3710/4365)

局所モデル (N=14) 0.277 0.915 (3995/4365)

大域モデル (N=7) 0.146 0.748 (3265/4365)

大域モデル (N=14) 0.277 0.851 (3716/4365)

混合モデル(N=M=7)

0.218 0.890 (3886/4365)

Page 33: 結束性と首尾一貫性から見た ゼロ照応解析

39

NL-187-7, Sep, 24, 2008

実験結果 ( 社説記事 )

キャッシュモデル 候補の削減率 先行詞のカバー率baseline(1 文前 ) 0.065 0.566 (2959/5231)

baseline(1 文前 ) 0.125 0.747 (3910/5231)

局所モデル (N=7) 0.074 0.811 (4240/5231)

局所モデル (N=14) 0.145 0.891 (4662/5231)

大域モデル (N=7) 0.074 0.517 (2702/5231)

大域モデル (N=14) 0.145 0.673 (3523/5231)

混合モデル(N=M=7)

0.126 0.850 (4447/5231)