NAIST テキストコーパス : 述語項構造と共参照関係のアノテーション

31
NAIST テテテテテテテテ : テテテテテテテテテテテテテテテテテテテ テテテ テテテ テテテテ テテテテ テテテテテテテテテテテテテ {ryu-i,mamoru- k,inui,matsu}@is.naist.jp 2007/1/26 (Fri) NL-177-10

description

NAIST テキストコーパス : 述語項構造と共参照関係のアノテーション. 飯田龍 小町守 乾健太郎 松本裕治 奈良先端科学技術大学院大学 {ryu-i,mamoru-k,inui,matsu}@is.naist.jp 2007/1/26 (Fri) NL-177-10. はじめに. 述語項構造や共参照の解析の研究とともに タグ付与コーパスの作成の研究が盛ん 述語項構造解析・共参照解析の問題設定は自明ではない さまざまなタグ付与の仕様が提案されている - PowerPoint PPT Presentation

Transcript of NAIST テキストコーパス : 述語項構造と共参照関係のアノテーション

Page 1: NAIST テキストコーパス :  述語項構造と共参照関係のアノテーション

NAIST テキストコーパス : 述語項構造と共参照関係のアノテーショ

飯田龍 小町守 乾健太郎 松本裕治奈良先端科学技術大学院大学

{ryu-i,mamoru-k,inui,matsu}@is.naist.jp

2007/1/26 (Fri) NL-177-10

Page 2: NAIST テキストコーパス :  述語項構造と共参照関係のアノテーション

22007/1/26(Fri) NL-177-10

はじめに 述語項構造や共参照の解析の研究とともに

タグ付与コーパスの作成の研究が盛ん

述語項構造解析・共参照解析の問題設定は自明ではないさまざまなタグ付与の仕様が提案されている

述語項構造 : PropBank, 京都テキストコーパス 4.0,Global Document Annotation (GDA) コーパス , etc

共参照 : Message Understanding Task (MUC) Coreference (CO) task , Automatic Content Extraction (ACE) Entity Detection and Tracking (EDT) task, GNOME corpus, MATE corpus, etc

Page 3: NAIST テキストコーパス :  述語項構造と共参照関係のアノテーション

32007/1/26(Fri) NL-177-10

今回の取り組み 日本語を対象とした分析 / 評価 / 学習のための

大規模な述語項構造・共参照関係タグの作成既存のタグ付与の仕様を比較し,

各問題に対して暫定的に仕様を決定

タグ付与作業で出てきた問題について分析

タグ付与作業を行った成果NAIST Text Corpus 1.2β を公開

http://cl.naist.jp/nldata/corpus/

Page 4: NAIST テキストコーパス :  述語項構造と共参照関係のアノテーション

42007/1/26(Fri) NL-177-10

目次

1. はじめに2. 照応と共参照3. タグ付与の使用に関する先行研究と

NAIST テキストコーパスの仕様の比較4. 実際の作業結果の報告5. タグ付与の問題点6. おわりに

Page 5: NAIST テキストコーパス :  述語項構造と共参照関係のアノテーション

52007/1/26(Fri) NL-177-10

照応と共参照 照応関係 : ある表現が同一文章内の他の表現を指す関係 共参照関係 : 二つの表現が現実世界(もしくは仮想世

界)で同一実体を指す関係

村山首相は…彼は…

太郎は iPod を買った。次郎もそれを買った。

< 太郎の iPod>

< 次郎の iPod>

< 村山富市>

現実世界 ( 仮想世界 )

Page 6: NAIST テキストコーパス :  述語項構造と共参照関係のアノテーション

62007/1/26(Fri) NL-177-10

タグ付与の使用に関する先行研究とNAIST テキストコーパスの仕様の比較

タグ付与の種類 : 3 種の関係のタグ付与

共参照関係 Automatic Content Extraction (ACE)

Entity Detection and Tracking (EDT) task 京大コーパス 4.0, GDA コーパス

述語と項の関係

事態性名詞と項の関係

Page 7: NAIST テキストコーパス :  述語項構造と共参照関係のアノテーション

72007/1/26(Fri) NL-177-10

ACE Entity Detection and Tracking (EDT) Task

MUC Coreference (CO) task の後継MUC CO task (97, 98) , ACE EDT task (99 ~ )

対象言語English, Chinese and Arabic

最近の情報抽出タスクの gold standard

共参照解析のための 2 つの概念mention: 文章中に出現している表現そのものentity: mention が指す実体

Page 8: NAIST テキストコーパス :  述語項構造と共参照関係のアノテーション

82007/1/26(Fri) NL-177-10

ACE EDT Task (Cont’d)

mention と entity の区別

ジョンはリンゴを食べた。

彼はオレンジも食べた。

現実(仮想)世界

entity_iclass:specific_reference

共参照

文章

mention_aclass: namestype: Persons

mention_bclass: pronounstype: Persons

mention と entity にそれぞれ制約を強いている

現状では総称的な実体はタグ付与対象となっていない

Page 9: NAIST テキストコーパス :  述語項構造と共参照関係のアノテーション

92007/1/26(Fri) NL-177-10

共参照関係タグ付与コーパス(日本語) Global Document Annotation (GDA) コーパス

総称名詞間にタグが付与されている

京都コーパス 4.0ある実体とその役割の間に共参照相当のタグが付

村山 首相 は …

フロン対策急げ…フロンによる環境対策は…フロン=フロ

村山=首相

Page 10: NAIST テキストコーパス :  述語項構造と共参照関係のアノテーション

102007/1/26(Fri) NL-177-10

NAIST テキストコーパスでの共参照関係 問題となる点

総称名詞なども共参照関係として認めるのか ?

総称名詞は照応詞,先行詞とみなさないタグ付与対象となる名詞句のクラスに制限を加える ?

名詞句のクラスに制約を加えずに共参照関係を認定

ACE のように名詞句のクラスを固有名などに制限するのはある種の問題(情報抽出)に特化さまざまな応用処理を対象にする場合,そのような制限は望ましくない

本 a は、書物の一種で、印刷・製本された出版物を指す。

図書館の本 b は借りることができる。 本 a ⊃ 本 b

Page 11: NAIST テキストコーパス :  述語項構造と共参照関係のアノテーション

112007/1/26(Fri) NL-177-10

述語と項の関係の先行研究 PropBank (Palmer, 05): CoNLL shared task (04, 05) 述語を含む文を対象に意味役割タグを付与

ARG0, ARG1, …, ARG5, AA, AM, AM-ADV, etc (35 種類 )

文内のみのタグ付与

ラベルの意味が不明瞭

Page 12: NAIST テキストコーパス :  述語項構造と共参照関係のアノテーション

122007/1/26(Fri) NL-177-10

述語と項の関係の先行研究 京都コーパス 4.0 ( 555 記事)

ガ / ヲ / ニ / カラ / ヘ / ト / ヨリ / マデなど表層レベルのタグ付与

日本語の場合はゼロ照応ため文を越えて付与する

ニツイテなども表層格とする

トム i は今日学校 j へ行った。帰っガ : トム i, ニ : 外界照応 , カラ : 学校 j てすぐに遊びに出かけた。

Page 13: NAIST テキストコーパス :  述語項構造と共参照関係のアノテーション

132007/1/26(Fri) NL-177-10

NAIST テキストコーパスでの述語と項の関係 深層格や表層格などどのレベルでタグを付与する ?

表層レベルからなんらかの情報を捨象することが応用分野に貢献するか否かが自明ではない

表層格,特に頻出するガ / ヲ / ニ格をまず対象に「誰が何を何に対してどうする」といった情報の

抽出を目的におく

述語の原型に対してタグ付与する私は彼にリンゴを食べさせる。

[ 述語 =“ 食べさせる” , ガ =“ 私” ヲ =“ リンゴ” ニ =“ 彼” ]京都コーパス 4.0

[ 述語 =“ 食べる” , ガ =“ 彼” ヲ =“ リンゴ” 追加格 ( させる )=“ 私” ]NAIST コーパス

Page 14: NAIST テキストコーパス :  述語項構造と共参照関係のアノテーション

142007/1/26(Fri) NL-177-10

事態性名詞の先行研究 事態性名詞

ある種のイベントを表す名詞 NomBank (Meyers et al., 04)

Penn Treebank II の約 5,000 名詞PropBank と同じタグセット (ARG0, …, ARGM-LOC な

ど )

京都コーパス 4.0

12% growth in dividends next year[REL=growth, ARG1=in dividends, ARGM-TMP=next year]

新民主連合所属議員の離党問題について「政権に影響を及ぼすことにはならない。…[離党ガ影響(する) ]

Page 15: NAIST テキストコーパス :  述語項構造と共参照関係のアノテーション

152007/1/26(Fri) NL-177-10

NAIST テキストコーパスでの事態性名詞 事態性名詞

事態性名詞そのものを認定する必要がある

対象を限定 :サ変名詞,和語動詞の名詞化 (例「動き」「走り」) (つまり「運動会」などは除く)

複合語の扱い構成的に分解可能 複合語の構成素にタグ付与

「紛争仲裁」 「紛争」「仲裁」にタグ付与する「フランス革命」 「革命」にはタグ付与しない

彼からの電話によると、私は彼の家に電話を忘れたらしい。

Page 16: NAIST テキストコーパス :  述語項構造と共参照関係のアノテーション

162007/1/26(Fri) NL-177-10

NAIST テキストコーパス仕様のまとめ 共参照関係

非総称名詞間の共参照関係にのみタグ付与名詞句のクラスに制約は加えない

述語と項の関係述語の原型を対象に表層ガ / ヲ / ニ格をタグ付与

事態性名詞と項の関係事態性名詞はサ変名詞もしくは和語動詞の名詞化構成的に分解可能な場合には複合名詞の構成素も

事態性名詞として解釈する述語と同様に表層ガ / ヲ / ニ格を付与

Page 17: NAIST テキストコーパス :  述語項構造と共参照関係のアノテーション

172007/1/26(Fri) NL-177-10

目次

1. はじめに2. 照応と共参照3. タグ付与の使用に関する先行研究と

NAIST テキストコーパスの仕様の比較4. 実際の作業結果の報告5. タグ付与の問題点6. おわりに

Page 18: NAIST テキストコーパス :  述語項構造と共参照関係のアノテーション

182007/1/26(Fri) NL-177-10

統計量

出現箇所 ガ格 ヲ格 ニ格述語106,628

同一文節内係り関係ゼロ照応 ( 文内 )ゼロ照応 ( 文間 )ゼロ照応 ( 文章外 )全体

177 (0.002)44,402 (0.419)32,270 (0.305)13,181 (0.124)15,885 (0.150)

105,915 (1.000)

60 (0.001)35,882 (0.835)

5,625 (0.131)1,307 (0.030)

96 (0.002)42,970 (1.000)

591 (0.027)18,912 (0.879)

1,417 (0.066)542 (0.025)45 (0.002)

21,507 (1.000)

事態性名詞28,569

同一文節内係り関係ゼロ照応 ( 文内 )ゼロ照応 ( 文間 )ゼロ照応 ( 文章外 )全体

2,195 (0.077)4,332 (0.152)9,222 (0.324)5,190 (0.183)7,525 (0.264)

28,464 (1.000)

5,574 (0.506)2,890 (0.263)1,645 (0.149)

854 (0.078)42 (0.004)

11,005 (1.000)

846 (0.436)298 (0.154)586 (0.302)201 (0.104)10 (0.005)

1,941 (1.000)

京都テキストコーパス 3.0 (2,929記事, 38,384 文 ) を対象に

Page 19: NAIST テキストコーパス :  述語項構造と共参照関係のアノテーション

192007/1/26(Fri) NL-177-10

統計量

出現箇所 ガ格 ヲ格 ニ格述語106,628

同一文節内係り関係ゼロ照応 ( 文内 )ゼロ照応 ( 文間 )ゼロ照応 ( 文章外 )全体

177 (0.002)44,402 (0.419)32,270 (0.305)13,181 (0.124)15,885 (0.150)

105,915 (1.000)

60 (0.001)35,882 (0.835)

5,625 (0.131)1,307 (0.030)

96 (0.002)42,970 (1.000)

591 (0.027)18,912 (0.879)

1,417 (0.066)542 (0.025)45 (0.002)

21,507 (1.000)

事態性名詞28,569

同一文節内係り関係ゼロ照応 ( 文内 )ゼロ照応 ( 文間 )ゼロ照応 ( 文章外 )全体

2,195 (0.077)4,332 (0.152)9,222 (0.324)5,190 (0.183)7,525 (0.264)

28,464 (1.000)

5,574 (0.506)2,890 (0.263)1,645 (0.149)

854 (0.078)42 (0.004)

11,005 (1.000)

846 (0.436)298 (0.154)586 (0.302)201 (0.104)10 (0.005)

1,941 (1.000)

京都テキストコーパス 3.0 (2,929記事, 38,384 文 ) を対象に 8 割以上が

係り関係にある約 6 割がゼロ照応関係にある

Page 20: NAIST テキストコーパス :  述語項構造と共参照関係のアノテーション

202007/1/26(Fri) NL-177-10

統計量

出現箇所 ガ格 ヲ格 ニ格述語106,628

同一文節内係り関係ゼロ照応 ( 文内 )ゼロ照応 ( 文間 )ゼロ照応 ( 文章外 )全体

177 (0.002)44,402 (0.419)32,270 (0.305)13,181 (0.124)15,885 (0.150)

105,915 (1.000)

60 (0.001)35,882 (0.835)

5,625 (0.131)1,307 (0.030)

96 (0.002)42,970 (1.000)

591 (0.027)18,912 (0.879)

1,417 (0.066)542 (0.025)45 (0.002)

21,507 (1.000)

事態性名詞28,569

同一文節内係り関係ゼロ照応 ( 文内 )ゼロ照応 ( 文間 )ゼロ照応 ( 文章外 )全体

2,195 (0.077)4,332 (0.152)9,222 (0.324)5,190 (0.183)7,525 (0.264)

28,464 (1.000)

5,574 (0.506)2,890 (0.263)1,645 (0.149)

854 (0.078)42 (0.004)

11,005 (1.000)

846 (0.436)298 (0.154)586 (0.302)201 (0.104)10 (0.005)

1,941 (1.000)

京都テキストコーパス 3.0 (2,929記事, 38,384 文 ) を対象に 8 割以上が

係り関係にある約 6 割がゼロ照応関係にある

同一文節内に最も多く出現約 8 割が

ゼロ照応の関係

Page 21: NAIST テキストコーパス :  述語項構造と共参照関係のアノテーション

212007/1/26(Fri) NL-177-10

タグの一致率

再現率 精度述語ガ格ヲ格ニ格

0.921 (806/875)0.823 (683/830)0.899 (329/366)0.724 (105/145)

0.944 (806/854)0.829 (683/824)0.954 (329/345)0.890 (105/118)

事態性名詞ガ格ヲ格ニ格

0.965 (247/256)0.735 (191/260)0.827 (86/104)0.389 (7/18)

0.792 (247/312)0.743 (191/257)0.869 (86/99)0.583 (7/12)

共参照 0.813 (126/155) 0.813 (126/155)

作業者 2人に 30記事を対象に作業を行ってもらった結果 一人の作業結果を正解,もう一人の結果をシステムの

出力として再現率,精度を求める

Page 22: NAIST テキストコーパス :  述語項構造と共参照関係のアノテーション

222007/1/26(Fri) NL-177-10

タグ付与の問題点

4 つ種の主要な問題について議論 共参照関係のタグ付与 述語のタグ付与 事態性名詞のタグ付与 述語と項の関係のタグ付与

Page 23: NAIST テキストコーパス :  述語項構造と共参照関係のアノテーション

232007/1/26(Fri) NL-177-10

共参照のタグ付与の問題点換喩のタグ付与

「ロシア側」という表現が異なる表現と共参照関係となり

実際に問題を解く際には非常に難しい問題設定となる

「ロシア」間で共参照関係を認定

グロズヌイからの報道によると三日、大統領官邸の北西一・五キロの鉄道駅付近でロシア軍部隊 i とチェチェン側部隊が衝突したが、ロシア側 i は中心部への進撃を阻まれて苦戦。 ... ロシア政府 j は三日、戦況に関する声明を発表し、大統領官邸を含む首都中心部は依然としてロシア側が支配していると強調した。しかし現地からのテレビ映像では、官邸はじめ中心部は依然としてドゥダエフ政権部隊の兵士が警戒に当たっており、ロシア側 j の発表と食い違いを見せている。

Page 24: NAIST テキストコーパス :  述語項構造と共参照関係のアノテーション

242007/1/26(Fri) NL-177-10

述語のタグ付与の問題点機能語相当表現との曖昧性

本動詞的な解釈 : 会社 A が会社 B を子会社とする機能語的な解釈 : “ ある一つの側面からの価値付け”

土屋ら (06): 機能語相当表現(複合辞)を対象に作業者間の一致度を評価

ある程度揺れなく作業できている

項を考慮しながら述語を認定する場合に困難になる 各表現ごとにどちらに解釈すべきかをあらかじめ

 提示する

会社 A が会社 B を子会社として …

Page 25: NAIST テキストコーパス :  述語項構造と共参照関係のアノテーション

252007/1/26(Fri) NL-177-10

事態性名詞のタグ付与の問題点複合語の分割をどこまでやるのか ?

仕様 : 構成的に分割できる場合のみ複合語の中も    タグ付与の対象とする

「投資率」のような複合語をどの程度構成的に分解するかの解釈が作業者間で揺れた

結果物はモノなのかコトなのか ?「契約」「規制」「投資」などの表現

料金規制当局と公共事業者が、一種の社会契約を結んだという考えに立つもので、経営効率化促進のための社会契約インセンティブ規制とも言われる。

事態性名詞についての細かな取り決めが必要

Page 26: NAIST テキストコーパス :  述語項構造と共参照関係のアノテーション

262007/1/26(Fri) NL-177-10

項のタグ付与の問題点 交替の現象ために起こる揺れ

例)( φ ガ)( φ ヲ)実現するagent ガ theme ヲ 実現するtheme ガ 実現する

他動詞的な解釈でタグを付与する 動作主性( agentivity )をどこまで認めるか ?

例)動詞 : 「しばる」の項「規制」規制( agent )ガ theme ヲ しばるagent ガ 規制( instrument )デ theme ヲ しばる

どちらの格パタンを優先するかを決める

Page 27: NAIST テキストコーパス :  述語項構造と共参照関係のアノテーション

272007/1/26(Fri) NL-177-10

おわりに 述語項構造・共参照関係のタグ付与の現状の仕様

を既存のコーパス作成の仕様と比較して紹介

問題点で述べた箇所を中心に今後もコーパスとその仕様を洗練する予定

Page 28: NAIST テキストコーパス :  述語項構造と共参照関係のアノテーション

282007/1/26(Fri) NL-177-10

公開情報NAIST Text Corpus 1.2β

ダウンロードhttp://cl.naist.jp/nldata/corpus/

タグ付与の仕様http://cl.naist.jp/~ryu-i/coreference_tag.html

Page 29: NAIST テキストコーパス :  述語項構造と共参照関係のアノテーション

292007/1/26(Fri) NL-177-10

Page 30: NAIST テキストコーパス :  述語項構造と共参照関係のアノテーション

302007/1/26(Fri) NL-177-10

述語と項の関係の先行研究 京都コーパス 4.0 ( 555 記事)

ガ / ヲ / ニ / カラ / ヘ / ト / ヨリ / マデなど表層レベルのタグ付与

日本語の場合はゼロ照応ため文を越えて付与する

ニツイテなども表層格とする Global Document Annotation コーパス ( 橋田 , 05)

ゼロ照応の場合でも同一文内に先行詞が出現している場合にはタグが付与されていない

学習手法の訓練事例として利用するには網羅性の点で問題となる

トム i は今日学校へ行った。帰っガ : トム i, ニ : 外界照応 てすぐに遊びに出かけた。

Page 31: NAIST テキストコーパス :  述語項構造と共参照関係のアノテーション

312007/1/26(Fri) NL-177-10

MUC Coreference Task

機械学習を用いた共参照解析の gold standard データ

情報抽出の部分問題としての共参照解析タスク 一般に共参照関係とはみなされない関係も

タグ付与の対象となっている

most, every のような量化表現を伴った名詞句Julius Caesar, the well-known emperor … のような

同格表現