日本語文章に対する述語項構造アノテーション仕様の考察

46
日本語文章に対する述語項構造 アノテーション仕様の考察 松林 優一郎 1 , 飯田 龍 2※ , 笹野 遼平 2 , 横野 光 3 , 松吉 俊 4 , 藤田 篤 5※ , 宮尾 祐介 3 , 乾 健太郎 1 1 東北大学, 2 東京工業大学, 3 国立情報学研究所 4 山梨大学, 5 はこだて未来大学 ※現在はNICT 1 自然言語処理 21(2) pp.331-378 20144言語処理学会 2014年 最優秀論文賞

Transcript of 日本語文章に対する述語項構造アノテーション仕様の考察

日本語文章に対する述語項構造 アノテーション仕様の考察

松林 優一郎1, 飯田 龍2※, 笹野 遼平2, 横野 光3, 松吉 俊4, 藤田 篤5※, 宮尾 祐介3, 乾 健太郎1

1東北大学, 2東京工業大学, 3国立情報学研究所

4山梨大学, 5はこだて未来大学 ※現在はNICT

1

自然言語処理 21(2) pp.331-378 2014年4月 言語処理学会 2014年 最優秀論文賞

本研究の概要 •  述語項構造に関心のある研究者らが、既存の日本語述語項構造アノテーションの仕様やガイドラインの問題点を整理し、改善案を議論

•  組織の垣根を越えて継続的に仕様改善の議論を行うための方法論を提示 –  従来の仕様書では明文化されない傾向にあった「何故」の部分を集約・公開するアプローチ

議論の具体的成果 •  仕様改善に向けた4種15項目の論点を列挙し、議論の内容と個々の論拠を報告

•  議論参加者が暗に想定している6種の設計指針を整理し、議論内容との対応関係を明示

2

•  複雑な文構造を、述語を中心とした簡潔な意味構造を使って整理する

•  複雑な意味構造の理解を要する処理に有用 – 機械翻訳、情報抽出、言い換え、含意関係認識

述語項構造解析

3

太郎の 結婚は 3年前に さかのぼる。 (その) きっかけは、

(~が) たまたま 入った サークルで、

(~が) 同級生、花子に 出会った こと だった。

が を に A is ~ ~ is B

   

項構造 照応関係 同格・コピュラ

•  複雑な文構造を、述語を中心とした簡潔な意味構造を使って整理する

•  複雑な意味構造の理解を要する処理に有用 – 機械翻訳、情報抽出、言い換え、含意関係認識

述語項構造解析

4

太郎の 結婚は 3年前に さかのぼる。 (その) きっかけは、

(~が) たまたま 入った サークルで、

(~が) 同級生、花子に 出会った こと だった。

が を に A is ~ ~ is B

   

項構造 照応関係 同格・コピュラ

太郎の 結婚は 3年前に さかのぼる。 (その) きっかけは、

(~が) たまたま 入った サークルで、

(~が) 同級生、花子に 出会った こと だった。

が を に A is ~ ~ is B

   

項構造 照応関係 同格・コピュラ

•  複雑な文構造を、述語を中心とした簡潔な意味構造を使って整理する

•  複雑な意味構造の理解を要する処理に有用 – 機械翻訳、情報抽出、言い換え、含意関係認識

述語項構造解析

5

太郎が 結婚した

結婚が 三年前に さかのぼる

きっかけは 出会ったこと だった

太郎が サークルに 入った

太郎が 花子に 出会った

注釈付きコーパスの役割

分析

評価

学習

生コーパス 注釈付きコーパス

•  現象の分析、分布の把握 •  理想的な出力の規定(事例ベースの仕様策定) •  統計的機械学習 •  定量的で再現性のある評価

6

既存のコーパス •  日本語

–  京大コーパス格関係 (KTC) (河原+, 1997) –  NAISTテキストコーパス (NTC) (飯田+, 2007) –  GDAコーパス (橋田, 2005) –  解析済みブログコーパス (KNBC) (橋本+, 2009) –  BCCWJ-PAS (小町 & 飯田, 2011) –  日本語フレームネット(小原+, 2013)

•  英語 –  PropBank (Palmer+, 2005) –  FrameNet (Ruppenhofer+ 2006) –  NomBank (Meyers+, 2004) –  OntoNotes (Hovy+, 2006)

•  統計的アプローチによる述語項構造解析や言語学的分析の指針となってきた

7

日本語述語項構造コーパス に対する二つの問題意識

•  作業者間一致率が十分でない

•  継続的仕様改善のための環境がない

8

背景1: 作業者間一致率が十分でない

•  英語 –  PropBank: kappa 0.91 –  FrameNet: F値 91%

•  日本語 –  NTC: F値 83% (飯田+, 2006) –  KTC: F値 85% (河原+, 2002) ü 省略・格交替・二重主語構文・連体節などの取り扱いが難しい現象がある

ü 文をまたいだアノテーションが必要

解析器が高水準になると、既存コーパスからの学習・分析では十分な結果が得られなくなる可能性がある

9

NAISTテキストコーパスの 作業者間一致率

※2名の作業者の一方を正解として適合率再現率を計算

10

直接係り受け 格 P R F

有り ガ 92.4 94.4 93.4 ヲ 96.3 98.4 97.3 ニ 82.6 89.6 86.0

無し ガ 69.3 68.6 69.0 ヲ 46.8 66.7 55.0 ニ 33.3 83.3 47.6

特に項の省略を伴う 事例の一致率が低い

種類 P R F 述語 92.3 94.6 93.5 イベント性名詞 96.5 79.2 87.0

述語認定

項認定

述語の認定自体も 問題

背景2: 継続的仕様改善のための環境がない

•  一般的なコーパス開発 – 開発グループ内部で内々に知見を引き継ぎ、最後まで責任をもって作る形態

– ガイドライン策定時の議論内容はグループ内で閉じた情報となる場合が多く、外からは参照不可能

– 既存のガイドラインや研究報告には、それぞれのアノテーション規約を採用した根拠が書かれていない

11

背景2: 継続的仕様改善のための環境がない

•  背景の理論が発展途上の場合、コーパスアノテーションは理論を構築・実装する過程でもある – 述語項構造、照応・共参照解析、モダリティ、含意関係、語義判定、……

– 骨組みの理論を実世界の文を解析できるよう拡張・再構築する必要がある

•  理論の実装は長期の研究課題であり、分野全体で継続的に議論を行うべき – そのためには、仕様策定時の判断基準や基本的理念を集約・共有しなければならない

12

本研究の目的 •  具体的な仕様改善に向けて – 既存の日本語述語項構造コーパスのガイドラインにおいて問題や曖昧性の残る部分を洗い出し、議論する

•  持続可能な改善案の議論のために – 議論対象となった項目について、議論参加者の「方針」を顕在化する • 何故そこが議論の対象になるのか、何故そのように基準を設けようとするのか

13

方法 •  一般的なガイドライン改善の手順 – 開発グループ内でアノテーションと議論を反復

•  2つの方法を組み合わせる 1.  新規作業者による既存のガイドラインを用いたアノテーション •  ガイドライン文書の独立性を担保する

2.  コーパス開発者・関連分野の研究者による合議 •  仕様策定時の判断基準や基本理念を集約する •  関連分野の専門家の考えを反映

14

論点の洗い出し

15

新規アノテーション

ガイドラインを読む

Wikipedia・BCCWJ アノテーション 迷った場所を報告

ガイドラインに追記

解決策の思案

簡潔に 解決可能

難解 論点リスト

著者らの 一部

1000文程度になるまで繰り返す

著者ら8名の 研究者の知見

追記

著者らによる議論 •  NTC開発者2名 •  KTC開発者1名 •  言語処理研究者5名

述語項構造アノテーションの 経験がない日本語母語話者

4種15項目の論点

論点整理の基本方針 •  NTCのガイドラインをベースとする

–  より多くの事例を分析するため –  関連する議論項目ではKTCの仕様も参照

•  議論のスコープ –  簡潔な規則で解決可能と判断した問題は議論の対象外

•  厳格な取り決めを設計することが目的ではなく、難解な部分について議論を深める事が目的

–  共参照・照応は対象外(今後の課題)

•  具体的な取り決めをするところまでは目標としない –  実際には、目的に応じた取り決めがありうる –  各研究者がどのように考えるかという「視点」を集約する

16

NTCのアノテーション仕様 •  (意味上の)述語 – 動詞・形容詞・名詞句+ダ – サ変動詞、名詞句+ダの体言止め・ナ形容詞語幹 – イベント性名詞(サ変名詞・述語相当の転成名詞)

太郎 が 花子 に リンゴ を あげ た 。 本日 未明 に 竜巻 が 発生 、(体言止め) 県 の 現在 の 一般 事務 職 の 採用 は (イベント)

17

NTCのアノテーション仕様 •  例外(述語とみなさない) – 機能語相当表現 – 形容詞の副詞的用法 – 固有表現内の述語

彼の話によると、(機能語相当) 本を買ってしまう。(機能語相当) 彼にリンゴを食べてほしい。(機能語相当) 点の取り方をよく知っている。(形容詞の副詞用法) 野鳥を守る会。(固有表現)

18

NTCのアノテーション仕様 •  アノテーションの単位 –  IPADICが定める1形態素

• 述語や項が複合語・句・節の場合は最も後ろの形態素にラベルを割り当てる(ただし「名詞句+だ」の場合は名詞句の最右形態素)

彼 が 来 た か どう か 知り たい 。 A 社 は 新型 交換 器 を 導入 。 彼 と お茶 する 。 太郎 は 九州 男児 だ 。

19

NTCのアノテーション仕様 •  項 – ガ・ヲ・ニ表層格相当のみアノテーション – 必須格のみ(必須格の詳細は未定義)

•  10時に 学校に 行く

– 述語が原形の場合の格に正規化 •  私 は 父 に 死な れ た 。 •  私 は 彼 に リンゴ を 食べ させる 。

– ゼロ照応の項もアノテーション •  ひつまぶし を 食べる ため 、 太郎 は 名古屋 へ 行く 。

20

21

整理された論点一覧(4種15項目) カテゴリ 論点

タグ付けすべき述語の 認定基準

述語項構造を重要視すべき述語とそうでない述語 名詞のイベント性認定 述語が複合語である場合の分解

格の取り扱い

ニ格の「必須格」性 可能形・二重ガ格構文・持主受身 使役・受身・ムード・授受表現・機能動詞で追加される格 慣用表現 格交替と表層格タグの種類(KTC 方式と NTC 方式) 項としての形容詞(ニ格相当)

格及び格フレームの曖昧性解消・必須項の見落とし

A の B、連体節、ゼロ照応等における格フレームの曖昧性 格フレーム辞書とアノテーションの一貫性 非文へのアノテーション

新聞ドメイン以外で 見られた現象

述語の省略 疑問文の照応 音象徴語 22

述語項構造を重要視すべき述語とそうでない述語(現象)

•  項構造に本質的な意味の薄い表現 – 機能語相当表現

• セミに つい て 調べた (格助詞相当) • 食べ なければ なら ない (モダリティ表現)

•  項構造の基本構造を別の述語に預け、態・モダリティ・アスペクト等を表すもの – 機能動詞構文・授受表現

• 事件が 社会に 混乱を 与える (機能動詞構文) • 私が 彼に サインを 書い て もらう (授受表現)

23

ü アノテーションコストの面からも、解析の実利を考慮した評価を行うという面からも区別して扱いたい

述語項構造を重要視すべき述語とそうでない述語(現象)

•  項構造に本質的な意味の薄い表現 – 機能語相当表現

• セミに つい て 調べた (格助詞相当) • 食べ なければ なら ない (モダリティ表現)

•  項構造の基本構造を別の述語に預け、態・モダリティ・アスペクト等を表すもの – 機能動詞構文・授受表現

• 事件が 社会に 混乱を 与える (機能動詞構文) • 私が 彼に サインを 書い て もらう (授受表現)

24

ü アノテーションコストの面からも、解析の実利を考慮した評価を行うという面からも区別して扱いたい 作業上のコストをできる だけ減らすスキーマ

利用目的とアノテーション スキーマの関係

述語項構造を重要視すべき述語とそうでない述語(議論)

•  機能動詞構文のように機能を持つ部分が本動詞であり、項との直接的な係り受け関係が認められる場合も省くのか – このような構造は直接的な解析の手がかりとなる

25

与えた 事件 社会に 混乱を ガ ガ

ヲ デ

利用目的とアノテーションスキーマの関係

述語項構造を重要視すべき述語とそうでない述語(議論)

•  表現が多様である – 実テキストの事例を網羅的にガイドできるか

•  弁別の基準と辞書的列挙 –  機能表現: 森田&松木 1989、グループ・ジャマシイ 1998、日本語機能表現辞書「つつじ」松吉&佐藤 2008、上岡+ 2014

–  機能動詞:泉+ 2009、藤田+ 2009 –  参考にできるが網羅的ではない

•  リストを用いた自動アノテーション –  例外を除き全アノテータに同一の判断を強制する

•  作業コスト軽減、一致率の向上 –  作業時に逐次的に辞書更新する枠組み

26

•  表現が多様である – 実テキストの事例を網羅的にガイドできるか

•  弁別の基準と辞書的列挙 –  機能表現: 森田&松木 1989、グループ・ジャマシイ 1998、日本語機能表現辞書「つつじ」松吉&佐藤 2008、上岡+ 2014

–  機能動詞:泉+ 2009、藤田+ 2009 –  参考にできるが網羅的ではない

•  リストを用いた自動アノテーション –  例外を除き全アノテータに同一の判断を強制する

•  作業コスト軽減、一致率の向上 –  作業時に逐次的に辞書更新する枠組み

述語項構造を重要視すべき述語とそうでない述語(議論)

27

データ内の現象に関する 取り扱いの網羅性

作業上のコストや作業者が 直面する選択肢数をできる だけ減らすスキーマ

述語が複合語である場合の分解 (現象)

•  1語とみなす語は、形態素分割基準によって異なる

28

品詞構成 対象語 IPA JUMAN UniDIC V+VN 立ち読み(する) 立ち読み 立ち読み 立ち読み V+V(N) 消し忘れ(る) 消し 忘れ 消し 忘れ 消し 忘れ V+V 歩き回る 歩き回る 歩き 回る 歩き回る V+V 食べ歩く 食べ 歩く 食べ歩く 食べ歩く N+VN 歯磨き(する) 歯磨き 歯磨き 歯磨き N+VN 子供扱い(する) 子供 扱い 子供 扱い 子供 扱い N+VN 二人乗り(する) 二人 乗り 二人 乗り 二人乗り N+VN ポイ捨て(する) ポイ捨て ポイ 捨て ポイ捨て

述語が複合語である場合の分解 (議論)

•  論点 – 述語項構造という立場ではどのような形態素分割基準が最も適切か

– ある形態素分割基準で複合語が二形態素以上に分割されたとき、複合語内部の述語は全てタグ付け対象として適切か

→ あまり自明ではない

29

述語が複合語である場合の分解 (議論)

•  アプリケーションからみた観点 – 応用先・モデルの実装方法によって、どの単位を述語として扱うべきか、複合語内部の項構造が必要となるかが異なる – 複合語のレベルでルール適用

•  立ち読み → stand reading •  二人乗り → double riding

– 複合語解釈をして分解された要素を用いて計算 •  立ち読み → 立って 読む → 疲れる •  二人乗り → 二人が 乗る → 二人とも移動する •  消し忘れ → 消すことを 忘れる → 消えていない

30

述語が複合語である場合の分解(議論)

•  複合語内部の述語間の項関係は殆どの出現で一意に決まっている

•  辞書的に管理・自動アノテーション – 作業コスト軽減、一致率の向上 – 例外を除き、全アノテータに同一の判断を強制 – 複合語を1語とみなす場合と分解する場合を変換できるので、異なるアプリケーションの要求に柔軟に対応できる

31

•  複合語内部の述語間の項関係は殆どの出現で一意に決まっている

•  辞書的に管理・自動アノテーション – 作業コスト軽減、一致率の向上 – 例外を除き、全アノテータに同一の判断を強制 – 複合語を1語とみなす場合と分解する場合を変換できるので、異なるアプリケーションの要求に柔軟に対応できる

述語が複合語である場合の分解(議論)

32

利用目的とアノテーションスキーマ の関係

作業上のコストや作業者が直面する 選択肢数をできるだけ減らすスキーマ

データ内の現象に関する取り扱いの 網羅性

A の B、連体節、ゼロ照応における 格フレームの曖昧性(現象)

•  視点や読みによって格フレームの曖昧性がある

33

パソコンが 起動する(自動詞) パソコンを 起動する(他動詞)

(誰かが) 鍵で 開ける(道具格) 鍵が 開ける(動作主格)

[政府 ガ ] が [経済 ヲ ] を再生する(他動詞) [政府 追加ガ] が [経済 ガ] を再生させる (自動詞+使役) 生徒を 教える(対象格) 生徒に 教える(目標格)

パソコンの起動

ドアを開ける鍵

政府による経済再生

私が教える生徒

文章 読み(解釈)

A の B、連体節、ゼロ照応における 格フレームの曖昧性(現象)

•  格の曖昧性: – 同一の意味機能を持つ項に対して、複数の格助詞が代替可能

•  どちらの場合も、アノテーションに一貫性がないと、学習・評価に問題がおこる

34

私が/から 話す 太郎に/から もらう 風に/で 揺れる 花びら 土台に/と くっつける

A の B、連体節、ゼロ照応における 格フレームの曖昧性(議論)

•  一般的方法: – 予め定めた優先順位に従ってラベルを一意に定める 😀:見かけ上の一致率が上がる → 学習・評価時に有効 😔:文脈から決まる「自然な読み」を示せない 😔:本質的に曖昧な場合にどれでもよいことを示せない

•  より精密な方法: – 文脈的にいずれかの格フレームの方がより自然な場合 → アノテータの判断で選ぶ(確信度を付ける)

– 本質的にどちらにも決まらない場合 → 予め定めた優先順位+曖昧であることを示す

35

•  格フレームの曖昧性

A の B、連体節、ゼロ照応における 格フレームの曖昧性(議論)

36

[パソコンガ] の 起動[自・曖昧]

起動する

自:ガ 他:ガ、ヲ

格フレーム •  厳密な評価が可能になる •  格フレーム構築コストがかかる

•  文脈上、自動詞・他動詞どちらに解釈してもよい •  項の数がより少ない自動詞型でアノテートした

[パソコンヲ] の 起動

正解アノテーション

システム出力 OK

A の B、連体節、ゼロ照応における 格フレームの曖昧性(議論)

•  格の曖昧性

37

彼には 私から 話し て おく。

[私からガ] 話し て おく

[私からカラ] 話し て おく 話す

ガ ←→ カラ ヲ ニ

•  アノテータの内省に頼る •  アノテーションコストは高い

•  交替は格フレームで管理 •  一致率の低下を軽減 •  格フレーム構築コストがかかる

格を汎化

出現格に従う

A の B、連体節、ゼロ照応における 格フレームの曖昧性(議論)

•  格の曖昧性

38

彼には 私から 話し て おく。

[私からガ] 話し て おく

[私からカラ] 話し て おく 話す

ガ ←→ カラ ヲ ニ

•  アノテータの内省に頼る •  アノテーションコストは高い

•  交替は格フレームで管理 •  一致率の低下を軽減 •  格フレーム構築コストがかかる

格を汎化

出現格に従う

データ量と質のコントロール

本質的に曖昧な選択肢に 対する作業の一貫性・評価

作業上のコストや作業者が 直面する選択肢数を できるだけ減らすスキーマ

仕様設計時の指針 •  各論点の議論の中で暗黙的に配慮されているガイドライン策定の指針を集約

39

データ量と質のコントロール

データ内の現象に関する取り扱いの網羅性 利用目的とアノテーションスキーマの関係

段階的に質と情報密度を向上できるフレームワーク

本質的に曖昧な選択肢に対する作業の一貫性・評価

作業上のコストや作業者が直面する選択肢数を できるだけ減らすスキーマ

仕様設計時の指針 •  各論点の議論の中で暗黙的に配慮されているガイドライン策定の指針を集約

40

データ量と質のコントロール

データ内の現象に関する取り扱いの網羅性 利用目的とアノテーションスキーマの関係

段階的に質と情報密度を向上できるフレームワーク

本質的に曖昧な選択肢に対する作業の一貫性・評価

作業上のコストや作業者が直面する選択肢数を できるだけ減らすスキーマ

複雑で作業コストが高く、現象をほどよく 被覆するために必要な文章量が多い アノテーションタスクに共通の観点

各論点での議論と 設計の指針との対応関係

•  指針と実際の取り決めの間の対応関係は、ガイドライン改善に関する継続的な議論のために必要不可欠

41

述語項構造を重要視すべき述語とそうでない述語 名詞のイベント性認定 述語が複合語である場合の分解 ニ格の「必須格」性 可能形・二重ガ格構文・持主受身 使役・受身・ムード・授受表現・機能動詞で追加される格 慣用表現 格交替と表層格タグの種類(KTC 方式と NTC 方式) 項としての形容詞(ニ格相当) A の B、連体節、ゼロ照応等における格フレームの曖昧性 格フレーム辞書とアノテーションの一貫性 非文へのアノテーション

データ量と質のコントロール

データ内の現象に関する 取り扱いの網羅性

利用目的とアノテーション スキーマの関係

段階的に質と情報密度を 向上できるフレームワーク

本質的に曖昧な選択肢に 対する作業の一貫性・評価

作業上のコストや作業者が 直面する選択肢数を できるだけ減らすスキーマ

具体的なアノテーション フレームワークの例

表層格(出現形)

タグセット (複数の選択肢)

表層格(原形)

主題役割

格フレーム(出現形)

述語毎の 格フレーム

(格フレーム辞書)

格フレーム(原形)

格フレーム(主題役割) 機能の 対応規則

交替規則

タグセットの 対応関係

タグ付与

作業時 参照

a. 辞書によるバリエーションの列挙 項構造の一括管理 機能表現

複合語内の項構造 慣用表現

半自動アノテーション (作業漏れの抑制)

文章群

他のデータ

精緻なデータ コーパス 全体 格フレーム無し

or 自動獲得の

格フレームによる アノテーション

人手の格フレーム N人多重チェック [こなごな1st:none, others:ニ] に 割る

[パソコンガ] の 起動[自・曖昧]

起動する

自:ガ 他:ガ、ヲ

格フレーム d. 曖昧性の管理

b. タグセット の管理

c. 質と量の管理 42

理論や作業環境の整備を考慮した 段階的な開発手順の具体例

1.  動詞・形容詞・コピュラ・サ変の体言止めの項構造アノテーション –  慣用句と思う事例はチェックのみつけておく –  複合語は分解せず、語の外側の項のみアノテーション

2.  複合語の分解(辞書的処理) 3.  イベント性名詞の項構造アノテーション(転成名詞・サ変名詞)

4.  慣用句の収集・整理・述語化 5.  照応・共参照情報に関わる整備(本論文の範疇外) 6.  ニ格相当の形容詞 7.  必須格と周辺格の区別 8.  意味役割によるアノテーション

43

まとめ •  既存の日本語述語項構造アノテーションの仕様やガイドラインの問題点を整理し、改善案を議論 – 既存のガイドラインを用いた新規アノテーション – 研究者・アノテータが経験的に持つ知見を集約する

•  組織横断的に仕様改善の議論を行うための提言 –  従来の仕様書では明文化されない傾向にあった「何故」の部分を集約・公開するアプローチ

具体的成果 •  具体的に4種15項目の論点を列挙し、議論内容と主要な論拠を報告

•  議論参加者が暗に想定している6種の設計指針を整理し、議論内容との対応関係を明示

44

今後 •  分析規模の拡大、継続的・建設的な議論 – 新規ドメインにおける分析

•  アノテーションに関わる工学的知見の集積 – 問題点の洗い出しの方法論 – ガイドライン作成時の一般的理念 – アノテーション作業時の要素を客観的指標で評価できるような仕組み •  アノテーションタスクの複雑度 (Fort+, 2012) •  一致率に影響する因子 (Bayerl & Paul, 2011) •  ラベルの粒度と一致率から信頼できる情報量のゲインを計算 (Cinková+, 2012)

45

言語処理学会2013 チュートリアルでの出来事

•  飯田 龍氏「テキストアノテーション:現状と今後の方向性」の質疑応答の時間に… – NTT CS lab. 西川さんの質問(意訳) 「学生が新しいタスクをやろうとしてアノテーションに着手するとき、ちゃんとした経験を積んだ指導者がいる研究室であれば、正しい作法を伝授できるが、そうでない研究室で正しい作法を学ばせる手段があるのか?これを学ばせる方法がないと、有用な言語資源を構築できる人や研究室が非常に限られてくる」 

アノテーションに関わる作法や考え方を 共有することは業界の大事な財産になる