Domain-spesific Paraphrase Extraction

14
Domain-Specific Paraphrase Extraction 長岡技術科学大学 自然言語処理研究室 高橋寛治 Ellie Pavlick, Juri Ganitkevitch, Tsz Ping Chan, Xuchen Yao, Benjamin Van Durme, Chris Callison-Burch, Proceedings of the 53rd Annual Meeting of the Association for Computational Linguistics and the 7th International Joint Conference on Natural Language Processing (Short Papers) , pages 57–62, 2015 文献紹介 2016年2月2日

Transcript of Domain-spesific Paraphrase Extraction

Page 1: Domain-spesific Paraphrase Extraction

Domain-Specific Paraphrase Extraction

長岡技術科学大学 自然言語処理研究室高橋寛治

Ellie Pavlick, Juri Ganitkevitch, Tsz Ping Chan, Xuchen Yao,Benjamin Van Durme, Chris Callison-Burch,Proceedings of the 53rd Annual Meeting of the Association forComputational Linguistics and the 7th International JointConference on Natural Language Processing (Short Papers), pages57–62, 2015

文献紹介 2016年2月2日

Page 2: Domain-spesific Paraphrase Extraction

概要•言い換えの妥当性はドメインに依存する•ドメイン固有の言い換えの抽出を提案•パラレルコーパスを用いたピポッド法を用いる•P-R曲線下面積で10%ほど向上した

Domain-SpecificParaphraseExtraction 2

Page 3: Domain-spesific Paraphrase Extraction

はじめに•言い換え抽出の研究は盛んである•文脈に対して換言が妥当性の判断は困難•よくある換言処理は、換言規則をドメインが変わってもそのまま適用する

Domain-SpecificParaphraseExtraction 3

Page 4: Domain-spesific Paraphrase Extraction

ドメインによる違いGeneral Biology

hot Warm,sexy,exciting Heated,warm,thermaltreat Address,handle,buy Cure, fight,killhead Leader,boss,mind Skull,brain,cranium

Domain-SpecificParaphraseExtraction 4

ドメインの変化に対応することにより言い換えの妥当性が上がる語がある

Page 5: Domain-spesific Paraphrase Extraction

言い換えの方針•学習コーパス内の文を対象ドメインらしさ順に並べ、サブサンプリングされた対象ドメインと思われるデータから換言を抽出•ドメイン依存の換言をドメインに基づいた重みにより向上•サブサンプリングされたドメインの換言スコアと一般ドメインの換言スコアを合体させることにより適合率を保ちながら再現率を向上

Domain-SpecificParaphraseExtraction 5

Page 6: Domain-spesific Paraphrase Extraction

言い換え抽出•二言語間でのピポッド法により言い換えを抽出する(Bannard and Callison-Burch 2005)

•𝑝 𝑒#|𝑒% ≈ ∑ 𝑝 𝑒#|𝑓 𝑝 𝑓|𝑒%)

•e1とe2は同一言語のフレーズ•Fは対象言語のフレーズ

Domain-SpecificParaphraseExtraction 6

Page 7: Domain-spesific Paraphrase Extraction

ドメインによる並び替え• ドメイン固有のコーパスを大きなコーパスから作成• それぞれの言語モデルに応じたクロスエントロピーの違いをつ

かむ

• 𝜎+ = 𝐻./. 𝑠+ − 𝐻/23 𝑠+

• Htgtは対象ドメイン言語モデルでのクロスエントロピー• Hgenは一般ドメイン言語モデルでのクロスエントロピー

• 𝜎+が小さいと、ドメイン固有Domain-SpecificParaphraseExtraction 7

Page 8: Domain-spesific Paraphrase Extraction

ドメイン依存の換言•対象ドメインの単一言語テキストをn-gramモデルの訓練に利用•英語側𝜎+を計算する

Ø2言語コーパスを対象ドメインに似ている順にソート

•ソートØ𝜎+の閾値を決定し、閾値を超えたものを対象ドメインとする

Ø換言スコア計算時に、訓練例を𝜎+に比例し重み付けDomain-SpecificParaphraseExtraction 8

Page 9: Domain-spesific Paraphrase Extraction

実験設定•ドメインデータ

Øドメイン固有(換言対象言語のみ)u生物学ドメイン(GENIA databaseと入門テキスト)

Ø一般ドメイン(パラレルコーパス)u法律から字幕まで様々なジャンルの仏英コーパス

•5-gram言語モデルを利用ØKneser-Neyのスムージングを適用

Domain-SpecificParaphraseExtraction 9

Page 10: Domain-spesific Paraphrase Extraction

評価•適合率と再現率を評価

Ø15K文の生物学データØ10K文の一般ドメイン(wikipedia)から

•フレーズを選び換言し、5人の評価者に見せるØ適切かどうかを多数決

Domain-SpecificParaphraseExtraction 10

Page 11: Domain-spesific Paraphrase Extraction

実験結果•ベースライン

ØGeneral、そのまま•M-L,T=τ

Øドメイン固有らしき文章から並べた上位τ語

•M-L Change PointØ𝜎+が正から負に変わる時

のτ•M-L Weighted

ØP(e2|e1)を計算するとき、𝜎+に比例した重みを付与

Domain-SpecificParaphraseExtraction 11

Page 12: Domain-spesific Paraphrase Extraction

実験結果

Domain-SpecificParaphraseExtraction 12

p(e2|e1)をロジスティック回帰により結合

Page 13: Domain-spesific Paraphrase Extraction

モデルを結合したとき

Domain-SpecificParaphraseExtraction 13

Page 14: Domain-spesific Paraphrase Extraction

まとめ•ドメイン依存の換言について議論した•統計的機械翻訳手法をパラレルコーパスからドメインに重み付けした言い換えに応用した。•2つの新しい手法を提案し、劇的な換言精度の向上を確認した

Domain-SpecificParaphraseExtraction 14