Domain-spesific Paraphrase Extraction

Domain-Specific Paraphrase Extraction

長岡技術科学大学自然言語処理研究室高橋寛治

Ellie Pavlick, Juri Ganitkevitch, Tsz Ping Chan, Xuchen Yao,Benjamin Van Durme, Chris Callison-Burch,Proceedings of the 53rd Annual Meeting of the Association forComputational Linguistics and the 7th International JointConference on Natural Language Processing (Short Papers), pages57–62, 2015

文献紹介 201６年２月２日

概要•言い換えの妥当性はドメインに依存する•ドメイン固有の言い換えの抽出を提案•パラレルコーパスを用いたピポッド法を用いる•P-R曲線下面積で10%ほど向上した

Domain-SpecificParaphraseExtraction 2

はじめに•言い換え抽出の研究は盛んである•文脈に対して換言が妥当性の判断は困難•よくある換言処理は、換言規則をドメインが変わってもそのまま適用する


ドメインによる違いGeneral Biology

hot Warm,sexy,exciting Heated,warm,thermaltreat Address,handle,buy Cure, fight,killhead Leader,boss,mind Skull,brain,cranium


ドメインの変化に対応することにより言い換えの妥当性が上がる語がある

言い換えの方針•学習コーパス内の文を対象ドメインらしさ順に並べ、サブサンプリングされた対象ドメインと思われるデータから換言を抽出•ドメイン依存の換言をドメインに基づいた重みにより向上•サブサンプリングされたドメインの換言スコアと一般ドメインの換言スコアを合体させることにより適合率を保ちながら再現率を向上


言い換え抽出•二言語間でのピポッド法により言い換えを抽出する（Bannard and Callison-Burch 2005)

•𝑝 𝑒#|𝑒% ≈ ∑ 𝑝 𝑒#|𝑓 𝑝 𝑓|𝑒%)

•e1とe2は同一言語のフレーズ•Fは対象言語のフレーズ


ドメインによる並び替え• ドメイン固有のコーパスを大きなコーパスから作成• それぞれの言語モデルに応じたクロスエントロピーの違いをつ

かむ

• 𝜎+ = 𝐻./. 𝑠+ − 𝐻/23 𝑠+

• Htgtは対象ドメイン言語モデルでのクロスエントロピー• Hgenは一般ドメイン言語モデルでのクロスエントロピー

• 𝜎+が小さいと、ドメイン固有Domain-SpecificParaphraseExtraction 7

ドメイン依存の換言•対象ドメインの単一言語テキストをn-gramモデルの訓練に利用•英語側𝜎+を計算する

Ø2言語コーパスを対象ドメインに似ている順にソート

•ソートØ𝜎+の閾値を決定し、閾値を超えたものを対象ドメインとする

Ø換言スコア計算時に、訓練例を𝜎+に比例し重み付けDomain-SpecificParaphraseExtraction 8

実験設定•ドメインデータ

Øドメイン固有（換言対象言語のみ）u生物学ドメイン(GENIA databaseと入門テキスト)

Ø一般ドメイン（パラレルコーパス）u法律から字幕まで様々なジャンルの仏英コーパス

•5-gram言語モデルを利用ØKneser-Neyのスムージングを適用


評価•適合率と再現率を評価

Ø15K文の生物学データØ10K文の一般ドメイン（wikipedia）から

•フレーズを選び換言し、5人の評価者に見せるØ適切かどうかを多数決


実験結果•ベースライン

ØGeneral、そのまま•M-L,T=τ

Øドメイン固有らしき文章から並べた上位τ語

•M-L Change PointØ𝜎+が正から負に変わる時

のτ•M-L Weighted

ØP(e2|e1)を計算するとき、𝜎+に比例した重みを付与


実験結果


p(e2|e1)をロジスティック回帰により結合

モデルを結合したとき


まとめ•ドメイン依存の換言について議論した•統計的機械翻訳手法をパラレルコーパスからドメインに重み付けした言い換えに応用した。•2つの新しい手法を提案し、劇的な換言精度の向上を確認した


Domain-spesific Paraphrase Extraction

Education

Transcript of Domain-spesific Paraphrase Extraction