Enriching Morphologically Poor Languages for Statistical Machine Translation

15
Enriching Morphologically Poor Languages for Statistical Machine Translation Avramidis, Eleftherios and Koehn, Philipp, Proceedings of ACL-08: HLT, pp.763-770, 2008 ⽂献紹介 2016.11.8 ⾃然⾔語処理研究室 修⼠2年 髙橋寛治

Transcript of Enriching Morphologically Poor Languages for Statistical Machine Translation

Page 1: Enriching Morphologically Poor Languages for Statistical Machine Translation

Enriching Morphologically Poor Languages for Statistical Machine TranslationAvramidis, Eleftherios and Koehn, Philipp, Proceedings of ACL-08: HLT, pp.763-770, 2008

⽂献紹介

2016.11.8⾃然⾔語処理研究室 修⼠2年 髙橋寛治

Page 2: Enriching Morphologically Poor Languages for Statistical Machine Translation

概要• 形態論が乏しい⾔語から豊富な⾔語への統計翻訳• 乏しい⾔語に(⼊⼒)に⾔語的な情報を構⽂解析をもとに

付与• 英語からギリシャ語への翻訳で動詞活⽤誤りが19%から

5.4%へ

Enriching Morphologically Poor Languages for Statistical Machine Translation

Page 3: Enriching Morphologically Poor Languages for Statistical Machine Translation

はじめに統計翻訳は局所的な単語列を⾒て翻訳する複雑な⾔語現象をうまく出⼒しにくい

形態論が簡略な⾔語から複雑な⾔語への翻訳は難しい例えば、英語の名詞とギリシャ語の名詞は振る舞いが対応しない

Factored phrase-based統計翻訳を基に扱う⼊⼒⾔語の前処理に注⼒し、情報を付加

Enriching Morphologically Poor Languages for Statistical Machine Translation

Page 4: Enriching Morphologically Poor Languages for Statistical Machine Translation

句ベース統計翻訳での形態論流暢さには⼀致があり、統計翻訳では2つの⽅法で扱う性、格、番号、⼈称など

1. 対象⾔語の⾔語モデルで、尤もらしいものを担保するコーパスから⽂法的に正しい単語列を学習する

2. ⼀つの塊としてうまく扱う句ベース翻訳では、句と句が⼀致(agreement)をある程度補う

Enriching Morphologically Poor Languages for Statistical Machine Translation

Page 5: Enriching Morphologically Poor Languages for Statistical Machine Translation

Enriching Morphologically Poor Languages for Statistical Machine Translation

⾔語モデルやフレーズを超えると、うまく扱えない

Page 6: Enriching Morphologically Poor Languages for Statistical Machine Translation

関連研究原⾔語への情報の付与スペイン語などの動詞の活⽤を扱うためにPOSタグを付与(Ueffing and Ney 2003)

後編集原⾔語の⽂法情報を⽤いて後編集を⾏う(Minkov et al. 2007)

Factored翻訳モデル形態論タグを形態論が豊富な⾔語に品詞と共に付与(Koehn and Hoang 2007)

Enriching Morphologically Poor Languages for Statistical Machine Translation

Page 7: Enriching Morphologically Poor Languages for Statistical Machine Translation

⼿法• 名詞の格の⼀致と動詞の⼈称による活⽤に焦点をあてる• 基本的に構⽂解析結果から取り出す

Enriching Morphologically Poor Languages for Statistical Machine Translation

Page 8: Enriching Morphologically Poor Languages for Statistical Machine Translation

名詞の格の⼀致主格か⽬的格かを構⽂解析結果から取得Semantic Role Labellingを参考

Sub-treeパターンを定義ルールベースで格の関係を取得

翻訳モデルでのスパースさを防ぐあまり影響しない格はタグ付けしない

Enriching Morphologically Poor Languages for Statistical Machine Translation

Page 9: Enriching Morphologically Poor Languages for Statistical Machine Translation

動詞の⼈称に関する活⽤を解消動詞の主語を探す動詞と主語が直接紐付いているものを取得

タグ付け代名詞は⼀つのタグとする普通名詞は単数か複数かをタグ付けギリシャ語には名詞の性はないので気にしない

Enriching Morphologically Poor Languages for Statistical Machine Translation

Page 10: Enriching Morphologically Poor Languages for Statistical Machine Translation

Factored翻訳モデルFactored翻訳モデル

λはチューニングで決定される重みhは素性関数

スパースさをさけるためにデコード時に別パスを考慮

Enriching Morphologically Poor Languages for Statistical Machine Translation

Page 11: Enriching Morphologically Poor Languages for Statistical Machine Translation

実験翻訳システムMoses, 5-gram SRILM, MERTチューニング

コーパス開発セットはEuroparlから2000⽂テストセットはEuroparlコーパスとニュースから2000⽂ギリシャ語のモデルは440,082⽂(Europarl v.3)

Enriching Morphologically Poor Languages for Statistical Machine Translation

Page 12: Enriching Morphologically Poor Languages for Statistical Machine Translation

結果

Enriching Morphologically Poor Languages for Statistical Machine Translation

スパースさを軽減する別パスを持つものが良い素性が組み合わさるとスパースになる

NISTは有意に良くなった

Page 13: Enriching Morphologically Poor Languages for Statistical Machine Translation

Enriching Morphologically Poor Languages for Statistical Machine Translation

エラー分析

⾃動評価尺度では測りにくい格の妥当性を⼈⼿で評価格を考慮したモデルは良い動詞も名詞も妥当性が向上別パスの追加も良い未知語が減る

Page 14: Enriching Morphologically Poor Languages for Statistical Machine Translation

エラーがどの段階の処理で⽣じるかデコード時が圧倒的、おそらくデータが⾜りない構⽂の格パターンマッチの改善などでデータ数を増やせる

Enriching Morphologically Poor Languages for Statistical Machine Translation

エラー分析

Page 15: Enriching Morphologically Poor Languages for Statistical Machine Translation

まとめ英語から形態論が豊富な⾔語への翻訳性能の向上必要な⾔語情報を⼊⼒⽂に前処理として付与した

名詞の格や動詞の⼈称など対象⾔語で必要な情報を⾃動付与情報を推定し、Factored翻訳モデルとして組み込む

簡単に拡張でき、性能が向上「英語→形態論が豊富な⾔語」の翻訳時に簡単に利⽤可能

Enriching Morphologically Poor Languages for Statistical Machine Translation