Enriching Morphologically Poor Languages for Statistical Machine Translation

Enriching Morphologically Poor Languages for Statistical Machine TranslationAvramidis, Eleftherios and Koehn, Philipp, Proceedings of ACL-08: HLT, pp.763-770, 2008

⽂献紹介

2016.11.8⾃然⾔語処理研究室修⼠2年髙橋寛治

概要• 形態論が乏しい⾔語から豊富な⾔語への統計翻訳• 乏しい⾔語に（⼊⼒）に⾔語的な情報を構⽂解析をもとに

付与• 英語からギリシャ語への翻訳で動詞活⽤誤りが19%から

5.4%へ

Enriching Morphologically Poor Languages for Statistical Machine Translation

はじめに統計翻訳は局所的な単語列を⾒て翻訳する複雑な⾔語現象をうまく出⼒しにくい

形態論が簡略な⾔語から複雑な⾔語への翻訳は難しい例えば、英語の名詞とギリシャ語の名詞は振る舞いが対応しない

Factored phrase-based統計翻訳を基に扱う⼊⼒⾔語の前処理に注⼒し、情報を付加


句ベース統計翻訳での形態論流暢さには⼀致があり、統計翻訳では2つの⽅法で扱う性、格、番号、⼈称など

1. 対象⾔語の⾔語モデルで、尤もらしいものを担保するコーパスから⽂法的に正しい単語列を学習する

2. ⼀つの塊としてうまく扱う句ベース翻訳では、句と句が⼀致(agreement)をある程度補う



⾔語モデルやフレーズを超えると、うまく扱えない

関連研究原⾔語への情報の付与スペイン語などの動詞の活⽤を扱うためにPOSタグを付与(Ueffing and Ney 2003)

後編集原⾔語の⽂法情報を⽤いて後編集を⾏う(Minkov et al. 2007)

Factored翻訳モデル形態論タグを形態論が豊富な⾔語に品詞と共に付与(Koehn and Hoang 2007)


⼿法• 名詞の格の⼀致と動詞の⼈称による活⽤に焦点をあてる• 基本的に構⽂解析結果から取り出す


名詞の格の⼀致主格か⽬的格かを構⽂解析結果から取得Semantic Role Labellingを参考

Sub-treeパターンを定義ルールベースで格の関係を取得

翻訳モデルでのスパースさを防ぐあまり影響しない格はタグ付けしない


動詞の⼈称に関する活⽤を解消動詞の主語を探す動詞と主語が直接紐付いているものを取得

タグ付け代名詞は⼀つのタグとする普通名詞は単数か複数かをタグ付けギリシャ語には名詞の性はないので気にしない


Factored翻訳モデルFactored翻訳モデル

λはチューニングで決定される重みhは素性関数

スパースさをさけるためにデコード時に別パスを考慮


実験翻訳システムMoses, 5-gram SRILM, MERTチューニング

コーパス開発セットはEuroparlから2000⽂テストセットはEuroparlコーパスとニュースから2000⽂ギリシャ語のモデルは440,082⽂(Europarl v.3)


結果


スパースさを軽減する別パスを持つものが良い素性が組み合わさるとスパースになる

NISTは有意に良くなった


エラー分析

⾃動評価尺度では測りにくい格の妥当性を⼈⼿で評価格を考慮したモデルは良い動詞も名詞も妥当性が向上別パスの追加も良い未知語が減る

エラーがどの段階の処理で⽣じるかデコード時が圧倒的、おそらくデータが⾜りない構⽂の格パターンマッチの改善などでデータ数を増やせる


エラー分析

まとめ英語から形態論が豊富な⾔語への翻訳性能の向上必要な⾔語情報を⼊⼒⽂に前処理として付与した

名詞の格や動詞の⼈称など対象⾔語で必要な情報を⾃動付与情報を推定し、Factored翻訳モデルとして組み込む

簡単に拡張でき、性能が向上「英語→形態論が豊富な⾔語」の翻訳時に簡単に利⽤可能


Enriching Morphologically Poor Languages for Statistical Machine Translation

Engineering

Transcript of Enriching Morphologically Poor Languages for Statistical Machine Translation