Conspecificity of two morphologically distinct calcified red algae ...
Enriching Morphologically Poor Languages for Statistical Machine Translation
-
Upload
takahashi-kanji -
Category
Engineering
-
view
65 -
download
6
Transcript of Enriching Morphologically Poor Languages for Statistical Machine Translation
Enriching Morphologically Poor Languages for Statistical Machine TranslationAvramidis, Eleftherios and Koehn, Philipp, Proceedings of ACL-08: HLT, pp.763-770, 2008
⽂献紹介
2016.11.8⾃然⾔語処理研究室 修⼠2年 髙橋寛治
概要• 形態論が乏しい⾔語から豊富な⾔語への統計翻訳• 乏しい⾔語に(⼊⼒)に⾔語的な情報を構⽂解析をもとに
付与• 英語からギリシャ語への翻訳で動詞活⽤誤りが19%から
5.4%へ
Enriching Morphologically Poor Languages for Statistical Machine Translation
はじめに統計翻訳は局所的な単語列を⾒て翻訳する複雑な⾔語現象をうまく出⼒しにくい
形態論が簡略な⾔語から複雑な⾔語への翻訳は難しい例えば、英語の名詞とギリシャ語の名詞は振る舞いが対応しない
Factored phrase-based統計翻訳を基に扱う⼊⼒⾔語の前処理に注⼒し、情報を付加
Enriching Morphologically Poor Languages for Statistical Machine Translation
句ベース統計翻訳での形態論流暢さには⼀致があり、統計翻訳では2つの⽅法で扱う性、格、番号、⼈称など
1. 対象⾔語の⾔語モデルで、尤もらしいものを担保するコーパスから⽂法的に正しい単語列を学習する
2. ⼀つの塊としてうまく扱う句ベース翻訳では、句と句が⼀致(agreement)をある程度補う
Enriching Morphologically Poor Languages for Statistical Machine Translation
Enriching Morphologically Poor Languages for Statistical Machine Translation
⾔語モデルやフレーズを超えると、うまく扱えない
関連研究原⾔語への情報の付与スペイン語などの動詞の活⽤を扱うためにPOSタグを付与(Ueffing and Ney 2003)
後編集原⾔語の⽂法情報を⽤いて後編集を⾏う(Minkov et al. 2007)
Factored翻訳モデル形態論タグを形態論が豊富な⾔語に品詞と共に付与(Koehn and Hoang 2007)
Enriching Morphologically Poor Languages for Statistical Machine Translation
⼿法• 名詞の格の⼀致と動詞の⼈称による活⽤に焦点をあてる• 基本的に構⽂解析結果から取り出す
Enriching Morphologically Poor Languages for Statistical Machine Translation
名詞の格の⼀致主格か⽬的格かを構⽂解析結果から取得Semantic Role Labellingを参考
Sub-treeパターンを定義ルールベースで格の関係を取得
翻訳モデルでのスパースさを防ぐあまり影響しない格はタグ付けしない
Enriching Morphologically Poor Languages for Statistical Machine Translation
動詞の⼈称に関する活⽤を解消動詞の主語を探す動詞と主語が直接紐付いているものを取得
タグ付け代名詞は⼀つのタグとする普通名詞は単数か複数かをタグ付けギリシャ語には名詞の性はないので気にしない
Enriching Morphologically Poor Languages for Statistical Machine Translation
Factored翻訳モデルFactored翻訳モデル
λはチューニングで決定される重みhは素性関数
スパースさをさけるためにデコード時に別パスを考慮
Enriching Morphologically Poor Languages for Statistical Machine Translation
実験翻訳システムMoses, 5-gram SRILM, MERTチューニング
コーパス開発セットはEuroparlから2000⽂テストセットはEuroparlコーパスとニュースから2000⽂ギリシャ語のモデルは440,082⽂(Europarl v.3)
Enriching Morphologically Poor Languages for Statistical Machine Translation
結果
Enriching Morphologically Poor Languages for Statistical Machine Translation
スパースさを軽減する別パスを持つものが良い素性が組み合わさるとスパースになる
NISTは有意に良くなった
Enriching Morphologically Poor Languages for Statistical Machine Translation
エラー分析
⾃動評価尺度では測りにくい格の妥当性を⼈⼿で評価格を考慮したモデルは良い動詞も名詞も妥当性が向上別パスの追加も良い未知語が減る
エラーがどの段階の処理で⽣じるかデコード時が圧倒的、おそらくデータが⾜りない構⽂の格パターンマッチの改善などでデータ数を増やせる
Enriching Morphologically Poor Languages for Statistical Machine Translation
エラー分析
まとめ英語から形態論が豊富な⾔語への翻訳性能の向上必要な⾔語情報を⼊⼒⽂に前処理として付与した
名詞の格や動詞の⼈称など対象⾔語で必要な情報を⾃動付与情報を推定し、Factored翻訳モデルとして組み込む
簡単に拡張でき、性能が向上「英語→形態論が豊富な⾔語」の翻訳時に簡単に利⽤可能
Enriching Morphologically Poor Languages for Statistical Machine Translation