Nl220 Pitman-Yor Hidden Semi Markov Model

34
隠れセミマルコフモデルに基づく 品詞と単語の同時ベイズ学習 内海慶< [email protected]> デンソーアイティーラボラトリ 塚原裕史< [email protected]> デンソーアイティーラボラトリ 持橋大地<[email protected] > 統計数理研究所 1

Transcript of Nl220 Pitman-Yor Hidden Semi Markov Model

隠れセミマルコフモデルに基づく品詞と単語の同時ベイズ学習内海慶<[email protected]> デンソーアイティーラボラトリ塚原裕史<[email protected]> デンソーアイティーラボラトリ持橋大地<[email protected]> 統計数理研究所

1

はじめに

形態素解析は言語処理の基盤技術

日本語・中国語等のアジア語では単語境界が与えられていない

前処理として使用されている

文書検索の索引付け

名詞句,固有表現抽出

構文解析

重要単語・文抽出

2

形態素解析

自然言語で書かれた文を形態素(意味を持つ最小単位)の列に分割し,それぞれの品詞を判別する(※Wikipediaより引用)

3

代表的な形態素解析器(日本語)

Chasen:ラベル付きデータからHSMMのパラメータを最尤推定)

Juman:人手によるコスト調整が行われた辞書に基づく

KyTea:点推定で単語境界の推定を行う.品詞推定の場合はカスケード

MeCab:CRFによる系列ラベリング(Semi-Markov Model)

上記の手法は全てラベル付きデータが必要になる

話し言葉や多言語への対応には相応のコスト(辞書や学習コーパスの作成)が掛かる

4

CGMデータ解析の需要

ブログや交流サイト,ミニブログ等のデータの増加

解析の需要が高い

製品の評判を知りたい,ミニブログに広告を出したい,etc.

学習データや辞書の作成・保守の問題

書き言葉と話し言葉の混在

顔文字等を用いた感情表現

未知語

etc.

とにかく新しい表現が産まれ続けている

従来手法で対処するのはコストが高い

教師なし学習が望まれる5

教師無し形態素解析

既存手法

MDLに基づく手法

MDLに基づくグリーディアルゴリズム: Argamon 2004

branching entropy+MDL: Zhikov 2010, Magistry 2013

etc.

ノンパラメトリックベイズ手法

Nested Pitman-Yor Language Model: Mochihashi 2009

分かち書きのみを対象としていて,品詞は考慮されていない品詞を推定する場合には分かち書きの出力に対して別の手法で品詞付けを行う

6

分かち書きでも品詞は必要

以下の例文を考える

文法的な知識なしで解析する場合

名詞からは動詞・接尾には接続しにくいという制約

この先生きのこれるのか?

この/先生/きのこ/れる/の/か/?

文法的に”きのこ”→”れる”は出にくいと分かるこの/先/生き/のこれる/の/か/? (MeCabの解析結果)

7

本研究の提案

品詞と分かち書きの同時学習を提案する

同時学習を行うことで,分かち書きの精度も向上するはず

8

形態素解析の定式化

形態素解析:

:単語, :品詞, :文字, :文

確率 を最大化するような w を推定する問題

9

部分問題に分割 ある形態素解析結果 w の確率を以下のように置く

以下のように変形

i番目の単語はそれまでの単語列と,i番目の品詞のみに依存すると仮定する

i番目の品詞は,それまでの品詞列のみに依存すると仮定する

→ 品詞毎の単語ngram

→ 品詞ngram

10

提案手法の生成モデル

品詞からの単語の生起確率,及び品詞遷移確率がngramになっている(図はN=2としている)

zizi-1

wiwi-1

ci0,…,ciN

観測値は文字列のみ

zi+1

wi-1

zizi-1

wiwi-1

zi+1

wi-1

HMMのグラフィカルモデル

11

単語 ngram 確率

単語 ngram 確率には品詞 z ごとの Nested Pitman-Yor Language

Model を用いる

t : CRP におけるテーブル=親の文脈から単語w が生成された回数

h : 品詞 z のもとでの文脈

θ,d : Pitman-Yor過程のハイパーパラメータ

単語 unigram の事前分布には文字 ngram HPYLM が用いられる

12

品詞 ngram 確率

品詞 ngram 確率の事前分布には HPYP を用いる

e, η : Pitman-Yor過程のハイパーパラメータ

単語 ngram と異なり,品詞 unigram の事前分布には一様分布を用いる

13

学習アルゴリズム

動的計画法とMCMCを組み合わせた手法(blocked Gibbs Samling)でを推定する

: 単語 ngram 言語モデル,品詞 ngram モデルのパラメータ

各文にランダムに品詞を割当て,文を単語と見なしてパラメータを更新する 収束するまで以下を繰り返す

ランダムに文sを選択し,sの現在の形態素解析結果w(s)をパラメータから除去 除去後のパラメータを用いて形態素解析結果w(s)’をサンプリング w(s)’ をパラメータに追加し更新

14

形態素解析のサンプリング

N L 研

NL L研

研で

です

単語長

品詞ID

B E

品詞の数K=2, 単語の最大長L=2としたラティス

0 1 2 3 4 5

• 前向き確率と品詞遷移確率,生起確率の積に従って1つ前の形態素をサンプル• 文頭まで繰り返す

15

前向き確率の計算

品詞を考慮した前向き確率 (N=2)

r:1つ前の品詞

z:現在の品詞

t:カレントの単語候補の終了位置

k:カレントの単語候補の長さ

j:接続される1つ前の単語候補の長さ

16

前向き確率の計算

N L 研

NL L研

研で

です

単語長

品詞ID

B E

0 1 2 3 4 5

文末Eの前向き確率

17

ラティスの圧縮

与えられた部分文字列から,生起し得る最大の単語長を予測する

ラティスから不要な単語候補を除くことで高速化できる

実験を行うにあたって,先に単語の最大長を予測してラティスの圧縮を行った

N L 研

NL L研

研で

です

単語長

B

各位置ごとに単語長の最大値を予測する

18

単語の長さの分布

0

0.1

0.2

0.3

0.4

0.5

0.6

1 2 3 4 5 6 7 8 9 10 11

日本語 中国語 タイ語

ある長さでピークがあって,指数的に減衰する ガンマ分布

19

単語の長さはガンマ分布

x:単語の長さ

a,b: ガンマ分布のパラメータ

これらを回帰すれば良い

実際には同一言語内でも,観測文字列毎に単語の長さは変化する

接尾辞が「株式会社」なら単語の最大文字列長は20とかになりそう

接尾辞が「が」や「を」,「に」なら単語の最大文字列長はだいたい1になる

etc.

20

接尾辞毎にパラメータを変えたい

f: 接尾辞の特徴ベクトル

w,v: a,b を回帰するパラメータ

21

ガンマ分布のフィッティング

gamglmを使用

http://chasen.org/~daiti-m/dist/gamglm

詳細は論文を参照

22

形態素解析の評価実験

データセット

データセット 全体サイズ 訓練データ テストデータ

京大コーパス(日本語) 38400 10000 1000

BCCWJ PN(日本語) 78607 10000 1000

BCCWJ OC(日本語) 678475 10000 1000

SIGHAN MSR(中国語) 90909 10000 3985

SIGHAN CITYU(中国語) 54511 10000 1492

CTB8.0(中国語) 20412 10000 937

InterBEST Novel(タイ語) 50139 10000 1000

23

実験設定

教師なし学習

訓練データに付与されている分かち書きを削除して学習

潜在クラスの数は15とした

半教師あり学習

訓練データとテストデータに含まれないデータから無作為に抽出した10000文を教師データとして使用した

潜在クラスは各データセットの品詞の大分類の数に揃えた

品詞の付与されているデータセットのみで評価を行った

24

評価尺度

分かち書きの評価

単語の開始位置と終了位置が教師データと一致した時のみ正解とする

評価尺度にはF値を用いた

品詞推定の評価

正しく分割できた単語についての品詞精度を用いる

教師データと潜在クラスの対応は,潜在クラスごとに共起した品詞ラベルの頻度を求め,最も多く共起した品詞と潜在クラスを対応付けた

25

評価結果-教師なし単語分割

PYHSMM NPYLM MDL(Zhikov 2010)

京大コーパス 0.714 0.631 0.713

BCCWJ PN 0.716 0.656 -

BCCWJ OC 0.787 0.595 -

CTB8.0 0.743 0.693 -

SIGHAN MSR 0.787 0.802 0.782

SIGHAN CITYU 0.795 0.824 0.787

BEST 0.777 0.821 0.733

26

評価結果-半教師あり単語分割

PYHSMM NPYLM

京大コーパス 0.930 0.913

BCCWJ PN 0.934

BCCWJ OC 0.947

CTB8.0 0.926

27

評価結果-教師なし品詞推定

PYHSMM NPYLM+BHMM

京大コーパス 0.590 0.508

BCCWJ PN 0.559 0.455

BCCWJ OC 0.549 0.450

CTB8.0 0.489 0.416

28

評価結果-半教師あり品詞推定

半教師あり 教師なし

京大コーパス 0.894 0.590

BCCWJ PN 0.906 0.559

BCCWJ OC 0.866 0.549

CTB8.0 0.916 0.489

29

単語分割誤りの傾向

多くは活用形を分割してしまい誤りとなっている

30

チャンキングによる補正

潜在クラスの数が15では品詞が上手く分かれていないため,品詞ルールによるチャンキングは難しい

潜在クラスの数を50にして京大コーパスで再度評価を行った

解析結果の誤りの例(品詞ID付き)

わずか/10 に/22.堅調/10 に/22

品詞を使ったルールを使ってチャンキングを行った

チャンキングルールの例1つ前の潜在クラスが10,カレントの潜在クラスが22の「に」を1つ前と繋げる1つ前の潜在クラスが22,カレントの潜在クラスが14の「た」を1つ前と繋げる1つ前の潜在クラスが22,カレントの潜在クラスが22の「て」を1つ前と繋げる

etc.

31

チャンキング後の単語分割精度

品詞IDを使ったチャンキングによって単語分割の改善が行えた

品詞精度 単語分割F値 チャンキング後の単語分割F値

0.603 0.716 0.755

32

チャンキング後の誤り

「て」や「た」等頻度400以上の誤りは改善

「に」,「ている」,「の」の誤りが残る

形容詞や連体詞を分割してしまう

形容詞:「積極的に」,「一気に」,「急速に」

連体詞,指示詞:「他の」,「どの」

動詞と接尾辞の分割位置の誤り

「増えている」,「表れている」etc.

正解:「増えて/いる」,「表れて/いる」

これらについてはルールが書けない,またはルールを適用すると精度が下がってしまった

33

まとめ

品詞推定と単語分割の同時推定手法の提案を行った

複数の言語で評価を行い,品詞を考慮することで単語分割の精度も向上することを示した

半教師あり学習でも,同様の効果を確認した

34