統計的手法による...
Transcript of 統計的手法による...
![Page 1: 統計的手法による 文法モデリングと構文解析daichi/workshop/2012-parsing/parsing2012-shindo.pdf · 全体構成 Part1. 統計的手法による構文解析 Part2.](https://reader034.fdocuments.net/reader034/viewer/2022042517/5a79e0d87f8b9a3d058b51ec/html5/thumbnails/1.jpg)
進藤 裕之
NTT コミュニケーション科学基礎研究所
2012.12.19
最先端構文解析とその周辺@統計数理研究所
統計的手法による
文法モデリングと構文解析
![Page 2: 統計的手法による 文法モデリングと構文解析daichi/workshop/2012-parsing/parsing2012-shindo.pdf · 全体構成 Part1. 統計的手法による構文解析 Part2.](https://reader034.fdocuments.net/reader034/viewer/2022042517/5a79e0d87f8b9a3d058b51ec/html5/thumbnails/2.jpg)
全体構成
Part1. 統計的手法による構文解析
Part2. 確率的文法モデリング
Part3. 確率的文法モデルの学習
Part4. 現在の到達点と今後の展開
![Page 3: 統計的手法による 文法モデリングと構文解析daichi/workshop/2012-parsing/parsing2012-shindo.pdf · 全体構成 Part1. 統計的手法による構文解析 Part2.](https://reader034.fdocuments.net/reader034/viewer/2022042517/5a79e0d87f8b9a3d058b51ec/html5/thumbnails/3.jpg)
Part1. 統計的手法による構文解析
![Page 4: 統計的手法による 文法モデリングと構文解析daichi/workshop/2012-parsing/parsing2012-shindo.pdf · 全体構成 Part1. 統計的手法による構文解析 Part2.](https://reader034.fdocuments.net/reader034/viewer/2022042517/5a79e0d87f8b9a3d058b51ec/html5/thumbnails/4.jpg)
構文解析プログラム
I have a pen
入力: 文 出力: 構文木
自然言語処理における構文解析
統語構造 I ahave
S
NP VP
VP NP
pen
![Page 5: 統計的手法による 文法モデリングと構文解析daichi/workshop/2012-parsing/parsing2012-shindo.pdf · 全体構成 Part1. 統計的手法による構文解析 Part2.](https://reader034.fdocuments.net/reader034/viewer/2022042517/5a79e0d87f8b9a3d058b51ec/html5/thumbnails/5.jpg)
色々な種類の構文木がある
言語学的考慮 + 計算機での扱いやすさ + α
I ahave
S
NP VP
VP NP
pen
have
I pen
a
・文脈自由文法
・木置換文法
・依存文法(係り受け)
・木接合文法
・範疇文法
文法の選択基準:
![Page 6: 統計的手法による 文法モデリングと構文解析daichi/workshop/2012-parsing/parsing2012-shindo.pdf · 全体構成 Part1. 統計的手法による構文解析 Part2.](https://reader034.fdocuments.net/reader034/viewer/2022042517/5a79e0d87f8b9a3d058b51ec/html5/thumbnails/6.jpg)
構文解析プログラム
I have a pen
入力: 文 出力: 構文木
自然言語処理における構文解析
I ahave
S
NP VP
VP NP
pen
I ahave
S
NP VP
VP NP
penI ahave
S
NP VP NP
pen
確率:0.001 確率:0.3
I ahave
S
VP NP
pen
確率:0.02
統語構造CYK法
![Page 7: 統計的手法による 文法モデリングと構文解析daichi/workshop/2012-parsing/parsing2012-shindo.pdf · 全体構成 Part1. 統計的手法による構文解析 Part2.](https://reader034.fdocuments.net/reader034/viewer/2022042517/5a79e0d87f8b9a3d058b51ec/html5/thumbnails/7.jpg)
統計的手法による構文解析
P(構文木A) = ?
確率的文法モデル
the
NP
NN
部分木を組み合わせて“P(構文木)”を計算する
S
NP VP
I
確率:0.1 確率:0.03
love
VP
VP NP
確率:0.002
I ahave
S
NP VP
VP NP
pen
![Page 8: 統計的手法による 文法モデリングと構文解析daichi/workshop/2012-parsing/parsing2012-shindo.pdf · 全体構成 Part1. 統計的手法による構文解析 Part2.](https://reader034.fdocuments.net/reader034/viewer/2022042517/5a79e0d87f8b9a3d058b51ec/html5/thumbnails/8.jpg)
統計的手法による構文解析
構文解析プログラム
I have a pen
the
NP
NN
I love
S
NP VP
VP NP
you
構文木コーパス(数万文)
S
NP VP
I
確率:0.1 確率:0.03
love
VP
VP NP
確率:0.002
確率的文法モデル
I ahave
S
NP VP
VP NP
pen
![Page 9: 統計的手法による 文法モデリングと構文解析daichi/workshop/2012-parsing/parsing2012-shindo.pdf · 全体構成 Part1. 統計的手法による構文解析 Part2.](https://reader034.fdocuments.net/reader034/viewer/2022042517/5a79e0d87f8b9a3d058b51ec/html5/thumbnails/9.jpg)
構文解析プログラムの作成へ向けて
Q1. 構文木・部分木の確率を具体的に計算するには?
Part2. 確率的文法モデリング
Q2. 構文木コーパスから部分木を推定するには?
P(構文木) = ?
Part3. 確率的文法モデルの学習
![Page 10: 統計的手法による 文法モデリングと構文解析daichi/workshop/2012-parsing/parsing2012-shindo.pdf · 全体構成 Part1. 統計的手法による構文解析 Part2.](https://reader034.fdocuments.net/reader034/viewer/2022042517/5a79e0d87f8b9a3d058b51ec/html5/thumbnails/10.jpg)
統計的手法による構文解析
構文解析プログラム
I have a pen
the
NP
NN
構文木コーパス(数万文)
S
NP VP
I
確率:0.1 確率:0.03
love
VP
VP NP
確率:0.002
確率的文法モデル
Q1
Q2
I love
S
NP VP
VP NP
you
I ahave
S
NP VP
VP NP
pen
![Page 11: 統計的手法による 文法モデリングと構文解析daichi/workshop/2012-parsing/parsing2012-shindo.pdf · 全体構成 Part1. 統計的手法による構文解析 Part2.](https://reader034.fdocuments.net/reader034/viewer/2022042517/5a79e0d87f8b9a3d058b51ec/html5/thumbnails/11.jpg)
Part2. 確率的文法モデリング
![Page 12: 統計的手法による 文法モデリングと構文解析daichi/workshop/2012-parsing/parsing2012-shindo.pdf · 全体構成 Part1. 統計的手法による構文解析 Part2.](https://reader034.fdocuments.net/reader034/viewer/2022042517/5a79e0d87f8b9a3d058b51ec/html5/thumbnails/12.jpg)
例1: 確率木置換文法
例2: 確率木接合文法
確率的文法モデル
P(構文木) = ?
![Page 13: 統計的手法による 文法モデリングと構文解析daichi/workshop/2012-parsing/parsing2012-shindo.pdf · 全体構成 Part1. 統計的手法による構文解析 Part2.](https://reader034.fdocuments.net/reader034/viewer/2022042517/5a79e0d87f8b9a3d058b51ec/html5/thumbnails/13.jpg)
木置換文法
S
![Page 14: 統計的手法による 文法モデリングと構文解析daichi/workshop/2012-parsing/parsing2012-shindo.pdf · 全体構成 Part1. 統計的手法による構文解析 Part2.](https://reader034.fdocuments.net/reader034/viewer/2022042517/5a79e0d87f8b9a3d058b51ec/html5/thumbnails/14.jpg)
S
VPNP
VBP
love
NP
S
木置換文法
部分木
![Page 15: 統計的手法による 文法モデリングと構文解析daichi/workshop/2012-parsing/parsing2012-shindo.pdf · 全体構成 Part1. 統計的手法による構文解析 Part2.](https://reader034.fdocuments.net/reader034/viewer/2022042517/5a79e0d87f8b9a3d058b51ec/html5/thumbnails/15.jpg)
S
VPNP
VBP
love
NP
木置換文法
![Page 16: 統計的手法による 文法モデリングと構文解析daichi/workshop/2012-parsing/parsing2012-shindo.pdf · 全体構成 Part1. 統計的手法による構文解析 Part2.](https://reader034.fdocuments.net/reader034/viewer/2022042517/5a79e0d87f8b9a3d058b51ec/html5/thumbnails/16.jpg)
NP
I
PRP
S
VPNP
VBP
love
NP
木置換文法
![Page 17: 統計的手法による 文法モデリングと構文解析daichi/workshop/2012-parsing/parsing2012-shindo.pdf · 全体構成 Part1. 統計的手法による構文解析 Part2.](https://reader034.fdocuments.net/reader034/viewer/2022042517/5a79e0d87f8b9a3d058b51ec/html5/thumbnails/17.jpg)
NP
I
PRP
S
VP
VBP
love
NP
木置換文法
![Page 18: 統計的手法による 文法モデリングと構文解析daichi/workshop/2012-parsing/parsing2012-shindo.pdf · 全体構成 Part1. 統計的手法による構文解析 Part2.](https://reader034.fdocuments.net/reader034/viewer/2022042517/5a79e0d87f8b9a3d058b51ec/html5/thumbnails/18.jpg)
NP
PRP
you
S
VP
VBP
love
NP
NP
I
PRP
木置換文法
![Page 19: 統計的手法による 文法モデリングと構文解析daichi/workshop/2012-parsing/parsing2012-shindo.pdf · 全体構成 Part1. 統計的手法による構文解析 Part2.](https://reader034.fdocuments.net/reader034/viewer/2022042517/5a79e0d87f8b9a3d058b51ec/html5/thumbnails/19.jpg)
NP
PRP
you
NP
I
PRP
S
VP
VBP
love
木置換文法
![Page 20: 統計的手法による 文法モデリングと構文解析daichi/workshop/2012-parsing/parsing2012-shindo.pdf · 全体構成 Part1. 統計的手法による構文解析 Part2.](https://reader034.fdocuments.net/reader034/viewer/2022042517/5a79e0d87f8b9a3d058b51ec/html5/thumbnails/20.jpg)
確率木置換文法
NP
PRP
you
NP
I
PRP
S
VPNP
VBP
love
NP
部分木1
部分木2
部分木3
P(構文木)=P(部分木1)×P(部分木2)×P(部分木3)
![Page 21: 統計的手法による 文法モデリングと構文解析daichi/workshop/2012-parsing/parsing2012-shindo.pdf · 全体構成 Part1. 統計的手法による構文解析 Part2.](https://reader034.fdocuments.net/reader034/viewer/2022042517/5a79e0d87f8b9a3d058b51ec/html5/thumbnails/21.jpg)
確率木置換文法
NP
PRP
you
NP
I
PRP
S
VPNP
VBP
love
NP
P(部分木)=?
部分木1
部分木2
部分木3
![Page 22: 統計的手法による 文法モデリングと構文解析daichi/workshop/2012-parsing/parsing2012-shindo.pdf · 全体構成 Part1. 統計的手法による構文解析 Part2.](https://reader034.fdocuments.net/reader034/viewer/2022042517/5a79e0d87f8b9a3d058b51ec/html5/thumbnails/22.jpg)
部分木の確率モデル
S
VPNP
VBP
love
NP
確率補間(スムージング)
S
VPNP VP
VBP NPVBP
love
部分木 単純化した部分木
補間
← 0になる可能性
![Page 23: 統計的手法による 文法モデリングと構文解析daichi/workshop/2012-parsing/parsing2012-shindo.pdf · 全体構成 Part1. 統計的手法による構文解析 Part2.](https://reader034.fdocuments.net/reader034/viewer/2022042517/5a79e0d87f8b9a3d058b51ec/html5/thumbnails/23.jpg)
部分木の確率モデル
S
VPNP
VP
VBP NP
単純化した部分木 さらに単純化した部分木
S
NP
S
VP
VP
VBP
VP
NP
補間
補間
← 0になる可能性
![Page 24: 統計的手法による 文法モデリングと構文解析daichi/workshop/2012-parsing/parsing2012-shindo.pdf · 全体構成 Part1. 統計的手法による構文解析 Part2.](https://reader034.fdocuments.net/reader034/viewer/2022042517/5a79e0d87f8b9a3d058b51ec/html5/thumbnails/24.jpg)
確率木置換文法
NP
PRP
you
NP
I
PRP
S
VPNP
VBP
love
NP
P(構文木)=0.024
部分木1
部分木2
部分木3
![Page 25: 統計的手法による 文法モデリングと構文解析daichi/workshop/2012-parsing/parsing2012-shindo.pdf · 全体構成 Part1. 統計的手法による構文解析 Part2.](https://reader034.fdocuments.net/reader034/viewer/2022042517/5a79e0d87f8b9a3d058b51ec/html5/thumbnails/25.jpg)
確率木置換文法
NP
PRP
you
NP
I
PRP
S
VP
VBP
love
1
0
0
0 1
0
0
木置換文法の情報をノードに埋め込む
NP
PRP
you
S
VP
VBP
love
NP
NP
NP
I
PRP
![Page 26: 統計的手法による 文法モデリングと構文解析daichi/workshop/2012-parsing/parsing2012-shindo.pdf · 全体構成 Part1. 統計的手法による構文解析 Part2.](https://reader034.fdocuments.net/reader034/viewer/2022042517/5a79e0d87f8b9a3d058b51ec/html5/thumbnails/26.jpg)
確率的木置換文法
潜在変数
構文木
NP
PRP
you
NP
I
PRP
S
VP
VBP
love
= 観測データ
潜在変数を含む確率モデルになる
NP
PRP
you
NP
I
PRP
S
VP
VBP
love
1
0
0
0 1
0
0
![Page 27: 統計的手法による 文法モデリングと構文解析daichi/workshop/2012-parsing/parsing2012-shindo.pdf · 全体構成 Part1. 統計的手法による構文解析 Part2.](https://reader034.fdocuments.net/reader034/viewer/2022042517/5a79e0d87f8b9a3d058b51ec/html5/thumbnails/27.jpg)
例1: 確率木置換文法
例2: 確率木接合文法
= 確率木置換文法 + 部分木の挿入操作
![Page 28: 統計的手法による 文法モデリングと構文解析daichi/workshop/2012-parsing/parsing2012-shindo.pdf · 全体構成 Part1. 統計的手法による構文解析 Part2.](https://reader034.fdocuments.net/reader034/viewer/2022042517/5a79e0d87f8b9a3d058b51ec/html5/thumbnails/28.jpg)
NP
確率木接合文法
![Page 29: 統計的手法による 文法モデリングと構文解析daichi/workshop/2012-parsing/parsing2012-shindo.pdf · 全体構成 Part1. 統計的手法による構文解析 Part2.](https://reader034.fdocuments.net/reader034/viewer/2022042517/5a79e0d87f8b9a3d058b51ec/html5/thumbnails/29.jpg)
NP
NP
DT N
girl
確率木接合文法
![Page 30: 統計的手法による 文法モデリングと構文解析daichi/workshop/2012-parsing/parsing2012-shindo.pdf · 全体構成 Part1. 統計的手法による構文解析 Part2.](https://reader034.fdocuments.net/reader034/viewer/2022042517/5a79e0d87f8b9a3d058b51ec/html5/thumbnails/30.jpg)
NP
DT N
girl
確率木接合文法
![Page 31: 統計的手法による 文法モデリングと構文解析daichi/workshop/2012-parsing/parsing2012-shindo.pdf · 全体構成 Part1. 統計的手法による構文解析 Part2.](https://reader034.fdocuments.net/reader034/viewer/2022042517/5a79e0d87f8b9a3d058b51ec/html5/thumbnails/31.jpg)
NP
DT N
girl
DT
the
確率木接合文法
![Page 32: 統計的手法による 文法モデリングと構文解析daichi/workshop/2012-parsing/parsing2012-shindo.pdf · 全体構成 Part1. 統計的手法による構文解析 Part2.](https://reader034.fdocuments.net/reader034/viewer/2022042517/5a79e0d87f8b9a3d058b51ec/html5/thumbnails/32.jpg)
NP
DT N
girlthe
確率木接合文法
![Page 33: 統計的手法による 文法モデリングと構文解析daichi/workshop/2012-parsing/parsing2012-shindo.pdf · 全体構成 Part1. 統計的手法による構文解析 Part2.](https://reader034.fdocuments.net/reader034/viewer/2022042517/5a79e0d87f8b9a3d058b51ec/html5/thumbnails/33.jpg)
NP
DT N
girlthe
N
JJ
pretty
N
挿入
確率木接合文法
![Page 34: 統計的手法による 文法モデリングと構文解析daichi/workshop/2012-parsing/parsing2012-shindo.pdf · 全体構成 Part1. 統計的手法による構文解析 Part2.](https://reader034.fdocuments.net/reader034/viewer/2022042517/5a79e0d87f8b9a3d058b51ec/html5/thumbnails/34.jpg)
NP
DT N
girlthe
N
JJ
pretty
N
挿入
確率木接合文法
![Page 35: 統計的手法による 文法モデリングと構文解析daichi/workshop/2012-parsing/parsing2012-shindo.pdf · 全体構成 Part1. 統計的手法による構文解析 Part2.](https://reader034.fdocuments.net/reader034/viewer/2022042517/5a79e0d87f8b9a3d058b51ec/html5/thumbnails/35.jpg)
NP
DT N
girlthe
N
JJ
pretty
N
挿入
確率木接合文法
![Page 36: 統計的手法による 文法モデリングと構文解析daichi/workshop/2012-parsing/parsing2012-shindo.pdf · 全体構成 Part1. 統計的手法による構文解析 Part2.](https://reader034.fdocuments.net/reader034/viewer/2022042517/5a79e0d87f8b9a3d058b51ec/html5/thumbnails/36.jpg)
NP
DT N
the
N
JJ
pretty
N girl
挿入
確率木接合文法
![Page 37: 統計的手法による 文法モデリングと構文解析daichi/workshop/2012-parsing/parsing2012-shindo.pdf · 全体構成 Part1. 統計的手法による構文解析 Part2.](https://reader034.fdocuments.net/reader034/viewer/2022042517/5a79e0d87f8b9a3d058b51ec/html5/thumbnails/37.jpg)
NP
DT N
the
N
JJ
pretty
N girl
挿入
確率木接合文法
![Page 38: 統計的手法による 文法モデリングと構文解析daichi/workshop/2012-parsing/parsing2012-shindo.pdf · 全体構成 Part1. 統計的手法による構文解析 Part2.](https://reader034.fdocuments.net/reader034/viewer/2022042517/5a79e0d87f8b9a3d058b51ec/html5/thumbnails/38.jpg)
NP
DT
girl
the
N
JJ
pretty
N
挿入
確率木接合文法
![Page 39: 統計的手法による 文法モデリングと構文解析daichi/workshop/2012-parsing/parsing2012-shindo.pdf · 全体構成 Part1. 統計的手法による構文解析 Part2.](https://reader034.fdocuments.net/reader034/viewer/2022042517/5a79e0d87f8b9a3d058b51ec/html5/thumbnails/39.jpg)
NP
DT
girl
the
N
JJ
pretty
N
挿入
確率木接合文法
![Page 40: 統計的手法による 文法モデリングと構文解析daichi/workshop/2012-parsing/parsing2012-shindo.pdf · 全体構成 Part1. 統計的手法による構文解析 Part2.](https://reader034.fdocuments.net/reader034/viewer/2022042517/5a79e0d87f8b9a3d058b51ec/html5/thumbnails/40.jpg)
NP
DT
girl
the
N
JJ
pretty
N
確率木接合文法
![Page 41: 統計的手法による 文法モデリングと構文解析daichi/workshop/2012-parsing/parsing2012-shindo.pdf · 全体構成 Part1. 統計的手法による構文解析 Part2.](https://reader034.fdocuments.net/reader034/viewer/2022042517/5a79e0d87f8b9a3d058b51ec/html5/thumbnails/41.jpg)
部分木1
部分木2
部分木3
P(構文木)=P(部分木1)×P(部分木2)×P’(部分木3)
確率木接合文法
NP
DT N
girl
N
JJ
pretty
N
DT
the
挿入用の確率分布
![Page 42: 統計的手法による 文法モデリングと構文解析daichi/workshop/2012-parsing/parsing2012-shindo.pdf · 全体構成 Part1. 統計的手法による構文解析 Part2.](https://reader034.fdocuments.net/reader034/viewer/2022042517/5a79e0d87f8b9a3d058b51ec/html5/thumbnails/42.jpg)
木接合文法の情報をノードに埋め込む
確率木接合文法
NP
DT N
girl
N
JJ
pretty
N
DT
the
NP
DT
girl
the
N
JJ
pretty
N
1
0
2
30
![Page 43: 統計的手法による 文法モデリングと構文解析daichi/workshop/2012-parsing/parsing2012-shindo.pdf · 全体構成 Part1. 統計的手法による構文解析 Part2.](https://reader034.fdocuments.net/reader034/viewer/2022042517/5a79e0d87f8b9a3d058b51ec/html5/thumbnails/43.jpg)
確率木接合文法
潜在変数
構文木
= 観測データ
潜在変数を含む確率モデルになる
NP
DT
girl
the
N
JJ
pretty
N
1
0
2
30
NP
DT
girl
the
N
JJ
pretty
N
![Page 44: 統計的手法による 文法モデリングと構文解析daichi/workshop/2012-parsing/parsing2012-shindo.pdf · 全体構成 Part1. 統計的手法による構文解析 Part2.](https://reader034.fdocuments.net/reader034/viewer/2022042517/5a79e0d87f8b9a3d058b51ec/html5/thumbnails/44.jpg)
例1: 確率木置換文法
例2: 確率木接合文法
例3: 確率範疇文法
![Page 45: 統計的手法による 文法モデリングと構文解析daichi/workshop/2012-parsing/parsing2012-shindo.pdf · 全体構成 Part1. 統計的手法による構文解析 Part2.](https://reader034.fdocuments.net/reader034/viewer/2022042517/5a79e0d87f8b9a3d058b51ec/html5/thumbnails/45.jpg)
I ahave
S
NP S\NP
(S\NP)/NP NP
pen
確率範疇文法
P(構文木)=P(部分木1)×P(部分木2)×P(部分木3)
P(部分木): 対数線形モデルなど
![Page 46: 統計的手法による 文法モデリングと構文解析daichi/workshop/2012-parsing/parsing2012-shindo.pdf · 全体構成 Part1. 統計的手法による構文解析 Part2.](https://reader034.fdocuments.net/reader034/viewer/2022042517/5a79e0d87f8b9a3d058b51ec/html5/thumbnails/46.jpg)
範疇文法の情報をノードに埋め込む
確率範疇文法
I ahave
S
NP S\NP
(S\NP)/NP NP
pen I ahave
S
NP NP
VP NP
pen
1
0
0
2 0
![Page 47: 統計的手法による 文法モデリングと構文解析daichi/workshop/2012-parsing/parsing2012-shindo.pdf · 全体構成 Part1. 統計的手法による構文解析 Part2.](https://reader034.fdocuments.net/reader034/viewer/2022042517/5a79e0d87f8b9a3d058b51ec/html5/thumbnails/47.jpg)
確率範疇文法
潜在変数
構文木
= 観測データ
潜在変数を含む確率モデルになる
I ahave
S
NP NP
VP NP
pen
1
0
0
2 0
I ahave
S
NP NP
VP NP
pen
計算機が推定
![Page 48: 統計的手法による 文法モデリングと構文解析daichi/workshop/2012-parsing/parsing2012-shindo.pdf · 全体構成 Part1. 統計的手法による構文解析 Part2.](https://reader034.fdocuments.net/reader034/viewer/2022042517/5a79e0d87f8b9a3d058b51ec/html5/thumbnails/48.jpg)
例1: 確率木置換文法
例2: 確率木接合文法
例3: 確率範疇文法
例4: 確率Ⅹ文法 → 同様に潜在変数モデル化可能
![Page 49: 統計的手法による 文法モデリングと構文解析daichi/workshop/2012-parsing/parsing2012-shindo.pdf · 全体構成 Part1. 統計的手法による構文解析 Part2.](https://reader034.fdocuments.net/reader034/viewer/2022042517/5a79e0d87f8b9a3d058b51ec/html5/thumbnails/49.jpg)
(参考)シンボル細分化木置換文法
S-0
VP-2NP-0
VBP-0
love
NP-1NP-0
I
PRP-0 NP-1
PRP-0
you
S
VPNP
VBP
loveI
PRP NP
PRP
you
構文木 SR-TSG
木置換文法 + シンボル細分化
[shindo et al. ACL 2012]
![Page 50: 統計的手法による 文法モデリングと構文解析daichi/workshop/2012-parsing/parsing2012-shindo.pdf · 全体構成 Part1. 統計的手法による構文解析 Part2.](https://reader034.fdocuments.net/reader034/viewer/2022042517/5a79e0d87f8b9a3d058b51ec/html5/thumbnails/50.jpg)
Part2. まとめ
1. P(構文木)=P(部分木1)×P(部分木2)×……
2. 文法モデルを選ぶ/自分で作る
3. 構文木に含まれていない情報 → 潜在変数
4. 潜在変数の推定は計算機に任せる
Part3. 確率的文法モデルの学習
![Page 51: 統計的手法による 文法モデリングと構文解析daichi/workshop/2012-parsing/parsing2012-shindo.pdf · 全体構成 Part1. 統計的手法による構文解析 Part2.](https://reader034.fdocuments.net/reader034/viewer/2022042517/5a79e0d87f8b9a3d058b51ec/html5/thumbnails/51.jpg)
Part3. 確率的文法モデルの学習
![Page 52: 統計的手法による 文法モデリングと構文解析daichi/workshop/2012-parsing/parsing2012-shindo.pdf · 全体構成 Part1. 統計的手法による構文解析 Part2.](https://reader034.fdocuments.net/reader034/viewer/2022042517/5a79e0d87f8b9a3d058b51ec/html5/thumbnails/52.jpg)
確率的文法モデルの学習
P(構文木)を最大にする潜在変数を求める
NP
PRP
you
NP
I
PRP
S
VP
VBP
love
P(構文木)=P(部分木1)×P(部分木2)×P(部分木3)
NP
PRP
you
NP
I
PRP
S
VP
VBP
love
1
0
0
0 1
0
0
![Page 53: 統計的手法による 文法モデリングと構文解析daichi/workshop/2012-parsing/parsing2012-shindo.pdf · 全体構成 Part1. 統計的手法による構文解析 Part2.](https://reader034.fdocuments.net/reader034/viewer/2022042517/5a79e0d87f8b9a3d058b51ec/html5/thumbnails/53.jpg)
確率的文法モデルの学習
・ マルコフ連鎖モンテカルロ法 [Johnson 07]
・ 期待値最大化(EM)法 [Matsuzaki 05] [Petrov 06]
・ 変分ベイズ法 [Liang 07] [Coehn 10]
木構造データの潜在変数を推定する方法
![Page 54: 統計的手法による 文法モデリングと構文解析daichi/workshop/2012-parsing/parsing2012-shindo.pdf · 全体構成 Part1. 統計的手法による構文解析 Part2.](https://reader034.fdocuments.net/reader034/viewer/2022042517/5a79e0d87f8b9a3d058b51ec/html5/thumbnails/54.jpg)
NP
PRP
you
NP
I
PRP
S
VP
VBP
love
0
0
0
0 0
0
0
ギブスサンプリング
![Page 55: 統計的手法による 文法モデリングと構文解析daichi/workshop/2012-parsing/parsing2012-shindo.pdf · 全体構成 Part1. 統計的手法による構文解析 Part2.](https://reader034.fdocuments.net/reader034/viewer/2022042517/5a79e0d87f8b9a3d058b51ec/html5/thumbnails/55.jpg)
NP
PRP
you
NP
I
PRP
S
VP
VBP
love
0
1
0
0 0
0
0
ギブスサンプリング
![Page 56: 統計的手法による 文法モデリングと構文解析daichi/workshop/2012-parsing/parsing2012-shindo.pdf · 全体構成 Part1. 統計的手法による構文解析 Part2.](https://reader034.fdocuments.net/reader034/viewer/2022042517/5a79e0d87f8b9a3d058b51ec/html5/thumbnails/56.jpg)
NP
PRP
you
NP
I
PRP
S
VP
VBP
love
1
1
0
0 0
0
0
ギブスサンプリング
![Page 57: 統計的手法による 文法モデリングと構文解析daichi/workshop/2012-parsing/parsing2012-shindo.pdf · 全体構成 Part1. 統計的手法による構文解析 Part2.](https://reader034.fdocuments.net/reader034/viewer/2022042517/5a79e0d87f8b9a3d058b51ec/html5/thumbnails/57.jpg)
NP
PRP
you
NP
I
PRP
S
VP
VBP
love
1
1
0
0 0
0
0
ギブスサンプリング
![Page 58: 統計的手法による 文法モデリングと構文解析daichi/workshop/2012-parsing/parsing2012-shindo.pdf · 全体構成 Part1. 統計的手法による構文解析 Part2.](https://reader034.fdocuments.net/reader034/viewer/2022042517/5a79e0d87f8b9a3d058b51ec/html5/thumbnails/58.jpg)
NP
PRP
you
NP
I
PRP
S
VP
VBP
love
1
1
0
0 0
0
0
ギブスサンプリング
![Page 59: 統計的手法による 文法モデリングと構文解析daichi/workshop/2012-parsing/parsing2012-shindo.pdf · 全体構成 Part1. 統計的手法による構文解析 Part2.](https://reader034.fdocuments.net/reader034/viewer/2022042517/5a79e0d87f8b9a3d058b51ec/html5/thumbnails/59.jpg)
NP
PRP
you
NP
I
PRP
S
VP
VBP
love
1
1
0
1 0
0
0
ギブスサンプリング
![Page 60: 統計的手法による 文法モデリングと構文解析daichi/workshop/2012-parsing/parsing2012-shindo.pdf · 全体構成 Part1. 統計的手法による構文解析 Part2.](https://reader034.fdocuments.net/reader034/viewer/2022042517/5a79e0d87f8b9a3d058b51ec/html5/thumbnails/60.jpg)
NP
PRP
you
NP
I
PRP
S
VP
VBP
love
1
1
0
1 1
0
0
ギブスサンプリング
![Page 61: 統計的手法による 文法モデリングと構文解析daichi/workshop/2012-parsing/parsing2012-shindo.pdf · 全体構成 Part1. 統計的手法による構文解析 Part2.](https://reader034.fdocuments.net/reader034/viewer/2022042517/5a79e0d87f8b9a3d058b51ec/html5/thumbnails/61.jpg)
NP
PRP
you
NP
I
PRP
S
VP
VBP
love
1
1
0
1 1
0
0
ギブスサンプリング
![Page 62: 統計的手法による 文法モデリングと構文解析daichi/workshop/2012-parsing/parsing2012-shindo.pdf · 全体構成 Part1. 統計的手法による構文解析 Part2.](https://reader034.fdocuments.net/reader034/viewer/2022042517/5a79e0d87f8b9a3d058b51ec/html5/thumbnails/62.jpg)
ギブスサンプリングは上手くいかない
確率
ブロック化サンプリング
S
VPNP
S
VPNP
S
VPNP0
0 0
1
1
1 0
0 0
![Page 63: 統計的手法による 文法モデリングと構文解析daichi/workshop/2012-parsing/parsing2012-shindo.pdf · 全体構成 Part1. 統計的手法による構文解析 Part2.](https://reader034.fdocuments.net/reader034/viewer/2022042517/5a79e0d87f8b9a3d058b51ec/html5/thumbnails/63.jpg)
ブロック化サンプリング
文の全ノードの潜在変数を一度に更新する[Johnson 07]
S
VPNP
I
PRP VBP
love
NP
PRP
you
S
VPNP
I
PRP VBP
love
NP
PRP
you
0
1 000 1
0
動的計画法
![Page 64: 統計的手法による 文法モデリングと構文解析daichi/workshop/2012-parsing/parsing2012-shindo.pdf · 全体構成 Part1. 統計的手法による構文解析 Part2.](https://reader034.fdocuments.net/reader034/viewer/2022042517/5a79e0d87f8b9a3d058b51ec/html5/thumbnails/64.jpg)
Part4. 現在の到達点と今後の展開
![Page 65: 統計的手法による 文法モデリングと構文解析daichi/workshop/2012-parsing/parsing2012-shindo.pdf · 全体構成 Part1. 統計的手法による構文解析 Part2.](https://reader034.fdocuments.net/reader034/viewer/2022042517/5a79e0d87f8b9a3d058b51ec/html5/thumbnails/65.jpg)
現在の到達点
Berkeley parser[Petrov et al. 06]
Charniak parser[Charniak & Johnson 05]
Berkeley + PoE[Petrov 10]
SR‐TSG + PoE[shindo 2012]
SR‐TSG91.1
92.4
91.8
91.4
構文木コーパス: 4万文言語: 英語
90.1
![Page 66: 統計的手法による 文法モデリングと構文解析daichi/workshop/2012-parsing/parsing2012-shindo.pdf · 全体構成 Part1. 統計的手法による構文解析 Part2.](https://reader034.fdocuments.net/reader034/viewer/2022042517/5a79e0d87f8b9a3d058b51ec/html5/thumbnails/66.jpg)
現在の到達点
構文木コーパスが4万文あれば,新聞記事のデータ(英語)に対して,精度は90%を超える
・問題点:
・新聞記事以外のデータは精度が低い
・Twitterなどの崩れた文は解析に失敗しやすい
![Page 67: 統計的手法による 文法モデリングと構文解析daichi/workshop/2012-parsing/parsing2012-shindo.pdf · 全体構成 Part1. 統計的手法による構文解析 Part2.](https://reader034.fdocuments.net/reader034/viewer/2022042517/5a79e0d87f8b9a3d058b51ec/html5/thumbnails/67.jpg)
教師あり学習から教師なし学習へ
the
NP
NN
構文木コーパス(数万文)
S
NP VP
I
確率:0.1 確率:0.03
love
VP
VP NP
確率:0.002
確率的文法モデル
I love
S
NP VP
VP NP
you
![Page 68: 統計的手法による 文法モデリングと構文解析daichi/workshop/2012-parsing/parsing2012-shindo.pdf · 全体構成 Part1. 統計的手法による構文解析 Part2.](https://reader034.fdocuments.net/reader034/viewer/2022042517/5a79e0d87f8b9a3d058b51ec/html5/thumbnails/68.jpg)
教師あり学習から教師なし学習へ
the
NP
NN
普通の文(数億文以上)
S
NP VP
I
確率:0.1 確率:0.03
love
VP
VP NP
確率:0.002
確率的文法モデル
I love you
![Page 69: 統計的手法による 文法モデリングと構文解析daichi/workshop/2012-parsing/parsing2012-shindo.pdf · 全体構成 Part1. 統計的手法による構文解析 Part2.](https://reader034.fdocuments.net/reader034/viewer/2022042517/5a79e0d87f8b9a3d058b51ec/html5/thumbnails/69.jpg)
言語処理以外への展開
・音楽データの解析
‐ 木置換文法 [Bod 02]‐ 組合せ範疇文法 [Granroth‐Wilding 12]
・バイオインフォマティクス(RNAの解析)
‐ 文脈自由文法 [Eddy & Durbin 94]‐ 木接合文法 [Dowell 04]