自然言語処理 2013 No.13
description
Transcript of 自然言語処理 2013 No.13
![Page 1: 自然言語処理 2013 No.13](https://reader035.fdocuments.net/reader035/viewer/2022081504/56814d00550346895dba2a50/html5/thumbnails/1.jpg)
自然言語処理 2013 No.13
東京工科大学コンピュータサイエンス学部
亀田弘之
修正版修正版
![Page 2: 自然言語処理 2013 No.13](https://reader035.fdocuments.net/reader035/viewer/2022081504/56814d00550346895dba2a50/html5/thumbnails/2.jpg)
今日の内容
• 文法再入門
今日はお話しが中心です.へーそうなんだ,といった興味本位で聞いてください.
今日はお話しが中心です.へーそうなんだ,といった興味本位で聞いてください.
2
![Page 3: 自然言語処理 2013 No.13](https://reader035.fdocuments.net/reader035/viewer/2022081504/56814d00550346895dba2a50/html5/thumbnails/3.jpg)
いろいろな文法理論
• 日本語文法の現状• 構造主義的文法理論
• ソシュールの文法理論• チョムスキーの文法理論
• 結合価文法• (依存関係文法)• その他
3
![Page 4: 自然言語処理 2013 No.13](https://reader035.fdocuments.net/reader035/viewer/2022081504/56814d00550346895dba2a50/html5/thumbnails/4.jpg)
日本語文法の現状• 大槻文彦文法• 山田孝雄文法(“最後の国学者”)• 松下大三郎文法• 橋本進吉文法(文節,学校文法のもとになったもの)• 時枝文法(詞と辞,言語過程説,事としての言語観)• 学校文法(日本の小学校・中学校で習う文法)• 宣教師たちの文法• Chamberlain の文法(近代的日本語研究の先駆者)• 本居春庭(宣長の子供)の動詞活用研究(詞の八衢)• その他(三上文法)
様々な提案がなされているが,決定版はまだない様々な提案がなされているが,決定版はまだない
4
![Page 5: 自然言語処理 2013 No.13](https://reader035.fdocuments.net/reader035/viewer/2022081504/56814d00550346895dba2a50/html5/thumbnails/5.jpg)
日本語研究の現状
• 言語学の流派• 明治以降,海外の言語学研究に影響されたもの
• 国語学の流派• 江戸時代の国学の流れを受け継いでいるもの
• 日本語学の流派• 外国語教育を目的としているもの
• その他
(注)文法研究が不十分な言語は,日本語だけではなく, 英語文法の場合もまだまだ発展途上である.
5
![Page 6: 自然言語処理 2013 No.13](https://reader035.fdocuments.net/reader035/viewer/2022081504/56814d00550346895dba2a50/html5/thumbnails/6.jpg)
考察・検討(事実)日本語の文法は現在もなお未解決問題である(解明されていない).“日本語”という言語には,何らかの制約・規則・規約( constraint, rule, protocol )としての文法があることは事実として認めて良いであろう. 例えば, 「長岡半太郎は日本の物理学者である」 「 onakaga suitayo. 」は日本語として正しい(意味が取れる)が, 「は物理学者である日本長岡半太郎の」 「 Es war ein König in Thule. 」は正しくない(意味が取れない).
6
![Page 7: 自然言語処理 2013 No.13](https://reader035.fdocuments.net/reader035/viewer/2022081504/56814d00550346895dba2a50/html5/thumbnails/7.jpg)
問題提起
事実(日本語とは,あるいは,文法とは何か?)を我々が認識できたとする.それを表現化(言語化・文字化・記号化)するためには,表現方法自体が問題となる.例で考えてみる.
7
![Page 8: 自然言語処理 2013 No.13](https://reader035.fdocuments.net/reader035/viewer/2022081504/56814d00550346895dba2a50/html5/thumbnails/8.jpg)
設問 3の倍数は何個あるか?• 設定: N =10とし, N 以下の場合を考え
る.• 事実: N 以下の3の倍数(正数のみで考え
る)は, 3,6,9 の3個.
8
![Page 9: 自然言語処理 2013 No.13](https://reader035.fdocuments.net/reader035/viewer/2022081504/56814d00550346895dba2a50/html5/thumbnails/9.jpg)
解答例1. 3, 6, 9 の3個.2. 集合 S= { n | n <=10, 3|n } として, #S 個.3. C/C++ 言語プログラム(その1):
for(int n = 1; I < 10; n++ ){ if(n%3 == 0) count = count + 1;}printf(“%d 個ある \n”, count);
4. C/C++ 言語プログラム(その2):N = 10;printf(“%d 個ある \n”, N/3);
5. その他9
![Page 10: 自然言語処理 2013 No.13](https://reader035.fdocuments.net/reader035/viewer/2022081504/56814d00550346895dba2a50/html5/thumbnails/10.jpg)
解答例1. 3, 6, 9 の3個.2. 集合 S= { n | n <=10 } として, #S 個.3. C/C++ 言語プログラム(その1):
for(int n = 1; I < 10; n++ ){ if(n%3 == 0) count = count + 1;}printf(“%d 個ある \n”, count);
4. C/C++ 言語プログラム(その2):N = 10;printf(“%d 個ある \n”, N/3);
5. その他
問題:どれが正しい解答(=知識の記述)?問題:どれが正しい解答(=知識の記述)?
10
![Page 11: 自然言語処理 2013 No.13](https://reader035.fdocuments.net/reader035/viewer/2022081504/56814d00550346895dba2a50/html5/thumbnails/11.jpg)
人間の理解モデル
考察対象(言語,文
法)
考察対象(言語,文
法)
認知認知(認識(認識 ×× 理解理解)(直観・発)(直観・発見)見)
認知認知(認識(認識 ×× 理解理解)(直観・発)(直観・発見)見)
実験・観察・分析
実験・観察・分析
発見・認知・表現
発見・認知・表現
11
![Page 12: 自然言語処理 2013 No.13](https://reader035.fdocuments.net/reader035/viewer/2022081504/56814d00550346895dba2a50/html5/thumbnails/12.jpg)
得られた知見• 1つのものに対する表現方法は複数あり得る.
(当たり前?)
int factorial(int N){ int i; int fact = 1; if( N == 0 ) return 1; for( i = 1; i <= N; i++ ){ fact = fact * i; } return( fact );}
function fact N integer fact fact=1 if(N eq 0) then return 1 do 1000 i=1,N fact = fact*I1000 continue end.
(defun fact (N) (if (= N 0) 1 (* (fact (- N 1)) N)))
12
![Page 13: 自然言語処理 2013 No.13](https://reader035.fdocuments.net/reader035/viewer/2022081504/56814d00550346895dba2a50/html5/thumbnails/13.jpg)
文法の様々な側面
• 規範文法( prescriptive grammar )• 言語のあるべき姿を規定する文法
• 記述文法( descriptive grammar )• 言語のあるがままの姿を書き下す文法
13
![Page 14: 自然言語処理 2013 No.13](https://reader035.fdocuments.net/reader035/viewer/2022081504/56814d00550346895dba2a50/html5/thumbnails/14.jpg)
結局,そもそも“文法”とは何?(自分の答えを書いてください)“ 文法”とは,...
(ヒント) 説明するために役立つ用語を書き出してみよう!
14
![Page 15: 自然言語処理 2013 No.13](https://reader035.fdocuments.net/reader035/viewer/2022081504/56814d00550346895dba2a50/html5/thumbnails/15.jpg)
文法理論体系
•音韻論• 語彙論•形態論•統語論• 意味論• 語用論
15
![Page 16: 自然言語処理 2013 No.13](https://reader035.fdocuments.net/reader035/viewer/2022081504/56814d00550346895dba2a50/html5/thumbnails/16.jpg)
文法理論体系
•音韻論(音素,音韻,音声など)• 語彙論(単語など)•形態論(語構成論など)•統語論(統語構造)• 意味論(意味( semantics ))• 語用論(言語表現とその使用者・文脈との関
係)
16
![Page 17: 自然言語処理 2013 No.13](https://reader035.fdocuments.net/reader035/viewer/2022081504/56814d00550346895dba2a50/html5/thumbnails/17.jpg)
言語について語るとき,避けて通ることのできない人たち• Ferdinand de Saussure (構造主義の創始者)• Norm Chomsky (オートマトンと言語理論)• J-P. Sartre• J. Derrida’ 脱構築 (desconstruction)• R. Jakobson (言語学)• S. Freud (心理学) など
17
![Page 18: 自然言語処理 2013 No.13](https://reader035.fdocuments.net/reader035/viewer/2022081504/56814d00550346895dba2a50/html5/thumbnails/18.jpg)
チョムスキー(1人目)
•形式言語理論を確立•形式言語の処理装置( automaton )を明らか
にした•形式言語と処理装置の関係を明らかにした
18
![Page 19: 自然言語処理 2013 No.13](https://reader035.fdocuments.net/reader035/viewer/2022081504/56814d00550346895dba2a50/html5/thumbnails/19.jpg)
文法
• 文法 G= ( Vn, Vt, P, S ):• ただし、
• Vn: 非終端記号の集合 <= 構文木構成要素の集合
• Vt: 終端記号の集合 <= 単語の集合• P: 書き換え規則の集合• S: 開始記号
19
![Page 20: 自然言語処理 2013 No.13](https://reader035.fdocuments.net/reader035/viewer/2022081504/56814d00550346895dba2a50/html5/thumbnails/20.jpg)
事実
1. 文は無限個存在する。• (注)単語は有限個ではある.
2. 意味のある文をすべて集めた集合は、1つの言語を定める。• これはチョムスキーの定義(思想)• 任意の単語列(形式的な文,無意味な文も含まれ
る)に対して,意味があるものとないものとを区別したい。
• つまり、任意の文に対して、それが言語 L の文か否かを判定したい。
• そんなことできるのだろうか?(事実:我々はできている.)
20
![Page 21: 自然言語処理 2013 No.13](https://reader035.fdocuments.net/reader035/viewer/2022081504/56814d00550346895dba2a50/html5/thumbnails/21.jpg)
アイデア1)
• 我々はすべての文を事前に知っている.つまり,自分の母語に関する文(意味のある文)はすべて知っている(記憶されている).
文 S1
S1 S2 S3
… Sn
オートマトン
S1 は言語 L の文だよ!
図.意味ある文とそうでない文とを識別するシステム
21
![Page 22: 自然言語処理 2013 No.13](https://reader035.fdocuments.net/reader035/viewer/2022081504/56814d00550346895dba2a50/html5/thumbnails/22.jpg)
問題点
1. すべての文を知ることはできるのか?会話文の単語数:10個程度人の発話速度:1分当たり:10文程度一日(8時間)に接する文の総数(延べ):
10 [ 文 / 分 ]× 60 [ 分 ]×24[ 時間 ]×365[ 日 ]× 10年=約 個
(注)意味ある文の個数は実質有限個?
2. 識別処理動作が止まらないことがある.我々人間は有限時間に処理を終えるのに...
7103.5
22
![Page 23: 自然言語処理 2013 No.13](https://reader035.fdocuments.net/reader035/viewer/2022081504/56814d00550346895dba2a50/html5/thumbnails/23.jpg)
アイデア2)
• 文は無限個.• これを有限の記述(規則)で捉えたい.• これを文法と呼ぼう!(チョムスキーの思想)
• 文法 G = ( Vn, Vt, P, S ):• ただし、
• Vn (非終端記号の集合) : 0 < #Vn < +∞• Vt: 終端記号の集合 : 0 <
#Vt < +∞• P: 書き換え規則の集合
{α→β| α, β (Vn Vt)*}∈ ∪
• S: 開始記号 (S Vn)∈
• 言語 L = L(G) = { x | S =*> x }• ただし、 S => ・・・ => x ∈ Vt
• 文法 G = ( Vn, Vt, P, S ):• ただし、
• Vn (非終端記号の集合) : 0 < #Vn < +∞• Vt: 終端記号の集合 : 0 <
#Vt < +∞• P: 書き換え規則の集合
{α→β| α, β (Vn Vt)*}∈ ∪
• S: 開始記号 (S Vn)∈
• 言語 L = L(G) = { x | S =*> x }• ただし、 S => ・・・ => x ∈ Vt 23
![Page 24: 自然言語処理 2013 No.13](https://reader035.fdocuments.net/reader035/viewer/2022081504/56814d00550346895dba2a50/html5/thumbnails/24.jpg)
----------------------------------------------------------------言語 (languages) 文法 (grammar)
----------------------------------------------------------------•句構造言語 (PSL) ⇔ 句構造文法 (PSG)• 文脈依存言語 (CSL) ⇔ 文脈依存文法 (CSG) • 文脈自由言語 (CFL) ⇔ 文脈自由文法 (CFG)• 正規言語 (RL) ⇔ 正規文法 (RG)----------------------------------------------------------------
言語と文法の関係
計算モデルやプログラミング言語設計に深くかかわっています。
24
結論結論
![Page 25: 自然言語処理 2013 No.13](https://reader035.fdocuments.net/reader035/viewer/2022081504/56814d00550346895dba2a50/html5/thumbnails/25.jpg)
----------------------------------------------------------------言語 (languages) 処理装置 (devices)
----------------------------------------------------------------•句構造言語 (PSL) ⇔ チューリングマシン• 文脈依存言語 (CSL) ⇔ 線形有界オートマトン• 文脈自由言語 (CFL) ⇔ プッシュダウンオートマトン
• 正規言語 (RL) ⇔ 有限オートマトン----------------------------------------------------------------
言語とオートマトンの関係
計算モデルやプログラミング言語設計に深くかかわっています。
25
結論結論
![Page 26: 自然言語処理 2013 No.13](https://reader035.fdocuments.net/reader035/viewer/2022081504/56814d00550346895dba2a50/html5/thumbnails/26.jpg)
その後の発展
言語理論• 正規文法→ 正規表現
• 文脈自由文法→ プログラミング言語→ Bakus-Naur Form
• その他弱文脈依存文法(mildly context-sensitive grammar), GPSG など
オートマトン• チューリングマシン→ 計算論
計算の概念,計算可能性, 計算量,計算効率(データ 構造とアルゴリズム)など
• その他
26
![Page 27: 自然言語処理 2013 No.13](https://reader035.fdocuments.net/reader035/viewer/2022081504/56814d00550346895dba2a50/html5/thumbnails/27.jpg)
考察
• チョムスキーは,アメリカの構造主義者とみなされている.
•アメリカの構造主義とは,スキナーらの心理学(行動主義 , Behaviorism )の思想であり, atomism (ア・プリオリ( a priori )に個々の実体があり,それらの総和が全体を創るという要素主義).
• チョムスキーも,原子的なもの(終端記号や非終端記号)からすべてが構成されている,と考えていることにもなる.それらに,生成規則(書き換え規則)が適用されている.生成規則は自然物理解における“法則”に相当? 27
![Page 28: 自然言語処理 2013 No.13](https://reader035.fdocuments.net/reader035/viewer/2022081504/56814d00550346895dba2a50/html5/thumbnails/28.jpg)
ソシュール(2人目)
•欧州を中心とする“構造主義”の創始者• 科学的パラダイム転換 * に寄与• そもそも“言語学”は科学的研究ではなかった.• 言語の研究を科学的なものにしたのがソシュール.
• そもそも“科学的 (scientific)” とはどういうことなのか?
(注)パラダイムシフト: Thomas Kuhn の提唱した理論.
28
![Page 29: 自然言語処理 2013 No.13](https://reader035.fdocuments.net/reader035/viewer/2022081504/56814d00550346895dba2a50/html5/thumbnails/29.jpg)
• Epistemology ((科学的)認識論)何が科学的か?
例:言語学は科学的か? 科学的真理とは何か?
科学的とは何か?思想の側からの科学批判( Wertkritik ) ← M. Weber
例:演繹推論だけが科学的なのか? データ・経験に基づく帰納推論は科学的なのか? 理論に基づくものだけが科学的なのか?
• 価値批判( Wertkritik ) Epistemology
発展課題 “科学的” とはどういうことを意味するのか? 考えてみよう! 29
![Page 30: 自然言語処理 2013 No.13](https://reader035.fdocuments.net/reader035/viewer/2022081504/56814d00550346895dba2a50/html5/thumbnails/30.jpg)
ソシュールの理論(一部)
• ラング( langue ,体系としての言語)•パロール( parole ,個々の発話や書かれた文)• ランガージュ( langage ,言語能力)• シニフィエ( signifié )とシニフィアン( signfiant )
イヌ
30
![Page 31: 自然言語処理 2013 No.13](https://reader035.fdocuments.net/reader035/viewer/2022081504/56814d00550346895dba2a50/html5/thumbnails/31.jpg)
ソシュールの理論(一部)
• ラング( langue ,体系としての言語)•パロール( parole ,個々の発話や書かれた文)• ランガージュ( langage ,言語能力)• シニフィエ( signifié )とシニフィアン( signfiant )
イヌ
シニフィアン
シニフィエ31
![Page 32: 自然言語処理 2013 No.13](https://reader035.fdocuments.net/reader035/viewer/2022081504/56814d00550346895dba2a50/html5/thumbnails/32.jpg)
結合価理論( Valency theory )•テニエールが(依存関係文法を)提唱• 日本語における結合価文法研究(西野)
• 日本語動詞の結合価(三省堂)
•ドイツ語文法版• ドイツ語辞書,ドイツ語文法( Duden )
(参考)似たものとして,依存関係文法というのもある.
32
![Page 33: 自然言語処理 2013 No.13](https://reader035.fdocuments.net/reader035/viewer/2022081504/56814d00550346895dba2a50/html5/thumbnails/33.jpg)
今日のまとめ
• 文法って色々あり,まだまだ研究しなければならない.
• ではどうやって?1. 用例を一所懸命手作業で集める?2. プログラムを作ってデータを集めたり分析する.3. データマイニングツールやシステムを作る.4. 既存の機械学習(人工知能理論,統計理論)を駆使する.5. 新たな機械学習理論を構築し,システムとして実現する.6. 脳科学や心理学の研究(ヒト自体の研究)を頑張る.7. それとも...
(連絡事項)次回は1月20日(月),次々回は1月22日(水)です.(連絡事項)次回は1月20日(月),次々回は1月22日(水)です. 33