テキストマイニング (2)

25
推推推推推推推推推推推推推推

Transcript of テキストマイニング (2)

Page 1: テキストマイニング (2)

推理小説のテキストマイニング

Page 2: テキストマイニング (2)

分析に用いた小説

• 明治開化 安吾捕物

 その一 舞踏会殺人事件 (1950)             筆者:坂口安吾

1章、泉山虎之介が勝海舟に事件解決の助けを求めにいく2章、虎之介が勝海舟に事件の内容を聞かせる。3章.勝海舟が話を聞いてその場で犯人を推理4章、探偵の結城新十郎が真犯人をあてる5章、後日談

Page 3: テキストマイニング (2)

左が青空文庫にあったテキスト、右が変形したもの

Page 4: テキストマイニング (2)

登場人物紹介

Page 5: テキストマイニング (2)

抽出語をピックアップしなかった場合の出現数が多かった単語

Page 6: テキストマイニング (2)

登場人物の名前をピックアップ

Page 7: テキストマイニング (2)

分析した語をピックアップした後の表

Page 8: テキストマイニング (2)

文中における単語を集計した表

Page 9: テキストマイニング (2)

対応分析(コレスポンス分析)対応分析とは  ・クロス集計表において行の要素と列の要素の相関が大きくなるように二次元空間に配置すること  ・行と列の関係性を見ることができる  ・クロス表をもとにするので二つの変数の間の関係しか使用できない  

Page 10: テキストマイニング (2)

1、クロス集計表を行の項目と列の項目の相関が最大になるように行と列の双方向を並び替える2、並び替えた表から行と列のそれぞれの相対比率のパターンを求める3、固有値を使って行と列の成分スコアを求める4、成分スコアを散布図に配置する

タグ毎における出現した単語の回数の集計表

行と列の関係を表した図ができるので行と列を見比べる

Page 11: テキストマイニング (2)

行にタグを、列に単語を設定したのでタグと単語の関係をみる

Page 12: テキストマイニング (2)

タグ  × 抽出語 のクロス表(名詞、強制抽出語、動詞のみ)

Page 13: テキストマイニング (2)

・タグ2では事件の概要が主だったので倒れたや駆けるなどの動作や事件に関わった人の名前が近くに配置・タグ4では新十郎が推理を披露し犯人を当てるところなのでその単語が近くに配置

Page 14: テキストマイニング (2)

多次元尺度法・データの構造を考察する方法・個体間の親近性データに基づいて近しいものを近くにそうでないものを遠くに、二次元上、又は三次元上に表して個体間の相関関係を視覚的に見る   量的データの場合、個体間の距離を求めて距離が近いものと遠いものを距離に基づいて配置   質的データの場合、個体間の類似度を求めて類似度が大きいほど個体間 の関連性が強いので近くに配置 

・軸は関係なく図に配置されている個体のなかで解釈する 手順

1、各項目間の距離を測る2、座標値を求める3、2~3次元上でデータを配置

Page 15: テキストマイニング (2)

抽出語  × タグ のクロス表(名詞、強制抽出語、動詞のみ)

Page 16: テキストマイニング (2)

名詞と強制抽出した語と動詞の頻度順上位 10位を対象

Page 17: テキストマイニング (2)

階層的クラスター分析・対象間の関連性を表すデータを分析  データのパターンが似ているもの同士をグループにまとめてかたまり構造を把握・樹形図と呼ばれる図を作成・どのようにグループ分けをするかの基準を使わずグループ分けをする   

http://mjin.doshisha.ac.jp/R/28/28.html

Page 18: テキストマイニング (2)

手順 1、データ間の相関係数から距離や類似度を求め距離行列を作成する    ピアソン関数やコサイン係数を用いる2、1を元にコーフェン行列を求める     グループごとの距離の行列のこと(一番始めは個体間の距離)3、2を元に樹形図を作成する4、2、3をグループが一つになるまで続ける

  前段階として対応分析などで描いた図をもとにどのように分類できるかを検討する

Page 19: テキストマイニング (2)

抽出語  × タグ のクロス表(名詞、強制抽出語、動詞のみ)

Page 20: テキストマイニング (2)
Page 21: テキストマイニング (2)

ネットワーク分析・もとは通信ネットワークや組織の編成などに使われていた

・語をノードとして表現して共起性があるものを線でつないで結び合わせたネットワークマップとして表示

 ・密度(ネットワークに含まれる関係の密さを示す度)      密度が大きいほどノードからのびる線が多くなる ・接近中心性(ある点が他の点にどれだけ近いかを示す指標) ・次数(あるノードに接している辺の数)        の3つを計算して図に表す

http://mjin.doshisha.ac.jp/R/61/61.html

これをノードと呼ぶ

Page 22: テキストマイニング (2)

1、各単語のバイグラムを求める    バイグラムは前後で組み合わせになっているもの2、そのなかで頻度が多い順に並べる3、頻度が多いものをネットワークマップとして表示

http://mjin.doshisha.ac.jp/R/61/61.html

Page 23: テキストマイニング (2)

文中における単語を集計した表

Page 24: テキストマイニング (2)
Page 25: テキストマイニング (2)

分析してみて分かったこと• 推理小説の分析には対応分析が一番適している。    →どの章でどんなことが書かれているかがわかる・読者が文脈から読み取らなければいけないことが分析では読み取ることができない。     例えばこの小説の場合真犯人は別にいるが明確に書かれていないので読んだ人は真犯人が誰かが推測できるが文章を機械的に分析するだけでは分からない。