テキストマイニング (2)
Transcript of テキストマイニング (2)
推理小説のテキストマイニング
分析に用いた小説
• 明治開化 安吾捕物
その一 舞踏会殺人事件 (1950) 筆者:坂口安吾
1章、泉山虎之介が勝海舟に事件解決の助けを求めにいく2章、虎之介が勝海舟に事件の内容を聞かせる。3章.勝海舟が話を聞いてその場で犯人を推理4章、探偵の結城新十郎が真犯人をあてる5章、後日談
左が青空文庫にあったテキスト、右が変形したもの
登場人物紹介
抽出語をピックアップしなかった場合の出現数が多かった単語
登場人物の名前をピックアップ
分析した語をピックアップした後の表
文中における単語を集計した表
対応分析(コレスポンス分析)対応分析とは ・クロス集計表において行の要素と列の要素の相関が大きくなるように二次元空間に配置すること ・行と列の関係性を見ることができる ・クロス表をもとにするので二つの変数の間の関係しか使用できない
1、クロス集計表を行の項目と列の項目の相関が最大になるように行と列の双方向を並び替える2、並び替えた表から行と列のそれぞれの相対比率のパターンを求める3、固有値を使って行と列の成分スコアを求める4、成分スコアを散布図に配置する
タグ毎における出現した単語の回数の集計表
行と列の関係を表した図ができるので行と列を見比べる
行にタグを、列に単語を設定したのでタグと単語の関係をみる
タグ × 抽出語 のクロス表(名詞、強制抽出語、動詞のみ)
・タグ2では事件の概要が主だったので倒れたや駆けるなどの動作や事件に関わった人の名前が近くに配置・タグ4では新十郎が推理を披露し犯人を当てるところなのでその単語が近くに配置
多次元尺度法・データの構造を考察する方法・個体間の親近性データに基づいて近しいものを近くにそうでないものを遠くに、二次元上、又は三次元上に表して個体間の相関関係を視覚的に見る 量的データの場合、個体間の距離を求めて距離が近いものと遠いものを距離に基づいて配置 質的データの場合、個体間の類似度を求めて類似度が大きいほど個体間 の関連性が強いので近くに配置
・軸は関係なく図に配置されている個体のなかで解釈する 手順
1、各項目間の距離を測る2、座標値を求める3、2~3次元上でデータを配置
抽出語 × タグ のクロス表(名詞、強制抽出語、動詞のみ)
名詞と強制抽出した語と動詞の頻度順上位 10位を対象
階層的クラスター分析・対象間の関連性を表すデータを分析 データのパターンが似ているもの同士をグループにまとめてかたまり構造を把握・樹形図と呼ばれる図を作成・どのようにグループ分けをするかの基準を使わずグループ分けをする
http://mjin.doshisha.ac.jp/R/28/28.html
手順 1、データ間の相関係数から距離や類似度を求め距離行列を作成する ピアソン関数やコサイン係数を用いる2、1を元にコーフェン行列を求める グループごとの距離の行列のこと(一番始めは個体間の距離)3、2を元に樹形図を作成する4、2、3をグループが一つになるまで続ける
前段階として対応分析などで描いた図をもとにどのように分類できるかを検討する
抽出語 × タグ のクロス表(名詞、強制抽出語、動詞のみ)
ネットワーク分析・もとは通信ネットワークや組織の編成などに使われていた
・語をノードとして表現して共起性があるものを線でつないで結び合わせたネットワークマップとして表示
・密度(ネットワークに含まれる関係の密さを示す度) 密度が大きいほどノードからのびる線が多くなる ・接近中心性(ある点が他の点にどれだけ近いかを示す指標) ・次数(あるノードに接している辺の数) の3つを計算して図に表す
http://mjin.doshisha.ac.jp/R/61/61.html
これをノードと呼ぶ
1、各単語のバイグラムを求める バイグラムは前後で組み合わせになっているもの2、そのなかで頻度が多い順に並べる3、頻度が多いものをネットワークマップとして表示
http://mjin.doshisha.ac.jp/R/61/61.html
文中における単語を集計した表
分析してみて分かったこと• 推理小説の分析には対応分析が一番適している。 →どの章でどんなことが書かれているかがわかる・読者が文脈から読み取らなければいけないことが分析では読み取ることができない。 例えばこの小説の場合真犯人は別にいるが明確に書かれていないので読んだ人は真犯人が誰かが推測できるが文章を機械的に分析するだけでは分からない。