テキストマイニング (2)

推理小説のテキストマイニング

分析に用いた小説

• 明治開化　安吾捕物

　その一　舞踏会殺人事件　（１９５０）　　　　　　　　　　　　　筆者：坂口安吾

１章、泉山虎之介が勝海舟に事件解決の助けを求めにいく２章、虎之介が勝海舟に事件の内容を聞かせる。３章．勝海舟が話を聞いてその場で犯人を推理４章、探偵の結城新十郎が真犯人をあてる５章、後日談

左が青空文庫にあったテキスト、右が変形したもの

登場人物紹介

抽出語をピックアップしなかった場合の出現数が多かった単語

登場人物の名前をピックアップ

分析した語をピックアップした後の表

文中における単語を集計した表

対応分析（コレスポンス分析）対応分析とは　　・クロス集計表において行の要素と列の要素の相関が大きくなるように二次元空間に配置すること　　・行と列の関係性を見ることができる　　・クロス表をもとにするので二つの変数の間の関係しか使用できない　　

１、クロス集計表を行の項目と列の項目の相関が最大になるように行と列の双方向を並び替える２、並び替えた表から行と列のそれぞれの相対比率のパターンを求める３、固有値を使って行と列の成分スコアを求める４、成分スコアを散布図に配置する

タグ毎における出現した単語の回数の集計表

行と列の関係を表した図ができるので行と列を見比べる

行にタグを、列に単語を設定したのでタグと単語の関係をみる

タグ　 ×　抽出語　のクロス表（名詞、強制抽出語、動詞のみ）

・タグ２では事件の概要が主だったので倒れたや駆けるなどの動作や事件に関わった人の名前が近くに配置・タグ４では新十郎が推理を披露し犯人を当てるところなのでその単語が近くに配置

多次元尺度法・データの構造を考察する方法・個体間の親近性データに基づいて近しいものを近くにそうでないものを遠くに、二次元上、又は三次元上に表して個体間の相関関係を視覚的に見る　　　量的データの場合、個体間の距離を求めて距離が近いものと遠いものを距離に基づいて配置　　　質的データの場合、個体間の類似度を求めて類似度が大きいほど個体間　の関連性が強いので近くに配置　

・軸は関係なく図に配置されている個体のなかで解釈する手順

１、各項目間の距離を測る２、座標値を求める３、２～３次元上でデータを配置

抽出語　 ×　タグ　のクロス表（名詞、強制抽出語、動詞のみ）

名詞と強制抽出した語と動詞の頻度順上位 10位を対象

階層的クラスター分析・対象間の関連性を表すデータを分析　　データのパターンが似ているもの同士をグループにまとめてかたまり構造を把握・樹形図と呼ばれる図を作成・どのようにグループ分けをするかの基準を使わずグループ分けをする　　　

http://mjin.doshisha.ac.jp/R/28/28.html

手順　１、データ間の相関係数から距離や類似度を求め距離行列を作成する　　　　ピアソン関数やコサイン係数を用いる２、１を元にコーフェン行列を求める　　　　　グループごとの距離の行列のこと（一番始めは個体間の距離）３、２を元に樹形図を作成する４、２、３をグループが一つになるまで続ける

　　前段階として対応分析などで描いた図をもとにどのように分類できるかを検討する

抽出語　 ×　タグ　のクロス表（名詞、強制抽出語、動詞のみ）

ネットワーク分析・もとは通信ネットワークや組織の編成などに使われていた

・語をノードとして表現して共起性があるものを線でつないで結び合わせたネットワークマップとして表示

　・密度（ネットワークに含まれる関係の密さを示す度）　　　　　　密度が大きいほどノードからのびる線が多くなる　・接近中心性（ある点が他の点にどれだけ近いかを示す指標）　・次数（あるノードに接している辺の数）　　　　　　　　の３つを計算して図に表す


これをノードと呼ぶ

１、各単語のバイグラムを求める　　　　バイグラムは前後で組み合わせになっているもの２、そのなかで頻度が多い順に並べる３、頻度が多いものをネットワークマップとして表示


文中における単語を集計した表

分析してみて分かったこと• 推理小説の分析には対応分析が一番適している。　　　　→どの章でどんなことが書かれているかがわかる・読者が文脈から読み取らなければいけないことが分析では読み取ることができない。　　　　　例えばこの小説の場合真犯人は別にいるが明確に書かれていないので読んだ人は真犯人が誰かが推測できるが文章を機械的に分析するだけでは分からない。

テキストマイニング (2)

Documents

Transcript of テキストマイニング (2)