勉強会資料:プログラムもアルゴリズム理解も不要な...

25
第第第第第第第第第第第第第第第 第第第第第第第第第第第第第第第第第第 第第第第第第第第第第第第第 from2001 KNIME 第第 Tiny Text Miner 第第第 2014/01/11

description

テキストマイニング・機械学習を初めてやってみようかという人が、プログラミングやアルゴリズムの理解なしに、まずは結果を出してたのしめるようなデモを用意しました。

Transcript of 勉強会資料:プログラムもアルゴリズム理解も不要な...

Page 1: 勉強会資料:プログラムもアルゴリズム理解も不要な 機械学習テキストマイニング

第一回つくばデータマイニング勉強会

プログラムもアルゴリズム理解も不要な機械学習テキストマイニング

from2001KNIME 及び Tiny Text Miner を利用

2014/01/11

Page 2: 勉強会資料:プログラムもアルゴリズム理解も不要な 機械学習テキストマイニング

今日利用する機械学習アルゴリズムサポートベクターマシン、ニューラルネットワーク、ランダムフォレストをネットで調べると

2

この段階で、なんだか挫折しそう。。。

Page 3: 勉強会資料:プログラムもアルゴリズム理解も不要な 機械学習テキストマイニング

今回の機械学習テキストマイニング LT の概要

ブログの文章を

テキストマイニングし

誰のブログかを判別する

今回対象とするのは

3

Page 4: 勉強会資料:プログラムもアルゴリズム理解も不要な 機械学習テキストマイニング

4

Page 5: 勉強会資料:プログラムもアルゴリズム理解も不要な 機械学習テキストマイニング

今日利用する機械学習アルゴリズムサポートベクターマシン、ニューラルネットワーク、ランダムフォレストをネットで調べると

難しいことが書いてあってくじけそうになる

5

Page 6: 勉強会資料:プログラムもアルゴリズム理解も不要な 機械学習テキストマイニング

今日はプログラムは一切使わず

KNIME(the Konstanz Information Miner)

TTM(Tiny Text Miner)

6

Page 7: 勉強会資料:プログラムもアルゴリズム理解も不要な 機械学習テキストマイニング

理解しておくべき概念1 - 機械学習

ブログの本文データ

7

Page 8: 勉強会資料:プログラムもアルゴリズム理解も不要な 機械学習テキストマイニング

理解しておくべき概念1 - 機械学習

ブログの本文データ

人間がタグを付けます

加藤茶

加藤茶

安倍晋三

安倍晋三

大島優子

教師データといいます8

Page 9: 勉強会資料:プログラムもアルゴリズム理解も不要な 機械学習テキストマイニング

理解しておくべき概念1 - 機械学習

加藤茶

加藤茶

安倍晋三

安倍晋三

大島優子

分類器

学習させる

パターンを学習する 9

Page 10: 勉強会資料:プログラムもアルゴリズム理解も不要な 機械学習テキストマイニング

理解しておくべき概念1 - 機械学習

分類器

コレハオオシマユウコ

ノ ブログ

未知のブログ文章を分類できるようになる

10

Page 11: 勉強会資料:プログラムもアルゴリズム理解も不要な 機械学習テキストマイニング

理解しておくべき概念 2- 形態素解析

分類器

歯磨けよ!風邪引くなよ!また明日!

! 歯 明日 引く 風邪 磨ける歯磨けよ!風邪引くなよ!また明日! 3 1 1 1 1 1

コンピューターが理解しやすいような形式に日本語を変換

11

Page 12: 勉強会資料:プログラムもアルゴリズム理解も不要な 機械学習テキストマイニング

では実際にやってみる

12

Page 13: 勉強会資料:プログラムもアルゴリズム理解も不要な 機械学習テキストマイニング

① カンマ区切りデータを用意

1 列名:タグ(誰のブログか)2 列目:本文(改行削除)

13

Page 14: 勉強会資料:プログラムもアルゴリズム理解も不要な 機械学習テキストマイニング

② 形態素解析する

TTM にデータを渡すと後は自動でやってくれます

14

Page 15: 勉強会資料:プログラムもアルゴリズム理解も不要な 機械学習テキストマイニング

各語の出現件数表が出力されます

15

Page 16: 勉強会資料:プログラムもアルゴリズム理解も不要な 機械学習テキストマイニング

不必要な行・列を消します

16

Page 17: 勉強会資料:プログラムもアルゴリズム理解も不要な 機械学習テキストマイニング

このデータを KNIME で機械学習させます

17

Page 18: 勉強会資料:プログラムもアルゴリズム理解も不要な 機械学習テキストマイニング

タグ付きCSV データを読み込む

データを分割

学習させる

分類 評価

下記のフローを実装します

150 件のデータ

75 件を教師データに

のこり 75 件のタグ無しデータ

学習済みモデル

18

Page 19: 勉強会資料:プログラムもアルゴリズム理解も不要な 機械学習テキストマイニング

簡単なので

実際に一緒にやってみましょう

19

Page 20: 勉強会資料:プログラムもアルゴリズム理解も不要な 機械学習テキストマイニング

20

KNIME を使えば、簡単

Page 21: 勉強会資料:プログラムもアルゴリズム理解も不要な 機械学習テキストマイニング

21

サポートベクターマシン用 Node

ニューラルネットワーク用 Node

他のアルゴリズムに切り替えるのも簡単

Page 22: 勉強会資料:プログラムもアルゴリズム理解も不要な 機械学習テキストマイニング

3 人のブログは機械学習で識別可能!

では、

22

Page 23: 勉強会資料:プログラムもアルゴリズム理解も不要な 機械学習テキストマイニング

政治家お笑い アイドル

加藤茶 安倍晋三 大島優子 指原莉乃

AKB が二人混ざっていても分類可能なのか?23

Page 24: 勉強会資料:プログラムもアルゴリズム理解も不要な 機械学習テキストマイニング

AKB 二人もきっちり識別!!!Random Forest 利用

24

Page 25: 勉強会資料:プログラムもアルゴリズム理解も不要な 機械学習テキストマイニング

おしまい

25