シリーズML-01 機械学習の概要

20
Ver. 1.0, 2017-08-11 森下功啓 1

Transcript of シリーズML-01 機械学習の概要

Ver. 1.0, 2017-08-11

森下功啓

1

機械学習の利用例

2

病気の診断・投薬の判定

地滑りの危険性の判定

農作物の収量予測

石油価格の予想→先物取引

機械学習の実例

3

服のコーディネート

音声で操作するスマート家電

自動着色

機械学習とは?

4

ソフトウェアにより、自動的にパターンを学習するもの

卒業の可能性80%判定:要ケア

たとえば、成績から退学率を予想

5

人間の意識ほど揺らいで不確かなものはない

数値に対するロジカルな判断が必要であれば、イレギュラーでもない限り、ソフトウェアに任せよう

機械学習の手順

目的と問題を明確化

利用する手法をひとまず決める

学習

成果の利用

6

状況により、後ろに戻る

機械学習の手順例

7

目的:問診票から受診科を推薦 利用手法:ニューラルネットワークを使う

学習:過去の問診票と治療経過のパターンを学習

システムの一部として学習器を組み込み、医療現場で使ってもらう

8

ところで、利用できる手法には解決したい問題に合わせて多数の手法(アルゴリズム)が提案されている

問題と手法のパターンについて見てみよう

問題の種類と解決方法

質問 解決方法

AかBか 識別(判別)

異常か 異常検出

どのくらいの量かまたは数か 回帰

どのような構成か クラスタリング

次に何をすべきか 強化学習

ーAzure データサイエンスが回答する 5 つの質問https://docs.microsoft.com/ja-jp/azure/machine-learning/machine-learning-data-science-for-beginners-the-5-questions-data-science-answers

この他、自然言語処理や、画像の合成や超解像もある

9

識別(判別)

代表的な機械学習アルゴリズム

• サポートベクターマシーン(SVM)• クラス間マージン最大化

• ニューラルネットワーク(NN)• ニューロンをモデル化したものを層状にしたもの

• 深層学習は主にこの拡張

• ランダムフォレスト(RF)• 多数の決定木によるバギング

10

識別は、クラス(属する集団)を推定する病名を当てたり、表情から感情を判定したり

*画像はCNN一択

異常検出

• 異常系を検出する → 事故防止など

• 相関からのずれや予測値からのずれなどを利用する

11

https://goo.gl/LEpspE

←詳しくは

回帰

12

代表的な機械学習アルゴリズム

• サポートベクターマシーン(SVM)

• ニューラルネットワーク(NN)• 深層学習は主にこの拡張

• ランダムフォレスト(RF)

回帰は、数の推定に使うマンションの価格を推定したり、バスの乗降数を予測したり

クラスタリング

13

代表的な機械学習アルゴリズム

• クラスタリング(k-meansとか)

• 自己組織化マップ(SOM)• 学習後にマップが得られるので、データ間の近さが視覚化される

クラスタリングは、自動的にデータを分類する識別に近いが、こちらは教師なしであるところが異なる

強化学習

14

代表的な機械学習アルゴリズム

• DQN

シミュレーションを通して、状況に合わせて行うべき振舞いを学習する自動的にゲームをクリアするエージェントなど

自然言語処理

15

代表的な機械学習アルゴリズム

• LSTM

• 最近は畳み込みニューラルネットワーク(CNN)を使う手法もある

我々の使う口語や書き言葉(自然言語という)を機械的に扱う機械翻訳や文章生成などが該当する

教師とは?

• 分類・回帰は特徴ベクトルと正解のパターンを学習する

• 特徴ベクトルに正解を紐付けたものが教師データ

• 教師データが良ければ、良い学習ができる

16

教師データの例

• 「体重と身長から男女を識別するケース」においては、特徴量は体重と身長である。そして、体重と身長の値をベクトルとして扱ったものが特徴ベクトルである。

• 特徴ベクトルと正解を紐付けたものが教師データである

17http://homepage3.nifty.com/orangejuice/weightBunpu.gif

男 身長[cm] 体重[kg] 正解

161 60 男

165 60 男

178 61 男

152 59 女

特徴ベクトル

教師データの例

教師あり/なしで見る手法の分類

18

教師あり学習 教師なし学習

• SVM• NN• RF• LSTM

• k-means• SOM• DQN• GA

教師データが必要教師データの準備が大変・・・

教師データは不要DQNとGAには評価値が必要

機械学習の環境づくり

• 機械学習を試すには、PCやMacに必要なソフトウェアをインストールする必要があります

• 下記のリンク先を参考に環境を作ってみてください

19

https://gist.github.com/KatsuhiroMorishita/8d0a24c46484b8d5327ccef7168decca

20