3.機械学習 (順解析・逆解析)...MCMC •...

68
AI-driven materials science 3.機械学習 (順解析・逆解析) Copyright©2019-2024 Adachi-lab. All rights reserved.

Transcript of 3.機械学習 (順解析・逆解析)...MCMC •...

  • AI-driven materials science

    3.機械学習(順解析・逆解析)

    Copyright©2019-2024 Adachi-lab. All rights reserved.

  • Parameter estimation bymaximum likelihood method

    (direct analysis)最尤法によるパラメータ推定

    (順解析モデル1)

  • Advance preparation事前準備

  • Probability(density) function確率(密度)関数

    • Poisson分布(parameter:λ = 𝜇𝜇(平均) = 𝜎𝜎(分散),離散データ, ランダムな事象が単位時間に起きる回数)

    𝑝𝑝 𝑥𝑥 =λ𝑥𝑥

    𝑥𝑥!𝑒𝑒−λ

    • Gauss分布(parameter:𝜇𝜇,𝜎𝜎2,連続データ,ランダムノイズ)

    𝑝𝑝 𝑥𝑥𝑖𝑖 = 𝑁𝑁 𝜇𝜇,𝜎𝜎2 =1

    2𝜋𝜋𝜎𝜎𝑒𝑒𝑥𝑥𝑝𝑝 −

    𝑥𝑥𝑖𝑖 − 𝜇𝜇 )2

    2𝜎𝜎2

    • γ分布(parameter:θ, k,期間θごとに1回くらい起こるランダムな事情がk回起こるまでの時間の分布)

    𝑝𝑝 𝑥𝑥 = 𝑥𝑥𝑘𝑘−1𝑒𝑒−

    𝑥𝑥𝜃𝜃

    Γ 𝑘𝑘 𝜃𝜃𝑘𝑘(𝑥𝑥 ≥ 0)

  • Gauss(正規)分布の尤度𝑳𝑳(𝝁𝝁,𝝈𝝈)𝑥𝑥 = (𝑥𝑥1, 𝑥𝑥2,⋯𝑥𝑥10), 正規分布p 𝑥𝑥𝑖𝑖 =

    12𝜋𝜋𝜎𝜎2

    exp(−12

    (𝑥𝑥𝑖𝑖−𝜇𝜇)2

    𝜎𝜎2)

    同時分布:𝑃𝑃 𝑥𝑥1, 𝑥𝑥2 ⋯𝑥𝑥𝑛𝑛 = 𝑝𝑝 𝑥𝑥1 𝑝𝑝(𝑥𝑥2),⋯𝑝𝑝 𝑥𝑥𝑛𝑛

    = �𝑖𝑖=1

    𝑛𝑛1

    2𝜋𝜋𝜎𝜎2exp(−

    12

    (𝑥𝑥𝑖𝑖 − 𝜇𝜇)2

    𝜎𝜎2)

    尤度: 𝐿𝐿(𝜇𝜇,𝜎𝜎) = ∏𝑖𝑖=1𝑛𝑛1

    2𝜋𝜋𝜎𝜎2exp(−1

    2(𝑥𝑥𝑖𝑖−𝜇𝜇)2

    𝜎𝜎2)

    https://qiita.com/kenmatsu4/items/b28d1b3b3d291d0cc698より引用

    µ σ

    µ,σを固定

    𝑥𝑥1, 𝑥𝑥2 ⋯𝑥𝑥10を固定

    最尤推定値µ=10

    最尤推定値σ=3

    µ,σが”A”

    x x

    𝐿𝐿 𝜇𝜇,𝜎𝜎 →

    https://qiita.com/kenmatsu4/items/b28d1b3b3d291d0cc698

  • Gauss分布の尤度𝑳𝑳(𝝁𝝁,𝝈𝝈)https://www.yasuhisay.info/entry/20090516/1242480413を参照

    正規分布の尤度:∏𝑖𝑖=1𝑛𝑛 𝑝𝑝(𝑥𝑥𝑖𝑖|𝜇𝜇,𝜎𝜎2) = ∏𝑖𝑖=1𝑛𝑛1

    2𝜋𝜋𝜎𝜎2exp(−1

    2(𝑥𝑥𝑖𝑖−𝜇𝜇)2

    𝜎𝜎2)

    対数尤度:𝑙𝑙𝑙𝑙𝑙𝑙(∏𝑖𝑖=1𝑛𝑛 𝑝𝑝(𝑥𝑥𝑖𝑖|𝜇𝜇,𝜎𝜎2)) = 𝑙𝑙𝑙𝑙𝑙𝑙(∏𝑖𝑖=1𝑛𝑛1

    2𝜋𝜋𝜎𝜎2exp(−1

    2(𝑥𝑥𝑖𝑖−𝜇𝜇)2

    𝜎𝜎2))

    = ∑𝑖𝑖=1𝑛𝑛 𝑙𝑙𝑙𝑙𝑙𝑙(1

    2𝜋𝜋𝜎𝜎2exp(−1

    2(𝑥𝑥𝑖𝑖−𝜇𝜇)2

    𝜎𝜎2))

    = −𝑁𝑁2

    log(2𝜋𝜋) −𝑁𝑁2

    log 𝜎𝜎2 −12�

    𝑖𝑖=1

    𝑛𝑛 (𝑥𝑥𝑖𝑖 − 𝜇𝜇)2

    𝜎𝜎2

    第一項はパラメータμとσ2に関係しないので、最大化のときは無

    視できる。すなわち、 −𝑁𝑁2

    log 𝜎𝜎2 − 12∑𝑖𝑖=1𝑛𝑛

    (𝑥𝑥𝑖𝑖−𝜇𝜇)2

    𝜎𝜎2という関数を最大化するパラメータμとσ2を見つける。

    https://www.yasuhisay.info/entry/20090516/1242480413

  • Poisson分布の尤度𝑳𝑳(λ)

    ポアソン分布の尤度:𝐿𝐿(λ) = �1

    𝑛𝑛

    𝑝𝑝 𝑥𝑥 = �1

    𝑛𝑛λ𝑥𝑥

    𝑥𝑥!𝑒𝑒−λ

    ポアソン分布の対数尤度:

    𝑙𝑙𝑙𝑙𝑙𝑙𝐿𝐿 λ = �𝑖𝑖=1

    𝑛𝑛

    𝑥𝑥𝑙𝑙𝑙𝑙𝑙𝑙λ − λ − 𝑥𝑥!

    第三項はパラメータに依存しないので、

    𝑙𝑙𝑙𝑙𝑙𝑙𝐿𝐿 λ = �𝑖𝑖=1

    𝑛𝑛

    𝑥𝑥𝑙𝑙𝑙𝑙𝑙𝑙λ − λ

    を最大にするλを求める。

  • Least-square method: 最小二乗法

    𝑦𝑦𝑖𝑖 − 𝑓𝑓(𝑥𝑥𝑖𝑖)𝑦𝑦 = 𝑓𝑓 𝑥𝑥 = 𝑎𝑎𝑥𝑥 + 𝑏𝑏

    誤差関数𝐸𝐸 = ∑𝑖𝑖(𝑦𝑦𝑖𝑖 − 𝑓𝑓 𝑥𝑥𝑖𝑖 )2⇐最小にする。

    誤差関数を最小にするパラメータa,bを求める。

    x

    y

  • 誤差項が等分散正規(Gauss)分布の場合の線形回帰(一般線形モデル)Linear model: lm

    x

    y

    𝜇𝜇 𝜎𝜎

    𝑁𝑁(𝜇𝜇 = 0,𝜎𝜎2)の誤差𝜀𝜀を持つということと等価

    ガウス分布確率密度関数

    𝑝𝑝(𝑦𝑦𝑖𝑖) =1

    2𝜋𝜋𝜎𝜎𝑒𝑒𝑥𝑥𝑝𝑝 −

    𝑦𝑦𝑖𝑖 − 𝑓𝑓(𝑥𝑥𝑖𝑖 )2

    2𝜎𝜎2

    対数尤度:𝑙𝑙𝑙𝑙𝑙𝑙∏𝑖𝑖 𝑝𝑝 𝑦𝑦𝑖𝑖 = ∑𝑖𝑖 log 𝑝𝑝 𝑦𝑦𝑖𝑖= 𝐶𝐶 −

    12𝜎𝜎2

    �𝑖𝑖

    (𝑦𝑦𝑖𝑖 − 𝑓𝑓 𝑥𝑥𝑖𝑖 )2

    尤度を最大にする平均𝑓𝑓 𝑥𝑥𝑖𝑖 = 𝜇𝜇とは∑𝑖𝑖(𝑦𝑦𝑖𝑖 − 𝑓𝑓 𝑥𝑥𝑖𝑖 )2を最小にするもの。➡最小二乗法と同じ(ただし、a,bの係数(したがって、μ)を求めるだけではなく、σを求める)

    • xとy = 𝜇𝜇が線形• ばらつき(λ)は一定

    𝑦𝑦 = 𝑓𝑓 𝑥𝑥𝑖𝑖 = 𝜇𝜇 = 𝑎𝑎 + 𝑏𝑏𝑥𝑥𝑖𝑖 + 𝜀𝜀リンク関数:𝜇𝜇 = 𝛼𝛼(𝑎𝑎 + 𝑏𝑏𝑥𝑥𝑖𝑖)⇐恒等リンク関数

  • 誤差項が他の分布(例:Poisson分布)の場合の線形回帰(一般化線形モデル)

    Generalized linear model: glm

    x

    y

    λ λ

    ポアソン分布(𝜇𝜇 = λ,𝜎𝜎 = λ)

    ポアソン分布の確率密度関数

    𝑝𝑝 𝑦𝑦𝑖𝑖 =λ𝑦𝑦𝑖𝑖exp(−λ)

    𝑦𝑦𝑖𝑖!

    対数尤度:

    𝑙𝑙𝑙𝑙𝑙𝑙�𝑖𝑖

    𝑝𝑝 𝑦𝑦𝑖𝑖 = 𝑙𝑙𝑙𝑙𝑙𝑙�𝑖𝑖

    λ𝑦𝑦𝑖𝑖exp(−λ)𝑦𝑦𝑖𝑖!

    = �𝑖𝑖

    (𝑦𝑦𝑖𝑖𝑙𝑙𝑙𝑙𝑙𝑙λ −λ −�k

    𝑦𝑦i

    𝑙𝑙𝑙𝑙𝑙𝑙𝑘𝑘)

    λ𝑖𝑖 = exp 𝑎𝑎 + 𝑏𝑏𝑥𝑥𝑖𝑖 + 𝜀𝜀リンク関数:𝑙𝑙𝑙𝑙𝑙𝑙(λ𝑖𝑖) = a + 𝑏𝑏𝑥𝑥𝑖𝑖 + 𝜀𝜀⇐対数リンク関数

    • xとlog(y)が線形• xが大きくなるほど平均値=ばら

    つき(λ)が大きくなる

  • 全データを対象とした回帰式 ランダム効果+固定効果の回帰式

    全データを対象とした回帰式

    固定効果のみの回帰式(≃ランダム効果の平均値)

    固定効果:y=a+bxランダム効果(グループ1)+固定効果:y=(a+a1’)+(b+b1’)x

    a1’:グループ1の切片の変動b1’:グループ1の傾きの変動

    (一般化)線形混合モデル(Linear mixed model)http://www.lowtem.hokudai.ac.jp/plantecol/akihiro/obenkyou/GLMMexample.pdf

    http://www.lowtem.hokudai.ac.jp/plantecol/akihiro/obenkyou/GLMMexample.pdf

  • 誤差項が他の分布(例:Poisson分布)の場合の一般化加法モデル回帰

    Generalized additive model: gam

    x

    y

    λ λ

    • Xとyが非線形

    λ𝑖𝑖 = 𝑏𝑏 + 𝑓𝑓𝑖𝑖 𝑥𝑥𝑖𝑖 +𝜀𝜀, 𝑓𝑓𝑖𝑖:局所回帰関数,平滑化スプライン,Bスプライン,自然スプラインリンク関数:𝑙𝑙(λ𝑖𝑖) = 𝑙𝑙(𝑓𝑓𝑖𝑖 𝑥𝑥𝑖𝑖 )

    ポアソン分布の確立関数

    𝑝𝑝 𝑦𝑦𝑖𝑖 =λ𝑦𝑦𝑖𝑖exp(−λ)

    𝑦𝑦𝑖𝑖!

    対数尤度:

    𝑙𝑙𝑙𝑙𝑙𝑙�𝑖𝑖

    𝑝𝑝 𝑦𝑦𝑖𝑖 = 𝑙𝑙𝑙𝑙𝑙𝑙�𝑖𝑖

    λ𝑦𝑦𝑖𝑖exp(−λ)𝑦𝑦𝑖𝑖!

    = �𝑖𝑖

    (𝑦𝑦𝑖𝑖𝑙𝑙𝑙𝑙𝑙𝑙λ −λ −�k

    𝑦𝑦i

    𝑙𝑙𝑙𝑙𝑙𝑙𝑘𝑘)

  • マルコフ連鎖モンテカルロ法MCMC(Markov Chain Monte Carlo)

    (順解析モデル2)

    状態推定:〇、モデルのパラメータ―推定:〇

  • x,y:実験データ(既知)a:システムパラメータ(未知)𝒚𝒚𝒊𝒊 = 𝒂𝒂𝒙𝒙𝑖𝑖 + 𝜀𝜀𝑖𝑖 , 𝜀𝜀𝑖𝑖~𝑁𝑁(0,𝜎𝜎2)

    尤度

    𝑃𝑃 𝑎𝑎|𝑦𝑦 =𝑃𝑃 𝑦𝑦 𝛽𝛽 𝑃𝑃(𝑎𝑎)

    𝑃𝑃(𝑦𝑦)尤度関数:𝑓𝑓 𝒚𝒚𝒊𝒊 𝒂𝒂,𝒙𝒙𝑖𝑖 = ∏𝑖𝑖=1𝑛𝑛

    12𝜋𝜋𝜎𝜎2

    exp(−12

    (y−𝒂𝒂𝒙𝒙𝑖𝑖)2

    𝜎𝜎2)

    事後分布:𝑓𝑓 𝒂𝒂,𝒙𝒙𝑖𝑖|𝒚𝒚𝒊𝒊 =𝑓𝑓 𝑦𝑦 𝒂𝒂,𝜎𝜎2 𝑓𝑓(𝑎𝑎)

    𝑓𝑓(𝑦𝑦)=∏𝑖𝑖=1𝑛𝑛 1

    2𝜋𝜋𝜎𝜎2exp(−12

    (y−𝒂𝒂𝒙𝒙𝑖𝑖)2

    𝜎𝜎2) 𝑓𝑓(𝑎𝑎)

    𝑓𝑓(𝑦𝑦)

    事後分布を最大化する(MAP推定)aをMCMCで変更しながら近似的に最適値を求める。事前分布f(a)は不明であり、とりあえず正規分布(平均0、分散1など)などを仮定するため、初期のaは信頼性が低い値となるが、ベイズ更新を繰り返すうちに、真の値に近づく。

    Bayes estimationとMCMCによるガウス線形回帰

    事前分布

  • MCMC

    • マルコフ連鎖:1個前の状態によって次の状態 が決まる連鎖

    • モンテカルロ法:乱数を発生させる方法

    t-1 t t+1t-2 t+2

    システムパラメータatに対する出力データD=(x,f(x|at))が多くあると想定する。

    (wikipedia:モンテカルロ法)

    円周率πの近似計算のためにモンテカルロ法を用いた例。ランダムに点を打っていって、扇形の中に入った個数をカウントすれば近似的に扇形の面積が求まるので、そこからπが求められる。解析的には求まらない何かの数値を求める方法。

    http://ja.wikipedia.org/wiki/%E3%83%A2%E3%83%B3%E3%83%86%E3%82%AB%E3%83%AB%E3%83%AD%E6%B3%95http://d.hatena.ne.jp/keyword/%A5%E2%A5%F3%A5%C6%A5%AB%A5%EB%A5%ED%CB%A1

  • • パ ラ メ ー タ at 時 の 尤 度 P(D|at) を 計 算 す る 。 ベ イ ズ 定 理( P(at|D)∝ P(D|at)・P(at))に基づいて事後確率P(at|D)を計算する(当初はP(at)は不明なので例えば1とする)。

    • 更新したパラメータa’に対して尤度P(D|a’)を計算する。またP(at)=P(at|D)として(ベイズ更新)、事後確率P(a’|D)を計算する。

    • 更新前後の事後確率の比α=P(a’|D)/P(at|D)を求める。区間Un(0,1)での一様分布uと比較し、α>uであればat+1=a’として採用。α

  • http://visualize-mcmc.appspot.com/3_gibbs.html

    Gibbs sampler法http://visualize-mcmc.appspot.com/2_metropolis.html

    Metropolis法

    事後確率の低い方へ行くときはある確率で棄却される

    θ1

    θ 2

    http://visualize-mcmc.appspot.com/3_gibbs.htmlhttp://visualize-mcmc.appspot.com/2_metropolis.html

  • Advantage of MCMC

    • 多峰型データにも対応(最尤法は局所解に陥ることがある)• 効率が良い最適値探索(最尤法は全探索)

    Excoffier and Heckel. 2006. Nature Review Genetics.より引用。

  • Artificial neural network(ANN)ニューラルネットワーク法

    (順解析モデル3)

  • input layer

    hidden layer

    output layer

    https://www.sist.ac.jp/~suganuma/kougi/other_lecture/SE/net/net.htm

    bi: biaswi: weight-coefficientf(SI): tanh(Si) or 1/(1+e-aSi)

    ANN

    the connection strength between unit j and unit i

    material genome (candidate of descriptor)

    20

  • 21

    H1 HiH2

    y

    出力データ

    出力層

    入力層

    入力データ

    公称粒径、硬度、結晶方位、粒界性格・・

    中間層

    X1 X2 XjX3

    力学的特性

    Linear, log, Exp, tanh 正規化

    hi = �j

    (wijxj + bi)

    𝐻𝐻 = tanh(ℎ)

    𝐻𝐻 =1

    1 − 𝑒𝑒−ℎ

    out = bi + �wxi + �wHi𝑦𝑦 =

    11 + 𝑒𝑒−𝑜𝑜𝑜𝑜𝑜𝑜

    実スケールに逆変換

    w:重み

    w

    ANN

  • Evaluation of ANN model

    学習回数

    相関

    係数

    学習回数

    相関

    係数

    ・モデルが悪い(勉強不足)・入力変数不足(過学習)

    (汎化能が低い)

    もう一つのモデル精度の指標中間層数や中間層のノード数: 多い 複雑なモデル

    少ない シンプルなモデル

    ・良い学習

    学習データ

    交叉検証データ

    学習データ

    交叉検証データ

  • カスケードコリレーション法

    逆誤差伝播法

    隠れ層数の設定

    自動 手動

    層間の結合 全結合上下の層間との

    み結合

    Optimization of weight coefficient

    ω𝑖𝑖𝑜𝑜+1 = ω𝑖𝑖𝑜𝑜 + ε ⁄𝜕𝜕𝐸𝐸 𝜕𝜕𝜔𝜔𝑖𝑖最急降下法

    E:誤差関数ε:学習率

    𝐸𝐸𝐷𝐷 𝝎𝝎 =12�

    𝑚𝑚

    ( y 𝑥𝑥𝑚𝑚;𝝎𝝎 − 𝑡𝑡𝑚𝑚)2

    23

  • 𝑥𝑥~𝑁𝑁 0,1 ,𝑦𝑦~𝑁𝑁 0,1 , 𝜀𝜀~1 ∗ 𝑁𝑁(0,1)𝑧𝑧 = 5 ∗ 𝑥𝑥3 + 10 ∗ 𝑦𝑦2 + 10 + 𝜀𝜀

    Fig.4

  • Accuracy(𝜀𝜀~1 ∗ 𝑁𝑁(0,1))glm, gam, MCMC, ANN

  • Accuracy(𝜀𝜀~10 ∗ 𝑁𝑁(0,1))glm, gam, MCMC, ANN

  • Accuracy(𝜀𝜀~100 ∗ 𝑁𝑁(0,1))glm, gam, MCMC, ANN

  • Accuracy(𝜀𝜀~1000 ∗ 𝑁𝑁(0,1))glm, gam, MCMC, ANN

  • Accuracy(𝜀𝜀~10000 ∗ 𝑁𝑁(0,1))glm, gam, MCMC, ANN

  • Variation of CC with noise

  • y

    xjy

    xj

    y

    xj

    ←data fitting smoothing→

    Overlearning:過学習

    Over-fitting

    How to do appropriate fitting?1. Screening a descriptor.2. Introducing “Penalty loss-function”.

    Poor fitting

    31

  • input layer

    interlayer

    output layer

    material genome(candidate of

    descriptor)

    Screening of discriptors(記述子)

    How to screen?Lasso回帰データ変換・変数選択感度解析ベイズ推定

    32

  • y= tanh(∑𝑗𝑗 𝜔𝜔𝑖𝑖𝑗𝑗𝑥𝑥𝑗𝑗 + 𝜃𝜃𝑖𝑖)

    M 𝛚𝛚 = β𝐸𝐸𝐷𝐷 + �𝑐𝑐

    𝛼𝛼𝑐𝑐𝐸𝐸𝜔𝜔 𝑐𝑐誤差関数

    →data-fitting正規化項

    →smoothing

    inputhidden layer

    ωij: weight-coefficient

    θi: bias

    optimizedペナルティ損失関数→最小化

    Penalty loss-function:ペナルティー損失関数

    y

    xj

    y

    xj

    ←data fitting(increase hidden layer) smoothing(decrease hidden layer)→

    𝛼𝛼𝑐𝑐 :重み減衰率係数

    𝛽𝛽 = ⁄1 𝜎𝜎2𝑑𝑑𝑎𝑎𝑜𝑜𝑎𝑎 𝛼𝛼𝑐𝑐 = ⁄1 𝜎𝜎2𝜔𝜔

    𝐸𝐸𝐷𝐷 𝝎𝝎 =12�

    𝑚𝑚

    ( y 𝑥𝑥𝑚𝑚;𝝎𝝎 − 𝑡𝑡𝑚𝑚)2 𝐸𝐸𝜔𝜔 𝑐𝑐 𝝎𝝎 =12�

    𝑖𝑖

    𝜔𝜔𝑖𝑖2

    y

    xj 33

  • 1.Variable selection変数選択

    2.Dimension reduction次数削減2.1 Principal component analysis

    主成分分析2.2 Autoencoder

    オートエンコーダー

    Reduction of explanatory variables入力変数の削減

  • 赤池情報量規準(AIC)

    𝐴𝐴𝐴𝐴𝐶𝐶 = −2𝑙𝑙𝑙𝑙𝐿𝐿 + 2𝑘𝑘

    L:最大尤度k:説明変数の数

    できるだけAICが小さくなる目的変数の組み合わせがよい。

  • ベイズ情報量規準(BIC)できるだけBICが小さくなる目的変数の組み合わせがよい。

    𝐵𝐵𝐴𝐴𝐶𝐶 = −2𝑙𝑙𝑙𝑙𝐿𝐿 + 𝑘𝑘 ∗ 𝑙𝑙𝑙𝑙(𝑙𝑙)

    L:最大尤度k:説明変数の数n:データ数

    一般的にBICの方がAICよりも入力変数をより選択する傾向にある。

  • λ

    Wei

    ght c

    oeffi

    cien

    t

    0

    w1

    w3

    w2

    w4

    w5

    w6

    w7

    Lasso回帰

    α=1だとLASSO、α=0だとリッジ回帰、その他だとElastic Net

    *ただし、説明変数は標準化(平均値がゼロ、標準偏差1)、目的変数は平均値をゼロにして解析を行う必要がある。

    37

    LASSO Ridge

    右☞を満足する重み係数βを見つける。

  • MSEが最小 MSE+1σ

    Lasso回帰

  • Data conversion and variable selectionデータ変換・変数選択

    Data transformation ax log(x) log(log(x)) exp(x) exp(exp(x)) x2 x4 x1/2 x1/4 1/x 1/x2 1/x4 1/x1/2 1/x1/4 tanh(x) ln(x(/1-x))

    Scale data only ✓Superficial ✓ ✓ ✓ ✓ ✓ ✓

    Moderate(default) ✓ ✓ ✓ ✓ ✓ ✓ ✓ ✓ ✓ ✓ ✓Comprehensive ✓ ✓ ✓ ✓ ✓ ✓ ✓ ✓ ✓ ✓ ✓ ✓ ✓ ✓ ✓ ✓

    Exhaustive ✓ ✓ ✓ ✓ ✓ ✓ ✓ ✓ ✓ ✓ ✓ ✓ ✓ ✓ ✓ ✓

    どのデータ変換も採用されなかった入力変数は候補から削除

    39

    Sheet1

    Data transformationaxlog(x)log(log(x))exp(x)exp(exp(x))x2x4x1/2x1/41/x1/x21/x41/x1/21/x1/4tanh(x)ln(x(/1-x))

    Scale data only✓

    Superficial✓✓✓✓✓✓

    Moderate(default)✓✓✓✓✓✓✓✓✓✓✓

    Comprehensive✓✓✓✓✓✓✓✓✓✓✓✓✓✓✓✓

    Exhaustive✓✓✓✓✓✓✓✓✓✓✓✓✓✓✓✓

  • -10

    -5

    0

    5

    10

    15

    20

    25

    30

    Hv(mtrx) Hv(2nd) VM(2nd) f h v true strain

    0

    500

    1000

    1500

    2000

    2500

    3000

    Hv(mtrx) Hv(2nd) VM(2nd) f h v true strain

    0

    500

    1000

    1500

    2000

    2500

    Hv(mtrx) Hv(2nd) VM(2nd) f h v true strain

    (a)重み係数の平均値 (b)重み係数の平均値2

    (c)分散

    0

    1

    2

    3

    4

    5

    6

    7

    8

    9

    10

    Hv(mtrx) Hv(2nd) VM(2nd) f h v true strain

    (d)重み係数の平均値2/分散

    Aver

    age

    Aver

    age2

    Varia

    nce

    Aver

    age2

    /var

    ianc

    e

    Sensitivity analysis感度解析(その1):感度係数法

    40

  • 41

    感度解析(その2):荷重結合法

    1

    2

    3

    1

    m2

    𝑆𝑆𝑖𝑖ℎ =𝑤𝑤𝑖𝑖ℎ

    ∑𝑟𝑟=1𝑛𝑛 𝑤𝑤𝑟𝑟ℎ,ℎ = 1,2,⋯ ,ℎ

    𝑆𝑆11 =𝑤𝑤11

    𝑤𝑤11| + |𝑤𝑤21| + |𝑤𝑤31

    𝑆𝑆12 =𝑤𝑤12

    𝑤𝑤12| + |𝑤𝑤22| + 𝑤𝑤32

    𝑡𝑡(𝑖𝑖)𝑜𝑜 = �ℎ=1

    𝑆𝑆𝑖𝑖ℎ × 𝑤𝑤ℎ𝑜𝑜

    𝑡𝑡 1 𝑚𝑚 = 𝑆𝑆11 × 𝑤𝑤1𝑚𝑚 + (𝑆𝑆12 × 𝑤𝑤2𝑚𝑚 )

    隠れニューロンhへの,入力ニューロンiの影響度

    hi

    出力ニューロンoへの,入力ニューロンiの影響度

    斎藤進ら,八戸工業高等専門学校紀要,第37(2002)

    on h

  • 42

    解析モデル(Predict)名前 隠れ 1 隠れ 2 隠れ 3 隠れ 4 隠れ 5 隠れ 6 隠れ 7 出力 1

    伝達関数 tanh tanh tanh tanh tanh tanh tanh sigmoid

    バイアス -1.43635 1.288926 2.380998 -0.07985 -0.02197 -1.6645 1.811679 -0.06878

    Hv(mtrx) -0.34809 -0.32266 -1.88411 0.009984 0.013884 0.709865 -0.0843 0

    Hv(2nd) -0.50594 -1.77113 -3.79966 -0.1067 0.047351 0.166602 0.126359 0

    VM(2nd) -2.05674 -1.81952 0.753176 -0.10039 -0.00758 -0.69484 0.592065 0

    d -0.99187 0.440823 0.513571 -0.2494 -0.03152 -0.85466 -1.7575 0

    f 0.5718 0.701315 -0.48554 -0.30612 0.080055 0.67677 -0.10406 0

    h 1.338627 -1.25368 0.086492 0.547579 -0.03199 1.080468 0.495943 0

    v 0.365254 -0.20721 -1.74512 -0.42091 -0.08326 -1.5093 -1.37254 0

    True strain -3.80666 -1.89667 3.330508 0.207577 -0.06113 3.219972 -3.7536 0

    隠れ 1 0 0 0 0 0 0 0 -0.87849

    隠れ 2 0 0 0 0 0 0 0 -1.42672

    隠れ 3 0 0 0 0 0 0 0 0.373005

    隠れ 4 0 0 0 0 0 0 0 -0.84695

    隠れ 5 0 0 0 0 0 0 0 2.387246

    隠れ 6 0 0 0 0 0 0 0 -1.24936

    隠れ 7 0 0 0 0 0 0 0 -1.17828

    1 2 3 5 6 84 7

    1 2 3 5 64 7

    荷重結合法で目的変数に対する説明変数の感度値を調査した

  • x

    y

    射影したデータの分散が最大となるような軸を探す

    PCA and eigen value & vector 1/3

    共分散

    𝑆𝑆𝑥𝑥𝑦𝑦 =1𝑙𝑙𝑥𝑥 − �̅�𝑥 𝑇𝑇(𝑦𝑦 − �𝑦𝑦)

    分散共分散行列(標準化したものが相関行列)

    𝑆𝑆 =𝑆𝑆𝑥𝑥𝑥𝑥 𝑆𝑆𝑥𝑥𝑦𝑦𝑆𝑆𝑥𝑥𝑦𝑦 𝑆𝑆𝑦𝑦𝑦𝑦

    𝑆𝑆𝑥𝑥𝑥𝑥 𝑆𝑆𝑥𝑥𝑦𝑦𝑆𝑆𝑥𝑥𝑦𝑦 𝑆𝑆𝑦𝑦𝑦𝑦

    𝑎𝑎1𝑎𝑎2 = λ

    𝑎𝑎1𝑎𝑎2

    主軸:固有ベクトル𝑎𝑎1𝑎𝑎2

    係数:λ制約条件付き最大化問題は,Lagrangeの未定乗数法によって解くことができる。

    主成分分析と固有値・固有ベクトル

  • https://qiita.com/kenmatsu4/items/2a8573e3c878fc2da306より引用

    PCA and eigen value & vector 2/3

    固有値と固有ベクトルとは?

    Ax=λx

    行列Aで変換しても、回転せず、単に長さだけが変わるような引き伸ばしのみを行う、Aとxのこと。

    https://qiita.com/kenmatsu4/items/2a8573e3c878fc2da306

  • https://qiita.com/kenmatsu4/items/2a8573e3c878fc2da306より引用

    PCA and eigen value & vector 3/3

    二つの固有値:λ1 =1.85078, λ1 =-1.35078二つの固有ベクトル:x1=(0.98905m-0.14758), x2=(-0.28597,0.95824)

    https://qiita.com/kenmatsu4/items/2a8573e3c878fc2da306

  • Autoencoder

    A

    B

    C

    D

    E

    F

    A

    B

    C

    D

    E

    F

    Input OutputHidden

    Transfer functionsigmoid

    tanh

    Compressed features

  • Recurrent neural network for time series data

    tt-1t-2

    Input

    Hidden

    Output

    Only short term memory (RNN)

    tt-1t-2

    Input

    Hidden

    Output

    Output gate

    Input gateLong short term memory(LSTM)

  • x1

  • 𝑃𝑃 𝐴𝐴|𝐵𝐵 =𝑃𝑃 𝐵𝐵 𝐴𝐴 𝑃𝑃(𝐴𝐴)

    𝑃𝑃(𝐵𝐵)B is caused by either A1 or A2.Which is a potential reason?

    𝐴𝐴𝑓𝑓 𝑃𝑃 𝐴𝐴1|𝐵𝐵 >𝑃𝑃 𝐴𝐴2|𝐵𝐵 , then A1 isthe likely reason.

    Bayes estimation: ベイズ推定事後確率 事前確率

    尤度

    Screen a descriptor.

    A

    B

    A=a1B=b1B=b2A=a2

    49

  • Bayes estimation確率の乗法定理と加法定理

    50

  • Bayes estimation

    51

  • Bayesian networkリンク未作成

    52

  • リンク作成𝑃𝑃 天気 = 晴 交通事故 = 事故

    = 𝑷𝑷 事故 晴 𝑃𝑃 晴 /𝑷𝑷(事故)

    =={𝑷𝑷 事故 晴, 夜 𝑷𝑷 夜 +𝑷𝑷 事故 晴, 昼 𝑷𝑷(昼)}𝑃𝑃 晴∑

    天気,時間帯𝑷𝑷(事故 天気,時間帯 𝑷𝑷 天気 𝑷𝑷(時間帯)

    乗法定理:𝐴𝐴と𝐵𝐵の同時確率𝑃𝑃 𝐴𝐴 ∩ 𝐵𝐵 = 𝑃𝑃(𝐵𝐵|𝐴𝐴) � 𝑃𝑃(𝐴𝐴)

    *事前確率(リンクする前の確率)ではないことに注意

    リンク前

    Bayesian network

    53

  • ベイズ定理から、𝑃𝑃 天気 = 晴 交通事故 = 事故

    =𝑷𝑷 事故 晴 𝑃𝑃 晴

    𝑷𝑷 事故=

    {𝑷𝑷 事故 晴, 夜 𝑷𝑷 夜 +𝑷𝑷 事故 晴, 昼 𝑷𝑷(昼)}𝑃𝑃 晴∑

    天気,時間帯𝑷𝑷(事故 天気,時間帯 𝑷𝑷 天気 𝑷𝑷(時間帯)

    ={0.2x0.7586+0x0.2414}x0.5172/0.1867=0.4204

    エビデンスを与える→事故が起こった時に・・・

    Bayesian network

    54

  • 表 表 裏ベルヌーイ分布

    「表」が出る確率θ

    𝑃𝑃 𝜃𝜃 表1回目 =𝑃𝑃 表1回目 𝜃𝜃 ×𝑃𝑃(𝜃𝜃)

    𝑃𝑃(表1回目)=

    𝑃𝑃 表1回目 𝜃𝜃 ×1𝑘𝑘

    = 𝛼𝛼𝑃𝑃 表1回目 𝜃𝜃 =𝛼𝛼𝜃𝜃=2𝜃𝜃

    ベイズ更新1

    𝑃𝑃 𝜃𝜃 表2回目 =𝑃𝑃 表2回目 𝜃𝜃 ×𝑃𝑃 𝜃𝜃 表1回目

    𝑃𝑃(表2回目)=

    𝑃𝑃 表2回目 𝜃𝜃 ×2𝜃𝜃𝑗𝑗

    = 𝛽𝛽𝜃𝜃2=3𝜃𝜃2

    ベイズ更新2

    𝑃𝑃 𝜃𝜃 裏3回目 =𝑃𝑃 裏3回目 𝜃𝜃 × 𝑃𝑃 𝜃𝜃 表2回目

    𝑃𝑃(裏3回目)=

    (1 − 𝜃𝜃) × 3𝜃𝜃2

    𝑖𝑖= 𝛾𝛾(1 − 𝜃𝜃)𝜃𝜃2= 12(1 − 𝜃𝜃)𝜃𝜃2

    事前確率:理由不十分の原則により、仮定

    𝑃𝑃 𝜃𝜃 表1回目 積分面積が1になる条件より

    𝑃𝑃 𝜃𝜃 表2回目 積分面積が1になる条件より

    𝑃𝑃 𝜃𝜃 表3回目 積分面積が1になる条件より

    1回目

    2回目

    3回目

    P(θ|

    表)Bayesian update

    55

  • 101g

    103g

    99g

    Gauss(正規)分布

    𝑃𝑃 𝜇𝜇 101 =𝑃𝑃(101|𝜇𝜇) × 𝑃𝑃(𝜇𝜇)

    𝑃𝑃(101)=𝑓𝑓(101) × 1

    𝑘𝑘=

    1𝑘𝑘

    ×1

    2𝜋𝜋 × 𝜎𝜎𝑒𝑒−

    (101−𝜇𝜇)22×12 =

    12𝜋𝜋 × 1

    𝑒𝑒−(101−𝜇𝜇)22×12

    ベイズ更新1

    𝑃𝑃 𝜇𝜇 103 =𝑃𝑃(103|𝜇𝜇) × 𝑃𝑃(𝜇𝜇|101)

    𝑃𝑃(103) = 𝛼𝛼 × 𝑒𝑒−(103−𝜇𝜇)

    2

    2×12 −(101−𝜇𝜇)22×12

    ベイズ更新2

    𝑃𝑃 𝜇𝜇 99 =𝑃𝑃(99|𝜇𝜇) × 𝑃𝑃(𝜇𝜇|103)

    𝑃𝑃(99) = 𝛼𝛼× 𝑒𝑒−

    (103−𝜇𝜇)22×12 −

    (101−𝜇𝜇)22×12 −

    (99−𝜇𝜇)22×12 =

    1

    2𝜋𝜋 × 13

    × 𝑒𝑒− 𝜇𝜇−101

    2

    2×13

    事前確率:理由不十分の原則により、仮定

    𝑃𝑃 𝜇𝜇 101 積分面積が1になる条件より

    1回目

    2回目

    3回目

    𝑓𝑓 𝑥𝑥 =1

    2𝜋𝜋 × 𝜎𝜎𝑒𝑒−

    𝑥𝑥−𝜇𝜇 22𝜎𝜎2

    μσ=1と仮定

    𝑃𝑃 𝜇𝜇 99 積分面積が1になる条件より

    56

  • Optimization最適化問題

    遺伝的アルゴリズム粒子群最適化

    ベイズ的最適化

    目的変数やパラメータを最適化するアルゴリズム

  • 0 1 1 0 0 1 0

    1 0 1 1 0 0 0

    0 0 1 1 1 1 0

    0 0 0 0 0 1 1

    0 0 1 0 1 1 0

    1 0 1 1 0 0 0

    0 0 0 0 0 1 1

    0 1 1 1 1 1 0

    0 0 1 0 0 1 0

    0 1 1 0 0 1 0

    0 0 1 1 1 1 0

    0 0 1 0 1 1 0 0 0 1 1 1 1 0

    選択(淘汰、再生)

    一点交叉(多点交差、一様交叉もある)

    突然変異

    Genetic algorism(GA): 遺伝的アルゴリズム

    ①②③④⑤⑥⑦⑧

    組織特徴値

    58

    小数点まで扱う場合は、実数値遺伝的アルゴリズム(Real-coded GA:RGA)がある。

  • Genetic algorithmPopulation Crossover:0.8

    Mutation:0.15

    ~5min

    ANN

  • Particle Swarm Optimization(PSO):粒子群最適化

    Hey, I found sugar!!

    Everybody,come on!!

    𝑥𝑥 ← 𝑥𝑥 + 𝑣𝑣𝑣𝑣 ← 𝑤𝑤𝑣𝑣 + 𝑐𝑐1𝑟𝑟1 �𝑥𝑥 − 𝑥𝑥 + 𝑐𝑐2𝑟𝑟2 �𝑥𝑥𝑔𝑔 − 𝑥𝑥c1,c2:群のうちで良い位置に向かう粒子の割合r1,r2:0~1の乱数�𝑥𝑥: その粒子がこれまでに発見したベストな位置�𝑥𝑥𝑔𝑔:群全体でこれまでに発見したベストな位置

    parameter1 parameter1

    para

    met

    er2

    para

    met

    er2

  • 平均値μ分散σ2

    μ+σ活用 探索

    ●N回目までの実験データ〇N+1回目の実験実施候補★目標値

    入力𝑥𝑥

    ブラックボックス関数(未知)

    Bayesian optimization

    RBFカーネル

    𝑘𝑘(𝑥𝑥𝑖𝑖 , 𝑥𝑥𝑗𝑗) = 𝜃𝜃12exp(−𝑥𝑥𝑖𝑖 − 𝑥𝑥𝑗𝑗 2

    2𝜃𝜃22)

    データはガウス過程に従うと仮定する。

    5 10 20

    実験計画やシステムパラメータの最適解をできるだけ少ない探索で求める。

    61Xi

    xi,xjが近い➡yi,yjも近い

    ランダムにxを振って最高値f(x)を探索するよりも、観測点●を参考にして次の候補となるxを探索した方が効率的

    出力𝑓𝑓𝑥𝑥

  • μ+σ活用 探索

    ●N+1回目までの実験データ〇N+2回目の実験実施候補★目標値

    出力𝑓𝑓𝑥𝑥

    入力𝑥𝑥5 10 20

    62

    RBFカーネル

    𝑘𝑘(𝑥𝑥𝑖𝑖 , 𝑥𝑥𝑗𝑗) = 𝜃𝜃12exp(−𝑥𝑥𝑖𝑖 − 𝑥𝑥𝑗𝑗 2

    2𝜃𝜃22)

    xi,xjが近い➡yi,yjも近い

    Bayesian optimization (fundamental)

  • Black box関数:y=x3-3x2+4+ε, ノイズε ~N(0,ρ2), ρ=0 ∴y~N(µ,σ2)

    UCB戦略の一例

  • 𝑦𝑦𝑜𝑜 = 𝑓𝑓 𝑥𝑥 + 𝜖𝜖, 𝜖𝜖~𝑁𝑁 0,𝜌𝜌2 ,𝑦𝑦𝑜𝑜~𝑁𝑁 𝜇𝜇 𝑥𝑥 ,𝜎𝜎2 𝑥𝑥: 𝑦𝑦𝑜𝑜の事前分布がガウス分布、即ちノイズ(分散σ2)を含むと仮定𝜇𝜇𝑜𝑜(𝑥𝑥𝑜𝑜+1) = 𝒌𝒌𝑻𝑻(𝑲𝑲 + 𝜌𝜌2𝑰𝑰)−1𝒚𝒚𝟏𝟏: 𝒕𝒕𝒚𝒚𝟏𝟏,𝒕𝒕 = [𝑦𝑦1,⋯ ,𝑦𝑦𝑜𝑜]𝑇𝑇

    𝑲𝑲: 𝑘𝑘(𝑥𝑥𝑖𝑖 , 𝑥𝑥𝑗𝑗) = 𝜃𝜃12exp(−𝑥𝑥𝑖𝑖−𝑥𝑥𝑗𝑗 2

    2𝜃𝜃22)をij要素とするカーネルのグラ

    ム行列(θ1,θ2のハイパーパラメータの最適化も大切)

    例:𝑲𝑲 =𝑘𝑘(𝑥𝑥1, 𝑥𝑥1) 𝑘𝑘(𝑥𝑥1, 𝑥𝑥2) 𝑘𝑘(𝑥𝑥1, 𝑥𝑥3)𝑘𝑘(𝑥𝑥2, 𝑥𝑥1) 𝑘𝑘(𝑥𝑥2, 𝑥𝑥2) 𝑘𝑘(𝑥𝑥2, 𝑥𝑥3)𝑘𝑘(𝑥𝑥3, 𝑥𝑥1) 𝑘𝑘(𝑥𝑥3, 𝑥𝑥2) 𝑘𝑘(𝑥𝑥3, 𝑥𝑥3)

    𝒌𝒌 = [𝑘𝑘 𝑥𝑥𝑜𝑜+1, 𝑥𝑥1 ,⋯ ,𝑘𝑘 𝑥𝑥𝑜𝑜+1, 𝑥𝑥𝑜𝑜 ]𝑇𝑇𝜎𝜎2𝑡𝑡 𝑥𝑥𝑜𝑜+1 = 𝑘𝑘 𝑥𝑥𝑜𝑜+1, 𝑥𝑥𝑜𝑜+1 − 𝒌𝒌𝑇𝑇(𝑲𝑲 + 𝜌𝜌2𝑰𝑰)−1𝒌𝒌

    x

    yy1

    y2y3

    x1 x2 x3MAX 1(2点が極めて近い時), MIN 0(2点が離れている時)

    Eric Brochu, et.al, arXiv:1012.2599v1ノイズ Bayesian optimization(実際の計算)

  • Acquisition function of Bayesian optimizationベイズ的最適化における獲得関数

    評価関数(パラメータ決定の基準となる関数で、最大化する条件を見つける)

    • PI戦略(Probability of improvement,改善確率)現在の最大値を超える確率が最も高い点を次の観測候補

    • EI戦略(Expected improvement,期待改善値)現在の最大値と評価値の差の期待値が最も大きくなる点を次の観測候補

    • UCB戦略(Upper confidence bound,上側信頼限界)評価値の信頼区間の上側が最も高い点𝑥𝑥𝑜𝑜+1を次の観測候補

    𝑥𝑥𝑜𝑜+1 = arg max{𝜇𝜇𝑜𝑜 𝑥𝑥 + 𝛽𝛽𝜎𝜎𝑜𝑜(𝑥𝑥)}

  • https://book.mynavi.jp/manatee/detail/id=59393より図面を引用させていただいたグ

    リッ

    ドサ

    ーチ

    ベイ

    ズ的

    最適

    化Optimization of tow parameters by BO

    https://book.mynavi.jp/manatee/detail/id=59393

  • 色、大きさ:目的値

    Experimental design by BO inverse analysis ベイズ的最適化を利用した逆解析による実験計画

    初期データ20点 初期データ20点+探索結果50点

    識別器:nnet

  • 68

    Bayesian optimization UCB戦略ANN

    60min

    HvF,HvM,VMM,h,v,e

    f

    Output

    スライド番号 1スライド番号 2スライド番号 3スライド番号 4スライド番号 5スライド番号 6スライド番号 7スライド番号 8スライド番号 9スライド番号 10スライド番号 11スライド番号 12スライド番号 13スライド番号 14スライド番号 15スライド番号 16スライド番号 17スライド番号 18スライド番号 19スライド番号 20スライド番号 21スライド番号 22スライド番号 23スライド番号 24スライド番号 25スライド番号 26スライド番号 27スライド番号 28スライド番号 29スライド番号 30スライド番号 31スライド番号 32スライド番号 33スライド番号 34スライド番号 35スライド番号 36スライド番号 37スライド番号 38スライド番号 39スライド番号 40感度解析(その2):荷重結合法解析モデル(Predict)スライド番号 43スライド番号 44スライド番号 45スライド番号 46スライド番号 47スライド番号 48スライド番号 49スライド番号 50スライド番号 51スライド番号 52スライド番号 53スライド番号 54スライド番号 55スライド番号 56スライド番号 57スライド番号 58スライド番号 59スライド番号 60スライド番号 61スライド番号 62スライド番号 63スライド番号 64スライド番号 65スライド番号 66スライド番号 67スライド番号 68