ディープニューラルネットと視覚野 -...
Transcript of ディープニューラルネットと視覚野 -...
896-899_CN0828責(念)B杉.mcd Page 2 16/07/14 14:18 v6.10
0289-0585/20/¥90/頁/JCOPY896
の画像データについて行う計算は,厳密には内積であり,Sim-
ple 1 層の細胞の 2 次元配列の 1 点に対応する出力を与える.
同じ受容野の形(方位と空間周波数)を持つ細胞で視野空間を敷
き詰めて,Simple 1 層のすべての点についての出力(画像にな
る)を求める計算がフィルタリングで,これは畳み込み積分
(convolution)である.これが CNN の名前の由来である.フィ
ルタリングの機能は,方位選択性などの刺激選択性の創成をも
たらし,特徴抽出の一過程であると考えられる.
プーリングは,前段層の多数の細胞からの入力を集める点で
はフィルタリングと同じだが,単にプラスの結合係数で集める
だけである.このため,プーリングによって新たな刺激選択性
が生まれることは考え難い.むしろ,多くの細胞の反応を集め
るために,一般的には逆に選択性が弱まる(最近新たに発見し
た例外を後述する).従来,神経科学の多くの研究が,シャープ
な刺激選択性を得るためのフィルタリング機構に重点を置く傾
向が強かったのは,おそらく「高い選択性=面白い,選択性の喪
失=つまらない」という誤った先入観のためだろう.しかし,
プーリングも,ディープラーニングニューラルネットでは重要
な処理過程であり,動物の神経回路でもそうである可能性が高
い.したがって,ネット構造の理解には,フィルタリングとプー
リングの両者を統合的な視点から実際の神経回路で同時に研究
することが必要である.
上記のように,従来あまり注目されてこなかったプーリング
であるが,その一つの有用な機能として従来から知られている
のは,「位置不変性」の生成である.例えば,「顔細胞」が視野の
様々な場所において,位置不変的に特定の顔に反応するような
はじめに
近年,統計的機械学習の技術が高度に進歩し,ディープ
ニューラルネットの成功でニューラルネットへの関心が再
び高まっている.物体や顔の認識,自然言語解析などの分
野で他の技術を圧倒する性能を示し,すでに実際の応用に
も組み込まれつつある.人工ニューラルネットは,生理学
的実験が主要な手法である神経科学の分野でも注目されて
おり,単に物体や顔認識という最終目的の機能だけでなく,
高度な性能がどのように実現されているのかという観点か
ら,内部の局所回路や個々の細胞の特性に興味を持ち,生
理学的実験研究への示唆を求める神経科学1)の研究者も増
えてきた.本稿では,これらの中でも視覚神経系の階層構
造とよく似た構造を持つコンボリューショナルニューラル
ネット(CNN)について,神経科学の視点から考察する.も
ちろん,CNN の原型は,福島(1980)の Neocognitron2)であ
り,福島自身が,Hubel & Wiesel の単純型・複雑型細胞3)
と,その後に続く高次視覚系の知見に触発されて考案した
と言う通り,もともと関係は深い.
コンボリューショナルニューラルネット(CNN)
現在の代表的な CNN の構造は,図 1 のように,フィル
タリングとプーリングのペアからなる層構造が何回も多層
的に繰り返される形を持つ4).図 1 では,フィルタリング
とプーリングがそれぞれ 2 回まで示してあるが,それがさ
らに繰り返される.この構造は,実際の動物の視覚系でも,
初期視覚野においては同様であり,以下の疑問が生ずる.
こうしたペア繰り返し構造は,動物の高次視覚系でも必然
なのだろうか.違うとすれば何が異なるのだろうか.われ
われが記録する細胞は多層構造のどの位置にあるのだろう
か.
フィルタリングは,前段層の多数の細胞からの入力をプ
ラスやマイナスの重み(シナプス結合の強さ;マイナスは
介在ニューロン経由)で加算する計算である.最も有名な
例が,画像から来る入力を ON 領域(+)と OFF 領域(−)
として統合する一次視覚野(V1)の単純型細胞(初段の Sim-
ple 1 層の細胞)である.1 個の細胞の受容野がその範囲内
大澤 五住
ディープニューラルネットと視覚野
パターン識別のモデルと脳
おおざわ いずみ 大阪大学大学院生命機能研究科脳神経工学講座
視覚神経科学
図 1
コンボリューショナルニューラルネット(CNN)の構造.最初の
4層を示す.
896-899_CN0828責(念)B杉.mcd Page 3 16/07/14 14:18 v6.10
897
性質は,位置依存的な顔細胞を多数プーリングすることで原理
的には実現できる(効率的ではないが).
�.CNNの初期層としての単純型細胞と複雑型細胞
単純型細胞から複雑型細胞への数理モデルとして最初のもの
は,Adelson & Bergenの「運動エネルギーモデル」5)である.ま
た,運動エネルギーモデルにヒントを得て,両眼版として筆者
が考案した図 2 A の「視差エネルギーモデル」6,7)が続く.両者
とも,4 個の単純型細胞の出力を,半波整流後に 2 乗し加算し
た信号を複雑型細胞の出力とするモデルである.これらのモデ
ルに従って構築された多くの単純型細胞を敷き詰めた層が
CNN のフィルタリング層にあたり,対応する複雑型細胞を配
列した層がプーリング層である.「視差エネルギーモデル」の受
容野は両眼立体視に密接に関連しており,図 2 B に示すように,
動物の前に存在する 3次元空間に位置する.上下左右の位置だ
けでなく,奥行き方向にも強い選択性を持つ細胞の特性を良く
近似するモデルである.このように,最初のフィルタリング層
とプーリング層については,人工の CNN と実際の動物の視覚
系は非常に良く似ていると言えよう.
さらに,実際の脳内に存在するプーリングについては,エネ
ルギーモデル 2種が規定する 4 個の単純型細胞ではなく,もっ
と多くの細胞がプーリングされている8).図 3 は,(X,Y)空間
におけるプーリングの様子と,3 次元両眼受容野に対するプー
リングの効果を示す.奥行き方向(Z 軸)の選択性はそのままに
しながら,3次元両眼受容野の大きさが拡大される.
�.CNN と視覚系の神経ネットワークの比較
現在の主流となっている CNN の内部構造の詳細と,実際の
哺乳類の視覚系の構成を比較した時に,いくつか未知あるいは
異なる点が見受けられる.第一に,必ずフィルタリングとプー
リングのペアが何段も直列接続された形になっているかどうか
である.最初の段階である V1 については,フィルタリングを
行う単純型細胞をプーリングにより統合して複雑型細胞ができ
あがることは,実際の状況とよく整合性がある.しかし高次の
視覚野へ行くほど,ある細胞がフィルタリングとプーリングの
どちらの機能を果たしているのかよくわからなくなる.一つに
は,これは細胞の反応特性の同定が高次の細胞ほど困難である
ことの反映だろうが,事実として実際の脳の階層構造において
フィルタリング層とプーリング層とが交互に存在するかどうか
については,確証は存在しない.実際,最近の一部の CNN で
は,大部分のプーリング層を取り除き,フィルタリング層間に
直接結合を定義した「全コンボリューショナルネット(all con-
volutional net)」と呼ばれる構造のものが提案されている9,10).
第二に異なる点は,プーリングのタイプである.現在の CNN
の多くでは,MAX プーリングが実装されているものが多い4).
これは,ある範囲の前段の層の細胞のうち,最大応答を出力し
ているものを採用し,その他の細胞の出力は捨ててしまうタイ
プのプーリングである.これに対し,生理学的なモデルでは図
2 で示したように,一般に単純型細胞の出力は 2 乗特性を経て
複雑型細胞において線形加算される.この場合,図 3の通り,
中心からの距離に応じて遠いものの影響が小さくなるようにガ
ウシアンの重みをつけて加算される.このようなプーリングは
ニューラルネットの研究者の間では SoftMAX プーリングと呼
ばれている.ここでも,最近導入されつつある「全コンボリュー
A B
図 2
A) 両眼視差エネルギーモデルは CNN の最初のフィルタリン
グ層(単純型細胞)とプーリング層(複雑型細胞)を構成している.
B) このような複雑型細胞は動物の前方に(X,Y)位置と奥行きに
選択性を持つ 3次元空間受容野を持つ.両眼性の複雑型細胞は最
小で 4個の単純型細胞からプーリングする必要がある.
図 3
従来のプーリングの概念は(X,Y)空間で定義される.4個以上
の単純型細胞からなる大規模なプーリングを図 2の複雑型細胞に
適用すると,上部のように奥行き(Z)方向の選択性はそのままに,
広い(X,Y)空間をカバーする視差検出器を構成できる.
896-899_CN0828責(念)B杉.mcd Page 4 16/07/14 14:18 v6.10
898
ショナルネット」を採用すれば,どちらを選ぶべきかという問
題は消失する.
プーリングがニューロンの両眼特性に及ぼす効果
ヒトを含めて二つの眼が顔の前面についている動物の脳で
は,両眼の見る画像を比較することで,精巧なステレオ立体視
を実現していると考えられてきた.われわれの最新の研究では,
ステレオ立体視のための脳内情報処理において「両眼の間で比
較される情報は何か」という根源的な問題をプーリングの視点
を踏まえて再提起し,プーリングがニューロンの両眼特性にど
のような効果をもたらすかについて理論的および実験的な検証
を行った11).その結果,驚くべきことに予想に反し,プーリン
グにより細胞の両眼選択性がよりシャープになる場合があるこ
とを発見した.
ステレオ立体視に関する従来の定説では,両眼に写る画像特
徴の「位置ずれ」である両眼視差を正確に検出す
ることが,その基本的原理であると考えられて
きた.しかし大脳の最初の視覚領野である一次
視覚野(V1)では,神経細胞の発火により表現さ
れるのは,物体の位置情報だけではない.V1は,
画像を小さな多数の「波の破片」(wavelet)の重
ね合わせとして表現しており,個々の神経細胞
は 1 個のある特定の wavelet が,視野内の特定
の場所に存在するかどうかだけを表現してい
る.Wavelet は点ではなく広がりを持つので,
V1 神経細胞は,大まかな位置(X,Y),波の細
かさ(空間周波数;SF),波の傾き角度(方位;
OR)という視覚刺激のパラメータに選択的に反
応することになる.このような V1 の情報表現
の性質を総合的に取り入れた立体視の理論と実
験的研究はこれまでなかった.
加藤ら11)は,神経細胞が左右画像の位置ずれ
に関する情報のみを伝達するのではなく,左右
の画像を waveletに分解した時のパラメータである位置,空間
周波数,方位のすべてについて,両眼間で比較されるという仮
説を新たに提唱し,基礎的な証拠を得た.CNNの階層構造の基
本要素であるプーリングを取り入れた考察を行い,プーリング
がステレオ立体視に関する視覚野細胞の反応特性に与える影響
を調べることで,検証を行った.ただし,従来のように視野を
表す(X,Y)空間のみでプーリングを考えるのでなく,図 4 の
ように V1の waveletを表す 4つのパラメータ(X,Y,SF,OR)
で定義される空間でプーリングを定義した.
左右網膜像を高い精度で比較するためには,左右パラメータ
が正確にマッチしている時にだけ反応する細胞にステレオ立体
視の機能を担ってもらうと良いだろう.例えば,Aというパラ
メータであれば,図 5 aのように刺激が 45°の直線上に乗る時,
つまり左右の刺激パラメータが厳密に一致した時にのみ細胞が
反応すれば都合が良い.ただし,このような厳密さは細胞には
図 4
(X,Y)位置だけでなく,空間周波数(SF)と方位(OR)の次元にも
拡張した「V1プーリング」.
図 5
刺激の左右眼間の比較において,左右の一致度が高い場合(b)と
低い場合(c)を示す.
A
B
図 6
基本モデルの理論予測(A)では,位置 X以外の刺激パラメータについては,左
右の一致度が低くても細胞が反応する.これに対し,プーリングを取り入れた新
しいモデル(B)では,すべてのパラメータについて左右刺激が一致した時のみ,
細胞が反応する.
896-899_CN0828責(念)B杉.mcd Page 5 16/07/14 14:18 v6.10
899
実現できない.実現可能な特性のうち,図 5 b は,左右のパラ
メータが良く一致している場合,図 5 c は左右の一致度が低い
場合を表す.実際の神経細胞の反応を引き起こすためには,ど
の程度の左右パラメータの一致が必要だろうか.
理論予測のために,上述の「視差エネルギーモデル」による計
算をすると,図 6 Aのように,位置 Xについてはある程度 45°
の反応パターンが見られるが,位置 Y,SF,ORについては,左
右の刺激の一致度が低くても反応してしまう.この基本モデル
ではプーリングを想定していない.
これに対し,V1 空間でのプーリングを取り入れた理論予測
では,図 6 Bのように,分解された wavelet のパラメータ(X,
Y,SF,OR)のすべてについて,プーリングが両眼マッチング
をよりシャープにする効果があることを発見した.プーリング
の度合いが大きいほど,より高いマッチング精度を持つ細胞が
できる.
また,そのような反応特性を示す細胞が V1 に実際に存在す
ることを実験により確認した.すなわち両眼の画像を wavelet
に分解し,さらに左右の比較を行うユニットを V1 空間でプー
リングすることにより,位置,空間周波数,方位のすべてにつ
いて,精密にマッチングがとれている刺激を両眼から受けた時
にのみ反応する細胞が V1 に存在する.
シャープな左右眼マッチングの機能的な意味
異なる様々な最適方位を持つ細胞の出力を統合することで得
られる機能としては,「方位視差検出器」があり12),3 次元空間
における面の前後方向の傾きの情報を担う一つのソースとなり
うる13).面が前後に傾いている時には,その面上の直線の方位
角は一般に左右網膜像で異なり,その角度差から面の前後傾き
角を推定できる.細胞でこれを行うためには,左右の方位角の
完全一致に選択性を持つのでなく,左右の方位角の差がある値
である時に細胞が反応すれば良い.つまり図 6 Bにおいて,45°
の反応領域が並行移動した特性の細胞をつくれば良い.左右の
特定の左右方位のペア一つのみでも,面の傾きは決まるが,一
般に「面の傾き検出器」が必要ならば,特定の絶対方位に限定さ
れた検出器でなく,相対的な方位視差のみに感度を持つことよ
り,面の傾きを検出できたほうが機能的には S/Nが向上する.
特に,自然界のテクスチャーに覆われた表面画像には多くの方
位成分が含まれることを考慮すると,相対的な方位視差に感度
を持つ方位視差検出器は,理想的な面の傾き情報を表現できる
可能性が高い.つまり「方位不変性」を持つ理想的な「面の傾き
検出器」が理論的には実現可能である.
同様の原理により,左右の網膜像の空間周波数の違いから,
左右方向の面の傾き角を推定することができる14).以上の結果
を総合すると,プーリングは,両眼立体視において両眼視差か
ら求められる奥行きだけでなく,その奥行きにおける物体の面
の傾き角をも,従来考えられたよりもはるかに高い精度での推
定を可能にする効果がある.
む す び
現在の多数の CNN に使われているフィルタリングとプーリ
ングについて,その意味と意義を神経科学の視点から両眼立体
視について考察した.従来,神経科学では新たな刺激選択性の
生成に必須な要素であるフィルタリングは,受容野概念との対
応から詳細な検討がなされてきたが,プーリングについては重
要視されていなかった.しかし,プーリングを取り入れた両眼
情報処理により,ヒトや動物の脳が奥行き知覚(3 次元空間での
面の傾きを含む)における高い精度や分解能を実現しているメ
カニズムが示唆された.V1 における視覚情報の表現形態を最
大限に活用することにより,さらに高精度な人工ステレオ立体
視システムの構築が可能になるだろう.
謝 辞
本稿で紹介した研究は新学術領域研究「質感脳情報学」22135006
と同「多元質感知」15H05921により支援を受けた.
文 献1) Yamins DLK, Hong H, Cadieu CF, et al. Performance-optimized
hierarchical models predict neural responses in higher visual cortex. ProcNatl Acad Sci. 2014;111:8619-24.
2) Fukushima K. Neocognitron:a self organizing neural network model for amechanism of pattern recognition unaffected by shift in position. BiolCybern. 1980;36:193-202.
3) Hubel DH, Wiesel TN. Receptive fields, binocular interaction andfunctional architecture in the catʼs visual cortex. J Physiol. 1962;160:106-54.
4) Huang FJ, LeCun Y. Large-scale learning with SVM and convolutional forgeneric object categorization. In:2006 IEEE Computer Society Confer-ence on Computer Vision and Pattern Recognition―Volume 1(CVPRʼ06).2006. p. 284-91.
5) Adelson EH, Bergen JR. Spatiotemporal energy models for the perceptionof motion. J Opt Soc Am A. 1985;2:284-99.
6) Ohzawa I, DeAngelis GC, Freeman RD. Stereoscopic depth discriminationin the visual cortex:neurons ideally suited as disparity detectors. Science.1990;249:1037-41.
7) Ohzawa I, DeAngelis GC, Freeman RD. Encoding of binocular disparity bycomplex cells in the catʼs visual cortex. J Neurophysiol. 1997;77:2879-909.
8) Sasaki KS, Tabuchi Y, Ohzawa I. Complex cells in the cat striate cortexhave multiple disparity detectors in the three-dimensional binocularreceptive fields. J Neurosci. 2010;30:13826-37.
9) Springenberg JT,Dosovitskiy A, Brox T, et al. Striving for simplicity:theall convolutional net. arXiv:1412.6806v3, ICLR 2015.
10) He K, Zhang X, Ren S, et al. Deep residual learning for image recognition.arXiv:1512.03385v1[cs. CV], 2015.
11) Kato D, Baba M, Sasaki KS, et al. Effects of generalized pooling onbinocular disparity selectivity of neurons in the early visual cortex. PhilTrans R Soc B. 2016;371:20150266.
12) Bridge H, Cumming BG. Responses of macaque V1 neurons to binocularorientation differences. J Neurosci. 2001;21:7293-302.
13) Taira M, Tsutsui KI, Jiang M, et al. Parietal neurons represent surfaceorientation from the gradient of binocular disparity. J Neurophysiol. 2000;83:3140-6.
14) Sanada TM, Ohzawa I. Encoding of three-dimensional surface slant in catvisual areas 17 and 18. J Neurophysiol. 2006;95:2768-86.