ディープニューラルネットと視覚野 -...

4
0289-058520¥90JCOPY 896 の画像データについて行う計算は,厳密には内積であり,Sim- ple 1 層の細胞の 2 次元配列の 1 点に対応する出力を与える. 同じ受容野の形(方位と空間周波数)を持つ細胞で視野空間を敷 き詰めて,Simple 1 層のすべての点についての出力(画像にな ) を求める計算がフィルタリングで,これは畳み込み積分 (convolution)である.これが CNN の名前の由来である.フィ ルタリングの機能は,方位選択性などの刺激選択性の創成をも たらし,特徴抽出の一過程であると考えられる. プーリングは,前段層の多数の細胞からの入力を集める点で はフィルタリングと同じだが,単にプラスの結合係数で集める だけである.このため,プーリングによって新たな刺激選択性 が生まれることは考え難い.むしろ,多くの細胞の反応を集め るために,一般的には逆に選択性が弱まる(最近新たに発見し た例外を後述する).従来,神経科学の多くの研究が,シャープ な刺激選択性を得るためのフィルタリング機構に重点を置く傾 向が強かったのは,おそらく高い選択性面白い,選択性の喪 つまらないという誤った先入観のためだろう.しかし, プーリングも,ディープラーニングニューラルネットでは重要 な処理過程であり,動物の神経回路でもそうである可能性が高 い.したがって,ネット構造の理解には,フィルタリングとプー リングの両者を統合的な視点から実際の神経回路で同時に研究 することが必要である. 上記のように,従来あまり注目されてこなかったプーリング であるが,その一つの有用な機能として従来から知られている のは,位置不変性の生成である.例えば,顔細胞が視野の 様々な場所において,位置不変的に特定の顔に反応するような はじめに 近年,統計的機械学習の技術が高度に進歩し,ディープ ニューラルネットの成功でニューラルネットへの関心が再 び高まっている.物体や顔の認識,自然言語解析などの分 野で他の技術を圧倒する性能を示し,すでに実際の応用に も組み込まれつつある.人工ニューラルネットは,生理学 的実験が主要な手法である神経科学の分野でも注目されて おり,単に物体や顔認識という最終目的の機能だけでなく, 高度な性能がどのように実現されているのかという観点か ら,内部の局所回路や個々の細胞の特性に興味を持ち,生 理学的実験研究への示唆を求める神経科学 1) の研究者も増 えてきた.本稿では,これらの中でも視覚神経系の階層構 造とよく似た構造を持つコンボリューショナルニューラル ネット(CNN)について,神経科学の視点から考察する.も ちろん, CNN の原型は,福島(1980)Neocognitron 2) であ り,福島自身が,Hubel & Wiesel の単純型複雑型細胞 3) と,その後に続く高次視覚系の知見に触発されて考案した と言う通り,もともと関係は深い. コンボリューショナルニューラルネット(CNN) 現在の代表的な CNN の構造は,図 1 のように,フィル タリングとプーリングのペアからなる層構造が何回も多層 的に繰り返される形を持つ 4) .図 1 では,フィルタリング とプーリングがそれぞれ 2 回まで示してあるが,それがさ らに繰り返される.この構造は,実際の動物の視覚系でも, 初期視覚野においては同様であり,以下の疑問が生ずる. こうしたペア繰り返し構造は,動物の高次視覚系でも必然 なのだろうか.違うとすれば何が異なるのだろうか.われ われが記録する細胞は多層構造のどの位置にあるのだろう か. フィルタリングは,前段層の多数の細胞からの入力をプ ラスやマイナスの重み(シナプス結合の強さ;マイナスは 介在ニューロン経由)で加算する計算である.最も有名な 例が,画像から来る入力を ON 領域()OFF 領域() として統合する一次視覚野(V1)の単純型細胞(初段の Sim- ple 1 層の細胞)である.1 個の細胞の受容野がその範囲内 大澤 五住 ディープニューラルネット視覚野 パターン識別モデルおおざわ いずみ 大阪大学大学院生命機能研究科脳神経工学講座 視覚神経科学 1 コンボリューショナルニューラルネット(CNN)の構造.最初の 4 層を示す.

Transcript of ディープニューラルネットと視覚野 -...

Page 1: ディープニューラルネットと視覚野 - 大阪大学ohzawa-lab.bpe.es.osaka-u.ac.jp/classes/bi-2016/OhzawaI...同じ受容野の形(方位と空間周波数)を持つ細胞で視野空間を敷

896-899_CN0828責(念)B杉.mcd Page 2 16/07/14 14:18 v6.10

0289-0585/20/¥90/頁/JCOPY896

の画像データについて行う計算は,厳密には内積であり,Sim-

ple 1 層の細胞の 2 次元配列の 1 点に対応する出力を与える.

同じ受容野の形(方位と空間周波数)を持つ細胞で視野空間を敷

き詰めて,Simple 1 層のすべての点についての出力(画像にな

る)を求める計算がフィルタリングで,これは畳み込み積分

(convolution)である.これが CNN の名前の由来である.フィ

ルタリングの機能は,方位選択性などの刺激選択性の創成をも

たらし,特徴抽出の一過程であると考えられる.

プーリングは,前段層の多数の細胞からの入力を集める点で

はフィルタリングと同じだが,単にプラスの結合係数で集める

だけである.このため,プーリングによって新たな刺激選択性

が生まれることは考え難い.むしろ,多くの細胞の反応を集め

るために,一般的には逆に選択性が弱まる(最近新たに発見し

た例外を後述する).従来,神経科学の多くの研究が,シャープ

な刺激選択性を得るためのフィルタリング機構に重点を置く傾

向が強かったのは,おそらく「高い選択性=面白い,選択性の喪

失=つまらない」という誤った先入観のためだろう.しかし,

プーリングも,ディープラーニングニューラルネットでは重要

な処理過程であり,動物の神経回路でもそうである可能性が高

い.したがって,ネット構造の理解には,フィルタリングとプー

リングの両者を統合的な視点から実際の神経回路で同時に研究

することが必要である.

上記のように,従来あまり注目されてこなかったプーリング

であるが,その一つの有用な機能として従来から知られている

のは,「位置不変性」の生成である.例えば,「顔細胞」が視野の

様々な場所において,位置不変的に特定の顔に反応するような

はじめに

近年,統計的機械学習の技術が高度に進歩し,ディープ

ニューラルネットの成功でニューラルネットへの関心が再

び高まっている.物体や顔の認識,自然言語解析などの分

野で他の技術を圧倒する性能を示し,すでに実際の応用に

も組み込まれつつある.人工ニューラルネットは,生理学

的実験が主要な手法である神経科学の分野でも注目されて

おり,単に物体や顔認識という最終目的の機能だけでなく,

高度な性能がどのように実現されているのかという観点か

ら,内部の局所回路や個々の細胞の特性に興味を持ち,生

理学的実験研究への示唆を求める神経科学1)の研究者も増

えてきた.本稿では,これらの中でも視覚神経系の階層構

造とよく似た構造を持つコンボリューショナルニューラル

ネット(CNN)について,神経科学の視点から考察する.も

ちろん,CNN の原型は,福島(1980)の Neocognitron2)であ

り,福島自身が,Hubel & Wiesel の単純型・複雑型細胞3)

と,その後に続く高次視覚系の知見に触発されて考案した

と言う通り,もともと関係は深い.

コンボリューショナルニューラルネット(CNN)

現在の代表的な CNN の構造は,図 1 のように,フィル

タリングとプーリングのペアからなる層構造が何回も多層

的に繰り返される形を持つ4).図 1 では,フィルタリング

とプーリングがそれぞれ 2 回まで示してあるが,それがさ

らに繰り返される.この構造は,実際の動物の視覚系でも,

初期視覚野においては同様であり,以下の疑問が生ずる.

こうしたペア繰り返し構造は,動物の高次視覚系でも必然

なのだろうか.違うとすれば何が異なるのだろうか.われ

われが記録する細胞は多層構造のどの位置にあるのだろう

か.

フィルタリングは,前段層の多数の細胞からの入力をプ

ラスやマイナスの重み(シナプス結合の強さ;マイナスは

介在ニューロン経由)で加算する計算である.最も有名な

例が,画像から来る入力を ON 領域(+)と OFF 領域(−)

として統合する一次視覚野(V1)の単純型細胞(初段の Sim-

ple 1 層の細胞)である.1 個の細胞の受容野がその範囲内

大澤 五住

ディープニューラルネットと視覚野

パターン識別のモデルと脳

おおざわ いずみ 大阪大学大学院生命機能研究科脳神経工学講座

視覚神経科学

図 1

コンボリューショナルニューラルネット(CNN)の構造.最初の

4層を示す.

Page 2: ディープニューラルネットと視覚野 - 大阪大学ohzawa-lab.bpe.es.osaka-u.ac.jp/classes/bi-2016/OhzawaI...同じ受容野の形(方位と空間周波数)を持つ細胞で視野空間を敷

896-899_CN0828責(念)B杉.mcd Page 3 16/07/14 14:18 v6.10

897

性質は,位置依存的な顔細胞を多数プーリングすることで原理

的には実現できる(効率的ではないが).

�.CNNの初期層としての単純型細胞と複雑型細胞

単純型細胞から複雑型細胞への数理モデルとして最初のもの

は,Adelson & Bergenの「運動エネルギーモデル」5)である.ま

た,運動エネルギーモデルにヒントを得て,両眼版として筆者

が考案した図 2 A の「視差エネルギーモデル」6,7)が続く.両者

とも,4 個の単純型細胞の出力を,半波整流後に 2 乗し加算し

た信号を複雑型細胞の出力とするモデルである.これらのモデ

ルに従って構築された多くの単純型細胞を敷き詰めた層が

CNN のフィルタリング層にあたり,対応する複雑型細胞を配

列した層がプーリング層である.「視差エネルギーモデル」の受

容野は両眼立体視に密接に関連しており,図 2 B に示すように,

動物の前に存在する 3次元空間に位置する.上下左右の位置だ

けでなく,奥行き方向にも強い選択性を持つ細胞の特性を良く

近似するモデルである.このように,最初のフィルタリング層

とプーリング層については,人工の CNN と実際の動物の視覚

系は非常に良く似ていると言えよう.

さらに,実際の脳内に存在するプーリングについては,エネ

ルギーモデル 2種が規定する 4 個の単純型細胞ではなく,もっ

と多くの細胞がプーリングされている8).図 3 は,(X,Y)空間

におけるプーリングの様子と,3 次元両眼受容野に対するプー

リングの効果を示す.奥行き方向(Z 軸)の選択性はそのままに

しながら,3次元両眼受容野の大きさが拡大される.

�.CNN と視覚系の神経ネットワークの比較

現在の主流となっている CNN の内部構造の詳細と,実際の

哺乳類の視覚系の構成を比較した時に,いくつか未知あるいは

異なる点が見受けられる.第一に,必ずフィルタリングとプー

リングのペアが何段も直列接続された形になっているかどうか

である.最初の段階である V1 については,フィルタリングを

行う単純型細胞をプーリングにより統合して複雑型細胞ができ

あがることは,実際の状況とよく整合性がある.しかし高次の

視覚野へ行くほど,ある細胞がフィルタリングとプーリングの

どちらの機能を果たしているのかよくわからなくなる.一つに

は,これは細胞の反応特性の同定が高次の細胞ほど困難である

ことの反映だろうが,事実として実際の脳の階層構造において

フィルタリング層とプーリング層とが交互に存在するかどうか

については,確証は存在しない.実際,最近の一部の CNN で

は,大部分のプーリング層を取り除き,フィルタリング層間に

直接結合を定義した「全コンボリューショナルネット(all con-

volutional net)」と呼ばれる構造のものが提案されている9,10).

第二に異なる点は,プーリングのタイプである.現在の CNN

の多くでは,MAX プーリングが実装されているものが多い4).

これは,ある範囲の前段の層の細胞のうち,最大応答を出力し

ているものを採用し,その他の細胞の出力は捨ててしまうタイ

プのプーリングである.これに対し,生理学的なモデルでは図

2 で示したように,一般に単純型細胞の出力は 2 乗特性を経て

複雑型細胞において線形加算される.この場合,図 3の通り,

中心からの距離に応じて遠いものの影響が小さくなるようにガ

ウシアンの重みをつけて加算される.このようなプーリングは

ニューラルネットの研究者の間では SoftMAX プーリングと呼

ばれている.ここでも,最近導入されつつある「全コンボリュー

A B

図 2

A) 両眼視差エネルギーモデルは CNN の最初のフィルタリン

グ層(単純型細胞)とプーリング層(複雑型細胞)を構成している.

B) このような複雑型細胞は動物の前方に(X,Y)位置と奥行きに

選択性を持つ 3次元空間受容野を持つ.両眼性の複雑型細胞は最

小で 4個の単純型細胞からプーリングする必要がある.

図 3

従来のプーリングの概念は(X,Y)空間で定義される.4個以上

の単純型細胞からなる大規模なプーリングを図 2の複雑型細胞に

適用すると,上部のように奥行き(Z)方向の選択性はそのままに,

広い(X,Y)空間をカバーする視差検出器を構成できる.

Page 3: ディープニューラルネットと視覚野 - 大阪大学ohzawa-lab.bpe.es.osaka-u.ac.jp/classes/bi-2016/OhzawaI...同じ受容野の形(方位と空間周波数)を持つ細胞で視野空間を敷

896-899_CN0828責(念)B杉.mcd Page 4 16/07/14 14:18 v6.10

898

ショナルネット」を採用すれば,どちらを選ぶべきかという問

題は消失する.

プーリングがニューロンの両眼特性に及ぼす効果

ヒトを含めて二つの眼が顔の前面についている動物の脳で

は,両眼の見る画像を比較することで,精巧なステレオ立体視

を実現していると考えられてきた.われわれの最新の研究では,

ステレオ立体視のための脳内情報処理において「両眼の間で比

較される情報は何か」という根源的な問題をプーリングの視点

を踏まえて再提起し,プーリングがニューロンの両眼特性にど

のような効果をもたらすかについて理論的および実験的な検証

を行った11).その結果,驚くべきことに予想に反し,プーリン

グにより細胞の両眼選択性がよりシャープになる場合があるこ

とを発見した.

ステレオ立体視に関する従来の定説では,両眼に写る画像特

徴の「位置ずれ」である両眼視差を正確に検出す

ることが,その基本的原理であると考えられて

きた.しかし大脳の最初の視覚領野である一次

視覚野(V1)では,神経細胞の発火により表現さ

れるのは,物体の位置情報だけではない.V1は,

画像を小さな多数の「波の破片」(wavelet)の重

ね合わせとして表現しており,個々の神経細胞

は 1 個のある特定の wavelet が,視野内の特定

の場所に存在するかどうかだけを表現してい

る.Wavelet は点ではなく広がりを持つので,

V1 神経細胞は,大まかな位置(X,Y),波の細

かさ(空間周波数;SF),波の傾き角度(方位;

OR)という視覚刺激のパラメータに選択的に反

応することになる.このような V1 の情報表現

の性質を総合的に取り入れた立体視の理論と実

験的研究はこれまでなかった.

加藤ら11)は,神経細胞が左右画像の位置ずれ

に関する情報のみを伝達するのではなく,左右

の画像を waveletに分解した時のパラメータである位置,空間

周波数,方位のすべてについて,両眼間で比較されるという仮

説を新たに提唱し,基礎的な証拠を得た.CNNの階層構造の基

本要素であるプーリングを取り入れた考察を行い,プーリング

がステレオ立体視に関する視覚野細胞の反応特性に与える影響

を調べることで,検証を行った.ただし,従来のように視野を

表す(X,Y)空間のみでプーリングを考えるのでなく,図 4 の

ように V1の waveletを表す 4つのパラメータ(X,Y,SF,OR)

で定義される空間でプーリングを定義した.

左右網膜像を高い精度で比較するためには,左右パラメータ

が正確にマッチしている時にだけ反応する細胞にステレオ立体

視の機能を担ってもらうと良いだろう.例えば,Aというパラ

メータであれば,図 5 aのように刺激が 45°の直線上に乗る時,

つまり左右の刺激パラメータが厳密に一致した時にのみ細胞が

反応すれば都合が良い.ただし,このような厳密さは細胞には

図 4

(X,Y)位置だけでなく,空間周波数(SF)と方位(OR)の次元にも

拡張した「V1プーリング」.

図 5

刺激の左右眼間の比較において,左右の一致度が高い場合(b)と

低い場合(c)を示す.

A

B

図 6

基本モデルの理論予測(A)では,位置 X以外の刺激パラメータについては,左

右の一致度が低くても細胞が反応する.これに対し,プーリングを取り入れた新

しいモデル(B)では,すべてのパラメータについて左右刺激が一致した時のみ,

細胞が反応する.

Page 4: ディープニューラルネットと視覚野 - 大阪大学ohzawa-lab.bpe.es.osaka-u.ac.jp/classes/bi-2016/OhzawaI...同じ受容野の形(方位と空間周波数)を持つ細胞で視野空間を敷

896-899_CN0828責(念)B杉.mcd Page 5 16/07/14 14:18 v6.10

899

実現できない.実現可能な特性のうち,図 5 b は,左右のパラ

メータが良く一致している場合,図 5 c は左右の一致度が低い

場合を表す.実際の神経細胞の反応を引き起こすためには,ど

の程度の左右パラメータの一致が必要だろうか.

理論予測のために,上述の「視差エネルギーモデル」による計

算をすると,図 6 Aのように,位置 Xについてはある程度 45°

の反応パターンが見られるが,位置 Y,SF,ORについては,左

右の刺激の一致度が低くても反応してしまう.この基本モデル

ではプーリングを想定していない.

これに対し,V1 空間でのプーリングを取り入れた理論予測

では,図 6 Bのように,分解された wavelet のパラメータ(X,

Y,SF,OR)のすべてについて,プーリングが両眼マッチング

をよりシャープにする効果があることを発見した.プーリング

の度合いが大きいほど,より高いマッチング精度を持つ細胞が

できる.

また,そのような反応特性を示す細胞が V1 に実際に存在す

ることを実験により確認した.すなわち両眼の画像を wavelet

に分解し,さらに左右の比較を行うユニットを V1 空間でプー

リングすることにより,位置,空間周波数,方位のすべてにつ

いて,精密にマッチングがとれている刺激を両眼から受けた時

にのみ反応する細胞が V1 に存在する.

シャープな左右眼マッチングの機能的な意味

異なる様々な最適方位を持つ細胞の出力を統合することで得

られる機能としては,「方位視差検出器」があり12),3 次元空間

における面の前後方向の傾きの情報を担う一つのソースとなり

うる13).面が前後に傾いている時には,その面上の直線の方位

角は一般に左右網膜像で異なり,その角度差から面の前後傾き

角を推定できる.細胞でこれを行うためには,左右の方位角の

完全一致に選択性を持つのでなく,左右の方位角の差がある値

である時に細胞が反応すれば良い.つまり図 6 Bにおいて,45°

の反応領域が並行移動した特性の細胞をつくれば良い.左右の

特定の左右方位のペア一つのみでも,面の傾きは決まるが,一

般に「面の傾き検出器」が必要ならば,特定の絶対方位に限定さ

れた検出器でなく,相対的な方位視差のみに感度を持つことよ

り,面の傾きを検出できたほうが機能的には S/Nが向上する.

特に,自然界のテクスチャーに覆われた表面画像には多くの方

位成分が含まれることを考慮すると,相対的な方位視差に感度

を持つ方位視差検出器は,理想的な面の傾き情報を表現できる

可能性が高い.つまり「方位不変性」を持つ理想的な「面の傾き

検出器」が理論的には実現可能である.

同様の原理により,左右の網膜像の空間周波数の違いから,

左右方向の面の傾き角を推定することができる14).以上の結果

を総合すると,プーリングは,両眼立体視において両眼視差か

ら求められる奥行きだけでなく,その奥行きにおける物体の面

の傾き角をも,従来考えられたよりもはるかに高い精度での推

定を可能にする効果がある.

む す び

現在の多数の CNN に使われているフィルタリングとプーリ

ングについて,その意味と意義を神経科学の視点から両眼立体

視について考察した.従来,神経科学では新たな刺激選択性の

生成に必須な要素であるフィルタリングは,受容野概念との対

応から詳細な検討がなされてきたが,プーリングについては重

要視されていなかった.しかし,プーリングを取り入れた両眼

情報処理により,ヒトや動物の脳が奥行き知覚(3 次元空間での

面の傾きを含む)における高い精度や分解能を実現しているメ

カニズムが示唆された.V1 における視覚情報の表現形態を最

大限に活用することにより,さらに高精度な人工ステレオ立体

視システムの構築が可能になるだろう.

謝 辞

本稿で紹介した研究は新学術領域研究「質感脳情報学」22135006

と同「多元質感知」15H05921により支援を受けた.

文 献1) Yamins DLK, Hong H, Cadieu CF, et al. Performance-optimized

hierarchical models predict neural responses in higher visual cortex. ProcNatl Acad Sci. 2014;111:8619-24.

2) Fukushima K. Neocognitron:a self organizing neural network model for amechanism of pattern recognition unaffected by shift in position. BiolCybern. 1980;36:193-202.

3) Hubel DH, Wiesel TN. Receptive fields, binocular interaction andfunctional architecture in the catʼs visual cortex. J Physiol. 1962;160:106-54.

4) Huang FJ, LeCun Y. Large-scale learning with SVM and convolutional forgeneric object categorization. In:2006 IEEE Computer Society Confer-ence on Computer Vision and Pattern Recognition―Volume 1(CVPRʼ06).2006. p. 284-91.

5) Adelson EH, Bergen JR. Spatiotemporal energy models for the perceptionof motion. J Opt Soc Am A. 1985;2:284-99.

6) Ohzawa I, DeAngelis GC, Freeman RD. Stereoscopic depth discriminationin the visual cortex:neurons ideally suited as disparity detectors. Science.1990;249:1037-41.

7) Ohzawa I, DeAngelis GC, Freeman RD. Encoding of binocular disparity bycomplex cells in the catʼs visual cortex. J Neurophysiol. 1997;77:2879-909.

8) Sasaki KS, Tabuchi Y, Ohzawa I. Complex cells in the cat striate cortexhave multiple disparity detectors in the three-dimensional binocularreceptive fields. J Neurosci. 2010;30:13826-37.

9) Springenberg JT,Dosovitskiy A, Brox T, et al. Striving for simplicity:theall convolutional net. arXiv:1412.6806v3, ICLR 2015.

10) He K, Zhang X, Ren S, et al. Deep residual learning for image recognition.arXiv:1512.03385v1[cs. CV], 2015.

11) Kato D, Baba M, Sasaki KS, et al. Effects of generalized pooling onbinocular disparity selectivity of neurons in the early visual cortex. PhilTrans R Soc B. 2016;371:20150266.

12) Bridge H, Cumming BG. Responses of macaque V1 neurons to binocularorientation differences. J Neurosci. 2001;21:7293-302.

13) Taira M, Tsutsui KI, Jiang M, et al. Parietal neurons represent surfaceorientation from the gradient of binocular disparity. J Neurophysiol. 2000;83:3140-6.

14) Sanada TM, Ohzawa I. Encoding of three-dimensional surface slant in catvisual areas 17 and 18. J Neurophysiol. 2006;95:2768-86.