自己組織化マップ(SOM)とその応用app6.ele.tottori-u.ac.jp/SOM-Meeting/2006/web-PDF/som2006-T-web.pdf ·...

6
自己組織化マップ(SOM)とその応用 Self-Organizing Maps (SOM) and their applications 徳高 平蔵 Heizo Tokutaka (有)SOM ジャパン SOM Japan Co. Ltd. Abstract: Spherical Surface SOM, the Pulse Wave, the Health SOM mapping, and some others are described about the two dimensional visualization of the multidimensional information data as the applications of Self Organization Maps (SOM) in our research projects. Keywords: Spherical Surface SOM, Cluster Analysis, Pulse Wave, Health SOM 1.まえがき 我々が行っている自己組織化マップ(SOM) 1,2 ]による多次元情報の 2 次元可視化とその 応用について球面 SOM ,脈波,健康マップ,等 について我々の研究結果を述べる。なお,色々な 応用事例集は参考文献を参照されたい[1-3]。 2.は SOM アルゴリズムについて述べる。3では球面 SOM ,4.は球面 SOM のクラスタ分 析への適用,4.ではスペクトルデータの解析と して脈波診断データへ適用した。5.ではエクセ ルデータの 2 次元可視化の例として健康診断マッ プについて述べる。6.ではバイオインフォマテ ィクス,7.では 1 次元 SOM の応用例としてチ ップマウンターへの応用,8.はまとめである。 2.SOM アルゴリズム 2.1 アルゴリズム コホネン[1,2]は,生物の神経細胞,主として脳 の情報処理の仕方を以下のような簡単な式にま とめて整理した。 m i (t + 1) = m (t) + h (t) [ x(t) - m (t)] (1) この式の意味は,いま ci 神経細胞(i ード) iが時刻 t i で処理している情報処理能力を m i (t) とすると き,外部から入力信号 x ( t ) が入ってきた。細胞は, この入力信号を学習して次の時刻には入力信号 により近い情報処理能力 m i (t + 1) を持つように なる。この時 x (t) n 次元の入力ベクトルであれ ば,また,参照ベクトルとも呼ばれる x (t) は同 n 次元の要素を持つ。そして h ci (t) は学習率 係数を含めた近傍関数である。なお, t = 0,1,2,....... は離散時間座標である。競合層のベ クトルは参照ベクトル m i (t) で表され,入力層の 次元に合わせて n 個の要素を持っている。出力を 視覚的に見るため普通 2 次元に配列されている。 この様子を図 1 に表す。 x 1 x 2 x i x n x 1 x 2 x i x n …… …… …… …… …… …… Input Layer Input Layer m i+1 m i m 1 m i-1 m m Output Layer m i1 m i2 m ii m in 1 多次元入力ベクトルから 2 次元競合層内の 参照ベクトル(ユニット) との結合の様子。 以上が概略であるが,詳細は省略する。

Transcript of 自己組織化マップ(SOM)とその応用app6.ele.tottori-u.ac.jp/SOM-Meeting/2006/web-PDF/som2006-T-web.pdf ·...

mi+1mi

m1

mi 1

mm

Output Layer

mi1 mi2 miimin

自己組織化マップ(SOM)とその応用

Self-Organizing Maps (SOM) and their applications 徳高 平蔵

Heizo Tokutaka (有)SOM ジャパン

SOM Japan Co. Ltd. Abstract: Spherical Surface SOM, the Pulse Wave, the Health SOM mapping, and some

others are described about the two dimensional visualization of the multidimensional information data as the applications of Self Organization Maps (SOM) in our research projects.

Keywords: Spherical Surface SOM, Cluster Analysis, Pulse Wave, Health SOM

1.まえがき

我々が行っている自己組織化マップ(SOM) [1,2 ]による多次元情報の 2 次元可視化とその

応用について球面 SOM ,脈波,健康マップ,等

について我々の研究結果を述べる。なお,色々な

応用事例集は参考文献を参照されたい[1-3]。2.は SOM アルゴリズムについて述べる。3.

では球面 SOM ,4.は球面 SOM のクラスタ分

析への適用,4.ではスペクトルデータの解析と

して脈波診断データへ適用した。5.ではエクセ

ルデータの 2 次元可視化の例として健康診断マッ

プについて述べる。6.ではバイオインフォマテ

ィクス,7.では 1 次元 SOM の応用例としてチ

ップマウンターへの応用,8.はまとめである。

2.SOM アルゴリズム

2.1 アルゴリズム

コホネン[1,2]は,生物の神経細胞,主として脳

の情報処理の仕方を以下のような簡単な式にま

とめて整理した。

mi (t +1) = m (t) + h (t) [x(t) - m (t)] (1) この式の意味は,いま

ci

神経細胞(ノi

ード) iが時刻 ti

で処理している情報処理能力を mi (t) とすると

き,外部から入力信号 x(t)が入ってきた。細胞は,

この入力信号を学習して次の時刻には入力信号

により近い情報処理能力 mi (t +1) を持つように

なる。この時 x (t) がn次元の入力ベクトルであれ

ば,また,参照ベクトルとも呼ばれる x (t) は同

じn次元の要素を持つ。そして h ci (t) は学習率

係 数 を 含 め た 近 傍 関 数 で あ る 。 な お ,

t = 0,1,2,.......は離散時間座標である。競合層のベ

クトルは参照ベクトルmi (t) で表され,入力層の

次元に合わせてn個の要素を持っている。出力を

視覚的に見るため普通 2 次元に配列されている。

この様子を図 1 に表す。

x1 x2 xi xnx1 x2 xi xn…… ………… ………… …… Input LayerInput Layer

- mi+1mi

m1

mi-1

mm

Output Layer

mi1 mi2 miimin

図 1 多次元入力ベクトルから 2 次元競合層内の

参照ベクトル(ユニット) との結合の様子。

以上が概略であるが,詳細は省略する。

fujimura
テキストボックス
WEB閲覧用(印刷不可版)

2.2 動物マップの場合

多次元入力から 2 次元 SOM マップを作成する

例として表 1 の例を考えて見よう。これは

色々な動物をそれぞれ 16 次元の属性で区別す

る。各属性は有れば 1,無ければ 0 の値を持つ。

つまり,各動物はそれぞれ 16 次元の入力ベクト

ルを持つ。このデータ集合を用いて作成した自己

組織化マップの一例は図 2 に示される。図から分

かるように 16 種類の動物は,一般的に知られて

いる分類に従ってクラスタが形成されている。例

えば,鳥類は左側に,狩猟者である「トラ(tiger)」,

「ライオン(lion)」,「オオカミ(wolf)」は右側

に,草食動物である「シマウマ(zebra)」,「ウマ

(horse)」,「ウシ(cow)」は右上側にそのクラス

タが形成されている。

表 1.16 種類の動物とその 16 属性 [2] 。

ハト メンドリ アヒルガチョウフクロウ タカ ワシ キツネ イヌ オオカミ ネコ トラ ライオン ウマ シマウマ ウシ

1 小さい 1 1 1 1 1 1 0 0 0 0 1 0 0 0 0 0 2 中くらい 0 0 0 0 0 0 1 1 1 1 0 0 0 0 0 0

状態 3 大きい 0 0 0 0 0 0 0 0 0 0 0 1 1 1 1 1 4 夜行性 0 0 0 0 1 0 0 0.5 0 1 0.5 0.5 0 0 0 0

5 2 本足 1 1 1 1 1 1 1 0 0 0 0 0 0 0 0 0 6 4 本足 0 0 0 0 0 0 0 1 1 1 1 1 1 1 1 1

所有 7 髪あり8 有蹄類

0 0

0 0 0 0 0 0 0 0

0 0

0 1 0 0

1 0

1 0

1 0

1 0

1 0

1 1 1 1

1 1

9 タテガミ 0 0 0 0 0 0 0 0 0 1 0 0 1 1 1 0 10 羽あり11 縞あり

1 0

1 1 1 1 0 0 0 0

1 0

1 0 0 0

0 0

0 0

0 0

0 1

0 0

0 0 0 1

0 0

12 狩猟 0 0 0 0 1 1 1 1 0 1 1 1 1 0 0 0 傾向 13 走る 0 0 0 0 0 0 0 0 1 1 0 1 1 1 1 0

14 飛ぶ15 泳ぐ

1 0

0 1 1 1 0 1 1 0

1 0

0 0 0 0

0 0

0 0

0 0

0 0

0 0

0 0 0 0

0 0

食生活 16 草食性 0.5 0.5 0.5 0.5 0 0 0 0 0 0 0 0 0 1 1 1

草食動物

雑食動物

肉食動物

シマウマ

ネコ

ウマウシ

トラ

ライオン

キツネ

イヌ オオカミワシ

タカフクロウ

ハト

メンドリ

カモ

図 2 平面SOM を用いて作成した動物マップ。

3.球面 SOM 通常の SOM ではデータ群が平面上に写像され

る。これに対し,球面 SOM[4-6] とは球面上にデ

ータ群を写像する SOM である。つまり,球面

SOM ではノードが球面上に並べられ競合層をな

す[4,5] 。競合層として平面以外の空間を用いるの

は SOM では珍しいことではなく,この他にもト

ーラス面,立方体,双曲空間[1] など,様々な競合

層が実際に研究されている。

例えば表 1 と同様の 16 種類の動物をサンプル

として球面 SOM で球面上に写像すると図 2 のよ

うになる。図では球面の半面だけが見えている。

黒点がサンプルの像を表し,その傍の文字列がそ

のサンプルの名前を意味している。ただし,裏側

の半面に写像されて図では隠れているサンプル

もある。また,平面 SOM と同様に面上の濃淡は。

暗い部分が壁を,明るい部分が谷をそれぞれ示し

ている[7] 。例えば,鳥類と哺乳類の間の暗い部分

は両者の間の距離が遠いことを意味している。

図 3 16 種類の動物に対する球面 SOM 。4.球面 SOM を用いたクラスタ分析法

データ群を競合層に写像しておいてマップを

つくり,マップ上のサンプルの位置をクラスタ分

析にかける。

通常の SOM では平面のマップが端を持つため,

例えば,隅のクラスタと中心のクラスタでは,前

者に比べ後者の方で隣り合うクラスタが多くな

る。こうした歪みは,クラスタ分析においてはノ

イズになる。そこで,この歪みの起こらない球面

SOM を用いる。

以下はこの分析法の基本的な流れである。

1. まず,データ群(表 1)を球面 SOM( 半径 1の球面)に入力し,サンプルのマップを作

る。高次元のデータを入力した場合は,

写像の過程で起こる歪みによって,マッ

プ上のサンプル間の距離が見た目どおり

ではなくなる。そこで,U-マトリックス

法を用いてその歪みをグレースケールで

表現する。U-マトリックスではマップ上

の暗い部分が壁,白い部分が谷を意味す

る(既に図 3 で示している。図中左側がほ

乳類,右側が鳥類)。2. 次に,壁と谷を強調した,距離重視型のマ

ップに変形する(図 4) 。図の場合,最も暗

い部分が半径 1,最も明るい部分が 0.5 となるように壁を強調した 3 次元図形マッ

プ(図 3)を作る。この 0.5 は後で述べるよ

うに Glyph 値として調整出来る。1 の場

合は最も明るい部分が 0,0 の場合は最も

明るい部分も暗い部分と同様に 1 で球に

戻る。

3. 3 次元図形マップから像の間の距離を得る。

4. 最後にサンプル間の距離を球面上での距

離尺度で測ってクラスタ分析にかけると

樹状図が作成される(図 5 では群平均法の

結果を示す)。

図 4 球面 SOM によるクラスタ分析へ。

こうして,距離関係がよりはっきりと表現され

た図 4 を用いて樹状図を描いた。結果を図 5 に示

す。この場合横軸は非類似度を表している。右側

には動物の名前が並んでいる。例えばハト,とメ

ンドリは非類似度 0.35 の付近で組になっている

ことが分かる。

図5 16 種類の動物に対するクラスタ分析の結果

(群平均法)。

球面SOMを実行するために上記1-4迄の各処理を

使いやすくツール化したソフト「blossom」[8]を

使用した。そこでは球面を表現すると共に,U-マ

トリックス表現を立体的に表現している。球面の

半径はもともと1であるが,U-マトリックス表現

を立体で表す場合には一番ユークリッド距離が

大きいところを1にした。そして一番ユークリッ

ド距離が少ないところをデフォルト値では0.5に

セットされている。しかし,ソフトの機能の

「Glyph Analysis Setting」ではそれを0̶1まで

自由に変えることができる。1では一番ユークリ

ッド距離が少ないところを0にセットし,0ではそ

れを1にセットするので球面に戻る。講演では球

面SOM法をベンチマークデータに応用した結果を

詳述する。

5. 脈波とは

脈波は中枢から末梢にいたる血管動態に関し

て多くの情報を含んでいる。心臓から送り出され

た血流が波動として末梢に伝達されると,心拍動,

血行動態,細動脈系の性状変化など生理的条件に

よって修正され,波形のゆがみが生ずる。指先を

センサーに入れるだけで"今現在の動脈硬化の程

度が数秒で判る。

① 容積脈波

② 速度脈波

③ 加速度脈波2 2

図 6 指尖脈波。

血管がふくらむことによって血管の内径は変

化する。そのときに発生する波動を容積脈波とい

う。この容積脈波は基線が安定せず,また波形の

起伏に乏しく,変曲点を評価する事が困難である

といった問題がある。そこで波形を微分する方法

が提案された。近年では 2 次微分した加速度脈波

が提案され,その波形の評価法が発表されている。

図 6 に血管の容積変化による容積脈波,1次微分

した速度脈波,2次微分した加速度脈波を示す。

加速度脈波は,波形の起伏にとぼしい容積脈波に

対して波形の山が強調され,波形の評価が容易と

なる。現在,診断に用いる波形は加速度脈波(図 7 参照)であり,医師は変曲点の位置により目視もし

くは血管年齢算出式により脈波の評価分析をす

る[9] 。我々はこの波形全体を解析しより精緻な脈

波解析器を提案している[10] 。内容は講演で詳述

する。

a ●

ec ● ●

d●

b

図 7 加速度脈波の変曲点。

6.健康診断データの適用例 -平面と球面

位相の SOM ‒健康診断データに自己組織化マップを適用し

た例を解説する。データの項目は,体重と身長か

ら算出した BMI(Body Mass Index )を使った全

17項目(BMI ,血圧上,血圧下,総コレステロー

ル,LDL コレステロール,HDL コレステロール,

中性脂肪,GOT,GPT,ChE (コリンエステラー

ゼ),HbA1c (ヘモグロビン A1c), γ-GTP,尿酸,

尿素窒素,クレアチニン,血色素量,Ht (ヘマト

クリプト))である。これらの検査項目は各項目

ごとに正常値の範囲が示されている。また GOT,

GPT は肝臓の逸脱酵素であり肝障害の指標であ

るといったような各項目の医学的関連性がある

程度決まっている。表2に項目別の正常値の一例

と表 3にその医学的関連性を示す。

表 2 検査項目別の正常値。

表 3 検査項目相互の医学的関連性。

適切な正規化を施した前処理後のデータを使

用して健康診断データのマップ化を行う。学習に

は幾つかの条件でマップを作成し,今回の目的で

ある健康診断データの可視化に最も適した条件

を探し,マップを作成した[11] 。結果は講演で詳

述する。

7. バイオインフォマティクスへの SOM の

応用

生物の設計図であるゲノムは,どの生物種も 4 種類の塩基(A,T,G,C) で書かれている。この塩基配

列を文章として扱い,単語の出現頻度解析(Word Count) を行うことで,ゲノム配列に潜む多様な情

報を効率的に抽出することを考える。

ゲノム配列が完全に解読されている数種類の

真核生物のゲノム配列を 10,000 塩基(10kb) ごと

に断片化した配列について,3 連・4 連塩基の出

現頻度を計算し平均化したものを用いて SOM 解析を行う[12] 。8.チップマウンタとは

チップマウンタとは,プリント基板上にチップ

状の電子部品を高速に自動的に装着していく機

械である[13]。プリント基板はカラーテレビや

パソコンを始め様々な電気・電子製品に使われて

いる。チップマウンタは以下のように作動して,

プリント基板に電子部品を実装していく。

図 3 にチップマウンタの構成をイメージとして

示す。上から,プリント基板搬送系,ロータリー

型の回転ハンドラ,素子リール格納部から構成さ

れる。まず,プリント基板は装置の X-Y テーブル

上に固定される.部品装着位置は X-Y テーブルの

移動によりなされる。あらかじめ,素子リールの

順序と部品の装着順が決められており,そのプロ

グラムに従って部品の実装がなされる。ハンドラ

に付いているヘッド内に格納されたノズルに,あ

る素子リールの1つの部品が吸着により取り出

され,それがハンドラの回転により基板のある場

所まで運ばれ,装着位置を X-Y ステージの移動に

より確定後,そこでノズルに吸着された部品が落

とされる。プリント基板にはあらかじめ粘着性の

ある接着剤が塗布されており,基板上に部品を落

とすだけで部品が固定されることになる。チップ

マウンタはこのような動作を高速でおこない,プ

リント基板に電子部品を実装していく。

図 8 チップマウンタの模式図。

素子リールを並べる順番と部品装着順のプログ

ラムの出来次第で,実際に装着開始から完了まで

に要する時間(実際に装着開始から完了までに要

する時間のことをタクト時間という。通常 1 枚の

プリント基板当りに要する時間をいうが,それを

部品点数で割ったものを平均タクト時間という。

平均タクト時間は 2003 年現在,高速なもので 0.1 秒/部品が得られている)はこのプログラムの影響

を受ける。この部品を装着する時間をできる限り

短くするプログラムを求めることが重要な問題

となる。この問題を解くために必要となる巡回セ

ールスマン問題の解法として SOM-TSP 法[14,15 ]を適用している。この問題解法のため

の基本的なアルゴリズムの詳細については我々

の論文[16 ]を参照していただきたい。結果は講

演で詳述する。

9.おわりに

ここでは,我々が専門にしているコホネンの自

己組織化マップに関する応用事例として我々の

研究テーマである球面 SOM ,脈波の波形解析,

健康マップ,等を中心にその概略を簡単に紹介し

た。紙面の都合で詳しく紹介できなかったと思う

ので,説明不足であると思われるところは参考文

献を示した。自己組織化マップは人間社会の中で

実際に役に立つニューラルネットワーク技術の

一つであり,人間の脳内での情報処理に比較的近

いものだと確信している。勿論,日頃,得られた

スペクトルデータ,整理したエクセルデータ表を

眺めながら思案に暮れている時にはここに述べ

た例のようにたちどころに解決してくれる便利

で強力なツールである。今後,遺伝子の解析など

の複雑で大量のデータ処理を要する分野でも活

躍が期待されている重要な手法である。

参考文献

[1] T. Kohonen, Self-Organizing Maps, Springer Series in Information Sciences, Volume 30, 2001. T. コホネン,自己組織化マップ,徳高平蔵

他訳,シュプリンガー・フェアラーク東京, 2005. [2] 徳高平蔵,岸田 悟,藤村喜久郎,自己組織化

マップの応用 -- 多次元情報の 2 次元可視化 --,

海文堂出版,1999. [3] 徳高平蔵, 藤村喜久郎,山川烈監修,自己組

織化マップ応用事例集 -- SOM による可視化情報

処理 --,海文堂出版,2002. [4] Helger Ritter, Self-Organizing Maps onnon-euclidean Spaces, Kohonen Maps,Editors, Erkki Oja, and Samuel Kaski, Elsevier,pp.95-110, 1999.[5] 中塚大輔,大藪又茂,クラスタリングにおけ

る球面 SOM の有効性,第 19 回ファジィシステ

ムシンポジウム講演論文集,pp.67-70, 2003. [6] 中塚大輔,藤村喜久郎,徳高平蔵,大北正

昭,球面 SOM を用いたアヤメデータベースの

解析,SOM 研究会,2004. [7] Alfred Ultsch, G. Guimaraes, D. Korus, H.

Li, Knowledge Extraction from Artificial Neural Networks and Applications, Proc. TAT/WTC93, Springer, pp.194-203, 1993. [8] http://www.somj.com/ [9] 高田晴子,鷲野嘉映,加速度脈波と血管年齢,

教育医学 第 43巻 第4 pp.353-359,1998.

[10] 浦瀬新也, 馬庭芳朗, 徳高平蔵, 藤村喜久郎,

副井裕,自己組織化マップを用いた指尖脈波解析,

バイオメディカル・ファジィ・システム学会第 18 回年次大会講演論文集,pp. 131-134,2005. [11] 池田佳宏, 馬庭芳朗, 宇佐美真, 徳高

平蔵, 藤村喜久郎,自己組織化マップ

(SOM) を用いた健康評価システムの構築,

バイオメディカル・ファジィ・システム学

会誌,第 5 巻,第 1 号,2004.

[12] T.Abe, S.Kanaya, M.Kinouchi,Y.Ichiba, T.Kozuki, and T.Ikemura,Informatics for UnveilingHidden Genome Signatures, GenomeResearch. 2003 13: 693-702, 2003.[13] 松下電器産業精機事業部,部品搭載技

術 表面実装ポケットブック, 日刊工業新

聞社,ISBN 4526043125, 1999. [14] 藤村喜久郎, 徳高平蔵, 大島靖広, 田中慎一, 岸田悟,Kohonen 自己組織化マップを用いた巡回

セールスマン問題解法の改良,電気学会論文誌

C, 116-C, pp.350―358, 1996. [15] 藤村喜久郎,徳高平蔵, 石川眞澄,多都市巡

回セールスマン問題での改良SOM-TSP 法の性能

評価,電気学会論文誌C , 119-C, pp.875-882, 1999. [16] 藤村喜久郎,藤脇真一,徳高平蔵,SOM-TSP 法を用いた高速チップマウンタの最適化,電子情

報通信学会論文誌 D-II, J84-D-II, pp.1194 -1202,2001. 連絡先: 徳高平蔵

(有)SOMジャパン

〒680-0941 鳥取市湖山町北 4 丁目 637 Tel: 0857-28-2463 Fax: 0857-28-2463 E-mail: [email protected],