クラスター分析の光と闇cse.naro.affrc.go.jp/minaka/R/clustering-04.pdf知構造の仕様を探るのが最良の道だろう.分類学の長年のゴールだった自然分類(natural...

クラスター分析の光と闇 なぜヒトは分類に憑かれるのか? 三中信宏 農業環境技術研究所 [email protected] http://cse.niaes.affrc.go.jp/minaka/ はじめに"To classify is human" 分類(classification)は,秩序(order)を求める人間の基本的欲求に由来する行為である. 分類の対象は生物であっても非生物であってもかまわない.個物としての多様な対象物の ありようを理解するために私たちはつねに分類し続けている.人間は生まれながらの分類者 (classifier)である.採集狩猟をしながら進化してきた過去数十万年の間に,ヒトは自然界に 存在するパターンを認知し理解するように,認知カテゴリー化および帰納的推論の様式を自 然淘汰によって獲得してきたと考えられる. 分類とは外在する離散的実体を発見する行為であると考えるのはまちがいである.むしろ, 時空的に連続する外界を人間が理解するために,離散的なカテゴリー(類や群)を認知的に 造りだしていると考えるべきだろう.分類は分類学(taxonomy)の専売特許ではない.分類 学者(taxonomist)だけがものを分けているのではない.むしろ,分類学者ならぬ私たち自 身が,実は生得的な分類者として日常生活の中で分類し続けているこの現実をまずはじ めに理解しておきたい. 「クラスター分析(cluster analysis)」とは,多変量解析の手法のひとつとして今日その位 置づけがなされている.それは,多変量データに基づいて対象を群(クラスター)に分ける 手法であると理解されている.しかし,他の多くの統計的手法がそうであるように,クラス ター分析もまたそれが生みだされる契機となった歴史的な文脈があった.なぜ統計学は分類 の世界に足を踏み入れたのだろうか? そこには「客観的な分類」すなわち「自然分類」が 統計学により実現できるのではないかという理想が語られた時代があった.結果としてその 理想は潰え,クラスター分析は分類学においてその栄光の地位を失うことになった.しかし, それは悲しむべきことではない.むしろ,クラスター分析は,私たち人間が根源的にもつ, ある認知的性向に現代的な光を当てているのである「分類するは人の常」. 東北大学「生物統計学」集中講義資料 2004 年 7 月 8 ~ 9 日

Transcript of クラスター分析の光と闇cse.naro.affrc.go.jp/minaka/R/clustering-04.pdf知構造の仕様を探るのが最良の道だろう.分類学の長年のゴールだった自然分類(natural...

Page 1: クラスター分析の光と闇cse.naro.affrc.go.jp/minaka/R/clustering-04.pdf知構造の仕様を探るのが最良の道だろう.分類学の長年のゴールだった自然分類(natural

クラスター分析の光と闇なぜヒトは分類に憑かれるのか?

三中信宏

農業環境技術研究所

[email protected]

http://cse.niaes.affrc.go.jp/minaka/

はじめに̶̶"To classify is human"

分類(classification)は,秩序(order)を求める人間の基本的欲求に由来する行為である.

分類の対象は生物であっても非生物であってもかまわない.個物としての多様な対象物の

ありようを理解するために私たちはつねに分類し続けている.人間は生まれながらの分類者

(classifier)である.採集狩猟をしながら進化してきた過去数十万年の間に,ヒトは自然界に

存在するパターンを認知し理解するように,認知カテゴリー化および帰納的推論の様式を自

然淘汰によって獲得してきたと考えられる.

 分類とは外在する離散的実体を発見する行為であると考えるのはまちがいである.むしろ,

時空的に連続する外界を人間が理解するために,離散的なカテゴリー(類や群)を認知的に

造りだしていると考えるべきだろう.分類は分類学(taxonomy)の専売特許ではない.分類

学者(taxonomist)だけがものを分けているのではない.むしろ,分類学者ならぬ私たち自

身が,実は生得的な分類者として日常生活の中で分類し続けている̶̶この現実をまずはじ

めに理解しておきたい.

 「クラスター分析(cluster analysis)」とは,多変量解析の手法のひとつとして今日その位

置づけがなされている.それは,多変量データに基づいて対象を群(クラスター)に分ける

手法であると理解されている.しかし,他の多くの統計的手法がそうであるように,クラス

ター分析もまたそれが生みだされる契機となった歴史的な文脈があった.なぜ統計学は分類

の世界に足を踏み入れたのだろうか? そこには「客観的な分類」すなわち「自然分類」が

統計学により実現できるのではないかという理想が語られた時代があった.結果としてその

理想は潰え,クラスター分析は分類学においてその栄光の地位を失うことになった.しかし,

それは悲しむべきことではない.むしろ,クラスター分析は,私たち人間が根源的にもつ,

ある認知的性向に現代的な光を当てているのである̶̶「分類するは人の常」.

東北大学「生物統計学」集中講義資料 2004 年 7月 8~ 9日

Page 2: クラスター分析の光と闇cse.naro.affrc.go.jp/minaka/R/clustering-04.pdf知構造の仕様を探るのが最良の道だろう.分類学の長年のゴールだった自然分類(natural

認知カテゴリーと心理的本質主義

なぜ私たちは対象物を「カテゴリー化」するのか? その理由は,多様な対象物をカテゴリー

として類別することにより,記憶の負担を軽減し,情報の貯蔵と検索の効率を上げられるか

らである.文化人類学者が比較したように,連続的波長のスペクトルによって変化する色の

離散的なカテゴリー(「赤」とか「緑」のように)を造ることで色彩のありさまを理解するよ

うに,認知カテゴリーが果たしてきた機能は分類という行為のもつ意義を明らかにする.「記

憶術」としての分類が今なお実用的価値を保持していることは,ほかならない私たち自身が

日常生活の中で日々実感している.

 生物分類学を過去 2000 年にわたって支配した本質主義(essentialism)は,生物の分類群(タ

クソン)を定義できる本質的性質の発見を求めてきた.ここでいう本質主義は,群には本質

(essence)が存在するとみなす立場であり,その立場に立つと自然界は本質をもつ群で構成

されているという教義̶̶「自然類(natural kinds)の教義」と呼ばれるものに行き着く.

 もちろん,現代の進化学は生物に関するこの本質主義は反進化的であるとして全面的に排

除する.なぜなら,本質によって定義された群は原理的に進化できないからである.しかし,

むしろやっかいなのは,学問的なレベルで本質主義が拒絶できたとしても,もっと心理的・

認知的なレベルで本質主義を排除し切れるのかという問題である.「なぜヒトはそれにもか

かわらず本質を求めるのか?」という点にあると私は考える.最近の発達心理学の研究は,

人間の幼児が,机や椅子のような人工物の類とは異なり,イヌやトリのような「生きものの

類」の中に本質が潜在すると認知してカテゴリー化していることを明らかにした.すなわち,

人間は生得的に心理的本質主義(psychological essentialism)をビルトインされているとい

うことだ.分類の認知的な基盤は進化的思考と根本的に相容れない.分類対象が時空的に進

化するケースでは,このような矛盾が表面化する.

理想の分類を目指して̶̶「数量表形学」の登場

分類は人間ともにあった.実用的記憶術としての分類の認知的ルーツは,いまなお私たちが

日常的に行なう分類の基本線を決定している:1)互いに類似した対象物を離散的にカテゴ

リー化することにより名称の数を減らす;2)つくったカテゴリーを階層化し,階層的分類

体系として構造化する;3)構築した分類体系はできるだけ大規模な変更を回避し,部分的

な改良でしのぐ̶̶記憶のためのこれら3つの認知的方策(離散カテゴリー・階層的構造・

安定性)は,いずれも生物分類学者たちが実用的な分類体系のもつべき望ましい特性として

挙げたものである.望ましい分類とは覚えやすい分類である.

 記憶術としての分類の有用性を改良しようと分類学者がもし考えるのであれば,人間に

よる対象物の認知カテゴリー化についてより深く知る必要がきっとあるだろう.認知を抜

きにして分類を論じてもしかたがない.分類カテゴリー化を行なう主体としての人間の認

Page 3: クラスター分析の光と闇cse.naro.affrc.go.jp/minaka/R/clustering-04.pdf知構造の仕様を探るのが最良の道だろう.分類学の長年のゴールだった自然分類(natural

知構造の仕様を探るのが最良の道だろう.分類学の長年のゴールだった自然分類(natural

classification)なるものがもし実現可能だとしたら,それは認知科学の中から生まれてくる

ものだと私は考える.

 しかし,分類学の歴史を振り返ると,必ずしもそのような道筋をたどってきたわけでは

ない.むしろ,分類群の本質主義的性格をそのまま温存して,数量化への道を驀進した時代

があった.それが 1950 年代後半から始まった生物分類学における数量表形学(numerical

phenetics)すなわち数量分類学(numerical taxonomy)の運動だった.多変量解析法として

のクラスター分析は数量表形学の中で生まれ育ち,新興の数量表形学にとってまさに「剣」

だった.

 数量表形学は,数値化された多変量データに基づいて分類対象(OTU: operational

taxonomic unit)の間の近さを距離(全体的類似度 overall similarity)として計算し,距離

の近いものを群(クラスター)にまとめていくというクラスター分析の手法を生物分類体系

の構築に適用する.数量表形学者は,系統という実証不可能な概念を含む分類体系だめだと

批判し,系統に代わる生物間の関係を表現する尺度として,多数の形質に基づく全体的類似

度を用いようとした.自然分類とはできるだけ多くの形質を共有する分類群から成るべきで

あり,そういう分類体系はより多くの予測を可能にする一般的な分類体系(general purpose

classification)であるという信念に鼓舞された数量表形学者たちは,伝統的な進化分類学へ

の攻勢を強めた.

 数量表形学の教義は次の四つである:1)分類体系の再現性と客観性を目指す;2)等し

く重み付けした多数の形質から計算された定量的類似度を用いること;3)形質の相関に基

づいて情報量の大きな群を構築すること;4)表形的考察と系統的考察とを峻別すること.

系統に頼らなくても客観的な分類体系は構築できるという信念がここに読み取れる.

 クラスター分析それ自体は純粋に数学の世界に属する手法である.生物分類学という数学

とは無縁の学問分野に,なぜ数量表形学のような学派が生じたのかという疑問は誰しも抱く

だろう.数量分類学派の歴史をたどると,進化や系統に基づく分類に対する伝統的分類学側

の反発が大きかったことが数量表形学の追い風になったようだ.

 勃興しつつあった数量分類学を象徴する Sokal and Sneath(1963)『数量分類学の原理』

("Principles of Numerical Taxonomy")の出版を契機として,進化分類学派は,数量表形学

派に反撃をしかけた.進化分類学派にしてみれば,表形学に潜む類型論(typology)は時代

錯誤のイデオロギーであり,それが容認する本質主義は反進化と同義だった.数量表形学派

が,形而上学や科学方法論のレベルでの論議でナイーヴ過ぎたことは確かだった.

数量表形学の敗退̶̶生物分類学は「ノー」と言った

クラスター分析を武器に闘いを挑んだ数量表形学派はその後どのような運命をたどったか?

 1970 年代半ばから 80年代はじめにかけて「分類情報量論争」において一つの決着がつけ

Page 4: クラスター分析の光と闇cse.naro.affrc.go.jp/minaka/R/clustering-04.pdf知構造の仕様を探るのが最良の道だろう.分類学の長年のゴールだった自然分類(natural

られた.数量表形学派は,分類体系と元データとの一致性を示す尺度として共表形相関係数

(cophenetic correlation coefficient)を提唱した.この指数は,元データである類似度行列の

成分とそれから導かれたデンドログラム(表形図 phenogram)の上で計測される操作的分類

単位(OTU)間の共表形行列(cophenetic matrix)の成分との行列相関係数として定義され

る.この共表形相関係数は,与えられた類似度行列とデンドログラムとの適合性の尺度であ

り,与えられた形質情報がある分類体系の中にどれくらい正確に保存されているのかをあら

わす.

 数量表形学派はクラスター分析に基づく表形的分類体系の方が系統に基づく分類体系より

も共表形相関係数が高いと主張してきた.進化や系統による分類体系では,分岐情報は別と

して,生物間の分化の程度をあらわす類似度(あるいは非類似度)の情報をうまく反映でき

ないだろうという論拠だった.

 しかし,実際にこの点を調べるほど,実は系統的な分類体系の方が表形的な分類体系よ

りも共表形相関係数が高いという皮肉な結果が明らかになってきた.その理由は,系統的分

類体系では系統樹の枝に沿った距離(path-length distance)として類似度情報を保存するの

に対し,表形的分類体系ではクラスター分析から出力されたデンドログラムの連鎖レベル

(linkage level:クラスターどうしの結合する類似度指数の大きさ)によってしか距離情報を

保存できないからだ.要するに,クラスター分析から出力されるデンドログラムは,その構

造上の特性により,距離情報をごく近似的な荒っぽいやり方でしか保存できなかったのであ

る.

 さらに,時期を同じくした「分類安定性論争」の中でも,数量表形学派は地滑り的勝利を

おさめることができなかった.表形学派は,その初期から,表形分類は他の分類体系よりも

安定であると主張した.しかし,他学派との論争の中で,表形的分類体系には客観性・安定性・

情報量が欠けているのではないかという疑念が次第に広がってきた.双方の主張は平行線を

たどった.

しかしクラスター分析は不滅だ̶̶認知分類のツールとして

生物分類学での数十年にわたる論争は,数量表形学派(およびクラスター分析)にとっては

苦い経験だった.結論からいえば,数量表形学派は生物分類の世界から足を洗い,勝負から

撤退した.数学には関心があっても哲学には疎い数量表形学者にとっては,もともと勝ち目

のない勝負といってもよかっただろう.さらに,表形学派の主たる論点である表形的分類体

系の情報量や安定性がことごとく論破されたため,客観的な分類体系を樹立するという同派

の目標達成に陰りがさしたことも敗因の一つに挙げられるだろう.より根本的には,全体的

類似度という尺度による分類体系は,進化的なスタンスによる系統体系学とは反りが合わな

かったという点も無視できないだろう.系統関係を推定する技法が進歩して,精度の高い系

統樹が推定できるようになったという別の要因も絡んでいた.

Page 5: クラスター分析の光と闇cse.naro.affrc.go.jp/minaka/R/clustering-04.pdf知構造の仕様を探るのが最良の道だろう.分類学の長年のゴールだった自然分類(natural

 理由は単純ではなかったのかもしれないが,現実は単純だ̶̶数量表形学は生物分類の世

界から消えた.しかし,それは数量表形学やクラスター分析が絶滅したことを意味してはい

ない.第一に,クラスター分析はもともとピュアな数学的手法ゆえ適用範囲にこだわらない

という特徴がある.生物学では,生物統計学・生態学・遺伝学・形態測定学などの分野にク

ラスター分析が適用されてきた.外に目を向けると,心理学・社会学・認知科学などもその

恩恵を受けている.何も生物分類学だけにこだわる必要はないし,そこでの論争だけにエネ

ルギーを注いではいられなくなったということだ.1980 年代以降の数量表形学派は,分類

学の外に新たな活動ニッチに発見し進出していったと私は考えている.

 もし,クラスター分析が分類への適用をなお考えるとしたならば,認知分類への利用可能

性が残されているように私は思う.上述したように,生物の系統進化を前提とする系統体系

学が主流となっている現在の生物分類学の世界では数量表形学派は生き続けることはできな

い.しかし,認知科学としての分類カテゴリー化の問題に表形学的な技法を利用することは

きっと意義があるだろう.私たちが自然であると認知する分類群のクラスター構造が明らか

になるかもしれない.

 クラスター分析の結果を「深読み」してはいけない.クラスター分析は,類似度指数の選

択やクラスタリング・アルゴリズムの選択を変更することにより,結果のデンドログラムが

大きく変わってしまうという欠点がある.どれが妥当なクラスター分析のオプション設定で

あるかを答えることは不可能である(客観的分類のための設定が主観的に選ばれるという皮

肉).もちろん,このことはどのオプションを使ってもかまわないという意味ではない.生

物学関連分野に限定するかぎり,数あるクラスター分析のオプションの中で,UPGMA(群

平均法)以外のすべては現在まったく使われていないことは指摘しておくべきだろう.した

がって,あるオプション設定に基づくクラスター分析の結果が何かしら「真実」を言い当て

ていると信ずるのは思慮が足りない.クラスター分析によって何かが推定されたりテストさ

れたりしているわけではない.

 クラスター分析は,多変量データから対象物(OTU)の間の関係を読み取るための視覚化

(visualization)のツールである.この点では主成分分析(principal component analysis)や

因子分析(factor analysis)と同列の手法である.その主たる利用法はあくまでも「発見的

利用(heuristics)」にあり,ユーザーがインスピレーションを得られればよしとしなければ

ならない.認知分類はわれわれの脳の中に生まれる.表形的なデータ(かたち,生態,行動)

に基づく認知分類は,無意識のうちに多変量データを扱っているのかもしれない.クラスター

分析がその認知分類のあり方とカテゴリー化を解明するツールとして発見的に用いられるか

ぎり,クラスター分析は不滅である.

距離指数の原理

クラスター分析の基本原理は「似ているものをひとまとめにする」ことにある.ここには

Page 6: クラスター分析の光と闇cse.naro.affrc.go.jp/minaka/R/clustering-04.pdf知構造の仕様を探るのが最良の道だろう.分類学の長年のゴールだった自然分類(natural

ふたつの演算が含まれている.ひとつは,対象物(操作的分類単位:OTU = operational

taxonomic unit)間の類似度の数値化である.もうひとつは,計算された類似度にしたがっ

てOTU を群(クラスター)にまとめ上げていくクラスタリングである.以下では,前者に

ついて解説する.

 数量表形学では,OTU 間の類似性を表形的(phenetic)な全体的類似度(overall

similarity)によって数値化するという基本的な姿勢がある.その哲学的な動機づけは別とし

て,OTUごとに数値化された形質データがあるとき,OTU間の類似度をどのような尺度によっ

て数値化すればいいのかという問題は,クラスター分析だけではなく,距離法に基づく系統

樹推定法の論議にも関わってくる.

 対象物間の「似ている程度」は距離(distance)ということばで表現されることがある.

しかし,距離という概念の定義と内容を明確にするためには,より厳密な計量性(metricity)

の観点から定式化しておく必要があるだろう.x,yを任意のOTUとするとき,ある写像φ (x,y)

が計量(metric)であるためには,次の4条件が満足される必要がある:

A1) 非負性(nonnegativity):φ (x,y) ≧ 0

A2) 対称性(symmetry):φ (x,y) =φ (y,x)

A3) 確定性(definiteness):φ (x,y) = 0 となる必要十分条件は x= yである

A4) 三角不等式(triangle inequality):φ (x,z) ≦φ (x,y) +φ (y,z)

A1 と A2 は,「距離」のイメージを連想させるので直感的に受け入れられるだろう.A3もま

た「同じものならば距離ゼロ」という直感的理解ができる.じっさい,A3で「x=y」とおけば「φ

(x,x) =φ (y,y) = 0」となる.この A3の代わりに,より緩和された仮定

A3') 擬計量性(pseudometricity):φ (x,x) = 0

を置くと,擬計量(pseudometric)が得られる.このとき,φ (x,y) = 0 であっても x ≠ y

であることが許される.

 三角不等式(A4)が満たされているならば,異なる3点間の「距離」はある三角形の3辺

をつくることができる.この条件は,「距離」が‘物理的解釈’できるかどうかという基準

を与える.三角不等式を仮定しない距離は非計量(nonmetric)と呼ばれる.

 クラスター分析や系統分析では,A4よりもさらに厳しい次の条件群の方がむしろ重要で

ある:

A4') 相加性(additivity):φ (x,y) +φ (z,u) ≦ max{ φ (x,z) +φ (y,u), φ (x,u) +φ (y,z)}

A4'') 超計量性(ultrametricity):φ (x,z) ≦ max{ φ (x,y), φ (y,z)}

相加性の条件 A4' は,これまで相加的距離(additive distance)の「4点条件(4-point

condition)」と呼ばれてきたもの.また,さらに強い超計量性の条件 A4'' は,1970 年代は

じめの数量分類学では表形図(phenogram)における距離(ultrametric distance)の満たす

Page 7: クラスター分析の光と闇cse.naro.affrc.go.jp/minaka/R/clustering-04.pdf知構造の仕様を探るのが最良の道だろう.分類学の長年のゴールだった自然分類(natural

べき条件式として登場していた(Jardine & Sibson, 1971, 『Mathematical Taxonomy』 John

Wiley & Sons).

 以上を要約すると,「距離」が満たすべき条件の組み合わせによって,下記のような定義

群が得られる:

A1 + A2 pseudometric

A1 + A2 + A3 nonmetric

A1 + A2 + A3+ A4 metric

A1 + A2 + A3+ A4' additive

A1 + A2 + A3+ A4'' ultrametric

擬計量<非計量<計量の順に定義の厳しさが大きくなっていく.計量性・相加性・超計量性

の間にも同じ関係がある:

【命題1】超計量性は相加性を含意し,相加性は計量性を含意する.その逆は成

立しない.

【証明】1) 超計量性→相加性の証明:任意の x,y,z に対して超計量性「A4''」が成

立するとき,φ (x,z) ≦ max{ φ (x,y), φ (y,z)}.一方,相加性「A4'」の条件式で z

= uであるとき:

φ (x,y) +φ (z,z) ≦ max{ φ (x,z) +φ (y,z), φ (x,z) +φ (y,z)}

左辺第2項はゼロ,右辺は同一の項になるので:

φ (x,y) ≦φ (x,z) +φ (y,z) (i)

「A4''」と (i) の左辺どうしを比較すればよい.□

2) 相加性→計量性の証明:上の (i) は三角不等式「A4」と一致するので,自明.

三角不等式「A4」は三角形の3辺をなすという幾何学的解釈が可能だ.相加性と超計量性に

ついても同様の解釈ができる.それを示すために,次の【命題2】をまず提示する:

【命題2】3実数 X,Y,Z(X ≦ Y ≦ Z)の間に X ≦ max{Y,Z};Y ≦ max{Z,X};Z

≦max{X,Y} が成り立つとき,X≦ Y= Z.

【証明】3数の大小関係により,

X ≦ max{Y,Z} = Z (1)

Y ≦ max{Z,X} = Z (2)

Z ≦ max{X,Y} = Y (3)

前提により (1) は成立.(2) と (3) から Y = Z が導かれる.よってX≦ Y= Z.□

この結果を利用して,次の命題が証明できる:

Page 8: クラスター分析の光と闇cse.naro.affrc.go.jp/minaka/R/clustering-04.pdf知構造の仕様を探るのが最良の道だろう.分類学の長年のゴールだった自然分類(natural

【命題3】

1)x,y,z に関してφ (x,y), φ (x,z), φ (y,z) が超計量性を満たすとき,最大の二つは

互いに等しく,残る一つよりも大きい.

2)x,y,z,u に関してφ (x,y), φ (x,z), φ (y,z), φ (y,z), φ (y,u), φ (z,u) が相加性を満

たすとき,三つの和φ (x,y) +φ (z,u), φ (x,z) +φ (y,u), φ (x,u) +φ (y,z) のうち,

最大の二つは互いに等しく,残る一つよりも大きい.

【証明】1) 一般性を失うことなくφ (x,y) ≦φ (x,z) ≦φ (y,z) と仮定できるので,X

=φ (x,y),Y =φ (x,z),Z =φ (y,z) と置くことにより,命題2が適用される.□

2) 一般性を失うことなくφ (x,y) +φ (z,u) ≦φ (x,z) +φ (y,u) ≦φ (x,u) +φ (y,z)

と仮定できるので,それぞれの和をX,Y,Z と置くことにより,命題2が適用される.

この【命題3】は,超計量性あるいは相加性を満足する計量が,ある計量空間の中で「等

辺が底辺よりも長い二等辺三角形」を形成することを意味している.超計量の場合は,三角

不等式をより強く制約したかたちで,同じ空間内で二等辺三角形を形成する.一方,相加性

を満たす計量の場合は,それが二等辺三角形をつくる別の計量空間を導出する必要がある.

Semple & Steel の『Phylogenetics』の第7章では次の命題が示されている:

【命題4】(Semple & Steel 2003: 149, Lemma 7.2.2)

OTU 集合 X 上の計量δが相加性を満足するのは,X の任意の点 r に対する

Gromov 積δ [r] = (1/2){ δ (x,y) -δ (r,x) -δ (r,y)} が超計量であるときそして

そのときに限られる.

【証明】1) δ [r] の超計量性→δの相加性の証明:超計量性条件「A4''」により:

δ [r](x,z) ≦ max{ δ [r](x,y), δ [r](y,z)}

Gromov 積の定義により:(1/2)[ δ (x,z) -δ (x,r) -δ (z,r)] ≦

max{(1/2)[ δ (x,y) -δ (x,r) -δ (y,r)],(1/2)[ δ (y,z) -δ (y,r) -δ (z,r)]}

両辺を2倍して,δ (x,r) +δ (y,r) +δ (z,r) を加えると:

δ (x,z) +δ (y,r) ≦ max{ δ (x,y) +δ (z,r), δ (x,r) +δ (y,z)}

これは相加性条件「A4'」にほかならない.□

2) δの相加性→δ [r] の超計量性の証明:上の式変形を逆にたどれば自明.□

上で導入された「Gromov 積」とは,分岐分析(Wagner 樹計算)の過程で,ある枝と点と

の距離の計算式(Semple & Steel は「Farris 変換」と名づける)として登場するものと同一

の絶対値をもつ.

 クラスター分析のデンドログラムと超計量とは完全に対応付けられる.いま,デンドログ

ラムの根ρからOTU集合にいたる祖先子孫関係の半順序(partial order)≦を考える.デン

ドログラムの枝に対して

Page 9: クラスター分析の光と闇cse.naro.affrc.go.jp/minaka/R/clustering-04.pdf知構造の仕様を探るのが最良の道だろう.分類学の長年のゴールだった自然分類(natural

i) 任意のOTUのペアx,yに対して<その直接共有祖先ρからのδは互いに等しい:

δ ( ρ ,x) =δ ( ρ ,y).

ii) ある x と内点(仮想的分類単位:HTU = hypothetical taxonomic unit)u と v

の間に u≦ v≦ xなる関係があるとき,δ (x,v) ≦δ (x,u) となる

という条件を満たす重み(枝長)を対応付ける関数を「等距離重み付け(equidistant

weighting)」と定義する.いま x,y,z に対して x,y の直接共通祖先 vと x,y,z の直接共通祖先

uとの間には u≦ vなる関係があるので,i によりδ (x,y) ≦δ (x,z) かつδ (x,y) ≦δ (y,z),ii

によりδ (x,z) =δ (y,z).よって,【命題3】によりδは超計量となる.その逆も成立し,次

の命題が証明できる.

【命題5】(Semple & Steel 2003: 151, Theorem 7.2.5)

計量δが超計量であるための必要十分条件は,δの等距離重み付けが存在するこ

とである.

この命題により,超計量を図示するクラスター分析のデンドログラムは,ある分岐点から派

生するすべての末端OTU への長さが等距離であるという性質をもつ.言い換えれば,超計

量は上の意味で「等距離」表示ができるということ.

 一方,相加性をもつ計量と樹形図との間にも同様の関係がある.

【命題6】(Semple & Steel 2003: 152, Theorem 7.2.6「Tree-Metric Theorem」)

計量δが相加的であるための必要十分条件は,樹形図(tree)として表示できる

ことである.

デンドログラムは,相加的計量をいつも正確に表現できるわけではない.相加的計量を正確

に表現するためには,相加的樹形図(additive tree)というグラフが必要になるが,これは

超計量的樹形図(ultrametric tree)よりも枝長に関して制約の緩いグラフである.なぜなら,

相加的樹形図はある分岐点から末端OTUまでの距離が互いに異なることを許容するからで

ある.

 さらにいえば,クラスター分析のデンドログラムは「特殊な超計量的樹形図」であり,ク

ラスターの分岐点の「高さ」がOTU 間の距離(超計量値)それ自身を示していて,等距離

重み付けから得られる超計量的樹形図とは樹形が同じでも枝長は異なる.その理由は,デン

ドログラムでは分岐点の高さ(クラスター・レベル)によって距離を表現するのに対し,超

計量樹ではグラフの辺(edge)の長さ(の和)によって距離を表現するというちがいがある

からである.Semple & Steel (2003: 150) のことばを借りれば,超計量的樹形図は枝(辺)

に超計量値を付与した「等距離表現(equidistant representation)」であるのに対し,デンド

ログラムは内点に超計量値を付与した「頂点表現(vertex representation)」をしていると言

うことができる.両者は正確に対応しているのだが(isomorphic ということ),樹形図の解

釈をするときに混乱するおそれはあるだろう.

Page 10: クラスター分析の光と闇cse.naro.affrc.go.jp/minaka/R/clustering-04.pdf知構造の仕様を探るのが最良の道だろう.分類学の長年のゴールだった自然分類(natural

 超計量性や相加性など計量のもつ条件を実際のデータが満足しているとはかぎらない.ま

た,表現手段としての樹形図が計量のもつ性質を正確に表示できるともかぎらない.たと

えば,データが真に超計量的であったとしたら,デンドログラムやそれと同型の超計量的樹

形図は完全に正確にそのデータを表示できるだろう.しかし,データが相加的であっても超

計量的ではなかったとしたら,そのデータから導かれたデンドログラムは正確な表示をし

ていないことになる.すなわち,デンドログラムから導出される常に超計量としての OTU

間の距離尺度と元のデータに示される距離尺度との相関関係(共表形相関係数 cophenetic

correlation coefficient)は,データと樹形図との対応が悪くなるとともに値が低下する.

 実際のクラスター分析で用いられる計量の定義式にはさまざまなものがある.生物学で最

もよく用いられているのは「ミンコフスキー計量(Minkowski metric)」というカテゴリー

に属する距離尺度である:

ミンコフスキー計量(Minkowski metric)

D(x,y) = { Σ [k=1 ~ p](w[k]・¦x(k) - y(k)¦^ λ )}^(1/ λ )

x,y:OTU

x(k),y(k):第 k形質値(k= 1,2,...,p)

w[k]:第 k形質の重み

λ:累乗パラメータ

パラメータλを変化させることにより,次の二つの計量が導出される(いずれもw[k] =1と

する):

λ=1→マンハッタン計量(Manhattan metric)

Dm(x,y) =Σ [k=1 ~ p](¦x(k) - y(k)¦

λ=2→ユークリッド計量(Euclidean metric)

De(x,y) = { Σ [k=1 ~ p](¦x(k) - y(k)¦^2)}^(1/2)

いずれも,数量分類学および系統推定論ではもっとも広く使われる計量である.

 以下,〈R〉を用いた簡単な実例を通して説明する.距離行列を入力データとして「agnes」

でクラスタリングする.

○超計量距離データ

> library(cluster) # ライブラリー「cluster」のオープン

> test.d <- c(2,6,10,6,10,10)

# 距離行列の成分をキー入力し,オブジェクト「test.d」に格納する.

OTU1 ~ 4間の下記の距離値を列ごとにベクトルとして入力した:

OTU1 OTU2 OTU3

OTU1

Page 11: クラスター分析の光と闇cse.naro.affrc.go.jp/minaka/R/clustering-04.pdf知構造の仕様を探るのが最良の道だろう.分類学の長年のゴールだった自然分類(natural

OTU2 2

OTU3 6 6

OTU4 10 10 10

> test.d

[1] 2 6 10 6 10 10

# 入力データの確認

> agn <- agnes(test.d, diss = TRUE, method = "average")

# agnes に「test.d」を距離行列として入力し,群平均法でクラスタリングする.

> plot.agnes(agn, which.plots=2, hang=-1)

# 結果のデンドログラム表示

「agnes」を使えば,形質データ行列ではなく,距離行列からもクラスタリングできる.なお,

もともとのデータが超計量的であるとき,上のデンドログラムから導かれるOTU間の距離

行列は元の距離行列と完全に一致する(すべての行列成分が同一だから).したがって,共

表形相関係数の値は 1となる.

 デンドログラムは超計量の「頂点表示」図式だが,同型で「等距離表示」を可能にする超

計量的樹形図を描くことはたやすい.この場合,枝長の和が長距離となるようにする.

   3.5  0.5  1 ━━┳━━┳━━┳━━ 1   ┃  ┃  ┃ 1   ┃  ┃  ┗━━ 2   ┃  ┃  1.5   ┃  ┗━━━━━ 3   ┃   5   ┗━━━━━━━━ 4

○相加的距離データ

> library(cluster) # ライブラリー「cluster」をオープン.

> test.d <- c(6,7,14,3,10,9) # 相加的距離データをキー入力

OTU1 ~ 4間の下記の距離値を列ごとにベクトルとして入力した:

OTU1 OTU2 OTU3

OTU1

OTU2 6

OTU3 7 3

OTU4 14 10 9

> test.d # 入力した距離行列「test.d」の確認

Page 12: クラスター分析の光と闇cse.naro.affrc.go.jp/minaka/R/clustering-04.pdf知構造の仕様を探るのが最良の道だろう.分類学の長年のゴールだった自然分類(natural

[1] 6 7 14 3 10 9

> agn <- agnes(test.d, diss = TRUE, method = "average")

# 群平均法でクラスタリングして,結果を agnes.object「agn」に格納.

> plot.agnes(agn, which.plots=2, hang=-1)

# デンドログラムの描画

> cutree(agn, c(1,2,3,4))

# ルートからのクラスター構成を表示.

1 2 3 4

[1,] 1 1 1 1

[2,] 1 1 2 2

[3,] 1 1 2 3

[4,] 1 2 3 4

> agn # agnes.object「agn」の中身の表示.

Call: agnes(x = test.d, diss = TRUE, method = "average")

Agglomerative coefficient: 0.4659091

Order of objects:

[1] 1 2 3 4

Height (summary):

Min. 1st Qu. Median Mean 3rd Qu. Max.

3.000 4.750 6.500 6.833 8.750 11.000

Available components:

[1] "order" "height" "ac" "merge" "diss" "call" "method"

以下は,オブジェクト「agn」の内容をひとつひとつ表示させた.

> agn$height # クラスターがリンクする距離(超計量)

[1] 6.5 3.0 11.0

> agn$ac # 凝集係数(agglomerative coefficient)

[1] 0.4659091

> agn$merge

[,1] [,2]

[1,] -2 -3

[2,] -1 1

[3,] 2 -4

> agn$diss # 距離データの表示

Dissimilarities :

[1] 6 7 14 3 10 9

Page 13: クラスター分析の光と闇cse.naro.affrc.go.jp/minaka/R/clustering-04.pdf知構造の仕様を探るのが最良の道だろう.分類学の長年のゴールだった自然分類(natural

Metric : unspecified

Number of objects : 4

上のデンドログラムは,超計量ではないが,相加的ではあるデータの場合,デンドログラム

から得られた超計量距離行列(6.500, 6.500, 11.000, 3.000, 11.000, 11.000)と元の距離行

列(6, 7, 14, 3, 10, 9)との間にちがいがあることを示している.このときの共表形相関係数

は〈R〉を用いて,下記のように計算できる:

> original.data <- c(6, 7, 14, 3, 10, 9) # 元の距離行列

> dendrogram.data <- c(6.500, 6.500, 11.000, 3.000, 11.000, 11.000)

 # デンドログラムからの超計量距離行列

> cpcc <- cor(original.data, dendrogram.data)

 # 共表形相関係数の計算

> cpcc # 共表形相関係数の表示

[1] 0.8917926

相加的計量は相加的樹形図を用いれば正確にその距離情報を表現することができる.

      w  x  ┏━━┳━━┳━━ 1  ┃  ┃  ┃y  ┃  ┃  ┗━━ 2  ┃  ┃  z  ┃  ┗━━━━━ 3  ┃    u  ┗━━━━━━━━ 4

相加的樹形図の各枝の枝長を未知数とおくと,OTU間の距離から,連立方程式を立てること

ができる:

d(1,2) =x+y= 6

d(1,3) =x+w+z= 7

d(1,4) =x+w+u= 14

d(2,3) =y+w+z= 3

d(2,4) =y+w+u= 10

d(3,4) =z+u= 9

d(1,4) - d(2,4) =x-y=4と d(1,2) =x+y=6より,x=5,y=1.d(1,4) - d(1,3)

=u-z=7と d(3,4) =u+z=9より,u=8,z=1となる.結果は下記の通り:

      1  5  ┏━━┳━━┳━━ 1  ┃  ┃  ┃1  ┃  ┃  ┗━━ 2  ┃  ┃  1  ┃  ┗━━━━━ 3

Page 14: クラスター分析の光と闇cse.naro.affrc.go.jp/minaka/R/clustering-04.pdf知構造の仕様を探るのが最良の道だろう.分類学の長年のゴールだった自然分類(natural

  ┃    8  ┗━━━━━━━━ 4

相加性をもつ距離情報が正確に表現されていることがわかる.

クラスタリング・アルゴリズム

クラスター分析の前半で,OTU間の非類似度が,程度のちがいこそあれ,計量性をもつ「距離」

によって数値化されたならば,次に,その距離尺度のもとで「近接している」と判断された

OTUの集合を逐次的に群(クラスター,cluster)の階層的な構造を組み上げる段階に進むこ

とができる.このクラスタリングの手順(アルゴリズム)にもさまざまな方法がある.以下

では,代表的と思われる「SAHN手法群」を紹介するが,その前にクラスタリングの基本的

な考えを説明する.

 クラスターを形成するための基準は「近いものどうしをまとめる」ことにある.とすると,

まずはじめにOTU-OTU 間・OTU- クラスター間・クラスター - クラスター間の「近さ」を定

量化しなければならない.OTUと OTU との「近さ」は採用された距離尺度によって自動的

に決まるので,論じなければならないのはクラスターとの「近さ」をどう定義するかという

点である.もっとも単純な「単連結法(single linkage method)」によるクラスタリングを例

にとって説明する.

1)単連結法では,あるクラスターと別のクラスター(またはOTU)との「近さ」を「当該

クラスターに属するOTU の間の距離尺度の最小値」によって定義する.したがって,クラ

スターどうしの「近さ」は,最も「近い」OTU間の距離と同一になる.いま,次のような距

離行列がデータとして与えられたとしよう:

b 2

c 6 5

d 10 9 4

a b c

まずはじめに出発点として最小の距離をもつOTUのペアを見つける.この例では距離 d[a,b]

= 2 をもつ (ab) というクラスターがそれにあたる.次に,クラスター (ab) と他の OTUとの

近さを調べると:

d[(ab),c]= min{d[a,c], d[b,c]}= min{6, 5}= 5

d[(ab),d]= min{d[a,d], d[b,d]}= min{10, 9}= 9

d[c,d]= 4

であるから,距離行列は:

Page 15: クラスター分析の光と闇cse.naro.affrc.go.jp/minaka/R/clustering-04.pdf知構造の仕様を探るのが最良の道だろう.分類学の長年のゴールだった自然分類(natural

c 5

d 9 4

(ab) c

となる.

 次にクラスターを形成するのは (cd) であるから,同様にクラスター間の「近さ」を計算す

ると:

d[(ab),(cd)]

= min{d[a,c], d[b,c], d[a,d], d[b,d]}= min{6,5,10,9}= 5

より,距離行列は:

(cd) 5

(ab)

となる.よって,このクラスタリングの結果をデンドログラムで表示すると:

  5     2━━┳━━━━┳━━ a  ┃    ┃  ┃    ┗━━ b  ┃  4  ┗━━┳━━━━ c     ┃     ┗━━━━ d

となる.

2)単連結法の対極にあるクラスタリング法は「完全連結法(complete linkage method)」

である.この方法は,クラスター間の距離を「最大OTU 間距離」によって定義する.上と

同じデータを用いると:

d[(ab),c]= max{d[a,c], d[b,c]}= max{6, 5}= 6

d[(ab),d]= max{d[a,d], d[b,d]}= max{10, 9}= 10

d[c,d]= 4

c 6

d 10 4

(ab) c

となる.さらに

d[(ab),(cd)]

= max{d[a,c], d[b,c], d[a,d], d[b,d]}= max{6,5,10,9}= 10

Page 16: クラスター分析の光と闇cse.naro.affrc.go.jp/minaka/R/clustering-04.pdf知構造の仕様を探るのが最良の道だろう.分類学の長年のゴールだった自然分類(natural

と計算される.自明のことだが,単連結法と比較して,完全連結法の方がクラスター・リン

クの値が大きくなる(とくに,深いクラスターで顕著).

  10    2━━┳━━━━┳━━ a  ┃    ┃  ┃    ┗━━ b  ┃  4  ┗━━┳━━━━ c     ┃     ┗━━━━ d

3)生物学系のクラスター分析で最もよく用いられるアルゴリズムが「群平均法(group

average method)」である.この方法は,数量表形学では「UPGMA(Unweighted Pair-

Group Method using Arithmetic averages )」と呼ばれてきた.群平均法では,クラスター間

の「近さ」をOTU間距離の平均によって算出する.再び,上のデータを用いると:

d[(ab),c]= (1/2)×{d[a,c]+ d[b,c]}= (1/2)×(6+ 5)= 5.5

d[(ab),d]= (1/2)×{d[a,d]+ d[b,d]}= (1/2)×(10+ 9)= 9.5

d[c,d]= 4

c 5.5

d 9.5 4

(ab) c

となる.さらに

d[(ab),(cd)]

= (1/4)×{d[a,c]+ d[b,c]+ d[a,d]+ d[b,d]}

= (1/4)×(6+ 5+ 10+ 9)= 7.5

得られるデンドログラムは下記の通り:

  7.5    2━━┳━━━━┳━━ a  ┃    ┃  ┃    ┗━━ b  ┃  4  ┗━━┳━━━━ c     ┃     ┗━━━━ d

4)その他にも,クラスターに属するOTUの重心(セントロイド)間の距離をもって「近さ」

を定義する「セントロイド法(centroid method)」や,クラスタリングの過程での形質の重

み付けを行なう「McQuitty 法」,群内の分散に対する群間の分散の比を最大化する「ウォード

法(Ward 法)」などさまざまなクラスタリングの手法が提唱されている.しかし,生物分類

学や系統学に関していえば「群平均法(UPGMA)」以外の方法はないに等しい.

 上記の単純な例では,手法によるクラスタリング結果の差が明瞭にはならなかった.しか

Page 17: クラスター分析の光と闇cse.naro.affrc.go.jp/minaka/R/clustering-04.pdf知構造の仕様を探るのが最良の道だろう.分類学の長年のゴールだった自然分類(natural

し,もっと多くのOTUと形質を含む現実的なデータ(〈R〉の実例を別に示した)では,た

とえ同一の距離尺度を用いても,クラスタリング手法によって結果が大きく異なってくるこ

とがある.概論で述べた通り,いずれが正しいのかを問うのは無意味である.われわれの分

類認知能力が「美しい」と認めたパターンを産んだクラスター分析の手法が「勝ち」なのだ.

参考文献リスト

クラスター分析の手法のみを説明した数理統計学本は数知れずある.しかし,クラスター分

析がどのような問題状況の中で成立したのかを知るには,母体となった数量表形学派ならび

にそれを取り巻く当時の生物分類学界のようすを知る必要がある.下記に挙げたいくつかの

文献は,そういう関心をもつ読者にとってきっと役に立つだろう.

【書名】PrinciplesofNumericalTaxonomy.

【著者】Sokal,R.R.andP.H.A.Sneath

【刊行】1963年

【出版】W.H.Freeman,SanFrancisco

【頁数】xviii+359pp.

【ISBN】なし

【書名】MathematicalTaxonomy

【著者】NicholasJardineandRobinSibson

【刊行】1971

【出版】JohnWiley&Sons,London

【叢書】WileySeriesinProbabilityandMathematicalStatistics

【頁数】xviii+286pp.

【ISBN】0-471-44050-7

【書名】NumericalTaxonomy:ThePrinciplesandPracticeofNumericalClassification.

【著者】Sneath,P.H.A.andR.R.Sokal

【刊行】1973年

【出版】W.H.Freeman,SanFrancisco.

【頁数】xvi+573pp.

【ISBN】0-7167-0697-0

【備考】西田英郎・佐藤嗣二訳(1994)数理分類学 .内田老鶴圃 ,東京 ,xvi+696pp.,本体価格

15,000円.(※ただし,訳文のクオリティは絶悪である.)

【書名】過去を復元する:最節約原理・進化論・推論

【著者】エリオット・ソーバー

Page 18: クラスター分析の光と闇cse.naro.affrc.go.jp/minaka/R/clustering-04.pdf知構造の仕様を探るのが最良の道だろう.分類学の長年のゴールだった自然分類(natural

【訳者】三中信宏

【刊行】1996年 07月 15日

【出版】蒼樹書房,東京

【頁数】318pp.

【価格】5,000円(本体価格)

【ISBN】4-7891-3055-X

【原書】ElliottSober1988

ReconstructingthePast:Parsimony,Evolution,andInference

TheMITPress(ABradfordBook),Cambridge,xviii+265pp.

【書名】生物系統学

【著者】三中信宏

【刊行】1997年 12月 15日

【出版】東京大学出版会,東京

【叢書】NaturalHistorySeries

【頁数】xiv+458pp.

【価格】5,600円(本体価格)

【ISBN】4-13-060172-5

【題名】生物体系学におけるポパー哲学の比較受容

【著者】三中信宏・鈴木邦雄

【所収】ポパー哲学研究会(編)批判的合理主義・第2巻:応用的諸問題

【刊行】2002年 08月 30日

【出版】未來社,東京

【頁数】Pp.71-124.

【価格】4,800円

【ISBN】4-624-01161-9

【書名】Phylogenetics

【著者】CharlesSempleandMikeSteel

【刊行】6February2003

【出版】OxfordUniversityPress,Oxford

【叢書】OxfordLectureSeriesinMathematicsandItsApplications24

【頁数】xiv+239pp.

【定価】£45.00(hardcover)

【ISBN】0-19-850942-1

Page 19: クラスター分析の光と闇cse.naro.affrc.go.jp/minaka/R/clustering-04.pdf知構造の仕様を探るのが最良の道だろう.分類学の長年のゴールだった自然分類(natural
Page 20: クラスター分析の光と闇cse.naro.affrc.go.jp/minaka/R/clustering-04.pdf知構造の仕様を探るのが最良の道だろう.分類学の長年のゴールだった自然分類(natural

〈R〉でくらく らクラスター

三中信宏(農業環境技術研究所)

●データの読みこみと前処理(hclust)

> beetle <- read.table("R-cluster.data", header=F)

# データ「R-cluster.data」をオブジェクト「beetle」に格納する.

# 第1行目は形質のコメント行ではないので「header=F」と指定する.

> beetle

# オブジェクト「beetle」を表示する.

# 行番号「1~」ならびに列番号「V1~」が自動的に付く.

V1 V2 V3 V4 V5 V6 V7 V8 V9 V10 V11 V12 V13 V14 V15 V16 V17 V18

1 seriatoporus-g 1 0 1 0 3 3 1 0 0 3 0 0 0 0 0 1 1

2 ellipticus-g 1 0 0 1 0 0 0 1 0 2 0 0 0 0 0 0 1

3 amaroides-g 1 1 0 1 0 0 0 1 1 5 0 0 0 0 0 0 1

4 ruficollis-g 0 1 0 2 3 1 1 0 0 6 1 0 0 0 0 0 1

5 iripennis 0 1 0 1 1 3 2 0 1 0 0 1 1 1 0 0 1

6 mexicanus 0 1 0 0 2 2 2 0 1 0 0 1 1 1 0 0 1

7 interior 0 1 0 0 2 2 2 0 1 0 0 1 1 1 0 0 1

8 evansi 0 1 0 0 2 2 2 0 1 3 0 1 1 1 0 1 1

9 panamensis 0 1 0 1 2 2 2 0 1 0 0 1 1 1 0 0 0

10 woodruffi 0 1 0 1 2 2 2 0 2 0 0 1 1 1 0 1 1

11 puncticollis 0 1 0 0 2 2 2 0 2 0 0 1 1 1 0 1 1

12 tikal 0 1 0 2 2 1 2 0 1 2 0 1 1 1 0 2 0

13 subtinctus 0 1 0 2 2 2 2 0 1 0 0 1 1 1 0 2 0

14 braziliensis 1 1 0 1 1 1 3 0 1 6 0 1 1 1 1 2 0

15 suturalis 1 1 1 1 1 1 2 0 2 1 3 1 1 1 1 2 0

16 geminatus 0 1 0 1 1 1 2 0 1 0 0 1 1 1 1 2 0

17 corvinus 0 1 2 1 1 1 2 0 1 4 0 1 0 1 1 0 0

18 cephalotes 1 1 2 1 0 0 0 0 1 0 0 1 0 1 1 0 0

19 gigas 1 1 3 1 0 0 0 0 1 0 0 1 0 1 1 0 0

20 reichardti 1 1 2 1 0 0 0 0 2 4 2 1 0 1 1 0 0

21 lucidus 1 1 2 1 0 0 0 0 2 4 2 1 0 1 1 0 0

22 janthinus 1 1 2 1 0 0 0 0 2 6 2 1 0 1 1 0 0

V19 V20 V21 V22 V23 V24 V25 V26 V27 V28 V29

1 0 1 0 2 0 0 0 0 0 0 1

2 0 1 0 2 0 0 0 0 0 0 1

3 0 1 0 2 0 0 0 0 0 0 1

4 0 1 0 2 0 0 0 0 0 0 1

5 0 1 0 2 0 0 0 0 0 0 1

6 0 2 0 3 0 0 0 0 0 0 1

7 0 2 0 1 1 0 0 0 0 0 1

8 0 1 0 1 1 0 0 0 0 0 1

9 0 1 0 1 1 0 0 0 0 0 1

Page 21: クラスター分析の光と闇cse.naro.affrc.go.jp/minaka/R/clustering-04.pdf知構造の仕様を探るのが最良の道だろう.分類学の長年のゴールだった自然分類(natural

10 0 1 0 1 1 0 0 0 0 0 1

11 0 1 0 1 1 0 0 0 0 0 1

12 1 1 0 2 1 0 0 0 0 0 1

13 1 1 0 1 1 0 0 0 0 0 1

14 1 1 0 2 0 1 0 1 0 0 1

15 1 1 0 2 0 1 0 1 2 0 1

16 1 1 0 2 1 1 0 0 0 0 1

17 1 2 0 2 0 0 1 1 0 0 2

18 1 3 0 2 1 0 1 0 0 0 1

19 1 3 0 2 1 0 1 0 0 0 1

20 1 2 0 2 1 0 1 0 1 0 1

21 1 2 0 2 1 0 1 0 1 0 1

22 1 2 0 2 1 0 0 0 1 0 0

> beetle.x <- beetle[, -1]

# 種名列である第1列を除去したデータ行列をオブジェクト「beetle.x」に格納する.

> beetle.x

# オブジェクト「beetle.x」を表示する.

V2 V3 V4 V5 V6 V7 V8 V9 V10 V11 V12 V13 V14 V15 V16 V17 V18 V19 V20 V21 V22

1 1 0 1 0 3 3 1 0 0 3 0 0 0 0 0 1 1 0 1 0 2

2 1 0 0 1 0 0 0 1 0 2 0 0 0 0 0 0 1 0 1 0 2

3 1 1 0 1 0 0 0 1 1 5 0 0 0 0 0 0 1 0 1 0 2

4 0 1 0 2 3 1 1 0 0 6 1 0 0 0 0 0 1 0 1 0 2

5 0 1 0 1 1 3 2 0 1 0 0 1 1 1 0 0 1 0 1 0 2

6 0 1 0 0 2 2 2 0 1 0 0 1 1 1 0 0 1 0 2 0 3

7 0 1 0 0 2 2 2 0 1 0 0 1 1 1 0 0 1 0 2 0 1

8 0 1 0 0 2 2 2 0 1 3 0 1 1 1 0 1 1 0 1 0 1

9 0 1 0 1 2 2 2 0 1 0 0 1 1 1 0 0 0 0 1 0 1

10 0 1 0 1 2 2 2 0 2 0 0 1 1 1 0 1 1 0 1 0 1

11 0 1 0 0 2 2 2 0 2 0 0 1 1 1 0 1 1 0 1 0 1

12 0 1 0 2 2 1 2 0 1 2 0 1 1 1 0 2 0 1 1 0 2

13 0 1 0 2 2 2 2 0 1 0 0 1 1 1 0 2 0 1 1 0 1

14 1 1 0 1 1 1 3 0 1 6 0 1 1 1 1 2 0 1 1 0 2

15 1 1 1 1 1 1 2 0 2 1 3 1 1 1 1 2 0 1 1 0 2

16 0 1 0 1 1 1 2 0 1 0 0 1 1 1 1 2 0 1 1 0 2

17 0 1 2 1 1 1 2 0 1 4 0 1 0 1 1 0 0 1 2 0 2

18 1 1 2 1 0 0 0 0 1 0 0 1 0 1 1 0 0 1 3 0 2

19 1 1 3 1 0 0 0 0 1 0 0 1 0 1 1 0 0 1 3 0 2

20 1 1 2 1 0 0 0 0 2 4 2 1 0 1 1 0 0 1 2 0 2

21 1 1 2 1 0 0 0 0 2 4 2 1 0 1 1 0 0 1 2 0 2

22 1 1 2 1 0 0 0 0 2 6 2 1 0 1 1 0 0 1 2 0 2

V23 V24 V25 V26 V27 V28 V29

1 0 0 0 0 0 0 1

2 0 0 0 0 0 0 1

3 0 0 0 0 0 0 1

4 0 0 0 0 0 0 1

5 0 0 0 0 0 0 1

6 0 0 0 0 0 0 1

7 1 0 0 0 0 0 1

8 1 0 0 0 0 0 1

Page 22: クラスター分析の光と闇cse.naro.affrc.go.jp/minaka/R/clustering-04.pdf知構造の仕様を探るのが最良の道だろう.分類学の長年のゴールだった自然分類(natural

9 1 0 0 0 0 0 1

10 1 0 0 0 0 0 1

11 1 0 0 0 0 0 1

12 1 0 0 0 0 0 1

13 1 0 0 0 0 0 1

14 0 1 0 1 0 0 1

15 0 1 0 1 2 0 1

16 1 1 0 0 0 0 1

17 0 0 1 1 0 0 2

18 1 0 1 0 0 0 1

19 1 0 1 0 0 0 1

20 1 0 1 0 1 0 1

21 1 0 1 0 1 0 1

22 1 0 0 0 1 0 0

●距離(非類似度)行列の計算

> d.manhattan <- dist(beetle.x, method="manhattan")

# 「beetle.x」の OTU間のマンハッタン距離を計算し,オブジェクト

「d.manhattan」に格納する.

> d.manhattan # 内容表示.

1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 212 12 3 15 5 4 12 14 11 5 15 15 16 17 6 16 18 19 18 5 7 17 19 20 19 6 3 8 12 18 17 16 9 8 5 9 18 18 19 18 5 6 3 6 10 17 19 20 19 6 7 4 5 3 11 16 20 21 20 7 6 3 4 4 1 12 18 18 19 16 11 12 11 8 8 9 10 13 20 22 23 20 9 10 7 8 4 5 6 4 14 22 22 17 18 17 20 21 16 18 19 20 12 16 15 25 25 26 27 18 21 22 21 19 18 19 15 17 13 16 22 20 21 22 9 12 11 12 8 9 10 6 6 10 11 17 21 21 18 19 16 17 18 17 17 20 21 15 19 13 18 15 18 24 16 17 26 17 18 17 22 16 19 20 18 18 22 21 14 13 19 25 17 18 27 18 19 18 23 17 20 21 19 19 23 22 15 14 1 20 25 19 16 23 24 25 24 23 23 24 25 21 25 21 18 21 12 9 10 21 25 19 16 23 24 25 24 23 23 24 25 21 25 21 18 21 12 9 10 0 22 27 21 16 21 26 27 26 25 25 26 27 23 27 19 20 23 16 13 14 4 4

> d.euclid <- dist(beetle.x, method="euclid")

# 同様にして「beetle.x」のユークリッド距離を計算し,オブジェクト

「d.euclid」に格納する.

> d.euclid # 内容表示

1 2 3 4 5 6 7 82 4.898979 3 5.385165 3.316625 4 4.690416 5.656854 4.123106 5 4.795832 5.000000 6.633250 7.141428 6 4.690416 5.099020 6.708204 7.071068 2.236068 7 4.795832 5.196152 6.782330 7.141428 2.449490 2.236068 8 3.464102 4.898979 5.000000 4.898979 3.872983 4.000000 3.316625

Page 23: クラスター分析の光と闇cse.naro.affrc.go.jp/minaka/R/clustering-04.pdf知構造の仕様を探るのが最良の道だろう.分類学の長年のゴールだった自然分類(natural

9 4.898979 5.099020 6.708204 6.928203 2.236068 2.828427 1.732051 3.46410210 5.000000 5.385165 6.782330 7.141428 2.449490 3.000000 2.000000 3.31662511 4.898979 5.477226 6.855655 7.348469 2.645751 2.828427 1.732051 3.16227812 4.690416 4.898979 5.567764 5.477226 4.123106 4.242641 4.123106 3.16227813 5.291503 5.656854 7.141428 7.211103 3.316625 4.000000 3.316625 4.00000014 5.830952 6.480741 5.000000 4.898979 7.141428 7.211103 7.280110 4.69041615 6.403124 6.244998 7.071068 7.549834 5.477226 5.567764 5.656854 5.56776416 5.656854 5.099020 6.708204 7.483315 3.605551 3.741657 3.605551 4.24264117 5.000000 5.196152 4.690416 5.000000 5.656854 5.567764 5.656854 4.35889918 6.633250 4.690416 6.403124 8.124038 5.385165 5.099020 5.000000 6.16441419 6.855655 5.196152 6.782330 8.426150 5.830952 5.567764 5.477226 6.55743920 6.403124 5.196152 4.472136 5.916080 6.928203 6.855655 6.782330 5.74456321 6.403124 5.196152 4.472136 5.916080 6.928203 6.855655 6.782330 5.74456322 7.000000 6.244998 4.472136 5.567764 8.246211 8.185353 8.124038 6.403124 9 10 11 12 13 14 15 162 3 4 5 6 7 8 9 10 1.732051 11 2.000000 1.000000 12 3.464102 3.316625 3.741657 13 2.449490 2.236068 2.828427 2.449490 14 7.071068 7.000000 7.071068 4.898979 6.782330 15 5.385165 5.099020 5.196152 4.795832 5.000000 6.403124 16 3.162278 3.000000 3.162278 2.828427 2.449490 6.324555 4.358899 17 5.567764 5.830952 5.916080 4.582576 5.916080 4.358899 5.830952 5.56776418 5.099020 5.385165 5.477226 5.477226 5.477226 8.000000 5.916080 4.69041619 5.567764 5.830952 5.916080 5.916080 5.916080 8.306624 6.164414 5.19615220 6.708204 6.782330 6.855655 5.744563 7.000000 5.916080 5.291503 6.40312421 6.708204 6.782330 6.855655 5.744563 7.000000 5.916080 5.291503 6.40312422 8.062258 8.124038 8.185353 6.708204 8.306624 5.567764 6.633250 7.810250 17 18 19 20 212 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 5.196152 19 5.291503 1.000000 20 4.000000 4.795832 4.898979 21 4.000000 4.795832 4.898979 0.000000 22 4.898979 6.708204 6.782330 2.449490 2.449490

●クラスタリング

上で求めたマンハッタン距離行列「d.manhattan」とユークリッド距離行列「d.euclid」に基

づいて,〈hclust〉によりクラスタリングを行なう.クラスタリングのオプション設定は下記

の通り:

method="single" single linkage method

method="complete" complete linkage method

method="average" UPGMA

Page 24: クラスター分析の光と闇cse.naro.affrc.go.jp/minaka/R/clustering-04.pdf知構造の仕様を探るのが最良の道だろう.分類学の長年のゴールだった自然分類(natural

method="mcquitty" McQuitty method

method="centroid" UPGMC

method="median" WPGMC

method="ward" Ward method

各オプション設定での出力を距離行列のタイプごとにまとめる.まずはじめに,マンハッタ

ン距離を用いたときのクラスタリング:

> h1.single <- hclust(d.manhattan, method="single")

> plclust(h1.single, hang=-1)

> h1.complete <- hclust(d.manhattan, method="complete")

> plclust(h1.complete, hang=-1)

> h1.average <- hclust(d.manhattan, method="average")

> plclust(h1.average, hang=-1)

> h1.mcquitty <- hclust(d.manhattan, method="mcquitty")

> plclust(h1.mcquitty, hang=-1)

Page 25: クラスター分析の光と闇cse.naro.affrc.go.jp/minaka/R/clustering-04.pdf知構造の仕様を探るのが最良の道だろう.分類学の長年のゴールだった自然分類(natural

> h1.centroid <- hclust(d.manhattan, method="centroid")

> plclust(h1.centroid, hang=-1)

> h1.median <- hclust(d.manhattan, method="median")

> plclust(h1.median, hang=-1)

> h1.ward <- hclust(d.manhattan, method="ward")

> plclust(h1.ward, hang=-1)

続いて,ユークリッド距離を用いたときのクラスタリング:

> h2.single <- hclust(d.euclid, method="single")

> plclust(h2.single, hang=-1)

> h2.complete <- hclust(d.euclid, method="complete")

> plclust(h2.complete, hang=-1)

Page 26: クラスター分析の光と闇cse.naro.affrc.go.jp/minaka/R/clustering-04.pdf知構造の仕様を探るのが最良の道だろう.分類学の長年のゴールだった自然分類(natural

> h2.average <- hclust(d.euclid, method="average")

> plclust(h2.average, hang=-1)

> h2.mcquitty <- hclust(d.euclid, method="mcquitty")

> plclust(h2.mcquitty, hang=-1)

> h2.centroid <- hclust(d.euclid, method="centroid")

> plclust(h2.median, hang=-1)

> h2.median <- hclust(d.euclid, method="median")

> plclust(h2.centroid, hang=-1)

> h2.ward <- hclust(d.euclid, method="ward")

> plclust(h2.ward, hang=-1)

〈agnes〉は,〈hclust〉と比較して,主として次の点で異なっている.

1)〈agnes〉は「weighted」オプションにより「WPGMA」を実行できる.

2)デンドログラムだけではなく,バナー表示が可能である.

●データの読みこみ

> beetle <- read.table("R-cluster.data", header=F)

# 「R-cluster.data」をオブジェクト「beetle」に格納する.

> beetle.x <- beetle[, -1]

# 「beetle」の第1列を除く残りを「beetle.x」に格納する.

●非類似度の計算とクラスタリング

> agn <- agnes(beetle.x, metric = "manhattan", method="average")

# マンハッタン距離に基づくUPGMAクラスタリングを実行し,

結果を「agn」に格納する.

> agn # 「agn」の内容.

Call: agnes(x = beetle.x, metric = "manhattan", method="average")

Agglomerative coefficient: 0.7436501

Order of objects:

[1] 1 4 2 3 5 6 7 9 10 11 8 12 13 16 14 17 15 18 19 20 21 22

Height (summary):

Min. 1st Qu. Median Mean 3rd Qu. Max.

0.000 4.000 6.000 8.327 13.000 21.010

Available components:

[1] "order" "height" "ac" "merge" "diss" "call"

[7] "method" "order.lab" "data"

Page 27: クラスター分析の光と闇cse.naro.affrc.go.jp/minaka/R/clustering-04.pdf知構造の仕様を探るのが最良の道だろう.分類学の長年のゴールだった自然分類(natural

●結果の図示

> plot.agnes(agn, which.plots=1)

「バナー」によってクラスター構造を表示する.

> plot.agnes(agn, which.plots=2, hang=-1)

「デンドログラム」によってクラスター構造を表示する.

Page 28: クラスター分析の光と闇cse.naro.affrc.go.jp/minaka/R/clustering-04.pdf知構造の仕様を探るのが最良の道だろう.分類学の長年のゴールだった自然分類(natural
Page 29: クラスター分析の光と闇cse.naro.affrc.go.jp/minaka/R/clustering-04.pdf知構造の仕様を探るのが最良の道だろう.分類学の長年のゴールだった自然分類(natural
Page 30: クラスター分析の光と闇cse.naro.affrc.go.jp/minaka/R/clustering-04.pdf知構造の仕様を探るのが最良の道だろう.分類学の長年のゴールだった自然分類(natural
Page 31: クラスター分析の光と闇cse.naro.affrc.go.jp/minaka/R/clustering-04.pdf知構造の仕様を探るのが最良の道だろう.分類学の長年のゴールだった自然分類(natural
Page 32: クラスター分析の光と闇cse.naro.affrc.go.jp/minaka/R/clustering-04.pdf知構造の仕様を探るのが最良の道だろう.分類学の長年のゴールだった自然分類(natural
Page 33: クラスター分析の光と闇cse.naro.affrc.go.jp/minaka/R/clustering-04.pdf知構造の仕様を探るのが最良の道だろう.分類学の長年のゴールだった自然分類(natural
Page 34: クラスター分析の光と闇cse.naro.affrc.go.jp/minaka/R/clustering-04.pdf知構造の仕様を探るのが最良の道だろう.分類学の長年のゴールだった自然分類(natural
Page 35: クラスター分析の光と闇cse.naro.affrc.go.jp/minaka/R/clustering-04.pdf知構造の仕様を探るのが最良の道だろう.分類学の長年のゴールだった自然分類(natural
Page 36: クラスター分析の光と闇cse.naro.affrc.go.jp/minaka/R/clustering-04.pdf知構造の仕様を探るのが最良の道だろう.分類学の長年のゴールだった自然分類(natural