遺伝子検査の基礎知識...2 タカラバイオ 遺伝子検査の基礎知識 1902 1 遺伝子とは? ゲノム・遺伝子・DNA ゲノムは、ある生物が持つ遺伝情報全体を表す用語です。ゲノムの中には、多数の遺伝情
遺伝 統計学における 正単体の活用
description
Transcript of 遺伝 統計学における 正単体の活用
遺伝統計学における正単体の活用
KBS2012/10/09
京大 ( 医 ) 統計遺伝学山田 亮
今日の内容• 正単体とは• 正単体の利用例x3
– 2値型多型が作る組合せアレル ( ハプロタイプ )
• 集団遺伝学・進化学– 多次元分割表
• 代数統計– 木型グラフの次元縮約
• グラフ理論
正単体
正単体のおもな特徴• N 次元空間に N+1 個の頂点• すべての頂点は相互に対等
– 1頂点ベクトルは残りの頂点ベクトルの和と相殺する
• 角は cos(t) = -1/N
正単体の利用例x3• 2値型多型が作る組合せアレル ( ハプロタ
イプ )• 多次元分割表• 木型グラフの次元縮約
2値型多型が作る組合せアレル( ハプロタイプ )
• DNA• 塩基• 4種類 A T G C A
T
G
C
2値型多型が作る組合せアレル( ハプロタイプ )
• 塩基• 4種類 A T G C• 多型• 1塩基多型 (SNP)• 2種類の塩基
– (T/C),…
b
B
a
A
2値型多型が作る組合せアレル( ハプロタイプ )
• 2 SNP が作る組合せアレル(ハプロタイプ)
ABaB
Ab
ab
4 ハプロタイプの関係
b
B
a
A
B
b
a
A
4 ハプロタイプの関係
b
B
a
A
B
b
a
A
ABaB
Ab
ab
4ハプロタイプの関係• 交叉・組換えが起きなければ
– (AB ab) だけのまま• (AB,Ab,aB,ab) の4ハプロタイプの相互関係
は完全に対等ではない
V1
V2 V3
V1V1
V2
V2
V3V3
V4
V4
E1
E1E1
E2E2
E3E3
E3
E4 E2
E4
E4
E5
E5 E5
E6
E6
E6
AB
aBAb
ab
AB
aBAb
ab
AB
aBAb
ab
2SNP 4 ハプロタイプの世界~集団遺伝学~
• 4ハプロタイプの頻度• H=(h(AB),h(Ab),h(aB),h(ab))• H の頻度の状態は四面体上の1
点に対応づけられる• H は進化・人類史において変化
(突然変異・適応・淘汰・組換え)するので、四面体上の動きとして表現される– 頂点:遺伝的多様性がない– 重心:遺伝的に最も多様– 実際の位置 : 相対的な『辺境』
• k 個の SNP: 2k 個の頂点を持つ正単体
AB aBAb
ab
たくさんの多型2k 個の頂点を持つ正単体
正単体の利用例x3• 2値型多型が作る組合せアレル ( ハプロタ
イプ )• 多次元分割表• 木型グラフの次元縮約
非負の空間• N 次元デカルト座標の「部分」
– (10,30,25) というデータに (10,30,25) という座標を与える
– (10,30,26) というデータに (10,30,26) という座標を与える
カテゴリ• 『全部を併せて、 T 個』という制約
(0,T,0)
(T,0,0)
(0,0,T)
3 次元空間にある頂点数が 3 の正単体
この正単体は2 次元平面上にある
自由度のこと• N- カテゴリ → N 次元空間(非負部
分)
• 「 N 個の値の和」という制約を与える• N- カテゴリ → N-1 正単体• N 個の値のベクトル → N-1 次元の点• 次元を1つ落とす
(0,T,0)
(T,0,0)
(0,0,T)
(0,1,0)
(1,0,0)
(0,0,1)
x
y
z
x
y
rotation
𝑥=1
√3
1
√3
( 1√3 ,0)
1
(0,1,0)
(1,0,0)
(0,0,1)
Parallel to yz-plane
x
y
z
x
y
rotation
𝑥=1
√3
1
√3
( 1√3 ,0)
1
正単体とカテゴリ• N カテゴリ• 総数の制約があると• N 次元空間上の N-1 次元亜空間に納まる• 回転すると 1 次元分は定数の N-1 次元空間に N
個の頂点を持つ正単体の頂点座標ベクトルに対応づけられる
rotation
分割表• N x M 分割表
– 2 次元分割表– N- カテゴリ– M- カテゴリ
N x M 分割表まったく制約がない場合
• N x M 個の値に応じて (v(1),v(2),…,v(NxM))という座標を対応づける
(N x M) x (N x M)
N x M 分割表まったく制約がない場合
• N x M 個の値に応じて (v(1),v(2),…,v(NxM))という座標を対応づける
• N カテゴリ・ M カテゴリに制約がないとき( 回転前 ) の正単体頂点座標
< 組み合わせる >
N x NM x M
(N x M) x (N x M)
< 組み合わせる >
N x N M x M
N x M 分割表• N 次元制約空間 ( 正単体 ) x M 次元制約空
間 ( 正単体 )• 座標の表現
< 組み合わせる > →
< 組み合わせる > →
rotation
rotation
x
y
z
x
y
< 組み合わせる > →
< 組み合わせる > →
rotation
rotation
正単体の座標を都合よく決めれば決まる
< 組み合わせる > →
< 組み合わせる > →
rotation
rotation
正単体の座標を都合よく決めれば決まる クロネッカー積
𝑎 𝑗𝑘=1
√𝑛
{𝑎 𝑗𝑘=0( h𝑤 𝑒𝑛𝑘≦ 𝑗−2)
𝑎 𝑗𝑘=√𝑛− 𝑗+1𝑛− 𝑗+2
( h𝑤 𝑒𝑛𝑘= 𝑗−1)
𝑎 𝑗𝑘=−1
√(𝑛− 𝑗+1 ) (𝑛− 𝑗+2 )( h𝑤 𝑒𝑛𝑘≧ 𝑗)
𝑗>1
𝑗=1
正単体の座標を都合よく決めれば決まる
多次元分割表に一般化
shape 2×3×42×3𝒓=(23) 𝒓=(234 )shape vector
The number of the cells
R=
R= 24
𝒓=(𝑟 1𝑟 2⋮𝑟𝑘
)
dimension (k=) 2 (k=) 3
R= 6
multi-way table(k-dimensional table)
10 17 13
11 14 12
多次元化
𝑋=𝑋𝑘⊗ 𝑋𝑘− 1⊗⋯⋯⊗ 𝑋 1( is the Kronecker product)⊗
X is matrix
クロネッカー積
正単体の座標を都合よく決めれば決まる
利用• 複数の遺伝的座位• 複数の表現型• 因子が寄与するモデルの設定
• 解析を幾何学的に取り扱うのが容易になる
Lectures on Algebraic StaticsISBN-13: 978-3764389048
正単体の利用例x3• 2値型多型が作る組合せアレル ( ハプロタ
イプ )• 多次元分割表• 木型グラフの次元縮約
最小全域木を用いた経路型データの線形空間化
経路型データ• 例
– 個体の細胞の発生・分化• 分岐木状
– 特に標本量が多い例として• リンパ球の分化
経路型データ• 発生・分化の段階に連れて、遺伝子発現パターン
が変化する• マーカーは出現しては、消え、再出現したりす
る
(1,0,0) -> (1,0,0) -> (1,1,0) -> (1,1,1) -> (0,1,1) -> (0,1,0)
経路型データ(1,0,0) -> (1,0,0) -> (1,1,0) -> (1,1,1) -> (0,1,1) -> (0,1,0)
フローサイトメトリー(FACS: Fluorescence-activated cell sorting)
http://en.wikipedia.org/wiki/Fluorescence-activated_cell_sorting
11 分子
10 万個の細胞
300 人分発現量測定(蛍光)
特徴付け
割合推定
実験室では・・・目で見ながら『選んでいく』
Plasma cell?
CD138C
D27
木にしてみよう
木にしてみよう• 最小全域木
観測点が作る多様体 ( 様 )
最小全域木で代用してみようMinimum spanning tree
全域木 ( すべてのノードが連結であって、『木』の形 )「辺の長さの和が最小」であるもの
CD138
CD27
特定の分子の多寡で色をつければ…
CD138
CD27
特定の分子の多寡で色をつければ…
(1,0,0) -> (1,0,0) -> (1,1,0) -> (1,1,1) -> (0,1,1) -> (0,1,0)
経路型データ• 木になぞらえるのは悪くない
経路型データ• 木になぞらえるのは悪くない• 木
– ノード ( 標本 ) の数( N) と– N-1 本のエッジの引き具合と– その長さ
経路型データ• 木になぞらえるのは悪くない• 木
– ノード ( 標本 ) の数( N) と– N-1 本のエッジの引き具合と– その長さ
• ずいぶんと情報が少なくできた
経路型データ• 木になぞらえるのは悪くない• 木
– ノード ( 標本 ) の数( N) と– N-1 本のエッジの引き具合と– その長さ
• ずいぶんと情報が少なくできた• 少なくした情報で、無理やりに絵にすれば・・・
– グラフ・レイアウト問題• 高次元データの2次元平面への実現方法
このカーブは『グラフ・レイアウト』アルゴリズムの産物であって、「木」の情報にはない
このカーブは『グラフ・レイアウト』アルゴリズムの産物であって、「木」の情報にはない
木の情報だけを使うと・・・?ノード ( 標本 ) の数( N) とN-1 本のエッジの引き具合とその長さ
木• 次元• ノードの位置
木の情報だけを使うと・・・?ノード ( 標本 ) の数( N) とN-1 本のエッジの引き具合とその長さ
木の次元数
木の次元数
• 辺の数が1 ( 次数が1 ) のノードが加わっても、配置空間の次元は上がらない
木の次元数
• 辺の数が2 ( 次数が2 ) のノードが加わっても、配置空間の次元は上がらない
木の次元数
• 辺の数が3 ( 次数が3 ) のノードが加わると次元が1上がる
木の次元数
• 辺の数がk >=3( 次数が k) のノードが加わると次元が k-2 上がる
木の次元数
• 辺の数がk >=3( 次数が k) のノードが加わると次元が k-2 上がる
どれも正単体
ノードの座標
• エッジの長さを加味すれば、「木の情報のみ」でノードの座標が確定する
木の情報だけを使うと・・・?ノード ( 標本 ) の数( N) とN-1 本のエッジの引き具合とその長さ
ノードの座標
• エッジの長さを加味すれば、「木の情報のみ」でノードの座標が確定する
• その座標は、
木の情報だけを使うと・・・?ノード ( 標本 ) の数( N) とN-1 本のエッジの引き具合とその長さ
その座標は、• 『経路』に沿った距離を反映
• よけいな『のたくり』は排除されている
その座標は、• 『経路』に沿った距離を反映
• よけいな『のたくり』は排除されている
エッジが『生える』角度は「正単体」が決めているから可能な限り『まっすぐ』に伸びている
まっすぐになった
まっすぐ(線形)なことはやはり、なにかにつけて便利
多様体学習の一種• 非線形で次元縮約
今日の内容は・・・• 正単体とは• 正単体の利用例x3
– 2値型多型が作る組合せアレル ( ハプロタイプ )
• 集団遺伝学・進化学– 多次元分割表
• 代数統計– 木型グラフの次元縮約
• グラフ理論
経路型のデータ