RNA 二次構造予測 (3)
description
Transcript of RNA 二次構造予測 (3)
RNA 二次構造予測 (3)
生命情報解析2007年1 1 月 1 日
RNA の二次構造の解析
• RNA は一本鎖なので、折れ曲がって自分自身と結合を作りやすい
• 二次構造が機能と大きく関わっているため、機能を知る手がかりに?5’ 3’
RNA 二次構造による塩基間相互作用
ATTACGGCATTA
CCCC
ATTAATGCATTA
CCCC
ATTAGCGCATTA
CCCC
ATTATAGCATTA
CCCC
(a) (b) (c) (d)
(a) ATGCTACCCCTAGCTA(b) TAGATACCCCTATCTA(c) TAGGTACCCCTACCTA(d) TAGTTACCCCTAACTA
(e) TAGATACCCCTAGCTA
ATTAA GGCATTA
CCCC
(e)
相互情報量の定義
tg,c,a, tg,c,a, )()(
),(log),()//(
i j ji
jiji vPuP
vuPvuPVUI相互情報量
列 U と V の塩基間の関連性の強さを定量的にとらえている
相互情報量の性質
• I(U // V) = I(V // U)
• I(U // V) 0≧
• I(U // V) = H(U) + H(V) – H(U, V)
相互情報量の計算A CA CA CA CC GC GC GC GG TG TG TG TT AT AT AT A
A CA CA GA GC GC GC TC TG TG TG AG AT AT AT CT C
A AA CA GA TC AC CC GC TG AG CG GG TT AT CT GT T
U VU V U V
(a) (b) (c)
(a) のケースでは、H(U)=2, H(V)=2, H(U,V)=4
従って、I(U//V) = H(U)+H(V)-H(U,V) = 0
演習問題
A AA AA GA TC CC CC GC T
U V
列 U,Vにおける塩基間の相互情報量を求めよ。
tRNA の二次構造
GCGCAUGUCGGCGCU
ACUUGGAAU
AGUC
GGU U A A
CGCGUAGCCGCUG U C
AC
GGGU
C
UGCCCGCGGG
UGAGCUU
CCA
G
A
B
C
D E
F
G
H
5’
3’
1 2 3 4 5 6 7 0123456789012345678901234567890123456789012345678901234567890123456789012345678aspU -GGAGCGGTAGTTCAG-TCGGTTAGAATACCTGCCTGTCACGCAGGGGGTCGCGGGTTCGAGTCCCGTCCGTTCCGCCAaspV -GGAGCGGTAGTTCAG-TCGGTTAGAATACCTGCCTGTCACGCAGGGGGTCGCGGGTTCGAGTCCCGTCCGTTCCGCCAaspT -GGAGCGGTAGTTCAG-TCGGTTAGAATACCTGCCTGTCACGCAGGGGGTCGCGGGTTCGAGTCCCGTCCGTTCCGCCAileV -AGGCTTGTAGCTCAG-GTGGTTAGAGCGCACCCCTGATAAGGGTGAGGTCGGTGGTTCAAGTCCACTCAGGCCTACCAileU -AGGCTTGTAGCTCAG-GTGGTTAGAGCGCACCCCTGATAAGGGTGAGGTCGGTGGTTCAAGTCCACTCAGGCCTACCAileT -AGGCTTGTAGCTCAG-GTGGTTAGAGCGCACCCCTGATAAGGGTGAGGTCGGTGGTTCAAGTCCACTCAGGCCTACCAvalV -GCGTTCATAGCTCAG-TTGGTTAGAGCACCACCTTGACATGGTGGGGGTCGTTGGTTCGAGTCCAATTGAACGCACCAvalW -GCGTCCGTAGCTCAG-TTGGTTAGAGCACCACCTTGACATGGTGGGGGTCGGTGGTTCGAGTCCACTCGGACGCACCAalaU -GGGGCTATAGCTCAG-CTGGG-AGAGCGCCTGCTTTGCACGCAGGAGGTCTGCGGTTCGATCCCGCATAGCTCCACCAalaT -GGGGCTATAGCTCAG-CTGGG-AGAGCGCCTGCTTTGCACGCAGGAGGTCTGCGGTTCGATCCCGCATAGCTCCACCAalaV -GGGGCTATAGCTCAG-CTGGG-AGAGCGCCTGCTTTGCACGCAGGAGGTCTGCGGTTCGATCCCGCATAGCTCCACCAalaX -GGGGCTATAGCTCAG-CTGGG-AGAGCGCTTGCATGGCATGCAAGAGGTCAGCGGTTCGATCCCGCTTAGCTCCACCAalaW -GGGGCTATAGCTCAG-CTGGG-AGAGCGCTTGCATGGCATGCAAGAGGTCAGCGGTTCGATCCCGCTTAGCTCCACCAhisR GGTGGCTATAGCTCAG-TTGGT-AGAGCCCTGGATTGTGATTCCAGTTGTCGTGGGTTCGAATCCCATTAGCCACCCCApheV -GCCCGGATAGCTCAG-TCGGT-AGAGCAGGGGATTGAAAATCCCCGTGTCCTTGGTTCGATTCCGAGTCCGGGCACCApheU -GCCCGGATAGCTCAG-TCGGT-AGAGCAGGGGATTGAAAATCCCCGTGTCCTTGGTTCGATTCCGAGTCCGGGCACCAthrW -GCCGATATAGCTCAG-TTGGT-AGAGCAGCGCATTCGTAATGCGAAGGTCGTAGGTTCGACTCCTATTATCGGCACCAasnT -TCCTCTGTAGTTCAG-TCGGT-AGAACGGCGGACTGTTAATCCGTATGTCACTGGTTCGAGTCCAGTCAGAGGAGCCAasnW -TCCTCTGTAGTTCAG-TCGGT-AGAACGGCGGACTGTTAATCCGTATGTCACTGGTTCGAGTCCAGTCAGAGGAGCCAasnU -TCCTCTGTAGTTCAG-TCGGT-AGAACGGCGGACTGTTAATCCGTATGTCACTGGTTCGAGTCCAGTCAGAGGAGCCAasnV -TCCTCTGTAGTTCAG-TCGGT-AGAACGGCGGACTGTTAATCCGTATGTCACTGGTTCGAGTCCAGTCAGAGGAGCCAglyW TGCGGGAATAGCTCAG-TTGGT-AGAGCACGACCTTGCCAAGGTCGGGGTCGCGAGTTCGAGTCTCGTTTCCCGCTCCAglyV -GCGGGAATAGCTCAG-TTGGT-AGAGCACGACCTTGCCAAGGTCGGGGTCGCGAGTTCGAGTCTCGTTTCCCGCTCCAglyX -GCGGGAATAGCTCAG-TTGGT-AGAGCACGACCTTGCCAAGGTCGGGGTCGCGAGTTCGAGTCTCGTTTCCCGCTCCAglyY -GCGGGAATAGCTCAG-TTGGT-AGAGCACGACCTTGCCAAGGTCGGGGTCGCGAGTTCGAGTCTCGTTTCCCGCTCCAthrV -GCTGATATGGCTCAG-TTGGT-AGAGCGCACCCTTGGTAAGGGTGAGGTCCCCAGTTCGACTCTGGGTATCAGCACCAthrT -GCTGATATAGCTCAG-TTGGT-AGAGCGCACCCTTGGTAAGGGTGAGGTCGGCAGTTCGAATCTGCCTATCAGCACCAthrU -GCCGACTTAGCTCAG-TAGGT-AGAGCAACTGACTTGTAATCAGTAGGTCACCAGTTCGATTCCGGTAGTCGGCACCAmetU -GGCTACGTAGCTCAG-TTGGTTAGAGCACATCACTCATAATGATGGGGTCACAGGTTCGAATCCCGTCGTAGCCACCAmetT -GGCTACGTAGCTCAG-TTGGTTAGAGCACATCACTCATAATGATGGGGTCACAGGTTCGAATCCCGTCGTAGCCACCAlysT -GGGTCGTTAGCTCAG-TTGGT-AGAGCAGTTGACTTTTAATCAATTGGTCGCAGGTTCGAATCCTGCACGACCCACCAlysW -GGGTCGTTAGCTCAG-TTGGT-AGAGCAGTTGACTTTTAATCAATTGGTCGCAGGTTCGAATCCTGCACGACCCACCAlysY -GGGTCGTTAGCTCAG-TTGGT-AGAGCAGTTGACTTTTAATCAATTGGTCGCAGGTTCGAATCCTGCACGACCCACCAlysZ -GGGTCGTTAGCTCAG-TTGGT-AGAGCAGTTGACTTTTAATCAATTGGTCGCAGGTTCGAATCCTGCACGACCCACCAlysQ -GGGTCGTTAGCTCAG-TTGGT-AGAGCAGTTGACTTTTAATCAATTGGTCGCAGGTTCGAATCCTGCACGACCCACCAlysV -GGGTCGTTAGCTCAG-TTGGT-AGAGCAGTTGACTTTTAATCAATTGGTCGCAGGTTCGAATCCTGCACGACCCACCAileY -GGCCCTTTAGCTCAG-TGGTT-AGAGCAGGCGACTCATAATCGCTTGGTCGCTGGTTCAAGTCCAGCAAGGGCCACCAileX -GGCCCCTTAGCTCAG-TGGTT-AGAGCAGGCGACTCATAATCGCTTGGTCGCTGGTTCAAGTCCAGCAGGGGCCACCAvalT -GGGTGATTAGCTCAG-CTGGG-AGAGCACCTCCCTTACAAGGAGGGGGTCGGCGGTTCGATCCCGTCATCACCCACCAvalZ -GGGTGATTAGCTCAG-CTGGG-AGAGCACCTCCCTTACAAGGAGGGGGTCGGCGGTTCGATCCCGTCATCACCCACCAvalU -GGGTGATTAGCTCAG-CTGGG-AGAGCACCTCCCTTACAAGGAGGGGGTCGGCGGTTCGATCCCGTCATCACCCACCA
A B C D E F G H
0 1 2 3 4 5 6 7 8 9 0 1 2 3 4 5 6 7 8 9 0 1 2 3 4 5 6 7 8 9 0 1 2 3 4 5 6 7 8 9 0 1 2 3 4 5 6 7 8 9 0 1 2 3 4 5 6 7 8 9 0 1 2 3 4 5 6 7 8 9 0 1 2 3 4 5 6 7 80 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 01 0 0 0 0 0 0 0 0 0 0 1 0 0 0 1 0 0 0 0 0 0 0 0 1 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 1 0 0 0 02 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 1 0 0 0 0 0 0 0 0 0 1 0 0 0 0 0 0 0 0 0 0 0 1 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 1 0 0 0 0 03 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 1 0 0 0 1 0 0 0 0 0 0 0 0 0 0 0 1 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 1 0 0 0 0 0 04 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 1 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 2 0 0 0 0 0 0 05 1 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 1 0 0 0 0 0 0 1 0 0 0 0 0 0 1 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 1 1 0 0 0 0 0 0 0 06 0 0 0 0 0 0 0 0 0 0 0 0 0 0 1 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 1 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 2 1 0 0 0 0 0 0 0 07 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 1 0 1 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 2 0 0 0 0 0 0 0 0 0 08 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 09 0 0 1 0 0 0 0 0 0 0 0 0 0 0 0 1 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 00 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 01 0 0 0 0 0 0 0 0 0 0 0 0 0 0 1 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 1 0 0 02 0 0 0 1 0 0 0 0 0 0 0 0 1 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 03 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 04 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 05 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 06 0 0 0 0 0 0 0 0 1 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 07 0 0 0 1 0 0 0 0 0 0 0 0 0 0 0 1 0 0 0 0 0 0 0 1 0 0 0 0 0 0 0 0 0 0 1 1 0 0 0 0 0 0 0 0 0 0 0 1 1 0 0 0 0 0 0 0 0 0 0 0 08 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 09 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 00 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 01 1 0 0 0 0 0 0 0 0 0 0 0 0 0 1 1 1 0 0 0 0 0 0 0 0 0 0 0 0 0 1 1 0 0 0 0 0 0 0 1 1 0 0 1 0 0 0 1 0 0 0 1 0 0 0 0 02 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 03 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 04 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 05 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 06 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 1 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 1 0 0 07 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 08 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 1 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 09 0 0 0 1 0 0 0 0 1 0 0 1 0 0 0 1 0 0 0 0 0 0 1 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 00 1 0 0 0 0 0 0 0 0 0 0 0 1 2 0 0 0 0 0 0 0 0 1 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 01 0 0 0 0 1 0 0 0 0 0 0 2 1 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 1 1 0 1 0 0 02 0 0 0 0 0 0 0 0 0 1 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 03 0 0 0 0 1 0 0 2 0 0 0 1 0 0 0 0 0 0 1 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 04 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 1 0 0 0 0 0 0 0 0 0 05 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 06 0 0 0 0 0 0 1 0 0 1 0 0 0 0 0 0 0 0 0 0 0 0 0 0 1 0 0 0 0 0 0 1 0 0 0 0 0 0 0 0 0 07 0 0 0 0 0 0 0 0 1 0 0 0 0 0 1 1 0 0 0 0 0 0 0 0 0 0 0 1 0 0 0 0 0 0 0 0 0 1 0 0 08 0 0 1 0 0 0 1 0 0 0 0 0 0 0 1 0 0 0 0 0 0 0 0 0 0 0 1 0 0 0 0 0 0 0 0 0 0 0 0 09 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 00 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 01 0 0 0 1 0 0 0 0 0 0 1 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 02 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 03 1 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 1 1 0 1 0 0 04 0 0 0 0 0 0 0 0 1 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 05 0 0 0 0 0 0 1 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 06 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 1 0 0 0 1 0 0 0 0 0 0 0 0 07 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 08 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 09 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 00 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 01 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 1 0 0 0 0 0 0 0 0 0 0 02 0 0 0 0 0 0 0 0 0 0 0 0 0 1 0 0 0 0 0 0 0 0 0 0 0 03 0 0 0 0 0 0 0 1 0 0 0 2 0 0 0 0 0 1 0 0 0 1 0 0 04 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 05 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 06 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 07 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 08 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 09 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 00 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 01 0 0 0 1 0 0 0 0 0 0 0 0 0 0 0 0 02 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 03 0 0 0 0 0 0 0 0 0 0 0 0 0 0 04 0 0 0 0 0 0 0 0 0 0 0 0 0 05 0 0 0 0 0 0 0 0 0 0 0 0 06 0 0 0 0 0 0 0 0 0 0 0 07 0 0 0 0 0 0 0 0 0 0 08 0 0 0 0 0 0 0 0 0 09 1 0 0 0 0 0 0 0 00 0 0 0 0 0 0 0 01 0 0 0 0 0 0 02 0 0 0 0 0 03 0 0 0 0 04 0 0 0 05 0 0 06 0 07 08
A
H
B
C
D
E
F
G
RNA の二次構造予測
• 複数の RNA 配列がある場合は相互情報量を使用して二次構造の推定が可能
• 単一の配列の場合はどうする?
tRNA の二次構造予測の例
http://www.genome.ad.jp/dbget-bin/www_bget?gb:ECOPHER
http://www.bioinfo.rpi.edu/applications/mfold/old/rna/form1.cgi
Zuker の mfold
GenBank tRNA 配列http://www.genome.ad.jp/dbget-bin/www_bget?gb:ECOCPTGG
RNA 二次構造はグラフで表現できる
A T
ACGT
TGCA
C A
A
AA A
A
A
A
G
AT
T
GCAAA
A AAT
C
A
C
A
RNA 二次構造は行列 C で表現できる
A
G
AT
T
GCAAA
A AAT
C
A
C
A
A
C
A
C
G
T
A
A
A
A
A
A
1A
1C
1G
1T
T
A
ACACGTAAAAAAACGTTA
行列C
良い二次構造予測とは
• 二次構造の安定性を表すスコア体系を構築
• 与えられたスコア体系(評価基準)の中で、最適のスコアになるもの
• 最適なスコアを出す行列Cを求める
スコア体系はどうする?• 塩基 b1 と b2 が対合していたら、 α(b1,b2) の
スコア (ex. α(“a”,“t”) = -2, α(“c”,“g”) = -3)
• RNA の塩基配列を r1r2,…,rnとして、 i番目の塩基 riと j番目の塩基 rjが対合していたら、α(ri,rj) のスコア
• 各部分のスコアは別の部分のスコアに影響されない
ギブスの自由エネルギー• 等温・定圧における状態量• 自然に起こる過程では自由エネルギーは減少し
てゆく (ΔG 0 )≦• 自由エネルギーが低いほど安定
G
U :内部エネルギー、 P :圧力、 V :体積、 T: 温度、 S :エントロピーギブスの自由エネルギー G = U + PV - TS
自由エネルギーと RNA の構造
△G < 0自由エネルギーが低いほど安定な構造
最適二次構造を求める
• 自由エネルギーが最も低い構造を探索
• スコアが最も低い構造を探索
• 全通りの構造を探索 … 多大な時間がかかる
扱う RNA 構造を制限
• edge が交差 … . pseudoknot 構造を含む
• 平面グラフ … . 効率の良いアルゴリズムが存在
平面グラフなら…
i j
kk-1
• 構造を分割して考えることが可能• スコア体系によっては、各分割部分に対してス
コアが定義される
3つの指標の定義• E(Si,j) … 部分配列 ri, ri+1, … rj の構造 Si,j の
最適スコア
• D(Si,j) … 部分配列 ri, ri+1, … rj の構造 Si,j の最適の分割位置
• C(Si,j) … 部分配列 ri, ri+1, … rj の末端 ri と rj
を結合させた方がよい場合は 1 、そうでなければ、 0
E(Si,j) 、 D(Si,j) 、 C(Si,j) の例
• E(Si,j)=-10
• D(Si,j)=15
• C(Si,j)=0
CC
GG
AA
A C
T
T10 20
C
1514
塩基 ri と rj の考えうる3つの状態
i j i j i j
k
塩基 ri と rj が結合
i ji+1 j-1
E(Si,j) = α(ri,rj) + E(Si+1,j-1)
但し、 E(Si,j) は部分配列 ri,ri+1,…,rj の最小自由エネルギー
ri も rj も結合しない
i j
E(Si,j) = E(Si+1,j-1)
ri もしくは rj が他の塩基と結合 : 分割
i j
k
k-1
E(Si,j) = E(Si,k-1)+E(Sk,j)
但し k はどの位置か、実際には分からないため、 i<k j≦ なる k を全て調べる
統合しないケースを分割で表現
i j
k
i j
k
k-1
j,k
i,i+1 で分割 j-1,j で分割
j-1
RNA 二次構造予測の定式化
))()((min
),()(min
if 0
)(,1,
1,1,
jkkijki
jijiji
SESE
rrSEji
SE
E(Si,j) は部分配列 ri,ri+1,…,rj の最小自由エネルギー
… 1塩基以下
… 塩基 ri と rj の結合
… 構造を i ~ k-1 と k ~ j に分割
gttataacac の二次構造予測 ( 行列E)
0 1 2 3 4 5 6 7 8 9
0 0 0 -2 -2 -4 -6 -9 -9 -9
1 0 -2 -2 -4 -6 -6 -6 -6
2 -2 -2 -4 -4 -4 -4 -4
3 -2 -2 -2 -2 -2 -2
4 -2 -2 -2 -2 -2
5 0 0 0 0
6 0 0 0
7 0 0
8 0
9
a-t マッチを -2 、 c-g マッチを -3 として計算
途中経過の記録
• E(Si,j) の記録
• 分割位置 D(Si,j) の記録
i j i j
k
l
k
l
効率の良い計算が可能になる計算過程をたどれる
結合も分割も D に記録
i j
k
k-1
分割 D(i,j) に k(i<k j)≦ を記録
i j
結合 D(i,j) に” XX” などを記録数値なら、 k=i などを記録
gttataacac の二次構造予測 ( 行列D)
0 1 2 3 4 5 6 7 8 9
0 1 1 1 1 1 1 XX 8 8
1 2 2 2 2 XX 7 7 7
2 XX 3 4 4 4 4 4
3 XX 4 4 4 4 4
4 XX 6 6 6 6
5 6 6 6 6
6 7 7 7
7 8 8
8 9
9
XX は結合位置
D から二次構造 C を求める
D→C(i, j) : 行列Dを参照し、区間 (i,j) の二次構造 C を求める
• i j≧ なら処理なし
• D(i,j) が XX なら、 C(i,j) を 1 にして、 D→C(i + 1, j - 1) を呼ぶ
• そうでなければ、D→C(i, D(i,j) - 1) を呼んだ後、 D→C(D(i,j), j) を呼ぶ
gttataacac の二次構造予測 ( 行列C)
0 1 2 3 4 5 6 7 8 9
0 0 0 0 0 0 0 1 0 0
1 0 0 0 0 1 0 0 0
2 1 0 0 0 0 0 0
3 0 0 0 0 0 0
4 1 0 0 0 0
5 0 0 0 0
6 0 0 0
7 0 0
8 0
9 gt
t
a t
a
ac a c
演習問題a-t の対合を -2 点、 c-g の対合を -3 点とし
て、ggagtcc
の最適二次構造 C を求めよ。(1)E(Si,j) の行列に最大スコア、(2)D(Si,j) の行列に分割位置 (or 結合 )
を記録していくこと※ 複数解がある場合は結合よりも分割を優先し、なるべく左側分割部分を小さくすること