ホモロジー検索演習 (FASTA, BLAST)
description
Transcript of ホモロジー検索演習 (FASTA, BLAST)
遺伝子の生体内での働き(機能)を予測する
・ 個々の遺伝子配列の決定
・ 全ゲノム配列解析による膨大な量の遺伝子配列の決定
生体内での働き(機能)を推測する
様々なデータベースを用いる(統合化データベース)
問い合わせ配列
ペアワイズアライメント データベース
機能が既知な遺伝子やタンパク質の配列機能が未知の配列
類似した配列をデータベースから検索することにより,問い合わせ配列の機能を予測する.
Genbank, SWISS-PROT, PIR等
データベースに対するホモロジー検索
例)実験で得た配列
BLAST, FASTASSEARCH
ギャップ(挿入、欠失)を用いて類似度(スコア)が最大になるように配列を並べ替える方法
塩基配列
A, T, G, C4文字の一致度を計算
配列1 TACG配列2 TTAG配列1と配列2の間の類似度を知りたい
ペアワイズアライメント(1)
T
T
(拡大図)-1
-1
同一文字:1異なる文字: - 1
配列1 TACG配列2 TTAG
ペアワイズアライメント
配列1 T-ACG配列2 TTA-G
ギャップ
ダイナミック・プログラミング法( DP法)
T A C G
T
T
A
G
-1 -1 -1 -1
-1
-1
-1
-1
1 -1 -1 -1
1 -1 -1 -1
-1 1 -1 -1
-1 -1 -1 1
-1 -1 -1 -1
-1
-1
-1
-1
-1
-1
-2 -3 -4
0 -1 -2
-2 0 -1 -2
-1-3 1 0 -1
-2-4 0 0 1
配列1
配列2 0
1
ギャップの挿入
ギャップの挿入
ペアワイズアライメント(2)
アミノ酸配列の場合はどのようにするか?
A, R, N, D, C, Q, E, G, H, IL, K, M, F, P, S, T, W, Y, V
20文字の類似度を定義する必要がある
配列1 GCRC配列2 GWWD
配列1と配列2の間の類似度を知りたい
20文字
アミノ酸配列
ペアワイズアライメント(3)
Cys CSer SThr TPro PAla AGly GAsn NAsp DClu EGln QHis HArg RLys KMet MIle ILeu LVal VPhe FTyr YTrp W
Dayhoff マトリックス( PAM250) 進化の過程でアミノ酸間での置換が,どの程度起こりやすいかを推定し,数値化したもの . 250は進化距離の基準 . PAM40, PAM120, PAM250が存在する .12
C S T P A G N D E Q H R K M I L V F Y W
0 2-2 1 3-3 1 0 6-2 1 1 1 2-3 1 0 -1 1 5-4 1 0 -1 0 0 2-5 0 0 -1 0 1 2 4-5 0 0 -1 0 0 1 3 4-5 -1 -1 0 0 -1 1 2 2 4-3 -1 -1 0 -1 -2 2 1 1 3 6-4 0 -1 0 -2 -3 0 -1 -1 1 2 6-5 0 0 -1 -1 -2 1 0 0 1 0 3 5-5 -2 -1 -2 -1 -3 -2 -3 -2 -1 -2 0 0 6-2 -1 0 -2 -1 -3 -2 -2 -2 -2 -2 -2 -2 2 5-6 -3 -2 -3 -2 -4 -3 -4 -3 -2 -2 -3 -3 4 2 6-2 -1 0 -1 0 -1 -2 -2 -2 -2 -2 -2 -2 2 4 2 4-4 -3 -3 -5 -4 -5 -4 -6 -5 -5 -2 -4 -5 0 1 2 -1 9 0 -3 -3 -5 -3 -5 -2 -4 -4 -4 0 -4 -4 -2 -1 -1 -2 7 10-8 -2 -5 -6 -6 -7 -4 -7 -7 -5 -3 2 -3 -4 -5 -2 -6 0 0 17
ジスルフィド結合性
小型
酸性
塩基性
疎水性
芳香族
BLOSUM マトリックス モチーフ周辺の配列の保存性から数値化したもの . BLOSUM80, BLOSUM62,BLOSUM50が存在する .
距離行列( PAM250)
G C R C
G
W
W
D
G
G
(拡大図)-7
-75
-7 -7 -7 -7
-7
-7
-7
-7
5 -3 -3 -3
-7 -8 2 -8
-7 -8 2 -8
1 -5 -1 -5
-7 -7 -7 -7
-7
-7
-7
-7
アミノ酸の類似度
配列1 GCRC配列2 GWWD
ペアワイズアライメント計算時間を要する。
配列1 GCR-C配列2 G-WWD
-7
5-7
-14 -21 -28
-2 -9 -16
-2-14 -3 0 -7
-9-21 -10 -1 -8
-16-28 -14 -8 -6
配列1
配列2
ギャップの挿入
ギャップの挿入
ペアワイズアライメント(4)
ギャップ
問い合わせ配列
ペアワイズアライメント データベース
機能が既知な遺伝子やタンパク質の配列機能が未知の配列
類似した配列をデータベースから検索することにより,問い合わせ配列の機能を予測する.
Genbank, SWISS-PROT, PIR等
データベースに対するホモロジー検索
例)実験で得た配列
BLAST, FASTASSEARCH
塩基配列 Genbank http://www.ncbi.nlm.nih.gov/
アミノ酸配列 SWISS-PROT http://www.expasy.ch/sprot/
タンパク質立体構造 PDB http://www.rcsb.org/pdb/
PIR http://pir.georgetown.edu/pirwww/dbinfo/pir_psd.shtml
種類 データベース名 URL
生物学的データベースの例
EMBL
DDBJ
http://www.ebi.ac.uk/
http://www.ddbj.nig.ac.jp/
FASTA はじめに文字の良く一致する領域を高速に検索し,最終的にはギャップを入れた完全なアライメントを行う. (利点) BLASTよりも精度が高い. (欠点) BLASTよりも検索速度が遅い.
BLASTでの検索
満足できる結果が得られない場合
BLAST ギャップを入れない部分配列のアライメントを複数集めて評価する. (利点) FASTAよりも検索速度が速い. (欠点) FASTAよりも精度が若干低い(充分な精度).
ホモロジー検索プログラム
FASTAでの検索
ドット・マトリックス
ホモロジー検索プログラム( FASTA)(1)
A C A T AG C
G
A
T
G
A
T
A
ktup = 1
A C A T AG C
G
A
T
G
A
T
A
ktup = 2
問い合わせ配列 問い合わせ配列
データベース中の配列
データベース中の配列 )
))
)))
) ) ) ) ) )
一般に,アミノ酸配列の場合は ktup=2,塩基配列の場合は ktup=6。
○ゲノム解析された生物( KEGG) ・ KEGG GENES(遺伝子)
○重複を除いたデータベース ・ nr-aa (アミノ酸配列; Genbank, UniProt, Refseq, PRF, PDBSTRから作成
・ nr-nt (塩基配列; GenBank, EMBL and RefSeq)
検索の対象となるデータベース
入力する配列
MRSLLILVLC FLPLAALGKV FGRCELAAAM KRHGLDNYR
例えば,実験で,以下の配列が分かったとする.この配列は何のタンパク質に似ているか?
データベースの中から, FASTAを使って,遺伝子を探す.
アライメント
問い合わせ配列
データベースでヒットした配列
相同性(同一アミノ酸残基の割合%)
initn init1 opt Z-score E-value
類似性(類似アミノ酸残基の割合%)
E-value; 8.6e-15 = 8.6×10-15
類似性の指標
E-value
0.001未満 有意0.1 ~ 0.001 微妙0.1以上 有意でない
有意性
1 . 相同性(%) ( Identity) 同一アミノ酸残基(塩基)数の割合。
2. 類似性(%) ( Positive) 物理化学的性質が類似したアミノ酸残基数の割合。
3. E-value 統計的な指標。 同じ長さで同じスコアをもつ配列が偶然にデータベースから 見つかる期待値。
FASTA はじめに文字の良く一致する領域を高速に検索し,最終的にはギャップを入れた完全なアライメントを行う. (利点) BLASTよりも精度が高い. (欠点) BLASTよりも検索速度が遅い.
BLASTでの検索
満足できる結果が得られない場合
BLAST ギャップを入れない部分配列のアライメントを複数集めて評価する. (利点) FASTAよりも検索速度が速い. (欠点) FASTAよりも精度が若干低い(充分な精度).
ホモロジー検索プログラム
FASTAでの検索
問い合わせ配列: … EKAAFDMFDADGGGDISVKEL…
類似ワードのリスト
MFD,MFE,MFN,MYD,MYE,MYN,LFD,…
ワードの検索
問い合わせ配列: … EKAAFDMFDADGGGDISVKEL…データベース配列: … EKEAFSLFDKDGDGDISTKEL…
高い類似性を与える部分配列の対( HSP)の抽出
両側に伸長していく
ホモロジー検索( BLAST)
入力する配列
MLVLFVATWS DLGLCKKRPK PGGWNTGGSR YPGQGSPGGN
例えば,実験で,以下の配列が分かったとする.この配列は何のタンパク質に似ているか?
データベースの中から, BLASTを使って,遺伝子を探す.
BLAST( Basic Local Alignment Search Tool)
BLASTのプログラムの一覧
BLASTN 塩基配列 塩基配列
BLASTP アミノ酸配列 アミノ酸配列
TBLASTN アミノ酸配列 塩基配列
BLASTX 塩基配列 アミノ酸配列
問い合わせ配列(クエリー)
データベース(サブジェクト)プログラム名
>lysozyme1KVFGRCELAAAMKRHGLDNYRGYSLGNWVCAAKFESNFNTQATNRNTDGSTDYGILQINS RWWCNDGRTPGSRNLCNIPCSALLSSDITASVNCAKKIVSDGNGMNAWVAWRNRCKGTDV QAWIRGCRL>lysozyme2RTDCYGNVNRIDTTGASCKTAKPEGLSYCGVSASKKIAERDLQAMDRYKTIIKKVGEKLCVEPAVIAGIISRESHAGKVLKNGWGDRGNGFGLMQVDKRSHKPQGTWNGEVHITQGTTILINFIKTIQKKFPSWTKDQQLKGGISAYNAGAGNVRSYARMDIGTTHDDYANDVVARAQYYKQHGY
FASTA 形式(ファイルから入力する場合)
ホモロジー検索で用いる配列の形式
一般に60文字で改行を入れる。“>”の行はヘッダー。配列の区切りにもなっている。
サンプル配列 1
BLASTN, BLASTX テスト用
>seq1ggcccgagtgggtgggggtgggggggcatccgggggcttagccctggaaccccagctccttgtacttggcagcaatgtcattccggaacagctccagggccttcctcatggccgcctgggcgtcggcgccgaagtccccgggatgcttgctctgcaggacctggatgatggcttctgagatgaactccaggtacttgacggggatcttgtgcttggtggcatgtgactgagccaggggcttcagctccgcctcgtgctgccccttcttcttgaggatgccccccagggcagtgaacaccgtgttgccatgcttcttcaggtcctcagaacccttcatctcgtcctctgacttcaggtgcttgaacttgtcgaacttctccagggtctcggggtggcccttgaagagcctgatgaggacctcctgcccatggcccgcgaggtcagcctctaccttcccccagacgttcagcaccaactgccattccccgtcgctgagccccatggtgtggtctgaagaagacaaaaagagcaagtccgggctgactcggtgtcctggctctgacagctggggtttgagatcgcctggccccaaagggattttatactttccctgaagcttggcacagatcacttgacggcttgctcactctttctcctcctcctcctccctccctttcatgcggggtctaatcttttcctttctgtagctctcacatggaagctattttggggcaggtgccattgtggggaggtaggac
塩基は小文字でも可。コード鎖でなく逆鎖でもよい。
サンプル配列 2
BLASTP, TBLASTN テスト用
>seq2MKATLVLGSLIVGAVSAYKATTTRYYDGQEGACGCGSSSGAFPWQLGIGNGVYTAAGSQALFDTAGASWCGAGCGKCYQLTSTGQAPCSSCGTGGAAGQSIIVMVTNLCPNNGNAQWCPVVGGTNQYGYSYHFDIMAQNEIFGDNVVVDFEPIACPGQAASDWGTCLCVGQQETDPTPVLGNDTGSTPPGSSPPATSSSPPSGGGQQTLYGQCGGAGWTGPTTCQAPGTCKVQNQWYSQCLP*
“*”は終止コドン(翻訳されない)。似た性質のアミノ酸や塩基の繰り返しは複雑性フィルターによって” X”や” n”でマスクされる。フィルターを解除して全長をアライメントすることもできる。
サンプル配列 3
BLASTX テスト用
>seq3ATGGCAAGCCTCCGAAAAACTCACCCGCTACTAAAAATCGCTAACGACGCACTAGTTGACCTCCCTACCCCCTCTAATATCTCTGCATGATGAAACTTTGGCTCACTACTTGGCCTTTGCCTTATTTCTCAAATCCTTACAGGACTATTCCTCGCAATACACTATACCCCTGATGTCGAA
コドン表が standard のままでは正しく翻訳できない場合がある。上の例では Vertebrate Mitochondrial (2) が適切。genome.jp の BLASTX ではコドン表の変更に未対応なので、必要に応じて NCBI (GenBank) 等の BLAST サービスを使う。機能や生物種を推定する程度なら standard のままでもよい。
2つ以上の配列間の類似関係を明らかにする
幾つかの配列において保存されているアミノ酸残基は、構造の安定性や機能の維持に関与する重要なものである
マルチプルアライメント
機能の発現に対して、重要なアミノ酸配列は何か?
アミノ酸配列からの特徴抽出(1)
例)マルチプルアライメント(セリンプロテアーゼ)
完全に保存されたアミノ酸残基 “ *”保存性が高い列 “ :”保存性が低い列 “ .”
配列の保存性から共通構造や、進化的な関係(系統関係)を推測することができる
THRB_HUMAN LESYIDGRIVEGSDAEIGMSPWQVMLFRKSP----QELLCGASLISDRWVLTAAHCLLYPTHRB_BOVIN FESYIEGRIVEGQDAEVGLSPWQVMLFRKSP----QELLCGASLISDRWVLTAAHCLLYPTHRB_MOUSE LDSYIDGRIVEGWDAEKGIAPWQVMLFRKSP----QELLCGASLISDRWVLTAAHCILYPTHRB_RAT LDSYIDGRIVEGWDAEKGIAPWQVMLFRKSP----QELLCGASLISDRWVLTAAHCILYPLFC_TACTR SDSPRSPFIWNGNSTEIGQWPWQAGISRWLADHNMWFLQCGGSLLNEKWIVTAAHCVTYSFA9_RAT EPINDFTRVVGGENAKPGQIPWQVILNGEIE------AFCGGAIINEKWIVTAAHCLK--FA9_RABIT QSSDDFTRIVGGENAKPGQFPWQVLLNGKVE------AFCGGSIINEKWVVTAAHCIK--FA9_PIG QSSDDFIRIVGGENAKPGQFPWQVLLNGKID------AFCGGSIINEKWVVTAAHCIEP-FA7_BOVIN NGSKPQGRIVGGHVCPKGECPWQAMLKLNGA------LLCGGTLVGPAWVVSAAHCFER-FA7_MOUSE NSSSRQGRIVGGNVCPKGECPWQAVLKINGL------LLCGAVLLDARWIVTAAHCFDN-FA7_RABIT GASNPQGRIVGGKVCPKGECPWQAALMNGST------LLCGGSLLDTHWVVSAAHCFDK-PRTC_HUMAN QEDQVDPRLIDGKMTRRGDSPWQVVLLDSKK-----KLACGAVLIHPSWVLTAAHCMDE-PRTC_RAT EELELGPRIVNGTLTKQGDSPWQAILLDSKK-----KLACGGVLIHTSWVLTAAHCLES-PRTC_MOUSE DELEPDPRIVNGTLTKQGDSPWQAILLDSKK-----KLACGGVLIHTSWVLTAAHCVEG-PSS8_HUMAN CGVAPQARITGGSSAVAGQWPWQVSITYEGV------HVCGGSLVSEQWVLSAAHCFPS- : * ***. : *. :: *:::****.
アミノ酸配列からの特徴抽出(2)
: βストランド構造
SecStructure ......................BBBBBB...----.BBBBBBB.....BBBB........THRB_HUMAN LESYIDGRIVEGSDAEIGMSPWQVMLFRKSP----QELLCGASLISDRWVLTAAHCLLYPTHRB_BOVIN FESYIEGRIVEGQDAEVGLSPWQVMLFRKSP----QELLCGASLISDRWVLTAAHCLLYPTHRB_MOUSE LDSYIDGRIVEGWDAEKGIAPWQVMLFRKSP----QELLCGASLISDRWVLTAAHCILYPTHRB_RAT LDSYIDGRIVEGWDAEKGIAPWQVMLFRKSP----QELLCGASLISDRWVLTAAHCILYPLFC_TACTR SDSPRSPFIWNGNSTEIGQWPWQAGISRWLADHNMWFLQCGGSLLNEKWIVTAAHCVTYSFA9_RAT EPINDFTRVVGGENAKPGQIPWQVILNGEIE------AFCGGAIINEKWIVTAAHCLK--FA9_RABIT QSSDDFTRIVGGENAKPGQFPWQVLLNGKVE------AFCGGSIINEKWVVTAAHCIK--FA9_PIG QSSDDFIRIVGGENAKPGQFPWQVLLNGKID------AFCGGSIINEKWVVTAAHCIEP-FA7_BOVIN NGSKPQGRIVGGHVCPKGECPWQAMLKLNGA------LLCGGTLVGPAWVVSAAHCFER-FA7_MOUSE NSSSRQGRIVGGNVCPKGECPWQAVLKINGL------LLCGAVLLDARWIVTAAHCFDN-FA7_RABIT GASNPQGRIVGGKVCPKGECPWQAALMNGST------LLCGGSLLDTHWVVSAAHCFDK-PRTC_HUMAN QEDQVDPRLIDGKMTRRGDSPWQVVLLDSKK-----KLACGAVLIHPSWVLTAAHCMDE-PRTC_RAT EELELGPRIVNGTLTKQGDSPWQAILLDSKK-----KLACGGVLIHTSWVLTAAHCLES-PRTC_MOUSE DELEPDPRIVNGTLTKQGDSPWQAILLDSKK-----KLACGGVLIHTSWVLTAAHCVEG-PSS8_HUMAN CGVAPQARITGGSSAVAGQWPWQVSITYEGV------HVCGGSLVSEQWVLSAAHCFPS-
: * ***. : *. :: *:::****.
βストランド構造 βストランド構造保存性が高い部分 保存性が高い部分
-thrombin Autoprothrombin IIA
マルチプルアライメント(3)