[DDBJing29]DDBJ, NIG SuperComputer, 大量配列情報解析(第29回 DDBJing 講習会 in...

Post on 14-Jul-2015

422 views 4 download

Transcript of [DDBJing29]DDBJ, NIG SuperComputer, 大量配列情報解析(第29回 DDBJing 講習会 in...

DDBJ, NIG SuperComputer, 大量配列情報解析

DDBJセンター中村保一

第29回 DDBJing 講習会 in 三島 (2014.6.12)

自己紹介

使い倒し系バイオインフォマティスト

植物とか微生物のゲノム解析+DB屋

@yaskaza.k.a. catlover, ikasumipapa, 猫教授

The Arabidopsis Genome Initiative (2000) Analysis of the genome sequence of the flowering plant Arabidopsis thaliana. Nature, 408, 796-815.

シロイヌナズナの 1/4

(27 Mb, 6200 genes) の解析

http://genome.kazusa.or.jp/cyanobase/

光合成細菌のゲノム解析+データベース。Social Bookmark による遺伝子注釈系

遺伝研/DDBJは静岡県三島市にあります

DDBJ (http://www.ddbj.nig.ac.jp/)

•全世界で解読された塩基配列情報を

•査定して受入れ

•データベースに蓄積し

•公開して共有する

塩基配列データバンクとはこのような事業

データベース

国際塩基配列データベースの一員International Nucleotide Sequence Databank Collaboration

DDBJ (from Release note 92)Jun Mashima, Hideo Aono, Yuji Ashizawa, Yukino Dobashi, Mayumi Ejima, Masahiro Fujimoto, Asami Fukuda, Tomohiro Hirai, Fumie Hirata, Naofumi Ishikawa, Toshikazu Katsumata, Chiharu Kawagoe, Shingo Kawahara, Yuichi Kodama, Junko Kohira, Takehide Kosuge, Kyungbum Lee, Mika Maki, Kimiko Mimura, Takeshi Moriyama, Yoshihisa Munakata, Naoko Murakata, Keiichi Nagai, Toshihisa Okido, Yoshihiro Okuda, Katsunaga Sakai, Makoto Sato, Yoshihiro Serizawa, Aimi Shiida, Yukie Shinyama, Rie Sugita, Kimiko Suzuki, Daisuke Takagi, Daisuke Takai, Haru Tsutsui, Koji Watanabe, Tomohiko Yasuda, Shigeru Yatsuzuka, Emi Yokoyama, Eli Kaminuma, Osamu Ogasawara, Kosaku Okubo, Toshihisa Takagi, and Yasukazu Nakamura

ENA (from Release note 115)Blaise Alako, Clara Amid, Lawrence Bower, Ana Cerdeno-Taraga, Iain Cleland, Richard Gibson,Neil Goodgame, Petra ten Hoopen, Mikyung Jang, Simon Kay, Rasko Leinonen, Xin Liu,Arnaud Oisel, Rodrigo Lopez, Hamish McWilliam, Nima Pakseresht, Sheila Plaister,Rajesh Radhakrishnan, Kethy Reddy, Stephane Riviere, Marc Rossello, Nicole Silvester,Dmitriy Smirnov, Ana Luisa Toribio, Daniel Vaughan, Vadim Zalunin and Guy Cochrane

GenBank (from Release note 195)Mark Cavanaugh, Ilene Mizrachi, Yiming Bao, Michael Baxter, Lori Black, Larissa Brown, Vincent Calhoun, Larry Chlumsky, Karen Clark, Jianli Dai, Michel Eschenbrenner, Irene Fang, Michael Fetchko, Linda Frisse, Andrea Gocke, Anjanette Johnston, Mark Landree, Jason Lowry, Suzanne Mate, Richard McVeigh, DeAnne Olsen Cravaritis, Leigh Riley, Susan Schafer, Beverly Underwood, Melissa Wright, Linda Yankie, Serge Bazhin, Evgueni Belyi, Colleen Bollin, Mark Cavanaugh, Yoon Choi, Ilya Dondoshansky, J. Bradley Holmes, WonHee Jang, Jonathan Kans, Leonid Khotomliansky, Michael Kimelman, Michael Kornbluh, Jim Ostell, Denis Sinyakov, Karl Sirotkin, Vladimir Soussov, Elena Starchenko, Hanzhen Sun, Tatiana Tatusova, Lukas Wagner, Eugene Yaschenko, Sergey Zhdanov, Slava Khotomliansky, Igor Lozitskiy, Craig Oakley, Eugene Semenov, Ben Slade, Constantin Vasilyev, Peter Cooper, Hanguan Liu, Wayne Matten, Scott McGinnis, Rana Morris, Steve Pechous, Monica Romiti, Eric Sayers, Tao Tao, Majda Valjavec-Gratian and David Lipman

DDBJ登録ファイルの例LOCUS AB091058 2109 bp DNA linear BCT 02-SEP-2003DEFINITION Gluconacetobacter xylinus cmcase, ccp genes for endo-beta-1,4-glucanase, cellulose complementing protein, complete cds.ACCESSION AB091058VERSION AB091058.1KEYWORDS .SOURCE Gluconacetobacter xylinus ORGANISM Gluconacetobacter xylinus Bacteria; Proteobacteria; Alphaproteobacteria; Rhodospirillales; Acetobacteraceae; Gluconacetobacter.REFERENCE 1 (bases 1 to 2109) AUTHORS Kawano,S., Tajima,K., Uemori,Y., Yamashita,H., Erata,T., Munekata,M. and Takai,M. TITLE Direct Submission JOURNAL Submitted (28-AUG-2002) to the DDBJ/EMBL/GenBank databases. Contact:Kenji Tajima Hokkaido University, Graduate School of Engineering; N13W8, Kita-ku, Sapporo, Hokkaido 060-8628, JapanREFERENCE 2 AUTHORS Kawano,S., Tajima,K., Uemori,Y., Yamashita,H., Erata,T., Munekata,M. and Takai,M. TITLE Cloning of Cellulose Synthesis Related Genes from Acetobacter xylinum ATCC23769 and ATCC53582: Comparison of Cellulose Synthetic Ability Between ATCC23769 and ATCC53582 JOURNAL Unpublished (2002)COMMENT FEATURES Location/Qualifiers source 1..2109 /db_xref="taxon:28448" /mol_type="genomic DNA" /note="synonym:Acetobacter xylinum" /organism="Gluconacetobacter xylinus" /strain="ATCC 53582" CDS 10..1038 /codon_start=1 /gene="cmcase" /product="endo-beta-1,4-glucanase" /protein_id="BAC82540.1" /transl_table=11 /translation="MSVMAAMGGAQVLSSTGAFADTAPDAVAQQWAIFRAKYLRPSGR VVDTGNGGESHSEGQGYGMLFAASAGDLASFQSMWMWARTNLQHTNDKLFSWRFLKGH QPPVPDKNNATDGDLLIALALGRAGKRFQRPDYIQDAMAIYGDVLNLMTMKAGPYVVL MPGAVGFTKKDSVILNLSYYVMPSLLQAFDLTADPRWRQVMEDGIRLVSAGRFGQWRL PPDWLAVNRATGALSIASGWPPRFSYDAIRVPLYFYWAHMLAPNVLADFTRFWNNFGA NALPGWVDLTTGARSPYNAPPGYLAVAECTGLDSAGELPTLDHAPDYYSAALTLLVYI ARAEETIK"

CDS 1035..2096 /codon_start=1 /gene="ccp" /product="cellulose complementing protein" /protein_id="BAC82541.1" /transl_table=11 /translation="MSASGSDEVAGGGQAGSPQDFQRVLRSFGVEGGQYSYRPFVDRS FDVTGVPEAVERHFDQAEHDTAVEEQVTPAPQIAVAPPPPPVVPDPPAIVTETAPPPP VVVSAPVTYEPPAAAVPAEPPVQEAPVQAAPVPPAPVPPIAEQAPPAAPDPASVPYAN VAAAPVPPDPAPVTPAPQARVTGPNTRMVEPFSRPQVRTVQEGATPSRVPSRSMNAFP RTSASSISERPVDRGVADEWSPVPKARLSPRERPRPGDLSFFFQGMRDTRDEKKFFPV ASTRSVRSNVSRMTSMTKTDTNSSQASRPGSPVASPDGSPTMAEVFMTLGGRATELLS PRPSLREALLRRRENEEES"BASE COUNT 343 a 661 c 661 g 444 tORIGIN 1 cgttccttta tgtcggtcat ggcggcgatg ggaggggcgc aggtgctttc atccaccggt 61 gcgttcgcag acaccgcccc cgatgcggtc gcgcagcaat gggccatctt ccgcgccaag 121 tatcttcgtc ccagcggacg tgtcgtggat acgggcaatg gtggcgaatc ccatagtgag 181 gggcagggct atggcatgct ctttgccgcg tcggcggggg accttgcgtc gttccagtcg 241 atgtggatgt gggcgcgcac caacctgcag cataccaatg acaagctgtt ttcctggcgg 301 ttcctcaagg ggcatcagcc cccggtgccc gacaagaaca atgccacaga tggcgacctg 361 ctgatcgcgc ttgcgcttgg tcgtgcgggc aagcgtttcc agcgccccga ttacattcag 421 gacgccatgg ccatttatgg cgatgtgctg aacctgatga cgatgaaggc gggaccgtat 481 gtcgtcctca tgcccggtgc tgtcggcttt accaagaagg acagcgtgat cctcaacctg 541 tcctattacg tcatgccctc gctgctgcag gcgttcgacc ttacggccga cccgcgctgg 601 cgtcaggtga tggaagacgg gattcgcctt gtttccgccg gccgtttcgg gcagtggcgc 661 ctgccccccg actggctggc ggtgaatcgc gccaccggtg cgctgtcgat cgcatcggga 721 tggccgccgc gcttttccta tgatgcgatt cgggtgccgc tttattttta ttgggcgcat 781 atgctggcgc cgaacgtgtt ggctgatttc acccgattct ggaataattt cggggctaat 841 gccctgccag gatgggttga tctgacaaca ggggcgcgtt cgccgtacaa cgccccgcct 901 ggatatcttg ctgttgccga atgcacgggg cttgattctg ccggggaact cccgacactg 961 gatcatgcgc ccgattatta ttccgcagcg ttgacgctgc tcgtttacat cgcgcgggcg 1021 gaggagacta taaagtgagt gcttcagggt ctgatgaggt ggctggggga gggcaggctg 1081 gaagtccgca ggattttcag cgggtcctgc gttcttttgg tgtcgaaggt gggcagtatt 1141 cctaccggcc gtttgttgac cgttcctttg atgtgacagg cgtgcccgag gctgttgaaa 1201 ggcacttcga tcaggcggag catgacacgg cggttgagga gcaggtcact cccgcgccac 1261 aaatcgcggt cgcaccgcca ccgccgccag tcgttcctga cccgcccgcc atcgtgacgg 1321 aaaccgcgcc cccgccgcct gtcgtggtca gcgctccggt cacgtatgaa cccccggctg 1381 ccgccgtgcc ggcagagcct cccgttcagg aagcccccgt gcaggcggcg ccggttcccc 1441 ccgcgcctgt gcccccgatt gcggagcagg ctcctcccgc ggcgccggac ccggcatccg 1501 tgccgtatgc gaacgtcgcg gcagcacccg ttccacctga tcccgcaccg gttacgcctg 1561 cgccgcaggc gcgcgtgacg gggccgaaca cccgtatggt ggagcccttt tcccgcccgc 1621 aggtccgcac ggtgcaggag ggggcaaccc cgtcacgtgt accttcgcgt tcaatgaacg 1681 ctttcccccg cacatcagca tcgtccataa gtgagcgtcc ggtggacagg ggtgttgccg 1741 atgaatggag tcctgttccg aaggcacgcc tcagcccgcg ggagcgtccg cgtcccggcg 1801 atctgagctt tttctttcag gggatgcgcg acacccgtga tgaaaagaag ttctttcccg 1861 tggcgtccac gcgatcagtt cgttctaatg tttccaggat gaccagcatg accaagacag 1921 acacgaattc ctctcaggct tctcgtcccg gcagccccgt cgcctcgcct gatgggtcgc 1981 ccacaatggc cgaagtgttc atgacgctgg gtggtcgtgc gacggaactc ctcagccccc 2041 gtccttcgct gcgggaggcg ctgttgcgtc gtcgtgaaaa cgaagaagaa tcctaaggcc 2101 ctatattca

//!

遺伝子・立体構造の論文には登録が不可欠

©2012 PLoS Licensed Under CC Attribution 2.5

論文投稿時の注意:論文の著者は、論文で言及した塩基配列や立体構造などのデータについて、インターネットで参照可能な公共データベースの登録番号を掲載しなければならない

INSDCに多くの配列が登録された生物種

DDBJに登録されている生物種 Top 100のワードクラウド(数が多いほど大きい字で表示)

Images created by the Wordle.net web application are licensed under a Creative Commons Attribution 3.0 United States License.

ヒト

トウモロコシ マウス

ラット

ブタ

ウシ

INSDC塩基配列データの量

登録数: 1.7億塩基数: 1,600億

NGS [次世代]Next-Generation Sequencer

[新型]New Generation Sequencer

代表的 NGS 機材

(左)Roche (454): GS FLX+ System

(中)illumina: Genome Analyzer IIx System

(右)Life Technologies: 5500 xl SOLiD System

従来のシーケンサーと新型シーケンサー従来法 新型

DNAの細分化 DNAの細分化

試験管のなかで末尾にタグを付加大腸菌の中でDNAを増やす

固体の基盤上に貼付け、DNAをスポットとして増幅

試験管のなかで複製していく

DNA分子の大きさで分別し蛍光の色で配列を読み取る

基盤上でDNAを複製していき、各段階の塩基毎の蛍光を撮影する

反応が途中で停止する

NGSの例: illumina: GA の原理

フラットな固層上に適当な間隔でDNAを1分子ずつ固定、基盤上で「ブリッジPCR」を行い、スポットとしてDNAを増幅

相補鎖合成を行いながら化学発光をとらえる

4つの塩基に別々の蛍光標識をつけておいて、結合した塩基の場所をスポットの光として特定し、塩基配列を解読していく

元データは時系列の高密度な画像データ

http://www.youtube.com/watch?v=77r5p8IBwJk

新型シーケンサはなぜ高速?→「集積度」

•従来法は溶液やゲル中での反応と分離

•固体担体を用いて超高密度化を可能にした

マイクロプレート24 × 16 = 384穴

イルミナ社 GA フローセル数千万スポット

新世代シークエンサから出力される配列や

アライメントデータを登録・公開

DDBJ Sequence Read Archive (DRA)

ERA2008年開始

SRA2007年開始

International Nucleotide Sequence Databank Collaboration

DRA2008年開始

SRA growth (NCBI)http://trace.ncbi.nlm.nih.gov/Traces/sra

公開分1.2 PetaBases

遺伝研スーパーコンピュータ

今や生物学は情報学である

DDBJ (http://www.ddbj.nig.ac.jp/) から

DDBJ・新スパコン概要 (2014.3 増強)

5.5 PBMAID

大容量省電力HDD

7 PBLustre高速HDD

“medium”2TB memory

x 10

“thin”64GB memory

x 554 nodes

“fat”10TB memory

(SGI UV)CC-PD from OpenClipart

スパコン利用申請はこちら•[ 遺伝研 スーパーコンピュータ ] で検索

NGS’s + SC’s in Biology

“medium”2TB memory

x 10

“fat”10TB memory

(SGI UV)

遺伝子機能予測

計算機的にはまずは配列類似

アラインメントによる類似配列探索

未知の配列(問合配列)

配列ライブラリ(例)DDBJ Rel. 96 (2014.3)171,164,046 (171万) 配列158,539,702,882 (1585万) 塩基

類似な配列(返答配列)

Query

Subject

既知遺伝子に配列が類似→機能も類似だろう

時間

パラログ paralog オーソログ ortholog

ヒト サル

ヒトとサルの共通の祖先ヒト

機能が実験的に予測されている遺伝子は酵母では 30% に達するが、シロイヌナズナでは 10% しか存在しない。それ以外の遺伝子の機能注釈は、計算機の支援による「予測」にすぎない。

機能予測の根拠の割合

※みなしご (Orphan) 遺伝子: 相同な配列の遺伝子が存在しない遺伝子

「ゲノム2」MEDSi (2002) より

配列類似による機能の記述の危険

たとえばこんな配列があったとする

“similar to Probable ubiquinone biosynthesis protein ubiB”>similar to Probable ubiquinone biosynthesis protein ubiBMSPAPMPVTTAEQDRDVVVIDAVVEEVRPPRLPKSHLEDLGPVSDMFPESWEYHPDLIMEFYRKRPLQVLGRLINILFPLLRFILGIWWEKLRGKDPTVSRAKAIQLRELLTNLGPTYIKVGQALSTRPDLVPPVFLDELTTLQDQLPSFPNEVAYRFIEEELGAPAEEIYAELSPEPIAAASLGQVYKGKLKTGEAVAVKVQRPDLVRRITLDIYIMRSLSLWARRSVKRLRSDLVAITDELASRVFEEMNYYQEAINGEKFAQLYGSLPEIYVPSIYWQYTGRRVLTMEWVEGIKLTNIKAIQAQGIDATHLVEVGVQCSLRQLLEHGFFHADPHPGNLLAMADGRLAYLDFGMMSTIQPYQRYGLIEAVVHLVNRDFDSLAKDYVKLDFLKPDTDLKPIIPALGQVFGNALGASVAELNFKSITDQMSAMMYEFPFRVPAYYALIIRSMVTLEGIAIGIDPNFKVLSKAYPYIAKRLLTDQSEELRTSLKELLFKEGSFRWNRLENLLRNAKNSPGFDFDYVLNEATEFLLSDRGQFIRDRLVAELVNSIDQLGRNTWQQVSHNIQERISFLGDLGNGNGKAHQTKTIKVVPQPAIAQQEETWQHLQNLWQILKETPGFDPLKFVPVLSQIIVNPTSRRMGQQVAEGLLQKAIARVIRQWALALESQPNPAIKIRNAA

Copy & Paste である、という事実1. cmd+C

Probable ubiquinone biosynthesis protein ubiB

2. cmd+V

3. modify

similar to

機能 annotation 完成!

>similar to Probable ubiquinone biosynthesis protein ubiBMSPAPMPVTTAEQDRDVVVIDAVVEEVRPPRLPKSHLEDLGPVSDMFPESWEYHPDLIMEFYRKRPLQVLGRLINILFPLLRFILGIWWEKLRGKDPTVSRAKAIQLRELLTNLGPTYIKVGQALSTRPDLVPPVFLDELTTLQDQLPSFPNEVAYRFIEEELGAPAEEIYAELSPEPIAAASLGQVYKGKLKTGEAVAVKVQRPDLVRRITLDIYIMRSLSLWARRSVKRLRSDLVAITDELASRVFEEMNYYQEAINGEKFAQLYGSLPEIYVPSIYWQYTGRRVLTMEWVEGIKLTNIKAIQAQGIDATHLVEVGVQCSLRQLLEHGFFHADPHPGNLLAMADGRLAYLDFGMMSTIQPYQRYGLIEAVVHLVNRDFDSLAKDYVKLDFLKPDTDLKPIIPALGQVFGNALGASVAELNFKSITDQMSAMMYEFPFRVPAYYALIIRSMVTLEGIAIGIDPNFKVLSKAYPYIAKRLLTDQSEELRTSLKELLFKEGSFRWNRLENLLRNAKNSPGFDFDYVLNEATEFLLSDRGQFIRDRLVAELVNSIDQLGRNTWQQVSHNIQERISFLGDLGNGNGKAHQTKTIKVVPQPAIAQQEETWQHLQNLWQILKETPGFDPLKFVPVLSQIIVNPTSRRMGQQVAEGLLQKAIARVIRQWALALESQPNPAIKIRNAA

Copy & Paste によるautomatic な継承で

ゴミが蓄積される

similar to similar toLOCUS AL591981 347050 bp DNA linear BCT 16-APR-2005DEFINITION Listeria monocytogenes strain EGD, complete genome, segment 9/12.ACCESSION AL591981 AL591824VERSION AL591981.1KEYWORDS .SOURCE Listeria monocytogenes ORGANISM Listeria monocytogenes Bacteria; Firmicutes; Bacillales; Listeriaceae; Listeria.REFERENCE 2 (bases 1 to 347050) AUTHORS Glaser,P., Frangeul,L. and Rusniok,C. JOURNAL Submitted (06-JUN-2001) to the EMBL/GenBank/DDBJ databases. Glaser P., Institut Pasteur, Genomique des Microorganismes Pathogenes, 25 rue du Docteur Roux, 75724 Paris Cedex 15, FRANCE.

... CDS complement(12915..14294) /transl_table=11 /gene="lmo1703"

/note="similar to similar to RNA methyltransferases" /db_xref="GOA:Q8Y6I1" /db_xref="InterPro:IPR001566" /db_xref="InterPro:IPR002792" /db_xref="InterPro:IPR010280" /db_xref="UniProtKB/Swiss-Prot:Q8Y6I1" /protein_id="CAC99781.1" /translation="MNQNPVEEGQKFPLTIRRMGINGEGIGYFKKAVVFVPGAITGEEV VVEAVKVRDRFTEAKLNKIRKKSPNRVTAPCPVYEACGGCQLQHVAYSAQLELKRDIVI QSIEKHTKIDPTKLKIRPTIGMEDPWRYRNKSQFQTRMVGSGQVETGLFGANSHQLVPI EDCIVQQPVTIKVTNFVRDLLEKYGVPIYDEKAGSGIVRTIVVRTGVKTGETQLVFITN SKKLPKKREMLAEIEAALPEVTSIMQNVNQAKSSLIFGDETFLLAGKESIEEKLMELEF DLSARAFFQLNPFQTERLYQEVEKALVLTGSETLVDAYCGVGTIGQAFAGKVKEVRGMD IIPESIEDAKRNAEKNGIENVYYEVGKAEDVLPKWVKEGFRPDAVIVDPPRSGCDQGLI KSLLDVEAKQLVYVSCNPSTLARDLALLAKKYRIRYMQPVDMFPQTAHVETVVLLQLKD K"

Copy & paste error!>gi|91204169|emb|CAJ71822.1| strongly imilar to aspartate aminotransferase [Candidatus Kuenenia stuttgartiensis]MIASRMSNIDSSGIRKVFDLAQKMKSPVNLSIGQPDFDVPGEIKEVAIKSINEGANKYTLTQGIPELRNV...

>gi|31541577|gb|AAP56877.1| predicted methyl transferas [Mycoplasma gallisepticum R]MSALYLVGLPIGNLSEINHRALEILNQLEIIYCENTDNFKKLLNLLNINFRDKKLISYHKFNETNRFIMI...

similar totransferase

SEPT2 ⇒ 2-Sep case in RefseqLOCUS XM_392412 2125 bp mRNA linear INV 12-APR-2011

DEFINITION PREDICTED: Apis mellifera septin-2 (2-Sep), mRNA.ACCESSION XM_392412VERSION XM_392412.4 GI:328785636KEYWORDS .SOURCE Apis mellifera (honey bee) ORGANISM Apis mellifera Eukaryota; Metazoa; Arthropoda; Hexapoda; Insecta; Pterygota; Neoptera; Endopterygota; Hymenoptera; Apocrita; Aculeata; Apoidea; Apidae; Apis.COMMENT MODEL REFSEQ: This record is predicted by automated computational analysis. This record is derived from a genomic sequence (NW_003378075) annotated using gene prediction method: GNOMON, supported by EST evidence. Also see: Documentation of NCBI's Annotation Process On Apr 12, 2011 this sequence version replaced gi:110757583.FEATURES Location/Qualifiers source 1..2125 /organism="Apis mellifera" /mol_type="mRNA" /strain="DH4" /db_xref="taxon:7460" /linkage_group="LG6" gene 1..2125

/gene="2-Sep" /note="Derived by automated computational analysis using gene prediction method: GNOMON. Supporting evidence includes similarity to: 436 ESTs, 11 Proteins" /db_xref="BEEBASE:GB17411" /db_xref="GeneID:408882" misc_feature 164..166 /gene="2-Sep" /note="upstream in-frame stop codon" CDS 194..1444

/gene="2-Sep" /codon_start=1 /product="septin-2" /protein_id="XP_392412.2"

http://www.biomedcentral.com/1471-2105/5/80http://www.ncbi.nlm.nih.gov/nuccore/XM_392412

「セプチン2」遺伝子が

「9月2日」に

“contains similarity” ?

automated annotation:

“contains similarity toDNA-binding protein”

DNA binding domain

“similar” region

DNA binding protein

unknown protein

↑without the domain!

機能の伝言ゲーム(劣化あり)が行われている

どうすれば良いのか?

• 配列類似検索の対象は、信頼できるライブラリから順に使う

• 配列類似検索以外の機能予測方法を用いる

• 注釈の「根拠 (evidence)」が明示できる方法で注釈する

どうすれば良いのか?

• 配列類似検索の対象は、信頼できるライブラリから順に使う

• 配列類似検索以外の機能予測方法を用いる

• 注釈の「根拠 (evidence)」が明示できる方法で注釈する

類似配列の検索対象ライブラリを選ぶ最大のデータセットが常に最適な結果をもたらす訳ではない

UniProt/TrEMBL(56,010,222 entries)SwissProt ライクな自動処理

UniProt/SwissProt(545,388 entries)「アノテータ」が見ている

高品質だがエントリが少い

nr-aa(40,910,947 entries)GenBankの注釈そのまま

網羅的だが品質は低い場合もある

どうすれば良いのか?

• 配列類似検索の対象は、信頼できるライブラリから順に使う

• 配列類似検索以外の機能予測方法を用いる

• 注釈の「根拠 (evidence)」が明示できる方法で注釈する

モチーフ・プロファイル検索

•「モチーフ」とはタンパク質中で局所的に良く保存されたアミノ酸配列

•タンパク質はそれぞれ特有のモチーフのセットをもった「ドメイン」から成る、こうした「配列」と「機能」が結びついたパターンを探索することで、機能予測と機能分類が可能になる

InterPro でまとめがけ

•機能と構造単位の諸検索法の統合

•モチーフ・ドメイン・プロファイル等の名称で呼ばれる機能や構造と結びついたアミノ酸配列の保存された領域をまとめたデータベース

•Pfam, PRINTS, PROSITE... 等を総合し、独自注釈も追加

http://www.ebi.ac.uk/interpro

どうすれば良いのか?

• 配列類似検索の対象は、信頼できるライブラリから順に使う

• 配列類似検索以外の機能予測方法を用いる

• 注釈の「根拠 (evidence)」が明示できる方法で注釈する

IDAInferred from Direct Assay

TASTraceable Author Statement

ISSInferred from Sequence or

Structural similarity

Evidence codes in GO Annotation

IEAInferred from Electronic Annotation (automated)

IMPInferred from Mutant

Phenotype

(自習用)資料bit.ly/ddbjing201406

正確な解析情報を付与して

研究に使い倒して役立てよう

DDBJ (http://www.ddbj.nig.ac.jp/)

データベースもがんばります