[DDBJing29]DDBJ, NIG SuperComputer, 大量配列情報解析(第29回 DDBJing 講習会 in...

53
DDBJ, NIG SuperComputer, 大量配列情報解析 DDBJセンター 中村保一 第29回 DDBJing 講習会 in 三島 (2014.6.12)

Transcript of [DDBJing29]DDBJ, NIG SuperComputer, 大量配列情報解析(第29回 DDBJing 講習会 in...

Page 1: [DDBJing29]DDBJ, NIG SuperComputer, 大量配列情報解析(第29回 DDBJing 講習会 in 三島)

DDBJ, NIG SuperComputer, 大量配列情報解析

DDBJセンター中村保一

第29回 DDBJing 講習会 in 三島 (2014.6.12)

Page 2: [DDBJing29]DDBJ, NIG SuperComputer, 大量配列情報解析(第29回 DDBJing 講習会 in 三島)

自己紹介

使い倒し系バイオインフォマティスト

植物とか微生物のゲノム解析+DB屋

@yaskaza.k.a. catlover, ikasumipapa, 猫教授

The Arabidopsis Genome Initiative (2000) Analysis of the genome sequence of the flowering plant Arabidopsis thaliana. Nature, 408, 796-815.

シロイヌナズナの 1/4

(27 Mb, 6200 genes) の解析

http://genome.kazusa.or.jp/cyanobase/

光合成細菌のゲノム解析+データベース。Social Bookmark による遺伝子注釈系

Page 3: [DDBJing29]DDBJ, NIG SuperComputer, 大量配列情報解析(第29回 DDBJing 講習会 in 三島)

遺伝研/DDBJは静岡県三島市にあります

Page 4: [DDBJing29]DDBJ, NIG SuperComputer, 大量配列情報解析(第29回 DDBJing 講習会 in 三島)

DDBJ (http://www.ddbj.nig.ac.jp/)

Page 5: [DDBJing29]DDBJ, NIG SuperComputer, 大量配列情報解析(第29回 DDBJing 講習会 in 三島)

•全世界で解読された塩基配列情報を

•査定して受入れ

•データベースに蓄積し

•公開して共有する

塩基配列データバンクとはこのような事業

データベース

Page 6: [DDBJing29]DDBJ, NIG SuperComputer, 大量配列情報解析(第29回 DDBJing 講習会 in 三島)

国際塩基配列データベースの一員International Nucleotide Sequence Databank Collaboration

Page 7: [DDBJing29]DDBJ, NIG SuperComputer, 大量配列情報解析(第29回 DDBJing 講習会 in 三島)

DDBJ (from Release note 92)Jun Mashima, Hideo Aono, Yuji Ashizawa, Yukino Dobashi, Mayumi Ejima, Masahiro Fujimoto, Asami Fukuda, Tomohiro Hirai, Fumie Hirata, Naofumi Ishikawa, Toshikazu Katsumata, Chiharu Kawagoe, Shingo Kawahara, Yuichi Kodama, Junko Kohira, Takehide Kosuge, Kyungbum Lee, Mika Maki, Kimiko Mimura, Takeshi Moriyama, Yoshihisa Munakata, Naoko Murakata, Keiichi Nagai, Toshihisa Okido, Yoshihiro Okuda, Katsunaga Sakai, Makoto Sato, Yoshihiro Serizawa, Aimi Shiida, Yukie Shinyama, Rie Sugita, Kimiko Suzuki, Daisuke Takagi, Daisuke Takai, Haru Tsutsui, Koji Watanabe, Tomohiko Yasuda, Shigeru Yatsuzuka, Emi Yokoyama, Eli Kaminuma, Osamu Ogasawara, Kosaku Okubo, Toshihisa Takagi, and Yasukazu Nakamura

ENA (from Release note 115)Blaise Alako, Clara Amid, Lawrence Bower, Ana Cerdeno-Taraga, Iain Cleland, Richard Gibson,Neil Goodgame, Petra ten Hoopen, Mikyung Jang, Simon Kay, Rasko Leinonen, Xin Liu,Arnaud Oisel, Rodrigo Lopez, Hamish McWilliam, Nima Pakseresht, Sheila Plaister,Rajesh Radhakrishnan, Kethy Reddy, Stephane Riviere, Marc Rossello, Nicole Silvester,Dmitriy Smirnov, Ana Luisa Toribio, Daniel Vaughan, Vadim Zalunin and Guy Cochrane

GenBank (from Release note 195)Mark Cavanaugh, Ilene Mizrachi, Yiming Bao, Michael Baxter, Lori Black, Larissa Brown, Vincent Calhoun, Larry Chlumsky, Karen Clark, Jianli Dai, Michel Eschenbrenner, Irene Fang, Michael Fetchko, Linda Frisse, Andrea Gocke, Anjanette Johnston, Mark Landree, Jason Lowry, Suzanne Mate, Richard McVeigh, DeAnne Olsen Cravaritis, Leigh Riley, Susan Schafer, Beverly Underwood, Melissa Wright, Linda Yankie, Serge Bazhin, Evgueni Belyi, Colleen Bollin, Mark Cavanaugh, Yoon Choi, Ilya Dondoshansky, J. Bradley Holmes, WonHee Jang, Jonathan Kans, Leonid Khotomliansky, Michael Kimelman, Michael Kornbluh, Jim Ostell, Denis Sinyakov, Karl Sirotkin, Vladimir Soussov, Elena Starchenko, Hanzhen Sun, Tatiana Tatusova, Lukas Wagner, Eugene Yaschenko, Sergey Zhdanov, Slava Khotomliansky, Igor Lozitskiy, Craig Oakley, Eugene Semenov, Ben Slade, Constantin Vasilyev, Peter Cooper, Hanguan Liu, Wayne Matten, Scott McGinnis, Rana Morris, Steve Pechous, Monica Romiti, Eric Sayers, Tao Tao, Majda Valjavec-Gratian and David Lipman

Page 8: [DDBJing29]DDBJ, NIG SuperComputer, 大量配列情報解析(第29回 DDBJing 講習会 in 三島)

DDBJ登録ファイルの例LOCUS AB091058 2109 bp DNA linear BCT 02-SEP-2003DEFINITION Gluconacetobacter xylinus cmcase, ccp genes for endo-beta-1,4-glucanase, cellulose complementing protein, complete cds.ACCESSION AB091058VERSION AB091058.1KEYWORDS .SOURCE Gluconacetobacter xylinus ORGANISM Gluconacetobacter xylinus Bacteria; Proteobacteria; Alphaproteobacteria; Rhodospirillales; Acetobacteraceae; Gluconacetobacter.REFERENCE 1 (bases 1 to 2109) AUTHORS Kawano,S., Tajima,K., Uemori,Y., Yamashita,H., Erata,T., Munekata,M. and Takai,M. TITLE Direct Submission JOURNAL Submitted (28-AUG-2002) to the DDBJ/EMBL/GenBank databases. Contact:Kenji Tajima Hokkaido University, Graduate School of Engineering; N13W8, Kita-ku, Sapporo, Hokkaido 060-8628, JapanREFERENCE 2 AUTHORS Kawano,S., Tajima,K., Uemori,Y., Yamashita,H., Erata,T., Munekata,M. and Takai,M. TITLE Cloning of Cellulose Synthesis Related Genes from Acetobacter xylinum ATCC23769 and ATCC53582: Comparison of Cellulose Synthetic Ability Between ATCC23769 and ATCC53582 JOURNAL Unpublished (2002)COMMENT FEATURES Location/Qualifiers source 1..2109 /db_xref="taxon:28448" /mol_type="genomic DNA" /note="synonym:Acetobacter xylinum" /organism="Gluconacetobacter xylinus" /strain="ATCC 53582" CDS 10..1038 /codon_start=1 /gene="cmcase" /product="endo-beta-1,4-glucanase" /protein_id="BAC82540.1" /transl_table=11 /translation="MSVMAAMGGAQVLSSTGAFADTAPDAVAQQWAIFRAKYLRPSGR VVDTGNGGESHSEGQGYGMLFAASAGDLASFQSMWMWARTNLQHTNDKLFSWRFLKGH QPPVPDKNNATDGDLLIALALGRAGKRFQRPDYIQDAMAIYGDVLNLMTMKAGPYVVL MPGAVGFTKKDSVILNLSYYVMPSLLQAFDLTADPRWRQVMEDGIRLVSAGRFGQWRL PPDWLAVNRATGALSIASGWPPRFSYDAIRVPLYFYWAHMLAPNVLADFTRFWNNFGA NALPGWVDLTTGARSPYNAPPGYLAVAECTGLDSAGELPTLDHAPDYYSAALTLLVYI ARAEETIK"

CDS 1035..2096 /codon_start=1 /gene="ccp" /product="cellulose complementing protein" /protein_id="BAC82541.1" /transl_table=11 /translation="MSASGSDEVAGGGQAGSPQDFQRVLRSFGVEGGQYSYRPFVDRS FDVTGVPEAVERHFDQAEHDTAVEEQVTPAPQIAVAPPPPPVVPDPPAIVTETAPPPP VVVSAPVTYEPPAAAVPAEPPVQEAPVQAAPVPPAPVPPIAEQAPPAAPDPASVPYAN VAAAPVPPDPAPVTPAPQARVTGPNTRMVEPFSRPQVRTVQEGATPSRVPSRSMNAFP RTSASSISERPVDRGVADEWSPVPKARLSPRERPRPGDLSFFFQGMRDTRDEKKFFPV ASTRSVRSNVSRMTSMTKTDTNSSQASRPGSPVASPDGSPTMAEVFMTLGGRATELLS PRPSLREALLRRRENEEES"BASE COUNT 343 a 661 c 661 g 444 tORIGIN 1 cgttccttta tgtcggtcat ggcggcgatg ggaggggcgc aggtgctttc atccaccggt 61 gcgttcgcag acaccgcccc cgatgcggtc gcgcagcaat gggccatctt ccgcgccaag 121 tatcttcgtc ccagcggacg tgtcgtggat acgggcaatg gtggcgaatc ccatagtgag 181 gggcagggct atggcatgct ctttgccgcg tcggcggggg accttgcgtc gttccagtcg 241 atgtggatgt gggcgcgcac caacctgcag cataccaatg acaagctgtt ttcctggcgg 301 ttcctcaagg ggcatcagcc cccggtgccc gacaagaaca atgccacaga tggcgacctg 361 ctgatcgcgc ttgcgcttgg tcgtgcgggc aagcgtttcc agcgccccga ttacattcag 421 gacgccatgg ccatttatgg cgatgtgctg aacctgatga cgatgaaggc gggaccgtat 481 gtcgtcctca tgcccggtgc tgtcggcttt accaagaagg acagcgtgat cctcaacctg 541 tcctattacg tcatgccctc gctgctgcag gcgttcgacc ttacggccga cccgcgctgg 601 cgtcaggtga tggaagacgg gattcgcctt gtttccgccg gccgtttcgg gcagtggcgc 661 ctgccccccg actggctggc ggtgaatcgc gccaccggtg cgctgtcgat cgcatcggga 721 tggccgccgc gcttttccta tgatgcgatt cgggtgccgc tttattttta ttgggcgcat 781 atgctggcgc cgaacgtgtt ggctgatttc acccgattct ggaataattt cggggctaat 841 gccctgccag gatgggttga tctgacaaca ggggcgcgtt cgccgtacaa cgccccgcct 901 ggatatcttg ctgttgccga atgcacgggg cttgattctg ccggggaact cccgacactg 961 gatcatgcgc ccgattatta ttccgcagcg ttgacgctgc tcgtttacat cgcgcgggcg 1021 gaggagacta taaagtgagt gcttcagggt ctgatgaggt ggctggggga gggcaggctg 1081 gaagtccgca ggattttcag cgggtcctgc gttcttttgg tgtcgaaggt gggcagtatt 1141 cctaccggcc gtttgttgac cgttcctttg atgtgacagg cgtgcccgag gctgttgaaa 1201 ggcacttcga tcaggcggag catgacacgg cggttgagga gcaggtcact cccgcgccac 1261 aaatcgcggt cgcaccgcca ccgccgccag tcgttcctga cccgcccgcc atcgtgacgg 1321 aaaccgcgcc cccgccgcct gtcgtggtca gcgctccggt cacgtatgaa cccccggctg 1381 ccgccgtgcc ggcagagcct cccgttcagg aagcccccgt gcaggcggcg ccggttcccc 1441 ccgcgcctgt gcccccgatt gcggagcagg ctcctcccgc ggcgccggac ccggcatccg 1501 tgccgtatgc gaacgtcgcg gcagcacccg ttccacctga tcccgcaccg gttacgcctg 1561 cgccgcaggc gcgcgtgacg gggccgaaca cccgtatggt ggagcccttt tcccgcccgc 1621 aggtccgcac ggtgcaggag ggggcaaccc cgtcacgtgt accttcgcgt tcaatgaacg 1681 ctttcccccg cacatcagca tcgtccataa gtgagcgtcc ggtggacagg ggtgttgccg 1741 atgaatggag tcctgttccg aaggcacgcc tcagcccgcg ggagcgtccg cgtcccggcg 1801 atctgagctt tttctttcag gggatgcgcg acacccgtga tgaaaagaag ttctttcccg 1861 tggcgtccac gcgatcagtt cgttctaatg tttccaggat gaccagcatg accaagacag 1921 acacgaattc ctctcaggct tctcgtcccg gcagccccgt cgcctcgcct gatgggtcgc 1981 ccacaatggc cgaagtgttc atgacgctgg gtggtcgtgc gacggaactc ctcagccccc 2041 gtccttcgct gcgggaggcg ctgttgcgtc gtcgtgaaaa cgaagaagaa tcctaaggcc 2101 ctatattca

//!

Page 9: [DDBJing29]DDBJ, NIG SuperComputer, 大量配列情報解析(第29回 DDBJing 講習会 in 三島)

遺伝子・立体構造の論文には登録が不可欠

©2012 PLoS Licensed Under CC Attribution 2.5

論文投稿時の注意:論文の著者は、論文で言及した塩基配列や立体構造などのデータについて、インターネットで参照可能な公共データベースの登録番号を掲載しなければならない

Page 10: [DDBJing29]DDBJ, NIG SuperComputer, 大量配列情報解析(第29回 DDBJing 講習会 in 三島)

INSDCに多くの配列が登録された生物種

DDBJに登録されている生物種 Top 100のワードクラウド(数が多いほど大きい字で表示)

Images created by the Wordle.net web application are licensed under a Creative Commons Attribution 3.0 United States License.

ヒト

トウモロコシ マウス

ラット

ブタ

ウシ

Page 11: [DDBJing29]DDBJ, NIG SuperComputer, 大量配列情報解析(第29回 DDBJing 講習会 in 三島)

INSDC塩基配列データの量

登録数: 1.7億塩基数: 1,600億

Page 12: [DDBJing29]DDBJ, NIG SuperComputer, 大量配列情報解析(第29回 DDBJing 講習会 in 三島)

NGS [次世代]Next-Generation Sequencer

[新型]New Generation Sequencer

Page 13: [DDBJing29]DDBJ, NIG SuperComputer, 大量配列情報解析(第29回 DDBJing 講習会 in 三島)

代表的 NGS 機材

(左)Roche (454): GS FLX+ System

(中)illumina: Genome Analyzer IIx System

(右)Life Technologies: 5500 xl SOLiD System

Page 14: [DDBJing29]DDBJ, NIG SuperComputer, 大量配列情報解析(第29回 DDBJing 講習会 in 三島)

従来のシーケンサーと新型シーケンサー従来法 新型

DNAの細分化 DNAの細分化

試験管のなかで末尾にタグを付加大腸菌の中でDNAを増やす

固体の基盤上に貼付け、DNAをスポットとして増幅

試験管のなかで複製していく

DNA分子の大きさで分別し蛍光の色で配列を読み取る

基盤上でDNAを複製していき、各段階の塩基毎の蛍光を撮影する

反応が途中で停止する

Page 15: [DDBJing29]DDBJ, NIG SuperComputer, 大量配列情報解析(第29回 DDBJing 講習会 in 三島)

NGSの例: illumina: GA の原理

フラットな固層上に適当な間隔でDNAを1分子ずつ固定、基盤上で「ブリッジPCR」を行い、スポットとしてDNAを増幅

相補鎖合成を行いながら化学発光をとらえる

4つの塩基に別々の蛍光標識をつけておいて、結合した塩基の場所をスポットの光として特定し、塩基配列を解読していく

元データは時系列の高密度な画像データ

http://www.youtube.com/watch?v=77r5p8IBwJk

Page 16: [DDBJing29]DDBJ, NIG SuperComputer, 大量配列情報解析(第29回 DDBJing 講習会 in 三島)

新型シーケンサはなぜ高速?→「集積度」

•従来法は溶液やゲル中での反応と分離

•固体担体を用いて超高密度化を可能にした

マイクロプレート24 × 16 = 384穴

イルミナ社 GA フローセル数千万スポット

Page 17: [DDBJing29]DDBJ, NIG SuperComputer, 大量配列情報解析(第29回 DDBJing 講習会 in 三島)

新世代シークエンサから出力される配列や

アライメントデータを登録・公開

DDBJ Sequence Read Archive (DRA)

ERA2008年開始

SRA2007年開始

International Nucleotide Sequence Databank Collaboration

DRA2008年開始

Page 18: [DDBJing29]DDBJ, NIG SuperComputer, 大量配列情報解析(第29回 DDBJing 講習会 in 三島)

SRA growth (NCBI)http://trace.ncbi.nlm.nih.gov/Traces/sra

公開分1.2 PetaBases

Page 19: [DDBJing29]DDBJ, NIG SuperComputer, 大量配列情報解析(第29回 DDBJing 講習会 in 三島)

遺伝研スーパーコンピュータ

Page 20: [DDBJing29]DDBJ, NIG SuperComputer, 大量配列情報解析(第29回 DDBJing 講習会 in 三島)

今や生物学は情報学である

Page 21: [DDBJing29]DDBJ, NIG SuperComputer, 大量配列情報解析(第29回 DDBJing 講習会 in 三島)

DDBJ (http://www.ddbj.nig.ac.jp/) から

Page 22: [DDBJing29]DDBJ, NIG SuperComputer, 大量配列情報解析(第29回 DDBJing 講習会 in 三島)

DDBJ・新スパコン概要 (2014.3 増強)

5.5 PBMAID

大容量省電力HDD

7 PBLustre高速HDD

“medium”2TB memory

x 10

“thin”64GB memory

x 554 nodes

“fat”10TB memory

(SGI UV)CC-PD from OpenClipart

Page 23: [DDBJing29]DDBJ, NIG SuperComputer, 大量配列情報解析(第29回 DDBJing 講習会 in 三島)

スパコン利用申請はこちら•[ 遺伝研 スーパーコンピュータ ] で検索

Page 24: [DDBJing29]DDBJ, NIG SuperComputer, 大量配列情報解析(第29回 DDBJing 講習会 in 三島)

NGS’s + SC’s in Biology

“medium”2TB memory

x 10

“fat”10TB memory

(SGI UV)

Page 25: [DDBJing29]DDBJ, NIG SuperComputer, 大量配列情報解析(第29回 DDBJing 講習会 in 三島)

遺伝子機能予測

Page 26: [DDBJing29]DDBJ, NIG SuperComputer, 大量配列情報解析(第29回 DDBJing 講習会 in 三島)

計算機的にはまずは配列類似

Page 27: [DDBJing29]DDBJ, NIG SuperComputer, 大量配列情報解析(第29回 DDBJing 講習会 in 三島)

アラインメントによる類似配列探索

未知の配列(問合配列)

配列ライブラリ(例)DDBJ Rel. 96 (2014.3)171,164,046 (171万) 配列158,539,702,882 (1585万) 塩基

類似な配列(返答配列)

Query

Subject

Page 28: [DDBJing29]DDBJ, NIG SuperComputer, 大量配列情報解析(第29回 DDBJing 講習会 in 三島)

既知遺伝子に配列が類似→機能も類似だろう

時間

パラログ paralog オーソログ ortholog

ヒト サル

ヒトとサルの共通の祖先ヒト

Page 29: [DDBJing29]DDBJ, NIG SuperComputer, 大量配列情報解析(第29回 DDBJing 講習会 in 三島)

機能が実験的に予測されている遺伝子は酵母では 30% に達するが、シロイヌナズナでは 10% しか存在しない。それ以外の遺伝子の機能注釈は、計算機の支援による「予測」にすぎない。

機能予測の根拠の割合

※みなしご (Orphan) 遺伝子: 相同な配列の遺伝子が存在しない遺伝子

「ゲノム2」MEDSi (2002) より

Page 30: [DDBJing29]DDBJ, NIG SuperComputer, 大量配列情報解析(第29回 DDBJing 講習会 in 三島)

配列類似による機能の記述の危険

Page 31: [DDBJing29]DDBJ, NIG SuperComputer, 大量配列情報解析(第29回 DDBJing 講習会 in 三島)

たとえばこんな配列があったとする

“similar to Probable ubiquinone biosynthesis protein ubiB”>similar to Probable ubiquinone biosynthesis protein ubiBMSPAPMPVTTAEQDRDVVVIDAVVEEVRPPRLPKSHLEDLGPVSDMFPESWEYHPDLIMEFYRKRPLQVLGRLINILFPLLRFILGIWWEKLRGKDPTVSRAKAIQLRELLTNLGPTYIKVGQALSTRPDLVPPVFLDELTTLQDQLPSFPNEVAYRFIEEELGAPAEEIYAELSPEPIAAASLGQVYKGKLKTGEAVAVKVQRPDLVRRITLDIYIMRSLSLWARRSVKRLRSDLVAITDELASRVFEEMNYYQEAINGEKFAQLYGSLPEIYVPSIYWQYTGRRVLTMEWVEGIKLTNIKAIQAQGIDATHLVEVGVQCSLRQLLEHGFFHADPHPGNLLAMADGRLAYLDFGMMSTIQPYQRYGLIEAVVHLVNRDFDSLAKDYVKLDFLKPDTDLKPIIPALGQVFGNALGASVAELNFKSITDQMSAMMYEFPFRVPAYYALIIRSMVTLEGIAIGIDPNFKVLSKAYPYIAKRLLTDQSEELRTSLKELLFKEGSFRWNRLENLLRNAKNSPGFDFDYVLNEATEFLLSDRGQFIRDRLVAELVNSIDQLGRNTWQQVSHNIQERISFLGDLGNGNGKAHQTKTIKVVPQPAIAQQEETWQHLQNLWQILKETPGFDPLKFVPVLSQIIVNPTSRRMGQQVAEGLLQKAIARVIRQWALALESQPNPAIKIRNAA

Page 32: [DDBJing29]DDBJ, NIG SuperComputer, 大量配列情報解析(第29回 DDBJing 講習会 in 三島)

Copy & Paste である、という事実1. cmd+C

Probable ubiquinone biosynthesis protein ubiB

2. cmd+V

3. modify

similar to

Page 33: [DDBJing29]DDBJ, NIG SuperComputer, 大量配列情報解析(第29回 DDBJing 講習会 in 三島)

機能 annotation 完成!

>similar to Probable ubiquinone biosynthesis protein ubiBMSPAPMPVTTAEQDRDVVVIDAVVEEVRPPRLPKSHLEDLGPVSDMFPESWEYHPDLIMEFYRKRPLQVLGRLINILFPLLRFILGIWWEKLRGKDPTVSRAKAIQLRELLTNLGPTYIKVGQALSTRPDLVPPVFLDELTTLQDQLPSFPNEVAYRFIEEELGAPAEEIYAELSPEPIAAASLGQVYKGKLKTGEAVAVKVQRPDLVRRITLDIYIMRSLSLWARRSVKRLRSDLVAITDELASRVFEEMNYYQEAINGEKFAQLYGSLPEIYVPSIYWQYTGRRVLTMEWVEGIKLTNIKAIQAQGIDATHLVEVGVQCSLRQLLEHGFFHADPHPGNLLAMADGRLAYLDFGMMSTIQPYQRYGLIEAVVHLVNRDFDSLAKDYVKLDFLKPDTDLKPIIPALGQVFGNALGASVAELNFKSITDQMSAMMYEFPFRVPAYYALIIRSMVTLEGIAIGIDPNFKVLSKAYPYIAKRLLTDQSEELRTSLKELLFKEGSFRWNRLENLLRNAKNSPGFDFDYVLNEATEFLLSDRGQFIRDRLVAELVNSIDQLGRNTWQQVSHNIQERISFLGDLGNGNGKAHQTKTIKVVPQPAIAQQEETWQHLQNLWQILKETPGFDPLKFVPVLSQIIVNPTSRRMGQQVAEGLLQKAIARVIRQWALALESQPNPAIKIRNAA

Page 34: [DDBJing29]DDBJ, NIG SuperComputer, 大量配列情報解析(第29回 DDBJing 講習会 in 三島)

Copy & Paste によるautomatic な継承で

ゴミが蓄積される

Page 35: [DDBJing29]DDBJ, NIG SuperComputer, 大量配列情報解析(第29回 DDBJing 講習会 in 三島)

similar to similar toLOCUS AL591981 347050 bp DNA linear BCT 16-APR-2005DEFINITION Listeria monocytogenes strain EGD, complete genome, segment 9/12.ACCESSION AL591981 AL591824VERSION AL591981.1KEYWORDS .SOURCE Listeria monocytogenes ORGANISM Listeria monocytogenes Bacteria; Firmicutes; Bacillales; Listeriaceae; Listeria.REFERENCE 2 (bases 1 to 347050) AUTHORS Glaser,P., Frangeul,L. and Rusniok,C. JOURNAL Submitted (06-JUN-2001) to the EMBL/GenBank/DDBJ databases. Glaser P., Institut Pasteur, Genomique des Microorganismes Pathogenes, 25 rue du Docteur Roux, 75724 Paris Cedex 15, FRANCE.

... CDS complement(12915..14294) /transl_table=11 /gene="lmo1703"

/note="similar to similar to RNA methyltransferases" /db_xref="GOA:Q8Y6I1" /db_xref="InterPro:IPR001566" /db_xref="InterPro:IPR002792" /db_xref="InterPro:IPR010280" /db_xref="UniProtKB/Swiss-Prot:Q8Y6I1" /protein_id="CAC99781.1" /translation="MNQNPVEEGQKFPLTIRRMGINGEGIGYFKKAVVFVPGAITGEEV VVEAVKVRDRFTEAKLNKIRKKSPNRVTAPCPVYEACGGCQLQHVAYSAQLELKRDIVI QSIEKHTKIDPTKLKIRPTIGMEDPWRYRNKSQFQTRMVGSGQVETGLFGANSHQLVPI EDCIVQQPVTIKVTNFVRDLLEKYGVPIYDEKAGSGIVRTIVVRTGVKTGETQLVFITN SKKLPKKREMLAEIEAALPEVTSIMQNVNQAKSSLIFGDETFLLAGKESIEEKLMELEF DLSARAFFQLNPFQTERLYQEVEKALVLTGSETLVDAYCGVGTIGQAFAGKVKEVRGMD IIPESIEDAKRNAEKNGIENVYYEVGKAEDVLPKWVKEGFRPDAVIVDPPRSGCDQGLI KSLLDVEAKQLVYVSCNPSTLARDLALLAKKYRIRYMQPVDMFPQTAHVETVVLLQLKD K"

Page 36: [DDBJing29]DDBJ, NIG SuperComputer, 大量配列情報解析(第29回 DDBJing 講習会 in 三島)

Copy & paste error!>gi|91204169|emb|CAJ71822.1| strongly imilar to aspartate aminotransferase [Candidatus Kuenenia stuttgartiensis]MIASRMSNIDSSGIRKVFDLAQKMKSPVNLSIGQPDFDVPGEIKEVAIKSINEGANKYTLTQGIPELRNV...

>gi|31541577|gb|AAP56877.1| predicted methyl transferas [Mycoplasma gallisepticum R]MSALYLVGLPIGNLSEINHRALEILNQLEIIYCENTDNFKKLLNLLNINFRDKKLISYHKFNETNRFIMI...

similar totransferase

Page 37: [DDBJing29]DDBJ, NIG SuperComputer, 大量配列情報解析(第29回 DDBJing 講習会 in 三島)

SEPT2 ⇒ 2-Sep case in RefseqLOCUS XM_392412 2125 bp mRNA linear INV 12-APR-2011

DEFINITION PREDICTED: Apis mellifera septin-2 (2-Sep), mRNA.ACCESSION XM_392412VERSION XM_392412.4 GI:328785636KEYWORDS .SOURCE Apis mellifera (honey bee) ORGANISM Apis mellifera Eukaryota; Metazoa; Arthropoda; Hexapoda; Insecta; Pterygota; Neoptera; Endopterygota; Hymenoptera; Apocrita; Aculeata; Apoidea; Apidae; Apis.COMMENT MODEL REFSEQ: This record is predicted by automated computational analysis. This record is derived from a genomic sequence (NW_003378075) annotated using gene prediction method: GNOMON, supported by EST evidence. Also see: Documentation of NCBI's Annotation Process On Apr 12, 2011 this sequence version replaced gi:110757583.FEATURES Location/Qualifiers source 1..2125 /organism="Apis mellifera" /mol_type="mRNA" /strain="DH4" /db_xref="taxon:7460" /linkage_group="LG6" gene 1..2125

/gene="2-Sep" /note="Derived by automated computational analysis using gene prediction method: GNOMON. Supporting evidence includes similarity to: 436 ESTs, 11 Proteins" /db_xref="BEEBASE:GB17411" /db_xref="GeneID:408882" misc_feature 164..166 /gene="2-Sep" /note="upstream in-frame stop codon" CDS 194..1444

/gene="2-Sep" /codon_start=1 /product="septin-2" /protein_id="XP_392412.2"

http://www.biomedcentral.com/1471-2105/5/80http://www.ncbi.nlm.nih.gov/nuccore/XM_392412

「セプチン2」遺伝子が

「9月2日」に

Page 38: [DDBJing29]DDBJ, NIG SuperComputer, 大量配列情報解析(第29回 DDBJing 講習会 in 三島)

“contains similarity” ?

automated annotation:

“contains similarity toDNA-binding protein”

DNA binding domain

“similar” region

DNA binding protein

unknown protein

↑without the domain!

Page 39: [DDBJing29]DDBJ, NIG SuperComputer, 大量配列情報解析(第29回 DDBJing 講習会 in 三島)

機能の伝言ゲーム(劣化あり)が行われている

Page 40: [DDBJing29]DDBJ, NIG SuperComputer, 大量配列情報解析(第29回 DDBJing 講習会 in 三島)

どうすれば良いのか?

• 配列類似検索の対象は、信頼できるライブラリから順に使う

• 配列類似検索以外の機能予測方法を用いる

• 注釈の「根拠 (evidence)」が明示できる方法で注釈する

Page 41: [DDBJing29]DDBJ, NIG SuperComputer, 大量配列情報解析(第29回 DDBJing 講習会 in 三島)

どうすれば良いのか?

• 配列類似検索の対象は、信頼できるライブラリから順に使う

• 配列類似検索以外の機能予測方法を用いる

• 注釈の「根拠 (evidence)」が明示できる方法で注釈する

Page 42: [DDBJing29]DDBJ, NIG SuperComputer, 大量配列情報解析(第29回 DDBJing 講習会 in 三島)

類似配列の検索対象ライブラリを選ぶ最大のデータセットが常に最適な結果をもたらす訳ではない

UniProt/TrEMBL(56,010,222 entries)SwissProt ライクな自動処理

UniProt/SwissProt(545,388 entries)「アノテータ」が見ている

高品質だがエントリが少い

nr-aa(40,910,947 entries)GenBankの注釈そのまま

網羅的だが品質は低い場合もある

Page 43: [DDBJing29]DDBJ, NIG SuperComputer, 大量配列情報解析(第29回 DDBJing 講習会 in 三島)

どうすれば良いのか?

• 配列類似検索の対象は、信頼できるライブラリから順に使う

• 配列類似検索以外の機能予測方法を用いる

• 注釈の「根拠 (evidence)」が明示できる方法で注釈する

Page 44: [DDBJing29]DDBJ, NIG SuperComputer, 大量配列情報解析(第29回 DDBJing 講習会 in 三島)

モチーフ・プロファイル検索

•「モチーフ」とはタンパク質中で局所的に良く保存されたアミノ酸配列

•タンパク質はそれぞれ特有のモチーフのセットをもった「ドメイン」から成る、こうした「配列」と「機能」が結びついたパターンを探索することで、機能予測と機能分類が可能になる

Page 45: [DDBJing29]DDBJ, NIG SuperComputer, 大量配列情報解析(第29回 DDBJing 講習会 in 三島)

InterPro でまとめがけ

•機能と構造単位の諸検索法の統合

•モチーフ・ドメイン・プロファイル等の名称で呼ばれる機能や構造と結びついたアミノ酸配列の保存された領域をまとめたデータベース

•Pfam, PRINTS, PROSITE... 等を総合し、独自注釈も追加

Page 46: [DDBJing29]DDBJ, NIG SuperComputer, 大量配列情報解析(第29回 DDBJing 講習会 in 三島)

http://www.ebi.ac.uk/interpro

Page 47: [DDBJing29]DDBJ, NIG SuperComputer, 大量配列情報解析(第29回 DDBJing 講習会 in 三島)

どうすれば良いのか?

• 配列類似検索の対象は、信頼できるライブラリから順に使う

• 配列類似検索以外の機能予測方法を用いる

• 注釈の「根拠 (evidence)」が明示できる方法で注釈する

Page 48: [DDBJing29]DDBJ, NIG SuperComputer, 大量配列情報解析(第29回 DDBJing 講習会 in 三島)

IDAInferred from Direct Assay

TASTraceable Author Statement

ISSInferred from Sequence or

Structural similarity

Evidence codes in GO Annotation

IEAInferred from Electronic Annotation (automated)

IMPInferred from Mutant

Phenotype

Page 49: [DDBJing29]DDBJ, NIG SuperComputer, 大量配列情報解析(第29回 DDBJing 講習会 in 三島)

(自習用)資料bit.ly/ddbjing201406

Page 50: [DDBJing29]DDBJ, NIG SuperComputer, 大量配列情報解析(第29回 DDBJing 講習会 in 三島)

正確な解析情報を付与して

Page 51: [DDBJing29]DDBJ, NIG SuperComputer, 大量配列情報解析(第29回 DDBJing 講習会 in 三島)

研究に使い倒して役立てよう

Page 52: [DDBJing29]DDBJ, NIG SuperComputer, 大量配列情報解析(第29回 DDBJing 講習会 in 三島)

DDBJ (http://www.ddbj.nig.ac.jp/)

データベースもがんばります

Page 53: [DDBJing29]DDBJ, NIG SuperComputer, 大量配列情報解析(第29回 DDBJing 講習会 in 三島)