GenBank -...
Transcript of GenBank -...
lezione 09 2
Esempio: GenBank Che cos’è GenBank®
http://www.ncbi.nlm.nih.gov/ (NCBI HomePage.htm)
n è il genetic sequence DataBase del NIH (National
Institute of Health) n contiene sequenze (primarie) annotate di nucleotidi e
di proteine n i files sono ragguppati in “divisioni” (caratterizzate da
come sono stati ottenuti i dati) n cresce per effetto della sottomissione dei dati diretta
da parte dei ricercatori (lavoro su base volontaria)
International Nucleotide Sequence Database Collaboration
GenBank National Center for Biotechnology Information
NIH-Bethesda, Maryland
DNA Database of Japan DDBJ
Mishima, Japan
EMBL (European Molecular Biology Laboratory) –database European Bioinformatics Institute, Hinxton, England
lezione 09 8
1962 Pauling's theory of molecular evolution 1965 Margaret Dayhoff's Atlas of Protein Sequences 1970 Needleman-Wunsch algorithm 1977 DNA sequencing and software to analyze it (Staden) 1981 Smith-Waterman algorithm developed 1981 The concept of a sequence motif (Doolittle) 1982 GenBank Release 3 made public 1982 Phage lambda genome sequenced 1983 Sequence database searching algorithm (Wilbur-Lipman) 1985 FASTP/FASTN: fast sequence similarity searching 1988 National Center for Biotechnology Information (NCBI) created at NIH/NLM 1988 EMBnet network for database distribution 1990 BLAST: fast sequence similarity searching 1991 EST: expressed sequence tag sequencing 1993 Sanger Centre, Hinxton, UK 1994 EMBL European Bioinformatics Institute, Hinxton, UK 1995 First bacterial genomes completely sequenced 1996 Yeast genome completely sequenced 1997 PSI-BLAST 1998 Worm (multicellular) genome completely sequenced 1999 Fly genome completely sequenced
Un po’ di storia (dal sito http://www.ncbi.nlm.nih.gov/Education/BLASTinfo/milestones.html)
lezione 09 9
Come collaborano i DB?
n scelte di fondo comuni n scelta di data model comuni n scambio di informazioni giornaliero n aggiornamento reciproco dei dati
... è uno standard: molti utenti garantiscono buone informazioni
PROSITEDOC
PRINTS
The Landscape of Biological Data Sources
BLOCKS PFAMBPFAMA
SWISSFAMDOMO
PRODOM
PROSITE
PDB
DSSP
SWISSPROT
TREEMBL
EMBL
DBSTS DDBJ
Entrez
Patent USPTO
PIR Patent PCT
NRL3D
Medline
GENEPEPT
TFCLASS
LOCUS LINK
TFMATRIX
TFSITEUNIGENE
TFCELL GSDB TIGR
TAXONOMY Celera
GENETICCODEGENBANKRHDBHUGO
GDBOMIM
SNP
dbSNP Contact
dbSNP PopulationSNP Consortium
WIT
KEGG
STKE
ENZYME
FASTABLAST
SSEARCH
Microbial Genomes
Fly Base
C. ElegansClinical DB
CLUSTALW
EBI
Patent JPO
lezione 09 12
Coordinamento e servizi offerti
n bisogna fare in modo che le differenze di format siano eliminate (ognuno riallinea i record nei propri formati)
n bisogna evitare che gli update di uno non vengano registrati dagli altri (ognuno e’ responsabile dei record che inserisce)
n per GenBank si intende DDBJ/EMBL/GenBank (ed è anche parte di una estesa comunita’ di DB)
n GenBank è parte di una serie di servizi http://www.ncbi.nlm.nih.gov/Sitemap/index.html
lezione 09 13
Primary and secondary databases
n primary (archival) secondary (curated) databases n primary database record: sequenza
sperimentalmente determinata n primary database record: non rappresenta una
consensus sequence La regola fondamentale è che i dati sperimentali sono importanti e tutto il resto è “pericoloso” (features)
lezione 09 17
Che tipo di formato?
n ora discutiamo il GenBank flat file (GBFF) format, il modello dei dati di NCBI verrà discusso in seguito
n il formato completo dei dati di NCBI è rappresentato in modo preciso mediante un linguaggio formale, ASN.1
... ci sono molti formati, variamente discutibili.
lezione 09 18
I formati
n umani e computer hanno diverse esigenze
n a volte (spesso) un formato è mantenuto esclusivamente per ragioni storiche
n GBFF è semplice e questo ... paga (molti tools lo usano)
lezione 09 19
Formato testo Advantages:
Human readable Very commonly used and understood Can be parsed using simple tools such as Perl.
Disadvantages: May be difficult to unambiguously parse. Relationships between data items (neighboring, hard links) are not directly expressed. Tools are generally ad hoc; there are no standard parsing tools.
LOCUS AC105318 110811 bp DNA linear HTG 30-DEC-2001 DEFINITION Oryza sativa chromosome 5 clone OJ1058F05, *** SEQUENCING IN PROGRESS ***, 3 ordered pieces. ACCESSION AC105318 VERSION AC105318.1 GI:17998701 KEYWORDS HTG; HTGS_PHASE2. SOURCE Oryza sativa. ORGANISM Oryza sativa Eukaryota; Viridiplantae; Streptophyta; Embryophyta; Tracheophyta; Spermatophyta; Magnoliophyta; Liliopsida; Poales; Poaceae; Ehrhartoideae; Oryzeae; Oryza. REFERENCE 1 (bases 1 to 110811) AUTHORS Chow,T.-Y., Hsing,Y.-I.C., Chen,C.-S., Chen,H.-H., Wu,H.-P., Liu,S.-M., Chao,Y.-T., Chang,S.-J., Chen,T.-R., Chen,Y.-L., Chow,M.-H.J., Hong,Y.-C., Hsiung,J.-N., Hsu,C.-H., Huang,J.-J., Kau,P.-I., Lee,M.-C., Leu,H.-L., Lin,S.-J., Wu,L.-F. and Shaw,J.-F. TITLE Oryza sativa BAC OJ1058F05 genomic sequence JOURNAL Unpublished BASE COUNT 29791 a 26081 c 24560 g 30258 t 121 others ORIGIN 1 gtttctcctc aacatcaaga gacgctatca acccctcaac ggagtattcc tatctcttgt 61 gtttgagtgc agtaccgaaa cctctccaag atggaggtaa tttcacaata atgcacctag 121 ccacaaattt gttgggtaag acacacttaa ggagttcgag ttcctcagcc atggtttgta
Formato testo
lezione 09 21
Formato Fasta Advantages:
Human readable Simple format Understood by available searching tools
Disadvantages: Incomplete; does not include all data Relationships between data items (neighboring, hard links) are not directly expressed. Tools are generally ad-hoc; there are no standard parsing tools.
Formato FASTA
>gi|532319|pir|TVFV2E|TVFV2E envelope protein ELRLRYCAPAGFALLKCNDADYDGFKTNCSNVSVVHCTNLMNTTVTTGLLLNGSYSENRT QIWQKHRTSNDSALILLNKHYNLTVTCKRPGNKTVLPVTIMAGLVFHSQKYNLRLRQAWC HFPSNWKGAWKEVKEEIVNLPKERYRGTNDPKRIFFQRQWGDPETANLWFNCHGEFFYCK MDWFLNYLNNLTVDADHNECKNTSGTKSGNKRAPGPCVQRTYVACHIRSVIIWLETISKK TYAPPREGHLECTSTVTGMTVELNYIPKNRTNVTLSPQIESIWAAELDRYKLVEITPIGF APTEVRRYTGGHERQKRVPFVXXXXXXXXXXXXXXXXXXXXXXVQSQHLLAGILQQQKL LAAVEAQQQMLKLTIWGVK
lezione 09 23
I componenti
n il carattere che identifica la linea di commento >
n l’identificatore (GenBank accession number) n LOCUS name e DEFINITION dal GenBank
record
... esistono tools per la conversione (e.g. asn2ff)
lezione 09 25
GBFF format
n e’ il formato di scambio tra DDBJ – EMBL – GB
n e’ organizzato mediante “line type prefixes”
n il formato rappresenta alcune delle info relative al formato ASN.1
lezione 09 26
ASN.1
Abstract Syntax Notation One (ASN.1) is a formal language for abstractly describing messages to be exchanged among different computer systems and programs. ASN.1 was originally developed by the telecommunications industry as a data exchange format. ASN.1 is now an ISO standard. See http://asn1.elibel.tm.fr/
lezione 09 27
ASN.1 supports binary data formats and can describe information in any form (audio, video, text, etc.) ASN.1 uses a hierarchical (i.e., tree structured) data model. ASN.1 schemas are called modules. Modules are defined using a notation called Bacchus-Naur Form (BNF) that is commonly used to describe the syntax of computer languages.
NCBI-Sequence DEFINITIONS ::= BEGIN
Bioseq ::= SEQUENCE { id SET OF Seq-id , -- equivalent identifiers descr Seq-descr OPTIONAL , -- descriptors inst Seq-inst , -- the sequence data annot SET OF Seq-annot OPTIONAL } Seq-descr ::= SET OF Seqdesc
Seqdesc ::= CHOICE { mol-type GIBB-mol , -- type of molecule modif SET OF GIBB-mod , -- modifiers method GIBB-method , -- sequencing method name VisibleString , -- a name for this sequence … }
… END