GenBank -...

29
lezione 09 1 Basi di dati biologici GenBank

Transcript of GenBank -...

lezione 09 1

Basi di dati biologici

GenBank

lezione 09 2

Esempio: GenBank Che cos’è GenBank®

http://www.ncbi.nlm.nih.gov/ (NCBI HomePage.htm)

n  è il genetic sequence DataBase del NIH (National

Institute of Health) n  contiene sequenze (primarie) annotate di nucleotidi e

di proteine n  i files sono ragguppati in “divisioni” (caratterizzate da

come sono stati ottenuti i dati) n  cresce per effetto della sottomissione dei dati diretta

da parte dei ricercatori (lavoro su base volontaria)

Home Page

lezione 09 3

lezione 09 4

lezione 09 5

International Nucleotide Sequence Database Collaboration

GenBank National Center for Biotechnology Information

NIH-Bethesda, Maryland

DNA Database of Japan DDBJ

Mishima, Japan

EMBL (European Molecular Biology Laboratory) –database European Bioinformatics Institute, Hinxton, England

lezione 09 7

lezione 09 8

1962 Pauling's theory of molecular evolution 1965 Margaret Dayhoff's Atlas of Protein Sequences 1970 Needleman-Wunsch algorithm 1977 DNA sequencing and software to analyze it (Staden) 1981 Smith-Waterman algorithm developed 1981 The concept of a sequence motif (Doolittle) 1982 GenBank Release 3 made public 1982 Phage lambda genome sequenced 1983 Sequence database searching algorithm (Wilbur-Lipman) 1985 FASTP/FASTN: fast sequence similarity searching 1988 National Center for Biotechnology Information (NCBI) created at NIH/NLM 1988 EMBnet network for database distribution 1990 BLAST: fast sequence similarity searching 1991 EST: expressed sequence tag sequencing 1993 Sanger Centre, Hinxton, UK 1994 EMBL European Bioinformatics Institute, Hinxton, UK 1995 First bacterial genomes completely sequenced 1996 Yeast genome completely sequenced 1997 PSI-BLAST 1998 Worm (multicellular) genome completely sequenced 1999 Fly genome completely sequenced

Un po’ di storia (dal sito http://www.ncbi.nlm.nih.gov/Education/BLASTinfo/milestones.html)

lezione 09 9

Come collaborano i DB?

n scelte di fondo comuni n scelta di data model comuni n scambio di informazioni giornaliero n aggiornamento reciproco dei dati

... è uno standard: molti utenti garantiscono buone informazioni

lezione 09 10

PROSITEDOC

PRINTS

The Landscape of Biological Data Sources

BLOCKS PFAMBPFAMA

SWISSFAMDOMO

PRODOM

PROSITE

PDB

DSSP

SWISSPROT

TREEMBL

EMBL

DBSTS DDBJ

Entrez

Patent USPTO

PIR Patent PCT

NRL3D

Medline

GENEPEPT

TFCLASS

LOCUS LINK

TFMATRIX

TFSITEUNIGENE

TFCELL GSDB TIGR

TAXONOMY Celera

GENETICCODEGENBANKRHDBHUGO

GDBOMIM

SNP

dbSNP Contact

dbSNP PopulationSNP Consortium

WIT

KEGG

STKE

ENZYME

FASTABLAST

SSEARCH

Microbial Genomes

Fly Base

C. ElegansClinical DB

CLUSTALW

EBI

Patent JPO

lezione 09 12

Coordinamento e servizi offerti

n  bisogna fare in modo che le differenze di format siano eliminate (ognuno riallinea i record nei propri formati)

n  bisogna evitare che gli update di uno non vengano registrati dagli altri (ognuno e’ responsabile dei record che inserisce)

n  per GenBank si intende DDBJ/EMBL/GenBank (ed è anche parte di una estesa comunita’ di DB)

n  GenBank è parte di una serie di servizi http://www.ncbi.nlm.nih.gov/Sitemap/index.html

lezione 09 13

Primary and secondary databases

n  primary (archival) secondary (curated) databases n  primary database record: sequenza

sperimentalmente determinata n  primary database record: non rappresenta una

consensus sequence La regola fondamentale è che i dati sperimentali sono importanti e tutto il resto è “pericoloso” (features)

Ricerca

lezione 09 14

lezione 09 15

lezione 09 16

lezione 09 17

Che tipo di formato?

n  ora discutiamo il GenBank flat file (GBFF) format, il modello dei dati di NCBI verrà discusso in seguito

n  il formato completo dei dati di NCBI è rappresentato in modo preciso mediante un linguaggio formale, ASN.1

... ci sono molti formati, variamente discutibili.

lezione 09 18

I formati

n umani e computer hanno diverse esigenze

n a volte (spesso) un formato è mantenuto esclusivamente per ragioni storiche

n GBFF è semplice e questo ... paga (molti tools lo usano)

lezione 09 19

Formato testo   Advantages:

  Human readable   Very commonly used and understood   Can be parsed using simple tools such as Perl.

  Disadvantages:   May be difficult to unambiguously parse.   Relationships between data items (neighboring, hard links) are not directly expressed.   Tools are generally ad hoc; there are no standard parsing tools.

LOCUS AC105318 110811 bp DNA linear HTG 30-DEC-2001 DEFINITION Oryza sativa chromosome 5 clone OJ1058F05, *** SEQUENCING IN PROGRESS ***, 3 ordered pieces. ACCESSION AC105318 VERSION AC105318.1 GI:17998701 KEYWORDS HTG; HTGS_PHASE2. SOURCE Oryza sativa. ORGANISM Oryza sativa Eukaryota; Viridiplantae; Streptophyta; Embryophyta; Tracheophyta; Spermatophyta; Magnoliophyta; Liliopsida; Poales; Poaceae; Ehrhartoideae; Oryzeae; Oryza. REFERENCE 1 (bases 1 to 110811) AUTHORS Chow,T.-Y., Hsing,Y.-I.C., Chen,C.-S., Chen,H.-H., Wu,H.-P., Liu,S.-M., Chao,Y.-T., Chang,S.-J., Chen,T.-R., Chen,Y.-L., Chow,M.-H.J., Hong,Y.-C., Hsiung,J.-N., Hsu,C.-H., Huang,J.-J., Kau,P.-I., Lee,M.-C., Leu,H.-L., Lin,S.-J., Wu,L.-F. and Shaw,J.-F. TITLE Oryza sativa BAC OJ1058F05 genomic sequence JOURNAL Unpublished BASE COUNT 29791 a 26081 c 24560 g 30258 t 121 others ORIGIN 1 gtttctcctc aacatcaaga gacgctatca acccctcaac ggagtattcc tatctcttgt 61 gtttgagtgc agtaccgaaa cctctccaag atggaggtaa tttcacaata atgcacctag 121 ccacaaattt gttgggtaag acacacttaa ggagttcgag ttcctcagcc atggtttgta

Formato testo

lezione 09 21

Formato Fasta   Advantages:

  Human readable   Simple format   Understood by available searching tools

  Disadvantages:   Incomplete; does not include all data   Relationships between data items (neighboring, hard links) are not directly expressed.   Tools are generally ad-hoc; there are no standard parsing tools.

Formato FASTA

>gi|532319|pir|TVFV2E|TVFV2E envelope protein ELRLRYCAPAGFALLKCNDADYDGFKTNCSNVSVVHCTNLMNTTVTTGLLLNGSYSENRT QIWQKHRTSNDSALILLNKHYNLTVTCKRPGNKTVLPVTIMAGLVFHSQKYNLRLRQAWC HFPSNWKGAWKEVKEEIVNLPKERYRGTNDPKRIFFQRQWGDPETANLWFNCHGEFFYCK MDWFLNYLNNLTVDADHNECKNTSGTKSGNKRAPGPCVQRTYVACHIRSVIIWLETISKK TYAPPREGHLECTSTVTGMTVELNYIPKNRTNVTLSPQIESIWAAELDRYKLVEITPIGF APTEVRRYTGGHERQKRVPFVXXXXXXXXXXXXXXXXXXXXXXVQSQHLLAGILQQQKL LAAVEAQQQMLKLTIWGVK

lezione 09 23

I componenti

n  il carattere che identifica la linea di commento >

n  l’identificatore (GenBank accession number) n  LOCUS name e DEFINITION dal GenBank

record

... esistono tools per la conversione (e.g. asn2ff)

lezione 09 24

vedi http://www.ncbi.nlm.nih.gov/BLAST/fasta.html FASTA format description

lezione 09 25

GBFF format

n e’ il formato di scambio tra DDBJ – EMBL – GB

n e’ organizzato mediante “line type prefixes”

n  il formato rappresenta alcune delle info relative al formato ASN.1

lezione 09 26

ASN.1

  Abstract Syntax Notation One (ASN.1) is a formal language for abstractly describing messages to be exchanged among different computer systems and programs.   ASN.1 was originally developed by the telecommunications industry as a data exchange format.   ASN.1 is now an ISO standard.   See http://asn1.elibel.tm.fr/

lezione 09 27

 ASN.1 supports binary data formats and can describe information in any form (audio, video, text, etc.)  ASN.1 uses a hierarchical (i.e., tree structured) data model.  ASN.1 schemas are called modules.  Modules are defined using a notation called Bacchus-Naur Form (BNF) that is commonly used to describe the syntax of computer languages.

NCBI-Sequence DEFINITIONS ::= BEGIN

Bioseq ::= SEQUENCE { id SET OF Seq-id , -- equivalent identifiers descr Seq-descr OPTIONAL , -- descriptors inst Seq-inst , -- the sequence data annot SET OF Seq-annot OPTIONAL } Seq-descr ::= SET OF Seqdesc

Seqdesc ::= CHOICE { mol-type GIBB-mol , -- type of molecule modif SET OF GIBB-mod , -- modifiers method GIBB-method , -- sequencing method name VisibleString , -- a name for this sequence … }

… END

lezione 09 29