BASI DI DATI BIOLOGICHE - 2. Basi di Dati Biologiche Tipi principali di Basi di Dati Biologiche: Di...

Click here to load reader

  • date post

    01-May-2015
  • Category

    Documents

  • view

    217
  • download

    4

Embed Size (px)

Transcript of BASI DI DATI BIOLOGICHE - 2. Basi di Dati Biologiche Tipi principali di Basi di Dati Biologiche: Di...

  • Slide 1
  • BASI DI DATI BIOLOGICHE - 2
  • Slide 2
  • Basi di Dati Biologiche Tipi principali di Basi di Dati Biologiche: Di sequenze : NCBI. Di annotazioni: Ensembl.Specifiche:Transfac. Di analisi: Microarray.
  • Slide 3
  • Basi di dati di sequenze (1) Basi di dati pubbliche: NCBI;DDBJ;EBI. Mantengono dati sul sequenziamento (sequenza FASTA) e sulle caratteristiche conosciute riconducibili a tali sequenze (regioni codificanti, regioni di legame, inizio della replicazione,...).
  • Slide 4
  • Basi di dati di sequenze (2) Deposito di sequenze provenienti da sottomissioni dirette. Le tre le organizzazioni utilizzano DBMS diversi. NCBI personalizzato; EBI SRS Oracle. Si scambiano dati quotidianamente.
  • Slide 5
  • Basi di dati di sequenze - Interazione L'interazione con gli utenti diversa per ognuna delle organizzazioni. NCBI:Entrez;EBI/DDBJ:SRS. In tutti i casi, la struttura delle basi di dati nascosta agli utenti.
  • Slide 6
  • Basi Di Dati di Sequenze Flat File L'interazione fra le tre organizzazioni organizzata attraverso un protocollo. Tale protocollo definisce il formato dei dati che vengono scambiati. In modo indiretto fornisce delle informazioni sull'organizzazione dei dati.
  • Slide 7
  • Flat File - Introduzione L'obiettivo dei flat file di definire delle regole che permettano alle tre basi di dati di scambiarsi informazioni. Le informazioni scambiate possono essere di natura diversa: informazioni sulla sequenza; caratteristiche (feature): funzioni biologiche; interazioni fra molecole; risultato dell'espressione di una funzione biologica.
  • Slide 8
  • Flat File - Struttura Insieme di coppie chiave/valore. Il valore pu essere, a sua volta, una insieme di coppie chiave/valore. La chiave stabilita dallo standad. Del valore viene a volte definita la struttura.
  • Slide 9
  • Flat File - Esempio. LOCUS SCU49845 5028 bp DNA PLN 21-JUN-1999 DEFINITION Saccharomyces cerevisiae TCP1-beta gene, partial cds, and Axl2p (AXL2) and Rev7p (REV7) genes, complete cds. ACCESSION U49845 VERSION U49845.1 GI:1293613 KEYWORDS. SOURCE Saccharomyces cerevisiae (baker's yeast) ORGANISM Saccharomyces cerevisiae Eukaryota; Fungi; Ascomycota; Saccharomycotina; Saccharomycetes; Saccharomycetales; Saccharomycetaceae; Saccharomyces. REFERENCE 1 (bases 1 to 5028) AUTHORS Torpey,L.E., Gibbs,P.E., Nelson,J. and Lawrence,C.W. TITLE Cloning and sequence of REV7, a gene whose function is required for DNA damage-induced mutagenesis in Saccharomyces cerevisiae JOURNAL Yeast 10 (11), 1503-1509 (1994) MEDLINE 95176709 PUBMED 7871890 REFERENCE 2 (bases 1 to 5028) AUTHORS Roemer,T., Madden,K., Chang,J. and Snyder,M. TITLE Selection of axial growth sites in yeast requires Axl2p, a novel plasma membrane glycoprotein JOURNAL Genes Dev. 10 (7), 777-793 (1996) MEDLINE 96194260 PUBMED 8846915 REFERENCE 3 (bases 1 to 5028) AUTHORS Roemer,T. TITLE Direct Submission JOURNAL Submitted (22-FEB-1996) Terry Roemer, Biology, Yale University, New Haven, CT, USA
  • Slide 10
  • Flat File - LOCUS Il primo attributo (LOCUS) strutturato: locus name nell'esempio, SCU49845; sequence length 5028 bp; molecule type DNA; GenBank division PLN = plant, fungal, and algal sequences; modification date.
  • Slide 11
  • Flat File - DEFINITION Breve descrizione della sequenza, che include informazioni quali l'organismo di provenienza, il nome del gene, o della proteina, e una qualche descrizione delle funzioni della sequenza qualora essa non sia codificante; E un campo poveramente strutturato, denominato annotazione della sequenza.
  • Slide 12
  • Flat File - SOURCE Informazioni non strutturate sull'organismo e, talvolta, sul tipo della molecola di provenienza della sequenza; Contiene la sotto-specificazione ORGANISM: Nome scientifico formale (genere e specie) dell'organismo di provenienza.
  • Slide 13
  • Flat File IDENTIFICATORI ACCESSION: l'identificatore stabile del record della sequenza, costituito da una combinazione di lettere e numeri. VERSION: l'identificatore di una singola, specifica sequenza all'interno della genbank. GI: un numero, equivalente a VERSION, attribuito ad ogni sequenza.
  • Slide 14
  • Flat File REFERENCE Pubblicazioni scientifiche relative alla sequenza, che hanno per oggetto dati riportati nel record (sia sulla sequenza che sull'annotazione); E' costituito da un insieme di coppie chiave/valore.
  • Slide 15
  • Flat File REFERENCE sottocampi AUTHORS elenco degli autori; TITLE titolo del documento; JOURNAL dove stato pubblicato; MEDLINE MedLine unique identifier (UID); PUBMED PubMed Identifier (PMID). Direct Submission Informazioni su chi ha inviato la sequenza.
  • Slide 16
  • Flat File FEATURES Oltre ai dati sulla sequenza, sono presenti, organizzati in maniera diversa, dati relativi a caratteristiche associabili alla sequenza; Tali dati, detti anche Feature Table, constano dei seguenti elementi: Feature Key: singola parola indicante il gruppo funzionale; Location: informazione utile per reperire la feature; Qualificazioni: informazioni ausiliarie sulla feature.
  • Slide 17
  • FEATURES Peculiarit Alcuni caratteristiche interessanti delle features sono: Si possono definire gerarchie di features; Le localizzazioni possono essere complesse; Possono essere disposte in maniera ordinata; L'evidenza sperimentale pu essere fornita in modo esplicito; La sintassi si presta ad un parsing automatico.
  • Slide 18
  • FEATURES Esempio (1) Key Location/Qualifiers CDS 23..400 /product="alcohol dehydrogenase" /gene="adhI" LA feature CDS una sequenza codificante che inizia alla base 23 e finisce alla base 400, ha un prodotto detto 'alcohol dehydrogenase' e codifica per un gene detto 'adhI'
  • Slide 19 1032) /product="T-cell receptor beta-chain" Questa feature una sequenza parzi">
  • FEATURES Esempio (2) Key Location/Qualifiers CDS join(544..589,688..>1032) /product="T-cell receptor beta-chain" Questa feature una sequenza parzialmente codificante formata unendo gli elementi indicati a formare un'unica sequenza contigua che codifica un prodotto detto 'T-cell receptor beta-chain'.
  • Slide 20
  • FEATURES Esempio (3) FEATURES Location/Qualifiers source 1..5028 /organism="Saccharomyces cerevisiae" /db_xref="taxon:4932" /chromosome="IX" /map="9" CDS