Download - BASI DI DATI BIOLOGICHE - 2. Basi di Dati Biologiche Tipi principali di Basi di Dati Biologiche: Di sequenze : NCBI. Di annotazioni: Ensembl.Specifiche:Transfac.

Transcript
Page 1: BASI DI DATI BIOLOGICHE - 2. Basi di Dati Biologiche Tipi principali di Basi di Dati Biologiche: Di sequenze : NCBI. Di annotazioni: Ensembl.Specifiche:Transfac.

BASI DI DATI BIOLOGICHE - 2

Page 2: BASI DI DATI BIOLOGICHE - 2. Basi di Dati Biologiche Tipi principali di Basi di Dati Biologiche: Di sequenze : NCBI. Di annotazioni: Ensembl.Specifiche:Transfac.

Basi di Dati Biologiche

Tipi principali di Basi di Dati Biologiche:Tipi principali di Basi di Dati Biologiche:

Di sequenzeDi sequenze::NCBINCBI..

Di annotazioni:Di annotazioni:Ensembl.Ensembl.

Specifiche:Specifiche:Transfac.Transfac.

Di analisi:Di analisi:Microarray.Microarray.

Page 3: BASI DI DATI BIOLOGICHE - 2. Basi di Dati Biologiche Tipi principali di Basi di Dati Biologiche: Di sequenze : NCBI. Di annotazioni: Ensembl.Specifiche:Transfac.

Basi di dati di sequenze (1)

Basi di dati pubbliche:Basi di dati pubbliche:

NCBI;NCBI;

DDBJ;DDBJ;

EBI.EBI.

Mantengono dati sul sequenziamento (sequenza FASTA) e Mantengono dati sul sequenziamento (sequenza FASTA) e sulle caratteristiche conosciute riconducibili a tali sequenze sulle caratteristiche conosciute riconducibili a tali sequenze (regioni codificanti, regioni di legame, inizio della (regioni codificanti, regioni di legame, inizio della replicazione, ...).replicazione, ...).

Page 4: BASI DI DATI BIOLOGICHE - 2. Basi di Dati Biologiche Tipi principali di Basi di Dati Biologiche: Di sequenze : NCBI. Di annotazioni: Ensembl.Specifiche:Transfac.

Basi di dati di sequenze (2)

Deposito di sequenze provenienti da sottomissioni dirette.Deposito di sequenze provenienti da sottomissioni dirette.

Le tre le organizzazioni utilizzano DBMS diversi.Le tre le organizzazioni utilizzano DBMS diversi.

NCBI – personalizzato;NCBI – personalizzato;

EBI – SRS Oracle.EBI – SRS Oracle.

Si scambiano dati quotidianamente.Si scambiano dati quotidianamente.

Page 5: BASI DI DATI BIOLOGICHE - 2. Basi di Dati Biologiche Tipi principali di Basi di Dati Biologiche: Di sequenze : NCBI. Di annotazioni: Ensembl.Specifiche:Transfac.

Basi di dati di sequenze - Interazione

L'interazione con gli utenti è diversa per ognuna delle L'interazione con gli utenti è diversa per ognuna delle organizzazioni.organizzazioni.

NCBI:NCBI:

Entrez;Entrez;

EBI/DDBJ:EBI/DDBJ:

SRS.SRS.

In tutti i casi, la struttura delle basi di dati è nascosta agli In tutti i casi, la struttura delle basi di dati è nascosta agli utenti.utenti.

Page 6: BASI DI DATI BIOLOGICHE - 2. Basi di Dati Biologiche Tipi principali di Basi di Dati Biologiche: Di sequenze : NCBI. Di annotazioni: Ensembl.Specifiche:Transfac.

Basi Di Dati di Sequenze – Flat File

L'interazione fra le tre organizzazioni è organizzata L'interazione fra le tre organizzazioni è organizzata attraverso un “protocollo”.attraverso un “protocollo”.

Tale “protocollo” definisce il formato dei dati che Tale “protocollo” definisce il formato dei dati che vengono scambiati.vengono scambiati.

In modo indiretto fornisce delle informazioni In modo indiretto fornisce delle informazioni sull'organizzazione dei dati.sull'organizzazione dei dati.

Page 7: BASI DI DATI BIOLOGICHE - 2. Basi di Dati Biologiche Tipi principali di Basi di Dati Biologiche: Di sequenze : NCBI. Di annotazioni: Ensembl.Specifiche:Transfac.

Flat File - Introduzione

L'obiettivo dei flat file è di definire delle regole che L'obiettivo dei flat file è di definire delle regole che permettano alle tre basi di dati di scambiarsi permettano alle tre basi di dati di scambiarsi informazioni.informazioni.

Le informazioni scambiate possono essere di natura Le informazioni scambiate possono essere di natura diversa:diversa:

informazioni sulla sequenza;informazioni sulla sequenza;

caratteristiche (feature):caratteristiche (feature):funzioni biologiche;

interazioni fra molecole;

risultato dell'espressione di una funzione biologica.

Page 8: BASI DI DATI BIOLOGICHE - 2. Basi di Dati Biologiche Tipi principali di Basi di Dati Biologiche: Di sequenze : NCBI. Di annotazioni: Ensembl.Specifiche:Transfac.

Flat File - Struttura

Insieme di coppie chiave/valore.Insieme di coppie chiave/valore.

Il valore può essere, a sua volta, una insieme di coppie Il valore può essere, a sua volta, una insieme di coppie chiave/valore.chiave/valore.

La chiave è stabilita dallo standad.La chiave è stabilita dallo standad.

Del valore viene a volte definita la struttura.Del valore viene a volte definita la struttura.

Page 9: BASI DI DATI BIOLOGICHE - 2. Basi di Dati Biologiche Tipi principali di Basi di Dati Biologiche: Di sequenze : NCBI. Di annotazioni: Ensembl.Specifiche:Transfac.

Flat File - Esempio.

LOCUS SCU49845 5028 bp DNA PLN 21-JUN-1999DEFINITION Saccharomyces cerevisiae TCP1-beta gene, partial cds, and Axl2p (AXL2) and Rev7p (REV7) genes, complete cds.ACCESSION U49845VERSION U49845.1 GI:1293613KEYWORDS .SOURCE Saccharomyces cerevisiae (baker's yeast) ORGANISM Saccharomyces cerevisiae Eukaryota; Fungi; Ascomycota; Saccharomycotina; Saccharomycetes; Saccharomycetales; Saccharomycetaceae; Saccharomyces.REFERENCE 1 (bases 1 to 5028) AUTHORS Torpey,L.E., Gibbs,P.E., Nelson,J. and Lawrence,C.W. TITLE Cloning and sequence of REV7, a gene whose function is required for DNA damage-induced mutagenesis in Saccharomyces cerevisiae JOURNAL Yeast 10 (11), 1503-1509 (1994) MEDLINE 95176709 PUBMED 7871890REFERENCE 2 (bases 1 to 5028) AUTHORS Roemer,T., Madden,K., Chang,J. and Snyder,M. TITLE Selection of axial growth sites in yeast requires Axl2p, a novel plasma membrane glycoprotein JOURNAL Genes Dev. 10 (7), 777-793 (1996) MEDLINE 96194260 PUBMED 8846915REFERENCE 3 (bases 1 to 5028) AUTHORS Roemer,T. TITLE Direct Submission JOURNAL Submitted (22-FEB-1996) Terry Roemer, Biology, Yale University, New Haven, CT, USA

Page 10: BASI DI DATI BIOLOGICHE - 2. Basi di Dati Biologiche Tipi principali di Basi di Dati Biologiche: Di sequenze : NCBI. Di annotazioni: Ensembl.Specifiche:Transfac.

Flat File - LOCUS

Il primo attributo (LOCUS) è strutturato:Il primo attributo (LOCUS) è strutturato:

locus name – nell'esempio, SCU49845;locus name – nell'esempio, SCU49845;

sequence length – 5028 bp;sequence length – 5028 bp;

molecule type – DNA;molecule type – DNA;

GenBank division – PLN = plant, fungal, and algal GenBank division – PLN = plant, fungal, and algal sequences;sequences;

modification date.modification date.

Page 11: BASI DI DATI BIOLOGICHE - 2. Basi di Dati Biologiche Tipi principali di Basi di Dati Biologiche: Di sequenze : NCBI. Di annotazioni: Ensembl.Specifiche:Transfac.

Flat File - DEFINITION

Breve descrizione della sequenza, che include Breve descrizione della sequenza, che include informazioni quali l'organismo di provenienza, il nome informazioni quali l'organismo di provenienza, il nome del gene, o della proteina, e una qualche descrizione del gene, o della proteina, e una qualche descrizione delle funzioni della sequenza qualora essa non sia delle funzioni della sequenza qualora essa non sia codificante;codificante;

E’ un campo poveramente strutturato, denominato E’ un campo poveramente strutturato, denominato annotazioneannotazione della sequenza. della sequenza.

Page 12: BASI DI DATI BIOLOGICHE - 2. Basi di Dati Biologiche Tipi principali di Basi di Dati Biologiche: Di sequenze : NCBI. Di annotazioni: Ensembl.Specifiche:Transfac.

Flat File - SOURCE

Informazioni non strutturate sull'organismo e, talvolta, Informazioni non strutturate sull'organismo e, talvolta, sul tipo della molecola di provenienza della sequenza;sul tipo della molecola di provenienza della sequenza;

Contiene la sotto-specificazione ORGANISM:Contiene la sotto-specificazione ORGANISM:Nome scientifico formale (genere e specie) dell'organismo di Nome scientifico formale (genere e specie) dell'organismo di provenienza.provenienza.

Page 13: BASI DI DATI BIOLOGICHE - 2. Basi di Dati Biologiche Tipi principali di Basi di Dati Biologiche: Di sequenze : NCBI. Di annotazioni: Ensembl.Specifiche:Transfac.

Flat File – IDENTIFICATORI

ACCESSION: è l'identificatore stabile del record della ACCESSION: è l'identificatore stabile del record della sequenza, costituito da una combinazione di lettere e sequenza, costituito da una combinazione di lettere e numeri.numeri.

VERSION: è l'identificatore di una singola, specifica VERSION: è l'identificatore di una singola, specifica sequenza all'interno della genbank.sequenza all'interno della genbank.

GI: è un numero, equivalente a VERSION, attribuito ad GI: è un numero, equivalente a VERSION, attribuito ad ogni sequenza.ogni sequenza.

Page 14: BASI DI DATI BIOLOGICHE - 2. Basi di Dati Biologiche Tipi principali di Basi di Dati Biologiche: Di sequenze : NCBI. Di annotazioni: Ensembl.Specifiche:Transfac.

Flat File – REFERENCE

Pubblicazioni scientifiche relative alla sequenza, che Pubblicazioni scientifiche relative alla sequenza, che hanno per oggetto dati riportati nel record (sia sulla hanno per oggetto dati riportati nel record (sia sulla sequenza che sull'annotazione);sequenza che sull'annotazione);

E' costituito da un insieme di coppie chiave/valore.E' costituito da un insieme di coppie chiave/valore.

Page 15: BASI DI DATI BIOLOGICHE - 2. Basi di Dati Biologiche Tipi principali di Basi di Dati Biologiche: Di sequenze : NCBI. Di annotazioni: Ensembl.Specifiche:Transfac.

Flat File – REFERENCE sottocampi

AUTHORS – elenco degli autori;AUTHORS – elenco degli autori;

TITLE – titolo del documento;TITLE – titolo del documento;

JOURNAL – dove è stato pubblicato;JOURNAL – dove è stato pubblicato;

MEDLINE – MedLine unique identifier (UID);MEDLINE – MedLine unique identifier (UID);

PUBMED – PubMed Identifier (PMID).PUBMED – PubMed Identifier (PMID).

Direct Submission – Informazioni su chi ha inviato la sequenza.Direct Submission – Informazioni su chi ha inviato la sequenza.

Page 16: BASI DI DATI BIOLOGICHE - 2. Basi di Dati Biologiche Tipi principali di Basi di Dati Biologiche: Di sequenze : NCBI. Di annotazioni: Ensembl.Specifiche:Transfac.

Flat File – FEATURES

Oltre ai dati sulla sequenza, sono presenti, organizzati Oltre ai dati sulla sequenza, sono presenti, organizzati in maniera diversa, dati relativi a caratteristiche in maniera diversa, dati relativi a caratteristiche associabili alla sequenza;associabili alla sequenza;

Tali dati, detti anche Feature Table, constano dei Tali dati, detti anche Feature Table, constano dei seguenti elementi:seguenti elementi:

Feature Key: singola parola indicante il gruppo funzionale;Feature Key: singola parola indicante il gruppo funzionale;Location: informazione utile per reperire la feature;Location: informazione utile per reperire la feature;Qualificazioni: informazioni ausiliarie sulla feature.Qualificazioni: informazioni ausiliarie sulla feature.

Page 17: BASI DI DATI BIOLOGICHE - 2. Basi di Dati Biologiche Tipi principali di Basi di Dati Biologiche: Di sequenze : NCBI. Di annotazioni: Ensembl.Specifiche:Transfac.

FEATURES – Peculiarità

Alcuni caratteristiche interessanti delle features sono:Alcuni caratteristiche interessanti delle features sono:

Si possono definire gerarchie di features;Si possono definire gerarchie di features;

Le localizzazioni possono essere complesse;Le localizzazioni possono essere complesse;

Possono essere disposte in maniera ordinata;Possono essere disposte in maniera ordinata;

L'evidenza sperimentale può essere fornita in modo L'evidenza sperimentale può essere fornita in modo esplicito;esplicito;

La sintassi si presta ad un parsing automatico.La sintassi si presta ad un parsing automatico.

Page 18: BASI DI DATI BIOLOGICHE - 2. Basi di Dati Biologiche Tipi principali di Basi di Dati Biologiche: Di sequenze : NCBI. Di annotazioni: Ensembl.Specifiche:Transfac.

FEATURES – Esempio (1)

Key Location/QualifiersKey Location/Qualifiers

CDS 23..400CDS 23..400

/product="alcohol dehydrogenase"

/gene="adhI"

LA feature CDS è una sequenza codificante che inizia alla base 23 LA feature CDS è una sequenza codificante che inizia alla base 23 e finisce alla base 400, ha un prodotto detto 'alcohol e finisce alla base 400, ha un prodotto detto 'alcohol dehydrogenase' e codifica per un gene detto 'adhI'dehydrogenase' e codifica per un gene detto 'adhI'

Page 19: BASI DI DATI BIOLOGICHE - 2. Basi di Dati Biologiche Tipi principali di Basi di Dati Biologiche: Di sequenze : NCBI. Di annotazioni: Ensembl.Specifiche:Transfac.

FEATURES – Esempio (2)

Key Location/QualifiersKey Location/Qualifiers

CDS join(544..589,688..>1032)CDS join(544..589,688..>1032)

/product="T-cell receptor beta-chain"

Questa feature è una sequenza parzialmente codificante formata Questa feature è una sequenza parzialmente codificante formata unendo gli elementi indicati a formare un'unica sequenza contigua unendo gli elementi indicati a formare un'unica sequenza contigua che codifica un prodotto detto 'T-cell receptor beta-chain'. che codifica un prodotto detto 'T-cell receptor beta-chain'.

Page 20: BASI DI DATI BIOLOGICHE - 2. Basi di Dati Biologiche Tipi principali di Basi di Dati Biologiche: Di sequenze : NCBI. Di annotazioni: Ensembl.Specifiche:Transfac.

FEATURES – Esempio (3)FEATURES Location/Qualifiers source 1..5028 /organism="Saccharomyces cerevisiae" /db_xref="taxon:4932" /chromosome="IX" /map="9" CDS <1..206 /codon_start=3 /product="TCP1-beta" /protein_id="AAA98665.1" /db_xref="GI:1293614" /translation="SSIYNGISTSGLDLNNGTIADMRQLGIVESYKLKRAVVSSASEA AEVLLRVDNIIRARPRTANRQHM" gene 687..3158 /gene="AXL2" CDS 687..3158 /gene="AXL2" /note="plasma membrane glycoprotein" /codon_start=1 /function="required for axial budding pattern of S. cerevisiae" /product="Axl2p" /protein_id="AAA98666.1" /db_xref="GI:1293615" /translation="MTQLQIS...PEML" gene complement(3300..4037) /gene="REV7" CDS complement(3300..4037) /gene="REV7" /codon_start=1 /product="Rev7p" /protein_id="AAA98667.1" /db_xref="GI:1293616" /translation="MNRWVEKWLR...SLF"

Page 21: BASI DI DATI BIOLOGICHE - 2. Basi di Dati Biologiche Tipi principali di Basi di Dati Biologiche: Di sequenze : NCBI. Di annotazioni: Ensembl.Specifiche:Transfac.

FEATURES - source

E' una feature particolare che riassume quanto si sa E' una feature particolare che riassume quanto si sa sull'elemento sulla base del solo sequenziamento:sull'elemento sulla base del solo sequenziamento:

lunghezza;lunghezza;

organismo;organismo;

locazione genomica;locazione genomica;

ecc...ecc...

Page 22: BASI DI DATI BIOLOGICHE - 2. Basi di Dati Biologiche Tipi principali di Basi di Dati Biologiche: Di sequenze : NCBI. Di annotazioni: Ensembl.Specifiche:Transfac.

FEATURES - CDS

Regione di nucleotidi che corrisponde ad una Regione di nucleotidi che corrisponde ad una sequenza di aminoacidi in una proteina (sequenza sequenza di aminoacidi in una proteina (sequenza codificante):codificante):

La prima riga è la locazione;La prima riga è la locazione;

Seguono dati accessori:Seguono dati accessori:product;

protein_id;

translation.

Page 23: BASI DI DATI BIOLOGICHE - 2. Basi di Dati Biologiche Tipi principali di Basi di Dati Biologiche: Di sequenze : NCBI. Di annotazioni: Ensembl.Specifiche:Transfac.

FEATURES - Gene

Una regione di interesse biologico identificata come un Una regione di interesse biologico identificata come un gene e alla quale è stato assegnato un nome.gene e alla quale è stato assegnato un nome.

Locazione;Locazione;

Nome del Gene.Nome del Gene.

Page 24: BASI DI DATI BIOLOGICHE - 2. Basi di Dati Biologiche Tipi principali di Basi di Dati Biologiche: Di sequenze : NCBI. Di annotazioni: Ensembl.Specifiche:Transfac.

FLAT FILE

Alla fine del flat file vengono riportati:Alla fine del flat file vengono riportati:

BASE COUNT – il numero di A, C, T e G nella sequenza;BASE COUNT – il numero di A, C, T e G nella sequenza;

Last but not list, la sequenza.Last but not list, la sequenza.

Page 25: BASI DI DATI BIOLOGICHE - 2. Basi di Dati Biologiche Tipi principali di Basi di Dati Biologiche: Di sequenze : NCBI. Di annotazioni: Ensembl.Specifiche:Transfac.

FEATURES – Esempio (3)

BASE COUNT 1510 a 1074 c 835 g 1609 tORIGIN 1 gatcctccat atacaacggt atctccacct caggtttaga tctcaacaac ggaaccattg 61 ccgacatgag acagttaggt atcgtcgaga gttacaagct aaaacgagca gtagtcagct 121 ctgcatctga agccgctgaa gttctactaa gggtggataa catcatccgt gcaagaccaa 181 gaaccgccaa tagacaacat atgtaacata tttaggatat acctcgaaaa taataaaccg 241 ccacactgtc attattataa ttagaaacag aacgcaaaaa ttatccacta tataattcaa 301 agacgcgaaa aaaaaagaac aacgcgtcat agaacttttg gcaattcgcg tcacaaataa 361 attttggcaa cttatgtttc ctcttcgagc agtactcgag ccctgtctca agaatgtaat 421 aatacccatc

... 4861 ttctccactt cactgtcgag ttgctcgttt ttagcggaca aagatttaat ctcgttttct 4921 ttttcagtgt tagattgctc taattctttg agctgttctc tcagctcctc atatttttct 4981 tgccatgact cagattctaa ttttaagcta ttcaatttct ctttgatc

Page 26: BASI DI DATI BIOLOGICHE - 2. Basi di Dati Biologiche Tipi principali di Basi di Dati Biologiche: Di sequenze : NCBI. Di annotazioni: Ensembl.Specifiche:Transfac.

ESERCIZIO

Sulla base del file di esempio, si costruisca una base di Sulla base del file di esempio, si costruisca una base di dati che mantenga le informazioni in esso riportate, dati che mantenga le informazioni in esso riportate, ovvero:ovvero:

Informazioni sulle sequenze:Informazioni sulle sequenze:descrizione;

source;

reference.

Features relative alle varie sequenze.Features relative alle varie sequenze.