Sequenze e Banche Dati Biologiche. Sequenze Le sequenze “pubbliche” sono innanzitutto depositate...

23
Sequenze e Banche Sequenze e Banche Dati Biologiche Dati Biologiche

Transcript of Sequenze e Banche Dati Biologiche. Sequenze Le sequenze “pubbliche” sono innanzitutto depositate...

Page 1: Sequenze e Banche Dati Biologiche. Sequenze Le sequenze “pubbliche” sono innanzitutto depositate dai gruppi di ricerca in database pubblici accessibili.

Sequenze e Banche Sequenze e Banche Dati BiologicheDati Biologiche

Page 2: Sequenze e Banche Dati Biologiche. Sequenze Le sequenze “pubbliche” sono innanzitutto depositate dai gruppi di ricerca in database pubblici accessibili.

SequenzeSequenze

Le sequenze “pubbliche” sono Le sequenze “pubbliche” sono innanzitutto depositate dai gruppi di innanzitutto depositate dai gruppi di ricerca in ricerca in databasedatabase pubblici pubblici accessibili via Internetaccessibili via Internet

I database principali sono curati da I database principali sono curati da organizzazioni internazionaliorganizzazioni internazionali

The National Center for The National Center for Biotechnology Information (Biotechnology Information (NCBINCBI) ) http://www.ncbi.nlm.nih.gov/http://www.ncbi.nlm.nih.gov/

European Bioinformatics Institute European Bioinformatics Institute ((EBIEBI) ) http://www.ebi.ac.uk/http://www.ebi.ac.uk/

Page 3: Sequenze e Banche Dati Biologiche. Sequenze Le sequenze “pubbliche” sono innanzitutto depositate dai gruppi di ricerca in database pubblici accessibili.

NCBINCBI

National Center for Biotechnology Information : creato come parte della National Library of Medicine nel 1988

GenBank (1992) – banca dati nucleotidica

Free MEDLINE (PubMed, 1997) Altri database: Protein, dbEST,

dbGSS, dbSTS, MMDB, OMIM, UniGene, GeneMap, Taxonomy, CGAP, SAGE, LocusLink, RefSeq

Programmi di analisi bioinformatica utilizzabili on-line o scaricabili

Page 4: Sequenze e Banche Dati Biologiche. Sequenze Le sequenze “pubbliche” sono innanzitutto depositate dai gruppi di ricerca in database pubblici accessibili.

Che tipi di sequenze?Che tipi di sequenze?

Sequenze genomiche (DNA)Sequenze genomiche (DNA) Interi genomiInteri genomi Interi cromosomiInteri cromosomi ““Frammenti” (es. singolo gene), scaffold Frammenti” (es. singolo gene), scaffold

e contig e contig Sequenze di mRNASequenze di mRNA

Complete o parziali (le EST!)Complete o parziali (le EST!) Sequenze di RNA non codificantiSequenze di RNA non codificanti Sequenze proteicheSequenze proteiche

Page 5: Sequenze e Banche Dati Biologiche. Sequenze Le sequenze “pubbliche” sono innanzitutto depositate dai gruppi di ricerca in database pubblici accessibili.

NCBI : non Solo Sequenze...NCBI : non Solo Sequenze...

Ogni collegamento indica che

esistono link che vanno dalle entry di

un database alleentry di un altro

Page 6: Sequenze e Banche Dati Biologiche. Sequenze Le sequenze “pubbliche” sono innanzitutto depositate dai gruppi di ricerca in database pubblici accessibili.

Quante sequenze Quante sequenze conosciamo?conosciamo?

As of 15 February 2012, GenBank release 188.0 has 137,384,889,783 bases,

from 149,819,246 reported sequences.

Page 7: Sequenze e Banche Dati Biologiche. Sequenze Le sequenze “pubbliche” sono innanzitutto depositate dai gruppi di ricerca in database pubblici accessibili.

Non Solo Sequenze...Non Solo Sequenze...

Page 8: Sequenze e Banche Dati Biologiche. Sequenze Le sequenze “pubbliche” sono innanzitutto depositate dai gruppi di ricerca in database pubblici accessibili.

SequenzeSequenze

Nelle banche dati si trovano le Nelle banche dati si trovano le sequenze stesse, più sequenze stesse, più annotazioniannotazioni

Le annotazioni (quando disponibili) Le annotazioni (quando disponibili) elencano tutto ciò che si conosce elencano tutto ciò che si conosce della sequenza stessadella sequenza stessa

Spesso, Spesso, è utile consultare le è utile consultare le annotazioniannotazioni su un dato su un dato gene/proteina, senza “utilizzare” la gene/proteina, senza “utilizzare” la sequenza stessasequenza stessa

Oppure, si possono Oppure, si possono scaricare le scaricare le sequenzesequenze per analizzarle per analizzarle

Page 9: Sequenze e Banche Dati Biologiche. Sequenze Le sequenze “pubbliche” sono innanzitutto depositate dai gruppi di ricerca in database pubblici accessibili.

Esempi di AnnotazioniEsempi di Annotazioni

Genoma (DNA)Genoma (DNA) Localizzazione dei geni (start-end) nei genomiLocalizzazione dei geni (start-end) nei genomi Localizzazione dei trascrittiLocalizzazione dei trascritti Divisione in introni-esoniDivisione in introni-esoni Proteina prodotta dal geneProteina prodotta dal gene Funzione della proteinaFunzione della proteina

mRNAmRNA Proteina codificata e sua funzioneProteina codificata e sua funzione Inizio e fine della traduzioneInizio e fine della traduzione

ProteinaProteina Da quale mRNA/gene è codificataDa quale mRNA/gene è codificata Qual è la funzioneQual è la funzione

Page 10: Sequenze e Banche Dati Biologiche. Sequenze Le sequenze “pubbliche” sono innanzitutto depositate dai gruppi di ricerca in database pubblici accessibili.

Database (o banca dati)Database (o banca dati)

Un Un databasedatabase è suddiviso è suddiviso in in entryentry

Una Una entryentry è suddivisa in è suddivisa in campicampi

Esempio: il catalogo di Esempio: il catalogo di una biblioteca: ogni una biblioteca: ogni cartellino è un’entry cartellino è un’entry divisa in divisa in numero di catalogonumero di catalogo tipo pubblicazione (libro, tipo pubblicazione (libro,

giornale, ecc.)giornale, ecc.) autoreautore titolo,titolo, editoreeditore anno di pubblicazioneanno di pubblicazione luogo di pubblicazione, luogo di pubblicazione,

ecc.ecc.

Catalogo: LIB001

Tipo : LIBRO

Titolo : Il codice da Vinci

Autore: Brown, Dan

Editore : Mondadori

Anno: 2003

ecc. ecc.

Page 11: Sequenze e Banche Dati Biologiche. Sequenze Le sequenze “pubbliche” sono innanzitutto depositate dai gruppi di ricerca in database pubblici accessibili.

Database BiologiciDatabase Biologici

Ogni sequenza è Ogni sequenza è contenuta in un’entrycontenuta in un’entry

L’entry è annotata conL’entry è annotata con Numero di catalogo Numero di catalogo

((univocounivoco, lo stesso in , lo stesso in tutto il mondo)tutto il mondo)

Tipo sequenza (DNA, Tipo sequenza (DNA, RNA, proteina)RNA, proteina)

Organismo di Organismo di provenienzaprovenienza

““Titolo” della Titolo” della sequenza (prodotto sequenza (prodotto del gene, nome della del gene, nome della proteina)proteina)

e altre informazioni e altre informazioni (se e quando (se e quando disponibili)disponibili)

Catalogo: NM_000546

Tipo : mRNA

Organismo : Homo sapiens

Titolo: tp53 gene, mRNA

Proteina : tumor protein 53

Anno sequenziamento: 2003

Localizzazione: chr 17

Page 12: Sequenze e Banche Dati Biologiche. Sequenze Le sequenze “pubbliche” sono innanzitutto depositate dai gruppi di ricerca in database pubblici accessibili.

Database BiologiciDatabase Biologici

E’ possibile fare E’ possibile fare ricerche per parole ricerche per parole chiave, magari limitate chiave, magari limitate a uno dei “campi” del a uno dei “campi” del “cartellino”“cartellino”

Esempi: Esempi: cercami la sequenza cercami la sequenza

con numero di con numero di catalogo NM_000546catalogo NM_000546

cercami la sequenza cercami la sequenza del trascritto del gene del trascritto del gene tp53tp53

cercami tutte le cercami tutte le sequenze di Homo sequenze di Homo sapienssapiens

cercami tutte le cercami tutte le sequenze localizzate sequenze localizzate sul cromosoma 17.sul cromosoma 17.

Catalogo: NM_000546

Tipo : mRNA

Organismo : Homo sapiens

Titolo: tp53 gene, mRNA

Proteina : tumor protein 53

Anno sequenziamento: 2003

Localizzazione: chr 17

Page 13: Sequenze e Banche Dati Biologiche. Sequenze Le sequenze “pubbliche” sono innanzitutto depositate dai gruppi di ricerca in database pubblici accessibili.

Le “Sequenze di Riferimento”Le “Sequenze di Riferimento”

Quindi: se un gene produce tanti trascritti, e io ho bisogno Quindi: se un gene produce tanti trascritti, e io ho bisogno dell’mRNA di un dato gene, me li devo scaricare tutti?dell’mRNA di un dato gene, me li devo scaricare tutti?

Spesso inutileSpesso inutile, se le differenze sono minime oppure se , se le differenze sono minime oppure se non sono particolarmente interessato a splicing & conon sono particolarmente interessato a splicing & co

RefSeqRefSeq (Reference Sequence – Sequenze di (Reference Sequence – Sequenze di Riferimento): per ciascun gene è stato selezionato un Riferimento): per ciascun gene è stato selezionato un trascritto “trascritto “rappresentativorappresentativo” “tipico” di quel gene” “tipico” di quel gene

Idem per le proteine codificate: sono quelle codificate dal Idem per le proteine codificate: sono quelle codificate dal trascritto RefSeqtrascritto RefSeq

I trascritti RefSeq sono “catalogati” con un codice che I trascritti RefSeq sono “catalogati” con un codice che inizia per NM_ seguito da 6 numeri (es: inizia per NM_ seguito da 6 numeri (es: NM_000546NM_000546))

Le proteine prodotte da RefSeq sono catalogate con Le proteine prodotte da RefSeq sono catalogate con codice codice NP_XXXXXXNP_XXXXXX

ATTENZIONE: i RefSeq spesso non tengono conto degli ATTENZIONE: i RefSeq spesso non tengono conto degli splicing alternativisplicing alternativi

Naturalmente ogni altra sequenza depositata in banca Naturalmente ogni altra sequenza depositata in banca dati ha un identificativo univoco, non solo quelle RefSeq, dati ha un identificativo univoco, non solo quelle RefSeq, costituito da una o due lettere seguito da una sequenza di costituito da una o due lettere seguito da una sequenza di numeri (es. AK312116)numeri (es. AK312116)

Page 14: Sequenze e Banche Dati Biologiche. Sequenze Le sequenze “pubbliche” sono innanzitutto depositate dai gruppi di ricerca in database pubblici accessibili.

Le Annotazioni sui GenomiLe Annotazioni sui Genomi

Spulciarsi qualche milione di paia di basi Spulciarsi qualche milione di paia di basi (con migliaia e migliaia di annotazioni) in (con migliaia e migliaia di annotazioni) in modo testuale è un incubo...modo testuale è un incubo...

Per osservare le annotazioni su una Per osservare le annotazioni su una sequenza genomica, si utilizzano i sequenza genomica, si utilizzano i ““browser genomicibrowser genomici” che permettono di ” che permettono di “visualizzare” le annotazioni, “zoomando” “visualizzare” le annotazioni, “zoomando” su determinate regioni fino a livello di su determinate regioni fino a livello di singole paia di basisingole paia di basi

Per sequenze più piccole (mRNA, ad Per sequenze più piccole (mRNA, ad esempio) è sufficiente esaminare l’entry esempio) è sufficiente esaminare l’entry corrispondentecorrispondente

Page 15: Sequenze e Banche Dati Biologiche. Sequenze Le sequenze “pubbliche” sono innanzitutto depositate dai gruppi di ricerca in database pubblici accessibili.

Le Annotazioni sulle Le Annotazioni sulle SequenzeSequenze Le annotazioni su una sequenza sono riportate in Le annotazioni su una sequenza sono riportate in

“coordinate” sulla sequenza stessa“coordinate” sulla sequenza stessa Genoma: Genoma: coordinate genomichecoordinate genomiche

Cromosoma e posizione all’interno del cromosomaCromosoma e posizione all’interno del cromosoma Altre sequenze: sono numerate a partire da 1Altre sequenze: sono numerate a partire da 1

Esempio: mRNA di 1200 bp. CDS (regione Esempio: mRNA di 1200 bp. CDS (regione codificante) da 100 a 999. Quindicodificante) da 100 a 999. Quindi

Da 1 a 99 c’è la 5’UTRDa 1 a 99 c’è la 5’UTR Da 100 a 999 (incluso) c’è la regione codificante Da 100 a 999 (incluso) c’è la regione codificante Da 1000 a 1200 c’è la 3’UTRDa 1000 a 1200 c’è la 3’UTR

Ricordatevi sempre che le sequenze sono Ricordatevi sempre che le sequenze sono orientateorientate: : 1 sta al 5’ (N terminale) la fine sta al 3’ (o C 1 sta al 5’ (N terminale) la fine sta al 3’ (o C terminale)terminale)

5’ 3’

1 100 999 1200

Page 16: Sequenze e Banche Dati Biologiche. Sequenze Le sequenze “pubbliche” sono innanzitutto depositate dai gruppi di ricerca in database pubblici accessibili.

EntryEntry

Oltre alla sequenza, il Oltre alla sequenza, il “cartellino” della entry contiene “cartellino” della entry contiene diverse informazioni aggiuntive diverse informazioni aggiuntive (alcune affidabili, altre meno, (alcune affidabili, altre meno, altre inutili!) e link che puntano a altre inutili!) e link che puntano a risorse “collegate” alla sequenzarisorse “collegate” alla sequenza

Esempio trascritto: Esempio trascritto: NM_002032NM_002032 Esempio proteina: Esempio proteina: NP_002023NP_002023

Page 17: Sequenze e Banche Dati Biologiche. Sequenze Le sequenze “pubbliche” sono innanzitutto depositate dai gruppi di ricerca in database pubblici accessibili.

Descrizione

Lunghezza

Tipo Sequenza

Divisione(primati)

Data inserimentonel database

Versione (attenzione alnumero dopo il punto)

Page 18: Sequenze e Banche Dati Biologiche. Sequenze Le sequenze “pubbliche” sono innanzitutto depositate dai gruppi di ricerca in database pubblici accessibili.

Link IncrociatiLink Incrociati

Se nella sequenza è annotata una Se nella sequenza è annotata una parte codificante è riportata la parte codificante è riportata la traduzionetraduzione

Se esiste anche una entry Se esiste anche una entry corrispondente alla proteina, c’è il corrispondente alla proteina, c’è il link all’entrylink all’entry

Se si conosce il gene corrispondente Se si conosce il gene corrispondente e la posizione, c’è un linke la posizione, c’è un link

Link a pubblicazioni che parlano Link a pubblicazioni che parlano della sequenza (come è stata della sequenza (come è stata determinata, qual è la funzione)determinata, qual è la funzione)

Page 19: Sequenze e Banche Dati Biologiche. Sequenze Le sequenze “pubbliche” sono innanzitutto depositate dai gruppi di ricerca in database pubblici accessibili.

Info sulla SequenzaInfo sulla Sequenza

Da che organismo arriva,che tipo di sequenza è,

dove è localizzata all’internodel genoma

Link alle entry didatabase “collegati”

che riguardano ilgene di origine

Annotazione dipolimorfismi

Page 20: Sequenze e Banche Dati Biologiche. Sequenze Le sequenze “pubbliche” sono innanzitutto depositate dai gruppi di ricerca in database pubblici accessibili.

Dove sono i codoni(la parte codificante)

Annotazioni sullafunzione e sulle

interazioni

Ancora link incrociati(questo alla proteina

codificata)

Annotazioni sullafunzione e sulle

interazioni di partidella sequenza

Page 21: Sequenze e Banche Dati Biologiche. Sequenze Le sequenze “pubbliche” sono innanzitutto depositate dai gruppi di ricerca in database pubblici accessibili.

Per Scaricare la SequenzaPer Scaricare la Sequenza

“Cosa” mostrare Salvo o visualizzo? Voglio solo un “pezzo” di sequenza

Page 22: Sequenze e Banche Dati Biologiche. Sequenze Le sequenze “pubbliche” sono innanzitutto depositate dai gruppi di ricerca in database pubblici accessibili.

Il formato FASTAIl formato FASTA

Usato Usato sempresempre per “maneggiare” le per “maneggiare” le sequenzesequenze

La prima riga (La prima riga (headerheader) “dice” di che ) “dice” di che sequenza si tratta, poi c’è la sequenza vera sequenza si tratta, poi c’è la sequenza vera e propriae propria

>NM_002032.2| Homo sapiens ferritin, heavy (FTH1), mRNA ATAAGAGACCACAAGCGACCCGCAGGGCCAGACGTTCTTCGCCGAGAGTCGTCGGGGTTTCCTGCTTCAACAGTGCTTGGACGGAACCCGGCGCTCGTTCCCCACCCCGGCCGGCCGCCCATAGCCAGCCCTCCGTCACCTCTTCACCGCACCCTCGGACTGCCCCAAGGCCCCCGCCGCCGCTCCAGCGCCGCGCAGCCACCGCCGCCGCCGCCGCCTCTCCTTAGTCGCCGCCATGACGACCGCGTCCACCTCGCAGGTGCGCCAGAACTACCACCAGGACTCAGAGGCCGCCATCAACCGCCAGATCAACCTGGAGCTCTACGCCTCCTACGTTTACCTGTCCATGTCTTACTACTTTGACCGCGATGATGTGGCTTTGAAGAACTTTGCCAAATACTTTCTTCACCAATCTCATGA ..............................

Page 23: Sequenze e Banche Dati Biologiche. Sequenze Le sequenze “pubbliche” sono innanzitutto depositate dai gruppi di ricerca in database pubblici accessibili.

EsercizioEsercizio Collegatevi al sito dell’NCBI, recuperate ed esaminate l’entry con

numero di accesso NM_032638. In particolare

Di che tipo di sequenza si tratta? Qual è la descrizione (o definizione) della sequenza fornita da chi ha

depositato la sequenza stessa? Come si chiama il gene corrispondente (ovvero, quale sigla lo

denota)? Su quale cromosoma è localizzato il gene? Quanto sono lunghe 5’UTR, regione codificante e 3’UTR della

sequenza che state esaminando? Quanto è lunga la proteina codificata?

Qual è il numero di accesso (o “Accession number”) della proteina codificata dalla sequenza stessa?