Il vostro progetto - CBMbioinformatica.uniroma2.it/GC2014/Lezione4_2014.pdf · dell’espressione...
Transcript of Il vostro progetto - CBMbioinformatica.uniroma2.it/GC2014/Lezione4_2014.pdf · dell’espressione...
![Page 1: Il vostro progetto - CBMbioinformatica.uniroma2.it/GC2014/Lezione4_2014.pdf · dell’espressione deve tenere conto della ... Questa data segna la nascita della teoria dei grafi.](https://reader031.fdocuments.net/reader031/viewer/2022021811/5ccce4f288c9934c318ced0c/html5/thumbnails/1.jpg)
Il vostro progetto
Analisi di dati di sequenziamento del trascrittoma (RNA-Seq):
1. Analisi di qualità 2. Mappatura sul genoma 3. Calcolo dell’espressione 4. Test di espressione differenziale 5. Visualizzazione e interpretazione 6. Analisi funzionale
![Page 2: Il vostro progetto - CBMbioinformatica.uniroma2.it/GC2014/Lezione4_2014.pdf · dell’espressione deve tenere conto della ... Questa data segna la nascita della teoria dei grafi.](https://reader031.fdocuments.net/reader031/viewer/2022021811/5ccce4f288c9934c318ced0c/html5/thumbnails/2.jpg)
Ricostruzione del trascrittoma
Sequencing reads
Il genoma di riferimento non è disponibile
Il genoma di riferimento è disponibile
Le annotazioni sono disponibili
Le annotazioni non sono disponibili, oppure si vogliono cercare trascritti non noti
Assemblaggio de novo del
trascrittoma
Ricostruzione guidata del trascrittoma
Ricostruzione non guidata del trascrittoma
![Page 3: Il vostro progetto - CBMbioinformatica.uniroma2.it/GC2014/Lezione4_2014.pdf · dell’espressione deve tenere conto della ... Questa data segna la nascita della teoria dei grafi.](https://reader031.fdocuments.net/reader031/viewer/2022021811/5ccce4f288c9934c318ced0c/html5/thumbnails/3.jpg)
Creazione dell’indice Sequenza genomica (FASTA)
Sequencing reads (FASTQ)
Annotazioni (GTF)
Allineamento delle reads
Ricostruzione dei trascritti
Bowtie2-build
Bowtie2
TopHat
Dati Passaggi Software
Il vostro progetto
![Page 4: Il vostro progetto - CBMbioinformatica.uniroma2.it/GC2014/Lezione4_2014.pdf · dell’espressione deve tenere conto della ... Questa data segna la nascita della teoria dei grafi.](https://reader031.fdocuments.net/reader031/viewer/2022021811/5ccce4f288c9934c318ced0c/html5/thumbnails/4.jpg)
Il vostro progetto
Ricostruzione dei trascritti TopHat
Calcolo dell’espressione Cufflinks
![Page 5: Il vostro progetto - CBMbioinformatica.uniroma2.it/GC2014/Lezione4_2014.pdf · dell’espressione deve tenere conto della ... Questa data segna la nascita della teoria dei grafi.](https://reader031.fdocuments.net/reader031/viewer/2022021811/5ccce4f288c9934c318ced0c/html5/thumbnails/5.jpg)
Analisi del trascrittoma
![Page 6: Il vostro progetto - CBMbioinformatica.uniroma2.it/GC2014/Lezione4_2014.pdf · dell’espressione deve tenere conto della ... Questa data segna la nascita della teoria dei grafi.](https://reader031.fdocuments.net/reader031/viewer/2022021811/5ccce4f288c9934c318ced0c/html5/thumbnails/6.jpg)
6
Splicing alternativo
![Page 7: Il vostro progetto - CBMbioinformatica.uniroma2.it/GC2014/Lezione4_2014.pdf · dell’espressione deve tenere conto della ... Questa data segna la nascita della teoria dei grafi.](https://reader031.fdocuments.net/reader031/viewer/2022021811/5ccce4f288c9934c318ced0c/html5/thumbnails/7.jpg)
Date le isoforme codificate da un gene e le reads mappate su ogni esone:
Stimare i valori di x che massimizzino la
verosimiglianza delle osservazioni n
Splicing alternativo
![Page 8: Il vostro progetto - CBMbioinformatica.uniroma2.it/GC2014/Lezione4_2014.pdf · dell’espressione deve tenere conto della ... Questa data segna la nascita della teoria dei grafi.](https://reader031.fdocuments.net/reader031/viewer/2022021811/5ccce4f288c9934c318ced0c/html5/thumbnails/8.jpg)
Cufflinks
http://cufflinks.cbcb.umd.edu/
![Page 9: Il vostro progetto - CBMbioinformatica.uniroma2.it/GC2014/Lezione4_2014.pdf · dell’espressione deve tenere conto della ... Questa data segna la nascita della teoria dei grafi.](https://reader031.fdocuments.net/reader031/viewer/2022021811/5ccce4f288c9934c318ced0c/html5/thumbnails/9.jpg)
Cufflinks
![Page 10: Il vostro progetto - CBMbioinformatica.uniroma2.it/GC2014/Lezione4_2014.pdf · dell’espressione deve tenere conto della ... Questa data segna la nascita della teoria dei grafi.](https://reader031.fdocuments.net/reader031/viewer/2022021811/5ccce4f288c9934c318ced0c/html5/thumbnails/10.jpg)
Cufflinks
Il numero di reads mappate su un gene è proporzionale al numero di RNA trascritti da quel gene nel campione Ma, a parità di espressione, cioè di numero di molecole di RNA prodotte, un gene che produce trascritti più corti darà luogo a meno reads rispetto a uno che produce trascritti più lunghi. Vicercersa, due geni che producono un uguale numero di reads possono avere diversa espressione se la loro dimensione è diversa Quindi, una stima più accurata dell’espressione deve tenere conto della lunghezza dei trascritti
![Page 11: Il vostro progetto - CBMbioinformatica.uniroma2.it/GC2014/Lezione4_2014.pdf · dell’espressione deve tenere conto della ... Questa data segna la nascita della teoria dei grafi.](https://reader031.fdocuments.net/reader031/viewer/2022021811/5ccce4f288c9934c318ced0c/html5/thumbnails/11.jpg)
C = numero di reads mappate sugli esoni di un gene N = numero totale di reads prodotte dall’esperimento L = Lunghezza totale degli esoni del gene
FPKM =109 ! CNL
Unità di misura dell’espressione genica in esperimenti di sequenziamento: FPKM: Fragments Per Kilobase of exon model per Million mapped fragments
Cufflinks
![Page 12: Il vostro progetto - CBMbioinformatica.uniroma2.it/GC2014/Lezione4_2014.pdf · dell’espressione deve tenere conto della ... Questa data segna la nascita della teoria dei grafi.](https://reader031.fdocuments.net/reader031/viewer/2022021811/5ccce4f288c9934c318ced0c/html5/thumbnails/12.jpg)
Cufflinks è un pacchetto contenente diversi moduli:
Cufflinks: Calcolo dell’espressione Assemblaggio de novo dei trascritti
Cuffcompare: Confronto del trascrittoma (de novo/annotazione)
Cuffdiff: Test di espressione differenziale
Cuffmerge: Fusione di trascrittomi ottenuti da Cufflinks in diverse condizioni
Cufflinks
![Page 13: Il vostro progetto - CBMbioinformatica.uniroma2.it/GC2014/Lezione4_2014.pdf · dell’espressione deve tenere conto della ... Questa data segna la nascita della teoria dei grafi.](https://reader031.fdocuments.net/reader031/viewer/2022021811/5ccce4f288c9934c318ced0c/html5/thumbnails/13.jpg)
Genome Browser: E’ un applicazione grafica che permette la visualizzazione di sequenze genomiche e delle loro annotazioni Permette tra l’altro di: - Scorrere lungo il genoma - Cambiare il livello di zoom, dall’intero cromosoma alle
singole basi - Visualizzare annotazioni come geni, sequenze regolative,
poliformismi, conservazione evolutiva, ed altro - Visualizzare i risultati di esperimenti di sequenziamento,
fino alle singole reads mappate sulle sequenze genomiche, caricando un file in formato bam (ad es. l’output di TopHat ottenuto come visto la scorsa volta)
Genome Browsers
![Page 14: Il vostro progetto - CBMbioinformatica.uniroma2.it/GC2014/Lezione4_2014.pdf · dell’espressione deve tenere conto della ... Questa data segna la nascita della teoria dei grafi.](https://reader031.fdocuments.net/reader031/viewer/2022021811/5ccce4f288c9934c318ced0c/html5/thumbnails/14.jpg)
https://www.broadinstitute.org/igv/home
Il genome browser IGV
![Page 15: Il vostro progetto - CBMbioinformatica.uniroma2.it/GC2014/Lezione4_2014.pdf · dell’espressione deve tenere conto della ... Questa data segna la nascita della teoria dei grafi.](https://reader031.fdocuments.net/reader031/viewer/2022021811/5ccce4f288c9934c318ced0c/html5/thumbnails/15.jpg)
Il genome browser IGV
![Page 16: Il vostro progetto - CBMbioinformatica.uniroma2.it/GC2014/Lezione4_2014.pdf · dell’espressione deve tenere conto della ... Questa data segna la nascita della teoria dei grafi.](https://reader031.fdocuments.net/reader031/viewer/2022021811/5ccce4f288c9934c318ced0c/html5/thumbnails/16.jpg)
Il genome browser IGV
![Page 17: Il vostro progetto - CBMbioinformatica.uniroma2.it/GC2014/Lezione4_2014.pdf · dell’espressione deve tenere conto della ... Questa data segna la nascita della teoria dei grafi.](https://reader031.fdocuments.net/reader031/viewer/2022021811/5ccce4f288c9934c318ced0c/html5/thumbnails/17.jpg)
Il genome browser IGV
![Page 18: Il vostro progetto - CBMbioinformatica.uniroma2.it/GC2014/Lezione4_2014.pdf · dell’espressione deve tenere conto della ... Questa data segna la nascita della teoria dei grafi.](https://reader031.fdocuments.net/reader031/viewer/2022021811/5ccce4f288c9934c318ced0c/html5/thumbnails/18.jpg)
Il genome browser IGV
![Page 19: Il vostro progetto - CBMbioinformatica.uniroma2.it/GC2014/Lezione4_2014.pdf · dell’espressione deve tenere conto della ... Questa data segna la nascita della teoria dei grafi.](https://reader031.fdocuments.net/reader031/viewer/2022021811/5ccce4f288c9934c318ced0c/html5/thumbnails/19.jpg)
Caricare il file accepted_hits.bam
![Page 20: Il vostro progetto - CBMbioinformatica.uniroma2.it/GC2014/Lezione4_2014.pdf · dell’espressione deve tenere conto della ... Questa data segna la nascita della teoria dei grafi.](https://reader031.fdocuments.net/reader031/viewer/2022021811/5ccce4f288c9934c318ced0c/html5/thumbnails/20.jpg)
L’indice del file bam
![Page 21: Il vostro progetto - CBMbioinformatica.uniroma2.it/GC2014/Lezione4_2014.pdf · dell’espressione deve tenere conto della ... Questa data segna la nascita della teoria dei grafi.](https://reader031.fdocuments.net/reader031/viewer/2022021811/5ccce4f288c9934c318ced0c/html5/thumbnails/21.jpg)
L’indice del file bam
![Page 22: Il vostro progetto - CBMbioinformatica.uniroma2.it/GC2014/Lezione4_2014.pdf · dell’espressione deve tenere conto della ... Questa data segna la nascita della teoria dei grafi.](https://reader031.fdocuments.net/reader031/viewer/2022021811/5ccce4f288c9934c318ced0c/html5/thumbnails/22.jpg)
Il genome browser IGV
![Page 23: Il vostro progetto - CBMbioinformatica.uniroma2.it/GC2014/Lezione4_2014.pdf · dell’espressione deve tenere conto della ... Questa data segna la nascita della teoria dei grafi.](https://reader031.fdocuments.net/reader031/viewer/2022021811/5ccce4f288c9934c318ced0c/html5/thumbnails/23.jpg)
Il genome browser IGV
![Page 24: Il vostro progetto - CBMbioinformatica.uniroma2.it/GC2014/Lezione4_2014.pdf · dell’espressione deve tenere conto della ... Questa data segna la nascita della teoria dei grafi.](https://reader031.fdocuments.net/reader031/viewer/2022021811/5ccce4f288c9934c318ced0c/html5/thumbnails/24.jpg)
Il genome browser IGV
![Page 25: Il vostro progetto - CBMbioinformatica.uniroma2.it/GC2014/Lezione4_2014.pdf · dell’espressione deve tenere conto della ... Questa data segna la nascita della teoria dei grafi.](https://reader031.fdocuments.net/reader031/viewer/2022021811/5ccce4f288c9934c318ced0c/html5/thumbnails/25.jpg)
Cufflinks
Come si lancia: Cufflinks [opzioni] <file.bam> Opzioni di cufflinks: -p numero di threads -o cartella dell’output -G file in formato GTF con le annotazioni -u correzione per le reads multiple
![Page 26: Il vostro progetto - CBMbioinformatica.uniroma2.it/GC2014/Lezione4_2014.pdf · dell’espressione deve tenere conto della ... Questa data segna la nascita della teoria dei grafi.](https://reader031.fdocuments.net/reader031/viewer/2022021811/5ccce4f288c9934c318ced0c/html5/thumbnails/26.jpg)
Cufflinks
![Page 27: Il vostro progetto - CBMbioinformatica.uniroma2.it/GC2014/Lezione4_2014.pdf · dell’espressione deve tenere conto della ... Questa data segna la nascita della teoria dei grafi.](https://reader031.fdocuments.net/reader031/viewer/2022021811/5ccce4f288c9934c318ced0c/html5/thumbnails/27.jpg)
Cufflinks
File genes.fpkm_tracking
![Page 28: Il vostro progetto - CBMbioinformatica.uniroma2.it/GC2014/Lezione4_2014.pdf · dell’espressione deve tenere conto della ... Questa data segna la nascita della teoria dei grafi.](https://reader031.fdocuments.net/reader031/viewer/2022021811/5ccce4f288c9934c318ced0c/html5/thumbnails/28.jpg)
Cufflinks
File genes.fpkm_tracking
0 50000 100000 150000 200000 250000 300000 350000
0.00
0.05
0.10
0.15
0.20
FPKM
Density
![Page 29: Il vostro progetto - CBMbioinformatica.uniroma2.it/GC2014/Lezione4_2014.pdf · dell’espressione deve tenere conto della ... Questa data segna la nascita della teoria dei grafi.](https://reader031.fdocuments.net/reader031/viewer/2022021811/5ccce4f288c9934c318ced0c/html5/thumbnails/29.jpg)
Cufflinks
File genes.fpkm_tracking
-10 -5 0 5 10 15 20
0.000
0.005
0.010
0.015
0.020
0.025
0.030
0.035
log2(FPKM)
Density
![Page 30: Il vostro progetto - CBMbioinformatica.uniroma2.it/GC2014/Lezione4_2014.pdf · dell’espressione deve tenere conto della ... Questa data segna la nascita della teoria dei grafi.](https://reader031.fdocuments.net/reader031/viewer/2022021811/5ccce4f288c9934c318ced0c/html5/thumbnails/30.jpg)
Cufflinks
File isoforms.fpkm_tracking
![Page 31: Il vostro progetto - CBMbioinformatica.uniroma2.it/GC2014/Lezione4_2014.pdf · dell’espressione deve tenere conto della ... Questa data segna la nascita della teoria dei grafi.](https://reader031.fdocuments.net/reader031/viewer/2022021811/5ccce4f288c9934c318ced0c/html5/thumbnails/31.jpg)
Cufflinks
File isoforms.fpkm_tracking
Nomenclatura di Ensembl: ENSG00000####### Codice identificativo del gene ENST00000####### Identificativo del trascritto ENSP00000###### Identificativo della proteina ENSE00000###### Identificativo dell’esone
![Page 32: Il vostro progetto - CBMbioinformatica.uniroma2.it/GC2014/Lezione4_2014.pdf · dell’espressione deve tenere conto della ... Questa data segna la nascita della teoria dei grafi.](https://reader031.fdocuments.net/reader031/viewer/2022021811/5ccce4f288c9934c318ced0c/html5/thumbnails/32.jpg)
0
100
200
300
400
500
600
700
800
ENST00000338370 ENST00000338338 ENST00000321751 ENST00000378853 ENST00000489799 ENST00000496905
Cufflinks
Gene AURKAIP1 (Aurora kinase A1)
6 isoforme di splicing alterna=vo
![Page 33: Il vostro progetto - CBMbioinformatica.uniroma2.it/GC2014/Lezione4_2014.pdf · dell’espressione deve tenere conto della ... Questa data segna la nascita della teoria dei grafi.](https://reader031.fdocuments.net/reader031/viewer/2022021811/5ccce4f288c9934c318ced0c/html5/thumbnails/33.jpg)
Lezione 4
Assemblaggio del genoma
![Page 34: Il vostro progetto - CBMbioinformatica.uniroma2.it/GC2014/Lezione4_2014.pdf · dell’espressione deve tenere conto della ... Questa data segna la nascita della teoria dei grafi.](https://reader031.fdocuments.net/reader031/viewer/2022021811/5ccce4f288c9934c318ced0c/html5/thumbnails/34.jpg)
Gli algoritmi OLC per assemblaggio di sequenze WGS non sono adatti per reads corte: - L'overlap graph (un nodo per read) diventa estremamente grosso e pesante da calcolare; non è più possibile trovare un percorso Hamiltoniano in tempi ragionevoli; - La piccola dimensione delle reads produce molte connessioni ambigue nel grafo; - Molti algoritmi richiedono un overlap minimo che è comparabile se non superiore alla lunghezza di molte reads ottenute per NGS; - Il grande numero di reads + overlap corti + alta frequenza di errori di sequenza fanno si che l'approccio tradizionale overlap - layout – consensus diventi inappropriato; - Si usa un approccio basato sulla ricerca di un percorso euleriano (cioè che visiti tutti gli archi una volta), che è molto più semplice da calcolare. Quindi le reads non sono più assegnate ai nodi, ma agli archi.
Assemblaggio de novo di genomi da NGS
![Page 35: Il vostro progetto - CBMbioinformatica.uniroma2.it/GC2014/Lezione4_2014.pdf · dell’espressione deve tenere conto della ... Questa data segna la nascita della teoria dei grafi.](https://reader031.fdocuments.net/reader031/viewer/2022021811/5ccce4f288c9934c318ced0c/html5/thumbnails/35.jpg)
Grafo di de Bruijn
L'approccio più comunemente usato per assemblatori de novo per NGS utilizza i grafi di de Bruijn, che sono normalmente utilizzati per rappresentazione di stringhe; - Il loro utilizzo è stato introdotto da Pevzner (2001) per l'assemblatore EULER;
![Page 36: Il vostro progetto - CBMbioinformatica.uniroma2.it/GC2014/Lezione4_2014.pdf · dell’espressione deve tenere conto della ... Questa data segna la nascita della teoria dei grafi.](https://reader031.fdocuments.net/reader031/viewer/2022021811/5ccce4f288c9934c318ced0c/html5/thumbnails/36.jpg)
Per costruire un grafo di de Bruijn: - tutte le reads sono divise in segmenti sovrapposti di lunghezza k (k-meri); - invece di assegnare un nodo ad ogni k-mero, ai k-meri sono assegnati archi creando un arco diretto fra due nodi a e b se a (tolta la prima base) è prefisso di b e b (tolta l'ultima base) è suffisso di a (ad es. a=acgtctgact e b=cgtctgactg.
Grafo di de Bruijn
![Page 37: Il vostro progetto - CBMbioinformatica.uniroma2.it/GC2014/Lezione4_2014.pdf · dell’espressione deve tenere conto della ... Questa data segna la nascita della teoria dei grafi.](https://reader031.fdocuments.net/reader031/viewer/2022021811/5ccce4f288c9934c318ced0c/html5/thumbnails/37.jpg)
[Schatz et al., 2010]
Grafo di de Bruijn
Nel grafo di de Bruijn graph si rappresentano tutti i prefissi e suffissi dei k-meri come nodi e si disegnano archi che rappresentano k-meri aventi particolari prefissi e suffissi. Ad esempio, l’arco (k-mero) ATG ha prefisso (nodo uscente) AT e suffisso (nodo entrante) TG.
K=4 GACC
![Page 38: Il vostro progetto - CBMbioinformatica.uniroma2.it/GC2014/Lezione4_2014.pdf · dell’espressione deve tenere conto della ... Questa data segna la nascita della teoria dei grafi.](https://reader031.fdocuments.net/reader031/viewer/2022021811/5ccce4f288c9934c318ced0c/html5/thumbnails/38.jpg)
Grafo di de Bruijn
[Compeau et al., 2011]
![Page 39: Il vostro progetto - CBMbioinformatica.uniroma2.it/GC2014/Lezione4_2014.pdf · dell’espressione deve tenere conto della ... Questa data segna la nascita della teoria dei grafi.](https://reader031.fdocuments.net/reader031/viewer/2022021811/5ccce4f288c9934c318ced0c/html5/thumbnails/39.jpg)
Grafo di de Bruijn
Un percorso in un grafo che passa per ogni arco esattamente una volta è detto percorso Euleriano. Il problema dei sette ponti di Königsberg è il primo problema di ricerca di un percorso euleriano in un grafo, risolto da Eulero nel 1735. Questa data segna la nascita della teoria dei grafi.
[Schatz et al., 2010]
A
B
CD
![Page 40: Il vostro progetto - CBMbioinformatica.uniroma2.it/GC2014/Lezione4_2014.pdf · dell’espressione deve tenere conto della ... Questa data segna la nascita della teoria dei grafi.](https://reader031.fdocuments.net/reader031/viewer/2022021811/5ccce4f288c9934c318ced0c/html5/thumbnails/40.jpg)
Grafo di de Bruijn
Vantaggi: - Non c'è bisgno di allineare ogni coppia di reads; - I percorsi Euleriani sono più semplici da trovare rispetto ai percorsi Hamiltoniani (anche se ci possono essere diversi percorsi Euleriani in un grafo altrettanto buoni); - Errori di sequenziamento e sequenze ripetute causano la formazione di ramificazioni o cicli nel grafo, permettendone il riconoscimento; - La scelta del valore di k è cruciale:
k-meri corti → incrementa la connettività → aumenta le regioni ambigue
k-meri lunghi → incrementa la specificità → diminuisce la connettività
![Page 41: Il vostro progetto - CBMbioinformatica.uniroma2.it/GC2014/Lezione4_2014.pdf · dell’espressione deve tenere conto della ... Questa data segna la nascita della teoria dei grafi.](https://reader031.fdocuments.net/reader031/viewer/2022021811/5ccce4f288c9934c318ced0c/html5/thumbnails/41.jpg)
Grafo di de Bruijn
[Compeau et al., 2011]
ATGCATGC -> ATG TGC GCA CAT ATG TGC
AT
TG GC
CA
ATGCAT
La presenza di k-meri che si ripetono nella sequenza può portare a percorsi Euleriani più corti che non ricostruiscono bene la stringa (cioè il genoma) di partenza
![Page 42: Il vostro progetto - CBMbioinformatica.uniroma2.it/GC2014/Lezione4_2014.pdf · dell’espressione deve tenere conto della ... Questa data segna la nascita della teoria dei grafi.](https://reader031.fdocuments.net/reader031/viewer/2022021811/5ccce4f288c9934c318ced0c/html5/thumbnails/42.jpg)
Grafo di de Bruijn
Spesso un percorso Euleriano non è possibile. Si cerca allora il percorso che visiti ogni arco almeno una volta (problema del postino cinese); archi attraversati più volte sono indizio di ripetizioni;
[Schatz et al., 2010]
![Page 43: Il vostro progetto - CBMbioinformatica.uniroma2.it/GC2014/Lezione4_2014.pdf · dell’espressione deve tenere conto della ... Questa data segna la nascita della teoria dei grafi.](https://reader031.fdocuments.net/reader031/viewer/2022021811/5ccce4f288c9934c318ced0c/html5/thumbnails/43.jpg)
Grafo di de Bruijn
[Compeau et al., 2011]
![Page 44: Il vostro progetto - CBMbioinformatica.uniroma2.it/GC2014/Lezione4_2014.pdf · dell’espressione deve tenere conto della ... Questa data segna la nascita della teoria dei grafi.](https://reader031.fdocuments.net/reader031/viewer/2022021811/5ccce4f288c9934c318ced0c/html5/thumbnails/44.jpg)
[Pop, 2009]
Grafo di de Bruijn
Reads
Scomponendo le reads in k-meri è possibile che il percorso scelto per la costruzione del contig non sia coerente con la sequenza completa di un sottoinsieme di reads.
![Page 45: Il vostro progetto - CBMbioinformatica.uniroma2.it/GC2014/Lezione4_2014.pdf · dell’espressione deve tenere conto della ... Questa data segna la nascita della teoria dei grafi.](https://reader031.fdocuments.net/reader031/viewer/2022021811/5ccce4f288c9934c318ced0c/html5/thumbnails/45.jpg)
Grafo di de Bruijn
[Zerbino, 2009]
Rimozione degli errori: Si possono rimuovere potenziali errori basandosi su caratteristiche topologiche del grafo:
![Page 46: Il vostro progetto - CBMbioinformatica.uniroma2.it/GC2014/Lezione4_2014.pdf · dell’espressione deve tenere conto della ... Questa data segna la nascita della teoria dei grafi.](https://reader031.fdocuments.net/reader031/viewer/2022021811/5ccce4f288c9934c318ced0c/html5/thumbnails/46.jpg)
Grafo di de Bruijn
[Zerbino, 2009]
1. rimozione delle punte (tips) l Tip: catena di nodi disconnessa ad un'estremità l Si usano due criteri:
l lunghezza (si rimuove la tip se < 2k bp) l ci sono altre catene più lunghe originanti dal nodo di partenza
della tip
![Page 47: Il vostro progetto - CBMbioinformatica.uniroma2.it/GC2014/Lezione4_2014.pdf · dell’espressione deve tenere conto della ... Questa data segna la nascita della teoria dei grafi.](https://reader031.fdocuments.net/reader031/viewer/2022021811/5ccce4f288c9934c318ced0c/html5/thumbnails/47.jpg)
Grafo di de Bruijn
[Zerbino, 2009]
2. rimozione delle bolle (bubbles) l Bubble: due percorsi che iniziano e finiscono nello stesso nodo l Sono causate da errori o SNPs l Si rimuovono confrontando (allineando) le sequenze definite dai
due percorsi e unendole (se sufficientemente simili)
![Page 48: Il vostro progetto - CBMbioinformatica.uniroma2.it/GC2014/Lezione4_2014.pdf · dell’espressione deve tenere conto della ... Questa data segna la nascita della teoria dei grafi.](https://reader031.fdocuments.net/reader031/viewer/2022021811/5ccce4f288c9934c318ced0c/html5/thumbnails/48.jpg)
Grafo di de Bruijn
[Zerbino, 2009]
3. rimozione delle connessioni spurie l connessioni a basso coverage sono rimosse l sono causate da erorori di sequenziamento che non generano
bubbles o tips
![Page 49: Il vostro progetto - CBMbioinformatica.uniroma2.it/GC2014/Lezione4_2014.pdf · dell’espressione deve tenere conto della ... Questa data segna la nascita della teoria dei grafi.](https://reader031.fdocuments.net/reader031/viewer/2022021811/5ccce4f288c9934c318ced0c/html5/thumbnails/49.jpg)
1. Sequenziamento
4. Rimozione degli errori
[Flicek & Birney, 2009]
Grafo di de Bruijn
2. Construzione del grafo di de Bruijn
3. Semplificazione del grafo
![Page 50: Il vostro progetto - CBMbioinformatica.uniroma2.it/GC2014/Lezione4_2014.pdf · dell’espressione deve tenere conto della ... Questa data segna la nascita della teoria dei grafi.](https://reader031.fdocuments.net/reader031/viewer/2022021811/5ccce4f288c9934c318ced0c/html5/thumbnails/50.jpg)
Assemblaggio de novo di genomi da NGS
E' possibile generare sequenze complete di genomi utilizzando solo reads corte da NGS, anche per organismi complessi; Si possono creare contigs di buona qualità ad alto coverage, ma rimangono molti gaps (principalmente perchè è più difficile generare paired reads); Diverse piattaforme hanno diversi limiti; approcci ibridi (ad esempio 454 per read lunghe e paired reads a basso coverage, più Illumina per alto coverage) hanno avuto successo (ad esempio il genoma di tacchino); Oppure si può combinare il sequenziamento di Sanger con il NGS (ad esempio il geoma della vite).
![Page 51: Il vostro progetto - CBMbioinformatica.uniroma2.it/GC2014/Lezione4_2014.pdf · dell’espressione deve tenere conto della ... Questa data segna la nascita della teoria dei grafi.](https://reader031.fdocuments.net/reader031/viewer/2022021811/5ccce4f288c9934c318ced0c/html5/thumbnails/51.jpg)
• Le tecnologie NGS sono invece molto adatte per risequenziare genomi gia noti;
• Importante per identificare differenze fra individui, popolazioni, ceppi, tipi cellulari, tessuti in condizioni patologiche, etc.;
• Si usa la sequenza nota del genoma come riferimento per mappare le reads;
Ri-sequenziamento
![Page 52: Il vostro progetto - CBMbioinformatica.uniroma2.it/GC2014/Lezione4_2014.pdf · dell’espressione deve tenere conto della ... Questa data segna la nascita della teoria dei grafi.](https://reader031.fdocuments.net/reader031/viewer/2022021811/5ccce4f288c9934c318ced0c/html5/thumbnails/52.jpg)
0%
10%
20%
30%
40%
50%
60%
70%
80%
90%
100%
8 10 12 14 16 18 20
Length of K-mer Reads (bp)
% o
f Pai
red
K-m
ers
with
Uni
quel
y A
ssig
nabl
e Lo
catio
n
E.COLIHUMAN
Ri-sequenziamento
[Jay Shendure]
La scarsa lunghezza delle reads non influisce negativamente sul risequenziamento
![Page 53: Il vostro progetto - CBMbioinformatica.uniroma2.it/GC2014/Lezione4_2014.pdf · dell’espressione deve tenere conto della ... Questa data segna la nascita della teoria dei grafi.](https://reader031.fdocuments.net/reader031/viewer/2022021811/5ccce4f288c9934c318ced0c/html5/thumbnails/53.jpg)
Sequenziamento del genoma umano
2012: 5K$, a few days"2009: Illumina,
Helicos"40-50K$!
Year
Lo
g1
0(p
ric
e)
2010!2005!2000!
10!
8!
6!
4!
2!2013: 100$, <24 hrs?"
2008: ABI SOLiD"60K$, 2 weeks!
2001: Celera"100M$, 3 years!
2001: Human Genome Project"3G$, 11 years!
2007: 454"1M$, 3 months!
![Page 54: Il vostro progetto - CBMbioinformatica.uniroma2.it/GC2014/Lezione4_2014.pdf · dell’espressione deve tenere conto della ... Questa data segna la nascita della teoria dei grafi.](https://reader031.fdocuments.net/reader031/viewer/2022021811/5ccce4f288c9934c318ced0c/html5/thumbnails/54.jpg)
Banche dati genomiche
Ho sequenziato e assemblato un genoma. E ora? 1. Depositare le
sequenze assemblate in GenBank
![Page 55: Il vostro progetto - CBMbioinformatica.uniroma2.it/GC2014/Lezione4_2014.pdf · dell’espressione deve tenere conto della ... Questa data segna la nascita della teoria dei grafi.](https://reader031.fdocuments.net/reader031/viewer/2022021811/5ccce4f288c9934c318ced0c/html5/thumbnails/55.jpg)
Banche dati genomiche
Ho sequenziato e assemblato un genoma. E ora? 1. Depositare le
sequenze assemblate in GenBank
2. Depositare le reads utilizzate in SRA (Short read archive)
![Page 56: Il vostro progetto - CBMbioinformatica.uniroma2.it/GC2014/Lezione4_2014.pdf · dell’espressione deve tenere conto della ... Questa data segna la nascita della teoria dei grafi.](https://reader031.fdocuments.net/reader031/viewer/2022021811/5ccce4f288c9934c318ced0c/html5/thumbnails/56.jpg)
Banche dati genomiche
Ho sequenziato e assemblato un genoma. E ora? 1. Depositare le
sequenze assemblate in GenBank
2. Depositare le reads utilizzate in SRA (Short Read Archive)
3. Annotare il genoma (ad es. richiedendo le pipelines di Ensembl)
![Page 57: Il vostro progetto - CBMbioinformatica.uniroma2.it/GC2014/Lezione4_2014.pdf · dell’espressione deve tenere conto della ... Questa data segna la nascita della teoria dei grafi.](https://reader031.fdocuments.net/reader031/viewer/2022021811/5ccce4f288c9934c318ced0c/html5/thumbnails/57.jpg)
Entrez Genome
![Page 58: Il vostro progetto - CBMbioinformatica.uniroma2.it/GC2014/Lezione4_2014.pdf · dell’espressione deve tenere conto della ... Questa data segna la nascita della teoria dei grafi.](https://reader031.fdocuments.net/reader031/viewer/2022021811/5ccce4f288c9934c318ced0c/html5/thumbnails/58.jpg)
Entrez Genome
![Page 59: Il vostro progetto - CBMbioinformatica.uniroma2.it/GC2014/Lezione4_2014.pdf · dell’espressione deve tenere conto della ... Questa data segna la nascita della teoria dei grafi.](https://reader031.fdocuments.net/reader031/viewer/2022021811/5ccce4f288c9934c318ced0c/html5/thumbnails/59.jpg)
Entrez Genome
![Page 60: Il vostro progetto - CBMbioinformatica.uniroma2.it/GC2014/Lezione4_2014.pdf · dell’espressione deve tenere conto della ... Questa data segna la nascita della teoria dei grafi.](https://reader031.fdocuments.net/reader031/viewer/2022021811/5ccce4f288c9934c318ced0c/html5/thumbnails/60.jpg)
Entrez Genome
![Page 61: Il vostro progetto - CBMbioinformatica.uniroma2.it/GC2014/Lezione4_2014.pdf · dell’espressione deve tenere conto della ... Questa data segna la nascita della teoria dei grafi.](https://reader031.fdocuments.net/reader031/viewer/2022021811/5ccce4f288c9934c318ced0c/html5/thumbnails/61.jpg)
Entrez Genome
![Page 62: Il vostro progetto - CBMbioinformatica.uniroma2.it/GC2014/Lezione4_2014.pdf · dell’espressione deve tenere conto della ... Questa data segna la nascita della teoria dei grafi.](https://reader031.fdocuments.net/reader031/viewer/2022021811/5ccce4f288c9934c318ced0c/html5/thumbnails/62.jpg)
Entrez Genome
![Page 63: Il vostro progetto - CBMbioinformatica.uniroma2.it/GC2014/Lezione4_2014.pdf · dell’espressione deve tenere conto della ... Questa data segna la nascita della teoria dei grafi.](https://reader031.fdocuments.net/reader031/viewer/2022021811/5ccce4f288c9934c318ced0c/html5/thumbnails/63.jpg)
Entrez Genome
![Page 64: Il vostro progetto - CBMbioinformatica.uniroma2.it/GC2014/Lezione4_2014.pdf · dell’espressione deve tenere conto della ... Questa data segna la nascita della teoria dei grafi.](https://reader031.fdocuments.net/reader031/viewer/2022021811/5ccce4f288c9934c318ced0c/html5/thumbnails/64.jpg)
Entrez Genome
![Page 65: Il vostro progetto - CBMbioinformatica.uniroma2.it/GC2014/Lezione4_2014.pdf · dell’espressione deve tenere conto della ... Questa data segna la nascita della teoria dei grafi.](https://reader031.fdocuments.net/reader031/viewer/2022021811/5ccce4f288c9934c318ced0c/html5/thumbnails/65.jpg)
Entrez Genome
![Page 66: Il vostro progetto - CBMbioinformatica.uniroma2.it/GC2014/Lezione4_2014.pdf · dell’espressione deve tenere conto della ... Questa data segna la nascita della teoria dei grafi.](https://reader031.fdocuments.net/reader031/viewer/2022021811/5ccce4f288c9934c318ced0c/html5/thumbnails/66.jpg)
http://genomereference.org
The Genome Reference Consortium (GRC)
![Page 67: Il vostro progetto - CBMbioinformatica.uniroma2.it/GC2014/Lezione4_2014.pdf · dell’espressione deve tenere conto della ... Questa data segna la nascita della teoria dei grafi.](https://reader031.fdocuments.net/reader031/viewer/2022021811/5ccce4f288c9934c318ced0c/html5/thumbnails/67.jpg)
The Genome Reference Consortium (GRC)
![Page 68: Il vostro progetto - CBMbioinformatica.uniroma2.it/GC2014/Lezione4_2014.pdf · dell’espressione deve tenere conto della ... Questa data segna la nascita della teoria dei grafi.](https://reader031.fdocuments.net/reader031/viewer/2022021811/5ccce4f288c9934c318ced0c/html5/thumbnails/68.jpg)
111 Fix PATCHES: Cambiamenti alla sequenza
71 Novel PATCHES: Sequenze aggiuntive
(>5 Mb di sequenze sostituite)
(>800K di nuova sequenza)
The Genome Reference Consortium (GRC)
![Page 69: Il vostro progetto - CBMbioinformatica.uniroma2.it/GC2014/Lezione4_2014.pdf · dell’espressione deve tenere conto della ... Questa data segna la nascita della teoria dei grafi.](https://reader031.fdocuments.net/reader031/viewer/2022021811/5ccce4f288c9934c318ced0c/html5/thumbnails/69.jpg)
Gaps
The Genome Reference Consortium (GRC)
![Page 70: Il vostro progetto - CBMbioinformatica.uniroma2.it/GC2014/Lezione4_2014.pdf · dell’espressione deve tenere conto della ... Questa data segna la nascita della teoria dei grafi.](https://reader031.fdocuments.net/reader031/viewer/2022021811/5ccce4f288c9934c318ced0c/html5/thumbnails/70.jpg)
The Genome Reference Consortium (GRC)
![Page 71: Il vostro progetto - CBMbioinformatica.uniroma2.it/GC2014/Lezione4_2014.pdf · dell’espressione deve tenere conto della ... Questa data segna la nascita della teoria dei grafi.](https://reader031.fdocuments.net/reader031/viewer/2022021811/5ccce4f288c9934c318ced0c/html5/thumbnails/71.jpg)
GOLD (Genomes Online Database)
Ad oggi 26268 genomi sono inclusi in GOLD
![Page 72: Il vostro progetto - CBMbioinformatica.uniroma2.it/GC2014/Lezione4_2014.pdf · dell’espressione deve tenere conto della ... Questa data segna la nascita della teoria dei grafi.](https://reader031.fdocuments.net/reader031/viewer/2022021811/5ccce4f288c9934c318ced0c/html5/thumbnails/72.jpg)
GOLD (Genomes Online Database)
20138 Incompleti 4327 Completi
2472 Finiti 1855 Draft Permanente
183 Eucarioti 3957 Batteri 187 Archea
![Page 73: Il vostro progetto - CBMbioinformatica.uniroma2.it/GC2014/Lezione4_2014.pdf · dell’espressione deve tenere conto della ... Questa data segna la nascita della teoria dei grafi.](https://reader031.fdocuments.net/reader031/viewer/2022021811/5ccce4f288c9934c318ced0c/html5/thumbnails/73.jpg)
GOLD (Genomes Online Database)
JGI: Joint Genome Institute; JCVI: J. Craig Venter Institute; Broad: Broad Institute; Univ of Maryland–IGS: University of Maryland, Institute for Genome Sciences; WashU: Washington University; Sanger: the Wellcome Trust Sanger Institute; BCM-HGSC: Baylor College of Medicine, Human Genome Sequencing Center; WORLD, altri centri di sequenziamento genomico, laboratori indipendenti
![Page 74: Il vostro progetto - CBMbioinformatica.uniroma2.it/GC2014/Lezione4_2014.pdf · dell’espressione deve tenere conto della ... Questa data segna la nascita della teoria dei grafi.](https://reader031.fdocuments.net/reader031/viewer/2022021811/5ccce4f288c9934c318ced0c/html5/thumbnails/74.jpg)
Genomics Session
Annotazione del genoma
![Page 75: Il vostro progetto - CBMbioinformatica.uniroma2.it/GC2014/Lezione4_2014.pdf · dell’espressione deve tenere conto della ... Questa data segna la nascita della teoria dei grafi.](https://reader031.fdocuments.net/reader031/viewer/2022021811/5ccce4f288c9934c318ced0c/html5/thumbnails/75.jpg)
• Ottenere la sequenza di un genoma è solo il primo passo verso la comprensione di una ampia gamma di processi biologici
• Ad esempio ci si può chiedere:
– Cosa è trascritto?
– Quali proteine si legano al DNA genomico, e dove?
– Come è regolato il genoma (ad es. cosa è metilato)?
• In altre parole, il genoma è un oggetto molto
grande e complesso, come funziona?
• L’annotazione del genoma consiste nell’assegnare ad ogni nucleotide del genoma un possibile ruolo. Principalmente (ma non solo) riguarda l'annotazione dei geni.
Annotazione del genoma
![Page 76: Il vostro progetto - CBMbioinformatica.uniroma2.it/GC2014/Lezione4_2014.pdf · dell’espressione deve tenere conto della ... Questa data segna la nascita della teoria dei grafi.](https://reader031.fdocuments.net/reader031/viewer/2022021811/5ccce4f288c9934c318ced0c/html5/thumbnails/76.jpg)
Figure 7.13 Genomes 3 (© Garland Science 2007)
Annotazione del genoma