Bioinformatica Analisi del genoma - homes.di.unimi.it · La bioinformatica Necessità di gestire ed...

26
Bioinformatica Analisi del genoma GABRIELLA TRUCCO CREMA, 5 APRILE 2017

Transcript of Bioinformatica Analisi del genoma - homes.di.unimi.it · La bioinformatica Necessità di gestire ed...

Page 1: Bioinformatica Analisi del genoma - homes.di.unimi.it · La bioinformatica Necessità di gestire ed interpretare le grandi quantità di informazioni derivanti dal sequenziamento del

Bioinformatica

Analisi del genomaGABRIELLA TRUCCO

CREMA, 5 APRILE 2017

Page 2: Bioinformatica Analisi del genoma - homes.di.unimi.it · La bioinformatica Necessità di gestire ed interpretare le grandi quantità di informazioni derivanti dal sequenziamento del

Cosa è il genoma?

Insieme delle informazioni biologiche, depositate nella sequenza di DNA, necessarie alla costruzione e mantenimento di ogni organismo vivente

Manuale in cui sono contenute le istruzioni che regolano lo sviluppo ed il funzionamento di ogni organismo

Page 3: Bioinformatica Analisi del genoma - homes.di.unimi.it · La bioinformatica Necessità di gestire ed interpretare le grandi quantità di informazioni derivanti dal sequenziamento del

GenomaIl genoma è scritto in un composto chimico chiamato DNA (DeoxyriboNucleic Acid, acido desossiribonucleico)

Il DNA è identico per tutte le cellule di un individuo, quindi tutte le cellule hanno le stesse informazioni, ma non le utilizzano tutte allo stesso modo.

neuroneleucocita

Page 4: Bioinformatica Analisi del genoma - homes.di.unimi.it · La bioinformatica Necessità di gestire ed interpretare le grandi quantità di informazioni derivanti dal sequenziamento del

DNAPolimero costituito da unità chiamate nucleotidi

Ogni nucleotide contiene un gruppo chiamato base azotata

- Adenina (A), Guanina (G), Citosina (C), Timina (T)

Basi azotate: alfabeto della vita

Struttura a doppia elica del DNA

Page 5: Bioinformatica Analisi del genoma - homes.di.unimi.it · La bioinformatica Necessità di gestire ed interpretare le grandi quantità di informazioni derivanti dal sequenziamento del

Il progetto genoma umanoConoscenza di tutta l’informazione racchiusa nel genoma: condizione per comprendere l’intera biologia di un determinato organismo, comprendere il segreto della vita

Conoscere l’intera sequenza del genoma umano = conoscere tutte le pagine del manuale necessario per costruire il corpo umano

1986: premio Nobel Renato Dulbecco e Leroy Hood lanciano l’idea di sequenziare l’intero genoma umano

Obiettivi

• Identificare tutti i geni umani

• Identificare i geni responsabili delle malattie mendeliane

• Identificare la funzione dei geni

• Determinare la struttura dei geni

• Determinare le regioni non codificanti con funzione regolatoria

• Scoprire l’inatteso

Page 6: Bioinformatica Analisi del genoma - homes.di.unimi.it · La bioinformatica Necessità di gestire ed interpretare le grandi quantità di informazioni derivanti dal sequenziamento del

Il progetto genoma umanoSequenziamento del DNA: determinazione lineare delle basi che lo compongono

Per il genoma umano: determinare la sequenza di 3 miliardi di paia di basi

Possibile grazie ai progressi delle tecnologie (sequenziatori automatici) capaci di sequenziare 400mila basi al giorno

Ottenute le sequenze dei nostri cromosomi, le cose che vogliamo scoprire sono:

• ci sono geni che codificano per proteine?

• qual'è la funzione di queste proteine?

• ci sono differenze fra individuo e individuo? Se sì, cosa comportano?

• quali sono le differenze di un individuo con una certa malattia rispetto ad un individuo sano per quella stessa malattia?

Page 7: Bioinformatica Analisi del genoma - homes.di.unimi.it · La bioinformatica Necessità di gestire ed interpretare le grandi quantità di informazioni derivanti dal sequenziamento del

La bioinformaticaNecessità di gestire ed interpretare le grandi quantità di informazioni derivanti dal sequenziamento del genoma umano sviluppo di adeguati strumenti informatici (banche dati, algoritmi e sw per l’analisi di sequenze)

Obiettivi della bioinformatica: sviluppare e applicare strumenti adeguati per l’immagazzinamento, l’interrogazione e l’analisi dei dati biologici (sequenze di DNA e proteine, interazioni strutturali, dati metabolici, letteratura scientifica, …) che oggi vengono prodotti a ritmi sempre più elevati

Page 8: Bioinformatica Analisi del genoma - homes.di.unimi.it · La bioinformatica Necessità di gestire ed interpretare le grandi quantità di informazioni derivanti dal sequenziamento del

Porzione non-codificante del genoma

Page 9: Bioinformatica Analisi del genoma - homes.di.unimi.it · La bioinformatica Necessità di gestire ed interpretare le grandi quantità di informazioni derivanti dal sequenziamento del

Variabilità genetica

Page 10: Bioinformatica Analisi del genoma - homes.di.unimi.it · La bioinformatica Necessità di gestire ed interpretare le grandi quantità di informazioni derivanti dal sequenziamento del

Variabilità genetica

Page 11: Bioinformatica Analisi del genoma - homes.di.unimi.it · La bioinformatica Necessità di gestire ed interpretare le grandi quantità di informazioni derivanti dal sequenziamento del

Da cosa dipende la differenza?

Page 12: Bioinformatica Analisi del genoma - homes.di.unimi.it · La bioinformatica Necessità di gestire ed interpretare le grandi quantità di informazioni derivanti dal sequenziamento del

Da cosa dipende la differenza?

Page 13: Bioinformatica Analisi del genoma - homes.di.unimi.it · La bioinformatica Necessità di gestire ed interpretare le grandi quantità di informazioni derivanti dal sequenziamento del

Avvento dell’era genomica

Page 14: Bioinformatica Analisi del genoma - homes.di.unimi.it · La bioinformatica Necessità di gestire ed interpretare le grandi quantità di informazioni derivanti dal sequenziamento del

Avvento dell’era genomica

Page 15: Bioinformatica Analisi del genoma - homes.di.unimi.it · La bioinformatica Necessità di gestire ed interpretare le grandi quantità di informazioni derivanti dal sequenziamento del

Il progetto genoma umano: dal 2003 ad oggi

Page 16: Bioinformatica Analisi del genoma - homes.di.unimi.it · La bioinformatica Necessità di gestire ed interpretare le grandi quantità di informazioni derivanti dal sequenziamento del

Il progetto genoma umano: dal 2003 ad oggi

SFIDE FUTURE

Page 17: Bioinformatica Analisi del genoma - homes.di.unimi.it · La bioinformatica Necessità di gestire ed interpretare le grandi quantità di informazioni derivanti dal sequenziamento del

Aspetti di utilità pratica

James Watson: “I bioinformatici sono dei matematici, cioè persone brave con i numeri, le quali possono trovare nuovi modi di analizzare le molecole del DNA. Adesso il fattore limitante non sono le macchine ma le persone, queste persone (i Bioinformatici) devono essere in grado di analizzare ed interpretare il DNA.”

Page 18: Bioinformatica Analisi del genoma - homes.di.unimi.it · La bioinformatica Necessità di gestire ed interpretare le grandi quantità di informazioni derivanti dal sequenziamento del

Abbiamo il sequenziamento. E adesso?Se il significato di un pezzetto di DNA è dato dalla sequenza delle sue basi, e rappresento ciascuna base con una lettera, quel pezzetto di DNA altro non sarà che una parola, e un pezzo di DNA più grande altro non sarà che un testo formato da tante parole

Possiamo analizzare questo testo usando vari criteri e le operazioni che facciamo le possiamo codificare in un programma e farle svolgere ad un computer al posto nostro.

ESEMPIO 1

Per trovare i geni che codificano per proteine proveremo a leggere le sequenze a gruppi di tre lettere partendo da tutte le posizioni possibili e a tradurre queste triplette in aminoacidi.

Ogni volta che il numero di aminoacidi che otteniamo uno di seguito all'altro senza stop supera 50, possiamo presumere che quella regione del DNA codifichi verosimilmente per una proteina

Page 19: Bioinformatica Analisi del genoma - homes.di.unimi.it · La bioinformatica Necessità di gestire ed interpretare le grandi quantità di informazioni derivanti dal sequenziamento del

Esempio 1

Page 20: Bioinformatica Analisi del genoma - homes.di.unimi.it · La bioinformatica Necessità di gestire ed interpretare le grandi quantità di informazioni derivanti dal sequenziamento del

Esempio 1

Tre diversi modi di leggere la sequenza di nucleotidi

Page 21: Bioinformatica Analisi del genoma - homes.di.unimi.it · La bioinformatica Necessità di gestire ed interpretare le grandi quantità di informazioni derivanti dal sequenziamento del

Esempio 1

Page 22: Bioinformatica Analisi del genoma - homes.di.unimi.it · La bioinformatica Necessità di gestire ed interpretare le grandi quantità di informazioni derivanti dal sequenziamento del

Esempio 2Data una sequenza sconosciuta, determinare se questa sia simile alla sequenza di un gene conosciuto

Determinare la similarità di sequenze non è sempre semplice.

«I genomi dell’uomo e della scimmia sono simili per il 99%»

Cosa significa questo?

Page 23: Bioinformatica Analisi del genoma - homes.di.unimi.it · La bioinformatica Necessità di gestire ed interpretare le grandi quantità di informazioni derivanti dal sequenziamento del

Esempio 2

95% di similarità

80% di similarità

Page 24: Bioinformatica Analisi del genoma - homes.di.unimi.it · La bioinformatica Necessità di gestire ed interpretare le grandi quantità di informazioni derivanti dal sequenziamento del

Esempio 2

Page 25: Bioinformatica Analisi del genoma - homes.di.unimi.it · La bioinformatica Necessità di gestire ed interpretare le grandi quantità di informazioni derivanti dal sequenziamento del

BLASTBLAST (Basic Local Alignment Search Tool): programma per verificare se una determinate sequenza di nucleotidi è simile ad altre sequenzememorizzate in un database

Analogo ad un motore di ricerca:

1- Confronto tra informazione in ingresso e informazioni del db

2- Risultati dati in ordine di miglior match

Page 26: Bioinformatica Analisi del genoma - homes.di.unimi.it · La bioinformatica Necessità di gestire ed interpretare le grandi quantità di informazioni derivanti dal sequenziamento del

BLAST https://blast.ncbi.nlm.nih.gov/Blast.cgi

Query sequence