Bioinformatica Analisi del genoma - homes.di.unimi.it · La bioinformatica Necessità di gestire ed...

Post on 07-Aug-2020

11 views 0 download

Transcript of Bioinformatica Analisi del genoma - homes.di.unimi.it · La bioinformatica Necessità di gestire ed...

Bioinformatica

Analisi del genomaGABRIELLA TRUCCO

CREMA, 5 APRILE 2017

Cosa è il genoma?

Insieme delle informazioni biologiche, depositate nella sequenza di DNA, necessarie alla costruzione e mantenimento di ogni organismo vivente

Manuale in cui sono contenute le istruzioni che regolano lo sviluppo ed il funzionamento di ogni organismo

GenomaIl genoma è scritto in un composto chimico chiamato DNA (DeoxyriboNucleic Acid, acido desossiribonucleico)

Il DNA è identico per tutte le cellule di un individuo, quindi tutte le cellule hanno le stesse informazioni, ma non le utilizzano tutte allo stesso modo.

neuroneleucocita

DNAPolimero costituito da unità chiamate nucleotidi

Ogni nucleotide contiene un gruppo chiamato base azotata

- Adenina (A), Guanina (G), Citosina (C), Timina (T)

Basi azotate: alfabeto della vita

Struttura a doppia elica del DNA

Il progetto genoma umanoConoscenza di tutta l’informazione racchiusa nel genoma: condizione per comprendere l’intera biologia di un determinato organismo, comprendere il segreto della vita

Conoscere l’intera sequenza del genoma umano = conoscere tutte le pagine del manuale necessario per costruire il corpo umano

1986: premio Nobel Renato Dulbecco e Leroy Hood lanciano l’idea di sequenziare l’intero genoma umano

Obiettivi

• Identificare tutti i geni umani

• Identificare i geni responsabili delle malattie mendeliane

• Identificare la funzione dei geni

• Determinare la struttura dei geni

• Determinare le regioni non codificanti con funzione regolatoria

• Scoprire l’inatteso

Il progetto genoma umanoSequenziamento del DNA: determinazione lineare delle basi che lo compongono

Per il genoma umano: determinare la sequenza di 3 miliardi di paia di basi

Possibile grazie ai progressi delle tecnologie (sequenziatori automatici) capaci di sequenziare 400mila basi al giorno

Ottenute le sequenze dei nostri cromosomi, le cose che vogliamo scoprire sono:

• ci sono geni che codificano per proteine?

• qual'è la funzione di queste proteine?

• ci sono differenze fra individuo e individuo? Se sì, cosa comportano?

• quali sono le differenze di un individuo con una certa malattia rispetto ad un individuo sano per quella stessa malattia?

La bioinformaticaNecessità di gestire ed interpretare le grandi quantità di informazioni derivanti dal sequenziamento del genoma umano sviluppo di adeguati strumenti informatici (banche dati, algoritmi e sw per l’analisi di sequenze)

Obiettivi della bioinformatica: sviluppare e applicare strumenti adeguati per l’immagazzinamento, l’interrogazione e l’analisi dei dati biologici (sequenze di DNA e proteine, interazioni strutturali, dati metabolici, letteratura scientifica, …) che oggi vengono prodotti a ritmi sempre più elevati

Porzione non-codificante del genoma

Variabilità genetica

Variabilità genetica

Da cosa dipende la differenza?

Da cosa dipende la differenza?

Avvento dell’era genomica

Avvento dell’era genomica

Il progetto genoma umano: dal 2003 ad oggi

Il progetto genoma umano: dal 2003 ad oggi

SFIDE FUTURE

Aspetti di utilità pratica

James Watson: “I bioinformatici sono dei matematici, cioè persone brave con i numeri, le quali possono trovare nuovi modi di analizzare le molecole del DNA. Adesso il fattore limitante non sono le macchine ma le persone, queste persone (i Bioinformatici) devono essere in grado di analizzare ed interpretare il DNA.”

Abbiamo il sequenziamento. E adesso?Se il significato di un pezzetto di DNA è dato dalla sequenza delle sue basi, e rappresento ciascuna base con una lettera, quel pezzetto di DNA altro non sarà che una parola, e un pezzo di DNA più grande altro non sarà che un testo formato da tante parole

Possiamo analizzare questo testo usando vari criteri e le operazioni che facciamo le possiamo codificare in un programma e farle svolgere ad un computer al posto nostro.

ESEMPIO 1

Per trovare i geni che codificano per proteine proveremo a leggere le sequenze a gruppi di tre lettere partendo da tutte le posizioni possibili e a tradurre queste triplette in aminoacidi.

Ogni volta che il numero di aminoacidi che otteniamo uno di seguito all'altro senza stop supera 50, possiamo presumere che quella regione del DNA codifichi verosimilmente per una proteina

Esempio 1

Esempio 1

Tre diversi modi di leggere la sequenza di nucleotidi

Esempio 1

Esempio 2Data una sequenza sconosciuta, determinare se questa sia simile alla sequenza di un gene conosciuto

Determinare la similarità di sequenze non è sempre semplice.

«I genomi dell’uomo e della scimmia sono simili per il 99%»

Cosa significa questo?

Esempio 2

95% di similarità

80% di similarità

Esempio 2

BLASTBLAST (Basic Local Alignment Search Tool): programma per verificare se una determinate sequenza di nucleotidi è simile ad altre sequenzememorizzate in un database

Analogo ad un motore di ricerca:

1- Confronto tra informazione in ingresso e informazioni del db

2- Risultati dati in ordine di miglior match

BLAST https://blast.ncbi.nlm.nih.gov/Blast.cgi

Query sequence