Allineamenti di sequenze biologiche

22
Allineamenti di sequenze biologiche

description

Allineamenti di sequenze biologiche. Allineamento di sequenze Scopi. Date due o più sequenze biologiche (DNA, RNA o proteine) può essere utile: Misurare quanto sono simili; Sapere quali sono le parti simili; Fare ipotesi sulla funzione di una proteina; Inferire relazioni evolutive. - PowerPoint PPT Presentation

Transcript of Allineamenti di sequenze biologiche

Page 1: Allineamenti di sequenze biologiche

Allineamenti di sequenze biologiche

Page 2: Allineamenti di sequenze biologiche
Page 3: Allineamenti di sequenze biologiche

Allineamento di sequenzeScopi

Date due o più sequenze biologiche (DNA, RNA o proteine) può essere utile:

Misurare quanto sono simili;Sapere quali sono le parti simili;Fare ipotesi sulla funzione di una proteina;Inferire relazioni evolutive.

Per fare ciò è necessario definire in modo quantitativo la misura di similarità tra sequenze. Ovvero dobbiamo assegnare per ogni corrispondenza residuo-residuo delle sequenze in esame dei valori numerici e poi, usando queste misure di corrispondenza puntiforme, costruire in qualche modo l'intero allineamento tra le sequenze.

Si definisce allineamento tra sequenze l'identificazione delle corrispondenze residuo-residuo che preserva l'ordine dei residui all'interno delle sequenze stesse. Possono essere introdotte gaps (lacune).

Esistono dunque molti allineamenti possibili tra sequenze.

Page 4: Allineamenti di sequenze biologiche

Ad esempio date le due sequenze generiche:

Seq1: a b c d eSeq2: a c d e f

allineamento1: a b c d e | a c d e f

allineamento2: a b c d e - | | | - a c d e f

allineamento3: a b c d e - | | | | a - c d e f

Quale dei tre è un allineamento migliore?E' necessario stabilire dei criteri che permettano di selezionare l'allineamento migliore. Bisogna cioè trovare un modo per valutare tutti i possibili allineamenti sistematicamente assegnando ad ognuno di essi uno score.

Page 5: Allineamenti di sequenze biologiche

Gli allineamenti si possono dividere in allineamenti a coppie e allineamenti multipli.

Un modo per visualizzare in modo rapido se due sequenze sono in qualche modo correlate è l’uso dei dot-plot

Il limite dei dotplots è che non evidenziano relazioni tra sequenze distanti dal punto di vista evolutivo.

Possono essere un primo passo per l’analisi di sequenza.

Page 6: Allineamenti di sequenze biologiche
Page 7: Allineamenti di sequenze biologiche
Page 8: Allineamenti di sequenze biologiche
Page 9: Allineamenti di sequenze biologiche

Per misurare la similarità di due sequenze si possono usare principalmente due misure di distanze:

1.La distanza di Hamming; numero di posizioni con caratteri diversi in due sequenze lunghe uguali2.La distanza di Levenshtein; numero minimo di operazioni elementari di editing richieste per trasformare una stringa nell’altra.

RAZZO d. Hamming=1 PAZZO *

R--AZZO d. Levensthein=3 PALAZZO ***

RA--ZZO d. Levensthein=3 PALAZZO * **

In biologia però bisogna essere più fini e bisogna riconoscere che certi cambiamenti sono più frequenti di altri e che quindi è necessario introdurre schemi di scoring più raffinati.

Page 10: Allineamenti di sequenze biologiche
Page 11: Allineamenti di sequenze biologiche

A C T G

A 1

C 0 1

T 0 0 1

G 0 0 0 1

IDENTITY

Page 12: Allineamenti di sequenze biologiche
Page 13: Allineamenti di sequenze biologiche
Page 14: Allineamenti di sequenze biologiche
Page 15: Allineamenti di sequenze biologiche
Page 16: Allineamenti di sequenze biologiche
Page 17: Allineamenti di sequenze biologiche

Date le seguenti sequenze di DNA allinearle usando una matrice di scoring binaria e con gap=-1

AGATAGATTA

Page 18: Allineamenti di sequenze biologiche

Significatività di un allineamento

Date due sequenze allineate

attgcctcgtg

agtccttccag

* * * ** *

Come posso distinguere se l’allineamento è casuale o le due sequenze sono veramente omologhe?

Page 19: Allineamenti di sequenze biologiche

Significatività di un allineamento

Si applica il test delle ipotesi modellando opportunamente il problema (modelli parametrici e non).

Si identifica l’ipotesi H0 (ipotesi nulla) con la casualità dell’allineamento

Si identifica l’ipotesi H1 con la non casualità dell’allineamento

Si calcola la probabilità che l’allineamento sia casuale Si accetta o si rigetta l’ipotesi H0

Page 20: Allineamenti di sequenze biologiche

Significatività di un allineamento

Page 21: Allineamenti di sequenze biologiche

Ricerche in DataBase di sequenzeBLAST

Per fare ricerche di similarità in database che contengono milioni o miliardi di sequenze bisogna far uso di algoritmi euristici che non garantiscono di trovare l’allineamento ottimo.

Blast è un programma che fa l’uso di un euristica opportuna per allineare velocemente sequenze nucleotidiche e proteiche.

Si basa sull’indicizzazione di brevi “parole” contenute nella sequenza query

Page 22: Allineamenti di sequenze biologiche

BLAST

Viene creata una tabella di parole lunghe W (sotto-sequenze) appartenenti alla sequenza query

Vengono cercate tutte queste parole in tutto il database e viene costruita una tabella con tutte le sequenze del database che contengono queste sottosequenze.

Solo le sequenze contenute nella tabella precedente vengono allineate completamente

Alla fine si ottiene un allineamento ottimale approssimato.