Andrea Renieri Matteo Tanca - Dipartimento di...

206
Introduzione Approcci al problema Tool Confronto risultati Tool di allineamento multiplo a confronto Bioinformatica a.a. 2007/08 Andrea Renieri Matteo Tanca Università di Pisa, Dipartimento di Informatica 11 Dicembre 2007 A. Renieri, M. Tanca Tool di allineamento multiplo a confronto

Transcript of Andrea Renieri Matteo Tanca - Dipartimento di...

Page 1: Andrea Renieri Matteo Tanca - Dipartimento di Informaticapages.di.unipi.it/pisanti/DIDATTICA/INFO07/SEMI-AllMul.pdfSCHEMA DELLA PRESENTAZIONE 1 INTRODUZIONE Definizione del problema

IntroduzioneApprocci al problema

ToolConfronto risultati

Tool di allineamento multiplo a confrontoBioinformatica a.a. 2007/08

Andrea Renieri Matteo Tanca

Università di Pisa, Dipartimento di Informatica

11 Dicembre 2007

A. Renieri, M. Tanca Tool di allineamento multiplo a confronto

Page 2: Andrea Renieri Matteo Tanca - Dipartimento di Informaticapages.di.unipi.it/pisanti/DIDATTICA/INFO07/SEMI-AllMul.pdfSCHEMA DELLA PRESENTAZIONE 1 INTRODUZIONE Definizione del problema

IntroduzioneApprocci al problema

ToolConfronto risultati

SCHEMA DELLA PRESENTAZIONE

1 INTRODUZIONEDefinizione del problemaCampi d’applicazioneComplessità delproblema

3 TOOLMultiLaganCLUSTALAMAPSAGA

2 APPROCCI AL PROBLEMAAllineamenti basati sustrutturaApprocci probabilisticiApprocci alternativi

4 CONFRONTO RISULTATITestRisultati sperimentali

A. Renieri, M. Tanca Tool di allineamento multiplo a confronto

Page 3: Andrea Renieri Matteo Tanca - Dipartimento di Informaticapages.di.unipi.it/pisanti/DIDATTICA/INFO07/SEMI-AllMul.pdfSCHEMA DELLA PRESENTAZIONE 1 INTRODUZIONE Definizione del problema

IntroduzioneApprocci al problema

ToolConfronto risultati

Definizione del problemaCampi d’applicazioneComplessità del problema

ALLINEAMENTO MULTIPLO DI SEQUENZEDEFINIZIONE DEL PROBLEMA

Generalizzazione dell’allineamento fra due sequenzeDato un insieme di sequenze {s1, ..., sk}, definite sulmedesimo alfabeto, un allineamento s′1, ..., s

′k è ottenuto

inserendo degli spazi nelle sequenze, in modo che:1) |s′1| = |s′2| = ... = |s′k | = n2) Nessuna colonna sia costituita da soli spazi

A. Renieri, M. Tanca Tool di allineamento multiplo a confronto

Page 4: Andrea Renieri Matteo Tanca - Dipartimento di Informaticapages.di.unipi.it/pisanti/DIDATTICA/INFO07/SEMI-AllMul.pdfSCHEMA DELLA PRESENTAZIONE 1 INTRODUZIONE Definizione del problema

IntroduzioneApprocci al problema

ToolConfronto risultati

Definizione del problemaCampi d’applicazioneComplessità del problema

ALLINEAMENTO MULTIPLO DI SEQUENZEDEFINIZIONE DEL PROBLEMA

Generalizzazione dell’allineamento fra due sequenzeDato un insieme di sequenze {s1, ..., sk}, definite sulmedesimo alfabeto, un allineamento s′1, ..., s

′k è ottenuto

inserendo degli spazi nelle sequenze, in modo che:1) |s′1| = |s′2| = ... = |s′k | = n2) Nessuna colonna sia costituita da soli spazi

ESEMPIO-ACTTGT-C-CT-GT-ACACTGGT

A. Renieri, M. Tanca Tool di allineamento multiplo a confronto

Page 5: Andrea Renieri Matteo Tanca - Dipartimento di Informaticapages.di.unipi.it/pisanti/DIDATTICA/INFO07/SEMI-AllMul.pdfSCHEMA DELLA PRESENTAZIONE 1 INTRODUZIONE Definizione del problema

IntroduzioneApprocci al problema

ToolConfronto risultati

Definizione del problemaCampi d’applicazioneComplessità del problema

CAMPI D’APPLICAZIONE

Costruzione di alberi filogeneticiGenerazione di profiliCaratterizzazione di proteine con funzione sconosciuta (edidentificazione di domini funzionali)

A. Renieri, M. Tanca Tool di allineamento multiplo a confronto

Page 6: Andrea Renieri Matteo Tanca - Dipartimento di Informaticapages.di.unipi.it/pisanti/DIDATTICA/INFO07/SEMI-AllMul.pdfSCHEMA DELLA PRESENTAZIONE 1 INTRODUZIONE Definizione del problema

IntroduzioneApprocci al problema

ToolConfronto risultati

Definizione del problemaCampi d’applicazioneComplessità del problema

COMPLESSITÀ DEL PROBLEMACOMPLESSITÀ COMPUTAZIONALE

Trovare l’allineamento ottimo fra più di due sequenze è unproblema computazionalmente difficile (più esattamenteNP-completo)Il tempo richiesto dalla risoluzione del problema cresceesponenzialmente rispetto alla dimensione dei dati daallineareEsistono algoritmi esatti (Smith-Waterman,Needleman-Wunsch), ma sono computazionalmenteimpraticabili: non è possibile calcolare una soluzioneesatta in tempo ragionevole!

A. Renieri, M. Tanca Tool di allineamento multiplo a confronto

Page 7: Andrea Renieri Matteo Tanca - Dipartimento di Informaticapages.di.unipi.it/pisanti/DIDATTICA/INFO07/SEMI-AllMul.pdfSCHEMA DELLA PRESENTAZIONE 1 INTRODUZIONE Definizione del problema

IntroduzioneApprocci al problema

ToolConfronto risultati

Definizione del problemaCampi d’applicazioneComplessità del problema

COMPLESSITÀ DEL PROBLEMASOLUZIONI APPROSSIMATE

Non potendo calcolare una soluzione esatta, ci siaccontenta di un’approssimazione sufficientemente“buona”Approssimazioni delle soluzioni possono essere calcolatemediante:

euristichemetodi statistici e probabilisticimetodi alternativi (FFT, algoritmi genetici)

A. Renieri, M. Tanca Tool di allineamento multiplo a confronto

Page 8: Andrea Renieri Matteo Tanca - Dipartimento di Informaticapages.di.unipi.it/pisanti/DIDATTICA/INFO07/SEMI-AllMul.pdfSCHEMA DELLA PRESENTAZIONE 1 INTRODUZIONE Definizione del problema

IntroduzioneApprocci al problema

ToolConfronto risultati

Definizione del problemaCampi d’applicazioneComplessità del problema

COMPLESSITÀ DEL PROBLEMAFUNZIONE DI SCORE

Assegnare un punteggio ad un allineamento multiplo è piùcomplicato rispetto al caso a 2 sequenzeDesiderata

Indipendenza dall’ordine delle sequenzeMalus per spazi e segmenti scorrelati e bonus per segmenticorrelatiSensibilità (pochi falsi negativi)Specificità (pochi falsi positivi)

SP (Sum of Pairs): “classica” funzione di valutazione, datadalla somma dei punteggi di allineamento coppia a coppiasui simboli di una data colonna

A. Renieri, M. Tanca Tool di allineamento multiplo a confronto

Page 9: Andrea Renieri Matteo Tanca - Dipartimento di Informaticapages.di.unipi.it/pisanti/DIDATTICA/INFO07/SEMI-AllMul.pdfSCHEMA DELLA PRESENTAZIONE 1 INTRODUZIONE Definizione del problema

IntroduzioneApprocci al problema

ToolConfronto risultati

Allineamenti basati su strutturaApprocci probabilisticiApprocci alternativi

1 INTRODUZIONE

3 TOOL

2 APPROCCI AL PROBLEMAAllineamenti basati sustrutturaApprocci probabilisticiApprocci alternativi

4 CONFRONTO RISULTATI

A. Renieri, M. Tanca Tool di allineamento multiplo a confronto

Page 10: Andrea Renieri Matteo Tanca - Dipartimento di Informaticapages.di.unipi.it/pisanti/DIDATTICA/INFO07/SEMI-AllMul.pdfSCHEMA DELLA PRESENTAZIONE 1 INTRODUZIONE Definizione del problema

IntroduzioneApprocci al problema

ToolConfronto risultati

Allineamenti basati su strutturaApprocci probabilisticiApprocci alternativi

ALLINEAMENTI BASATI SU STRUTTURA

Gli allineamenti basati su struttura limitano il numerodi allineamenti considerati, imponendo un ordine divalutazione, attraverso l’utilizzo di un’opportuna struttura

Stella

Albero

Grafo

A. Renieri, M. Tanca Tool di allineamento multiplo a confronto

Page 11: Andrea Renieri Matteo Tanca - Dipartimento di Informaticapages.di.unipi.it/pisanti/DIDATTICA/INFO07/SEMI-AllMul.pdfSCHEMA DELLA PRESENTAZIONE 1 INTRODUZIONE Definizione del problema

IntroduzioneApprocci al problema

ToolConfronto risultati

Allineamenti basati su strutturaApprocci probabilisticiApprocci alternativi

ALLINEAMENTI BASATI SU STRUTTURASTAR ALIGNMENT

Idea: selezionare una sequenza fra quelle in esame edutilizzarla come “cardine”

1 La sequenza di indice i èselezionata come centrodella stella

2 Per ogni coppia (i , j), j 6= isi calcola la distanza diedit fra le due sequenze

3 Si minimizza la funzione discore d

A. Renieri, M. Tanca Tool di allineamento multiplo a confronto

Page 12: Andrea Renieri Matteo Tanca - Dipartimento di Informaticapages.di.unipi.it/pisanti/DIDATTICA/INFO07/SEMI-AllMul.pdfSCHEMA DELLA PRESENTAZIONE 1 INTRODUZIONE Definizione del problema

IntroduzioneApprocci al problema

ToolConfronto risultati

Allineamenti basati su strutturaApprocci probabilisticiApprocci alternativi

ALLINEAMENTI BASATI SU STRUTTURASTAR ALIGNMENT

Idea: selezionare una sequenza fra quelle in esame edutilizzarla come “cardine”

1 La sequenza di indice i èselezionata come centrodella stella

2 Per ogni coppia (i , j), j 6= isi calcola la distanza diedit fra le due sequenze

3 Si minimizza la funzione discore d

i

A. Renieri, M. Tanca Tool di allineamento multiplo a confronto

Page 13: Andrea Renieri Matteo Tanca - Dipartimento di Informaticapages.di.unipi.it/pisanti/DIDATTICA/INFO07/SEMI-AllMul.pdfSCHEMA DELLA PRESENTAZIONE 1 INTRODUZIONE Definizione del problema

IntroduzioneApprocci al problema

ToolConfronto risultati

Allineamenti basati su strutturaApprocci probabilisticiApprocci alternativi

ALLINEAMENTI BASATI SU STRUTTURASTAR ALIGNMENT

Idea: selezionare una sequenza fra quelle in esame edutilizzarla come “cardine”

1 La sequenza di indice i èselezionata come centrodella stella

2 Per ogni coppia (i , j), j 6= isi calcola la distanza diedit fra le due sequenze

3 Si minimizza la funzione discore d

a1

2

a3

a

ai+1

ni

i-1

A. Renieri, M. Tanca Tool di allineamento multiplo a confronto

Page 14: Andrea Renieri Matteo Tanca - Dipartimento di Informaticapages.di.unipi.it/pisanti/DIDATTICA/INFO07/SEMI-AllMul.pdfSCHEMA DELLA PRESENTAZIONE 1 INTRODUZIONE Definizione del problema

IntroduzioneApprocci al problema

ToolConfronto risultati

Allineamenti basati su strutturaApprocci probabilisticiApprocci alternativi

ALLINEAMENTI BASATI SU STRUTTURASTAR ALIGNMENT

Idea: selezionare una sequenza fra quelle in esame edutilizzarla come “cardine”

1 La sequenza di indice i èselezionata come centrodella stella

2 Per ogni coppia (i , j), j 6= isi calcola la distanza diedit fra le due sequenze

3 Si minimizza la funzione discore d

a1

2

a3

a

ai+1

ni

i-1

dE1

A. Renieri, M. Tanca Tool di allineamento multiplo a confronto

Page 15: Andrea Renieri Matteo Tanca - Dipartimento di Informaticapages.di.unipi.it/pisanti/DIDATTICA/INFO07/SEMI-AllMul.pdfSCHEMA DELLA PRESENTAZIONE 1 INTRODUZIONE Definizione del problema

IntroduzioneApprocci al problema

ToolConfronto risultati

Allineamenti basati su strutturaApprocci probabilisticiApprocci alternativi

ALLINEAMENTI BASATI SU STRUTTURASTAR ALIGNMENT

Idea: selezionare una sequenza fra quelle in esame edutilizzarla come “cardine”

1 La sequenza di indice i èselezionata come centrodella stella

2 Per ogni coppia (i , j), j 6= isi calcola la distanza diedit fra le due sequenze

3 Si minimizza la funzione discore d

a1

2

a3

a

ai+1

ni

i-1

dE1dE2

A. Renieri, M. Tanca Tool di allineamento multiplo a confronto

Page 16: Andrea Renieri Matteo Tanca - Dipartimento di Informaticapages.di.unipi.it/pisanti/DIDATTICA/INFO07/SEMI-AllMul.pdfSCHEMA DELLA PRESENTAZIONE 1 INTRODUZIONE Definizione del problema

IntroduzioneApprocci al problema

ToolConfronto risultati

Allineamenti basati su strutturaApprocci probabilisticiApprocci alternativi

ALLINEAMENTI BASATI SU STRUTTURASTAR ALIGNMENT

Idea: selezionare una sequenza fra quelle in esame edutilizzarla come “cardine”

1 La sequenza di indice i èselezionata come centrodella stella

2 Per ogni coppia (i , j), j 6= isi calcola la distanza diedit fra le due sequenze

3 Si minimizza la funzione discore d

a1

2

a3

a

ai+1

an

i

i-1

dE1dE2

dE3

dEi-1dEi+1dEn

A. Renieri, M. Tanca Tool di allineamento multiplo a confronto

Page 17: Andrea Renieri Matteo Tanca - Dipartimento di Informaticapages.di.unipi.it/pisanti/DIDATTICA/INFO07/SEMI-AllMul.pdfSCHEMA DELLA PRESENTAZIONE 1 INTRODUZIONE Definizione del problema

IntroduzioneApprocci al problema

ToolConfronto risultati

Allineamenti basati su strutturaApprocci probabilisticiApprocci alternativi

ALLINEAMENTI BASATI SU STRUTTURASTAR ALIGNMENT

Idea: selezionare una sequenza fra quelle in esame edutilizzarla come “cardine”

1 La sequenza di indice i èselezionata come centrodella stella

2 Per ogni coppia (i , j), j 6= isi calcola la distanza diedit fra le due sequenze

3 Si minimizza la funzione discore d

a1

2

a3

a

ai+1

an

i

i-1

dE1dE2

dE3

dEi-1dEi+1dEn

minn∑

k=1

dE(k , i)

A. Renieri, M. Tanca Tool di allineamento multiplo a confronto

Page 18: Andrea Renieri Matteo Tanca - Dipartimento di Informaticapages.di.unipi.it/pisanti/DIDATTICA/INFO07/SEMI-AllMul.pdfSCHEMA DELLA PRESENTAZIONE 1 INTRODUZIONE Definizione del problema

IntroduzioneApprocci al problema

ToolConfronto risultati

Allineamenti basati su strutturaApprocci probabilisticiApprocci alternativi

ALLINEAMENTI BASATI SU STRUTTURAALLINEAMENTI BASATI SU GRAFI

Should multiple sequence alignment be linear? [Lee et al.- 2002]Appiattire troppo la struttura del problema può determinarela perdita di alcune informazioni (specie nel casodell’allineamento di proteine)La struttura di valutazione a grafo è stata proposta neltentativo di rispettare la struttura tridimensionale delleproteine

A. Renieri, M. Tanca Tool di allineamento multiplo a confronto

Page 19: Andrea Renieri Matteo Tanca - Dipartimento di Informaticapages.di.unipi.it/pisanti/DIDATTICA/INFO07/SEMI-AllMul.pdfSCHEMA DELLA PRESENTAZIONE 1 INTRODUZIONE Definizione del problema

IntroduzioneApprocci al problema

ToolConfronto risultati

Allineamenti basati su strutturaApprocci probabilisticiApprocci alternativi

ALLINEAMENTI BASATI SU STRUTTURAI TOOL

Allineamento a stella: SAlign, Modeller

Allineamento ad albero: CLUSTAL, Multi-Lagan,T-Coffee, ...

Allineamenti su grafi: POA (Partial Order Alignment),ABA (A-Brujn Alignment)

A. Renieri, M. Tanca Tool di allineamento multiplo a confronto

Page 20: Andrea Renieri Matteo Tanca - Dipartimento di Informaticapages.di.unipi.it/pisanti/DIDATTICA/INFO07/SEMI-AllMul.pdfSCHEMA DELLA PRESENTAZIONE 1 INTRODUZIONE Definizione del problema

IntroduzioneApprocci al problema

ToolConfronto risultati

Allineamenti basati su strutturaApprocci probabilisticiApprocci alternativi

APPROCCI PROBABILISTICI

Il problema è formulato in termini di un modello matematicoHMM (Hidden Markov Model): modello probabilistico, in cuisi assume che il sistema modellato sia un processo diMarkov a parametri sconosciutiL’informazione probabilistica può (eventualmente) esseresfruttata per costruire strutture di valutazione (alberi,grafi...)

A. Renieri, M. Tanca Tool di allineamento multiplo a confronto

Page 21: Andrea Renieri Matteo Tanca - Dipartimento di Informaticapages.di.unipi.it/pisanti/DIDATTICA/INFO07/SEMI-AllMul.pdfSCHEMA DELLA PRESENTAZIONE 1 INTRODUZIONE Definizione del problema

IntroduzioneApprocci al problema

ToolConfronto risultati

Allineamenti basati su strutturaApprocci probabilisticiApprocci alternativi

APPROCCI PROBABILISTICII TOOL

ProbCons, ProbAlignSAMAMAP

A. Renieri, M. Tanca Tool di allineamento multiplo a confronto

Page 22: Andrea Renieri Matteo Tanca - Dipartimento di Informaticapages.di.unipi.it/pisanti/DIDATTICA/INFO07/SEMI-AllMul.pdfSCHEMA DELLA PRESENTAZIONE 1 INTRODUZIONE Definizione del problema

IntroduzioneApprocci al problema

ToolConfronto risultati

Allineamenti basati su strutturaApprocci probabilisticiApprocci alternativi

APPROCCI ALTERNATIVI1/2

MAFFT: metodo basato sulla codifica dell’allineamentomultiplo in termini di trasformate discrete di Fourier (DFT)L’algoritmo FFT (Fast Fourier Transform) permette dicalcolare le trasformate in maniera molto efficiente(complessità in tempo O(N · logN))Consente di ottenere molto rapidamente buoneapprossimazioni della soluzione esatta

A. Renieri, M. Tanca Tool di allineamento multiplo a confronto

Page 23: Andrea Renieri Matteo Tanca - Dipartimento di Informaticapages.di.unipi.it/pisanti/DIDATTICA/INFO07/SEMI-AllMul.pdfSCHEMA DELLA PRESENTAZIONE 1 INTRODUZIONE Definizione del problema

IntroduzioneApprocci al problema

ToolConfronto risultati

Allineamenti basati su strutturaApprocci probabilisticiApprocci alternativi

APPROCCI ALTERNATIVI2/2

SAGA (Sequence Alignment by Genetic Algorithm):metodo di allineamento multiplo basato sull’uso di unalgoritmo geneticoAlgoritmi genetici: usati per risolvere problemi di ricercae ottimizzazione, simulano l’evoluzione di una popolazionedi possibili soluzioni, in base al principio biologico dellaselezione naturaleLa popolazione iniziale è generata (pseudo-)casualmentee la qualità dei singoli individui è misurata mediante unafunzione di fitness

A. Renieri, M. Tanca Tool di allineamento multiplo a confronto

Page 24: Andrea Renieri Matteo Tanca - Dipartimento di Informaticapages.di.unipi.it/pisanti/DIDATTICA/INFO07/SEMI-AllMul.pdfSCHEMA DELLA PRESENTAZIONE 1 INTRODUZIONE Definizione del problema

IntroduzioneApprocci al problema

ToolConfronto risultati

MultiLaganCLUSTALAMAPSAGA

1 INTRODUZIONE

3 TOOLMultiLaganCLUSTALAMAPSAGA

2 APPROCCI AL PROBLEMA

4 CONFRONTO RISULTATI

A. Renieri, M. Tanca Tool di allineamento multiplo a confronto

Page 25: Andrea Renieri Matteo Tanca - Dipartimento di Informaticapages.di.unipi.it/pisanti/DIDATTICA/INFO07/SEMI-AllMul.pdfSCHEMA DELLA PRESENTAZIONE 1 INTRODUZIONE Definizione del problema

IntroduzioneApprocci al problema

ToolConfronto risultati

MultiLaganCLUSTALAMAPSAGA

MLAGAN E CLUSTALW

MLAGAN e CLUSTALW sono tool che realizzanol’allineamento di più sequenze (multiple alignment)Entrambi si basano su:

Allineamento progressivo

Alberi filogenetici

A. Renieri, M. Tanca Tool di allineamento multiplo a confronto

Page 26: Andrea Renieri Matteo Tanca - Dipartimento di Informaticapages.di.unipi.it/pisanti/DIDATTICA/INFO07/SEMI-AllMul.pdfSCHEMA DELLA PRESENTAZIONE 1 INTRODUZIONE Definizione del problema

IntroduzioneApprocci al problema

ToolConfronto risultati

MultiLaganCLUSTALAMAPSAGA

ALLINEAMENTO PROGRESSIVO1/3

Per affrontare il problema dell’allineamento multiplo intempi accettabili c’è bisogno di metodi che facciano uso dieuristicheIl metodo più usato è quello dell’allineamentoprogressivoL’allineamento progressivo consiste nella costruzioneprogressiva di allineamenti di coppie di sequenze

A. Renieri, M. Tanca Tool di allineamento multiplo a confronto

Page 27: Andrea Renieri Matteo Tanca - Dipartimento di Informaticapages.di.unipi.it/pisanti/DIDATTICA/INFO07/SEMI-AllMul.pdfSCHEMA DELLA PRESENTAZIONE 1 INTRODUZIONE Definizione del problema

IntroduzioneApprocci al problema

ToolConfronto risultati

MultiLaganCLUSTALAMAPSAGA

ALLINEAMENTO PROGRESSIVO2/3

Dato un insieme di sequenze da allineare, vengono sceltee allineate due sequenze s1 ed s2, da cui si ottiene unanuova sequenzaViene scelta poi una terza sequenza s3 da allineare alprecedente allineamento, e così via

s1s2s3

sn…

A. Renieri, M. Tanca Tool di allineamento multiplo a confronto

Page 28: Andrea Renieri Matteo Tanca - Dipartimento di Informaticapages.di.unipi.it/pisanti/DIDATTICA/INFO07/SEMI-AllMul.pdfSCHEMA DELLA PRESENTAZIONE 1 INTRODUZIONE Definizione del problema

IntroduzioneApprocci al problema

ToolConfronto risultati

MultiLaganCLUSTALAMAPSAGA

ALLINEAMENTO PROGRESSIVO2/3

Dato un insieme di sequenze da allineare, vengono sceltee allineate due sequenze s1 ed s2, da cui si ottiene unanuova sequenzaViene scelta poi una terza sequenza s3 da allineare alprecedente allineamento, e così via

s1s2s3

sn…

s1/2

A. Renieri, M. Tanca Tool di allineamento multiplo a confronto

Page 29: Andrea Renieri Matteo Tanca - Dipartimento di Informaticapages.di.unipi.it/pisanti/DIDATTICA/INFO07/SEMI-AllMul.pdfSCHEMA DELLA PRESENTAZIONE 1 INTRODUZIONE Definizione del problema

IntroduzioneApprocci al problema

ToolConfronto risultati

MultiLaganCLUSTALAMAPSAGA

ALLINEAMENTO PROGRESSIVO2/3

Dato un insieme di sequenze da allineare, vengono sceltee allineate due sequenze s1 ed s2, da cui si ottiene unanuova sequenzaViene scelta poi una terza sequenza s3 da allineare alprecedente allineamento, e così via

s3

sn…

s1/2

A. Renieri, M. Tanca Tool di allineamento multiplo a confronto

Page 30: Andrea Renieri Matteo Tanca - Dipartimento di Informaticapages.di.unipi.it/pisanti/DIDATTICA/INFO07/SEMI-AllMul.pdfSCHEMA DELLA PRESENTAZIONE 1 INTRODUZIONE Definizione del problema

IntroduzioneApprocci al problema

ToolConfronto risultati

MultiLaganCLUSTALAMAPSAGA

ALLINEAMENTO PROGRESSIVO2/3

Dato un insieme di sequenze da allineare, vengono sceltee allineate due sequenze s1 ed s2, da cui si ottiene unanuova sequenzaViene scelta poi una terza sequenza s3 da allineare alprecedente allineamento, e così via

s3

sn…

s1/2s1/2/3

A. Renieri, M. Tanca Tool di allineamento multiplo a confronto

Page 31: Andrea Renieri Matteo Tanca - Dipartimento di Informaticapages.di.unipi.it/pisanti/DIDATTICA/INFO07/SEMI-AllMul.pdfSCHEMA DELLA PRESENTAZIONE 1 INTRODUZIONE Definizione del problema

IntroduzioneApprocci al problema

ToolConfronto risultati

MultiLaganCLUSTALAMAPSAGA

ALLINEAMENTO PROGRESSIVO2/3

Dato un insieme di sequenze da allineare, vengono sceltee allineate due sequenze s1 ed s2, da cui si ottiene unanuova sequenzaViene scelta poi una terza sequenza s3 da allineare alprecedente allineamento, e così via

sn…

s1/2/3 Considerazione: sequenze genetiche simili derivano da organismi “parenti”

L’allineamento progressivo “sfrutta” questa considerazione

A. Renieri, M. Tanca Tool di allineamento multiplo a confronto

Page 32: Andrea Renieri Matteo Tanca - Dipartimento di Informaticapages.di.unipi.it/pisanti/DIDATTICA/INFO07/SEMI-AllMul.pdfSCHEMA DELLA PRESENTAZIONE 1 INTRODUZIONE Definizione del problema

IntroduzioneApprocci al problema

ToolConfronto risultati

MultiLaganCLUSTALAMAPSAGA

ALLINEAMENTO PROGRESSIVO3/3

Regola: ad ogni passoallineare le sequenze piùsimiliUn albero filogenetico è unalbero binario che mette inrelazione di “parentela”specie odierne e antenaticomuni

Foglie: specie attualiNodi: specie ancestrali

A. Renieri, M. Tanca Tool di allineamento multiplo a confronto

Page 33: Andrea Renieri Matteo Tanca - Dipartimento di Informaticapages.di.unipi.it/pisanti/DIDATTICA/INFO07/SEMI-AllMul.pdfSCHEMA DELLA PRESENTAZIONE 1 INTRODUZIONE Definizione del problema

IntroduzioneApprocci al problema

ToolConfronto risultati

MultiLaganCLUSTALAMAPSAGA

ALLINEAMENTO PROGRESSIVO3/3

Regola: ad ogni passo allineare le sequenze più simili

A. Renieri, M. Tanca Tool di allineamento multiplo a confronto

Page 34: Andrea Renieri Matteo Tanca - Dipartimento di Informaticapages.di.unipi.it/pisanti/DIDATTICA/INFO07/SEMI-AllMul.pdfSCHEMA DELLA PRESENTAZIONE 1 INTRODUZIONE Definizione del problema

IntroduzioneApprocci al problema

ToolConfronto risultati

MultiLaganCLUSTALAMAPSAGA

ALLINEAMENTO PROGRESSIVO3/3

Regola: ad ogni passo allineare le sequenze più simili

mseq 1/2

seq 3

seq 4

A. Renieri, M. Tanca Tool di allineamento multiplo a confronto

Page 35: Andrea Renieri Matteo Tanca - Dipartimento di Informaticapages.di.unipi.it/pisanti/DIDATTICA/INFO07/SEMI-AllMul.pdfSCHEMA DELLA PRESENTAZIONE 1 INTRODUZIONE Definizione del problema

IntroduzioneApprocci al problema

ToolConfronto risultati

MultiLaganCLUSTALAMAPSAGA

ALLINEAMENTO PROGRESSIVO3/3

Regola: ad ogni passo allineare le sequenze più simili

mseq 1/2

seq 3

seq 4

A. Renieri, M. Tanca Tool di allineamento multiplo a confronto

Page 36: Andrea Renieri Matteo Tanca - Dipartimento di Informaticapages.di.unipi.it/pisanti/DIDATTICA/INFO07/SEMI-AllMul.pdfSCHEMA DELLA PRESENTAZIONE 1 INTRODUZIONE Definizione del problema

IntroduzioneApprocci al problema

ToolConfronto risultati

MultiLaganCLUSTALAMAPSAGA

ALLINEAMENTO PROGRESSIVO3/3

Regola: ad ogni passo allineare le sequenze più simili

mseq 1/2

mseq 3/4

A. Renieri, M. Tanca Tool di allineamento multiplo a confronto

Page 37: Andrea Renieri Matteo Tanca - Dipartimento di Informaticapages.di.unipi.it/pisanti/DIDATTICA/INFO07/SEMI-AllMul.pdfSCHEMA DELLA PRESENTAZIONE 1 INTRODUZIONE Definizione del problema

IntroduzioneApprocci al problema

ToolConfronto risultati

MultiLaganCLUSTALAMAPSAGA

ALLINEAMENTO PROGRESSIVO3/3

Regola: ad ogni passo allineare le sequenze più simili

mseq 1/2

mseq 3/4

A. Renieri, M. Tanca Tool di allineamento multiplo a confronto

Page 38: Andrea Renieri Matteo Tanca - Dipartimento di Informaticapages.di.unipi.it/pisanti/DIDATTICA/INFO07/SEMI-AllMul.pdfSCHEMA DELLA PRESENTAZIONE 1 INTRODUZIONE Definizione del problema

IntroduzioneApprocci al problema

ToolConfronto risultati

MultiLaganCLUSTALAMAPSAGA

ALLINEAMENTO PROGRESSIVO3/3

Regola: ad ogni passo allineare le sequenze più simili

mseq 1/2/3/4

A. Renieri, M. Tanca Tool di allineamento multiplo a confronto

Page 39: Andrea Renieri Matteo Tanca - Dipartimento di Informaticapages.di.unipi.it/pisanti/DIDATTICA/INFO07/SEMI-AllMul.pdfSCHEMA DELLA PRESENTAZIONE 1 INTRODUZIONE Definizione del problema

IntroduzioneApprocci al problema

ToolConfronto risultati

MultiLaganCLUSTALAMAPSAGA

MULTILAGANLAGAN E MLAGAN

LAGAN: realizza l’allineamento globale tra coppie disequenze (global pairwise alignment)MLAGAN: realizza l’allineamento globale di più sequenze(global multiple alignment) effettuando progressivamentegli allineamenti pairwise, tramite LAGAN (progressivealignment)

A. Renieri, M. Tanca Tool di allineamento multiplo a confronto

Page 40: Andrea Renieri Matteo Tanca - Dipartimento di Informaticapages.di.unipi.it/pisanti/DIDATTICA/INFO07/SEMI-AllMul.pdfSCHEMA DELLA PRESENTAZIONE 1 INTRODUZIONE Definizione del problema

IntroduzioneApprocci al problema

ToolConfronto risultati

MultiLaganCLUSTALAMAPSAGA

LAGAN 1/2

LAGAN (Limited Area Global Alignment of Nucleotides) èun tool per l’allineamento di due sequenzeÈ utile che le sequenze da analizzare siano ortologhe

LAGAN and MLAGAN assume that one has alreadyidentified apparent orthologous regions between twospecies, and that there are no genomic rearrangements

A. Renieri, M. Tanca Tool di allineamento multiplo a confronto

Page 41: Andrea Renieri Matteo Tanca - Dipartimento di Informaticapages.di.unipi.it/pisanti/DIDATTICA/INFO07/SEMI-AllMul.pdfSCHEMA DELLA PRESENTAZIONE 1 INTRODUZIONE Definizione del problema

IntroduzioneApprocci al problema

ToolConfronto risultati

MultiLaganCLUSTALAMAPSAGA

LAGAN 2/2

LAGAN allinea una coppia di sequenze in tre passi principali:

1 Generazione allineamentilocali tra 2 sequenze(CHAOS)

2 Concatenazionesottoinsieme degliallineamenti locali ecostruzione di una primaglobal map

3 Calcolo dell’allineamentoglobale utilizzando laglobal map

ATCCGTGCATGGATGCATCTCCAC

CTCGTAGCGGATATCGCACAATCG

A. Renieri, M. Tanca Tool di allineamento multiplo a confronto

Page 42: Andrea Renieri Matteo Tanca - Dipartimento di Informaticapages.di.unipi.it/pisanti/DIDATTICA/INFO07/SEMI-AllMul.pdfSCHEMA DELLA PRESENTAZIONE 1 INTRODUZIONE Definizione del problema

IntroduzioneApprocci al problema

ToolConfronto risultati

MultiLaganCLUSTALAMAPSAGA

LAGAN 2/2

LAGAN allinea una coppia di sequenze in tre passi principali:

1 Generazione allineamentilocali tra 2 sequenze(CHAOS)

2 Concatenazionesottoinsieme degliallineamenti locali ecostruzione di una primaglobal map

3 Calcolo dell’allineamentoglobale utilizzando laglobal map

ATCCGTGCATGGATGCATCTCCAC

CT

CG

TA

GC

GG

AT

AT

CG

CA

CA

AT

CG

A. Renieri, M. Tanca Tool di allineamento multiplo a confronto

Page 43: Andrea Renieri Matteo Tanca - Dipartimento di Informaticapages.di.unipi.it/pisanti/DIDATTICA/INFO07/SEMI-AllMul.pdfSCHEMA DELLA PRESENTAZIONE 1 INTRODUZIONE Definizione del problema

IntroduzioneApprocci al problema

ToolConfronto risultati

MultiLaganCLUSTALAMAPSAGA

LAGAN 2/2

LAGAN allinea una coppia di sequenze in tre passi principali:

1 Generazione allineamentilocali tra 2 sequenze(CHAOS)

2 Concatenazionesottoinsieme degliallineamenti locali ecostruzione di una primaglobal map

3 Calcolo dell’allineamentoglobale utilizzando laglobal map

ATCCGTGCATGGATGCATCTCCAC

CT

CG

TA

GC

GG

AT

AT

CG

CA

CA

AT

CG

A. Renieri, M. Tanca Tool di allineamento multiplo a confronto

Page 44: Andrea Renieri Matteo Tanca - Dipartimento di Informaticapages.di.unipi.it/pisanti/DIDATTICA/INFO07/SEMI-AllMul.pdfSCHEMA DELLA PRESENTAZIONE 1 INTRODUZIONE Definizione del problema

IntroduzioneApprocci al problema

ToolConfronto risultati

MultiLaganCLUSTALAMAPSAGA

PRIMA FASE: ALLINEAMENTI LOCALI1/5

CHAOS (CHAins Of Seeds): algoritmo utilizzato di defaultda LAGAN per gli allineamenti localiTrova omologie locali tra due sequenze e le concatena,costruendo allineamenti locali (anchor)Per prima cosa sono trovate piccole sotto-sequenze(seed) comuni alle due sequenze principaliUn seed non deve necessariamente presentarsi identico inentrambe le sequenze

A. Renieri, M. Tanca Tool di allineamento multiplo a confronto

Page 45: Andrea Renieri Matteo Tanca - Dipartimento di Informaticapages.di.unipi.it/pisanti/DIDATTICA/INFO07/SEMI-AllMul.pdfSCHEMA DELLA PRESENTAZIONE 1 INTRODUZIONE Definizione del problema

IntroduzioneApprocci al problema

ToolConfronto risultati

MultiLaganCLUSTALAMAPSAGA

PRIMA FASE: ALLINEAMENTI LOCALI2/5

Dati:una lunghezza k ,un numero massimo di differenze c,

un (k , c)− seed è un seed lungo k che può avere cdifferenze in entrambe le sequenze

A. Renieri, M. Tanca Tool di allineamento multiplo a confronto

Page 46: Andrea Renieri Matteo Tanca - Dipartimento di Informaticapages.di.unipi.it/pisanti/DIDATTICA/INFO07/SEMI-AllMul.pdfSCHEMA DELLA PRESENTAZIONE 1 INTRODUZIONE Definizione del problema

IntroduzioneApprocci al problema

ToolConfronto risultati

MultiLaganCLUSTALAMAPSAGA

PRIMA FASE: ALLINEAMENTI LOCALI2/5

Dati:una lunghezza k ,un numero massimo di differenze c,

un (k , c)− seed è un seed lungo k che può avere cdifferenze in entrambe le sequenze

ESEMPIO

...GGTGCTTGTA......CAGATTATCT...

(6,2)-seed = (GCTTGT, GATTAT)

A. Renieri, M. Tanca Tool di allineamento multiplo a confronto

Page 47: Andrea Renieri Matteo Tanca - Dipartimento di Informaticapages.di.unipi.it/pisanti/DIDATTICA/INFO07/SEMI-AllMul.pdfSCHEMA DELLA PRESENTAZIONE 1 INTRODUZIONE Definizione del problema

IntroduzioneApprocci al problema

ToolConfronto risultati

MultiLaganCLUSTALAMAPSAGA

PRIMA FASE: ALLINEAMENTI LOCALI3/5

CHAOS dopo aver trovato i seed, cerca di concatenarlicreando allineamenti locali (anchor). Dati:

d : massima distanzas: massimo shift

Due seed distanti x e y , rispettivamente nella prima eseconda sequenza, possono essere concatenati se:

x ≤ dy ≤ d|x − y | ≤ s

A. Renieri, M. Tanca Tool di allineamento multiplo a confronto

Page 48: Andrea Renieri Matteo Tanca - Dipartimento di Informaticapages.di.unipi.it/pisanti/DIDATTICA/INFO07/SEMI-AllMul.pdfSCHEMA DELLA PRESENTAZIONE 1 INTRODUZIONE Definizione del problema

IntroduzioneApprocci al problema

ToolConfronto risultati

MultiLaganCLUSTALAMAPSAGA

PRIMA FASE: ALLINEAMENTI LOCALI4/5

È possibile che un seed s1 possa soddisfare le relazioniappena viste con più di un singolo altro seed

ESEMPIO

x ≤ d x1 ≤ dy ≤ d y1 ≤ d|x− y| ≤ s |x1 − y1| ≤ s

A. Renieri, M. Tanca Tool di allineamento multiplo a confronto

Page 49: Andrea Renieri Matteo Tanca - Dipartimento di Informaticapages.di.unipi.it/pisanti/DIDATTICA/INFO07/SEMI-AllMul.pdfSCHEMA DELLA PRESENTAZIONE 1 INTRODUZIONE Definizione del problema

IntroduzioneApprocci al problema

ToolConfronto risultati

MultiLaganCLUSTALAMAPSAGA

PRIMA FASE: ALLINEAMENTI LOCALI5/5

In tal caso s1 è concatenato ad un seed con cui crei unacatena di score massimoScore di una catena: viene assegnata in base ai solitiprincìpi generali di punteggio

Bonus per match fra caratteri dei seedMalus per mismatch fra caratteri dei seedMalus per gap

A. Renieri, M. Tanca Tool di allineamento multiplo a confronto

Page 50: Andrea Renieri Matteo Tanca - Dipartimento di Informaticapages.di.unipi.it/pisanti/DIDATTICA/INFO07/SEMI-AllMul.pdfSCHEMA DELLA PRESENTAZIONE 1 INTRODUZIONE Definizione del problema

IntroduzioneApprocci al problema

ToolConfronto risultati

MultiLaganCLUSTALAMAPSAGA

SECONDA FASE: GLOBAL MAP1/3

LAGAN ordina gli allineamenti locali prodotti da CHAOS inuna global mapUn allineamento locale è un vettore (b,e,b′,e′, s) cherappresenta

1 la posizione iniziale e finale (begin, end) dell’allineamentonelle due sequenze

2 lo score dell’allineamento

A. Renieri, M. Tanca Tool di allineamento multiplo a confronto

Page 51: Andrea Renieri Matteo Tanca - Dipartimento di Informaticapages.di.unipi.it/pisanti/DIDATTICA/INFO07/SEMI-AllMul.pdfSCHEMA DELLA PRESENTAZIONE 1 INTRODUZIONE Definizione del problema

IntroduzioneApprocci al problema

ToolConfronto risultati

MultiLaganCLUSTALAMAPSAGA

SECONDA FASE: GLOBAL MAP2/3

Dati due allineamentilocali:

A1 = (b1,e1,b′1,e

′1, s1)

A2 = (b2,e2,b′2,e

′2, s2)

A1 < A2 sse:e1 < b2e′

1 < b′2

Una catena di allineamenti locali A1 < A2 < ... < Ak hascore s1 + s2 + ...+ sk

A. Renieri, M. Tanca Tool di allineamento multiplo a confronto

Page 52: Andrea Renieri Matteo Tanca - Dipartimento di Informaticapages.di.unipi.it/pisanti/DIDATTICA/INFO07/SEMI-AllMul.pdfSCHEMA DELLA PRESENTAZIONE 1 INTRODUZIONE Definizione del problema

IntroduzioneApprocci al problema

ToolConfronto risultati

MultiLaganCLUSTALAMAPSAGA

SECONDA FASE: GLOBAL MAP3/3

La global map ottima è quella con lo score più altoPuò essere calcolata usando Sparse DynamicProgrammingIl calcolo ha complessità in tempo O(n · logn), dove n è ilnumero di allineamenti locali considerati

A. Renieri, M. Tanca Tool di allineamento multiplo a confronto

Page 53: Andrea Renieri Matteo Tanca - Dipartimento di Informaticapages.di.unipi.it/pisanti/DIDATTICA/INFO07/SEMI-AllMul.pdfSCHEMA DELLA PRESENTAZIONE 1 INTRODUZIONE Definizione del problema

IntroduzioneApprocci al problema

ToolConfronto risultati

MultiLaganCLUSTALAMAPSAGA

COSTRUZIONE DELL’ALLINEMENTO GLOBALE1/2

L’algoritmo di Needleman-Wunsch utilizza una matrice(M + 1)× (N + 1)

M e N sono le lunghezze delle sequenze da allineareL’algoritmo calcola il valore di ogni cella della matrice ecalcola il path con lo score più alto dalla cella [0,0] fino allacella [N,M]

L’algoritmo ha complessità in tempo O(N ·M)

A. Renieri, M. Tanca Tool di allineamento multiplo a confronto

Page 54: Andrea Renieri Matteo Tanca - Dipartimento di Informaticapages.di.unipi.it/pisanti/DIDATTICA/INFO07/SEMI-AllMul.pdfSCHEMA DELLA PRESENTAZIONE 1 INTRODUZIONE Definizione del problema

IntroduzioneApprocci al problema

ToolConfronto risultati

MultiLaganCLUSTALAMAPSAGA

COSTRUZIONE DELL’ALLINEMENTO GLOBALE2/2

Lagan, per velocizzare il calcolo, adotta la seguente strategia:qualora sia noto che un certo allineamento passa per lacasella [i , j] si evita di calcolare il valore delle celleall’interno dei rettangoli delimitati dalle celle[i + 1,0], [M, j − 1] e da [0, j + 1], [i − 1,N]

A. Renieri, M. Tanca Tool di allineamento multiplo a confronto

Page 55: Andrea Renieri Matteo Tanca - Dipartimento di Informaticapages.di.unipi.it/pisanti/DIDATTICA/INFO07/SEMI-AllMul.pdfSCHEMA DELLA PRESENTAZIONE 1 INTRODUZIONE Definizione del problema

IntroduzioneApprocci al problema

ToolConfronto risultati

MultiLaganCLUSTALAMAPSAGA

TERZA FASE: ALLINEMENTO GLOBALE1/2

L’algoritmo riceve in input un parametro r (che delimital’area di ricerca) e per ogni allineamento da [i , j] a [i ′, j ′]valuta lo score delle celle incluse nell’unione formata:

dal rettangolo da [0,0] a[i + r , j + r ]dal rettangolo da[i ′ − r , j ′ − r ] a [M,N]

dalle due diagonali da[i − r , j + r ] a [i ′ − r , j ′ + r ]e da [i + r , j − r ] a[i ′ + r , j ′ − r ]

A. Renieri, M. Tanca Tool di allineamento multiplo a confronto

Page 56: Andrea Renieri Matteo Tanca - Dipartimento di Informaticapages.di.unipi.it/pisanti/DIDATTICA/INFO07/SEMI-AllMul.pdfSCHEMA DELLA PRESENTAZIONE 1 INTRODUZIONE Definizione del problema

IntroduzioneApprocci al problema

ToolConfronto risultati

MultiLaganCLUSTALAMAPSAGA

TERZA FASE: ALLINEMENTO GLOBALE1/2

L’algoritmo riceve in input un parametro r (che delimital’area di ricerca) e per ogni allineamento da [i , j] a [i ′, j ′]valuta lo score delle celle incluse nell’unione formata:

dal rettangolo da [0,0] a[i + r , j + r ]dal rettangolo da[i ′ − r , j ′ − r ] a [M,N]

dalle due diagonali da[i − r , j + r ] a [i ′ − r , j ′ + r ]e da [i + r , j − r ] a[i ′ + r , j ′ − r ]

A. Renieri, M. Tanca Tool di allineamento multiplo a confronto

Page 57: Andrea Renieri Matteo Tanca - Dipartimento di Informaticapages.di.unipi.it/pisanti/DIDATTICA/INFO07/SEMI-AllMul.pdfSCHEMA DELLA PRESENTAZIONE 1 INTRODUZIONE Definizione del problema

IntroduzioneApprocci al problema

ToolConfronto risultati

MultiLaganCLUSTALAMAPSAGA

TERZA FASE: ALLINEMENTO GLOBALE1/2

L’algoritmo riceve in input un parametro r (che delimital’area di ricerca) e per ogni allineamento da [i , j] a [i ′, j ′]valuta lo score delle celle incluse nell’unione formata:

dal rettangolo da [0,0] a[i + r , j + r ]dal rettangolo da[i ′ − r , j ′ − r ] a [M,N]

dalle due diagonali da[i − r , j + r ] a [i ′ − r , j ′ + r ]e da [i + r , j − r ] a[i ′ + r , j ′ − r ]

A. Renieri, M. Tanca Tool di allineamento multiplo a confronto

Page 58: Andrea Renieri Matteo Tanca - Dipartimento di Informaticapages.di.unipi.it/pisanti/DIDATTICA/INFO07/SEMI-AllMul.pdfSCHEMA DELLA PRESENTAZIONE 1 INTRODUZIONE Definizione del problema

IntroduzioneApprocci al problema

ToolConfronto risultati

MultiLaganCLUSTALAMAPSAGA

TERZA FASE: ALLINEMENTO GLOBALE1/2

L’algoritmo riceve in input un parametro r (che delimital’area di ricerca) e per ogni allineamento da [i , j] a [i ′, j ′]valuta lo score delle celle incluse nell’unione formata:

dal rettangolo da [0,0] a[i + r , j + r ]dal rettangolo da[i ′ − r , j ′ − r ] a [M,N]

dalle due diagonali da[i − r , j + r ] a [i ′ − r , j ′ + r ]e da [i + r , j − r ] a[i ′ + r , j ′ − r ]

A. Renieri, M. Tanca Tool di allineamento multiplo a confronto

Page 59: Andrea Renieri Matteo Tanca - Dipartimento di Informaticapages.di.unipi.it/pisanti/DIDATTICA/INFO07/SEMI-AllMul.pdfSCHEMA DELLA PRESENTAZIONE 1 INTRODUZIONE Definizione del problema

IntroduzioneApprocci al problema

ToolConfronto risultati

MultiLaganCLUSTALAMAPSAGA

TERZA FASE: ALLINEMENTO GLOBALE2/2

Gli anchor forniscono aree della global map dalle qualideve passare l’allineamentoLa complessità in tempo dell’algoritmo dipende dal numerodi celle comprese fra anchor consecutivi

A. Renieri, M. Tanca Tool di allineamento multiplo a confronto

Page 60: Andrea Renieri Matteo Tanca - Dipartimento di Informaticapages.di.unipi.it/pisanti/DIDATTICA/INFO07/SEMI-AllMul.pdfSCHEMA DELLA PRESENTAZIONE 1 INTRODUZIONE Definizione del problema

IntroduzioneApprocci al problema

ToolConfronto risultati

MultiLaganCLUSTALAMAPSAGA

MULTILAGAN

MLAGAN (MultiLagan) è un tool per l’allineamento globaledi più sequenzeBasato su allineamenti progressivi effettuati medianteLAGANPresuppone un albero filogenetico in ingresso, su cuibasare gli allineamenti progressiviLa richiesta ha un senso qualora si cerchino allineamentifra sequenze ortologhe appartenenti a specie di cui sianoto l’albero filogenetico

A. Renieri, M. Tanca Tool di allineamento multiplo a confronto

Page 61: Andrea Renieri Matteo Tanca - Dipartimento di Informaticapages.di.unipi.it/pisanti/DIDATTICA/INFO07/SEMI-AllMul.pdfSCHEMA DELLA PRESENTAZIONE 1 INTRODUZIONE Definizione del problema

IntroduzioneApprocci al problema

ToolConfronto risultati

MultiLaganCLUSTALAMAPSAGA

MLAGANALGORITMO

Dati N sequenze ed un albero filogenetico

1 Allineamento globalepairwise di sequenze omulti-sequenze

2 Iterazione punto 13 Miglioramento

(opzionale)

A. Renieri, M. Tanca Tool di allineamento multiplo a confronto

Page 62: Andrea Renieri Matteo Tanca - Dipartimento di Informaticapages.di.unipi.it/pisanti/DIDATTICA/INFO07/SEMI-AllMul.pdfSCHEMA DELLA PRESENTAZIONE 1 INTRODUZIONE Definizione del problema

IntroduzioneApprocci al problema

ToolConfronto risultati

MultiLaganCLUSTALAMAPSAGA

MLAGANALGORITMO

Dati N sequenze ed un albero filogenetico

1 Allineamento globalepairwise di sequenze omulti-sequenze

2 Iterazione punto 13 Miglioramento

(opzionale)

mseq 1/2

seq 3

seq 4

A. Renieri, M. Tanca Tool di allineamento multiplo a confronto

Page 63: Andrea Renieri Matteo Tanca - Dipartimento di Informaticapages.di.unipi.it/pisanti/DIDATTICA/INFO07/SEMI-AllMul.pdfSCHEMA DELLA PRESENTAZIONE 1 INTRODUZIONE Definizione del problema

IntroduzioneApprocci al problema

ToolConfronto risultati

MultiLaganCLUSTALAMAPSAGA

MLAGANALGORITMO

Dati N sequenze ed un albero filogenetico

1 Allineamento globalepairwise di sequenze omulti-sequenze

2 Iterazione punto 13 Miglioramento

(opzionale)

mseq 1/2

seq 3

seq 4

A. Renieri, M. Tanca Tool di allineamento multiplo a confronto

Page 64: Andrea Renieri Matteo Tanca - Dipartimento di Informaticapages.di.unipi.it/pisanti/DIDATTICA/INFO07/SEMI-AllMul.pdfSCHEMA DELLA PRESENTAZIONE 1 INTRODUZIONE Definizione del problema

IntroduzioneApprocci al problema

ToolConfronto risultati

MultiLaganCLUSTALAMAPSAGA

MLAGANALGORITMO

Dati N sequenze ed un albero filogenetico

1 Allineamento globalepairwise di sequenze omulti-sequenze

2 Iterazione punto 13 Miglioramento

(opzionale)

mseq 1/2

mseq 3/4

A. Renieri, M. Tanca Tool di allineamento multiplo a confronto

Page 65: Andrea Renieri Matteo Tanca - Dipartimento di Informaticapages.di.unipi.it/pisanti/DIDATTICA/INFO07/SEMI-AllMul.pdfSCHEMA DELLA PRESENTAZIONE 1 INTRODUZIONE Definizione del problema

IntroduzioneApprocci al problema

ToolConfronto risultati

MultiLaganCLUSTALAMAPSAGA

MLAGANALGORITMO

Dati N sequenze ed un albero filogenetico

1 Allineamento globalepairwise di sequenze omulti-sequenze

2 Iterazione punto 13 Miglioramento

(opzionale)

mseq 1/2

mseq 3/4

A. Renieri, M. Tanca Tool di allineamento multiplo a confronto

Page 66: Andrea Renieri Matteo Tanca - Dipartimento di Informaticapages.di.unipi.it/pisanti/DIDATTICA/INFO07/SEMI-AllMul.pdfSCHEMA DELLA PRESENTAZIONE 1 INTRODUZIONE Definizione del problema

IntroduzioneApprocci al problema

ToolConfronto risultati

MultiLaganCLUSTALAMAPSAGA

MLAGANALGORITMO

Dati N sequenze ed un albero filogenetico

1 Allineamento globalepairwise di sequenze omulti-sequenze

2 Iterazione punto 13 Miglioramento

(opzionale)

mseq 1/2/3/4

A. Renieri, M. Tanca Tool di allineamento multiplo a confronto

Page 67: Andrea Renieri Matteo Tanca - Dipartimento di Informaticapages.di.unipi.it/pisanti/DIDATTICA/INFO07/SEMI-AllMul.pdfSCHEMA DELLA PRESENTAZIONE 1 INTRODUZIONE Definizione del problema

IntroduzioneApprocci al problema

ToolConfronto risultati

MultiLaganCLUSTALAMAPSAGA

MLAGANALGORITMO

Dati N sequenze ed un albero filogenetico

1 Allineamento globalepairwise di sequenze omulti-sequenze

2 Iterazione punto 13 Miglioramento

(opzionale)

mseq 1/2/3/4

A. Renieri, M. Tanca Tool di allineamento multiplo a confronto

Page 68: Andrea Renieri Matteo Tanca - Dipartimento di Informaticapages.di.unipi.it/pisanti/DIDATTICA/INFO07/SEMI-AllMul.pdfSCHEMA DELLA PRESENTAZIONE 1 INTRODUZIONE Definizione del problema

IntroduzioneApprocci al problema

ToolConfronto risultati

MultiLaganCLUSTALAMAPSAGA

ALLINEAMENTO GLOBALE PAIRWISE (PASSI 1 E 2)1/3

Per allineare una multiseq. X/Y con una (multi)seq. Z ènecessario costruire una global map, che è generata in 2 passi

Passo 1A: gli anchor tra X e Z che non si sovrappongono con glianchor tra Y e Z, divengono anchor tra X/Y e Z,mantenendo il proprio score

x

z

y

z

A. Renieri, M. Tanca Tool di allineamento multiplo a confronto

Page 69: Andrea Renieri Matteo Tanca - Dipartimento di Informaticapages.di.unipi.it/pisanti/DIDATTICA/INFO07/SEMI-AllMul.pdfSCHEMA DELLA PRESENTAZIONE 1 INTRODUZIONE Definizione del problema

IntroduzioneApprocci al problema

ToolConfronto risultati

MultiLaganCLUSTALAMAPSAGA

ALLINEAMENTO GLOBALE PAIRWISE (PASSI 1 E 2)1/3

Per allineare una multiseq. X/Y con una (multi)seq. Z ènecessario costruire una global map, che è generata in 2 passi

Passo 1A: gli anchor tra X e Z che non si sovrappongono con glianchor tra Y e Z, divengono anchor tra X/Y e Z,mantenendo il proprio score

x

z

y

z

A. Renieri, M. Tanca Tool di allineamento multiplo a confronto

Page 70: Andrea Renieri Matteo Tanca - Dipartimento di Informaticapages.di.unipi.it/pisanti/DIDATTICA/INFO07/SEMI-AllMul.pdfSCHEMA DELLA PRESENTAZIONE 1 INTRODUZIONE Definizione del problema

IntroduzioneApprocci al problema

ToolConfronto risultati

MultiLaganCLUSTALAMAPSAGA

ALLINEAMENTO GLOBALE PAIRWISE (PASSI 1 E 2)1/3

Per allineare una multiseq. X/Y con una (multi)seq. Z ènecessario costruire una global map, che è generata in 2 passi

Passo 1A: gli anchor tra X e Z che non si sovrappongono con glianchor tra Y e Z, divengono anchor tra X/Y e Z,mantenendo il proprio score

x

z

x/y

z

A. Renieri, M. Tanca Tool di allineamento multiplo a confronto

Page 71: Andrea Renieri Matteo Tanca - Dipartimento di Informaticapages.di.unipi.it/pisanti/DIDATTICA/INFO07/SEMI-AllMul.pdfSCHEMA DELLA PRESENTAZIONE 1 INTRODUZIONE Definizione del problema

IntroduzioneApprocci al problema

ToolConfronto risultati

MultiLaganCLUSTALAMAPSAGA

ALLINEAMENTO GLOBALE PAIRWISE (PASSI 1 E 2)1/3

Per allineare una multiseq. X/Y con una (multi)seq. Z ènecessario costruire una global map, che è generata in 2 passi

Passo 1B: gli anchor tra Y e Z che non si sovrappongono con glianchor tra X e Z, divengono anchor tra X/Y e Z

x

z

y

z

A. Renieri, M. Tanca Tool di allineamento multiplo a confronto

Page 72: Andrea Renieri Matteo Tanca - Dipartimento di Informaticapages.di.unipi.it/pisanti/DIDATTICA/INFO07/SEMI-AllMul.pdfSCHEMA DELLA PRESENTAZIONE 1 INTRODUZIONE Definizione del problema

IntroduzioneApprocci al problema

ToolConfronto risultati

MultiLaganCLUSTALAMAPSAGA

ALLINEAMENTO GLOBALE PAIRWISE (PASSI 1 E 2)1/3

Per allineare una multiseq. X/Y con una (multi)seq. Z ènecessario costruire una global map, che è generata in 2 passi

Passo 1B: gli anchor tra Y e Z che non si sovrappongono con glianchor tra X e Z, divengono anchor tra X/Y e Z

x

z

y

z

A. Renieri, M. Tanca Tool di allineamento multiplo a confronto

Page 73: Andrea Renieri Matteo Tanca - Dipartimento di Informaticapages.di.unipi.it/pisanti/DIDATTICA/INFO07/SEMI-AllMul.pdfSCHEMA DELLA PRESENTAZIONE 1 INTRODUZIONE Definizione del problema

IntroduzioneApprocci al problema

ToolConfronto risultati

MultiLaganCLUSTALAMAPSAGA

ALLINEAMENTO GLOBALE PAIRWISE (PASSI 1 E 2)1/3

Per allineare una multiseq. X/Y con una (multi)seq. Z ènecessario costruire una global map, che è generata in 2 passi

Passo 1B: gli anchor tra Y e Z che non si sovrappongono con glianchor tra X e Z, divengono anchor tra X/Y e Z

z

x/y

A. Renieri, M. Tanca Tool di allineamento multiplo a confronto

Page 74: Andrea Renieri Matteo Tanca - Dipartimento di Informaticapages.di.unipi.it/pisanti/DIDATTICA/INFO07/SEMI-AllMul.pdfSCHEMA DELLA PRESENTAZIONE 1 INTRODUZIONE Definizione del problema

IntroduzioneApprocci al problema

ToolConfronto risultati

MultiLaganCLUSTALAMAPSAGA

ALLINEAMENTO GLOBALE PAIRWISE (PASSI 1 E 2)1/3

Per allineare una multiseq. X/Y con una (multi)seq. Z ènecessario costruire una global map, che è generata in 2 passi

Passo 2: di ogni anchor tra X e Z che si sovrappone anchein parte con un anchor tra Y e Z, viene ricalcolato lo score

x

z

y

z

A. Renieri, M. Tanca Tool di allineamento multiplo a confronto

Page 75: Andrea Renieri Matteo Tanca - Dipartimento di Informaticapages.di.unipi.it/pisanti/DIDATTICA/INFO07/SEMI-AllMul.pdfSCHEMA DELLA PRESENTAZIONE 1 INTRODUZIONE Definizione del problema

IntroduzioneApprocci al problema

ToolConfronto risultati

MultiLaganCLUSTALAMAPSAGA

ALLINEAMENTO GLOBALE PAIRWISE (PASSI 1 E 2)1/3

Per allineare una multiseq. X/Y con una (multi)seq. Z ènecessario costruire una global map, che è generata in 2 passi

Passo 2: di ogni anchor tra X e Z che si sovrappone anchein parte con un anchor tra Y e Z, viene ricalcolato lo score

x/y

z

A. Renieri, M. Tanca Tool di allineamento multiplo a confronto

Page 76: Andrea Renieri Matteo Tanca - Dipartimento di Informaticapages.di.unipi.it/pisanti/DIDATTICA/INFO07/SEMI-AllMul.pdfSCHEMA DELLA PRESENTAZIONE 1 INTRODUZIONE Definizione del problema

IntroduzioneApprocci al problema

ToolConfronto risultati

MultiLaganCLUSTALAMAPSAGA

ALLINEAMENTO GLOBALE PAIRWISE (PASSI 1 E 2)1/3

Per allineare una multiseq. X/Y con una (multi)seq. Z ènecessario costruire una global map, che è generata in 2 passi

x

z

y

z

x/y

z

A. Renieri, M. Tanca Tool di allineamento multiplo a confronto

Page 77: Andrea Renieri Matteo Tanca - Dipartimento di Informaticapages.di.unipi.it/pisanti/DIDATTICA/INFO07/SEMI-AllMul.pdfSCHEMA DELLA PRESENTAZIONE 1 INTRODUZIONE Definizione del problema

IntroduzioneApprocci al problema

ToolConfronto risultati

MultiLaganCLUSTALAMAPSAGA

MIGLIORAMENTO [OPZIONALE] (PASSO 3)1/2

Un difetto dell’allineamento progressivo è che gliallineamenti pairwise iniziali sono immodificabili, anche se,andando avanti negli allineamenti, vengono trovate alcuneinesattezze negli allineamenti precedentiSoluzione: raffinamento iterativoMLAGAN introduce una versione del raffinamentocircoscritta ad aree ridotte (limited area version of iterativerefinement)

A. Renieri, M. Tanca Tool di allineamento multiplo a confronto

Page 78: Andrea Renieri Matteo Tanca - Dipartimento di Informaticapages.di.unipi.it/pisanti/DIDATTICA/INFO07/SEMI-AllMul.pdfSCHEMA DELLA PRESENTAZIONE 1 INTRODUZIONE Definizione del problema

IntroduzioneApprocci al problema

ToolConfronto risultati

MultiLaganCLUSTALAMAPSAGA

MIGLIORAMENTO [OPZIONALE] (PASSO 3)2/2

Iterativamente ogni sequenza viene rimossadall’allineamento globaleOgni regione della sequenza rimossa che migliorasignificativamente lo score dell’allineamento diventa unanchorLa sequenza è riallineata all’allineamento multiplo(utilizzando LAGAN)

A. Renieri, M. Tanca Tool di allineamento multiplo a confronto

Page 79: Andrea Renieri Matteo Tanca - Dipartimento di Informaticapages.di.unipi.it/pisanti/DIDATTICA/INFO07/SEMI-AllMul.pdfSCHEMA DELLA PRESENTAZIONE 1 INTRODUZIONE Definizione del problema

IntroduzioneApprocci al problema

ToolConfronto risultati

MultiLaganCLUSTALAMAPSAGA

SCORE DELL’ALLINEAMENTO MULTIPLO

MLAGAN definisce una propria funzione di scoreIl punteggio di un allineamento multiplo è dato da unacombinazione lineare di consensus e Sum of Pairs

A. Renieri, M. Tanca Tool di allineamento multiplo a confronto

Page 80: Andrea Renieri Matteo Tanca - Dipartimento di Informaticapages.di.unipi.it/pisanti/DIDATTICA/INFO07/SEMI-AllMul.pdfSCHEMA DELLA PRESENTAZIONE 1 INTRODUZIONE Definizione del problema

IntroduzioneApprocci al problema

ToolConfronto risultati

MultiLaganCLUSTALAMAPSAGA

1 INTRODUZIONE

3 TOOLMultiLaganCLUSTALAMAPSAGA

2 APPROCCI AL PROBLEMA

4 CONFRONTO RISULTATI

A. Renieri, M. Tanca Tool di allineamento multiplo a confronto

Page 81: Andrea Renieri Matteo Tanca - Dipartimento di Informaticapages.di.unipi.it/pisanti/DIDATTICA/INFO07/SEMI-AllMul.pdfSCHEMA DELLA PRESENTAZIONE 1 INTRODUZIONE Definizione del problema

IntroduzioneApprocci al problema

ToolConfronto risultati

MultiLaganCLUSTALAMAPSAGA

CLUSTALW1/2

CLUSTAL è un tool per l’allineamento globale di piùsequenze (global multiple alignment)Utilizza la tecnica dell’allineamento progressivoCLUSTALW è spesso usato per l’allineamento di sequenzeproteiche divergenti

W sta per Weights

A. Renieri, M. Tanca Tool di allineamento multiplo a confronto

Page 82: Andrea Renieri Matteo Tanca - Dipartimento di Informaticapages.di.unipi.it/pisanti/DIDATTICA/INFO07/SEMI-AllMul.pdfSCHEMA DELLA PRESENTAZIONE 1 INTRODUZIONE Definizione del problema

IntroduzioneApprocci al problema

ToolConfronto risultati

MultiLaganCLUSTALAMAPSAGA

CLUSTALW2/2

Clustal W esegue l’allineamento progressivo in tre passiprincipali:

1 Costruzione di una matrice delle distanze, valutata su tuttele coppie delle sequenze

2 Costruzione di un albero filogenetico guida delle sequenzemediante il metodo neighbour joining

3 Allineamento pairwise progressivo delle sequenze rispettoalla similarità data dall’albero

A. Renieri, M. Tanca Tool di allineamento multiplo a confronto

Page 83: Andrea Renieri Matteo Tanca - Dipartimento di Informaticapages.di.unipi.it/pisanti/DIDATTICA/INFO07/SEMI-AllMul.pdfSCHEMA DELLA PRESENTAZIONE 1 INTRODUZIONE Definizione del problema

IntroduzioneApprocci al problema

ToolConfronto risultati

MultiLaganCLUSTALAMAPSAGA

PASSO 1: COSTRUZIONE DELLA MATRICE DELLE

DISTANZE1/3

Date n sequenze da allineare, Clustal W allinea tutte lecoppie di sequenze separatamente e costruisce unamatrice delle distanze tra ogni coppia di sequenzeLo score dell’allineamento pairwise viene convertito in“distanza” (∈ [0,1]) tra due sequenze

Seq. 1 Seq. 2 Seq. 3 Seq. 4Seq. 1 0.00Seq. 2 0.11 0.00Seq. 3 0.32 0.43 0.00Seq. 4 0.17 0.18 0.57 0.00

A. Renieri, M. Tanca Tool di allineamento multiplo a confronto

Page 84: Andrea Renieri Matteo Tanca - Dipartimento di Informaticapages.di.unipi.it/pisanti/DIDATTICA/INFO07/SEMI-AllMul.pdfSCHEMA DELLA PRESENTAZIONE 1 INTRODUZIONE Definizione del problema

IntroduzioneApprocci al problema

ToolConfronto risultati

MultiLaganCLUSTALAMAPSAGA

PASSO 1: COSTRUZIONE DELLA MATRICE DELLE

DISTANZE2/3

I programmi della serie CLUSTAL calcolano la matricedelle distanze con un metodo approssimato ma veloceCLUSTALW dà anche la possibilità di calcolare la matricecon un metodo più accurato, ma computazionalmentelento (decine di minuti)

basato su allineamenti effettuati con programmazionedinamicamatrici per attribuire il peso ai match/mismatch (matriciPAM o BLOSUM)

A. Renieri, M. Tanca Tool di allineamento multiplo a confronto

Page 85: Andrea Renieri Matteo Tanca - Dipartimento di Informaticapages.di.unipi.it/pisanti/DIDATTICA/INFO07/SEMI-AllMul.pdfSCHEMA DELLA PRESENTAZIONE 1 INTRODUZIONE Definizione del problema

IntroduzioneApprocci al problema

ToolConfronto risultati

MultiLaganCLUSTALAMAPSAGA

PASSO 1: COSTRUZIONE DELLA MATRICE DELLE

DISTANZE3/3

PAM (Percent Accepted Mutations): l’entry (i , j) contienelo score assegnato alla coppia di aminoacidi (Ai ,Aj)

Lo score è proporzionale alla frequenza con cui ci siaspetta che Ai sostituisca Aj

Alcune sostituzioni di aminoacidi occorrono più facilmentedi altreProteine omologhe non devono necessariamente avere glistessi aminoacidi in ogni posizione

A. Renieri, M. Tanca Tool di allineamento multiplo a confronto

Page 86: Andrea Renieri Matteo Tanca - Dipartimento di Informaticapages.di.unipi.it/pisanti/DIDATTICA/INFO07/SEMI-AllMul.pdfSCHEMA DELLA PRESENTAZIONE 1 INTRODUZIONE Definizione del problema

IntroduzioneApprocci al problema

ToolConfronto risultati

MultiLaganCLUSTALAMAPSAGA

PASSO 2: COSTRUZIONE ALBERO GUIDA1/3

L’euristica in CLUSTALW consiste nell’allineare per primele sequenze più vicineViene costruito un albero filogenetico (a partire dallamatrice delle distanze)

Metodo neighbour joining

Importanza della “precisione” della matrice delle distanze

A. Renieri, M. Tanca Tool di allineamento multiplo a confronto

Page 87: Andrea Renieri Matteo Tanca - Dipartimento di Informaticapages.di.unipi.it/pisanti/DIDATTICA/INFO07/SEMI-AllMul.pdfSCHEMA DELLA PRESENTAZIONE 1 INTRODUZIONE Definizione del problema

IntroduzioneApprocci al problema

ToolConfronto risultati

MultiLaganCLUSTALAMAPSAGA

PASSO 2: COSTRUZIONE ALBERO GUIDA2/3

Dalla matriceviene scelta lacoppia chediverge meno:essa formerà ilprimosottoalbero

Seq. 1 Seq. 2 Seq. 3 Seq. 4Seq. 1 0.00Seq. 2 0.11 0.00Seq. 3 0.32 0.43 0.00Seq. 4 0.17 0.18 0.57 0.00

Seq 1 Seq 2

Seq 1/2Seq 1

Seq 2

Seq 3

Seq 4

Seq 1

Seq 2

Seq 3

Seq 4

A. Renieri, M. Tanca Tool di allineamento multiplo a confronto

Page 88: Andrea Renieri Matteo Tanca - Dipartimento di Informaticapages.di.unipi.it/pisanti/DIDATTICA/INFO07/SEMI-AllMul.pdfSCHEMA DELLA PRESENTAZIONE 1 INTRODUZIONE Definizione del problema

IntroduzioneApprocci al problema

ToolConfronto risultati

MultiLaganCLUSTALAMAPSAGA

PASSO 2: COSTRUZIONE ALBERO GUIDA2/3

Nella matrice vienesostituita la entrySeq 1/2 alle singoleentry Seq 1 e Seq 2Vengono calcolate ledistanze di Seq 1/2dalle sequenzerimanenti (mediaaritmetica)

Seq. 1/2 Seq. 3 Seq. 4Seq. 1/2 0.00Seq. 3 0.375 0.00Seq. 4 0.175 0.57 0.00

A. Renieri, M. Tanca Tool di allineamento multiplo a confronto

Page 89: Andrea Renieri Matteo Tanca - Dipartimento di Informaticapages.di.unipi.it/pisanti/DIDATTICA/INFO07/SEMI-AllMul.pdfSCHEMA DELLA PRESENTAZIONE 1 INTRODUZIONE Definizione del problema

IntroduzioneApprocci al problema

ToolConfronto risultati

MultiLaganCLUSTALAMAPSAGA

PASSO 2: COSTRUZIONE ALBERO GUIDA2/3

Dalla matrice vienescelta la coppiache diverge meno:essa formerà ilsecondosottoalbero

Seq. 1/2 Seq. 3 Seq. 4Seq. 1/2 0.00Seq. 3 0.375 0.00Seq. 4 0.175 0.57 0.00

Seq 1/2 Seq 4

Seq 1/2/4Seq 1

Seq 2

Seq 4

Seq 3

Seq 1

Seq 2

Seq 4

Seq 3

A. Renieri, M. Tanca Tool di allineamento multiplo a confronto

Page 90: Andrea Renieri Matteo Tanca - Dipartimento di Informaticapages.di.unipi.it/pisanti/DIDATTICA/INFO07/SEMI-AllMul.pdfSCHEMA DELLA PRESENTAZIONE 1 INTRODUZIONE Definizione del problema

IntroduzioneApprocci al problema

ToolConfronto risultati

MultiLaganCLUSTALAMAPSAGA

PASSO 2: COSTRUZIONE ALBERO GUIDA3/3

Si ottiene un albero senza radiceLa radice viene posta tramite il metodo “mid-point”La lunghezza dei rami è proporzionale alla divergenzadelle sequenze che essi rappresentano

A. Renieri, M. Tanca Tool di allineamento multiplo a confronto

Page 91: Andrea Renieri Matteo Tanca - Dipartimento di Informaticapages.di.unipi.it/pisanti/DIDATTICA/INFO07/SEMI-AllMul.pdfSCHEMA DELLA PRESENTAZIONE 1 INTRODUZIONE Definizione del problema

IntroduzioneApprocci al problema

ToolConfronto risultati

MultiLaganCLUSTALAMAPSAGA

PASSO 3: ALLINEAMENTO MULTIPLO

CLUSTAL W realizza l’allineamento multiplo tramiteallineamenti pairwise progressivi

Le coppie vengono allineate seguendo l’ordine datodall’albero a partire dalle sequenze più simili

A. Renieri, M. Tanca Tool di allineamento multiplo a confronto

Page 92: Andrea Renieri Matteo Tanca - Dipartimento di Informaticapages.di.unipi.it/pisanti/DIDATTICA/INFO07/SEMI-AllMul.pdfSCHEMA DELLA PRESENTAZIONE 1 INTRODUZIONE Definizione del problema

IntroduzioneApprocci al problema

ToolConfronto risultati

MultiLaganCLUSTALAMAPSAGA

PASSO 3: ALLINEAMENTO MULTIPLO

CLUSTAL W realizza l’allineamento multiplo tramiteallineamenti pairwise progressivi

Le coppie vengono allineate seguendo l’ordine datodall’albero a partire dalle sequenze più simili

A. Renieri, M. Tanca Tool di allineamento multiplo a confronto

Page 93: Andrea Renieri Matteo Tanca - Dipartimento di Informaticapages.di.unipi.it/pisanti/DIDATTICA/INFO07/SEMI-AllMul.pdfSCHEMA DELLA PRESENTAZIONE 1 INTRODUZIONE Definizione del problema

IntroduzioneApprocci al problema

ToolConfronto risultati

MultiLaganCLUSTALAMAPSAGA

PASSO 3: ALLINEAMENTO MULTIPLO

CLUSTAL W realizza l’allineamento multiplo tramiteallineamenti pairwise progressivi

Le coppie vengono allineate seguendo l’ordine datodall’albero a partire dalle sequenze più simili

A. Renieri, M. Tanca Tool di allineamento multiplo a confronto

Page 94: Andrea Renieri Matteo Tanca - Dipartimento di Informaticapages.di.unipi.it/pisanti/DIDATTICA/INFO07/SEMI-AllMul.pdfSCHEMA DELLA PRESENTAZIONE 1 INTRODUZIONE Definizione del problema

IntroduzioneApprocci al problema

ToolConfronto risultati

MultiLaganCLUSTALAMAPSAGA

PASSO 3: ALLINEAMENTO MULTIPLO

CLUSTAL W realizza l’allineamento multiplo tramiteallineamenti pairwise progressivi

Le coppie vengono allineate seguendo l’ordine datodall’albero a partire dalle sequenze più simili

A. Renieri, M. Tanca Tool di allineamento multiplo a confronto

Page 95: Andrea Renieri Matteo Tanca - Dipartimento di Informaticapages.di.unipi.it/pisanti/DIDATTICA/INFO07/SEMI-AllMul.pdfSCHEMA DELLA PRESENTAZIONE 1 INTRODUZIONE Definizione del problema

IntroduzioneApprocci al problema

ToolConfronto risultati

MultiLaganCLUSTALAMAPSAGA

PASSO 3: ALLINEAMENTO MULTIPLO

CLUSTAL W realizza l’allineamento multiplo tramiteallineamenti pairwise progressivi

Le coppie vengono allineate seguendo l’ordine datodall’albero a partire dalle sequenze più simili

A. Renieri, M. Tanca Tool di allineamento multiplo a confronto

Page 96: Andrea Renieri Matteo Tanca - Dipartimento di Informaticapages.di.unipi.it/pisanti/DIDATTICA/INFO07/SEMI-AllMul.pdfSCHEMA DELLA PRESENTAZIONE 1 INTRODUZIONE Definizione del problema

IntroduzioneApprocci al problema

ToolConfronto risultati

MultiLaganCLUSTALAMAPSAGA

PASSO 3: ALLINEAMENTO MULTIPLO

CLUSTAL W realizza l’allineamento multiplo tramiteallineamenti pairwise progressivi

Le coppie vengono allineate seguendo l’ordine datodall’albero a partire dalle sequenze più simili

A. Renieri, M. Tanca Tool di allineamento multiplo a confronto

Page 97: Andrea Renieri Matteo Tanca - Dipartimento di Informaticapages.di.unipi.it/pisanti/DIDATTICA/INFO07/SEMI-AllMul.pdfSCHEMA DELLA PRESENTAZIONE 1 INTRODUZIONE Definizione del problema

IntroduzioneApprocci al problema

ToolConfronto risultati

MultiLaganCLUSTALAMAPSAGA

PASSO 3: ALLINEAMENTO MULTIPLO

CLUSTAL W realizza l’allineamento multiplo tramiteallineamenti pairwise progressivi

Le coppie vengono allineate seguendo l’ordine datodall’albero a partire dalle sequenze più simili

A. Renieri, M. Tanca Tool di allineamento multiplo a confronto

Page 98: Andrea Renieri Matteo Tanca - Dipartimento di Informaticapages.di.unipi.it/pisanti/DIDATTICA/INFO07/SEMI-AllMul.pdfSCHEMA DELLA PRESENTAZIONE 1 INTRODUZIONE Definizione del problema

IntroduzioneApprocci al problema

ToolConfronto risultati

MultiLaganCLUSTALAMAPSAGA

FUNZIONE DI SCORE1/3

Alignment weightingPer dare uno score agli allineamenti vengono utilizzatematrici di score e il punteggio dato alle sequenze nell’albero

1 peeksavtal

2 geekaavlal

3 padktnvkaa

4 aadktnvkaa

5 egewqlvlhv

6 aaektkirsa

Score = M(t,v) * w1 * w5 +

M(t,i) * w1 * w6 +

M(l,v) * w2 * w5 +

M(l,i) * w2 * w6 +

M(k,v) * w3 * w5 +

M(k,i) * w3 * w6 +

M(k,v) * w4 * w5 +

M(k,i) * w4 * w6

M(x,y) è la entry nella matrice di score per l’aminoacido X vs Y

w n è lo score dato alla sequenza n

A. Renieri, M. Tanca Tool di allineamento multiplo a confronto

Page 99: Andrea Renieri Matteo Tanca - Dipartimento di Informaticapages.di.unipi.it/pisanti/DIDATTICA/INFO07/SEMI-AllMul.pdfSCHEMA DELLA PRESENTAZIONE 1 INTRODUZIONE Definizione del problema

IntroduzioneApprocci al problema

ToolConfronto risultati

MultiLaganCLUSTALAMAPSAGA

FUNZIONE DI SCORE1/3

Alignment weightingPer dare uno score agli allineamenti vengono utilizzatematrici di score e il punteggio dato alle sequenze nell’albero

1 peeksavtal

2 geekaavlal

3 padktnvkaa

4 aadktnvkaa

5 egewqlvlhv

6 aaektkirsa

Score = M(t,v) * w1 * w5 +

M(t,i) * w1 * w6 +

M(l,v) * w2 * w5 +

M(l,i) * w2 * w6 +

M(k,v) * w3 * w5 +

M(k,i) * w3 * w6 +

M(k,v) * w4 * w5 +

M(k,i) * w4 * w6

M(x,y) è la entry nella matrice di score per l’aminoacido X vs Y

w n è lo score dato alla sequenza n

A. Renieri, M. Tanca Tool di allineamento multiplo a confronto

Page 100: Andrea Renieri Matteo Tanca - Dipartimento di Informaticapages.di.unipi.it/pisanti/DIDATTICA/INFO07/SEMI-AllMul.pdfSCHEMA DELLA PRESENTAZIONE 1 INTRODUZIONE Definizione del problema

IntroduzioneApprocci al problema

ToolConfronto risultati

MultiLaganCLUSTALAMAPSAGA

FUNZIONE DI SCORE1/3

Alignment weightingPer dare uno score agli allineamenti vengono utilizzatematrici di score e il punteggio dato alle sequenze nell’albero

1 peeksavtal

2 geekaavlal

3 padktnvkaa

4 aadktnvkaa

5 egewqlvlhv

6 aaektkirsa

Score = M(t,v) * w1 * w5 +

M(t,i) * w1 * w6 +

M(l,v) * w2 * w5 +

M(l,i) * w2 * w6 +

M(k,v) * w3 * w5 +

M(k,i) * w3 * w6 +

M(k,v) * w4 * w5 +

M(k,i) * w4 * w6

M(x,y) è la entry nella matrice di score per l’aminoacido X vs Y

w n è lo score dato alla sequenza n

A. Renieri, M. Tanca Tool di allineamento multiplo a confronto

Page 101: Andrea Renieri Matteo Tanca - Dipartimento di Informaticapages.di.unipi.it/pisanti/DIDATTICA/INFO07/SEMI-AllMul.pdfSCHEMA DELLA PRESENTAZIONE 1 INTRODUZIONE Definizione del problema

IntroduzioneApprocci al problema

ToolConfronto risultati

MultiLaganCLUSTALAMAPSAGA

FUNZIONE DI SCORE1/3

Alignment weightingPer dare uno score agli allineamenti vengono utilizzatematrici di score e il punteggio dato alle sequenze nell’albero

1 peeksavtal

2 geekaavlal

3 padktnvkaa

4 aadktnvkaa

5 egewqlvlhv

6 aaektkirsa

Score = M(t,v) * w1 * w5 +

M(t,i) * w1 * w6 +

M(l,v) * w2 * w5 +

M(l,i) * w2 * w6 +

M(k,v) * w3 * w5 +

M(k,i) * w3 * w6 +

M(k,v) * w4 * w5 +

M(k,i) * w4 * w6

M(x,y) è la entry nella matrice di score per l’aminoacido X vs Y

w n è lo score dato alla sequenza n

A. Renieri, M. Tanca Tool di allineamento multiplo a confronto

Page 102: Andrea Renieri Matteo Tanca - Dipartimento di Informaticapages.di.unipi.it/pisanti/DIDATTICA/INFO07/SEMI-AllMul.pdfSCHEMA DELLA PRESENTAZIONE 1 INTRODUZIONE Definizione del problema

IntroduzioneApprocci al problema

ToolConfronto risultati

MultiLaganCLUSTALAMAPSAGA

FUNZIONE DI SCORE2/3

Ad ogni diramazione dell’albero viene dato un valore chedipende:

dalla distanza della diramazione dalla radicedalla divergenza delle sequenze che la diramazionerappresenta

A. Renieri, M. Tanca Tool di allineamento multiplo a confronto

Page 103: Andrea Renieri Matteo Tanca - Dipartimento di Informaticapages.di.unipi.it/pisanti/DIDATTICA/INFO07/SEMI-AllMul.pdfSCHEMA DELLA PRESENTAZIONE 1 INTRODUZIONE Definizione del problema

IntroduzioneApprocci al problema

ToolConfronto risultati

MultiLaganCLUSTALAMAPSAGA

FUNZIONE DI SCORE2/3

Tramite questi valori viene dato uno score ad ognisequenzaLo score è calcolato a partire dalla distanza dellasequenza dalla radice tenendo conto dei rami in comunecon altre sequenze

ESEMPIO

A. Renieri, M. Tanca Tool di allineamento multiplo a confronto

Page 104: Andrea Renieri Matteo Tanca - Dipartimento di Informaticapages.di.unipi.it/pisanti/DIDATTICA/INFO07/SEMI-AllMul.pdfSCHEMA DELLA PRESENTAZIONE 1 INTRODUZIONE Definizione del problema

IntroduzioneApprocci al problema

ToolConfronto risultati

MultiLaganCLUSTALAMAPSAGA

FUNZIONE DI SCORE3/3

Per ogni allineamento pairwise viene usato un algoritmo diprogrammazione dinamica. Vengono usate:

Matrici di score PAM o BLOSUMPenalità per gap

Alignment weightingPer dare uno score agli allineamenti vengono utilizzatematrici di score e il punteggio dato alle sequenze nell’albero

1 peeksavtal

2 geekaavlal

3 padktnvkaa

4 aadktnvkaa

5 egewqlvlhv

6 aaektkirsa

Score = M(t,v) * w1 * w5 +

M(t,i) * w1 * w6 +

M(l,v) * w2 * w5 +

M(l,i) * w2 * w6 +

M(k,v) * w3 * w5 +

M(k,i) * w3 * w6 +

M(k,v) * w4 * w5 +

M(k,i) * w4 * w6

M(x,y) è la entry nella matrice di score per l’aminoacido X vs Y

w n è lo score dato alla sequenza n

A. Renieri, M. Tanca Tool di allineamento multiplo a confronto

Page 105: Andrea Renieri Matteo Tanca - Dipartimento di Informaticapages.di.unipi.it/pisanti/DIDATTICA/INFO07/SEMI-AllMul.pdfSCHEMA DELLA PRESENTAZIONE 1 INTRODUZIONE Definizione del problema

IntroduzioneApprocci al problema

ToolConfronto risultati

MultiLaganCLUSTALAMAPSAGA

RIEPILOGOOSSERVAZIONI

L’allineamento progressivo è un approccio euristico, quindinon è detto che il metodo restituisca l’allineamento miglioreSe le sequenze sono molto simili, allora l’allineamentoprogressivo è più che ragionevoleSe le sequenze sono molto diverse l’allineamentoprogressivo diviene meno attendibileProblema del local minimum: un errore introdotto neiprimi allineamenti pairwise non può essere corretto e puòcorrompere l’allineamento multiplo

A. Renieri, M. Tanca Tool di allineamento multiplo a confronto

Page 106: Andrea Renieri Matteo Tanca - Dipartimento di Informaticapages.di.unipi.it/pisanti/DIDATTICA/INFO07/SEMI-AllMul.pdfSCHEMA DELLA PRESENTAZIONE 1 INTRODUZIONE Definizione del problema

IntroduzioneApprocci al problema

ToolConfronto risultati

MultiLaganCLUSTALAMAPSAGA

RIEPILOGOMLAGAN E CLUSTALW

MLAGANUsa algoritmi di programmazione dinamica a partire daiseedNecessita di un albero filogenetico passato comeparametroBuona funzione di scoreCerca di ovviare al local minimum

CLUSTAL WUsa algoritmi di programmazione dinamicaPer allineamento di sequenze aminoacidiche utilizza matricidi score per aminoacidiSi basa su un albero filogenetico creato autonomamenteBuona funzione di scoreNon risolve il problema del local minimum

A. Renieri, M. Tanca Tool di allineamento multiplo a confronto

Page 107: Andrea Renieri Matteo Tanca - Dipartimento di Informaticapages.di.unipi.it/pisanti/DIDATTICA/INFO07/SEMI-AllMul.pdfSCHEMA DELLA PRESENTAZIONE 1 INTRODUZIONE Definizione del problema

IntroduzioneApprocci al problema

ToolConfronto risultati

MultiLaganCLUSTALAMAPSAGA

1 INTRODUZIONE

3 TOOLMultiLaganCLUSTALAMAPSAGA

2 APPROCCI AL PROBLEMA

4 CONFRONTO RISULTATI

A. Renieri, M. Tanca Tool di allineamento multiplo a confronto

Page 108: Andrea Renieri Matteo Tanca - Dipartimento di Informaticapages.di.unipi.it/pisanti/DIDATTICA/INFO07/SEMI-AllMul.pdfSCHEMA DELLA PRESENTAZIONE 1 INTRODUZIONE Definizione del problema

IntroduzioneApprocci al problema

ToolConfronto risultati

MultiLaganCLUSTALAMAPSAGA

AMAPPROTEIN MULTIPLE ALIGNMENT BY SEQUENCE ANNEALING

La più comune metrica prestazionale per tool diallineamento multiplo è data dalla sensibilità (recall)Sensibilità: dato un insieme di sequenze di benchmark (dicui si conoscono gli allineamenti ottimi), la sensibilità è lapercentuale di posizioni omologhe correttamenteindividuate dal toolLa specificità (capacità di evitare falsi positivi) dellostrumento è però (quasi) altrettanto importante

A. Renieri, M. Tanca Tool di allineamento multiplo a confronto

Page 109: Andrea Renieri Matteo Tanca - Dipartimento di Informaticapages.di.unipi.it/pisanti/DIDATTICA/INFO07/SEMI-AllMul.pdfSCHEMA DELLA PRESENTAZIONE 1 INTRODUZIONE Definizione del problema

IntroduzioneApprocci al problema

ToolConfronto risultati

MultiLaganCLUSTALAMAPSAGA

AMAPCARATTERISTICHE GENERALI

AMAP adotta un approccio algoritmico del tipo temprasimulata, ottenendo buoni risultati tanto per sensibilità,quanto per specificitàL’allineamento non è progressivo : viene costruito unmatch alla volta!Il comportamento dell’algoritmo è probabilistico emodellato da PHMM (Pair Hidden Markov Model)

A. Renieri, M. Tanca Tool di allineamento multiplo a confronto

Page 110: Andrea Renieri Matteo Tanca - Dipartimento di Informaticapages.di.unipi.it/pisanti/DIDATTICA/INFO07/SEMI-AllMul.pdfSCHEMA DELLA PRESENTAZIONE 1 INTRODUZIONE Definizione del problema

IntroduzioneApprocci al problema

ToolConfronto risultati

MultiLaganCLUSTALAMAPSAGA

ALLINEAMENTO MULTIPLO GLOBALE PARZIALE

Un allineamento multiplo globale parziale (PGMA) disequenze σ1, σ2, . . . , σk è:

un insieme parzialmente ordinato (poset)P = {c1, c2, . . . , cm} euna funzione surgettiva ϕ : Sσ1,σ2,...,σk → P tale che:i ≤ j ⇒ ϕ(σa

i ) ≤ ϕ(σaj )

c1,c2, . . . ,cm: colonne dell’allineamento multiploσn

i : i-esima posizione della n-esima sequenzaNota: un insieme parzialmente ordinato può essererappresentato in maniera equivalente con un grafo direttoaciclico (DAG)

A. Renieri, M. Tanca Tool di allineamento multiplo a confronto

Page 111: Andrea Renieri Matteo Tanca - Dipartimento di Informaticapages.di.unipi.it/pisanti/DIDATTICA/INFO07/SEMI-AllMul.pdfSCHEMA DELLA PRESENTAZIONE 1 INTRODUZIONE Definizione del problema

IntroduzioneApprocci al problema

ToolConfronto risultati

MultiLaganCLUSTALAMAPSAGA

ALLINEAMENTO MULTIPLO GLOBALE

Un allineamento multiplo globale può essere espressoin termini di allineamenti multipli parzialiUn’estensione lineare di un insieme parzialmenteordinato P = {c1, c2, . . . , cm} è una permutazione deglielementi tale che ci < cj ⇒ i < jUn allineamento globale è un PGMA più un’estensionelineare dell’insieme P ad esso associato

A. Renieri, M. Tanca Tool di allineamento multiplo a confronto

Page 112: Andrea Renieri Matteo Tanca - Dipartimento di Informaticapages.di.unipi.it/pisanti/DIDATTICA/INFO07/SEMI-AllMul.pdfSCHEMA DELLA PRESENTAZIONE 1 INTRODUZIONE Definizione del problema

IntroduzioneApprocci al problema

ToolConfronto risultati

MultiLaganCLUSTALAMAPSAGA

ALLINEAMENTO MULTIPLO GLOBALE

ESEMPIO

N G Y E

S Y Y S

E L I G K P Q

S L K Q

A. Renieri, M. Tanca Tool di allineamento multiplo a confronto

Page 113: Andrea Renieri Matteo Tanca - Dipartimento di Informaticapages.di.unipi.it/pisanti/DIDATTICA/INFO07/SEMI-AllMul.pdfSCHEMA DELLA PRESENTAZIONE 1 INTRODUZIONE Definizione del problema

IntroduzioneApprocci al problema

ToolConfronto risultati

MultiLaganCLUSTALAMAPSAGA

ALLINEAMENTO MULTIPLO GLOBALE

ESEMPIO

N G Y E

S Y Y S

E L I G K P Q

S L K Q

φ 5

9

6

4

7

2

3

1

8

A. Renieri, M. Tanca Tool di allineamento multiplo a confronto

Page 114: Andrea Renieri Matteo Tanca - Dipartimento di Informaticapages.di.unipi.it/pisanti/DIDATTICA/INFO07/SEMI-AllMul.pdfSCHEMA DELLA PRESENTAZIONE 1 INTRODUZIONE Definizione del problema

IntroduzioneApprocci al problema

ToolConfronto risultati

MultiLaganCLUSTALAMAPSAGA

ALLINEAMENTO MULTIPLO GLOBALE

ESEMPIO

N G Y E

S Y Y S

E L I G K P Q

S L K Q

φ 5

9

6

4

7

2

3

1

8

- - N G Y E - - -

- - S Y Y S - - -

E L I G K - P - Q

S L - - - - - K Q

1 2 3 4 5 6 7 8 9

A. Renieri, M. Tanca Tool di allineamento multiplo a confronto

Page 115: Andrea Renieri Matteo Tanca - Dipartimento di Informaticapages.di.unipi.it/pisanti/DIDATTICA/INFO07/SEMI-AllMul.pdfSCHEMA DELLA PRESENTAZIONE 1 INTRODUZIONE Definizione del problema

IntroduzioneApprocci al problema

ToolConfronto risultati

MultiLaganCLUSTALAMAPSAGA

ALGORITMOINTUIZIONE

Ad ogni passo il numero di colonne dell’allineamentoparziale attuale viene ridotto di 1, operando sulle posizioniche hanno maggiore probabilità di essere omologheSi utilizzano probabilità a posteriori, che esprimono laprobabilità di un’ipotesi in seguito all’osservazione di uncerto eventoLa funzione di score è una combinazione dellaDevelopment score fD (equivalente alla SP) con unametrica (AMA) che preserva maggiormente la specificitàDue colonne sono fuse solo se il PGMA generato ha unavalutazione non peggiore del precedente

A. Renieri, M. Tanca Tool di allineamento multiplo a confronto

Page 116: Andrea Renieri Matteo Tanca - Dipartimento di Informaticapages.di.unipi.it/pisanti/DIDATTICA/INFO07/SEMI-AllMul.pdfSCHEMA DELLA PRESENTAZIONE 1 INTRODUZIONE Definizione del problema

IntroduzioneApprocci al problema

ToolConfronto risultati

MultiLaganCLUSTALAMAPSAGA

ALGORITMO

PSEUDOCODICE

ML ← MNulli ← Lwhile ∃ cMi

k , cMil : merge(cMi

k , cMil ) = M ′ and f (M ′) ≥ f (Mi) do

Mi−1 ← M ′

i ← i − 1end while

A. Renieri, M. Tanca Tool di allineamento multiplo a confronto

Page 117: Andrea Renieri Matteo Tanca - Dipartimento di Informaticapages.di.unipi.it/pisanti/DIDATTICA/INFO07/SEMI-AllMul.pdfSCHEMA DELLA PRESENTAZIONE 1 INTRODUZIONE Definizione del problema

IntroduzioneApprocci al problema

ToolConfronto risultati

MultiLaganCLUSTALAMAPSAGA

ALGORITMO

PSEUDOCODICE

ML ← MNulli ← Lwhile ∃ cMi

k , cMil : merge(cMi

k , cMil ) = M ′ and f (M ′) ≥ f (Mi) do

Mi−1 ← M ′

i ← i − 1end while

A. Renieri, M. Tanca Tool di allineamento multiplo a confronto

Page 118: Andrea Renieri Matteo Tanca - Dipartimento di Informaticapages.di.unipi.it/pisanti/DIDATTICA/INFO07/SEMI-AllMul.pdfSCHEMA DELLA PRESENTAZIONE 1 INTRODUZIONE Definizione del problema

IntroduzioneApprocci al problema

ToolConfronto risultati

MultiLaganCLUSTALAMAPSAGA

ALGORITMO

PSEUDOCODICE

ML ← MNulli ← Lwhile ∃ cMi

k , cMil : merge(cMi

k , cMil ) = M ′ and f (M ′) ≥ f (Mi) do

Mi−1 ← M ′

i ← i − 1end while

A. Renieri, M. Tanca Tool di allineamento multiplo a confronto

Page 119: Andrea Renieri Matteo Tanca - Dipartimento di Informaticapages.di.unipi.it/pisanti/DIDATTICA/INFO07/SEMI-AllMul.pdfSCHEMA DELLA PRESENTAZIONE 1 INTRODUZIONE Definizione del problema

IntroduzioneApprocci al problema

ToolConfronto risultati

MultiLaganCLUSTALAMAPSAGA

ALGORITMO

PSEUDOCODICE

ML ← MNulli ← Lwhile ∃ cMi

k , cMil : merge(cMi

k , cMil ) = M ′ and f (M ′) ≥ f (Mi) do

Mi−1 ← M ′

i ← i − 1end while

A. Renieri, M. Tanca Tool di allineamento multiplo a confronto

Page 120: Andrea Renieri Matteo Tanca - Dipartimento di Informaticapages.di.unipi.it/pisanti/DIDATTICA/INFO07/SEMI-AllMul.pdfSCHEMA DELLA PRESENTAZIONE 1 INTRODUZIONE Definizione del problema

IntroduzioneApprocci al problema

ToolConfronto risultati

MultiLaganCLUSTALAMAPSAGA

SEQUENCE ANNEALING

Sequence annealing: dato un insieme di sequenze S eduna funzione di score f , un SA è una catena di PGMA

ML ⊃ ML−1 ⊃ ML−2 ⊃ · · · ⊃ Mr tale che

Mi è associato all’insieme Pi e |Pi | = i (il numero dicolonne del PGMA di indice i è pari ad i)

f (Mi+1) ≤ f (Mi)

Mi è ottenuto da Mi+1 tramite fusione di due colonne c i+1j e

c i+1k in una c i

h

A. Renieri, M. Tanca Tool di allineamento multiplo a confronto

Page 121: Andrea Renieri Matteo Tanca - Dipartimento di Informaticapages.di.unipi.it/pisanti/DIDATTICA/INFO07/SEMI-AllMul.pdfSCHEMA DELLA PRESENTAZIONE 1 INTRODUZIONE Definizione del problema

IntroduzioneApprocci al problema

ToolConfronto risultati

MultiLaganCLUSTALAMAPSAGA

MERGEAPPROCCIO TEORICO

1 Controlla se due colonne possono essere fuse2 In caso affermativo, dopo aver effettuato la fusione,

aggiorna l’insieme parzialmente ordinato

Il problema di trovare un’estensione lineare può essererisolto in maniera efficiente risolvendo l’online topologicalordering problem sul grafo equivalenteOnline topological ordering problem: problemadell’ordinamento topologico in cui i vertici del grafocompaiono uno per volta

A. Renieri, M. Tanca Tool di allineamento multiplo a confronto

Page 122: Andrea Renieri Matteo Tanca - Dipartimento di Informaticapages.di.unipi.it/pisanti/DIDATTICA/INFO07/SEMI-AllMul.pdfSCHEMA DELLA PRESENTAZIONE 1 INTRODUZIONE Definizione del problema

IntroduzioneApprocci al problema

ToolConfronto risultati

MultiLaganCLUSTALAMAPSAGA

MERGEIMPLEMENTAZIONE PRATICA

Ad ogni coppia di colonne è assegnato un pesoLe coppie sono poste in uno heapAd ogni iterazione la coppia di peso più elevato vieneestratta dallo heap (in tempo costante)I pesi variano dinamicamente: logicamente decrescono adogni fusione, ma per ragioni di efficienza sono ricalcolatisolo al momento dell’estrazione

A. Renieri, M. Tanca Tool di allineamento multiplo a confronto

Page 123: Andrea Renieri Matteo Tanca - Dipartimento di Informaticapages.di.unipi.it/pisanti/DIDATTICA/INFO07/SEMI-AllMul.pdfSCHEMA DELLA PRESENTAZIONE 1 INTRODUZIONE Definizione del problema

IntroduzioneApprocci al problema

ToolConfronto risultati

MultiLaganCLUSTALAMAPSAGA

SEQUENCE ANNEALING

ESEMPIO

SEQ1SPGNTWKPELPKCVR-------------------------------------------------

SEQ2---------------CQANNMWGPTRLPTCVS--------------------------------

SEQ3--------------------------------IWSGKPPICEKV--------------------

SEQ4--------------------------------------------CLISGSSVQWSDPLPECREH

A. Renieri, M. Tanca Tool di allineamento multiplo a confronto

Page 124: Andrea Renieri Matteo Tanca - Dipartimento di Informaticapages.di.unipi.it/pisanti/DIDATTICA/INFO07/SEMI-AllMul.pdfSCHEMA DELLA PRESENTAZIONE 1 INTRODUZIONE Definizione del problema

IntroduzioneApprocci al problema

ToolConfronto risultati

MultiLaganCLUSTALAMAPSAGA

SEQUENCE ANNEALING

ESEMPIO

SEQ1SPGNTWKPELPKCVR-------------------------------------------------

SEQ2---------------CQANNMWGPTRLPTCVS--------------------------------

SEQ3--------------------------------IWSGKPPICEKV--------------------

SEQ4--------------------------------------------CLISGSSVQWSDPLPECREH

A. Renieri, M. Tanca Tool di allineamento multiplo a confronto

Page 125: Andrea Renieri Matteo Tanca - Dipartimento di Informaticapages.di.unipi.it/pisanti/DIDATTICA/INFO07/SEMI-AllMul.pdfSCHEMA DELLA PRESENTAZIONE 1 INTRODUZIONE Definizione del problema

IntroduzioneApprocci al problema

ToolConfronto risultati

MultiLaganCLUSTALAMAPSAGA

SEQUENCE ANNEALING

ESEMPIO

SEQ1SPGNTWKPELPK--------------CVR----------------------------------

SEQ2------------CQANNMWGPTRLPTC--VS--------------------------------

SEQ3-------------------------------IWSGKPPICEKV--------------------

SEQ4-------------------------------------------CLISGSSVQWSDPLPECREH

A. Renieri, M. Tanca Tool di allineamento multiplo a confronto

Page 126: Andrea Renieri Matteo Tanca - Dipartimento di Informaticapages.di.unipi.it/pisanti/DIDATTICA/INFO07/SEMI-AllMul.pdfSCHEMA DELLA PRESENTAZIONE 1 INTRODUZIONE Definizione del problema

IntroduzioneApprocci al problema

ToolConfronto risultati

MultiLaganCLUSTALAMAPSAGA

SEQUENCE ANNEALING

ESEMPIO

SEQ1SPGNTWKPELPK--------------CVR----------------------------------

SEQ2------------CQANNMWGPTRLPTC--VS--------------------------------

SEQ3-------------------------------IWSGKPPICEKV--------------------

SEQ4-------------------------------------------CLISGSSVQWSDPLPECREH

A. Renieri, M. Tanca Tool di allineamento multiplo a confronto

Page 127: Andrea Renieri Matteo Tanca - Dipartimento di Informaticapages.di.unipi.it/pisanti/DIDATTICA/INFO07/SEMI-AllMul.pdfSCHEMA DELLA PRESENTAZIONE 1 INTRODUZIONE Definizione del problema

IntroduzioneApprocci al problema

ToolConfronto risultati

MultiLaganCLUSTALAMAPSAGA

SEQUENCE ANNEALING

ESEMPIO

SEQ1SPGNTWKPELPK--------------CVR---------------------------------

SEQ2------------CQANNMWGPTRLPTCV-S--------------------------------

SEQ3------------------------------IWSGKPPICEKV--------------------

SEQ4------------------------------------------CLISGSSVQWSDPLPECREH

A. Renieri, M. Tanca Tool di allineamento multiplo a confronto

Page 128: Andrea Renieri Matteo Tanca - Dipartimento di Informaticapages.di.unipi.it/pisanti/DIDATTICA/INFO07/SEMI-AllMul.pdfSCHEMA DELLA PRESENTAZIONE 1 INTRODUZIONE Definizione del problema

IntroduzioneApprocci al problema

ToolConfronto risultati

MultiLaganCLUSTALAMAPSAGA

SEQUENCE ANNEALING

ESEMPIO

SEQ1SPGNTWKPELPK--------------CVR--------------------------------

SEQ2------------CQANNMWGPTRLPTCVS--------------------------------

SEQ3-----------------------------IWSGKPPICEKV--------------------

SEQ4-----------------------------------------CLISGSSVQWSDPLPECREH

A. Renieri, M. Tanca Tool di allineamento multiplo a confronto

Page 129: Andrea Renieri Matteo Tanca - Dipartimento di Informaticapages.di.unipi.it/pisanti/DIDATTICA/INFO07/SEMI-AllMul.pdfSCHEMA DELLA PRESENTAZIONE 1 INTRODUZIONE Definizione del problema

IntroduzioneApprocci al problema

ToolConfronto risultati

MultiLaganCLUSTALAMAPSAGA

SEQUENCE ANNEALING

ESEMPIO

SEQ1SPGNTWKPELPK--------------CVR-------------------------------

SEQ2------------CQANNMWGPTRLPTCVS-------------------------------

SEQ3-----------------------------IWSGKPPI----------------CEKV---

SEQ4-------------------------------------CLISGSSVQWSDPLPEC---REH

A. Renieri, M. Tanca Tool di allineamento multiplo a confronto

Page 130: Andrea Renieri Matteo Tanca - Dipartimento di Informaticapages.di.unipi.it/pisanti/DIDATTICA/INFO07/SEMI-AllMul.pdfSCHEMA DELLA PRESENTAZIONE 1 INTRODUZIONE Definizione del problema

IntroduzioneApprocci al problema

ToolConfronto risultati

MultiLaganCLUSTALAMAPSAGA

SEQUENCE ANNEALING

ESEMPIO

SEQ1SPGNTWKPELPK--------------CVR------------------------------

SEQ2------------CQANNMWGPTRLPTCVS------------------------------

SEQ3-----------------------------IWSGKPPI----------------CEK--V

SEQ4-------------------------------------CLISGSSVQWSDPLPEC--REH

A. Renieri, M. Tanca Tool di allineamento multiplo a confronto

Page 131: Andrea Renieri Matteo Tanca - Dipartimento di Informaticapages.di.unipi.it/pisanti/DIDATTICA/INFO07/SEMI-AllMul.pdfSCHEMA DELLA PRESENTAZIONE 1 INTRODUZIONE Definizione del problema

IntroduzioneApprocci al problema

ToolConfronto risultati

MultiLaganCLUSTALAMAPSAGA

SEQUENCE ANNEALING

ESEMPIO

SEQ1SPGNTWKPELPK--------------CVR-----------------------------

SEQ2------------CQANNMWGPTRLPTCVS-----------------------------

SEQ3-----------------------------IWSGKPPI----------------CE-KV

SEQ4-------------------------------------CLISGSSVQWSDPLPEC-REH

A. Renieri, M. Tanca Tool di allineamento multiplo a confronto

Page 132: Andrea Renieri Matteo Tanca - Dipartimento di Informaticapages.di.unipi.it/pisanti/DIDATTICA/INFO07/SEMI-AllMul.pdfSCHEMA DELLA PRESENTAZIONE 1 INTRODUZIONE Definizione del problema

IntroduzioneApprocci al problema

ToolConfronto risultati

MultiLaganCLUSTALAMAPSAGA

SEQUENCE ANNEALING

ESEMPIO

SEQ1SPGNTWKPELPK--------------CVR----------------------------

SEQ2------------CQANNMWGPTRLPTCVS----------------------------

SEQ3-----------------------------IWSGKPPI----------------CEKV

SEQ4-------------------------------------CLISGSSVQWSDPLPECREH

A. Renieri, M. Tanca Tool di allineamento multiplo a confronto

Page 133: Andrea Renieri Matteo Tanca - Dipartimento di Informaticapages.di.unipi.it/pisanti/DIDATTICA/INFO07/SEMI-AllMul.pdfSCHEMA DELLA PRESENTAZIONE 1 INTRODUZIONE Definizione del problema

IntroduzioneApprocci al problema

ToolConfronto risultati

MultiLaganCLUSTALAMAPSAGA

SEQUENCE ANNEALING

ESEMPIO

SEQ1SPGNTWKPE----------------------------------LPKCVR------

SEQ2-----------CQANNMWGPTRLP---------------------TCVS------

SEQ3----------------------------IWSGKPPI---------------CEKV

SEQ4---------CL-------------ISGS--------SVQWSDPL-----PECREH

A. Renieri, M. Tanca Tool di allineamento multiplo a confronto

Page 134: Andrea Renieri Matteo Tanca - Dipartimento di Informaticapages.di.unipi.it/pisanti/DIDATTICA/INFO07/SEMI-AllMul.pdfSCHEMA DELLA PRESENTAZIONE 1 INTRODUZIONE Definizione del problema

IntroduzioneApprocci al problema

ToolConfronto risultati

MultiLaganCLUSTALAMAPSAGA

SEQUENCE ANNEALING

ESEMPIO

SEQ1SPGNTWKPE----------------------------------LPKCVR-----

SEQ2-----------CQANNMWGPTRLP---------------------TCVS-----

SEQ3----------------------------IWSGKPPI--------------CEKV

SEQ4---------CL-------------ISGS--------SVQWSDPLP----ECREH

A. Renieri, M. Tanca Tool di allineamento multiplo a confronto

Page 135: Andrea Renieri Matteo Tanca - Dipartimento di Informaticapages.di.unipi.it/pisanti/DIDATTICA/INFO07/SEMI-AllMul.pdfSCHEMA DELLA PRESENTAZIONE 1 INTRODUZIONE Definizione del problema

IntroduzioneApprocci al problema

ToolConfronto risultati

MultiLaganCLUSTALAMAPSAGA

SEQUENCE ANNEALING

ESEMPIO

SEQ1SPGNTWKPE---------------------------------LPKCVR-----

SEQ2-----------CQANNMWGPTRLP--------------------TCVS-----

SEQ3----------------------------IWSGKPP-------------ICEKV

SEQ4---------CL-------------ISGS-------SVQWSDPLP----ECREH

A. Renieri, M. Tanca Tool di allineamento multiplo a confronto

Page 136: Andrea Renieri Matteo Tanca - Dipartimento di Informaticapages.di.unipi.it/pisanti/DIDATTICA/INFO07/SEMI-AllMul.pdfSCHEMA DELLA PRESENTAZIONE 1 INTRODUZIONE Definizione del problema

IntroduzioneApprocci al problema

ToolConfronto risultati

MultiLaganCLUSTALAMAPSAGA

SEQUENCE ANNEALING

ESEMPIO

SEQ1SPGNTWKPE--------------------------------LPKCVR-----

SEQ2-----------CQANNMWGPTRLP-------------------TCVS-----

SEQ3----------------------------IWSGKP--------P----ICEKV

SEQ4---------CL-------------ISGS------SVQWSDPLP----ECREH

A. Renieri, M. Tanca Tool di allineamento multiplo a confronto

Page 137: Andrea Renieri Matteo Tanca - Dipartimento di Informaticapages.di.unipi.it/pisanti/DIDATTICA/INFO07/SEMI-AllMul.pdfSCHEMA DELLA PRESENTAZIONE 1 INTRODUZIONE Definizione del problema

IntroduzioneApprocci al problema

ToolConfronto risultati

MultiLaganCLUSTALAMAPSAGA

SEQUENCE ANNEALING

ESEMPIO

SEQ1SPGNTWKP-------------------------------ELPKCVR-----

SEQ2----------CQANNMWGPTRLP-------------------TCVS-----

SEQ3---------------------------IWSGKP--------P----ICEKV

SEQ4--------CL-------------ISGS------SVQWSDPLP----ECREH

A. Renieri, M. Tanca Tool di allineamento multiplo a confronto

Page 138: Andrea Renieri Matteo Tanca - Dipartimento di Informaticapages.di.unipi.it/pisanti/DIDATTICA/INFO07/SEMI-AllMul.pdfSCHEMA DELLA PRESENTAZIONE 1 INTRODUZIONE Definizione del problema

IntroduzioneApprocci al problema

ToolConfronto risultati

MultiLaganCLUSTALAMAPSAGA

SEQUENCE ANNEALING

ESEMPIO

SEQ1SPGNTWK------------------------------PELPKCVR-----

SEQ2---------CQANNMWGPTRLP-------------------TCVS-----

SEQ3--------------------------IWSGKP--------P----ICEKV

SEQ4-------CL-------------ISGS------SVQWSDPLP----ECREH

A. Renieri, M. Tanca Tool di allineamento multiplo a confronto

Page 139: Andrea Renieri Matteo Tanca - Dipartimento di Informaticapages.di.unipi.it/pisanti/DIDATTICA/INFO07/SEMI-AllMul.pdfSCHEMA DELLA PRESENTAZIONE 1 INTRODUZIONE Definizione del problema

IntroduzioneApprocci al problema

ToolConfronto risultati

MultiLaganCLUSTALAMAPSAGA

SEQUENCE ANNEALING

ESEMPIO

SEQ1SPGNTW-----------------------------KPELPKCVR-----

SEQ2--------CQANNMWGPTRLP-------------------TCVS-----

SEQ3-------------------------IWSGKP--------P----ICEKV

SEQ4------CL-------------ISGS------SVQWSDPLP----ECREH

A. Renieri, M. Tanca Tool di allineamento multiplo a confronto

Page 140: Andrea Renieri Matteo Tanca - Dipartimento di Informaticapages.di.unipi.it/pisanti/DIDATTICA/INFO07/SEMI-AllMul.pdfSCHEMA DELLA PRESENTAZIONE 1 INTRODUZIONE Definizione del problema

IntroduzioneApprocci al problema

ToolConfronto risultati

MultiLaganCLUSTALAMAPSAGA

SEQUENCE ANNEALING

ESEMPIO

SEQ1SPGNT----------------------------WKPELPKCVR-----

SEQ2-------CQANNMWGPTRLP-------------------TCVS-----

SEQ3------------------------IWSGKP--------P----ICEKV

SEQ4-----CL-------------ISGS------SVQWSDPLP----ECREH

A. Renieri, M. Tanca Tool di allineamento multiplo a confronto

Page 141: Andrea Renieri Matteo Tanca - Dipartimento di Informaticapages.di.unipi.it/pisanti/DIDATTICA/INFO07/SEMI-AllMul.pdfSCHEMA DELLA PRESENTAZIONE 1 INTRODUZIONE Definizione del problema

IntroduzioneApprocci al problema

ToolConfronto risultati

MultiLaganCLUSTALAMAPSAGA

SEQUENCE ANNEALING

ESEMPIO

SEQ1SPGNT-----------------------W----KPELPKCVR-----

SEQ2-------CQANNMWGPTRLP------------------TCVS-----

SEQ3------------------------I---WSGKP----P----ICEKV

SEQ4-----CL-------------ISGS-SVQW----SDPLP----ECREH

A. Renieri, M. Tanca Tool di allineamento multiplo a confronto

Page 142: Andrea Renieri Matteo Tanca - Dipartimento di Informaticapages.di.unipi.it/pisanti/DIDATTICA/INFO07/SEMI-AllMul.pdfSCHEMA DELLA PRESENTAZIONE 1 INTRODUZIONE Definizione del problema

IntroduzioneApprocci al problema

ToolConfronto risultati

MultiLaganCLUSTALAMAPSAGA

SEQUENCE ANNEALING

ESEMPIO

SEQ1SPGNT-----------------------W--KPE-LPKCVR-----

SEQ2-------CQANNMWGPTRLP-----------------TCVS-----

SEQ3------------------------I---WSG--KP-P----ICEKV

SEQ4-----CL-------------ISGS-SVQW--SDP-LP----ECREH

A. Renieri, M. Tanca Tool di allineamento multiplo a confronto

Page 143: Andrea Renieri Matteo Tanca - Dipartimento di Informaticapages.di.unipi.it/pisanti/DIDATTICA/INFO07/SEMI-AllMul.pdfSCHEMA DELLA PRESENTAZIONE 1 INTRODUZIONE Definizione del problema

IntroduzioneApprocci al problema

ToolConfronto risultati

MultiLaganCLUSTALAMAPSAGA

SEQUENCE ANNEALING

ESEMPIO

SEQ1SPGNT-----------------------W--KPELPKCVR-----

SEQ2-------CQANNMWGPTRLP----------------TCVS-----

SEQ3------------------------I---WSG--KPP----ICEKV

SEQ4-----CL-------------ISGS-SVQW--SDPLP----ECREH

A. Renieri, M. Tanca Tool di allineamento multiplo a confronto

Page 144: Andrea Renieri Matteo Tanca - Dipartimento di Informaticapages.di.unipi.it/pisanti/DIDATTICA/INFO07/SEMI-AllMul.pdfSCHEMA DELLA PRESENTAZIONE 1 INTRODUZIONE Definizione del problema

IntroduzioneApprocci al problema

ToolConfronto risultati

MultiLaganCLUSTALAMAPSAGA

SEQUENCE ANNEALING

ESEMPIO

SEQ1SPGNT-----------------------WK-PELPKCVR-----

SEQ2-------CQANNMWGPTRLP---------------TCVS-----

SEQ3------------------------I---WSG-KPP----ICEKV

SEQ4-----CL-------------ISGS-SVQWS-DPLP----ECREH

A. Renieri, M. Tanca Tool di allineamento multiplo a confronto

Page 145: Andrea Renieri Matteo Tanca - Dipartimento di Informaticapages.di.unipi.it/pisanti/DIDATTICA/INFO07/SEMI-AllMul.pdfSCHEMA DELLA PRESENTAZIONE 1 INTRODUZIONE Definizione del problema

IntroduzioneApprocci al problema

ToolConfronto risultati

MultiLaganCLUSTALAMAPSAGA

SEQUENCE ANNEALING

ESEMPIO

SEQ1SPGNT-----------------------WKPELPKCVR-----

SEQ2-------CQANNMWGPTRLP--------------TCVS-----

SEQ3------------------------I---WSGKPP----ICEKV

SEQ4-----CL-------------ISGS-SVQWSDPLP----ECREH

A. Renieri, M. Tanca Tool di allineamento multiplo a confronto

Page 146: Andrea Renieri Matteo Tanca - Dipartimento di Informaticapages.di.unipi.it/pisanti/DIDATTICA/INFO07/SEMI-AllMul.pdfSCHEMA DELLA PRESENTAZIONE 1 INTRODUZIONE Definizione del problema

IntroduzioneApprocci al problema

ToolConfronto risultati

MultiLaganCLUSTALAMAPSAGA

SEQUENCE ANNEALING

ESEMPIO

SEQ1SPGNT-----------------------WKPELPK-CVR---

SEQ2-------CQANNMWGPTRLP--------------T-CVS---

SEQ3------------------------I---WSGKPP-IC--EKV

SEQ4-----CL-------------ISGS-SVQWSDPLP-EC--REH

A. Renieri, M. Tanca Tool di allineamento multiplo a confronto

Page 147: Andrea Renieri Matteo Tanca - Dipartimento di Informaticapages.di.unipi.it/pisanti/DIDATTICA/INFO07/SEMI-AllMul.pdfSCHEMA DELLA PRESENTAZIONE 1 INTRODUZIONE Definizione del problema

IntroduzioneApprocci al problema

ToolConfronto risultati

MultiLaganCLUSTALAMAPSAGA

SEQUENCE ANNEALING

ESEMPIO

SEQ1SPG------NT----------------WKPELPK-CVR---

SEQ2---CQ--ANN-MWGPTRLP--------------T-CVS---

SEQ3-----------------------I---WSGKPP-IC--EKV

SEQ4-----CL------------ISGS-SVQWSDPLP-EC--REH

A. Renieri, M. Tanca Tool di allineamento multiplo a confronto

Page 148: Andrea Renieri Matteo Tanca - Dipartimento di Informaticapages.di.unipi.it/pisanti/DIDATTICA/INFO07/SEMI-AllMul.pdfSCHEMA DELLA PRESENTAZIONE 1 INTRODUZIONE Definizione del problema

IntroduzioneApprocci al problema

ToolConfronto risultati

MultiLaganCLUSTALAMAPSAGA

SEQUENCE ANNEALING

ESEMPIO

SEQ1SPG------NT----------------WKPELPKCVR---

SEQ2---CQ--ANN-MWGPTRLP--------------TCVS---

SEQ3-----------------------I---WSGKPPIC--EKV

SEQ4-----CL------------ISGS-SVQWSDPLPEC--REH

A. Renieri, M. Tanca Tool di allineamento multiplo a confronto

Page 149: Andrea Renieri Matteo Tanca - Dipartimento di Informaticapages.di.unipi.it/pisanti/DIDATTICA/INFO07/SEMI-AllMul.pdfSCHEMA DELLA PRESENTAZIONE 1 INTRODUZIONE Definizione del problema

IntroduzioneApprocci al problema

ToolConfronto risultati

MultiLaganCLUSTALAMAPSAGA

SEQUENCE ANNEALING

ESEMPIO

SEQ1SPG------NT---------------WKPELPKCVR---

SEQ2---CQ--ANN-MWGPTRL-------------PTCVS---

SEQ3----------------------I---WSGKPPIC--EKV

SEQ4-----CL-----------ISGS-SVQWSDPLPEC--REH

A. Renieri, M. Tanca Tool di allineamento multiplo a confronto

Page 150: Andrea Renieri Matteo Tanca - Dipartimento di Informaticapages.di.unipi.it/pisanti/DIDATTICA/INFO07/SEMI-AllMul.pdfSCHEMA DELLA PRESENTAZIONE 1 INTRODUZIONE Definizione del problema

IntroduzioneApprocci al problema

ToolConfronto risultati

MultiLaganCLUSTALAMAPSAGA

SEQUENCE ANNEALING

ESEMPIO

SEQ1SPG------NT--------------WKPELPKCVR---

SEQ2---CQ--ANNMWGPTRL-------------PTCVS---

SEQ3---------------------I---WSGKPPIC--EKV

SEQ4-----CL----------ISGS-SVQWSDPLPEC--REH

A. Renieri, M. Tanca Tool di allineamento multiplo a confronto

Page 151: Andrea Renieri Matteo Tanca - Dipartimento di Informaticapages.di.unipi.it/pisanti/DIDATTICA/INFO07/SEMI-AllMul.pdfSCHEMA DELLA PRESENTAZIONE 1 INTRODUZIONE Definizione del problema

IntroduzioneApprocci al problema

ToolConfronto risultati

MultiLaganCLUSTALAMAPSAGA

SEQUENCE ANNEALING

ESEMPIO

SEQ1SP-----GNT--------------WKPELPKCVR---

SEQ2--CQ--ANNMWGPTRL-------------PTCVS---

SEQ3--------------------I---WSGKPPIC--EKV

SEQ4----CL----------ISGS-SVQWSDPLPEC--REH

A. Renieri, M. Tanca Tool di allineamento multiplo a confronto

Page 152: Andrea Renieri Matteo Tanca - Dipartimento di Informaticapages.di.unipi.it/pisanti/DIDATTICA/INFO07/SEMI-AllMul.pdfSCHEMA DELLA PRESENTAZIONE 1 INTRODUZIONE Definizione del problema

IntroduzioneApprocci al problema

ToolConfronto risultati

MultiLaganCLUSTALAMAPSAGA

SEQUENCE ANNEALING

ESEMPIO

SEQ1S----PGNT--------------WKPELPKCVR---

SEQ2-CQ--ANNMWGPTRL-------------PTCVS---

SEQ3-------------------I---WSGKPPIC--EKV

SEQ4---CL----------ISGS-SVQWSDPLPEC--REH

A. Renieri, M. Tanca Tool di allineamento multiplo a confronto

Page 153: Andrea Renieri Matteo Tanca - Dipartimento di Informaticapages.di.unipi.it/pisanti/DIDATTICA/INFO07/SEMI-AllMul.pdfSCHEMA DELLA PRESENTAZIONE 1 INTRODUZIONE Definizione del problema

IntroduzioneApprocci al problema

ToolConfronto risultati

MultiLaganCLUSTALAMAPSAGA

SEQUENCE ANNEALING

ESEMPIO

SEQ1-S--PGNT--------------WKPELPKCVR---

SEQ2CQ--ANNMWGPTRL-------------PTCVS---

SEQ3------------------I---WSGKPPIC--EKV

SEQ4--CL----------ISGS-SVQWSDPLPEC--REH

A. Renieri, M. Tanca Tool di allineamento multiplo a confronto

Page 154: Andrea Renieri Matteo Tanca - Dipartimento di Informaticapages.di.unipi.it/pisanti/DIDATTICA/INFO07/SEMI-AllMul.pdfSCHEMA DELLA PRESENTAZIONE 1 INTRODUZIONE Definizione del problema

IntroduzioneApprocci al problema

ToolConfronto risultati

MultiLaganCLUSTALAMAPSAGA

SEQUENCE ANNEALING

ESEMPIO

SEQ1-S--PGNT-------------WKPELPKCVR---

SEQ2CQ--ANNMWGPTR------------LPTCVS---

SEQ3-----------------I---WSGKPPIC--EKV

SEQ4--CL---------ISGS-SVQWSDPLPEC--REH

A. Renieri, M. Tanca Tool di allineamento multiplo a confronto

Page 155: Andrea Renieri Matteo Tanca - Dipartimento di Informaticapages.di.unipi.it/pisanti/DIDATTICA/INFO07/SEMI-AllMul.pdfSCHEMA DELLA PRESENTAZIONE 1 INTRODUZIONE Definizione del problema

IntroduzioneApprocci al problema

ToolConfronto risultati

MultiLaganCLUSTALAMAPSAGA

SEQUENCE ANNEALING

ESEMPIO

SEQ1-S--PGNT--------W----KPELPKCVR---

SEQ2CQ--ANNM--------WGPTR---LPTCVS---

SEQ3------------I---W----SGKPPIC--EKV

SEQ4--CL----ISGS-SVQW----SDPLPEC--REH

A. Renieri, M. Tanca Tool di allineamento multiplo a confronto

Page 156: Andrea Renieri Matteo Tanca - Dipartimento di Informaticapages.di.unipi.it/pisanti/DIDATTICA/INFO07/SEMI-AllMul.pdfSCHEMA DELLA PRESENTAZIONE 1 INTRODUZIONE Definizione del problema

IntroduzioneApprocci al problema

ToolConfronto risultati

MultiLaganCLUSTALAMAPSAGA

SEQUENCE ANNEALING

ESEMPIO

SEQ1-S--PGN----T---W----KPELPKCVR---

SEQ2CQ--ANN----M---WGPTR---LPTCVS---

SEQ3-----------I---W----SGKPPIC--EKV

SEQ4--CL---ISGS-SVQW----SDPLPEC--REH

A. Renieri, M. Tanca Tool di allineamento multiplo a confronto

Page 157: Andrea Renieri Matteo Tanca - Dipartimento di Informaticapages.di.unipi.it/pisanti/DIDATTICA/INFO07/SEMI-AllMul.pdfSCHEMA DELLA PRESENTAZIONE 1 INTRODUZIONE Definizione del problema

IntroduzioneApprocci al problema

ToolConfronto risultati

MultiLaganCLUSTALAMAPSAGA

SEQUENCE ANNEALING

ESEMPIO

SEQ1-S--PGN----T---W----KPELPKCVR--

SEQ2CQ--ANN----M---WGPTR---LPTCVS--

SEQ3-----------I---W----SGKPPICE-KV

SEQ4--CL---ISGS-SVQW----SDPLPECR-EH

A. Renieri, M. Tanca Tool di allineamento multiplo a confronto

Page 158: Andrea Renieri Matteo Tanca - Dipartimento di Informaticapages.di.unipi.it/pisanti/DIDATTICA/INFO07/SEMI-AllMul.pdfSCHEMA DELLA PRESENTAZIONE 1 INTRODUZIONE Definizione del problema

IntroduzioneApprocci al problema

ToolConfronto risultati

MultiLaganCLUSTALAMAPSAGA

SEQUENCE ANNEALING

ESEMPIO

SEQ1-S--PGN----T---W----KPELPKCVR-

SEQ2CQ--ANN----M---WGPTR---LPTCVS-

SEQ3-----------I---W----SGKPPICEKV

SEQ4--CL---ISGS-SVQW----SDPLPECREH

A. Renieri, M. Tanca Tool di allineamento multiplo a confronto

Page 159: Andrea Renieri Matteo Tanca - Dipartimento di Informaticapages.di.unipi.it/pisanti/DIDATTICA/INFO07/SEMI-AllMul.pdfSCHEMA DELLA PRESENTAZIONE 1 INTRODUZIONE Definizione del problema

IntroduzioneApprocci al problema

ToolConfronto risultati

MultiLaganCLUSTALAMAPSAGA

SEQUENCE ANNEALING

ESEMPIO

SEQ1-S--PGN------TW----KPELPKCVR-

SEQ2CQ--ANN------MWGPTR---LPTCVS-

SEQ3-------------IW----SGKPPICEKV

SEQ4--CL---ISGSSVQW----SDPLPECREH

A. Renieri, M. Tanca Tool di allineamento multiplo a confronto

Page 160: Andrea Renieri Matteo Tanca - Dipartimento di Informaticapages.di.unipi.it/pisanti/DIDATTICA/INFO07/SEMI-AllMul.pdfSCHEMA DELLA PRESENTAZIONE 1 INTRODUZIONE Definizione del problema

IntroduzioneApprocci al problema

ToolConfronto risultati

MultiLaganCLUSTALAMAPSAGA

SEQUENCE ANNEALING

ESEMPIO

SEQ1-S--PGN------TWK---PELPKCVR-

SEQ2CQ--ANN------MWGPTR--LPTCVS-

SEQ3-------------IWS---GKPPICEKV

SEQ4--CL---ISGSSVQWS---DPLPECREH

A. Renieri, M. Tanca Tool di allineamento multiplo a confronto

Page 161: Andrea Renieri Matteo Tanca - Dipartimento di Informaticapages.di.unipi.it/pisanti/DIDATTICA/INFO07/SEMI-AllMul.pdfSCHEMA DELLA PRESENTAZIONE 1 INTRODUZIONE Definizione del problema

IntroduzioneApprocci al problema

ToolConfronto risultati

MultiLaganCLUSTALAMAPSAGA

SEQUENCE ANNEALING

ESEMPIO

SEQ1-S-PGN------TWK---PELPKCVR-

SEQ2CQ-ANN------MWGPTR--LPTCVS-

SEQ3------------IWS---GKPPICEKV

SEQ4C-L---ISGSSVQWS---DPLPECREH

A. Renieri, M. Tanca Tool di allineamento multiplo a confronto

Page 162: Andrea Renieri Matteo Tanca - Dipartimento di Informaticapages.di.unipi.it/pisanti/DIDATTICA/INFO07/SEMI-AllMul.pdfSCHEMA DELLA PRESENTAZIONE 1 INTRODUZIONE Definizione del problema

IntroduzioneApprocci al problema

ToolConfronto risultati

MultiLaganCLUSTALAMAPSAGA

SEQUENCE ANNEALING

ESEMPIO

SEQ1-S-PGN------TWKP--ELPKCVR-

SEQ2CQ-ANN------MWGPTR-LPTCVS-

SEQ3------------IWSG--KPPICEKV

SEQ4C-L---ISGSSVQWSD--PLPECREH

A. Renieri, M. Tanca Tool di allineamento multiplo a confronto

Page 163: Andrea Renieri Matteo Tanca - Dipartimento di Informaticapages.di.unipi.it/pisanti/DIDATTICA/INFO07/SEMI-AllMul.pdfSCHEMA DELLA PRESENTAZIONE 1 INTRODUZIONE Definizione del problema

IntroduzioneApprocci al problema

ToolConfronto risultati

MultiLaganCLUSTALAMAPSAGA

SEQUENCE ANNEALING

ESEMPIO

SEQ1-S-PGN------TWKP-ELPKCVR-

SEQ2CQ-ANN------MWGPTRLPTCVS-

SEQ3------------IWSG-KPPICEKV

SEQ4C-L---ISGSSVQWSD-PLPECREH

A. Renieri, M. Tanca Tool di allineamento multiplo a confronto

Page 164: Andrea Renieri Matteo Tanca - Dipartimento di Informaticapages.di.unipi.it/pisanti/DIDATTICA/INFO07/SEMI-AllMul.pdfSCHEMA DELLA PRESENTAZIONE 1 INTRODUZIONE Definizione del problema

IntroduzioneApprocci al problema

ToolConfronto risultati

MultiLaganCLUSTALAMAPSAGA

SEQUENCE ANNEALING

ESEMPIO

SEQ1-S-PG-----NTWKP-ELPKCVR-

SEQ2CQ-AN-----NMWGPTRLPTCVS-

SEQ3-----------IWSG-KPPICEKV

SEQ4C-L--ISGSSVQWSD-PLPECREH

A. Renieri, M. Tanca Tool di allineamento multiplo a confronto

Page 165: Andrea Renieri Matteo Tanca - Dipartimento di Informaticapages.di.unipi.it/pisanti/DIDATTICA/INFO07/SEMI-AllMul.pdfSCHEMA DELLA PRESENTAZIONE 1 INTRODUZIONE Definizione del problema

IntroduzioneApprocci al problema

ToolConfronto risultati

MultiLaganCLUSTALAMAPSAGA

SEQUENCE ANNEALING

ESEMPIO

SEQ1-S-P----GNTWKP-ELPKCVR-

SEQ2CQ-A----NNMWGPTRLPTCVS-

SEQ3----------IWSG-KPPICEKV

SEQ4C-L-ISGSSVQWSD-PLPECREH

A. Renieri, M. Tanca Tool di allineamento multiplo a confronto

Page 166: Andrea Renieri Matteo Tanca - Dipartimento di Informaticapages.di.unipi.it/pisanti/DIDATTICA/INFO07/SEMI-AllMul.pdfSCHEMA DELLA PRESENTAZIONE 1 INTRODUZIONE Definizione del problema

IntroduzioneApprocci al problema

ToolConfronto risultati

MultiLaganCLUSTALAMAPSAGA

SEQUENCE ANNEALING

ESEMPIO

SEQ1-S----PGNTWKP-ELPKCVR-

SEQ2CQ----ANNMWGPTRLPTCVS-

SEQ3---------IWSG-KPPICEKV

SEQ4C-LISGSSVQWSD-PLPECREH

A. Renieri, M. Tanca Tool di allineamento multiplo a confronto

Page 167: Andrea Renieri Matteo Tanca - Dipartimento di Informaticapages.di.unipi.it/pisanti/DIDATTICA/INFO07/SEMI-AllMul.pdfSCHEMA DELLA PRESENTAZIONE 1 INTRODUZIONE Definizione del problema

IntroduzioneApprocci al problema

ToolConfronto risultati

MultiLaganCLUSTALAMAPSAGA

SEQUENCE ANNEALING

ESEMPIO

SEQ1----SPGNTWKP-ELPKCVR-

SEQ2C---QANNMWGPTRLPTCVS-

SEQ3--------IWSG-KPPICEKV

SEQ4CLISGSSVQWSD-PLPECREH

A. Renieri, M. Tanca Tool di allineamento multiplo a confronto

Page 168: Andrea Renieri Matteo Tanca - Dipartimento di Informaticapages.di.unipi.it/pisanti/DIDATTICA/INFO07/SEMI-AllMul.pdfSCHEMA DELLA PRESENTAZIONE 1 INTRODUZIONE Definizione del problema

IntroduzioneApprocci al problema

ToolConfronto risultati

MultiLaganCLUSTALAMAPSAGA

FUNZIONI DI SCORE

AMA (Alignment Metric Accuracy): somma, su tutte lecoppie di sequenze, delle frazioni di residui correttamenteallineatiUn valore elevato dell’AMA indica un’alta specificitàdell’allineamento prodottoDevelopment score fD: somma dei punteggi diallineamento coppia a coppia sui simboli di una datacolonnaUn valore elevato della funzione fD indica un’alta sensibilitàdel risultato

A. Renieri, M. Tanca Tool di allineamento multiplo a confronto

Page 169: Andrea Renieri Matteo Tanca - Dipartimento di Informaticapages.di.unipi.it/pisanti/DIDATTICA/INFO07/SEMI-AllMul.pdfSCHEMA DELLA PRESENTAZIONE 1 INTRODUZIONE Definizione del problema

IntroduzioneApprocci al problema

ToolConfronto risultati

MultiLaganCLUSTALAMAPSAGA

FUNZIONI DI SCORE

AMA (Alignment Metric Accuracy): somma, su tutte lecoppie di sequenze, delle frazioni di residui correttamenteallineatiUn valore elevato dell’AMA indica un’alta specificitàdell’allineamento prodottoDevelopment score fD: somma dei punteggi diallineamento coppia a coppia sui simboli di una datacolonnaUn valore elevato della funzione fD indica un’alta sensibilitàdel risultato

A. Renieri, M. Tanca Tool di allineamento multiplo a confronto

Page 170: Andrea Renieri Matteo Tanca - Dipartimento di Informaticapages.di.unipi.it/pisanti/DIDATTICA/INFO07/SEMI-AllMul.pdfSCHEMA DELLA PRESENTAZIONE 1 INTRODUZIONE Definizione del problema

IntroduzioneApprocci al problema

ToolConfronto risultati

MultiLaganCLUSTALAMAPSAGA

FUNZIONI DI SCORE

AMA (Alignment Metric Accuracy): somma, su tutte lecoppie di sequenze, delle frazioni di residui correttamenteallineatiUn valore elevato dell’AMA indica un’alta specificitàdell’allineamento prodottoDevelopment score fD: somma dei punteggi diallineamento coppia a coppia sui simboli di una datacolonnaUn valore elevato della funzione fD indica un’alta sensibilitàdel risultato

A. Renieri, M. Tanca Tool di allineamento multiplo a confronto

Page 171: Andrea Renieri Matteo Tanca - Dipartimento di Informaticapages.di.unipi.it/pisanti/DIDATTICA/INFO07/SEMI-AllMul.pdfSCHEMA DELLA PRESENTAZIONE 1 INTRODUZIONE Definizione del problema

IntroduzioneApprocci al problema

ToolConfronto risultati

MultiLaganCLUSTALAMAPSAGA

FUNZIONI DI SCOREVALORE ATTESO

Sarebbe auspicabile massimizzare entrambe le funzioni discore ad ogni passoL’obiettivo è difficilmente realizzabileCi si accontenta di massimizzare le medie delle duefunzioniA seconda della fase dell’algoritmo, sarà privilegiata l’unao l’altraTipicamente gli allineamenti migliori sono ottenuti partendocon valori di sensibilità ridotti (a favore di un’elevataspecificità), per poi massimizzarla nelle fasi finali

A. Renieri, M. Tanca Tool di allineamento multiplo a confronto

Page 172: Andrea Renieri Matteo Tanca - Dipartimento di Informaticapages.di.unipi.it/pisanti/DIDATTICA/INFO07/SEMI-AllMul.pdfSCHEMA DELLA PRESENTAZIONE 1 INTRODUZIONE Definizione del problema

IntroduzioneApprocci al problema

ToolConfronto risultati

MultiLaganCLUSTALAMAPSAGA

FUNZIONE OBIETTIVO

Famiglia di funzioni, parametriche rispetto al fattore di gapGf, calcolate mediante probabilità a posterioriIl valore di Gf influenza la qualità dell’allineamentoprodotto:

Gf = 0⇒ sensibilità massima (massimizza lo score fD)Gf = 0.5⇒ massimizza la media AMAGf > 0.5⇒ sensibilità fortemente ridotta a favore di unaelevata specificità

Diverse istanze della famiglia sono usate nelle varie fasidell’algoritmo

A. Renieri, M. Tanca Tool di allineamento multiplo a confronto

Page 173: Andrea Renieri Matteo Tanca - Dipartimento di Informaticapages.di.unipi.it/pisanti/DIDATTICA/INFO07/SEMI-AllMul.pdfSCHEMA DELLA PRESENTAZIONE 1 INTRODUZIONE Definizione del problema

IntroduzioneApprocci al problema

ToolConfronto risultati

MultiLaganCLUSTALAMAPSAGA

PROBABILITÀ A POSTERIORI

Ricavate dal modello Pair Hidden Markov ModelPMatch(σq

i , σtj ): probabilità che l’i-esimo carattere della

q-esima sequenza sia allineato col j-esimo carattere dellat-esima sequenzaPMatch(σq

i ,−t): probabilità che l’i-esimo carattere della

q-esima sequenza sia allineato con uno spazio dellat-esima sequenzaI pesi associati alle coppie di colonne sono calcolatidinamicamente in base a:

probabilità a posteriorifattore di gap (ridotto progressivamente durantel’esecuzione)

A. Renieri, M. Tanca Tool di allineamento multiplo a confronto

Page 174: Andrea Renieri Matteo Tanca - Dipartimento di Informaticapages.di.unipi.it/pisanti/DIDATTICA/INFO07/SEMI-AllMul.pdfSCHEMA DELLA PRESENTAZIONE 1 INTRODUZIONE Definizione del problema

IntroduzioneApprocci al problema

ToolConfronto risultati

MultiLaganCLUSTALAMAPSAGA

1 INTRODUZIONE

3 TOOLMultiLaganCLUSTALAMAPSAGA

2 APPROCCI AL PROBLEMA

4 CONFRONTO RISULTATI

A. Renieri, M. Tanca Tool di allineamento multiplo a confronto

Page 175: Andrea Renieri Matteo Tanca - Dipartimento di Informaticapages.di.unipi.it/pisanti/DIDATTICA/INFO07/SEMI-AllMul.pdfSCHEMA DELLA PRESENTAZIONE 1 INTRODUZIONE Definizione del problema

IntroduzioneApprocci al problema

ToolConfronto risultati

MultiLaganCLUSTALAMAPSAGA

SAGASAGA (SEQUENCE ALIGNMENT BY GENETIC ALGORITHM)

Inizialmente si crea una popolazione di allineamenti (G0) inmaniera casualeLa dimensione della popolazione sarà mantenuta costanteper l’intera evoluzioneAd ogni iterazione la generazione attuale si evolve nellasuccessiva: i nuovi individui derivano da un singolo“genitore” (mutazione) o da una coppia (ricombinazione)Un individuo ha un numero di figli proporzionale alla bontàdella sua funzione obiettivoSe dopo un certo numero di iterazioni la funzione obiettivonon ha subito variazioni significative (popolazione stabile)l’algoritmo termina

A. Renieri, M. Tanca Tool di allineamento multiplo a confronto

Page 176: Andrea Renieri Matteo Tanca - Dipartimento di Informaticapages.di.unipi.it/pisanti/DIDATTICA/INFO07/SEMI-AllMul.pdfSCHEMA DELLA PRESENTAZIONE 1 INTRODUZIONE Definizione del problema

IntroduzioneApprocci al problema

ToolConfronto risultati

MultiLaganCLUSTALAMAPSAGA

FUNZIONE OBIETTIVO

La scelta della funzione obiettivo è cruciale: l’algoritmoprocede fino a raggiungere una popolazione che contengaallineamenti al di sotto di un certo costoGli autori propongono l’utilizzo di due funzioni:

1 WSP (Weighted Sum of Pairs): funzione SP “pesata”rispetto alla similarità fra coppie di sequenze

2 Affine gap penalties: determina il costo dei gap

Il costo dell’allineamento è dato da una combinazionelineare delle due

A. Renieri, M. Tanca Tool di allineamento multiplo a confronto

Page 177: Andrea Renieri Matteo Tanca - Dipartimento di Informaticapages.di.unipi.it/pisanti/DIDATTICA/INFO07/SEMI-AllMul.pdfSCHEMA DELLA PRESENTAZIONE 1 INTRODUZIONE Definizione del problema

IntroduzioneApprocci al problema

ToolConfronto risultati

MultiLaganCLUSTALAMAPSAGA

SCHEMA GENERALE

A10

A20

A30

An0

An-10

A. Renieri, M. Tanca Tool di allineamento multiplo a confronto

Page 178: Andrea Renieri Matteo Tanca - Dipartimento di Informaticapages.di.unipi.it/pisanti/DIDATTICA/INFO07/SEMI-AllMul.pdfSCHEMA DELLA PRESENTAZIONE 1 INTRODUZIONE Definizione del problema

IntroduzioneApprocci al problema

ToolConfronto risultati

MultiLaganCLUSTALAMAPSAGA

SCHEMA GENERALE

A10

A20

A30

An0

An-10

Valutazione

A. Renieri, M. Tanca Tool di allineamento multiplo a confronto

Page 179: Andrea Renieri Matteo Tanca - Dipartimento di Informaticapages.di.unipi.it/pisanti/DIDATTICA/INFO07/SEMI-AllMul.pdfSCHEMA DELLA PRESENTAZIONE 1 INTRODUZIONE Definizione del problema

IntroduzioneApprocci al problema

ToolConfronto risultati

MultiLaganCLUSTALAMAPSAGA

SCHEMA GENERALE

A10

A20

A30

An0

An-10

Valutazione

Popolazione stabile?

A. Renieri, M. Tanca Tool di allineamento multiplo a confronto

Page 180: Andrea Renieri Matteo Tanca - Dipartimento di Informaticapages.di.unipi.it/pisanti/DIDATTICA/INFO07/SEMI-AllMul.pdfSCHEMA DELLA PRESENTAZIONE 1 INTRODUZIONE Definizione del problema

IntroduzioneApprocci al problema

ToolConfronto risultati

MultiLaganCLUSTALAMAPSAGA

SCHEMA GENERALE

A10

A20

A30

An0

An-10

Valutazione

Popolazione stabile? SI

STOP

A. Renieri, M. Tanca Tool di allineamento multiplo a confronto

Page 181: Andrea Renieri Matteo Tanca - Dipartimento di Informaticapages.di.unipi.it/pisanti/DIDATTICA/INFO07/SEMI-AllMul.pdfSCHEMA DELLA PRESENTAZIONE 1 INTRODUZIONE Definizione del problema

IntroduzioneApprocci al problema

ToolConfronto risultati

MultiLaganCLUSTALAMAPSAGA

SCHEMA GENERALE

A10

A20

A30

An0

An-10

Valutazione

Popolazione stabile?NO

Riproduzione

A. Renieri, M. Tanca Tool di allineamento multiplo a confronto

Page 182: Andrea Renieri Matteo Tanca - Dipartimento di Informaticapages.di.unipi.it/pisanti/DIDATTICA/INFO07/SEMI-AllMul.pdfSCHEMA DELLA PRESENTAZIONE 1 INTRODUZIONE Definizione del problema

IntroduzioneApprocci al problema

ToolConfronto risultati

MultiLaganCLUSTALAMAPSAGA

RIPRODUZIONE

Overlapping generation: ad ogni passo solo unapercentuale limitata della popolazione viene rimpiazzata(50%)La scelta degli individui da rimpiazzare avvienegratuitamente durante la valutazione dello score: gli N/2allineamenti di costo più elevato sono destinati allasostituzioneExpected Offspring (EO): tasso di riproduzione di unindividuo, utilizzato per una selezione probabilistica dei“genitori”: se un individuo viene selezionato il suo EO èdiminuito per l’intero turno di riproduzione

A. Renieri, M. Tanca Tool di allineamento multiplo a confronto

Page 183: Andrea Renieri Matteo Tanca - Dipartimento di Informaticapages.di.unipi.it/pisanti/DIDATTICA/INFO07/SEMI-AllMul.pdfSCHEMA DELLA PRESENTAZIONE 1 INTRODUZIONE Definizione del problema

IntroduzioneApprocci al problema

ToolConfronto risultati

MultiLaganCLUSTALAMAPSAGA

OPERATORI

In SAGA gli operatori naturali di mutazione e ricombinazionesono implementati tramite:

Crossover: one-point, uniformGap insertionBlock shufflingBlock searchingLocal optimal rearrangements

A. Renieri, M. Tanca Tool di allineamento multiplo a confronto

Page 184: Andrea Renieri Matteo Tanca - Dipartimento di Informaticapages.di.unipi.it/pisanti/DIDATTICA/INFO07/SEMI-AllMul.pdfSCHEMA DELLA PRESENTAZIONE 1 INTRODUZIONE Definizione del problema

IntroduzioneApprocci al problema

ToolConfronto risultati

MultiLaganCLUSTALAMAPSAGA

OPERATORI

In SAGA gli operatori naturali di mutazione e ricombinazionesono implementati tramite:

Crossover: one-point, uniformGap insertionBlock shufflingBlock searchingLocal optimal rearrangements

A. Renieri, M. Tanca Tool di allineamento multiplo a confronto

Page 185: Andrea Renieri Matteo Tanca - Dipartimento di Informaticapages.di.unipi.it/pisanti/DIDATTICA/INFO07/SEMI-AllMul.pdfSCHEMA DELLA PRESENTAZIONE 1 INTRODUZIONE Definizione del problema

IntroduzioneApprocci al problema

ToolConfronto risultati

MultiLaganCLUSTALAMAPSAGA

OPERATORI

In SAGA gli operatori naturali di mutazione e ricombinazionesono implementati tramite:

Crossover: one-point, uniformGap insertionBlock shufflingBlock searchingLocal optimal rearrangements

A. Renieri, M. Tanca Tool di allineamento multiplo a confronto

Page 186: Andrea Renieri Matteo Tanca - Dipartimento di Informaticapages.di.unipi.it/pisanti/DIDATTICA/INFO07/SEMI-AllMul.pdfSCHEMA DELLA PRESENTAZIONE 1 INTRODUZIONE Definizione del problema

IntroduzioneApprocci al problema

ToolConfronto risultati

MultiLaganCLUSTALAMAPSAGA

CROSSOVER (RICOMBINAZIONE)

One point crossover: ricombina due allineamenti medianteun singolo scambio. Vengono prodotti due nuoviallineamenti (quello con lo score peggiore viene eliminato)Uniform crossover: meno distruttivo del precedente,promuove scambi fra zone di omologia. I blocchi dascambiare sono scelti fra posizioni consistentiConsistenza: dati due allineamenti, due posizioni sonoconsistenti se e solo se contengono in ogni riga ilmedesimo residuo

A. Renieri, M. Tanca Tool di allineamento multiplo a confronto

Page 187: Andrea Renieri Matteo Tanca - Dipartimento di Informaticapages.di.unipi.it/pisanti/DIDATTICA/INFO07/SEMI-AllMul.pdfSCHEMA DELLA PRESENTAZIONE 1 INTRODUZIONE Definizione del problema

IntroduzioneApprocci al problema

ToolConfronto risultati

MultiLaganCLUSTALAMAPSAGA

CROSSOVER

ESEMPIO

--WGKWNVDEVG-GEALWD--KVNEEEVQ-CEALWGKVGA-HAGEYGAEALWSKVGGHAGE-YGHEAL

WGKVN---VDEVGEAL-WGKVNEEE---VGEAL-WGKVG--ANAGEYGEALWG-VGGHA--GEYGAE-

A. Renieri, M. Tanca Tool di allineamento multiplo a confronto

Page 188: Andrea Renieri Matteo Tanca - Dipartimento di Informaticapages.di.unipi.it/pisanti/DIDATTICA/INFO07/SEMI-AllMul.pdfSCHEMA DELLA PRESENTAZIONE 1 INTRODUZIONE Definizione del problema

IntroduzioneApprocci al problema

ToolConfronto risultati

MultiLaganCLUSTALAMAPSAGA

CROSSOVER

ESEMPIO

--WGKWNVDEVG-GEALWD--KVNEEEVQ-CEALWGKVGA-HAGEYGAEALWSKVGGHAGE-YGHEAL

WGKVN---VDEVGEAL-WGKVNEEE---VGEAL-WGKVG--ANAGEYGEALWG-VGGHA--GEYGAE-

A. Renieri, M. Tanca Tool di allineamento multiplo a confronto

Page 189: Andrea Renieri Matteo Tanca - Dipartimento di Informaticapages.di.unipi.it/pisanti/DIDATTICA/INFO07/SEMI-AllMul.pdfSCHEMA DELLA PRESENTAZIONE 1 INTRODUZIONE Definizione del problema

IntroduzioneApprocci al problema

ToolConfronto risultati

MultiLaganCLUSTALAMAPSAGA

CROSSOVER

ESEMPIO

--WGKWNVDEVG-GEALWD--KVNEEEVQ-CEALWGKVGA-HAGEYGAEALWSKVGGHAGE-YGHEAL

WGKVN---VDEVGEAL-WGKVNEEE---VGEAL-WGKVG--ANAGEYGEALWG-VGGHA--GEYGAE-

A. Renieri, M. Tanca Tool di allineamento multiplo a confronto

Page 190: Andrea Renieri Matteo Tanca - Dipartimento di Informaticapages.di.unipi.it/pisanti/DIDATTICA/INFO07/SEMI-AllMul.pdfSCHEMA DELLA PRESENTAZIONE 1 INTRODUZIONE Definizione del problema

IntroduzioneApprocci al problema

ToolConfronto risultati

MultiLaganCLUSTALAMAPSAGA

CROSSOVER

ESEMPIO

--WGKWNVDEVG-GEALWD--KVNEEEVQ-CEALWGKVGA-HAGEYGAEALWSKVGGHAGE-YGHEAL

WGKVN---VDEVGEAL-WGKVNEEE---VGEAL-WGKVG--ANAGEYGEALWG-VGGHA--GEYGAE-

--WGKVN---VDEVGEAL-WD--KVNEEE---VGEAL-WGK--VG--ANAGEYGEALWSK---GGHA--GEYGAE-

A. Renieri, M. Tanca Tool di allineamento multiplo a confronto

Page 191: Andrea Renieri Matteo Tanca - Dipartimento di Informaticapages.di.unipi.it/pisanti/DIDATTICA/INFO07/SEMI-AllMul.pdfSCHEMA DELLA PRESENTAZIONE 1 INTRODUZIONE Definizione del problema

IntroduzioneApprocci al problema

ToolConfronto risultati

MultiLaganCLUSTALAMAPSAGA

CROSSOVER

ESEMPIO

--WGKWNVDEVG-GEALWD--KVNEEEVQ-CEALWGKVGA-HAGEYGAEALWSKVGGHAGE-YGHEAL

WGKVN---VDEVGEAL-WGKVNEEE---VGEAL-WGKVG--ANAGEYGEALWG-VGGHA--GEYGAE-

--WGKVN---VDEVGEAL-WD--KVNEEE---VGEAL-WGK--VG--ANAGEYGEALWSK---GGHA--GEYGAE-

WGK---WNVDEVG-GEALWGK---VNEEEVQ-CEALWGK-VGA-HAGEYGAEALWG-VVGGHAGE-YGHEAL

A. Renieri, M. Tanca Tool di allineamento multiplo a confronto

Page 192: Andrea Renieri Matteo Tanca - Dipartimento di Informaticapages.di.unipi.it/pisanti/DIDATTICA/INFO07/SEMI-AllMul.pdfSCHEMA DELLA PRESENTAZIONE 1 INTRODUZIONE Definizione del problema

IntroduzioneApprocci al problema

ToolConfronto risultati

MultiLaganCLUSTALAMAPSAGA

CROSSOVER

ESEMPIO

--WGKWNVDEVG-GEALWD--KVNEEEVQ-CEALWGKVGA-HAGEYGAEALWSKVGGHAGE-YGHEAL

WGKVN---VDEVGEAL-WGKVNEEE---VGEAL-WGKVG--ANAGEYGEALWG-VGGHA--GEYGAE-

--WGKVN---VDEVGEAL-WD--KVNEEE---VGEAL-WGK--VG--ANAGEYGEALWSK---GGHA--GEYGAE-

WGK---WNVDEVG-GEALWGK---VNEEEVQ-CEALWGK-VGA-HAGEYGAEALWG-VVGGHAGE-YGHEAL

A. Renieri, M. Tanca Tool di allineamento multiplo a confronto

Page 193: Andrea Renieri Matteo Tanca - Dipartimento di Informaticapages.di.unipi.it/pisanti/DIDATTICA/INFO07/SEMI-AllMul.pdfSCHEMA DELLA PRESENTAZIONE 1 INTRODUZIONE Definizione del problema

IntroduzioneApprocci al problema

ToolConfronto risultati

MultiLaganCLUSTALAMAPSAGA

SCHEDULAZIONE DINAMICA DEGLI OPERATORI

Ad ogni iterazione l’algoritmo sceglie l’operatore dautilizzare in maniera probabilisticaInizialmente gli operatori sono equiprobabiliLe probabilità iniziali (non necessariamente ottimali) sonomodificate dinamicamente durante l’esecuzioneLa probabilità associata all’operatore op è proporzionaleall’efficienza nelle ultime 10 generazioni (miglioramentodella qualità degli allineamenti prodotti tramite op)La probabilità associata ad un operatore resta in ogni casostrettamente maggiore di zero (per evitarne la scomparsa)

A. Renieri, M. Tanca Tool di allineamento multiplo a confronto

Page 194: Andrea Renieri Matteo Tanca - Dipartimento di Informaticapages.di.unipi.it/pisanti/DIDATTICA/INFO07/SEMI-AllMul.pdfSCHEMA DELLA PRESENTAZIONE 1 INTRODUZIONE Definizione del problema

IntroduzioneApprocci al problema

ToolConfronto risultati

MultiLaganCLUSTALAMAPSAGA

SCHEMA GENERALE

A11

A20

A30

An0

An-10

Valutazione Riproduzione

A. Renieri, M. Tanca Tool di allineamento multiplo a confronto

Page 195: Andrea Renieri Matteo Tanca - Dipartimento di Informaticapages.di.unipi.it/pisanti/DIDATTICA/INFO07/SEMI-AllMul.pdfSCHEMA DELLA PRESENTAZIONE 1 INTRODUZIONE Definizione del problema

IntroduzioneApprocci al problema

ToolConfronto risultati

MultiLaganCLUSTALAMAPSAGA

SCHEMA GENERALE

A11

A21

A30

An0

An-10

Valutazione Riproduzione

A. Renieri, M. Tanca Tool di allineamento multiplo a confronto

Page 196: Andrea Renieri Matteo Tanca - Dipartimento di Informaticapages.di.unipi.it/pisanti/DIDATTICA/INFO07/SEMI-AllMul.pdfSCHEMA DELLA PRESENTAZIONE 1 INTRODUZIONE Definizione del problema

IntroduzioneApprocci al problema

ToolConfronto risultati

MultiLaganCLUSTALAMAPSAGA

SCHEMA GENERALE

A11

A21

A31

An0

An-10

Valutazione Riproduzione

A. Renieri, M. Tanca Tool di allineamento multiplo a confronto

Page 197: Andrea Renieri Matteo Tanca - Dipartimento di Informaticapages.di.unipi.it/pisanti/DIDATTICA/INFO07/SEMI-AllMul.pdfSCHEMA DELLA PRESENTAZIONE 1 INTRODUZIONE Definizione del problema

IntroduzioneApprocci al problema

ToolConfronto risultati

MultiLaganCLUSTALAMAPSAGA

SCHEMA GENERALE

A11

A21

A31

An0

An-11

Valutazione Riproduzione

A. Renieri, M. Tanca Tool di allineamento multiplo a confronto

Page 198: Andrea Renieri Matteo Tanca - Dipartimento di Informaticapages.di.unipi.it/pisanti/DIDATTICA/INFO07/SEMI-AllMul.pdfSCHEMA DELLA PRESENTAZIONE 1 INTRODUZIONE Definizione del problema

IntroduzioneApprocci al problema

ToolConfronto risultati

MultiLaganCLUSTALAMAPSAGA

SCHEMA GENERALE

A11

A21

A31

An1

An-11

Valutazione Riproduzione

A. Renieri, M. Tanca Tool di allineamento multiplo a confronto

Page 199: Andrea Renieri Matteo Tanca - Dipartimento di Informaticapages.di.unipi.it/pisanti/DIDATTICA/INFO07/SEMI-AllMul.pdfSCHEMA DELLA PRESENTAZIONE 1 INTRODUZIONE Definizione del problema

IntroduzioneApprocci al problema

ToolConfronto risultati

MultiLaganCLUSTALAMAPSAGA

SCHEMA GENERALE

A11

A21

A31

An1

An-11

ValutazionePopolazione stabile?

A. Renieri, M. Tanca Tool di allineamento multiplo a confronto

Page 200: Andrea Renieri Matteo Tanca - Dipartimento di Informaticapages.di.unipi.it/pisanti/DIDATTICA/INFO07/SEMI-AllMul.pdfSCHEMA DELLA PRESENTAZIONE 1 INTRODUZIONE Definizione del problema

IntroduzioneApprocci al problema

ToolConfronto risultati

TestRisultati sperimentali

1 INTRODUZIONE

3 TOOL

2 APPROCCI AL PROBLEMA

4 CONFRONTO RISULTATITestRisultati sperimentali

A. Renieri, M. Tanca Tool di allineamento multiplo a confronto

Page 201: Andrea Renieri Matteo Tanca - Dipartimento di Informaticapages.di.unipi.it/pisanti/DIDATTICA/INFO07/SEMI-AllMul.pdfSCHEMA DELLA PRESENTAZIONE 1 INTRODUZIONE Definizione del problema

IntroduzioneApprocci al problema

ToolConfronto risultati

TestRisultati sperimentali

1 INTRODUZIONE

3 TOOL

2 APPROCCI AL PROBLEMA

4 CONFRONTO RISULTATITestRisultati sperimentali

A. Renieri, M. Tanca Tool di allineamento multiplo a confronto

Page 202: Andrea Renieri Matteo Tanca - Dipartimento di Informaticapages.di.unipi.it/pisanti/DIDATTICA/INFO07/SEMI-AllMul.pdfSCHEMA DELLA PRESENTAZIONE 1 INTRODUZIONE Definizione del problema

IntroduzioneApprocci al problema

ToolConfronto risultati

TestRisultati sperimentali

RISULTATIAMAP

Twilight-FP(209) Superfamilies-FP(425)

Tool fD AMA fD AMA Tempo

CLUSTALW 20.4 35.5 50.9 37.0 1.7 sec

DIALIGN 17.0 74.1 46.7 71.5 5.7 sec

ProbCons 26.8 55.6 56.0 55.0 28.5 sec

T-Coffee 13.0 56.5 42.5 56.6 61.2 sec

AMAPsens 27.3 68.3 56.1 63.8 13.5 sec

AMAP 19.2 84.4 46.4 84.2 11.2 sec

A. Renieri, M. Tanca Tool di allineamento multiplo a confronto

Page 203: Andrea Renieri Matteo Tanca - Dipartimento di Informaticapages.di.unipi.it/pisanti/DIDATTICA/INFO07/SEMI-AllMul.pdfSCHEMA DELLA PRESENTAZIONE 1 INTRODUZIONE Definizione del problema

IntroduzioneApprocci al problema

ToolConfronto risultati

TestRisultati sperimentali

RISULTATISAGA VS CLUSTALW

CLUSTAL W

Proteina # seq Lunghezza Score % ALLIN. Tempo

Igb 32 144 31.812.824 55,86 60 sec

Ac-Protease2 10 186 10.514.101 41,02 16 sec

S-Protease2 12 281 16.354.800 64,37 21 sec

Globin2 12 171 5.249.682 94,90 18 sec

SAGA

Proteina # seq Lunghezza Score % ALLIN. Tempo

Igb 32 144 31.417.736 55,97 41.135 sec

Ac-Protease2 10 186 10.393.145 43,50 12.236 sec

S-Protease2 12 281 16.282.179 66,18 20.537 sec

Globin2 12 171 5.233.058 94,01 2.538 sec

A. Renieri, M. Tanca Tool di allineamento multiplo a confronto

Page 204: Andrea Renieri Matteo Tanca - Dipartimento di Informaticapages.di.unipi.it/pisanti/DIDATTICA/INFO07/SEMI-AllMul.pdfSCHEMA DELLA PRESENTAZIONE 1 INTRODUZIONE Definizione del problema

IntroduzioneApprocci al problema

ToolConfronto risultati

TestRisultati sperimentali

BIBLIOGRAFIA I

Christopher Lee et al.: Multiple sequence alignmentusing partial order graphsBioinformatics, 2002Chuong B. Do et al.: ProbCons: Probabilisticconsistency-based multiple sequence alignmentGenome Research, 2005Michael Brudno et al.: Lagan and Multi-Lagan: EfficientTools for Large-Scale Multiple Alignment of GenomicDNAGenome Research, 2003

A. Renieri, M. Tanca Tool di allineamento multiplo a confronto

Page 205: Andrea Renieri Matteo Tanca - Dipartimento di Informaticapages.di.unipi.it/pisanti/DIDATTICA/INFO07/SEMI-AllMul.pdfSCHEMA DELLA PRESENTAZIONE 1 INTRODUZIONE Definizione del problema

IntroduzioneApprocci al problema

ToolConfronto risultati

TestRisultati sperimentali

BIBLIOGRAFIA II

Michael Brudno et al.: The CHAOS/DIALIGN WWWserver for multiple alignment of genomic sequencesNucleic Acids Research, 2004Julie D.Thompson et al.: CLUSTALW: improving thesensitivity of progressive multiple sequence alignmentthrough sequence weighting, position-specific gappenalties and weight matrix choiceNucleic Acids Research, 1994Julie D. Thompson et al.: The CLUSTALX windowsinterface: flexible strategies for multiple sequencealignment aided by quality analysis toolsNucleic Acids Research, 1997

A. Renieri, M. Tanca Tool di allineamento multiplo a confronto

Page 206: Andrea Renieri Matteo Tanca - Dipartimento di Informaticapages.di.unipi.it/pisanti/DIDATTICA/INFO07/SEMI-AllMul.pdfSCHEMA DELLA PRESENTAZIONE 1 INTRODUZIONE Definizione del problema

IntroduzioneApprocci al problema

ToolConfronto risultati

TestRisultati sperimentali

BIBLIOGRAFIA III

Ramu Chenna et al.: Multiple sequence alignment withthe Clustal series of programsNucleic Acids Research, 2003

Ariel S. Schwartz, Lior Pachter: Multiple alignment bysequence annealingBioinformatics, 2006

Cédric Notredame, Desmond G. Higgins: SAGA:sequence alignment by genetic algorithmNucleic acid Research, 1996

A. Renieri, M. Tanca Tool di allineamento multiplo a confronto