Lezione 6 - Unifem.docente.unife.it/silvia.fuselli/dispense-corsi/6... · 2011-04-05 · Lezione 6...
Transcript of Lezione 6 - Unifem.docente.unife.it/silvia.fuselli/dispense-corsi/6... · 2011-04-05 · Lezione 6...
Lezione 6Lezione 6
Confronti fra sequenze: distanze, Confronti fra sequenze: distanze,
allineamenti
Distanze fra sequenze
Per N siti ed n differenze:Per N siti ed n differenze:
grado di divergenza = n/N
AATGAAAGAA 10 siti; 3 differenze
ACTGGAGGAA divergenza = 0.3 o 30%ACTGGAGGAA divergenza = 0.3 o 30%
Distanze fra sequenze
Complichiamo lo scenario: correggiamo per Complichiamo lo scenario: correggiamo per
“multiple hits”
I modelli di Jukes e Cantor, Kimura, TamuraI modelli di Jukes e Cantor, Kimura, Tamura
e Nei etc. possono essere usati oltre che per
prevedere l’evolversi di una sequenza, anche
per valutare la distanza fra due sequenze per valutare la distanza fra due sequenze
originatesi da una divergenza
Distanze fra sequenze: non coding sites
Modello di Jukes e Cantor (1969)
d: numero di sostituzioni per sito dal
momento della divergenzamomento della divergenza
p: proporzione osservata di siti differenti p: proporzione osservata di siti differenti
tra due sequenze (JC)
Distanze fra sequenze:
non coding sites
Modello di Kimura 2 parametri (1980)
d: numero di sostituzioni per sito dal d d: numero di sostituzioni per sito dal
momento della divergenza
(se P e Q sono uguali si torna
d
(se P e Q sono uguali si torna
all’equazione di JC)
Distanze fra sequenze:
non coding sites
Esempio: rRNA 12s mtDNA
Da Yang “computational molecular evolution” Oxford University Press 2006
Esempio:
JC69Distanze fra sequenze:
non coding sitesEsempio:
rRNA 12s mtDNA K2P80
N= (179+219+291+169) + (30+2+0+23+1+0+1+2+21+10) = 948
p= (30+2+0+23+1+0+1+2+21+10)/948= 90/948= 0.0949
P = transiz = (30+23+21+10)/948 =84/948=0.088
Q= trasv= (2+1+1+2)/948 = 6/948 = 0.0063JC69 : d = 0.1015K2P80: d = 0.1038
La differenza è minima
Da Yang “computational molecular evolution”
Aumentiamo la divergenza:
JC69Distanze fra sequenze:
non coding sitesAumentiamo la divergenza:
N= 948K2P80
p= 500/948 = 0.527
P = transiz = 400/948 = 0.4219P = transiz = 400/948 = 0.4219
Q= trasv= 100/948 = 0.1055
JC69 : d = 0.91JC69 : d = 0.91K2P80: d = 1.55
La differenza tra le due stime aumenta all’aumentare della La differenza tra le due stime aumenta all’aumentare della divergenza
Se c’è un alto livello di divergenza e, soprattutto, se ci sono motivi a priori di
pensare che il tasso di transizione differisca da quello di trasversione è meglio pensare che il tasso di transizione differisca da quello di trasversione è meglio
considerare modelli più complessi di Jukes and Cantor
Distanze fra sequenze:
coding sites
Calcolare il numero di Calcolare il numero di
sostituzioni tra due sequenze
codificanti proteine è più
complesso perché è complesso perché è
necessario distinguere tra
sostituzioni sinonime e non sostituzioni sinonime e non
sinonime
Distanze fra sequenze:
coding sites
Seq1Ser Thr Glu Met Cys Leu
Non
Sin
Seq1
Seq2
Ser Thr Glu Met Cys LeuTCA ACT GAG ATG TGT TTA↕ ↕ ↕ ↕
TCG ACA GAG ATA TGT CTASer Thr Glu Ile Cys LeuSer Thr Glu Ile Cys Leu
Basta contare?
NO:
Sin Sin Sin
NO:
Problemi con il Problemi con il
denominatore
Distanze fra sequenze:
coding sites
Perché non basta contare?
sinonimo
Non sinonimoNon sinonimo
1. La classificazione dei siti
cambia nel tempocambia nel tempo
Distanze fra sequenze:
coding sites
Perché non basta contare?
SinonimoNon sinonimoNon sinonimo
2. Alcuni siti non sono solo 2. Alcuni siti non sono solo
sinonimi o solo non sinonimi,
dipende da come mutano
Distanze fra sequenze:
coding sites
Seq1Ser Thr Glu Met Cys Leu
Non
Sin
Seq1
Seq2
Ser Thr Glu Met Cys LeuTCA ACT GAG ATG TGT TTA↕ ↕ ↕ ↕
TCG ACA GAG ATA TGT CTASer Thr Glu Ile Cys LeuSer Thr Glu Ile Cys Leu
Basta contare?
NO:
Sin Sin Sin
NO:
Problemi con il Problemi con il
numeratore
Distanze fra sequenze:
coding sites
Problemi col numeratore:
1. Quando due codoni omologhi differiscono per due o più sostituzioni l’ordine delle 1. Quando due codoni omologhi differiscono per due o più sostituzioni l’ordine delle
sostituzioni deve essere conosciuto per classificare il sito come sinonimo o non
sinonimo.
Esempio: CCC nella sequenza 1 e CAA nella sequenza 2
La classificazione dei siti dipende dall’ordine in cui le sostituzioni sono avvenuteLa classificazione dei siti dipende dall’ordine in cui le sostituzioni sono avvenute
Percorso I:
CCC (Pro) ↔ CCA (Pro) ↔ CAA (Gln)
1 sinonimo e 1 non sinonimo
Percorso II:Percorso II:
CCC (Pro) ↔ CAC (His) ↔ CAA (Gln)
2 non sinonimi2 non sinonimi
Distanze fra sequenze:
coding sites
Problemi col numeratore:Problemi col numeratore:
2. Transizoni e trasversioni hanno
frequenza diversafrequenza diversa
3. Il tipo di sostituzione dipende dalla3. Il tipo di sostituzione dipende dalla
mutazione: Le transizioni danno più
spesso mutazioni sinonime rispetto alle
trasversionitrasversioni
Distanze fra sequenze:
coding sites Basta contare?
NO: possibili soluzioni
Metodi di Miyata &
Yasunaga (1980) e Nei &
Gojobori (1986)Gojobori (1986)
1. Consideriamo una posizione specifica in un codon. Se i è il numero di possibili 1. Consideriamo una posizione specifica in un codon. Se i è il numero di possibili
cambiamenti sinonimi a quel sito allora lo conteremo come i/3 sinonimo e (3 – i)/3 non
sinonimo.
Distanze fra sequenze:
coding sites
Metodi di Miyata & Yasunaga (1980) e Nei & Gojobori (1986)
1. Consideriamo una posizione specifica in un codon. Se i è il numero di possibili 1. Consideriamo una posizione specifica in un codon. Se i è il numero di possibili
cambiamenti sinonimi a quel sito allora lo conteremo come i/3 sinonimo e (3 –
i)/3 non sinonimo.
2. Contiamo il numero di siti sinonimi e non sinonimi in ogni sequenza e
calcoliamo la media tra le due sequenze. Il numero medio si siti sinonimi è NS e calcoliamo la media tra le due sequenze. Il numero medio si siti sinonimi è NS e
quello di non sinonimi è NA.
3. Classifichiamo le differenze in sinonime e non sinonime3. Classifichiamo le differenze in sinonime e non sinonime
per due codon con 1 differenza è semplice
GTC (Val) GTT (Val) > sinonimoGTC (Val) GTT (Val) > sinonimo
GTC (Val) GCC (Ala) > non sinonimo
per più di una differenza: considerare i diversi percorsiper più di una differenza: considerare i diversi percorsi
Distanze fra sequenze:
coding sites
Metodi di Miyata & Yasunaga (1980) e Nei & Gojobori (1986)
3. Classifichiamo le differenze in sinonime e non sinonime3. Classifichiamo le differenze in sinonime e non sinonime
per più di una differenza: considerare i diversi percorsi (in che ordine sono
avvenute le mutazioni?)avvenute le mutazioni?)
Percorso I: CCC (Pro) ↔ CCA (Pro) ↔ CAA (Gln) 1 sinonimo e 1 non sinonimo
Percorso II: CCC (Pro) ↔ CAC (His) ↔ CAA (Gln) 2 non sinonimi
Approccio non pesato:
Tutto è equiprobabile
Nei and Gojobori
Approccio pesato
Utilizza criteri che aiutano a decidere quali dei due
percorsi sia più probabileNei and Gojobori
Ma=differenze non sin: (1+2)/2 = 1.5
Ms=differenze sinonime: (1+0)/2 = 0.5
percorsi sia più probabile
Percorso II meno probabile (sin più frequenti di non sin)
Ma= differenze non sin: (0.9*1) + (0.1*2) = 1.1Ms=differenze sinonime: (1+0)/2 = 0.5 Ma= differenze non sin: (0.9*1) + (0.1*2) = 1.1
Ms= differenze sinonime: (0.9*1) + (0.1*0) = 0.9
Distanze fra sequenze:
coding sites
Metodi di Miyata & Yasunaga (1980) e Nei & Gojobori (1986)
3. Classifichiamo le differenze in sinonime e non sinonime
4. Il numero di mutazioni sinonime per sito sinonimo
p = M / NpS = MS / NS
Il numero di mutazioni non sinonime per non sito sinonimoIl numero di mutazioni non sinonime per non sito sinonimo
pA = MA / NA
Ma ricordate il problema delle “multiple hits” ? > Usiamo Jukes e Cantor per Ma ricordate il problema delle “multiple hits” ? > Usiamo Jukes e Cantor per
correggere
Distanze fra sequenze:
coding sites
Nei & Gojobori (1986)
Allineamenti
Dan Graur : Lecture 18 Dan Graur : Lecture 18
ALIGNMENT OF NUCLEOTIDEALIGNMENT OF NUCLEOTIDE
&&&&AMINOAMINO--ACID SEQUENCESACID SEQUENCES
http://nsm.uh.edu/~dgraur/