Métodos geométricos (baseados em distância). Cálculo de Distâncias As distâncias evolutivas...
Transcript of Métodos geométricos (baseados em distância). Cálculo de Distâncias As distâncias evolutivas...
Métodos geométricos(baseados em
distância)
Cálculo de DistânciasAs distâncias evolutivas são
calculadas para todos os pares de taxa (ou OTUs) e a árvore é construída considerando as relações entre estes valores
www.megasofware.net
Estatísticas das Seqüências
Conteúdo de basesDistância das sequências par a partransiçoes/transversões (0,5)
Ou 2x trans/transv (1,0)
Todas estas estatísticas são levadas em conta na escolha do modelo de substituição a ser utilizado
Cálculo de DistânciasDistância p
n
pppV
)1()(
n
ndp
Distância pSe as seqüências forem muito
distintas, p pode ser subestimado por homoplasiasCom isso, algumas correções são
necessáriasComo regra geral:
se p > 0,3 a distância calculada por p é uma subestimativa
Se p > 0,5 – metade dos aa são diferentes...Se p > 0,15 – utilizar algum modelo de
substituição para corrigir a estimativa
Jukes-Cantor (d) - JCCorreção que leva em conta a
possibilidade de substituições de bases
A T C G A - α α α T α - α α C α α - α G α α α -
Substituições ocorrem com igual frequência em todos os nn, e que cada nn muda para qualquer outro com uma probabilidade α por ano (r = 3 α)
r é a taxa de substituição por sítio e por ano.
Considere duas sequencias, X e Y que divergiram de um ancestral há t anos Seja qt a proporção de sítios idênticos e
pt a proporção de sítios diferentes (1 – qt)
Jukes-Cantor (d) - JC
Proporção de sítios idênticos em t+1:Probabilidade de que um sítio idêntico
em t continue idêntico em t+1:(1 – r)2 = 1 – 2r + r2 1 – 2r
probabilidade de que um sítio diferente em t se torne idêntico em t+1
2r/3
Jukes-Cantor (d) - JC
Seja Xi e Yj em t:
Para que sejam idênticos em t+1:Xi Xj e Yj Yj ;
α (1 – r) ou
Xi Xi e Yj Yi ; (1 – r) α
2 . α (1 – r) = 2 . r/3 (1-r) = 2r/3 – 2r2/3 2r/3
Então:
Ou:
)1(3
2)21(1 ttt qrqrq
ttt qrr
qq3
8
3
21
Jukes-Cantor (d) - JC
Então:
Ou:
)1(3
2)21(1 ttt qrqrq
ttt qrr
qq3
8
3
21
Jukes-Cantor (d) - JCSítio idêntico em t que continua
idêntico
Então:
Ou:
)1(3
2)21(1 ttt qrqrq
ttt qrr
qq3
8
3
21
Jukes-Cantor (d) - JCSítio idêntico em t que continua
idêntico
Sítio não idêntico em t que passou a ser idêntico
Representando qt+1 – qt por dq/dt:
Em condições iniciais q = 1 em t = 0:
qrr
dt
dq
3
8
3
2
)1(4
31 3/8rteq
Jukes-Cantor (d) - JC
Se p = (1 - q)
Sendo d a proporção de nn que se modificaram com o tempo: d = 2r . t
)1(4
3 )3/8rtep
rtrteep
23
4
3
8
113
4
dep 3
4
13
4
)3
41ln(
4
3 pd
Jukes-Cantor (d) - JC
dep 3
4
13
4
3
4
3
41
d
ep
Ae A ln
AeA ln
3
4
ln)3
41ln(
d
ep
3
4)
3
41ln(
dp
)3
41ln(
4
3 pd
)3
41ln(
4
3 pd
np
ppdV
2)43(
)1(9)ˆ(
Jukes-Cantor (d) - JC
Kimura 2 parâmetros – K80
Correção que leva em conta probabilidades diferentes de transições e transversões
A T C G A - β β α T β - α β C β α - β G α β β -
r = α + 2βTransiçõesAs transversões
)21)(4
1( 8)(4 tt eeP
)1)(2/1( 8 teQ
)21ln()4
1()21ln()
2
1(
422
QQP
ttrtd
Kimura 2 parâmetros – K80
Tamura Leva em conta as diferenças em transições
e transversões (α e β), além da frequência diferencial de CG.
A T C G A - βθ2 βθ1 αθ1
T βθ2 - αθ1 βθ1
C βθ2 αθ2 - βθ1
G αθ2 βθ2 βθ1 -θ1 = frequência de CG
θ2 = freqüência de AT
Tamura-Nei (TrN) Leva em conta as diferenças em transições
e transversões (α e β), além da frequência diferencial de bases (g).
A T C G A - βgT βgC αα11ggGG
T βgA - αα22ggCC βgG
C βgA αα22ggTT - βgG
G αα11ggAA βgT βgC -
gA, gT, gC, gG = frequência de cada uma das bases
Tajima-Nei (F81) Leva em conta apenas as diferentes
freqüências das bases: A T C G
A - αgT αgC α1gG
T αgA - αgC α1gG
C αgA αgT - α1gG
G αgA αgT αgC -
gA, gT, gC, gG = frequência de cada uma das bases
General Time Reversible (GTR)
Leva em conta diferentes freqüências de bases e de substituições
A T C G A - agT bgC cgG
T agA - dgC egG
C bgA dgT - fgG
G cgA egT fgC -
gA, gT, gC, gG = frequência de cada uma das basesa, b, c, d, e, f = probabilidade de substituição
Distâncias GammaNas distâncias consideradas
anteriormente, assume-se que a taxa de substituições nucleotídicas é a mesma para todos os sítios...
Na verdade, isso dificilmente é assim, e esta taxa varia de sítio para sítio.
Parâmetro a ser ajustado = α
Distâncias Gamma
α=0,2
α=1α=2
α=5
α=10
UPGMA (Unweighted Pair-Group Method with Arithmetic Mean)
É o mais simples e intuitivo dos métodos
Se baseia nas médias das distâncias entre as OTUs
Parte do princípio de que o relógio molecular está “funcionando”
A
B
D
E
F
G
HI C
Tempo
Exemplo numéricoLocalizar a menor distância:
A B C D E F
A X
B 1 X
C 4 5 X
D 6 3 4 X
E 9 9 2 4 X
F 7 8 3 5 3 X
Exemplo numéricoLocalizar a menor distância:
A B C D E F
A X
B 1 X
C 4 5 X
D 6 3 4 X
E 9 9 2 4 X
F 7 8 3 5 3 X
Exemplo numéricoLocalizar a menor distância:
A B C D E F
A X
B 1 X
C 4 5 X
D 6 3 4 X
E 9 9 2 4 X
F 7 8 3 5 3 X
A
B
00,51,0
Calcular médias
AB
C D E F
AB
X
C X
D 4 X
E 2 4 X
F 3 5 3 X
A B C D E F
A X
B 1 X
C 4 5 X
D 6 3 4 X
E 9 9 2 4 X
F 7 8 3 5 3 X
AB
C D E F
AB
X
C 4,5 X
D 4 X
E 2 4 X
F 3 5 3 X
A B C D E F
A X
B 1 X
C 4 5 X
D 6 3 4 X
E 9 9 2 4 X
F 7 8 3 5 3 X
AB
C D E F
AB
X
C 4,5 X
D 4,5 4 X
E 2 4 X
F 3 5 3 X
A B C D E F
A X
B 1 X
C 4 5 X
D 6 3 4 X
E 9 9 2 4 X
F 7 8 3 5 3 X
AB
C D E F
AB
X
C 4,5 X
D 4,5 4 X
E 9 2 4 X
F 3 5 3 X
A B C D E F
A X
B 1 X
C 4 5 X
D 6 3 4 X
E 9 9 2 4 X
F 7 8 3 5 3 X
AB
C D E F
AB
X
C 4,5 X
D 4,5 4 X
E 9 2 4 X
F 7,5 3 5 3 X
A B C D E F
A X
B 1 X
C 4 5 X
D 6 3 4 X
E 9 9 2 4 X
F 7 8 3 5 3 X
AB
C D E F
AB
X
C 4,5 X
D 4,5 4 X
E 9 2 4 X
F 7,5 3 5 3 X
AB
C D E F
AB
X
C 4,5 X
D 4,5 4 X
E 9 2 4 X
F 7,5 3 5 3 X
A
B
C
E
00,51,01,5
AB
C D E F
AB
X
C 4,5 X
D 4,5 4 X
E 9 2 4 X
F 7,5 3 5 3 X
A B C D E F
A X
B 1 X
C 4 5 X
D 6 3 4 X
E 9 9 2 4 X
F 7 8 3 5 3 X
AB CE D F
AB X
CE X
D X
F 5 X
A B C D E F
A X
B 1 X
C 4 5 X
D 6 3 4 X
E 9 9 2 4 X
F 7 8 3 5 3 X
AB CE D F
AB X
CE X
D X
F 5 X
(dAC+dAE+dBC=dBE)/4
A B C D E F
A X
B 1 X
C 4 5 X
D 6 3 4 X
E 9 9 2 4 X
F 7 8 3 5 3 X
AB CE D F
AB X
CE 6,75
X
D X
F 5 X
(dAC+dAE+dBC=dBE)/4
A B C D E F
A X
B 1 X
C 4 5 X
D 6 3 4 X
E 9 9 2 4 X
F 7 8 3 5 3 X
AB CE D F
AB X
CE 6,75
X
D 4,5 X
F 7,5 5 X
Repetindo a matriz anterior
A B C D E F
A X
B 1 X
C 4 5 X
D 6 3 4 X
E 9 9 2 4 X
F 7 8 3 5 3 X
AB CE D F
AB X
CE 6,75
X
D 4,5 X
F 7,5 5 X
(dCD+dED)/2
A B C D E F
A X
B 1 X
C 4 5 X
D 6 3 4 X
E 9 9 2 4 X
F 7 8 3 5 3 X
AB CE D F
AB X
CE 6,75
X
D 4,5 4 X
F 7,5 5 X
(dCD+dED)/2
A B C D E F
A X
B 1 X
C 4 5 X
D 6 3 4 X
E 9 9 2 4 X
F 7 8 3 5 3 X
AB CE D F
AB X
CE 6,75
X
D 4,5 4 X
F 7,5 3 5 X
(dCF+dEF)/2
AB CE D F
AB X
CE 6,75
X
D 4,5 4 X
F 7,5 3 5 X
A
B
C
E
F
00,51,01,52,0
AB CEF
D
AB X
CEF 7 X
D 4,5 4,3 X
A
B
C
E
F
D
00,51,01,52,02,5
Calcular as médias (dAC+dAE+dAF+dBC+dBE+dBF)/6;
(dCD+dED+dFD)/3
AB
CEFD
AB X
CEFD
6.3
X
A
B
C
E
F
D
00,51,01,52,02,53,03,5
Calcular a média (dAC+dAD+dAE+dAF+dBC+dBD+dBE+dB
F)/8
Matriz cofenéticaA
B
C
E
F
D
00,51,01,52,02,53,03,5
A B C D E F
A X
B 1 X
C 6,3
6,3
X
D 6,3
6,3
4,3 X
E 6,3
6,3
2 4,3
X
F 6,3
6,3
3 4,3
3 X
Comparação entre matrizes...
Original Cofenética A B C D E F
A X
B 1 X
C 6,3
6,3
X
D 6,3
6,3
4,3
X
E 6,3
6,3
2 4,3
X
F 6,3
6,3
3 4,3
3 X
A B C D E F
A X
B 1 X
C 4 5 X
D 6 3 4 X
E 9 9 2 4 X
F 7 8 3 5 3 X
Quando a taxa de substituição de nucleotídeos varia de uma linhagem para a outra, o UPGMA fornece a topologia incorreta
Nestes casos é necessário utilizar métodos que permitam taxas evolutivas diferentes entre os organismos
UPGMA - Limitações
Evolução MínimaMétodo que busca, dentre todas as
árvores possíveis, aquela cuja soma dos tamanhos de ramos é a menor (parte do princípio que a árvore verdadeira seria a que contém os menores tamanhos de ramos)Limitações: como o número de
topologias possíveis é muito grande, a busca pode tornar-se lenta
Neighbor Joining (NJ)Saitou & Nei (1987)Método baseado no princípio da
evolução mínimaNão examina todas as
topologias, mas requer o princípio da EM em todos os estágios (é uma simplificação da EM)
Conceito de “vizinhos” – dois taxa conectados por um único nó numa árvore não enraizada (1,2 e 5,6)
Neighbor Joining (NJ)
Neighbor Joining (NJ)
Algoritmo: Início com uma topologia em estrela Somar todos os tamanhos de ramos da
árvore inicial (S0) Tomar um par de vizinhos, estabelecer a
distância entre este par e todos os outros Estimar Si,j
Repetir o procedimento para todos os pares de vizinhos até encontrar o menor S.
Neighbor Joining (NJ)
Neighbor Joining (NJ)
)1( m
T
m
jiij
m
iix d
mLS
1
1
10
Neighbor Joining (NJ)
m
iiYXYXX LLLLS
32112
Neighbor-Joining
Testes Estatísticos
Bootstrap: é o mais utilizado, faz uma reamostragem dos sítios com reposição:
G
AAA
AA
CC
C AT
TTTTTT
TTCCCC
GGGGG
TTT
C
CC
AAA
AA
TTTT
TT
TN
GGGG
GGGG
e b o k e f e h c j k f m n i AA
A
AA
CCCC
G
AAA
AA
AAA
AA
CC
C AT
TTTTTTTTCCCC
AAA
AA
GGGGG
TTT
C
CC
AAA
AA
TTTT
TT
TN
GGGG
GGGG
a b c d e f g h i j k l m n o
a b c d c f g h d j o l m n o
G
AAA
AA
AAA
AA
CC
CT
TTTT
CCCC
AAA
AA
GGGGG
C
CC
AAA
AA
TTTT
TT
TN
GGGG
GGGG
CC
CT
GGGG
TTT
T
Bibliografia
Li W-H. 1997. Molecular Evolution. Sinauer Ass. Publish.
Matioli, S.R. 2001. Biologia Molecular e Evolução. Editora Holos, São Paulo.
Nei, M. & Kumar, S. 2000. Molecular Evolution and Phylogenetics. Oxford University Press.