Molecular clock hypothesis: Rates and dates Molecular ...evolucao/popgen/newpopgen.pdf · minimiza...
Transcript of Molecular clock hypothesis: Rates and dates Molecular ...evolucao/popgen/newpopgen.pdf · minimiza...
1
Inference in statistical genetics• Evolutionary biology and the reverse
problem– Estimate probabilities of past (ancestral) states
given observations• Most other science deals with the forward
problem: – estimate probabilities of future events given
initial state. Test prediction with experiment.
é mais fácil cultuar os mortos que os vivosmais fácil viver de sombras que desóisé mais fácil mimeografar o passado que imprimir o futuro
Molecular clock hypothesis: Rates and dates
Evolutionary Hypothesis (H)
ti= δi/µ = ?
tl=?
tk=?
A tree reconstructed from molecular data under the assumption of a molecular clock.Branch lengths are in units of expected substitutions per site.
tj=?
Substitutions per site
0
0.025
0.05
0.075
0.1
δi is node height in substitutions µ is (constant) substitution rateti is age of node
Evolutionary Hypothesis (H)
6-7 Myr
~3 MyrThis looks half human, half chimp →calibration of ancestral node age
~0.1-1.0 Myr
~10 Myr
µ = δj/tj = 0.06/6 =0.01 s/s/Myr
Molecular clock hypothesis: Rates and dates Molecular clock hypothesis: Tree problems
Evolutionary Hypothesis (H)
6-7 Myr
What about different genes and different tree reconstruction methods?
~17 Myr
6 Myr
Molecular clock hypothesis: Calibration problems
Evolutionary Hypothesis (H) 6-7 Myr
6-7 Myr
Probability of sampling a direct ancestor → 0
Where in the tree should this fossil actually go?
7 Myr or 50 Myr?
Molecular clock hypothesis: Ancient DNA solution?
Evolutionary Hypothesis (H)
6-7 MyrIf we had ancient DNA extracted from this fossil, it might, for example, be recognized as being most closely related to gorillas.
~12 Myr
~8 Myr
2
Árvores de Genes são genealogias de genes. Como cópias diferentes em loci homólogos estão relacionados pela ordem de eventos de coalescência.
Árvore de gene e árvore de haplótipos
Únicos passos que podemos “ver” são os marcados por eventos mutacionais
Árvores de Genes são genealogias de genes. Como cópias diferentes em loci homólogos estão relacionados pela ordem de eventos de coalescência.
Árvore de gene e árvore de haplótipos
A esta árvore de mais baixa resoluçãochamamos de árvorede haplótipos ou de alelos.
Árvore de haplótipo Árvore de haplótipo -- Antigas e recentes
Dobzhansky & Sturtevant (1936): An Inversion Tree for Drosophilapseudoobscura (A) and D.persimilis (B)
Idealmente cada inversão ocorre apenas uma vez na árvore e a árvore minimiza o número total de mutações – Modelo de Alelos Infinitos
3
Idealmente cada inversão ocorre apenas uma vez na árvore e a árvore minimiza o número total de mutações -- Máxima Parcimônia
Máxima Parcimônia (e outros métodos) permite inferir estados deancestrais extintos.
Árvore é enraizada com espécie relacionada que esteja filogeneticamente fora do grupo de interesse - Grupo externo.
Árvore de inversões não equivale sempre a árvore de espécies, ou populações - Polimorfismo Transpecífico.
Árvore de gene e árvore de haplótipos
Polimorfismo transpecífico (polimorfismoancestral, sorteamento de linhagem) – Quando alguns dos haplótipos encontrados em uma espécie são genealogicamente mais aparentados alinhagens de haplótipos encontrados em outra espécie do que a linhagens da própria espécie.
Árvore de gene e árvore de haplótipos
Polimorfismo transpecífico, ou polimorfismoancestral, ou ainda sorteamento de linhagem
4
Freqüência e topologia são misturadas. Mutação é mais provável em haplótipos comuns. Politomias e ramos pequenos são esperadas.
Modelo de Sítios Infinitos
1
2
3
4
5
Mutações1 2 3 4 5 6
Seqü
ênci
as
7
Cada mutação ocorre em um nucleotídeo diferente
LPL Has 10 Exons Over 30 kb of DNA on Chromosome 8p22
Sequenced 9,734 bp from the 3’ End of Intron 3 to the 5’ End of Intron 9
Sequenced:24 Individuals from North Karelia, Finland (World’s Highest Frequency of CAD)23 European-Americans from Rochester, Minnesota24 African-Americans from Jackson, Mississippi
Found 88 Variable Sites
Ignored Singleton and Doubleton Sites and Variation Due to a Tetranucleotide Repeat, but Phased the Remaining 69 Polymorphic Sites by a Combination of Using Allele SpecificPrimer Pairs and Haplotype Substraction
The Phased Site Data Identified 88 Distinct Haplotypes
Genetic Survey of Lipoprotein Lipase
Ln-Likelihood ratio teste de homogeneidade = 99.8, 3 df, p = 1.75 x 10-7
Ln-Likelihood ratio teste de homogeneidade nas 3 classes mutáveis = 12.3, 2 df, p = 0.002
Análise de sítios altamente mutáveis
Type of Site # Nt # polym % polym p/ nt
CPG
198 19
9.6% Mononucleotide runs > 5
456 15
3.3% Poly α arrest site ± 3 nucleotides [TG(A/G)(A/G)GA]
264
8 3.0%
All other nucleotides
8,866 46
0.5%
Região Tipo do Sítio 0-1 Homoplasias >2 Homoplasias
5’ e 3’ Altamente mutável
11 14 Flanqueadora
Todos os outros
22 5
Sítios altamente mutáveis em LPL e homoplasia
Recombinational Hotspot
Altamente mutável
3 7 Todos os
outros 5 2
Todos Altamente mutável
14 21 Todos os
outros 27 7
Fisher's Exact Test: P = 0.0013 sob a hipótese nula de homogeneidade
Fisher's Exact Test: P = 0.0013 sob a hipótese nula de homogeneidade
ε4
ε3ε2
Árvore de haplótipos
da Apolipo-protein E
5
Árvore de haplótipos da Apolipo-protein E
4036
Coalescente de haplótipos deApo-protein E
ε4
Anos(x 105)
ε2 ε39 16 6 27 2 28 1 14 29 30 12 13 17 20 5 31
3.2
1.6
0.0
0.8
2.43937
4075
5229B
624
308
3673
545
2440
3106
19981163
1522 3701 2907
4714951
73
Árvore de haplótipos
da Apolipo-protein E
560
560
560
560560
560
1575
624
624624
624
1522
5361
5361
5361
4951
4951
4951
832
83224401998 19983937
5229B
4075
1163 4036
73
471
14
1119
17 20 18
23
1512
25
13
10 16
24
2
22
67 5
1
1575
560
624 624
21
26
4
3
31
3106
28545
27 3673
308
29 3701
8
302907
9
ε3
ε2
ε4
Sítios 560 e 624 estão em uma repetição Alu
Modelo de Sítios Finitos
1
2
3
4
5
Mutações1 2 3 4 5 6
Seqü
ênci
as7
Um conjunto finito de nucleotídeos são sujeitos à mutação e podem sofrer eventos mutacionais múltiplos
Uso de métodos não apropriados para estudos intraspecíficos
Porque não apropriados:• baixa divergência• ancestral não está extinto• Politomia• reticulação• tamanho amostral grande
Parcimônia estatística
Redes ou árvores que alocam homoplasia entre haplótipos menos divergentes com probabilidade menor do que 0.05 são eliminadas em favor de outras que alocam tais homoplasias entre haplótipos mais divergentes
6
Árvore genealógica
Em estudos intraspecíficos:•NÃO esperamos que o ancestral esteja extinto;• Politomias são esperadas. Na verdade,politomias são PROVÁVEIS;• Como alelo ancestral não está extinto, esperamos que alelos mais antigos tenham maior freqüência. Por outro lado, novos alelos devem ter baixa freqüência;• É mais provável que um alelo raro seja derivado de um alelo comum do que de outro raro;
Árvore de haplótipos
Em estudos intraspecíficos:•NÃO esperamos que o ancestral esteja extinto;• Politomias são esperadas. Na verdade, politomias são PROVÁVEIS;• Como alelo ancestral não está extinto, esperamos que alelos mais antigos tenham maior freqüência. Por outro lado, novos alelos devem ter baixa freqüência;• É mais provável que um alelo raro seja derivado de um alelo comum do que de outro raro;
Podemos usar estas esperanças para resolver“loops” ou homoplasias nos dados
Máxima parcimônia Parcimônia estatística
Árvore genealógicaEm estudos intraspecíficos:•NÃO esperamos que o ancestral esteja extinto;• Politomias são esperadas. Na verdade, politomias são PROVÁVEIS;• Como alelo ancestral não está extinto, esperamos que alelos mais antigos tenham maior freqüência. Por outro lado, novos alelos devem ter baixa freqüência;• É mais provável que um alelo raro seja derivado de um alelo comum do que de outro raro;
Podemos usar estas esperanças para resolver“loops” ou homoplasias nos dados
Árvore de haplótipos
• Geralmente NÃO sabemos a raiz;• Alelos antigos tem mais chance de serem nós internos, ao invés de pontas (tips).
ε4
ε3ε2
Árvore de haplótipos
da Apolipo-protein E
560
560
560
560560
560
1575
624
624624
624
1522
5361
5361
5361
4951
4951
4951
832
83224401998 19983937
5229B
4075
1163 4036
73
471
14
1119
17 20 18
23
1512
25
13
10 16
24
2
22
67 5
1
1575
560
624 624
21
26
4
3
31
3106
28545
27 3673
308
29 3701
8
302907
9
ε3
ε2
ε4
Árvore de haplótipos
da Apolipo-protein E
Um único haplótipo pode ter segmentos de DNA que tiveram padrões de mutação e coalescência diferentes no passado.Não existe uma única história evolutiva para estes haplótiposrecombinantes.Quando a recombinação é comum e uniforme, mesmo a idéia de uma árvore de haplótipos torna-se biologicamente sem sentido.
Importante investigar sua presença!
Coalescência e recombinação
7
A recombinação ocorre em todos os genótipos, mas muda o estado do gameta parental apenas em duplos heterozigotos.
A recombinação muda a fasede marcadores polimórficos.
Para se detectar e estudar a recombinação, é essencial ter dados com fase conhecida(como haplótipos)
Experimento Binomial
• Quando jogado, pode cair em duas posições:Ponta ou cabeça.
• Chamamos θ a probabilidade (desconhecida) P(H).
Ponta Cabeça
Estimativa:Dada uma seqüência de amostras de lançamentosx[1], x[2],…,x[M] queremos estimar as probabilidades P(H) = θ e P(T) = 1 - θ.
Parâmetros estatísticos
• Considere exemplos x[1], x[2], …, x[M] de tal forma que:– O conjunto de valores que x pode ter é conhecido.– Cada um é amostrado da mesma distribuição.– Cada um é amostrado independentemente da outra.
Achar vetores de parâmetros Θ que geraram os dados encontrados. Tal vetor de parâmetros Θ pode ser usado para prever dados futuros.
A função de verossimilhança• Quão bom é um θ em particular?
Depende de quão provável é de gerar os dados observados:
A verossimilhança da seqüência H,T, T, H, H é:∏==
mD mxPDPL )|][()|()( θθθ
θθθθθθ ⋅⋅−⋅−⋅= )1()1()(DL
0 0.2 0.4 0.6 0.8 1θ
L(θ)
Estatística Suficiente
• Para computar a verossimilhança no exemplo da tachinha apenas precisamos saber NH e NT.
THD
NNL )1()( θθθ −⋅=• NH e NT são estatísticas suficientes
para a distribuição binomial.
Estatística Suficiente• Uma estatística suficiente é uma função do
dado que sumariza a informação relevante para a verossimilhança.
• Formalmente, s(D) é uma estatística suficiente se, para quaisquer dois datasets D eD’:
s(D) = s(D’ ) ⇒ LD(θ) = LD’(θ)
Datasets
Estatística
8
Estimativa da Máxima Verossimilhança
Princípio: MLE escolhe os parâmetros que maximizem a função verossimilhante
• Um dos estimadores mais comuns em estatística.
• Entendimento intuitivo.
• Geralmente maximizada uma função log-likelihood definida como lD(θ) = logeLD(θ).
Máxima Verossimilhança
Procura as explicações que tornam os dados observados mais prováveis.
Formalmente: Dados D e Hipótese H
LD=Pr(D/H)D: grupo de seqüências comparadasH: Árvore filogenética
Máxima Verossimilhança
• O modelo evolutivo que torna os dados o mais provável resultado evolutivo é a estimativa de máxima verossimilhança da história evolutiva.
• Distinção entre verossimilhanças e probabilidades.• Probabilidades somam no total 1, enquanto
verossimilhanças não.
Verossimilhança é a probabilidade que o modelo evolutivo (árvore) tenha dado origem aos dados coletados.
Máxima Verossimilhança
ML requer três elementos:- um modelo de evolução de seqüência- Uma história evolutiva (árvore)- Os dados observadosMétodos de ML de construção de filogenias
devem resolver dois problemas:- Qual o valor de ML para uma dada topologia?- Qual das possíveis árvores tem a maior
verossimilhança?
Máxima Verossimilhança
Suponha que tenhamos duas seqüências: 1 e 2 que são separadas por uma média de dsubstituições por sítio.
d=µt µ= taxa de mutação t= tempo
Com um modelo de substituição podemos computar a probabilidade Pij(d) que duas seqüências separadas por dteria nucleotídeos i e j.
1 2d
O log likelihood de se obter as seqüências observadas é a soma dos log likelihoods de cada sítio individual:
ln L = ∑ ln Lii=1
kk = número de sítios
MLE em dados binomiais
Aplicando o princípio da MLE temos que
( ) ( )θθθ −+= 1loglog THD NNlθθ −
=⇒1
TH NN
0 0.2 0.4 0.6 0.8 1
L(θ)
Exemplo:(NH,NT ) = (3,2)
Estimativa de MLE = 3/5= 0.6
TH
H
NNN+
=⇒ θ̂
(que coincide com o que esperaríamos)
9
E MLE é tudo o que precisamos?
• Suponha que após 10 observações,– MLE de P(H) = 0.7 para as tachinhas.– Você apostaria em cabeça na próxima jogada?
• Suponha que após 10 observações,– MLE de P(H) = 0.7 para uma moeda.– Você continuaria com a mesma aposta?
Solução: A metodologia Bayesiana que incorpora seu conhecimento prévio subjetivo. Como podemos usar este conhecimento prévio?
Regra de Bayes
( ) ( ) ( ))(
||xP
yPyxPxyP ⋅=
( ) ( ) ( )yPyxPyxP ⋅= |,
Em que,
Bayes
( ) ( ) ( )∑ ⋅=y
yPyxPxP |
Se mantém porque:
( ) ( ) ( ) ( )∑∑ ⋅==yy
yPyxPyxPxP |,
Exemplo: Um cassino desonesto
• Um cassino usa 2 tipos de dados:99% é correto.1% é viciado: 6 aparece 50% das vezes
• Pegamos um dados ao acaso e jogamos 3 vezes.• Obtemos 3 seis consecutivos.
Qual é a probabilidade do dado ser viciado?
Podemos resolver este problema usando a regra de Bayes e o fato que enquanto P(viciado | 3 seis)não é conhecido, os outros 3 termos da regra de Bayes são:
• P(3 seis | viciado)=(0.5)3
• P(viciado)=0.01• P(3 seis) = P(3 seis|vic) P(vic)+P(3 seis|norm) P(norm)
)3()()|3()3|(
seisPviciadoPviciadoseisPseisviciadoP ⋅
=
Um cassino desonesto
Um cassino desonesto
( )
( )21.0
99.06101.05.0
01.05.0
)()|3()()|3()()|3(
)3()()|3()3|(
33
3
=
⋅
+⋅
⋅=
=+⋅
=
=⋅
=
normPnormseisPviciadoPviciadoseisPviciadoPviciadoseisP
seisPviciadoPviciadoseisPseisviciadoP
Teorema de Bayes
• Pr[Tree | Data] = probabilidade a posteriori= probabilidade que a topologia
esteja correta
• Pr[Data | Tree] = Verossimilhança
• Pr[Tree] = probabilidade a priori
10
Análise Bayesian
Fig. 1. Main components of a Bayesian analysis
Probabilidade a priori
Verossimilhança
Probabilidade a posteriori
Markov Chain Monte Carlo (MCMC)
• Técnica para inferência Bayesiana• Correlation random walk• Várias repetições provém uma melhor
aproximação
Princípios do MCMC : Passos
Comprimento:
Direção:
Princípios do MCMC : Direção
Princípios do MCMC : Direção e colinas Modelo de probabilidade Bayesiano completo
Z1
Pr{D | g, µ, Q}fG(g | Ne) fµ(µ)fN(Ne )fQ(Q)=
Constante normalizadora desconhecida
Kingman coalescent prior
Felsenstein likelihood outros priors
P(g, µ, Ne, Q | D)
Densidade da probabilidade conjunta de acidentes históricos e processos evolutivos.
MCMC pode ser usada para fornecer uma cadeia de amostras desta densidade. Densidades marginais de qualquer parâmetro de interesse são obtidos por ignorar parâmetros inconvenientes.