Gautier m grenoble_2011
-
Upload
michael-blum -
Category
Technology
-
view
526 -
download
0
Embed Size (px)
description
Transcript of Gautier m grenoble_2011

Introduction Modeles Demographiques Un exemple d’application Developpements Conclusion
Modeles hierarchiques bayesiens de differenciationgenetique et recherche de signatures de selection
applications a des jeux de donnees SNP haut-debit
Mathieu Gautier
UMR INRA/CIRAD/IRD/SupAgro CBGP
29 Juin 2011

Introduction Modeles Demographiques Un exemple d’application Developpements Conclusion
Recherche de signatures de selection
Forces evolutives gouvernant l’evolution des frequencesalleliques
Mutation (et recombinaison a l’echelle haplotypique) : source de la variabilite
Derive genetique : introduit la stochasticite (Taille finie des populations)
Migration en terme de flux de genes
Selection
Influence differente a l’echelle du genome (Cavalli-Sforza, 1966)
Facteurs demographiques (derive, flux de gene) ⇒ effet global
Selection (mutation et recombinaison) ⇒ effet local

Introduction Modeles Demographiques Un exemple d’application Developpements Conclusion
Differentes approches
Principe General
Definition d’un estimateur de la variabilite genetique intra/interpopulation (e.g. FST , EHH)
Recherche d’outliers (relativement a l’attendu neutre)
Distribution theorique (Lewontin et Krakauer, 1973, Bonhomme et al., 2010)
Distribution simulee (Bowcock et al., 1991, Beaumont & Nichols, 1996)
Distribution empirique (Akey et al., 2002)
Modelisation Hierarchique (Bayesienne)
Efficace pour distinguer les effets locus des effets population-specifiquesur la variabilite genetique
La distribution (frequences alleliques) est connue (ou approchable) pour differentsmodeles (demographiques)

Introduction Modeles Demographiques Un exemple d’application Developpements Conclusion
FST et pure-derive
Modele (demographique) de Wright/Fisher
Les populations ont evolue pendant t generations (non chevauchantes) encomplet isolement depuis une population ancestrale commune
Illustration dans le cas de taille de population constante (N)
Evolution des frequences alleliques
P(Xt+1 = j |Xt = i) =(
j2N
)ψj
i (1− ψi )2N−j
ou ψi = i2N
,E[Xt+1|Xt = xt ] = xt et V[Xt+1|Xt = xt ] = 2Nxt (1− xt )
E[Xt ] ≡ E[E[Xt |Xt−1]] = E[Xt−1] = ... = x0 = 2Np0 ⇒ E[pt = Xt2N
] = p0
V[pt ] = p0(1− p0)[1− (1− 1/2N)t ]

Introduction Modeles Demographiques Un exemple d’application Developpements Conclusion
FST et pure-derive
Modele en desequilibre (e.g. temps de fixation)
t(p0) = − 4Ne (1−p0)ln(1−p0)p0
(Kimura et Ohta, 1971)
Si p 1 (e.g. p0 = 12Ne
) ⇒ t(p0) ' 4Ne
(pfix1 = p0, pfix2 = 1− p0)
Evolution de la differentiation
La variabilite des frequences alleliques inter-pop(differentiation) augmente au cours du temps(Vmax = p0(1− p0))
Definition : FST = V (p)p0(1−p0)
= 1− (1− 12N
)t ' t2N
⇔ Mesure de l’avancement du processus dederive (aboutissant a la fixation d’un allele)

Introduction Modeles Demographiques Un exemple d’application Developpements Conclusion
Simulations : 8 pops (2Ne = 500), 10000 SNPs (8500 neu, 250 per s class)
t = 50 generations
t = 100 generations

Introduction Modeles Demographiques Un exemple d’application Developpements Conclusion
Modelisation hierarchique
cj ∼ β(1, 1)
πi ∼ β(0.7, 0.7)
@@@@R
αij f (αij |πi , cj )
Y,N Yij ∼ Bin(αij ,Nij )
?
Principe
On veut separer l’influence de πi (p0) et cj (derive)
sur la variance des αij
Contraster les αij inter-pop informe sur les πi
Contraster les αij intra-pop informe sur les cj
Distribution a priori sur les αij |πi , cj
αij |πi , cj ∼ N[0,1]
(πi , cjπi (1− πi )
)(Nicholson et al.,2002)
αij |πi , cj ∼ β(πi
1−cjcj
, (1− πi )1−cj
cj
) Prior ”exacte” : eq. de diffusion de Kimura (en prep.)

Introduction Modeles Demographiques Un exemple d’application Developpements Conclusion
Comparaisons (4 pops, 300 SNPs, 2Ne=1000)
1 11
11
1 1
1
1 1
1
1
11
11 1 1
10 20 50 100 200 500 1000
0.0
0.2
0.4
0.6
0.8
1.0
model 1 (Tr. Gaussian)
Generation
c va
lue
2 22 2 2
22
22
2
2
2
2
2 22 2 2
3 33 3
3
3 3
33
3
3
3
3
3 3 3 3 3
4 44
44
4 44
44
4
4
4
4 4 4 4 4
t/2NFST=1−(1−1/2N)^t
1 11
11
1 11
1 1
1
1
11
1
1 1
1
10 20 50 100 200 500 1000
0.0
0.2
0.4
0.6
0.8
1.0
model 2 (Beta)
Generation
c va
lue
2 22
2 22 2
22 2
2
2
2
2 2
2
2 2
3 33
33
3 33 3
3
3
3
3
33
33
3
4 44 4
44
44 4
4
4
44
4 4
4
4 4
t/2NFST=1−(1−1/2N)^t
1 11
11
1 11
1 1
1
1
1
1
1
1
1
1
10 20 50 100 200 500 1000
0.0
0.2
0.4
0.6
0.8
1.0
model 3 (Exact)
Generation
t/2N
2 22 2 2
2 2
22 2
2
2
2
2 2
2
2 2
3 33
33
3 33
3 3
3
3
3
3
3
33
3
4 44 4
44 4
44
4
4
4
4
4 4
4
44
t/2N

Introduction Modeles Demographiques Un exemple d’application Developpements Conclusion
Identification de locus outliers : PPP-value (Gautier et al., 2010)
Ecart au modele (H0 : echangeabilite des loci)
Mesure de discrepance : T (yij , πi , cj ) =J∑
j=1
[yij−E(yij |πi ,cj )]2
V(yij |πi ,cj )
avec E(yij | πi , cj ) = πi et V(yij | πi , cj ) =πi (1−πi )(1+(nij−1)cj )
nij
Pi = P[T (y r
ij , πi , cj ) > T (yij , πi , cj ) | yij
]Implementation (MCMC)
A chaque iteration t, on echantillonne y rij ∼ Bin(nij , α
tij )
On calcule : Pti =
1 siJ∑
j=1
[Tt (y r
ij , πti , ct
j )− Tt (yij , πti , ct
j )]> 0
0 sinon
Pi = 1N
N∑t=1
Pti

Introduction Modeles Demographiques Un exemple d’application Developpements Conclusion
Exemples sur donnees simulees (N=10,000 SNPs, 6 pops)
**
*
**
0.10 (B) 0.05 (B) 0.02 (B) 0 (N) 0.02 (P) 0.05 (P) 0.10 (P)
0.0
0.2
0.4
0.6
0.8
1.0
A) T=10 (analysis under model 1)
SNP selection type
PP
Pva
lue
*
*
*
*
0.10 (B) 0.05 (B) 0.02 (B) 0 (N) 0.02 (P) 0.05 (P) 0.10 (P)
0.0
0.2
0.4
0.6
0.8
1.0
B) T=10 (analysis under model 2)
SNP selection type
PP
Pva
lue
0.0 0.2 0.4 0.6 0.8 1.0
0.0
0.2
0.4
0.6
0.8
1.0
C) T=10 (model 1 VS model 2)
PPPvalue (model 2)
PP
Pva
lue
(mod
el 1
)
******
**
*
**
*
*
***
*********
*
*
**
*
**
*
*
*
****
**
*
*
*
***
**
*
*****
*
**
*
*
**
*
*
*
*
*
*
*
*
0.10 (B) 0.05 (B) 0.02 (B) 0 (N) 0.02 (P) 0.05 (P) 0.10 (P)
0.0
0.2
0.4
0.6
0.8
1.0
D) T=100 (analysis under model 1)
SNP selection type
PP
Pva
lue
*
*
*
*
***
*
***
*********
*
**
**
*
*
**
****
***
*
***
*
**
*
**
*
***
*
*****
*
*
*
****
*
*
*
***
0.10 (B) 0.05 (B) 0.02 (B) 0 (N) 0.02 (P) 0.05 (P) 0.10 (P)0.
00.
20.
40.
60.
81.
0
E) T=100 (analysis under model 2)
SNP selection type
PP
Pva
lue
0.0 0.2 0.4 0.6 0.8 1.0
0.0
0.2
0.4
0.6
0.8
1.0
F) T=100 (model 1 VS model 2)
PPPvalue (model 2)
PP
Pva
lue
(mod
el 1
)

Introduction Modeles Demographiques Un exemple d’application Developpements Conclusion
Le modele en ıle de Wright
Migrant pool ( πi )
Pop JN
J / p
iJ
Pop jN
j / p
ij
Pop 1N
1 / p
i1
m1
mj
mj
mJ
A l’equilibre migration/derive i.e. perte d’alleles due a la derive = gain du a la migration)
pij ∼ β(λijπi , λij (1− πi )
)⇒ E(pij ) = πi et V(pij ) =
πi (1−πi )1+λij
On definit FijST
= 11+λij
et λij =1−F
ijST
FijST
Sous l’hypothese neutre (effect locus αi = 0) : λij = λj = 4Nj mj (4xNimmigrants dans la population j)⇔ echangeabilite des SNPs

Introduction Modeles Demographiques Un exemple d’application Developpements Conclusion
Separer les effets locus et pop specifiques (Beaumont and Balding, 2004)
βj ∼ N(µβ = −2, σ2
β = 1.82)
αi ∼ N(0, σ2
α = 1)
@@R
πi ∼ β(0.7, 0.7)
@@R
ηij ηij = −log(λij ) = log(
FijST
1−FijST
) ∼ N(αi + βj , σ2η = 0.52)
pij αij |. ∼ β
(λijπi , λij (1− πi )
)
Y,N Yij ∼ Bin(αij ,Nij )
?

Introduction Modeles Demographiques Un exemple d’application Developpements Conclusion
Extension du modele αi 6= 0 (Riebler et al., 2008) voir aussi RJ-MCMC par Foll et Gaggiotti (2008)
P ∼ β(0.2, 0.8)
?
δi ∼ Ber(P)
PPPPPPPq
βj ∼ N(µβ = −2, σ2
β = 1.82)
)
αi ∼ N(0, σ?α
2)
?
πi ∼ β(0.7, 0.7)
@@@R
ηij ηij = −log(λij ) = log(
FijST
1−FijST
) ∼ N(δiαi + βj , σ2η = 0.52)
pij αij |. ∼ β
(λijπi , λij (1− πi )
)
Y,N Yij ∼ Bin(αij ,Nij )
?

Introduction Modeles Demographiques Un exemple d’application Developpements Conclusion
Variable auxiliaire et regle de decision (Gautier et al., 2009)
P(δi = 1) = E(P)
δi = 1⇒ le SNP est soumis a selection positive (grand FijST
) ou balancee (petit FijST
).
p(δi = 1) = E(δi ) = EP [E(δi |P)] =∫
P E(δi |P)f (P)dP =∫
P Pf (P)dP = E(P)
⇒proportion a priori de SNPs sous selection= E(P) = 0.20.2+1.8
= 0.1
Le modele est robuste a la prior sur P (see paper)
Derivation simple d’un Facteur de Bayes (Gautier et al., 2009)
Prior odds= P[δi = 1]/[1− P(δi = 1)] = E[P]1−E[P]
Posterior odds= P[δi = 1|data]/[1− P(δi = 1|data)]
BF peut s’exprimer en unite Deciban (BFdB = 10log10( Post. oddsPrior odds
))

Introduction Modeles Demographiques Un exemple d’application Developpements Conclusion
La regle de decision de Jeffreys (Good, 1979)
Odds Ratio BF (dB) Strength of evidence
1 to 3.5 0 to 5 ”Barely worth mentionning”
3.5 to 10 5 to 10 ”Substantial”
10 to 30 10 to 15 ”Strong”
30 to 100 15 to 20 ”Very Strong”
>100 >20 ”Decisive”

Introduction Modeles Demographiques Un exemple d’application Developpements Conclusion
Puissance et robustesse
Robustesse
robuste aux ecarts a la panmixie (intra-pop) faibles a moderes (FIS > 0 ou
FIS < 0)
robuste au biais de recrutement des marqueurs
structure des populations ?
Puissance pour un seuil de 15 dB (”strong evidence”)
FDR ' 0
Bonne puissance pour les SNPs soumis a une selection positive moderee a
forte mais moins efficace pour la selection balancee
Si αi >= 2 (⇔ s ' 0.05) : FNR< 30% Si αi >= 3 (⇔ s ' 0.1) : FNR< 10% Si αi <= −2 (⇔ s ' 0.1) : FNR< 70%

Introduction Modeles Demographiques Un exemple d’application Developpements Conclusion
>800 races bovines dans le monde
2 “especes”
Sans bosse : taurins (Bos taurus)
Avec bosse : zebus (Bos indicus)
Au moins 2 foyers de domestication
Croissant Fertile (taurins)
Vallee de l’Indus (Zebus)
Migration sur une echelle mondiale
Histoire liee aux flux migratoires humains
Adaptation a differents environnements(climatiques, modes d’elevage...)

Introduction Modeles Demographiques Un exemple d’application Developpements Conclusion
ACP realisee a partir d’un jeu de donnees comprenant 44,706 SNPs genotypes sur1021 individus appartenant a 47 populations differentes (Gautier et al.,2010)

Introduction Modeles Demographiques Un exemple d’application Developpements Conclusion
Adaptation des bovins Ouest-Africaines (Gautier et al.,2009)
∼ 300 ind. issus de 9 pop ouest-africaines :5 taurines (trypanotolerantes), 2 Zebus (trypanosensibles) et 2 hybrides ( ?)
36,320 SNPs :MAF>0.01 (dans au moins une pop. zebu et une taurine) ⇒∼ 1 SNP tous les 70 kb

Introduction Modeles Demographiques Un exemple d’application Developpements Conclusion
Resultats
P[δi = 1|data] = 0.186

Introduction Modeles Demographiques Un exemple d’application Developpements Conclusion
Combiner l’information de SNPs voisins (a posteriori)

Introduction Modeles Demographiques Un exemple d’application Developpements Conclusion
Interpretation biologique
Au total 53 regions identifiees
Principales fonctions biologiques impliquees Reponse immunitaire
e.g. MHC region sous selection balancee
⇒ reponse aux pressions liees aux maladies infectieuses Systeme nerveux :
e.g. regulation de la temperature corporelle, horloge circadienne et reproduction
⇒ nouvelles contraintes environnementales proporietes des poils et de la peau :
e.g. taille des poils (et des cornes), coloration
⇒ Adaptation a la chaleur

Introduction Modeles Demographiques Un exemple d’application Developpements Conclusion
Modeliser la dependance spatiale des SNPs
Un modele CAR (Guo et al., 2009)
F ijST = θij = 1− (1− θi )(1− θj ) et log
(θi
1−θi
)= µ+ εi
CAR prior sur les εi : εi |ε−(i) ∼ N
(∑i 6=j
wij
wi+εj ,
1wi+σ
2
)ou wi+ =
I∑j=1
wij
definition des poids : wij =
c1 + c2e
−c3|dij | si j 6= i
0 si j = i
Limites du modele
definition des constantes (c1, c2 et c3), contrainte d’identifiabilite (∑εi = 0)
convergence, temps de calcul
Un modele autoregressif plus simple (en prep.)
extension du modele BB : π(αi |αi−1, τα, ψ)⇒ res. preliminaires satisfaisants
temps de calcul raisonnable

Introduction Modeles Demographiques Un exemple d’application Developpements Conclusion

Introduction Modeles Demographiques Un exemple d’application Developpements Conclusion
Modele avec selection (Vitalis et al., en prep)
Modele a l’equilibre : migration/derive/selection/sans mutation (Wright,
1969)
f (αij |.) ∝ eσij pij pijθj πi−1
(1− pij )θj (1−πi )−1
C =∫ 1
0 eσij pij pij
θj πi−1(1− pij )
θj (1−πi )−1= M(θj πi , θj , σij )
Γ(θj πi )Γ(θj (1−πi )
Γ(θj )
Estimation des coefficients de selection σij
Signal de selection =⇒ σij 6= 0

Introduction Modeles Demographiques Un exemple d’application Developpements Conclusion

Introduction Modeles Demographiques Un exemple d’application Developpements Conclusion

Introduction Modeles Demographiques Un exemple d’application Developpements Conclusion
Structuration hierarchique des populations
Augmentation du taux de faux positifs a verifier avec lesmethodes Bayesiennes (cf. Excoffier et al.,2009)
Definition (a priori) de groupes de pops (sous reserve qu’ils soient grands)
Coop et al.(2010) (extension du modele de Nicholson et al.,2002)
αij = min(1,max(0, εij )) et εi = εijj
εi ∼ N (πi , πi (1− πi )Ω) avec Ω ∼ IW(J, JIJ )

Introduction Modeles Demographiques Un exemple d’application Developpements Conclusion
Comparaison des modeles(36320 SNPs × 9 Pop )
Modeles DIC LPML t en h (100,000 iterations, 2.4 GHz)
ppp nich 1 765 541 -984 271 2,15ppp beta 1 788 464 -988 852 8,02ppp kim 1 780 618 -982 930 47,80riebsnp 1 783 185 -989 347 17,01arscan 1 780 590 -980 954 16,55guo4 1 783 687 -971 453 35,29selestim 1 791 233 -988 129 57,93

Introduction Modeles Demographiques Un exemple d’application Developpements Conclusion
Perspectives
Extension des modeles pour les donnees NGS (e.g. Gompert et al., 2011)
Evaluation (puissance/robustesse) pour differents types deselection :
Hard Sweep Soft sweep Adaptation Polygenique