Lamalgamation de données génomiques et la construction de phylogénies synthétiques Alexis...
-
Upload
estee-tixier -
Category
Documents
-
view
107 -
download
0
Transcript of Lamalgamation de données génomiques et la construction de phylogénies synthétiques Alexis...
L’amalgamation de données génomiques et la construction de
phylogénies synthétiques
Alexis Criscuolo (ISEM, LIRMM)
Qui suis je?
• Alexis Criscuolo
– Licence de Mathématiques (UM2)– DEA d’Informatique (LIRMM)– 3ième année de Doctorat en Biologie (ISEM-LIRMM)
Les chefs: Emmanuel Douzery (ISEM) Olivier Gascuel (LIRMM)
Vincent Berry (LIRMM)
Plan
• Initiation à la phylogénie – Parcimonie (pour les info)– Vraisemblance (pour les info et les matheux)– Distance (pour les matheux)
• Description des différentes méthodes d’amalgamation de données génomiques– Combinaison basse (pour les bio)– Combinaison haute (pour les info)– Combinaison moyenne (pour les matheux)
• Comparaison des performances des combinaisons basse, moyenne et haute (pour les bio)
• Application à la phylogénie des mammifères (pour
les curieux)
La phylogénie en théorie
OieRat
Homme
Chat
Porc
Dauphin
Cheval
Chameau
La phylogénie en pratique
La phylogénie en pratique
ame AGCTA
Rat AGCTGCAA
Lama ATC-GCTC
Oie CTGCGGAT
La phylogénie en pratique
Reconstruction phylogénétique
La phylogénie en pratique
Oie
Oie
MammifèresMammifères
La phylogénie en pratique
Reconstruction phylogénétique
La phylogénie en pratique
Reconstruction phylogénétique
1- Critère de parcimonie
> Minimiser le nombre de mutations le long de l’arbre
La parcimonie
0123456789
Rat ATGCCGTGTG
Porc TTGCTCAGCG
Chameau TTGACCTGCG
Dauphin TTGCTCTGCG
Chat TTGCCCTTTG
Homme ATACCGTGTG
Cheval TGGCCCTTTG
La parcimonie
04578
Rat ACGGT
Porc TTCGC
Chameau TCCGC
Dauphin TTCGC
Chat TCCTT
Homme ACGGT
Cheval TCCTT
1236 9
TGCT G
TGCA G
TGAT G
TGCT G
TGCT G
TACT G
GGCT G
La parcimonie
04578
Rat ACGGT
Porc TTCGC
Chameau TCCGC
Dauphin TTCGC
Chat TCCTT
Homme ACGGT
Cheval TCCTT
1236 9
TGCT G
TGCA G
TGAT G
TGCT G
TGCT G
TACT G
GGCT G
La parcimonie
Rat
Homme
Chat
Porc
Dauphin
Cheval
Chameau
0:A<>T
5:G<>C
4:C<>T
7:G<>T
8:C<>T
04578
Rat ACGGT
Porc TTCGC
Chameau TCCGC
Dauphin TTCGC
Chat TCCTT
Homme ACGGT
Cheval TCCTT
1236 9
TGCT G
TGCA G
TGAT G
TGCT G
TGCT G
TACT G
GGCT G
La parcimonie
0123456789
Rat ATGCCGTGTG
Porc TTGCTCAGCG
Chameau TTGACCTGCG
Dauphin TTGCTCTGCG
Chat TTGCCCTTTG
Homme ATACCGTGTG
Cheval TGGCCCTTTG Rat
Homme
Chat
Porc
Dauphin
Cheval
Chameau
0:A<>T
5:G<>C
4:C<>T
7:G<>T
8:C<>T
L’arbre le plus parcimonieux
longueur = 9
La phylogénie en pratique
Reconstruction phylogénétique
2- Critère de vraisemblance
> Optimiser la vraisemblance de l’arbre
La vraisemblance
01 i m
W AT...GC G GTG...TG
X AT...GC G GTG...TG
Y AT...GC A GTG...TG
Z AT...GC A GTG...TG
La vraisemblance
01 i m
W AT...GC G GTG...TG
X AT...GC G GTG...TG
Y AT...GC A GTG...TG
Z AT...GC A GTG...TG
La vraisemblance
01 i m
W AT...GC G GTG...TG
X AT...GC G GTG...TG
Y AT...GC A GTG...TG
Z AT...GC A GTG...TG
X
W Y
Z
T
L( T[i] ) = vraisemblance de la topologie T pour le site i
= probabilité P( i | T ) que i ait été généré par la topologie T
G
G
A
A
A AP
G
G
A
A
C AP
G
G
A
A
G AP
G
G
A
A
T AP
G
G
A
A
A C+ P
G
G
A
A
C C+ P
G
G
A
A
G C + P
G
G
A
A
T C+ P
G
G
A
A
A G
G
G
A
A
C G
G
G
A
A
G G
G
G
A
A
T G
G
G
A
A
A T
G
G
A
A
C T
G
G
A
A
G T
G
G
A
A
T T
+ P
+ P
+ P
+ P
+ P
+ P
+ P
+ P
+
+
+
La vraisemblance
=
= A P(AA)² P(AC) P(AG)²
G
G
A
A
C APG G AA
CA
P=
La vraisemblance
A C G T
A - a b d
C a - c e
G b c - f
T d e f -
But: trouver la topologie T qui maximise la fonction de vraisemblance
m
L(T) = L( T[i] )
Site i = 0
La vraisemblance
La phylogénie en pratique
Reconstruction phylogénétique
3- Critère de distances
> S’approcher au plus d’une matrice additive
Distance évolutive
Homme ATGCCGTGTG
Cheval ATGCGGACTA
Canard CTGCACCTAG
Distance évolutive
AA/n
0.1
AC/n
0.0
AG/n
0.0
AT/n
0.0
CA/n
0.0
CC/n
0.1
CG/n
0.1
CT/n
0.0
GA/n
0.1
GC/n
0.1
GG/n
0.2
GT/n
0.0
TA/n
0.1
TC/n
0.0
TG/n
0.0
TT/n
0.2
F(Homme,Cheval)Homme ATGCCGTGTG
Cheval ATGCGGACTA
Canard CTGCACCTAG
Distance évolutive
Homme ATGCCGTGTG
Cheval ATGCGGACTA
Canard CTGCACCTAG
AA/n
0.1
AC/n
0.0
AG/n
0.0
AT/n
0.0
CA/n
0.0
CC/n
0.1
CG/n
0.1
CT/n
0.0
GA/n
0.1
GC/n
0.1
GG/n
0.2
GT/n
0.0
TA/n
0.1
TC/n
0.0
TG/n
0.0
TT/n
0.2
F(Homme,Cheval)
Homme 0.0
Cheval 0.4 0.0
Canard 0.6 0.7 0.0
Distance de Hamming: D = 1 - (AA/n + CC/n + GG/n + TT/n)
Distance évolutive
Homme ATGCCGTGTG
Cheval ATGCGGACTA
Canard CTGCCCTTAG
AA/n
0.1
AC/n
0.0
AG/n
0.0
AT/n
0.0
CA/n
0.0
CC/n
0.1
CG/n
0.1
CT/n
0.0
GA/n
0.1
GC/n
0.1
GG/n
0.2
GT/n
0.0
TA/n
0.1
TC/n
0.0
TG/n
0.0
TT/n
0.2
F(Homme,Cheval)
Homme 0.00
Cheval 0.57 0.00
Canard 1.20 2.03 0.00
Distance de Jukes & Cantor: (-3/4) ln (1 – 4D/3)Distance de Hamming: D = 1 - (AA/n + CC/n + GG/n + TT/n)
Distance arborée
• D = 0
• D = D
• D D + D
• D + D max (D + D , D + D )
ii
ij ji
ij ik ki
ij kl il jk ik jl
i
l
k
j
Méthode de distance
Minimiser le critère mathématique suivant [Fitch & Margoliash 1967]:
w ( - D )2
ij ij ij ij
afin d’obtenir la représentation arborée qui
se rapproche le plus de la matrice ij
NP-complétude
• Parcimonie
• Vraisemblance
• Distance
Critères NP-complets
Heuristiques de recherche
1- Inférer « rapidement » un arbre de départ T0
2- Modifier la topologie de T0
pour obtenir la topologie T1
3- Si T1 améliore le critère, alors T0 T1 puis aller à l’étape 2
1
2 - 3
4- Continuer jusqu’à convergence du critère
4
Des jeux de données multiples
Gène 1Taxon 1
Taxon i
Des jeux de données multiples
Gène 1Taxon 1
Taxon i
Taxon j
Des jeux de données multiples
Gène 1 Gène 2Taxon 1
Taxon i
Taxon j
Des jeux de données multiples
Gène 1 Gène 2Taxon 1
Taxon i
Taxon j
Taxon n
Des jeux de données multiples
Gène 1 Gène 3Gène 2Taxon 1
Taxon i
Taxon j
Taxon n
Des jeux de données multiples
Gène 1 Gène 3Gène 2Taxon 1
Taxon n
Des jeux de données multiplesmais incomplets
Gène 1 Gène 3Gène 2Taxon 1
Taxon n
Des jeux de données multiplesmais incomplets
• Disparition de certains gènes au cours de l’histoire évolutive
Des jeux de données multiplesmais incomplets
• Disparition de certains gènes au cours de l’histoire évolutive
• Absence de séquençage de certains gènes pour une espèce donnée
Comment obtenir une phylogénie à partir d’un jeu de données incomplet?
Gène 1 Gène 3Gène 2Taxon 1
Taxon n
Combinaison basse(pour les bio)
Se débrouiller pour construire des phylogénies à partir des alignements de séquences incomplètes
Combinaison basse
« total evidence »
Combinaison haute(pour les info)
Récupérer les phylogénies reconstruites à partir de chaque gène et tenter de les amalgamer en une seule phylogénie synthétique: le superarbre
Combinaison haute
Consensus
{ X | Y }
-Combinaison haute-Consensus strict
A B C D A B C D
A B C D
-Combinaison haute-Consensus strict
A B C D A B C D
A B C D
-Combinaison haute-Consensus majoritaire
A B C D
A B D C
A B C D
A B C D
-Combinaison haute-Consensus majoritaire
A B C D
A B D C
A B C D
A B C D
-Combinaison haute-Consensus majoritaire
A B C D
A B D C
A B C D
A B C D
Combinaison haute
« Build » [Aho et al. 1981]
« Min Cut Supertree » [Semple & Steel 2000]
« Modified Min Cut Supertree » [Page 2001]
« Build With Distance » [Willson 2004]
-Combinaison haute-L’algorithme Build
FEDCBA IDHGCB
-Combinaison haute-L’algorithme Build
FEDCBA IDHGCB
G
EDC
B
AH
F
I
-Combinaison haute-L’algorithme Build
FEDCBA IDHGCB
G
EDC
B
AH
F
I
IF ABCDEGH
-Combinaison haute-L’algorithme Build
EDCBA DHGCB
IF ABCDEGH
-Combinaison haute-L’algorithme Build
EDCBA DHGCB
IF ABCDEGH
G
EDC
B
AH
-Combinaison haute-L’algorithme Build
EDCBA DHGCB
IF
ABCDGH
G
EDC
B
AH
E
-Combinaison haute-L’algorithme Build
DCBA DHGCB
IF
ABCDGHE
-Combinaison haute-L’algorithme Build
DCBA DHGCB
IF
ABCDGHE
G
DC
B
AH
-Combinaison haute-L’algorithme Build
DCBA DHGCB
IF
ABCGH
E
GD
C
B
AH
-Combinaison haute-L’algorithme Build
CBA HGCB
IF
ABCGH
E
D
-Combinaison haute-L’algorithme Build
CBA HGCB
IF
ABCGH
E
DG
C
B
AH
-Combinaison haute-L’algorithme Build
CBA HGCB
IF
ABCG
E
DG
C
B
AH
H
-Combinaison haute-L’algorithme Build
CBA GCB
IF
ABCG
E
D
H
-Combinaison haute-L’algorithme Build
CBA GCB
IF
ABCG
E
D
HG
C
B
A
-Combinaison haute-L’algorithme Build
CBA GCB
IF
ABC
E
D
HG
C
B
AG
-Combinaison haute-L’algorithme Build
CBA CB
IF
ABC
E
D
HG
-Combinaison haute-L’algorithme Build
CBA CB
IF
ABC
E
D
HG
B
A
C
-Combinaison haute-L’algorithme Build
CBA CB
IF
E
D
HG
B
A
C
C AB
-Combinaison haute-L’algorithme Build
IF
E
D
HG
CB
FEDCBA IDHGCB
A
Build Supertree
-Combinaison haute-L’algorithme Build
EDCBA DCEBA
-Combinaison haute-L’algorithme Build
EDCBA DCEBA
EC
B
A D
-Combinaison haute-L’algorithme Build
EDCBA DCEBA
EC
B
A D
D ABCE
-Combinaison haute-L’algorithme Build
ECBA CEBA
D ABCE
-Combinaison haute-L’algorithme Build
ECBA CEBA
D ABCEEC
B
A ?
-Combinaison haute-L’algorithme MC
ECBA CEBA
D ABCEEC
B
A
1
11
12
-Combinaison haute-L’algorithme MC
ECBA CEBA
D ABCEE
AB
C
1
1
-Combinaison haute-L’algorithme MC
ECBA CEBA
D ABCEE
AB
C
-Combinaison haute-L’algorithme MC
ECBA CEBA
D
AB
E
AB
C
EC
-Combinaison haute-L’algorithme MC
D
A
EC
B
EDCBA DCEBA
Min Cut Supertree
Combinaison haute
MRP [Baum 1992, Ragan 1992]
MRF [Chen & al. 2001]
0100101001?11?0100
01??0?011?0???0010
??0011010??001????
0100010??00??001?0
111??0101000????01
-Combinaison haute-La méthode MRP
FEDCBA IDHGCB
-Combinaison haute-La méthode MRP
FEDCBA IDHGCB
ABCDEFGHI
110000???
-Combinaison haute-La méthode MRP
FEDCBA IDHGCB
ABCDEFGHI
110000???
111000???
-Combinaison haute-La méthode MRP
FEDCBA IDHGCB
ABCDEFGHI
110000???
111000???
111100???
111110???
111110???
-Combinaison haute-La méthode MRP
FEDCBA IDHGCB
ABCDEFGHI
110000???
111000???
111100???
111110???
111111???
?110??000
?110??100
?110??110
?111??110
?111??111
-Combinaison haute-La méthode MRP
FEDCBA IDHGCB
ABCGHDIEF
110??0?00
111??0?00
111??1?00
111??1?10
111??1?11
?110000??
?111000??
?111100??
?111110??
?111111??
E
F
ID
HG
C
BA
MRP Supertree
Combinaison haute
Méthode de quadruplets [Robinson-Rechavi & Graur 2001]
Combinaison moyenne
Créer à partir de chaque gène un artefact mathématique afin d’amalgamer plus aisément l’information évolutive contenue dans chacun d’entre eux
Combinaison moyenne
Méthode de quadruplet [Schmidt 2003]
Combinaison moyenne
« Average consensus supertree » [Lapointe & Cucumel 1997]
Combinaison moyenne-ACS-
Combinaison moyenne-ACS-
• Soit C une collection de k matrices de distance {1 , 2 , 3 , … , k }
• Détection de la paire de taxons ab telle que p existe pour tout p = 1, … , k
• Normalisation des k matrices:
p := p / p
• Moyenne simple pour chaque paire ij
ij
ab
ij ij ab
ij ij ij
Combinaison moyenne-ACS-
A 0.00
B 0.27 0.00
C 0.34 0.28 0.00
A 0.00
B 0.43 0.00
D 0.52 0.04 0.00
1ij
2ij
Combinaison moyenne-ACS-
A 0.00
B 0.27 0.00
C 0.34 0.28 0.00
A 0.00
B 0.43 0.00
D 0.52 0.04 0.00
La paire AB est présente dans les deux matrices
1ij
2ij
Combinaison moyenne-ACS-
A 0.00
B 1.00 0.00
C 1.25 1.03 0.00
A 0.00
B 1.00 0.00
D 1.21 0.09 0.00
1ij
2
La paire AB est présente dans les deux matrices
ij
Combinaison moyenne-ACS-
A 0.00
B 1.00 0.00
C 1.25 1.03 0.00
A 0.00
B 1.00 0.00
D 1.21 0.09 0.00
1ij
2
ij
A 0.00
B 1.00 0.00
C 1.25 1.03 0.00
D 0.52 0.09 **** 0.00
ij
But
• Déformer les matrices sans modifier l’information topologique contenue dans chacune d’entre elles
• Effectuer une moyenne simple des différentes distances entre espèces
Déformation d’une matrice de distance
• Soient ( ) une matrice de distance et T la topologie de l’arbre inféré par une méthode de distance MD à partir de ( ).
• La multiplication de ( ) par un facteur de dilatation ne modifie pas la topologie T de l’arbre inféré par MD.
ij
ij
ij
Déformation d’une matrice de distance-Dilatation-
Déformation d’une matrice de distance-Dilatation-
Déformation d’une matrice de distance
• Soient ( ) une matrice de distance et T la topologie de l’arbre inféré par une méthode de distance MD à partir de ( ).
• L’ajout d’une matrice à centre (a + a ) à ( ) ne modifie (presque) pas la topologie T de l’arbre inféré par MD.
ij
ij
i j
ij
Déformation d’une matrice de distance-Ajustement-
i
j
a
a
i
j
(a + a )ji
Déformation d’une matrice de distance-Ajustement-
+
Déformation d’une matrice de distance-Ajustement-
+ =
Déformation d’une matrice de distance-Ajustement-
Critère mathématique
• On cherche à minimiser le critère:
où
Contraintes
Le problème est contraint afin de ne pas globalement déformer les matrices sources.
Solution
• Système linéaire
• n+2k+nk+1 variables pour k matrices définies sur n espèces
• Résolution du système en O(n3 k3)
Combinaison moyenne
« Super Distance Matrix » [Criscuolo, Douzery, Berry & Gascuel 2004]
Meilleur type de combinaison?
• Combinaison basse:– Meilleur critère : vraisemblance– Meilleur logiciel ML : PhyML [Guindon & Gascuel 2003]
• Combinaison haute:– Meilleure méthode : MRP – Meilleur logiciel MP : TNT [Goloboff et al. 2003]
• Combinaison moyenne:– Meilleure méthode : SDM– Meilleur logiciel de distance : Fitch [Felsenstein 1993]
Simulations: protocole
r8s [Sanderson 2002]
Création d’un arbre modèle ultramétrique UT (i.e. respectant l’horloge moléculaire)
Simulations: protocole
Obtention d’une phylogénie non-ultramétrique AT (i.e. présentant une déviation par rapport à l’horloge moléculaire) par multiplication de chaque branche par (1+X)
Simulations: protocole
Obtention de k phylogénies ATp par multiplication de chaque branche par Xp/TBL
Simulations: protocole
Seq-Gen [Rambaut & Grassly 1997]
Génération de k alignements de b sites suivant le modèle K2P avec b tirée aléatoirement entre 200 et 1000
Simulations: protocole
Délétion des taxons avec une probabilité de 25%, 50% et 75%
Simulations: protocole
PhyML PAUP*
r8s TNT
SDM Fitch PhyML
SDM Fitch
Critère métrique
• Erreur de type 1: nombre de mauvais quadruplets résolus inférés
• Erreur de type 2 : nombre de quadruplets résolus non inférés
• Distance quadruplet : moyenne des deux types d’erreurs normalisée par C
5
4
a
b
c
d
e
c
a
b
e
d
Arbre modèle
Arbre inféré
ac|bd
ac|be
ab|cd
ab|ceet2 et1
dq = (2+2)/C4 = 0.8
n
Simulations: résultats25% délétion
0,00
0,05
0,10
0,15
0,20
0,25
0,30
2 4 6 8 10 12 14 16 18 20
SDM + Fitch +PhyML
SDM + Fitch
PhyML + MRPk=2 k=20
SDM + Fitch
<1s
+ 1s
2s
+ 23s
SDM + Fitch + PhyML
<1s
+ 1s
+ 89s
2s
+ 23s
+ 808s
PhyML + MRP
38s
+ 4s
267s
+ 23s
Simulations: résultats50% délétion
0,00
0,05
0,10
0,15
0,20
0,25
0,30
2 4 6 8 10 12 14 16 18 20
SDM + Fitch +PhyML
SDM + Fitch
PhyML + MRPk=2 k=20
SDM + Fitch
<1s
+ 6s
4s
+ 24s
SDM + Fitch + PhyML
<1s
+ 6s
+ 69s
4s
+ 24s
+ 1130s
PhyML + MRP
12s
+ 3s
153s
+ 18s
Simulations: résultats75% délétion
0,00
0,05
0,10
0,15
0,20
0,25
0,30
2 4 6 8 10 12 14 16 18 20
SDM + Fitch +PhyML
SDM + Fitch
PhyML + MRPk=2 k=20
SDM + Fitch
<1s
+ 1s
2s
+ 23s
SDM + Fitch + PhyML
<1s
+ 1s
+ 21s
2s
+ 23s
+ 2134s
PhyML + MRP
6s
+ 1s
86s
+ 15s
Le jeu de données de Gatesy et al.
Jeu de données biologique
• 75 mammifères placentaires• 7 Afrothériens en groupe externe• 33 segments de gènes nucléaires• 5 segments de gènes mitochondriaux• 37018 sites• 72620 gaps• 6327 + 1826731 caractères absents
68.64 % de données manquantes
Application: la phylogénie des mammifères
Carnivores
Périssodactyles
Camélidés
Suidés
Ruminants
Hippopotamidés
Cétacés
Rongeurs
Primates
[Gatesy et al. 2002]
Application: la phylogénie des mammifères
Carnivores
Périssodactyles
Camélidés
Suidés
Ruminants
Hippopotamidés
Cétacés
Rongeurs
Primates
MERCI…