Lamalgamation de données génomiques et la construction de phylogénies synthétiques Alexis...

L’amalgamation de données génomiques et la construction de

phylogénies synthétiques

Alexis Criscuolo (ISEM, LIRMM)

Qui suis je?

• Alexis Criscuolo

– Licence de Mathématiques (UM2)– DEA d’Informatique (LIRMM)– 3ième année de Doctorat en Biologie (ISEM-LIRMM)

Les chefs: Emmanuel Douzery (ISEM) Olivier Gascuel (LIRMM)

Vincent Berry (LIRMM)

Plan

• Initiation à la phylogénie – Parcimonie (pour les info)– Vraisemblance (pour les info et les matheux)– Distance (pour les matheux)

• Description des différentes méthodes d’amalgamation de données génomiques– Combinaison basse (pour les bio)– Combinaison haute (pour les info)– Combinaison moyenne (pour les matheux)

• Comparaison des performances des combinaisons basse, moyenne et haute (pour les bio)

• Application à la phylogénie des mammifères (pour

les curieux)

La phylogénie en théorie

OieRat

Homme

Chat

Porc

Dauphin

Cheval

Chameau

La phylogénie en pratique


ame AGCTA

Rat AGCTGCAA

Lama ATC-GCTC

Oie CTGCGGAT


Reconstruction phylogénétique


Oie

Oie

MammifèresMammifères



1- Critère de parcimonie

> Minimiser le nombre de mutations le long de l’arbre

La parcimonie

0123456789

Rat ATGCCGTGTG

Porc TTGCTCAGCG

Chameau TTGACCTGCG

Dauphin TTGCTCTGCG

Chat TTGCCCTTTG

Homme ATACCGTGTG

Cheval TGGCCCTTTG

La parcimonie

04578

Rat ACGGT

Porc TTCGC

Chameau TCCGC

Dauphin TTCGC

Chat TCCTT

Homme ACGGT

Cheval TCCTT

1236 9

TGCT G

TGCA G

TGAT G

TGCT G

TGCT G

TACT G

GGCT G

La parcimonie

Rat

Homme

Chat

Porc

Dauphin

Cheval

Chameau

0:A<>T

5:G<>C

4:C<>T

7:G<>T

8:C<>T

04578

Rat ACGGT

Porc TTCGC

Chameau TCCGC

Dauphin TTCGC

Chat TCCTT

Homme ACGGT

Cheval TCCTT

1236 9

TGCT G

TGCA G

TGAT G

TGCT G

TGCT G

TACT G

GGCT G

La parcimonie

0123456789

Rat ATGCCGTGTG

Porc TTGCTCAGCG

Chameau TTGACCTGCG

Dauphin TTGCTCTGCG

Chat TTGCCCTTTG

Homme ATACCGTGTG

Cheval TGGCCCTTTG Rat

Homme

Chat

Porc

Dauphin

Cheval

Chameau

0:A<>T

5:G<>C

4:C<>T

7:G<>T

8:C<>T

L’arbre le plus parcimonieux

longueur = 9



2- Critère de vraisemblance

> Optimiser la vraisemblance de l’arbre

La vraisemblance

01 i m

W AT...GC G GTG...TG

X AT...GC G GTG...TG

Y AT...GC A GTG...TG

Z AT...GC A GTG...TG

La vraisemblance

01 i m

W AT...GC G GTG...TG

X AT...GC G GTG...TG

Y AT...GC A GTG...TG

Z AT...GC A GTG...TG

X

W Y

Z

T

L( T[i] ) = vraisemblance de la topologie T pour le site i

= probabilité P( i | T ) que i ait été généré par la topologie T

G

G

A

A

A AP

G

G

A

A

C AP

G

G

A

A

G AP

G

G

A

A

T AP

G

G

A

A

A C+ P

G

G

A

A

C C+ P

G

G

A

A

G C + P

G

G

A

A

T C+ P

G

G

A

A

A G

G

G

A

A

C G

G

G

A

A

G G

G

G

A

A

T G

G

G

A

A

A T

G

G

A

A

C T

G

G

A

A

G T

G

G

A

A

T T

+ P

+ P

+ P

+ P

+ P

+ P

+ P

+ P

+

+

+

La vraisemblance

=

= A P(AA)² P(AC) P(AG)²

G

G

A

A

C APG G AA

CA

P=

La vraisemblance

A C G T

A - a b d

C a - c e

G b c - f

T d e f -

But: trouver la topologie T qui maximise la fonction de vraisemblance

m

L(T) = L( T[i] )

Site i = 0

La vraisemblance



3- Critère de distances

> S’approcher au plus d’une matrice additive

Distance évolutive

Homme ATGCCGTGTG

Cheval ATGCGGACTA

Canard CTGCACCTAG

Distance évolutive

AA/n

0.1

AC/n

0.0

AG/n

0.0

AT/n

0.0

CA/n

0.0

CC/n

0.1

CG/n

0.1

CT/n

0.0

GA/n

0.1

GC/n

0.1

GG/n

0.2

GT/n

0.0

TA/n

0.1

TC/n

0.0

TG/n

0.0

TT/n

0.2

F(Homme,Cheval)Homme ATGCCGTGTG

Cheval ATGCGGACTA

Canard CTGCACCTAG

Distance évolutive

Homme ATGCCGTGTG

Cheval ATGCGGACTA

Canard CTGCACCTAG

AA/n

0.1

AC/n

0.0

AG/n

0.0

AT/n

0.0

CA/n

0.0

CC/n

0.1

CG/n

0.1

CT/n

0.0

GA/n

0.1

GC/n

0.1

GG/n

0.2

GT/n

0.0

TA/n

0.1

TC/n

0.0

TG/n

0.0

TT/n

0.2

F(Homme,Cheval)

Homme 0.0

Cheval 0.4 0.0

Canard 0.6 0.7 0.0

Distance de Hamming: D = 1 - (AA/n + CC/n + GG/n + TT/n)

Distance évolutive

Homme ATGCCGTGTG

Cheval ATGCGGACTA

Canard CTGCCCTTAG

AA/n

0.1

AC/n

0.0

AG/n

0.0

AT/n

0.0

CA/n

0.0

CC/n

0.1

CG/n

0.1

CT/n

0.0

GA/n

0.1

GC/n

0.1

GG/n

0.2

GT/n

0.0

TA/n

0.1

TC/n

0.0

TG/n

0.0

TT/n

0.2

F(Homme,Cheval)

Homme 0.00

Cheval 0.57 0.00

Canard 1.20 2.03 0.00

Distance de Jukes & Cantor: (-3/4) ln (1 – 4D/3)Distance de Hamming: D = 1 - (AA/n + CC/n + GG/n + TT/n)

Distance arborée

• D = 0

• D = D

• D D + D

• D + D max (D + D , D + D )

ii

ij ji

ij ik ki

ij kl il jk ik jl

i

l

k

j

Méthode de distance

Minimiser le critère mathématique suivant [Fitch & Margoliash 1967]:

w ( - D )2

ij ij ij ij

afin d’obtenir la représentation arborée qui

se rapproche le plus de la matrice ij

NP-complétude

• Parcimonie

• Vraisemblance

• Distance

Critères NP-complets

Heuristiques de recherche

1- Inférer « rapidement » un arbre de départ T0

2- Modifier la topologie de T0

pour obtenir la topologie T1

3- Si T1 améliore le critère, alors T0 T1 puis aller à l’étape 2

1

2 - 3

4- Continuer jusqu’à convergence du critère

4

Des jeux de données multiples

Gène 1Taxon 1

Taxon i


Gène 1Taxon 1

Taxon i

Taxon j


Gène 1 Gène 2Taxon 1

Taxon i

Taxon j


Gène 1 Gène 2Taxon 1

Taxon i

Taxon j

Taxon n


Gène 1 Gène 3Gène 2Taxon 1

Taxon i

Taxon j

Taxon n



Taxon n

Des jeux de données multiplesmais incomplets


Taxon n


• Disparition de certains gènes au cours de l’histoire évolutive


• Disparition de certains gènes au cours de l’histoire évolutive

• Absence de séquençage de certains gènes pour une espèce donnée

Comment obtenir une phylogénie à partir d’un jeu de données incomplet?


Taxon n

Combinaison basse(pour les bio)

Se débrouiller pour construire des phylogénies à partir des alignements de séquences incomplètes

Combinaison basse

« total evidence »

Combinaison haute(pour les info)

Récupérer les phylogénies reconstruites à partir de chaque gène et tenter de les amalgamer en une seule phylogénie synthétique: le superarbre

Combinaison haute

Consensus

{ X | Y }

-Combinaison haute-Consensus strict

A B C D A B C D

A B C D

-Combinaison haute-Consensus majoritaire

A B C D

A B D C

A B C D

A B C D

Combinaison haute

« Build » [Aho et al. 1981]

« Min Cut Supertree » [Semple & Steel 2000]

« Modified Min Cut Supertree » [Page 2001]

« Build With Distance » [Willson 2004]

-Combinaison haute-L’algorithme Build

FEDCBA IDHGCB


FEDCBA IDHGCB

G

EDC

B

AH

F

I


FEDCBA IDHGCB

G

EDC

B

AH

F

I

IF ABCDEGH


EDCBA DHGCB

IF ABCDEGH


EDCBA DHGCB

IF ABCDEGH

G

EDC

B

AH


EDCBA DHGCB

IF

ABCDGH

G

EDC

B

AH

E


DCBA DHGCB

IF

ABCDGHE


DCBA DHGCB

IF

ABCDGHE

G

DC

B

AH


DCBA DHGCB

IF

ABCGH

E

GD

C

B

AH


CBA HGCB

IF

ABCGH

E

D


CBA HGCB

IF

ABCGH

E

DG

C

B

AH


CBA HGCB

IF

ABCG

E

DG

C

B

AH

H


CBA GCB

IF

ABCG

E

D

H


CBA GCB

IF

ABCG

E

D

HG

C

B

A


CBA GCB

IF

ABC

E

D

HG

C

B

AG


CBA CB

IF

ABC

E

D

HG


CBA CB

IF

ABC

E

D

HG

B

A

C


CBA CB

IF

E

D

HG

B

A

C

C AB


IF

E

D

HG

CB

FEDCBA IDHGCB

A

Build Supertree


EDCBA DCEBA


EDCBA DCEBA

EC

B

A D


EDCBA DCEBA

EC

B

A D

D ABCE


ECBA CEBA

D ABCE


ECBA CEBA

D ABCEEC

B

A ?

-Combinaison haute-L’algorithme MC

ECBA CEBA

D ABCEEC

B

A

1

11

12


ECBA CEBA

D ABCEE

AB

C

1

1


ECBA CEBA

D ABCEE

AB

C


ECBA CEBA

D

AB

E

AB

C

EC


D

A

EC

B

EDCBA DCEBA

Min Cut Supertree

Combinaison haute

MRP [Baum 1992, Ragan 1992]

MRF [Chen & al. 2001]

0100101001?11?0100

01??0?011?0???0010

??0011010??001????

0100010??00??001?0

111??0101000????01

-Combinaison haute-La méthode MRP

FEDCBA IDHGCB


FEDCBA IDHGCB

ABCDEFGHI

110000???


FEDCBA IDHGCB

ABCDEFGHI

110000???

111000???


FEDCBA IDHGCB

ABCDEFGHI

110000???

111000???

111100???

111110???

111110???


FEDCBA IDHGCB

ABCDEFGHI

110000???

111000???

111100???

111110???

111111???

?110??000

?110??100

?110??110

?111??110

?111??111


FEDCBA IDHGCB

ABCGHDIEF

110??0?00

111??0?00

111??1?00

111??1?10

111??1?11

?110000??

?111000??

?111100??

?111110??

?111111??

E

F

ID

HG

C

BA

MRP Supertree

Combinaison haute

Méthode de quadruplets [Robinson-Rechavi & Graur 2001]

Combinaison moyenne

Créer à partir de chaque gène un artefact mathématique afin d’amalgamer plus aisément l’information évolutive contenue dans chacun d’entre eux

Combinaison moyenne

Méthode de quadruplet [Schmidt 2003]

Combinaison moyenne

« Average consensus supertree » [Lapointe & Cucumel 1997]

Combinaison moyenne-ACS-


• Soit C une collection de k matrices de distance {1 , 2 , 3 , … , k }

• Détection de la paire de taxons ab telle que p existe pour tout p = 1, … , k

• Normalisation des k matrices:

p := p / p

• Moyenne simple pour chaque paire ij

ij

ab

ij ij ab

ij ij ij


A 0.00

B 0.27 0.00

C 0.34 0.28 0.00

A 0.00

B 0.43 0.00

D 0.52 0.04 0.00

1ij

2ij


A 0.00

B 0.27 0.00

C 0.34 0.28 0.00

A 0.00

B 0.43 0.00

D 0.52 0.04 0.00

La paire AB est présente dans les deux matrices

1ij

2ij


A 0.00

B 1.00 0.00

C 1.25 1.03 0.00

A 0.00

B 1.00 0.00

D 1.21 0.09 0.00

1ij

2

La paire AB est présente dans les deux matrices

ij


A 0.00

B 1.00 0.00

C 1.25 1.03 0.00

A 0.00

B 1.00 0.00

D 1.21 0.09 0.00

1ij

2

ij

A 0.00

B 1.00 0.00

C 1.25 1.03 0.00

D 0.52 0.09 **** 0.00

ij

But

• Déformer les matrices sans modifier l’information topologique contenue dans chacune d’entre elles

• Effectuer une moyenne simple des différentes distances entre espèces

Déformation d’une matrice de distance

• Soient ( ) une matrice de distance et T la topologie de l’arbre inféré par une méthode de distance MD à partir de ( ).

• La multiplication de ( ) par un facteur de dilatation ne modifie pas la topologie T de l’arbre inféré par MD.

ij

ij

ij

Déformation d’une matrice de distance-Dilatation-

Déformation d’une matrice de distance

• Soient ( ) une matrice de distance et T la topologie de l’arbre inféré par une méthode de distance MD à partir de ( ).

• L’ajout d’une matrice à centre (a + a ) à ( ) ne modifie (presque) pas la topologie T de l’arbre inféré par MD.

ij

ij

i j

ij

Déformation d’une matrice de distance-Ajustement-

i

j

a

a

i

j

(a + a )ji


+


+ =


Critère mathématique

• On cherche à minimiser le critère:

où

Contraintes

Le problème est contraint afin de ne pas globalement déformer les matrices sources.

Solution

• Système linéaire

• n+2k+nk+1 variables pour k matrices définies sur n espèces

• Résolution du système en O(n3 k3)

Combinaison moyenne

« Super Distance Matrix » [Criscuolo, Douzery, Berry & Gascuel 2004]

Meilleur type de combinaison?

• Combinaison basse:– Meilleur critère : vraisemblance– Meilleur logiciel ML : PhyML [Guindon & Gascuel 2003]

• Combinaison haute:– Meilleure méthode : MRP – Meilleur logiciel MP : TNT [Goloboff et al. 2003]

• Combinaison moyenne:– Meilleure méthode : SDM– Meilleur logiciel de distance : Fitch [Felsenstein 1993]

Simulations: protocole

r8s [Sanderson 2002]

Création d’un arbre modèle ultramétrique UT (i.e. respectant l’horloge moléculaire)


Obtention d’une phylogénie non-ultramétrique AT (i.e. présentant une déviation par rapport à l’horloge moléculaire) par multiplication de chaque branche par (1+X)


Obtention de k phylogénies ATp par multiplication de chaque branche par Xp/TBL


Seq-Gen [Rambaut & Grassly 1997]

Génération de k alignements de b sites suivant le modèle K2P avec b tirée aléatoirement entre 200 et 1000


Délétion des taxons avec une probabilité de 25%, 50% et 75%


PhyML PAUP*

r8s TNT

SDM Fitch PhyML

SDM Fitch

Critère métrique

• Erreur de type 1: nombre de mauvais quadruplets résolus inférés

• Erreur de type 2 : nombre de quadruplets résolus non inférés

• Distance quadruplet : moyenne des deux types d’erreurs normalisée par C

5

4

a

b

c

d

e

c

a

b

e

d

Arbre modèle

Arbre inféré

ac|bd

ac|be

ab|cd

ab|ceet2 et1

dq = (2+2)/C4 = 0.8

n

Simulations: résultats25% délétion

0,00

0,05

0,10

0,15

0,20

0,25

0,30

2 4 6 8 10 12 14 16 18 20

SDM + Fitch +PhyML

SDM + Fitch

PhyML + MRPk=2 k=20

SDM + Fitch

<1s

+ 1s

2s

+ 23s

SDM + Fitch + PhyML

<1s

+ 1s

+ 89s

2s

+ 23s

+ 808s

PhyML + MRP

38s

+ 4s

267s

+ 23s


0,00

0,05

0,10

0,15

0,20

0,25

0,30

2 4 6 8 10 12 14 16 18 20

SDM + Fitch +PhyML

SDM + Fitch

PhyML + MRPk=2 k=20

SDM + Fitch

<1s

+ 6s

4s

+ 24s

SDM + Fitch + PhyML

<1s

+ 6s

+ 69s

4s

+ 24s

+ 1130s

PhyML + MRP

12s

+ 3s

153s

+ 18s


0,00

0,05

0,10

0,15

0,20

0,25

0,30

2 4 6 8 10 12 14 16 18 20

SDM + Fitch +PhyML

SDM + Fitch

PhyML + MRPk=2 k=20

SDM + Fitch

<1s

+ 1s

2s

+ 23s

SDM + Fitch + PhyML

<1s

+ 1s

+ 21s

2s

+ 23s

+ 2134s

PhyML + MRP

6s

+ 1s

86s

+ 15s

Le jeu de données de Gatesy et al.

Jeu de données biologique

• 75 mammifères placentaires• 7 Afrothériens en groupe externe• 33 segments de gènes nucléaires• 5 segments de gènes mitochondriaux• 37018 sites• 72620 gaps• 6327 + 1826731 caractères absents

68.64 % de données manquantes

Application: la phylogénie des mammifères

Carnivores

Périssodactyles

Camélidés

Suidés

Ruminants

Hippopotamidés

Cétacés

Rongeurs

Primates

[Gatesy et al. 2002]

Application: la phylogénie des mammifères

Carnivores

Périssodactyles

Camélidés

Suidés

Ruminants

Hippopotamidés

Cétacés

Rongeurs

Primates

MERCI…

Lamalgamation de données génomiques et la construction de phylogénies synthétiques Alexis...

Documents

Transcript of Lamalgamation de données génomiques et la construction de phylogénies synthétiques Alexis...