Lamalgamation de données génomiques et la construction de phylogénies synthétiques Alexis...

126
L’amalgamation de données génomiques et la construction de phylogénies synthétiques Alexis Criscuolo (ISEM, LIRMM)

Transcript of Lamalgamation de données génomiques et la construction de phylogénies synthétiques Alexis...

Page 1: Lamalgamation de données génomiques et la construction de phylogénies synthétiques Alexis Criscuolo (ISEM, LIRMM)

L’amalgamation de données génomiques et la construction de

phylogénies synthétiques

Alexis Criscuolo (ISEM, LIRMM)

Page 2: Lamalgamation de données génomiques et la construction de phylogénies synthétiques Alexis Criscuolo (ISEM, LIRMM)

Qui suis je?

• Alexis Criscuolo

– Licence de Mathématiques (UM2)– DEA d’Informatique (LIRMM)– 3ième année de Doctorat en Biologie (ISEM-LIRMM)

Les chefs: Emmanuel Douzery (ISEM) Olivier Gascuel (LIRMM)

Vincent Berry (LIRMM)

Page 3: Lamalgamation de données génomiques et la construction de phylogénies synthétiques Alexis Criscuolo (ISEM, LIRMM)

Plan

• Initiation à la phylogénie – Parcimonie (pour les info)– Vraisemblance (pour les info et les matheux)– Distance (pour les matheux)

• Description des différentes méthodes d’amalgamation de données génomiques– Combinaison basse (pour les bio)– Combinaison haute (pour les info)– Combinaison moyenne (pour les matheux)

• Comparaison des performances des combinaisons basse, moyenne et haute (pour les bio)

• Application à la phylogénie des mammifères (pour

les curieux)

Page 4: Lamalgamation de données génomiques et la construction de phylogénies synthétiques Alexis Criscuolo (ISEM, LIRMM)

La phylogénie en théorie

OieRat

Homme

Chat

Porc

Dauphin

Cheval

Chameau

Page 5: Lamalgamation de données génomiques et la construction de phylogénies synthétiques Alexis Criscuolo (ISEM, LIRMM)

La phylogénie en pratique

Page 6: Lamalgamation de données génomiques et la construction de phylogénies synthétiques Alexis Criscuolo (ISEM, LIRMM)

La phylogénie en pratique

ame AGCTA

Rat AGCTGCAA

Lama ATC-GCTC

Oie CTGCGGAT

Page 7: Lamalgamation de données génomiques et la construction de phylogénies synthétiques Alexis Criscuolo (ISEM, LIRMM)

La phylogénie en pratique

Reconstruction phylogénétique

Page 8: Lamalgamation de données génomiques et la construction de phylogénies synthétiques Alexis Criscuolo (ISEM, LIRMM)

La phylogénie en pratique

Oie

Oie

MammifèresMammifères

Page 9: Lamalgamation de données génomiques et la construction de phylogénies synthétiques Alexis Criscuolo (ISEM, LIRMM)

La phylogénie en pratique

Reconstruction phylogénétique

Page 10: Lamalgamation de données génomiques et la construction de phylogénies synthétiques Alexis Criscuolo (ISEM, LIRMM)

La phylogénie en pratique

Reconstruction phylogénétique

1- Critère de parcimonie

> Minimiser le nombre de mutations le long de l’arbre

Page 11: Lamalgamation de données génomiques et la construction de phylogénies synthétiques Alexis Criscuolo (ISEM, LIRMM)

La parcimonie

0123456789

Rat ATGCCGTGTG

Porc TTGCTCAGCG

Chameau TTGACCTGCG

Dauphin TTGCTCTGCG

Chat TTGCCCTTTG

Homme ATACCGTGTG

Cheval TGGCCCTTTG

Page 12: Lamalgamation de données génomiques et la construction de phylogénies synthétiques Alexis Criscuolo (ISEM, LIRMM)

La parcimonie

04578

Rat ACGGT

Porc TTCGC

Chameau TCCGC

Dauphin TTCGC

Chat TCCTT

Homme ACGGT

Cheval TCCTT

1236 9

TGCT G

TGCA G

TGAT G

TGCT G

TGCT G

TACT G

GGCT G

Page 13: Lamalgamation de données génomiques et la construction de phylogénies synthétiques Alexis Criscuolo (ISEM, LIRMM)

La parcimonie

04578

Rat ACGGT

Porc TTCGC

Chameau TCCGC

Dauphin TTCGC

Chat TCCTT

Homme ACGGT

Cheval TCCTT

1236 9

TGCT G

TGCA G

TGAT G

TGCT G

TGCT G

TACT G

GGCT G

Page 14: Lamalgamation de données génomiques et la construction de phylogénies synthétiques Alexis Criscuolo (ISEM, LIRMM)

La parcimonie

Rat

Homme

Chat

Porc

Dauphin

Cheval

Chameau

0:A<>T

5:G<>C

4:C<>T

7:G<>T

8:C<>T

04578

Rat ACGGT

Porc TTCGC

Chameau TCCGC

Dauphin TTCGC

Chat TCCTT

Homme ACGGT

Cheval TCCTT

1236 9

TGCT G

TGCA G

TGAT G

TGCT G

TGCT G

TACT G

GGCT G

Page 15: Lamalgamation de données génomiques et la construction de phylogénies synthétiques Alexis Criscuolo (ISEM, LIRMM)

La parcimonie

0123456789

Rat ATGCCGTGTG

Porc TTGCTCAGCG

Chameau TTGACCTGCG

Dauphin TTGCTCTGCG

Chat TTGCCCTTTG

Homme ATACCGTGTG

Cheval TGGCCCTTTG Rat

Homme

Chat

Porc

Dauphin

Cheval

Chameau

0:A<>T

5:G<>C

4:C<>T

7:G<>T

8:C<>T

L’arbre le plus parcimonieux

longueur = 9

Page 16: Lamalgamation de données génomiques et la construction de phylogénies synthétiques Alexis Criscuolo (ISEM, LIRMM)

La phylogénie en pratique

Reconstruction phylogénétique

2- Critère de vraisemblance

> Optimiser la vraisemblance de l’arbre

Page 17: Lamalgamation de données génomiques et la construction de phylogénies synthétiques Alexis Criscuolo (ISEM, LIRMM)

La vraisemblance

01 i m

W AT...GC G GTG...TG

X AT...GC G GTG...TG

Y AT...GC A GTG...TG

Z AT...GC A GTG...TG

Page 18: Lamalgamation de données génomiques et la construction de phylogénies synthétiques Alexis Criscuolo (ISEM, LIRMM)

La vraisemblance

01 i m

W AT...GC G GTG...TG

X AT...GC G GTG...TG

Y AT...GC A GTG...TG

Z AT...GC A GTG...TG

Page 19: Lamalgamation de données génomiques et la construction de phylogénies synthétiques Alexis Criscuolo (ISEM, LIRMM)

La vraisemblance

01 i m

W AT...GC G GTG...TG

X AT...GC G GTG...TG

Y AT...GC A GTG...TG

Z AT...GC A GTG...TG

X

W Y

Z

T

L( T[i] ) = vraisemblance de la topologie T pour le site i

= probabilité P( i | T ) que i ait été généré par la topologie T

Page 20: Lamalgamation de données génomiques et la construction de phylogénies synthétiques Alexis Criscuolo (ISEM, LIRMM)

G

G

A

A

A AP

G

G

A

A

C AP

G

G

A

A

G AP

G

G

A

A

T AP

G

G

A

A

A C+ P

G

G

A

A

C C+ P

G

G

A

A

G C + P

G

G

A

A

T C+ P

G

G

A

A

A G

G

G

A

A

C G

G

G

A

A

G G

G

G

A

A

T G

G

G

A

A

A T

G

G

A

A

C T

G

G

A

A

G T

G

G

A

A

T T

+ P

+ P

+ P

+ P

+ P

+ P

+ P

+ P

+

+

+

La vraisemblance

=

Page 21: Lamalgamation de données génomiques et la construction de phylogénies synthétiques Alexis Criscuolo (ISEM, LIRMM)

= A P(AA)² P(AC) P(AG)²

G

G

A

A

C APG G AA

CA

P=

La vraisemblance

A C G T

A - a b d

C a - c e

G b c - f

T d e f -

Page 22: Lamalgamation de données génomiques et la construction de phylogénies synthétiques Alexis Criscuolo (ISEM, LIRMM)

But: trouver la topologie T qui maximise la fonction de vraisemblance

m

L(T) = L( T[i] )

Site i = 0

La vraisemblance

Page 23: Lamalgamation de données génomiques et la construction de phylogénies synthétiques Alexis Criscuolo (ISEM, LIRMM)

La phylogénie en pratique

Reconstruction phylogénétique

3- Critère de distances

> S’approcher au plus d’une matrice additive

Page 24: Lamalgamation de données génomiques et la construction de phylogénies synthétiques Alexis Criscuolo (ISEM, LIRMM)

Distance évolutive

Homme ATGCCGTGTG

Cheval ATGCGGACTA

Canard CTGCACCTAG

Page 25: Lamalgamation de données génomiques et la construction de phylogénies synthétiques Alexis Criscuolo (ISEM, LIRMM)

Distance évolutive

AA/n

0.1

AC/n

0.0

AG/n

0.0

AT/n

0.0

CA/n

0.0

CC/n

0.1

CG/n

0.1

CT/n

0.0

GA/n

0.1

GC/n

0.1

GG/n

0.2

GT/n

0.0

TA/n

0.1

TC/n

0.0

TG/n

0.0

TT/n

0.2

F(Homme,Cheval)Homme ATGCCGTGTG

Cheval ATGCGGACTA

Canard CTGCACCTAG

Page 26: Lamalgamation de données génomiques et la construction de phylogénies synthétiques Alexis Criscuolo (ISEM, LIRMM)

Distance évolutive

Homme ATGCCGTGTG

Cheval ATGCGGACTA

Canard CTGCACCTAG

AA/n

0.1

AC/n

0.0

AG/n

0.0

AT/n

0.0

CA/n

0.0

CC/n

0.1

CG/n

0.1

CT/n

0.0

GA/n

0.1

GC/n

0.1

GG/n

0.2

GT/n

0.0

TA/n

0.1

TC/n

0.0

TG/n

0.0

TT/n

0.2

F(Homme,Cheval)

Homme 0.0

Cheval 0.4 0.0

Canard 0.6 0.7 0.0

Distance de Hamming: D = 1 - (AA/n + CC/n + GG/n + TT/n)

Page 27: Lamalgamation de données génomiques et la construction de phylogénies synthétiques Alexis Criscuolo (ISEM, LIRMM)

Distance évolutive

Homme ATGCCGTGTG

Cheval ATGCGGACTA

Canard CTGCCCTTAG

AA/n

0.1

AC/n

0.0

AG/n

0.0

AT/n

0.0

CA/n

0.0

CC/n

0.1

CG/n

0.1

CT/n

0.0

GA/n

0.1

GC/n

0.1

GG/n

0.2

GT/n

0.0

TA/n

0.1

TC/n

0.0

TG/n

0.0

TT/n

0.2

F(Homme,Cheval)

Homme 0.00

Cheval 0.57 0.00

Canard 1.20 2.03 0.00

Distance de Jukes & Cantor: (-3/4) ln (1 – 4D/3)Distance de Hamming: D = 1 - (AA/n + CC/n + GG/n + TT/n)

Page 28: Lamalgamation de données génomiques et la construction de phylogénies synthétiques Alexis Criscuolo (ISEM, LIRMM)

Distance arborée

• D = 0

• D = D

• D D + D

• D + D max (D + D , D + D )

ii

ij ji

ij ik ki

ij kl il jk ik jl

i

l

k

j

Page 29: Lamalgamation de données génomiques et la construction de phylogénies synthétiques Alexis Criscuolo (ISEM, LIRMM)

Méthode de distance

Minimiser le critère mathématique suivant [Fitch & Margoliash 1967]:

w ( - D )2

ij ij ij ij

afin d’obtenir la représentation arborée qui

se rapproche le plus de la matrice ij

Page 30: Lamalgamation de données génomiques et la construction de phylogénies synthétiques Alexis Criscuolo (ISEM, LIRMM)

NP-complétude

• Parcimonie

• Vraisemblance

• Distance

Critères NP-complets

Page 31: Lamalgamation de données génomiques et la construction de phylogénies synthétiques Alexis Criscuolo (ISEM, LIRMM)

Heuristiques de recherche

1- Inférer « rapidement » un arbre de départ T0

2- Modifier la topologie de T0

pour obtenir la topologie T1

3- Si T1 améliore le critère, alors T0 T1 puis aller à l’étape 2

1

2 - 3

4- Continuer jusqu’à convergence du critère

4

Page 32: Lamalgamation de données génomiques et la construction de phylogénies synthétiques Alexis Criscuolo (ISEM, LIRMM)

Des jeux de données multiples

Gène 1Taxon 1

Taxon i

Page 33: Lamalgamation de données génomiques et la construction de phylogénies synthétiques Alexis Criscuolo (ISEM, LIRMM)

Des jeux de données multiples

Gène 1Taxon 1

Taxon i

Taxon j

Page 34: Lamalgamation de données génomiques et la construction de phylogénies synthétiques Alexis Criscuolo (ISEM, LIRMM)

Des jeux de données multiples

Gène 1 Gène 2Taxon 1

Taxon i

Taxon j

Page 35: Lamalgamation de données génomiques et la construction de phylogénies synthétiques Alexis Criscuolo (ISEM, LIRMM)

Des jeux de données multiples

Gène 1 Gène 2Taxon 1

Taxon i

Taxon j

Taxon n

Page 36: Lamalgamation de données génomiques et la construction de phylogénies synthétiques Alexis Criscuolo (ISEM, LIRMM)

Des jeux de données multiples

Gène 1 Gène 3Gène 2Taxon 1

Taxon i

Taxon j

Taxon n

Page 37: Lamalgamation de données génomiques et la construction de phylogénies synthétiques Alexis Criscuolo (ISEM, LIRMM)

Des jeux de données multiples

Gène 1 Gène 3Gène 2Taxon 1

Taxon n

Page 38: Lamalgamation de données génomiques et la construction de phylogénies synthétiques Alexis Criscuolo (ISEM, LIRMM)

Des jeux de données multiplesmais incomplets

Gène 1 Gène 3Gène 2Taxon 1

Taxon n

Page 39: Lamalgamation de données génomiques et la construction de phylogénies synthétiques Alexis Criscuolo (ISEM, LIRMM)

Des jeux de données multiplesmais incomplets

• Disparition de certains gènes au cours de l’histoire évolutive

Page 40: Lamalgamation de données génomiques et la construction de phylogénies synthétiques Alexis Criscuolo (ISEM, LIRMM)

Des jeux de données multiplesmais incomplets

• Disparition de certains gènes au cours de l’histoire évolutive

• Absence de séquençage de certains gènes pour une espèce donnée

Page 41: Lamalgamation de données génomiques et la construction de phylogénies synthétiques Alexis Criscuolo (ISEM, LIRMM)

Comment obtenir une phylogénie à partir d’un jeu de données incomplet?

Gène 1 Gène 3Gène 2Taxon 1

Taxon n

Page 42: Lamalgamation de données génomiques et la construction de phylogénies synthétiques Alexis Criscuolo (ISEM, LIRMM)

Combinaison basse(pour les bio)

Se débrouiller pour construire des phylogénies à partir des alignements de séquences incomplètes

Page 43: Lamalgamation de données génomiques et la construction de phylogénies synthétiques Alexis Criscuolo (ISEM, LIRMM)

Combinaison basse

« total evidence »

Page 44: Lamalgamation de données génomiques et la construction de phylogénies synthétiques Alexis Criscuolo (ISEM, LIRMM)

Combinaison haute(pour les info)

Récupérer les phylogénies reconstruites à partir de chaque gène et tenter de les amalgamer en une seule phylogénie synthétique: le superarbre

Page 45: Lamalgamation de données génomiques et la construction de phylogénies synthétiques Alexis Criscuolo (ISEM, LIRMM)

Combinaison haute

Consensus

{ X | Y }

Page 46: Lamalgamation de données génomiques et la construction de phylogénies synthétiques Alexis Criscuolo (ISEM, LIRMM)

-Combinaison haute-Consensus strict

A B C D A B C D

A B C D

Page 47: Lamalgamation de données génomiques et la construction de phylogénies synthétiques Alexis Criscuolo (ISEM, LIRMM)

-Combinaison haute-Consensus strict

A B C D A B C D

A B C D

Page 48: Lamalgamation de données génomiques et la construction de phylogénies synthétiques Alexis Criscuolo (ISEM, LIRMM)

-Combinaison haute-Consensus majoritaire

A B C D

A B D C

A B C D

A B C D

Page 49: Lamalgamation de données génomiques et la construction de phylogénies synthétiques Alexis Criscuolo (ISEM, LIRMM)

-Combinaison haute-Consensus majoritaire

A B C D

A B D C

A B C D

A B C D

Page 50: Lamalgamation de données génomiques et la construction de phylogénies synthétiques Alexis Criscuolo (ISEM, LIRMM)

-Combinaison haute-Consensus majoritaire

A B C D

A B D C

A B C D

A B C D

Page 51: Lamalgamation de données génomiques et la construction de phylogénies synthétiques Alexis Criscuolo (ISEM, LIRMM)

Combinaison haute

« Build » [Aho et al. 1981]

« Min Cut Supertree » [Semple & Steel 2000]

« Modified Min Cut Supertree » [Page 2001]

« Build With Distance » [Willson 2004]

Page 52: Lamalgamation de données génomiques et la construction de phylogénies synthétiques Alexis Criscuolo (ISEM, LIRMM)

-Combinaison haute-L’algorithme Build

FEDCBA IDHGCB

Page 53: Lamalgamation de données génomiques et la construction de phylogénies synthétiques Alexis Criscuolo (ISEM, LIRMM)

-Combinaison haute-L’algorithme Build

FEDCBA IDHGCB

G

EDC

B

AH

F

I

Page 54: Lamalgamation de données génomiques et la construction de phylogénies synthétiques Alexis Criscuolo (ISEM, LIRMM)

-Combinaison haute-L’algorithme Build

FEDCBA IDHGCB

G

EDC

B

AH

F

I

IF ABCDEGH

Page 55: Lamalgamation de données génomiques et la construction de phylogénies synthétiques Alexis Criscuolo (ISEM, LIRMM)

-Combinaison haute-L’algorithme Build

EDCBA DHGCB

IF ABCDEGH

Page 56: Lamalgamation de données génomiques et la construction de phylogénies synthétiques Alexis Criscuolo (ISEM, LIRMM)

-Combinaison haute-L’algorithme Build

EDCBA DHGCB

IF ABCDEGH

G

EDC

B

AH

Page 57: Lamalgamation de données génomiques et la construction de phylogénies synthétiques Alexis Criscuolo (ISEM, LIRMM)

-Combinaison haute-L’algorithme Build

EDCBA DHGCB

IF

ABCDGH

G

EDC

B

AH

E

Page 58: Lamalgamation de données génomiques et la construction de phylogénies synthétiques Alexis Criscuolo (ISEM, LIRMM)

-Combinaison haute-L’algorithme Build

DCBA DHGCB

IF

ABCDGHE

Page 59: Lamalgamation de données génomiques et la construction de phylogénies synthétiques Alexis Criscuolo (ISEM, LIRMM)

-Combinaison haute-L’algorithme Build

DCBA DHGCB

IF

ABCDGHE

G

DC

B

AH

Page 60: Lamalgamation de données génomiques et la construction de phylogénies synthétiques Alexis Criscuolo (ISEM, LIRMM)

-Combinaison haute-L’algorithme Build

DCBA DHGCB

IF

ABCGH

E

GD

C

B

AH

Page 61: Lamalgamation de données génomiques et la construction de phylogénies synthétiques Alexis Criscuolo (ISEM, LIRMM)

-Combinaison haute-L’algorithme Build

CBA HGCB

IF

ABCGH

E

D

Page 62: Lamalgamation de données génomiques et la construction de phylogénies synthétiques Alexis Criscuolo (ISEM, LIRMM)

-Combinaison haute-L’algorithme Build

CBA HGCB

IF

ABCGH

E

DG

C

B

AH

Page 63: Lamalgamation de données génomiques et la construction de phylogénies synthétiques Alexis Criscuolo (ISEM, LIRMM)

-Combinaison haute-L’algorithme Build

CBA HGCB

IF

ABCG

E

DG

C

B

AH

H

Page 64: Lamalgamation de données génomiques et la construction de phylogénies synthétiques Alexis Criscuolo (ISEM, LIRMM)

-Combinaison haute-L’algorithme Build

CBA GCB

IF

ABCG

E

D

H

Page 65: Lamalgamation de données génomiques et la construction de phylogénies synthétiques Alexis Criscuolo (ISEM, LIRMM)

-Combinaison haute-L’algorithme Build

CBA GCB

IF

ABCG

E

D

HG

C

B

A

Page 66: Lamalgamation de données génomiques et la construction de phylogénies synthétiques Alexis Criscuolo (ISEM, LIRMM)

-Combinaison haute-L’algorithme Build

CBA GCB

IF

ABC

E

D

HG

C

B

AG

Page 67: Lamalgamation de données génomiques et la construction de phylogénies synthétiques Alexis Criscuolo (ISEM, LIRMM)

-Combinaison haute-L’algorithme Build

CBA CB

IF

ABC

E

D

HG

Page 68: Lamalgamation de données génomiques et la construction de phylogénies synthétiques Alexis Criscuolo (ISEM, LIRMM)

-Combinaison haute-L’algorithme Build

CBA CB

IF

ABC

E

D

HG

B

A

C

Page 69: Lamalgamation de données génomiques et la construction de phylogénies synthétiques Alexis Criscuolo (ISEM, LIRMM)

-Combinaison haute-L’algorithme Build

CBA CB

IF

E

D

HG

B

A

C

C AB

Page 70: Lamalgamation de données génomiques et la construction de phylogénies synthétiques Alexis Criscuolo (ISEM, LIRMM)

-Combinaison haute-L’algorithme Build

IF

E

D

HG

CB

FEDCBA IDHGCB

A

Build Supertree

Page 71: Lamalgamation de données génomiques et la construction de phylogénies synthétiques Alexis Criscuolo (ISEM, LIRMM)

-Combinaison haute-L’algorithme Build

EDCBA DCEBA

Page 72: Lamalgamation de données génomiques et la construction de phylogénies synthétiques Alexis Criscuolo (ISEM, LIRMM)

-Combinaison haute-L’algorithme Build

EDCBA DCEBA

EC

B

A D

Page 73: Lamalgamation de données génomiques et la construction de phylogénies synthétiques Alexis Criscuolo (ISEM, LIRMM)

-Combinaison haute-L’algorithme Build

EDCBA DCEBA

EC

B

A D

D ABCE

Page 74: Lamalgamation de données génomiques et la construction de phylogénies synthétiques Alexis Criscuolo (ISEM, LIRMM)

-Combinaison haute-L’algorithme Build

ECBA CEBA

D ABCE

Page 75: Lamalgamation de données génomiques et la construction de phylogénies synthétiques Alexis Criscuolo (ISEM, LIRMM)

-Combinaison haute-L’algorithme Build

ECBA CEBA

D ABCEEC

B

A ?

Page 76: Lamalgamation de données génomiques et la construction de phylogénies synthétiques Alexis Criscuolo (ISEM, LIRMM)

-Combinaison haute-L’algorithme MC

ECBA CEBA

D ABCEEC

B

A

1

11

12

Page 77: Lamalgamation de données génomiques et la construction de phylogénies synthétiques Alexis Criscuolo (ISEM, LIRMM)

-Combinaison haute-L’algorithme MC

ECBA CEBA

D ABCEE

AB

C

1

1

Page 78: Lamalgamation de données génomiques et la construction de phylogénies synthétiques Alexis Criscuolo (ISEM, LIRMM)

-Combinaison haute-L’algorithme MC

ECBA CEBA

D ABCEE

AB

C

Page 79: Lamalgamation de données génomiques et la construction de phylogénies synthétiques Alexis Criscuolo (ISEM, LIRMM)

-Combinaison haute-L’algorithme MC

ECBA CEBA

D

AB

E

AB

C

EC

Page 80: Lamalgamation de données génomiques et la construction de phylogénies synthétiques Alexis Criscuolo (ISEM, LIRMM)

-Combinaison haute-L’algorithme MC

D

A

EC

B

EDCBA DCEBA

Min Cut Supertree

Page 81: Lamalgamation de données génomiques et la construction de phylogénies synthétiques Alexis Criscuolo (ISEM, LIRMM)

Combinaison haute

MRP [Baum 1992, Ragan 1992]

MRF [Chen & al. 2001]

0100101001?11?0100

01??0?011?0???0010

??0011010??001????

0100010??00??001?0

111??0101000????01

Page 82: Lamalgamation de données génomiques et la construction de phylogénies synthétiques Alexis Criscuolo (ISEM, LIRMM)

-Combinaison haute-La méthode MRP

FEDCBA IDHGCB

Page 83: Lamalgamation de données génomiques et la construction de phylogénies synthétiques Alexis Criscuolo (ISEM, LIRMM)

-Combinaison haute-La méthode MRP

FEDCBA IDHGCB

ABCDEFGHI

110000???

Page 84: Lamalgamation de données génomiques et la construction de phylogénies synthétiques Alexis Criscuolo (ISEM, LIRMM)

-Combinaison haute-La méthode MRP

FEDCBA IDHGCB

ABCDEFGHI

110000???

111000???

Page 85: Lamalgamation de données génomiques et la construction de phylogénies synthétiques Alexis Criscuolo (ISEM, LIRMM)

-Combinaison haute-La méthode MRP

FEDCBA IDHGCB

ABCDEFGHI

110000???

111000???

111100???

111110???

111110???

Page 86: Lamalgamation de données génomiques et la construction de phylogénies synthétiques Alexis Criscuolo (ISEM, LIRMM)

-Combinaison haute-La méthode MRP

FEDCBA IDHGCB

ABCDEFGHI

110000???

111000???

111100???

111110???

111111???

?110??000

?110??100

?110??110

?111??110

?111??111

Page 87: Lamalgamation de données génomiques et la construction de phylogénies synthétiques Alexis Criscuolo (ISEM, LIRMM)

-Combinaison haute-La méthode MRP

FEDCBA IDHGCB

ABCGHDIEF

110??0?00

111??0?00

111??1?00

111??1?10

111??1?11

?110000??

?111000??

?111100??

?111110??

?111111??

E

F

ID

HG

C

BA

MRP Supertree

Page 88: Lamalgamation de données génomiques et la construction de phylogénies synthétiques Alexis Criscuolo (ISEM, LIRMM)

Combinaison haute

Méthode de quadruplets [Robinson-Rechavi & Graur 2001]

Page 89: Lamalgamation de données génomiques et la construction de phylogénies synthétiques Alexis Criscuolo (ISEM, LIRMM)

Combinaison moyenne

Créer à partir de chaque gène un artefact mathématique afin d’amalgamer plus aisément l’information évolutive contenue dans chacun d’entre eux

Page 90: Lamalgamation de données génomiques et la construction de phylogénies synthétiques Alexis Criscuolo (ISEM, LIRMM)

Combinaison moyenne

Méthode de quadruplet [Schmidt 2003]

Page 91: Lamalgamation de données génomiques et la construction de phylogénies synthétiques Alexis Criscuolo (ISEM, LIRMM)

Combinaison moyenne

« Average consensus supertree » [Lapointe & Cucumel 1997]

Page 92: Lamalgamation de données génomiques et la construction de phylogénies synthétiques Alexis Criscuolo (ISEM, LIRMM)

Combinaison moyenne-ACS-

Page 93: Lamalgamation de données génomiques et la construction de phylogénies synthétiques Alexis Criscuolo (ISEM, LIRMM)

Combinaison moyenne-ACS-

• Soit C une collection de k matrices de distance {1 , 2 , 3 , … , k }

• Détection de la paire de taxons ab telle que p existe pour tout p = 1, … , k

• Normalisation des k matrices:

p := p / p

• Moyenne simple pour chaque paire ij

ij

ab

ij ij ab

ij ij ij

Page 94: Lamalgamation de données génomiques et la construction de phylogénies synthétiques Alexis Criscuolo (ISEM, LIRMM)

Combinaison moyenne-ACS-

A 0.00

B 0.27 0.00

C 0.34 0.28 0.00

A 0.00

B 0.43 0.00

D 0.52 0.04 0.00

1ij

2ij

Page 95: Lamalgamation de données génomiques et la construction de phylogénies synthétiques Alexis Criscuolo (ISEM, LIRMM)

Combinaison moyenne-ACS-

A 0.00

B 0.27 0.00

C 0.34 0.28 0.00

A 0.00

B 0.43 0.00

D 0.52 0.04 0.00

La paire AB est présente dans les deux matrices

1ij

2ij

Page 96: Lamalgamation de données génomiques et la construction de phylogénies synthétiques Alexis Criscuolo (ISEM, LIRMM)

Combinaison moyenne-ACS-

A 0.00

B 1.00 0.00

C 1.25 1.03 0.00

A 0.00

B 1.00 0.00

D 1.21 0.09 0.00

1ij

2

La paire AB est présente dans les deux matrices

ij

Page 97: Lamalgamation de données génomiques et la construction de phylogénies synthétiques Alexis Criscuolo (ISEM, LIRMM)

Combinaison moyenne-ACS-

A 0.00

B 1.00 0.00

C 1.25 1.03 0.00

A 0.00

B 1.00 0.00

D 1.21 0.09 0.00

1ij

2

ij

A 0.00

B 1.00 0.00

C 1.25 1.03 0.00

D 0.52 0.09 **** 0.00

ij

Page 98: Lamalgamation de données génomiques et la construction de phylogénies synthétiques Alexis Criscuolo (ISEM, LIRMM)

But

• Déformer les matrices sans modifier l’information topologique contenue dans chacune d’entre elles

• Effectuer une moyenne simple des différentes distances entre espèces

Page 99: Lamalgamation de données génomiques et la construction de phylogénies synthétiques Alexis Criscuolo (ISEM, LIRMM)

Déformation d’une matrice de distance

• Soient ( ) une matrice de distance et T la topologie de l’arbre inféré par une méthode de distance MD à partir de ( ).

• La multiplication de ( ) par un facteur de dilatation ne modifie pas la topologie T de l’arbre inféré par MD.

ij

ij

ij

Page 100: Lamalgamation de données génomiques et la construction de phylogénies synthétiques Alexis Criscuolo (ISEM, LIRMM)

Déformation d’une matrice de distance-Dilatation-

Page 101: Lamalgamation de données génomiques et la construction de phylogénies synthétiques Alexis Criscuolo (ISEM, LIRMM)

Déformation d’une matrice de distance-Dilatation-

Page 102: Lamalgamation de données génomiques et la construction de phylogénies synthétiques Alexis Criscuolo (ISEM, LIRMM)

Déformation d’une matrice de distance

• Soient ( ) une matrice de distance et T la topologie de l’arbre inféré par une méthode de distance MD à partir de ( ).

• L’ajout d’une matrice à centre (a + a ) à ( ) ne modifie (presque) pas la topologie T de l’arbre inféré par MD.

ij

ij

i j

ij

Page 103: Lamalgamation de données génomiques et la construction de phylogénies synthétiques Alexis Criscuolo (ISEM, LIRMM)

Déformation d’une matrice de distance-Ajustement-

Page 104: Lamalgamation de données génomiques et la construction de phylogénies synthétiques Alexis Criscuolo (ISEM, LIRMM)

i

j

a

a

i

j

(a + a )ji

Déformation d’une matrice de distance-Ajustement-

Page 105: Lamalgamation de données génomiques et la construction de phylogénies synthétiques Alexis Criscuolo (ISEM, LIRMM)

+

Déformation d’une matrice de distance-Ajustement-

Page 106: Lamalgamation de données génomiques et la construction de phylogénies synthétiques Alexis Criscuolo (ISEM, LIRMM)

+ =

Déformation d’une matrice de distance-Ajustement-

Page 107: Lamalgamation de données génomiques et la construction de phylogénies synthétiques Alexis Criscuolo (ISEM, LIRMM)

Critère mathématique

• On cherche à minimiser le critère:

Page 108: Lamalgamation de données génomiques et la construction de phylogénies synthétiques Alexis Criscuolo (ISEM, LIRMM)

Contraintes

Le problème est contraint afin de ne pas globalement déformer les matrices sources.

Page 109: Lamalgamation de données génomiques et la construction de phylogénies synthétiques Alexis Criscuolo (ISEM, LIRMM)

Solution

• Système linéaire

• n+2k+nk+1 variables pour k matrices définies sur n espèces

• Résolution du système en O(n3 k3)

Page 110: Lamalgamation de données génomiques et la construction de phylogénies synthétiques Alexis Criscuolo (ISEM, LIRMM)

Combinaison moyenne

« Super Distance Matrix » [Criscuolo, Douzery, Berry & Gascuel 2004]

Page 111: Lamalgamation de données génomiques et la construction de phylogénies synthétiques Alexis Criscuolo (ISEM, LIRMM)

Meilleur type de combinaison?

• Combinaison basse:– Meilleur critère : vraisemblance– Meilleur logiciel ML : PhyML [Guindon & Gascuel 2003]

• Combinaison haute:– Meilleure méthode : MRP – Meilleur logiciel MP : TNT [Goloboff et al. 2003]

• Combinaison moyenne:– Meilleure méthode : SDM– Meilleur logiciel de distance : Fitch [Felsenstein 1993]

Page 112: Lamalgamation de données génomiques et la construction de phylogénies synthétiques Alexis Criscuolo (ISEM, LIRMM)

Simulations: protocole

r8s [Sanderson 2002]

Création d’un arbre modèle ultramétrique UT (i.e. respectant l’horloge moléculaire)

Page 113: Lamalgamation de données génomiques et la construction de phylogénies synthétiques Alexis Criscuolo (ISEM, LIRMM)

Simulations: protocole

Obtention d’une phylogénie non-ultramétrique AT (i.e. présentant une déviation par rapport à l’horloge moléculaire) par multiplication de chaque branche par (1+X)

Page 114: Lamalgamation de données génomiques et la construction de phylogénies synthétiques Alexis Criscuolo (ISEM, LIRMM)

Simulations: protocole

Obtention de k phylogénies ATp par multiplication de chaque branche par Xp/TBL

Page 115: Lamalgamation de données génomiques et la construction de phylogénies synthétiques Alexis Criscuolo (ISEM, LIRMM)

Simulations: protocole

Seq-Gen [Rambaut & Grassly 1997]

Génération de k alignements de b sites suivant le modèle K2P avec b tirée aléatoirement entre 200 et 1000

Page 116: Lamalgamation de données génomiques et la construction de phylogénies synthétiques Alexis Criscuolo (ISEM, LIRMM)

Simulations: protocole

Délétion des taxons avec une probabilité de 25%, 50% et 75%

Page 117: Lamalgamation de données génomiques et la construction de phylogénies synthétiques Alexis Criscuolo (ISEM, LIRMM)

Simulations: protocole

PhyML PAUP*

r8s TNT

SDM Fitch PhyML

SDM Fitch

Page 118: Lamalgamation de données génomiques et la construction de phylogénies synthétiques Alexis Criscuolo (ISEM, LIRMM)

Critère métrique

• Erreur de type 1: nombre de mauvais quadruplets résolus inférés

• Erreur de type 2 : nombre de quadruplets résolus non inférés

• Distance quadruplet : moyenne des deux types d’erreurs normalisée par C

5

4

a

b

c

d

e

c

a

b

e

d

Arbre modèle

Arbre inféré

ac|bd

ac|be

ab|cd

ab|ceet2 et1

dq = (2+2)/C4 = 0.8

n

Page 119: Lamalgamation de données génomiques et la construction de phylogénies synthétiques Alexis Criscuolo (ISEM, LIRMM)

Simulations: résultats25% délétion

0,00

0,05

0,10

0,15

0,20

0,25

0,30

2 4 6 8 10 12 14 16 18 20

SDM + Fitch +PhyML

SDM + Fitch

PhyML + MRPk=2 k=20

SDM + Fitch

<1s

+ 1s

2s

+ 23s

SDM + Fitch + PhyML

<1s

+ 1s

+ 89s

2s

+ 23s

+ 808s

PhyML + MRP

38s

+ 4s

267s

+ 23s

Page 120: Lamalgamation de données génomiques et la construction de phylogénies synthétiques Alexis Criscuolo (ISEM, LIRMM)

Simulations: résultats50% délétion

0,00

0,05

0,10

0,15

0,20

0,25

0,30

2 4 6 8 10 12 14 16 18 20

SDM + Fitch +PhyML

SDM + Fitch

PhyML + MRPk=2 k=20

SDM + Fitch

<1s

+ 6s

4s

+ 24s

SDM + Fitch + PhyML

<1s

+ 6s

+ 69s

4s

+ 24s

+ 1130s

PhyML + MRP

12s

+ 3s

153s

+ 18s

Page 121: Lamalgamation de données génomiques et la construction de phylogénies synthétiques Alexis Criscuolo (ISEM, LIRMM)

Simulations: résultats75% délétion

0,00

0,05

0,10

0,15

0,20

0,25

0,30

2 4 6 8 10 12 14 16 18 20

SDM + Fitch +PhyML

SDM + Fitch

PhyML + MRPk=2 k=20

SDM + Fitch

<1s

+ 1s

2s

+ 23s

SDM + Fitch + PhyML

<1s

+ 1s

+ 21s

2s

+ 23s

+ 2134s

PhyML + MRP

6s

+ 1s

86s

+ 15s

Page 122: Lamalgamation de données génomiques et la construction de phylogénies synthétiques Alexis Criscuolo (ISEM, LIRMM)

Le jeu de données de Gatesy et al.

Page 123: Lamalgamation de données génomiques et la construction de phylogénies synthétiques Alexis Criscuolo (ISEM, LIRMM)

Jeu de données biologique

• 75 mammifères placentaires• 7 Afrothériens en groupe externe• 33 segments de gènes nucléaires• 5 segments de gènes mitochondriaux• 37018 sites• 72620 gaps• 6327 + 1826731 caractères absents

68.64 % de données manquantes

Page 124: Lamalgamation de données génomiques et la construction de phylogénies synthétiques Alexis Criscuolo (ISEM, LIRMM)

Application: la phylogénie des mammifères

Carnivores

Périssodactyles

Camélidés

Suidés

Ruminants

Hippopotamidés

Cétacés

Rongeurs

Primates

[Gatesy et al. 2002]

Page 125: Lamalgamation de données génomiques et la construction de phylogénies synthétiques Alexis Criscuolo (ISEM, LIRMM)

Application: la phylogénie des mammifères

Carnivores

Périssodactyles

Camélidés

Suidés

Ruminants

Hippopotamidés

Cétacés

Rongeurs

Primates

Page 126: Lamalgamation de données génomiques et la construction de phylogénies synthétiques Alexis Criscuolo (ISEM, LIRMM)

MERCI…