Assemblage ciblé de séquences : un problème - irisa.fr · PDF file2-3 Kb...

34
Assemblage ciblé de séquences : un problème d’optimisation d’actualité Jacques Nicolas Projet Inria Symbiose Rennes

Transcript of Assemblage ciblé de séquences : un problème - irisa.fr · PDF file2-3 Kb...

Page 1: Assemblage ciblé de séquences : un problème - irisa.fr · PDF file2-3 Kb + 8-10 Kb Fragments obtenus par ultrasons ou flux d’air haute pression. Shotgun hiérarchique 150Kb 2Kb

Assemblage ciblé de séquences : un problème d’optimisation d’actualité

Jacques NicolasProjet Inria Symbiose Rennes

Page 2: Assemblage ciblé de séquences : un problème - irisa.fr · PDF file2-3 Kb + 8-10 Kb Fragments obtenus par ultrasons ou flux d’air haute pression. Shotgun hiérarchique 150Kb 2Kb

Schéma de base de l’assemblage

Recherche de recouvrements

Page 3: Assemblage ciblé de séquences : un problème - irisa.fr · PDF file2-3 Kb + 8-10 Kb Fragments obtenus par ultrasons ou flux d’air haute pression. Shotgun hiérarchique 150Kb 2Kb

Shotgun

Sequencing reads =

paires de séquences ~ 600-700 b

Taille fragments =

2-3 Kb + 8-10 Kb

Fragments obtenus par ultrasons ou flux d’air haute pression

Page 4: Assemblage ciblé de séquences : un problème - irisa.fr · PDF file2-3 Kb + 8-10 Kb Fragments obtenus par ultrasons ou flux d’air haute pression. Shotgun hiérarchique 150Kb 2Kb

Shotgun hiérarchique

150Kb

2Kb

Carte physique

Gb

Shotgun

600b

Page 5: Assemblage ciblé de séquences : un problème - irisa.fr · PDF file2-3 Kb + 8-10 Kb Fragments obtenus par ultrasons ou flux d’air haute pression. Shotgun hiérarchique 150Kb 2Kb

Un peu d’histoire…• 1982 F. Sanger :

Technique du séquençage shotgun

• 1995 TIGR (C. Venter, R. Fleischmann) : Séquençage WGSS (Whole Genome Shotgun Sequencing) de Haemophilus influenzae (1.8Mb) avec des données «fusil à 2 coups » (double-barreled)

• 2000 E. Myers & al. : Séquençage WGSS de Drosophila melanogaster (135 Mb)

• 2001 E. Myers & al. : Séquençage WGSS de l’homme (3 Gb), 1er draft (controverse sur l’utilisation des données du séquençage publique)

Page 6: Assemblage ciblé de séquences : un problème - irisa.fr · PDF file2-3 Kb + 8-10 Kb Fragments obtenus par ultrasons ou flux d’air haute pression. Shotgun hiérarchique 150Kb 2Kb

Assemblage : multiplier les fragments(d’après G. Furelaud, Y.Esnault, Genoscope)

• Profondeur P = Σ longueurs fragments /Taille génomeExemple : 25 Mb séquencées pour génome de 5 Mb = profondeur 5 notée 5X

• + Profondeur≡ + lectures chevauchantes ≡ + génome couvert. ( minimum de « trous »). Toutefois, il arrive un seuil où il est plus économique de boucher les trous restants de façon ciblée (finition / finishing). Il peut y avoir aussi des biais de représentations qui font que certaines régions sont moins couvertes, voire pas du tout.

• Etude théorique : On suppose que la longueur moyenne n des lectures << la longueur L de la séquence cible et que le nombre de lectures K = P.L/n est très grand.

Alors on peut considérer que la probabilité qu’une base de la séquence cible soit représentée dans x lectures suit une loi de Poisson,

Pxe-P / x!En particulier pour 0 lectures, la proba est e-P.

Espérance nombre de trous #gap= K e-P

Taille moyenne des trous Lgap = n/P

Page 7: Assemblage ciblé de séquences : un problème - irisa.fr · PDF file2-3 Kb + 8-10 Kb Fragments obtenus par ultrasons ou flux d’air haute pression. Shotgun hiérarchique 150Kb 2Kb

Exemples de couvertures pour le séquençage

Génome humain (L=3. 109, n=1000)

• N=Σn=9.109: 3X K= 9.106

% d'ADN avec au moins 1 lecture : 1-e-3 = 95%#gap= 9.106 * 0.05 = 450 000 trous Lgap= 1000/3 =333 nucléotides

• N=Σn=1010: 10X K= 3.107

% d'ADN avec au moins 1 lecture : 1-e-10 > 99.99%#gap= 3.107 * 5.10-5 = 1 500 trous Lgap= 1000/10 = 100 nucléotides

Note : Pour des clones de 3Kb, on séquence ici uniquement 2Kb aux extrémités. Le taux de couverture des clones pour une couverture 10X de séquences atteint donc 15X.

Page 8: Assemblage ciblé de séquences : un problème - irisa.fr · PDF file2-3 Kb + 8-10 Kb Fragments obtenus par ultrasons ou flux d’air haute pression. Shotgun hiérarchique 150Kb 2Kb

Assemblage :un problème NP-complet/difficile

2 formulations simplifiées possibles

• Recherche de la plus courte superchaîne d’un ensemble de mots;

• Recherche de chemin hamiltoniendans un graphe (nœud = séquence clone, arc = chevauchement clone).

Page 9: Assemblage ciblé de séquences : un problème - irisa.fr · PDF file2-3 Kb + 8-10 Kb Fragments obtenus par ultrasons ou flux d’air haute pression. Shotgun hiérarchique 150Kb 2Kb

Illustration du problème abstrait d’assemblage

Chemin hamiltonien

A

B

C

D H

I

F

G E

Genome

ATACGACTTGC

{A=ACGA, B=CGAC, C=ACTT, D=CTTG, E=ATAC, H=TTGC}

Superchaîne la plus courte

E A B CD H

Page 10: Assemblage ciblé de séquences : un problème - irisa.fr · PDF file2-3 Kb + 8-10 Kb Fragments obtenus par ultrasons ou flux d’air haute pression. Shotgun hiérarchique 150Kb 2Kb

Programmes d’assemblage : état de l’art rapide

3 méthodes principales

• Algorithme glouton de recherche de superchaîne

• Algorithme Overlap-Layout-Consensus

• Algorithme de recherche de chemin eulérien

[1] M. Pop, S. L. Salzberg, M. Shumway. (2002) Genome SequenceAssembly: Algorithms and Issues. IEEE Computer 35(7), pp. 47-54.

Page 11: Assemblage ciblé de séquences : un problème - irisa.fr · PDF file2-3 Kb + 8-10 Kb Fragments obtenus par ultrasons ou flux d’air haute pression. Shotgun hiérarchique 150Kb 2Kb

Algorithme glouton d’assemblage

• Pour chaque paire de séquences Calculer un score d’appariement;

• Tant qu’il existe une paire de séquences appariableAssembler la meilleure paire.

Approche suivie dans Phrap [2], Staden package [3], TIGR assembler[4], CAP3[5][2] P. Green. (1994) Documentation for Phrap., http://bozeman.mbt.washington.edu/phrap.docs/phrap.html[3] J.K. Bonfield, K. F. Smith and R. Staden. (1995) A new DNA sequence assemblyprogram. Nucleic Acids Research, 23, pp 4992-4999.[4] G. Sutton, O. White, M. Adams and A. Kerlavage (1995) TIGR assembler: A new tool for assembling large shotgun sequencing projects. Genome Science & Technology, 1, pp. 9-19.[5] X. Huang and A. Madan. (1999) CAP3 : A DNA sequence assembly program. Genome Research, 9, pp. 868-877

Page 12: Assemblage ciblé de séquences : un problème - irisa.fr · PDF file2-3 Kb + 8-10 Kb Fragments obtenus par ultrasons ou flux d’air haute pression. Shotgun hiérarchique 150Kb 2Kb

Exemple algorithme glouton d’assemblage

Remarque : le calcul d’appariement pourrait être mis à jour à chaque pas de l’itération…

Page 13: Assemblage ciblé de séquences : un problème - irisa.fr · PDF file2-3 Kb + 8-10 Kb Fragments obtenus par ultrasons ou flux d’air haute pression. Shotgun hiérarchique 150Kb 2Kb

Algorithme Overlap-Layout-Consensus

– Overlap : trouver chaque paire de lectures qui se chevauchent;

– Layout : organiser ces lectures chevauchantes en une séquence contiguë (chemin hamiltonien);

– Consensus : corriger les erreurs et générer une séquence consensus.

Approche suivie dans Celera Assembler [6], Arachne [7][6] J. Kececioglu, and E. Myers (1995) Combinatorial algorithms for DNA sequence assembly. Algorithmica, vol 13, pp 7-51[7] S. Batzoglou et al.. (2002) Arachne : a Whole Genome ShotgunAssembler. Genome Research, vol 12, n°1, pp 179-189.

Page 14: Assemblage ciblé de séquences : un problème - irisa.fr · PDF file2-3 Kb + 8-10 Kb Fragments obtenus par ultrasons ou flux d’air haute pression. Shotgun hiérarchique 150Kb 2Kb

Exemple algorithme overlap-layout-consensus

12

3

45

6

78

9

1 2 3 4 5 6 7 8 9

1 2 3 1 3

2

13

2

ACCTGAACCTGAAGCTGAACCAGA

1 2 3 1 2 3 12

3

Overlap

Layout(oter la transitivité)

Consensus(correction d’erreurs)

Page 15: Assemblage ciblé de séquences : un problème - irisa.fr · PDF file2-3 Kb + 8-10 Kb Fragments obtenus par ultrasons ou flux d’air haute pression. Shotgun hiérarchique 150Kb 2Kb

• Le problème principal est celui de l’existence de répétitions dans les génomes.

• Ce problème est compliqué par la présence d’erreurs de séquençage et de polymorphisme sur les séquences.

De la difficulté de l’assemblage…

a b c

a c b

Tandem

Excision

Réarrangementa b dc e f

I II III IV

I III II IV

a d be c f

a

IIII

a

bc

dII

b c

a b c d

I II III

+

Page 16: Assemblage ciblé de séquences : un problème - irisa.fr · PDF file2-3 Kb + 8-10 Kb Fragments obtenus par ultrasons ou flux d’air haute pression. Shotgun hiérarchique 150Kb 2Kb

Algorithme de recherche de chemin eulérien

• Idée de base : construire l’automate reconnaissant tous les assemblages possibles, en partant d’un découpage en k-mers des fragments et en notant les enchaînements possibles (automate de De Bruijn).

• Réduire le problème de l’assemblage à celui de la reconnaissanced’un chemin eulérien, en transformant itérativement l’automate initial de façon à prendre en compte les contraintes d’enchaînement sur chacun des fragments (super-chemin).

• Approche suivie dans Euler [8],[9], seulement opérationnelle sur prokaryotes[8] P. Pevzner, H. Tang, M. Waterman (2001) A new approach to fragment assembly in DNA sequencing RECOMB 2001, Montréal pp 256-267[9] P. Pevzner, H. Tang, M. Waterman (2001) An Eulerian path approach to DNA fragment assembly Proceedings of the National Academy of Sciences, 98, pp9748-9753

Page 17: Assemblage ciblé de séquences : un problème - irisa.fr · PDF file2-3 Kb + 8-10 Kb Fragments obtenus par ultrasons ou flux d’air haute pression. Shotgun hiérarchique 150Kb 2Kb

Comparaison chemins hamiltoniens/eulériensRepeat 1 Repeat 2

Reads

k-mers

Page 18: Assemblage ciblé de séquences : un problème - irisa.fr · PDF file2-3 Kb + 8-10 Kb Fragments obtenus par ultrasons ou flux d’air haute pression. Shotgun hiérarchique 150Kb 2Kb

Graphes correspondant

Page 19: Assemblage ciblé de séquences : un problème - irisa.fr · PDF file2-3 Kb + 8-10 Kb Fragments obtenus par ultrasons ou flux d’air haute pression. Shotgun hiérarchique 150Kb 2Kb

Avantages de l’approche Euler

• Se focaliser sur les mots permet de construire des graphes qui factorisent les répétitions;

• La détection d’erreurs peut être gérée dès l’origine (étape consensus en premier);

• On considère à chaque fois des recouvrements maximaux de taille k-1;

• La recherche d’un chemin eulérien est un problème « facile ».

Page 20: Assemblage ciblé de séquences : un problème - irisa.fr · PDF file2-3 Kb + 8-10 Kb Fragments obtenus par ultrasons ou flux d’air haute pression. Shotgun hiérarchique 150Kb 2Kb

Principe de correction d’erreurs dans Euler

• Un k-mot est dit solide, s’il apparaît dans plus de M reads, où M est un seuil fixé;

• On corrige les reads pour ne prendre en compte que des k-mots solides et on réitère la construction des k-mots;

• On nettoie les reads de faible qualité ou chimériques;

• On réduit encore l’ensemble des k-mots en considérant les substitutions dans les readssupprimant 2k mots (direct et reverse)

Page 21: Assemblage ciblé de séquences : un problème - irisa.fr · PDF file2-3 Kb + 8-10 Kb Fragments obtenus par ultrasons ou flux d’air haute pression. Shotgun hiérarchique 150Kb 2Kb

Comparaison programmes d’assemblage/ Pevzner

Génome Neissera meningitidis2,2Mb 126 répétitions longues < 3832bSéquençage 10X 1,2% erreursGraphe Euler 9,5M sommets pour

k=2079 contigs couvrant 99,8%

Cap3 : 163 contigs (couvrant 97,2%), 14 faux (9,2%)

Tigr : >300 contigs (couvrant 87,4%), 9 faux (1,3%)

Euler : 149 contigs (couvrant 99,1%), 0 faux (0%)

234000 erreurs corrigées, 1452 erreurs introduites

Page 22: Assemblage ciblé de séquences : un problème - irisa.fr · PDF file2-3 Kb + 8-10 Kb Fragments obtenus par ultrasons ou flux d’air haute pression. Shotgun hiérarchique 150Kb 2Kb

Remarque avancée sur l’assemblage : comme problème NP-difficile

Dans [10] on trouve la définition d’une classe générale de problèmes d’optimisation, les problèmes de segmentation, dans laquelle tombe le problème d’assemblage.

Etant donné un domaine D (décisions) et une fonction à optimiser f (maxx f(x)), on peut lui associer un problème correspondant de segmentation :

Etant n fonctions f1,…fn et un entier k, trouver k éléments de D x1,…xkqui maximise la somme sur i des maxj fi(xj)

Une formulation équivalente est

Etant n fonctions f1,…fn et un entier k, trouver une partition de 1,…n en k éléments S1,…Sk qui maximise la somme sur j des maxx de la somme pour i dans Sj des fi(x)

[10] J. Kleinberg, C. Papadimitriou, P. Raghavan (march 2004) Segmentation problems Journal of the ACM, 51, n°2, pp 263-280

Page 23: Assemblage ciblé de séquences : un problème - irisa.fr · PDF file2-3 Kb + 8-10 Kb Fragments obtenus par ultrasons ou flux d’air haute pression. Shotgun hiérarchique 150Kb 2Kb

L’assemblage comme problème de segmentation (tentative…)

Soit D l’ensemble des assemblages de fragments.

Etant n qualités d’appariement de paires de fragments f1,…fn et un entier k,

Trouver une partition de 1,…n en k contigs S1,…Sk qui maximise la somme sur chaque contig j des max sur l’ensemble D des assemblages x de la somme pour les paires de fragments i dans Sj des qualités des fi de x.

On peut aussi variabiliser k en introduisant un paramètre p à la place de k et chercher à résoudre le problème de segmentation à k non fixé : trouver k et k éléments xj de D qui maximisent la somme des (max fi(xj)) - p.k

Page 24: Assemblage ciblé de séquences : un problème - irisa.fr · PDF file2-3 Kb + 8-10 Kb Fragments obtenus par ultrasons ou flux d’air haute pression. Shotgun hiérarchique 150Kb 2Kb

Echafaudages (scaffolds)

Exemple référence avec information supplémentaire « fusil à 2 coups » :[2] P. A. Pevzner, et H. Tang. Fragment assembly with double-barreled data. Bioinformatics, 17 : S225-S233 (ISMB 2001).

Gaps de séquençage

Gaps physiques

Scaffold 1 Scaffold 2

Gap physique

Gaps de séquençage

AVANT

APRES

Page 25: Assemblage ciblé de séquences : un problème - irisa.fr · PDF file2-3 Kb + 8-10 Kb Fragments obtenus par ultrasons ou flux d’air haute pression. Shotgun hiérarchique 150Kb 2Kb

Compagnons de clone (Clone-mates)

2 solutionsClone

InsertF R

FR

I II

R

I

F

II

F

II

R

I

Observation

Intérêt : on augmente virtuellement la taille des séquences considérées

Page 26: Assemblage ciblé de séquences : un problème - irisa.fr · PDF file2-3 Kb + 8-10 Kb Fragments obtenus par ultrasons ou flux d’air haute pression. Shotgun hiérarchique 150Kb 2Kb

Abstraction du problème scaffold• Etant donné un ensemble d’entités (contigs) munies

de contraintes (compagnons), les ordonnerlinéairement ou circulairement en vérifiant le maximum de contraintes.

• On construit le graphe (DAG) des contigs en les reliant par des arcs indiquant leurs orientations (directe/reverse) et ordres relatifs.

• Orienter revient à colorier les noeuds en relachantle minimum de contraintes (NP-difficile);

• Ordonner revient à enlever le minimum d’arcs pour vérifier les contraintes de distance (NP-difficile).

Page 27: Assemblage ciblé de séquences : un problème - irisa.fr · PDF file2-3 Kb + 8-10 Kb Fragments obtenus par ultrasons ou flux d’air haute pression. Shotgun hiérarchique 150Kb 2Kb

Exemple de coloriage sur graphe scaffold

• Le coloriage est faisable si le nombre d’arcs reverse dans un cycle est impair.

• L’ordre est faisable si les distances de branches parallèles sont compatibles.

Page 28: Assemblage ciblé de séquences : un problème - irisa.fr · PDF file2-3 Kb + 8-10 Kb Fragments obtenus par ultrasons ou flux d’air haute pression. Shotgun hiérarchique 150Kb 2Kb

Vers une voie d’assemblage plus ciblée : exemple des récepteurs olfactifs

• Les molécules odorantes sont détectées par des récepteurs olfactifs (OR) localisés sur les neurones sensitifs de la cavité nasale. Chaque odeur est reconnue par une combinatoire de récepteurs (relation m-n entre molécules et récepteurs).

• Il s’agit d’une très grande super-famille rattachée à la famille des récepteurs couplés aux protéines-G (RCPG), la plus importante des familles de récepteurs membranaires.

Page 29: Assemblage ciblé de séquences : un problème - irisa.fr · PDF file2-3 Kb + 8-10 Kb Fragments obtenus par ultrasons ou flux d’air haute pression. Shotgun hiérarchique 150Kb 2Kb

Le problème de découverte du répertoire complet des OR de chien

• En 2003, l’équipe génétique et développement (UMR 6061, P. Quignon, F. Galibert) publie un premier répertoire de gènes canins (~50%) à partir d’un séquençage 3X.

• 900 gènes sont connus chez l’homme, 1400 chez la souris. On estime qu’il y a 1800 gènes chez le rat et 1300 chez le chien.

• Un séquençage 7.6X du boxer est alors produit par le Broad Institute (ex WICGR, Whitehead+ MIT center for Genome research)36M fragments, 36GB de données.

• Comment repérer au plus vite les gènes d’ORsans attendre l’assemblage ? (1ère version publiée en juil2004, N50 contigs= 128 Kb / souris=22,3 MB)Difficulté à gérer entre degré de polymorphisme et taux d’erreurs de séquençage)

Page 30: Assemblage ciblé de séquences : un problème - irisa.fr · PDF file2-3 Kb + 8-10 Kb Fragments obtenus par ultrasons ou flux d’air haute pression. Shotgun hiérarchique 150Kb 2Kb

Approche de recherche de gènes• Construire des motifs de la famille par

apprentissage automatique;

• Rechercher la présence de motifs avec erreurs pour filtrer les fragments intéressants;

• Raccourcir et nettoyerles fragments de mauvaise qualité;

• Assembler le sous-ensemble de fragments filtré.

Page 31: Assemblage ciblé de séquences : un problème - irisa.fr · PDF file2-3 Kb + 8-10 Kb Fragments obtenus par ultrasons ou flux d’air haute pression. Shotgun hiérarchique 150Kb 2Kb

Quelques résultats sur le génome du chien(travail M. Giraud, E. Morin, E. Retout et A.-S. Valin

+ P. Quignon et M. Rimbaud)• Jeu d’apprentissage de 60 gènes;• Apprentissage par Pratt de 5 patterns

caractéristiques, dont la localisation est distribuée le long du gène;

• Filtrage de 63745 séquences par automates pondérés déduits des motifs (RDISK);

• Nettoyage conduisant à 61321 séquences;• Assemblage par CAP3 avec 97% d’identité des

recouvrements donnant 6727 contigs d’en moyenne 7 fragments;

• Finition par pattern le plus discriminant, Blast et filtrage manuel conduisant à 1050 gènes;

• Travail ensuite sur le génome assemblé quand disponible conduisant à 1000 gènes.

Page 32: Assemblage ciblé de séquences : un problème - irisa.fr · PDF file2-3 Kb + 8-10 Kb Fragments obtenus par ultrasons ou flux d’air haute pression. Shotgun hiérarchique 150Kb 2Kb

Avantages de la méthode

• La recherche sur le génome non assemblé donne a priori de meilleurs résultats que sur la version assemblée :

• On améliore le traitement des erreurs en recherchant des motifs caractéristiques et pas des similarités sur toute la séquence;

• On introduit via ces motifs une connaissance sur la structure des repeats;

• On réduit la taille du problème d’assemblage en sélectionnant un sous-ensemble des fragments.

Page 33: Assemblage ciblé de séquences : un problème - irisa.fr · PDF file2-3 Kb + 8-10 Kb Fragments obtenus par ultrasons ou flux d’air haute pression. Shotgun hiérarchique 150Kb 2Kb

Pour conclure…

• L’approche d’assemblage ciblée peut être appliquée à n’importe quelle famille de gènes;

• La méthode peut servir de point d’ancrage pour un assemblage global du génome (exploitation naturelle des connaissances sur les génomes déjà séquencés).

Page 34: Assemblage ciblé de séquences : un problème - irisa.fr · PDF file2-3 Kb + 8-10 Kb Fragments obtenus par ultrasons ou flux d’air haute pression. Shotgun hiérarchique 150Kb 2Kb

Trop tard pour le Nobel…Press Release: The 2004 Nobel Prize in Physiology or Medicine 4 October 2004The Nobel Assembly at Karolinska Institutet has today decided to award The Nobel Prize in Physiology or Medicine for 2004jointly to Richard Axel and Linda B. Buckfor their discoveries of "odorant receptors and the organization of the olfactory system"

SummaryThe sense of smell long remained the most enigmatic of our senses. The basic principles for recognizing

and remembering about 10,000 different odours were not understood. This year's Nobel Laureates in Physiology or Medicine have solved this problem and in a series of pioneering studies clarified how our olfactory system works. They discovered a large gene family, comprised of some 1,000 different genes (three per cent of our genes) that give rise to an equivalent number of olfactory receptor types. These receptors are located on the olfactory receptor cells, which occupy a small area in the upper part of the nasal epithelium and detect the inhaled odorant molecules. Each olfactory receptor cell possesses only one type of odorant receptor, and each receptor can detect a

limited number of odorant substances. Our olfactory receptor cells are therefore highly specialized for a few odours. The cells send thin nerve processes directly to distinct micro domains, glomeruli, in the olfactory bulb, the primary olfactory area of the brain. Receptor cells carrying the same type of receptor send their nerve processes to the same glomerulus. From these micro domains in the olfactory bulb the information is relayed further to other parts of the brain, where the information from several olfactory receptors is combined, forming a pattern. Therefore, we can consciously experience the smell of a lilac flower in the spring and recall this olfactory memory at other times. Richard Axel, New York, USA, and Linda Buck, Seattle, USA, published the fundamental paper jointly

in 1991, in which they described the very large family of about one thousand genes for odorant receptors. Axel and Buck have since worked independent of each other, and they have in several elegant, often parallel, studies clarified the olfactory system, from the molecular level to the organization of the cells. Reference Buck, L. and Axel, R. (1991) Cell, vol. 65, 175-187.