L’algorithme de Kandel et al. pour la génération de séquences génomiques aléatoires.
description
Transcript of L’algorithme de Kandel et al. pour la génération de séquences génomiques aléatoires.
L’algorithme de Kandel et al. pour la génération de séquences génomiques
aléatoires.
Licences (L3) parcours Bioinformatique et Biostatistiques 2006-2007
Alain Denise et Stéphane Vialette
Université Paris-Sud 11
Introduction : motivations et généralités
G G C 5’C 5’T T AAA A TTC C GGC C GGC C GGA A TTT T AAC C GGA A TT
MT
3’3’
Structure de l’ADN
Promoteur Origine de réplication
ARNtARNrIntrons...
Analyse d’un génome
5’ 3’
Gène protéique
ARNm
Protéine
transcription
traduction
• Faire l’inventaire du contenu génétique. • Puis comprendre son organisation, les relations entre structure et fonction de l’information, les processus qui permettent son expression.
CACCACAATTGCAAAACTCCCAAGCCCGTCCACAAAAGAAGGACGGATTCTCACAGTTCATGCCATCTGCAACTACGAAGAACCCATATGCCCAGTAACTCGACCGACTGGTTGTAATTTTACAAAAAGAGAGACAATTAAGAAAAGAAACAAGCGCCAGGCTTCCGTATCCCAGTTTTTCATCTCACTTTCTGGGCACGATTGTAATAATACTTCATGATAATAACTAAACTATATAAGTAGTGTCTCATCCGTAAATATACATTTAGACAGATTCTTGTATTTTCTCCGGGCAATTTTTAACTTTTTTTCTGTTAGGGCACATGACACTTGCCTATTATGGACAGCCAGTAAAGATGTGCCCATATATTGCCCCCTTTACGCTCTCTGCCAGTATTAGTGGGAAAAAAAAAACTGAAAAAAAAAAATCGCAGGACTACTAATAATCACGTGATATTTCTTTTCACTCTCTTCATAAAGTTGCTAAAAACACACAATCGAATGAGCCTCTGAGCAGTATAAATTGTACTTCAAAGCACTATGCATGAAAAACGCTTACATTAGTTCAGTTTGTCAAGGTTATGCTATTACTTGTACTTATTTCTTGCTATTGTTAGTGGCTCCCCACATTGACGTATTTTCACGTGATGCGCCTCACTGCGGAAGGCGCCACACATTGCCTGCAAAAAATTGTGGATGCACTCATTTGATAGTAAACTAAGTCATGTTAATCGTTTGGATTTGGCACACACCCACAAATATACACATTACATATATATATATATTCAAAATACAGCTGCGTCCAATAGATGAGCTTCCGCTTCGTTGTACAACCTACCTGCTATCTTGTTCACGGATATTTCTTGCTTTTAATAAACAAAAGTAACTCTAGAACAGTCAAGTCTTCGATAATTTTTTTAGTCACAGGGTCCGTCTAAAGTTTCTCTTTATTTGGAATAATAGAAAAGAAAGAAAAAAACGTAGTATAAAAGGAATGTCGCATACTTTAAAATCGAAAACGCTCCAAGAGCTGGACATTGAGGAGATTAAGGAAACTAACCCATTGCTCAAACTAGTTCAAGGGCAGAGGATTGTTCAAGTTCCGGAACTAGTGCTTGAGTCTGGCGTGGTCATAAATAATTTCCCTATTGCTTATAAGACGTGGGGTACACTGAATGAAGCTGGTGATAATGTTCTGGTAATTTGTCATGCCTTGACTGGGTCCGCAGATGTTGCTGACTGGTGGGGCCCTCTTCTGGGTAACGACTTAGCATTCGACCCATCAAGGTTTTTTATCATATGTTTAAACTCTATGGGCTCTCCATATGGGTCTTTTTCGCCATTAACGATAAATGAGGAGACGGGCGTTAGATATGGACCCGAATTCCCATTATGTACTGTGCGCGATGACGTTAGAGCTCACAGAATTGTTCTGGATTCTCTGGGAGTAAAGTCAATAGCCTGTGTTATTGGTGGCTCTATGGGGGGGATGCTGAGTTTGGAATGGGCTGCCATGTATGGTAAGGAATATGTGAAGAATATGGTTGCTCTGGCGACATCAGCAAGACATTCTGCCTGGTGCATATCGTGGTCTGAGGCTCAAAGACAATCGATTTACTCAGATCCCAACTACTTGGACGGGTACTATCCGGTAGAGGAGCAACCTGTGGCCGGACTATCGGCTGCACGTATGTCTGCATTGTTGACGTACAGGACAAGAAACAGTTTCGAGAACAAATTCTCCAGAAGATCTCCTTCAATAGCACAACAACAAAAAGCTCAAAGGGAGGAGACACGCAAACCATCTACTGTCAGCGAACACTCCCTACAAATCCACAATGATGGGTATAAAACAAAAGCCAGCACTGCCATCGCTGGCATTTCTGGGCAAAAAGGTCAAAGCGTGGTGTCCACCGCATCTTCTTCGGATTCATTGAATTCTTCAACATCGATGACTTCGGTAAGTTCTGTAACGGGTGAAGTGAAGGACATAAAGCCTGCGCAGACGTATTTTTCTGCACAAAGTTACTTGAGGTACCAGGGCACAAAGTTCATCAATAGGTTCGACGCCAATTGTTACATTGCCATCACACGTAAACTGGATACGCACGATTTGGCAAGAGACAGAGTAGATGACATCACTGAGGTCCTTTCTACCATCCAACAACCATCCCTGATCATCGGTATCCAATCTGATGGACTGTTCACATATTCAGAACAAGAATTTTTGGCTGAGCACATACCGAAGTCGCAATTAGAAAAAATTGAATCTCCCGAAGCCACGATGCCTTCCTATTGGAGTTTAAGCTGATAAACAAACTGATAGTACAATTTTTAAAAACCAACTGCAAGGCCATTACCGATGCCGCTCCAAGAGCTTGGGGAGGCGACGTTGGTAACGATGAAACGAAGACGTCTGTCTTTGGTGAGGCCGAAGAAGTTACCAACTGGTAGGGATAGATACCACACATACCTCAGGCATAACATAGATAAACCAGTACATGTATATCTATATCTATATTTATATATAGACAAACAGCATTAATTAACTATAACAAAGTTTCTAGTAACACTAACGGTAGTTAATTTCTCTTTTTTGTCCTCGTTGTTGAAAAACGAAAGAAGAATGAAAAAAAAAAAAACAAAAGAGTAATAGCTAGTGTTTTAGAGCTTTTCCACATTCTGACCGCACTTGTAGACAGCCACTCTTTGCATTGCCACTCGACATTACATGAACGACTGTTCTTCTCCCTGTCGCCTTAGCTTACTTCTTTGAAAAAAGCAAATCGCCCTTTTATGTAGGGACAAGTAACTTTTAGATC...
Phase d’inventaire
1. Alignements. Aligner sur la séquence• des ARN messagers de l’organisme en question• des séquences codantes d’autres organismes.
2. Segmentation (approche « ab initio ») : modèles de Markov cachés, …
A : 3/10C : 2/10G : 2/10T : 3/10
A : 1/10C : 4/10G : 4/10T : 1/10
2/10
1/10
8/10 9/10
Non codant Codant
Modèle de Markov caché : principes
Pr(ATTGAC) = 3/10 × 2/10 × 1/10 × 9/10 × 1/10 × …
Trouver la segmentation la plus probable d’une séquence :
Pr(ATTGAC) = 3/10 × 8/10 × 3/10 × 2/10 × 1/10 × …
Raffinements : fréquences d’oligonucléotides, phases du codant, caractères syntaxiques (Start, Stop, …)
1. Alignements.• on ne détecte que des gènes déjà connus par ailleurs,
ou des ARN fortement exprimés.• problèmes d’ordre technique : contamination par des
ARN pré-messagers…• Imprécision des algorithmes d’alignement.
2. Segmentation. Dans A. thaliana, moins d’un gène sur deux est correctement reconnu ; deux gènes prédits sur trois sont faux. [Reese et al. 2000]
Phase d’inventaire : problèmes
On prédit mal, et on ne prédit que ce que l’on connaît déjà.
Des différences observées entre séquences biologiques et séquences aléatoires, on peut déduire des faits biologiques.
Exemple : si un motif apparaît avec des fréquences très différentes dans une séquence réelle et dans une séquence aléatoire, alors il a probablement une fonctionnalité biologique.
Paradigme : comparaison biologie/aléatoire
Paradigm : biological vs. random sequences
TTCATTATCTCCATTCGCTGGTGGGCAAGGACTTGAGCTATCGCCCTTTC...GCATAAAGTTATTCATAAACTGTCAGGGGTTCGGTTGCCGCTGGTGGAAC...AGGCTGGTGGACGCCTACGTTATTTTGCTGGTGGACTGGAAATCATCTAG...TCCAACGAAATAGCTGGTGGTCTACACTCATATCGTTATTAACAAACGAA...AGAAACTAATGGGTGTCACAGCTGGTGGGCTCGTATTTTGTAGGAGGTCA...
Biological sequence :
ATATATATATTTATCTTGCAACTCGGAGAATTCTATTAATATATGAACGA...ACGTAGATGACAACAATTAGCATGTGGATTTGTAAGGTAAGTTTCTTGTG...CGTTGGTTGGTCATCGATGCAATGAATGAGTCGTTTAAAATAAGACTCGA...TTGTCTCTCAAGTTTTTTTTGCATTACCATTCTAAGCTGGTGGATATAGG...GTTTACAAGTTTTAACCTTTTGTCACTCGTCACCTTATGTGTGGCTTTAA...
Random sequence :
Chi motif in E. coli.
Searching for overrepresented motifs
>MET1 MET1 upstream sequence, from -702 to -1, size 702TTTTGACCCA……TCTCTTTCTAGAAATGCCATTATGCACGTGACATTACAAATTGTGGTGAAAAAAGG……TTCAAAAGA>MET2 MET2 upstream sequence, from -800 to -1, size 800GGGCACGATT……GACTACTAATAATCACGTGATAT……CCCCACATTGACGTATTTTCACGTGATGCGC……AGCGCCACA>MET3 MET3 upstream sequence, from -800 to -1, size 800AAGAGTACAA……AAAAAAGGTCACGTGACCAGAAAAGTCACGTGTAATTTTGTAACTCACCGCATTCT……ATAATTAAC>MET6 MET6 upstream sequence, from -222 to -1, size 222GGGAAGCTAGCTAGTTTTCCCAACTGCGAAAGAAAAAAAGGAAAGAAAAAAAAATTCTATATAAGTGA……TTCAATATT>MET14 MET14 upstream sequence, from -800 to -1, size 800TATTTTTTTA……AGACCGTGCCACTAATTTCACGTGATCAATATATTTACAAGCCACCTCAAAAAATG……AATTATTTC>ZWF1 MET19 upstream sequence, from -558 to -1, size 558GTAAGGTGTAGTTTTGCACCCGTGTACATAAGCGTGAAATCACCACAAACTGTGTGTATCAAGTACAT……TAAATAATA>MET17 MET25 upstream sequence, from -800 to -1, size 800TATACTAGAA……GCAAATGGCACGTGAAGCTGTCGATATTGGGGAACTGTGGTGGTTGGCAAATGACT……ATCCATACA>MET30 MET30 upstream sequence, from -800 to -1, size 800CCATTGCTGC……GTGTGTGGTACAATGTGTGTGTTTTAATGTAGAAATGAGGTTGTAGCACGTGATCG……GAGAAGGGC>MUP3 MUP3 upstream sequence, from -61 to -1, size 61TCTGTTTGTAGTCTAAGTTGCTGAGGGCAACGTAGACGTACAGTGCTCAAAATAAGTAAAA>SAM1 SAM1 upstream sequence, from -548 to -1, size 548AATATATATTTCTATTACTAAGTACTCGGATGGGTACCGAAAGTGGCAGATGGGCAGTGTTTACTCAA……CCTACTAGT
Extraction de promoteurs
Régions en amont de 10 gènes de S. cerevisiae. [J. van Helden]
La probabilité d’une telle représentation de CACGTG dans des séquences aléatoires serait environ égale à 10-9
Paradigm : biological vs. random sequences
Assessing significance of alignment scores
HBA_HUMAN GSAQVKGHGKKVADALTNAVAHVDDMPNALSALSDLHAHKL HBB_HUMAN GNPKVKAHGKKVLGAFSDGLAHLDNLKGTFATLSELHCDKL
HBA_HUMAN GSAQVKGHGKKVADALTNAVAHVDDMPNALSALSDLHAHKLRandomB1 QVGAKDLNALDGKVAHDMPAAVALGSAAHVDLSTNSKHHKLRandomB2 VAHSDLDAVKGDMPNGSAKKVAAQAAHGLSLTNHAHKLLVD…RandomBK HVDDMTNAGKKVPNAGSAQADAVADLHAHKLLVKGHLSALS
HBB_HUMAN GNPKVKAHGKKVLGAFSDGLAHLDNLKGTFATLSELHCDKLRandomA1 HLSEKVLGTNLKGTGKFSDGCDKLLKAHNPKVLAGAFALHDRandomA2 KATEFATKVDGAFSDLSLLAHGKKVGGHLGNLPNLKHCDKL…RandomAK GTKKHGFSELPKVAHGNLDNDGHCGLAFSADKLVLATLKLK
Score130
Average score
25
Z-value and p-value
)(
)()()(
XV
AScoreXEAZ
))(Pr()( AScoreXAPval
X = random variable, score of an alignment with a random sequence.
Alignments
X = random variable, number of occurrences of M in a random sequence.
)(
)(#)()(
XV
MoccXEMZ
))(#Pr()( MoccXMPval
Motifs
Choix du modèle de séquences aléatoires
TTCGTTGTCTCCGTTCGCTGGTGGGCGGGGGCTTGGGCTGTCGCCCTTTC...GCGTGGGGTTGTTCGTGGGCTGTCGGGGGTTCGGTTGCCGCTGGTGGGGC...GGGCTGGTGGGCGCCTGCGTTGTTTTGCTGGTGGGCTGGGGGTCGTCTGG...TCCGGCGGGGTGGCTGGTGGTCTGCGCTCGTGTCGTTGTTGGCGGGCGGG...GGGGGCTGGTGGGTGTCGCGGCTGGTGGGCTCGTGTTTTGTGGGGGGTCG...
Séquence biologique :
TTAATTATATAAATTAGCTGGTGGCAAACCAATTCACATATACAAATTTA...CAATAAACTTATTAATAAAATCTAACCCCTTACCTTCAAGCTGGTGGAAA...ACGCTGGTGGAACAATAACTTATTTTGCTGGTGGAATCCAAATAATATAC...TAAAAACAAATAGCTGGTGGTCTACAATAATATACTTATTAAAAAAACAA...ACAAAATAATCCCTTTAAAAGCTGGTGGCATACTATTTTCTACCACCTAA...
Séquence biologique :
Etonnant !
Moins étonnant !
AACGACGTGCCGTGCGCTCGACGT
Modèles classiques de séquences aléatoires [Fitch 83]
AACG : 1
Séquence biologique :
Occurrences :
Modèles classiques de séquences aléatoires [Fitch 83]
AACGACGTGCCGTGCGCTCGACGT
AACG : 1ACGA : 1
Séquence biologique :
Occurrences :
Modèles classiques de séquences aléatoires [Fitch 83]
AACGACGTGCCGTGCGCTCGACGT
AACG : 1ACGA : 1CGAC : 1
Séquence biologique :
Occurrences :
Modèles classiques de séquences aléatoires [Fitch 83]
AACGACGTGCCGTGCGCTCGACGT
AACG : 1ACGA : 1CGAC : 1GACG : 1
Séquence biologique :
Occurrences :
Modèles classiques de séquences aléatoires [Fitch 83]
AACGACGTGCCGTGCGCTCGACGT
AACG : 1 CGTG : 2 CGCT : 1ACGA : 1 GTGC : 2 GCTC : 1CGAC : 2 TGCG : 2 CTCG : 1GACG : 2 GCGT : 1 TCGA : 1ACGT : 2 GCGC : 1
Séquence biologique :
Occurrences :
Modèle markovien
AACG : 1 CGTG : 2 CGCT : 1ACGA : 1 GTGC : 2 GCTC : 1CGAC : 2 TGCG : 2 CTCG : 1GACG : 2 GCGT : 1 TCGA : 1ACGT : 2 GCGC : 1
Occurrences :
Séquences ayant en moyenne les mêmes nombres d’occurrences de nucléotides que la séquence de référence.
Pr(G|AAC) = 1 Pr(T|GCG) = 1/2
Modèle exact (shuffling)
AACG : 1 CGTG : 2 CGCT : 1ACGA : 1 GTGC : 2 GCTC : 1CGAC : 2 TGCG : 2 CTCG : 1GACG : 2 GCGT : 1 TCGA : 1ACGT : 2 GCGC : 1
Occurrences :
Séquences ayant exactement les mêmes nombres d’occurrences de nucléotides que la séquence de référence.
Génération aléatoire de séquences génomiques selon le modèle exact (« shuffling »)
Génération en fréquences exactes
AAC ACG CGA TCG
GTG CGT GAC CTC
TGC GCG CGC GCT
AACG : 1 CGTG : 2 CGCT : 1ACGA : 1 GTGC : 2 GCTC : 1CGAC : 2 TGCG : 2 CTCG : 1GACG : 2 GCGT : 1 TCGA : 1ACGT : 2 GCGC : 1
Chemin eulérien dans le graphe suivant :
[Kandel, Matias, Unger, Winkler 96]
AAC ACG CGA TCG
GTG CGT GAC CTC
TGC GCG CGC GCT
Génération en fréquences exactes
Chemineulérien
Anti-arbrecouvrant
ordre des arcs adjacentsà un même sommet=
[Aardenne-Ehrenfest, de Bruijn 51]
AAC ACG CGA TCG
GTG CGT GAC CTC
TGC GCG CGC GCT
Génération en fréquences exactes
Chemineulérien
arbrecouvrant
ordre des arcs adjacentsà un même sommet=
1
2
1
1
2
AACGACGTGCGCTCGACGTGCGT
[Aardenne-Ehrenfest, de Bruijn 51]
AAC ACG CGA TCG
GTG CGT GAC CTC
TGC GCG CGC GCT
Génération en fréquences exactes
Chemineulérien
arbrecouvrant
ordre des arcs adjacentsà un même sommet=
1
2
1
1
2
AACGTGCGCTCGACGACGTGCGT
[Aardenne-Ehrenfest, de Bruijn 51]
AAC ACG CGA TCG
GTG CGT GAC CTC
TGC GCG CGC GCT
Génération en fréquences exactes
Engendrer un arbre couvrant aléatoire uniformément[Aldous, Broder][Wilson]
AAC ACG CGA TCG
GTG CGT GAC CTC
TGC GCG CGC GCT
Génération en fréquences exactes
[Aldous, Broder][Wilson]
Engendrer un arbre couvrant aléatoire uniformément
AAC ACG CGA TCG
GTG CGT GAC CTC
TGC GCG CGC GCT
Génération en fréquences exactes
[Aldous, Broder][Wilson]
Engendrer un arbre couvrant aléatoire uniformément
AAC ACG CGA TCG
GTG CGT GAC CTC
TGC GCG CGC GCT
Génération en fréquences exactes
[Aldous, Broder][Wilson]
Engendrer un arbre couvrant aléatoire uniformément
AAC ACG CGA TCG
GTG CGT GAC CTC
TGC GCG CGC GCT
Génération en fréquences exactes
[Aldous, Broder 90][Wilson 97]
Engendrer un arbre couvrant aléatoire uniformément
AAC ACG CGA TCG
GTG CGT GAC CTC
TGC GCG CGC GCT
Génération en fréquences exactes
Engendrer un arbre couvrant aléatoire uniformément[Aldous, Broder 90][Wilson 97]
AAC ACG CGA TCG
GTG CGT GAC CTC
TGC GCG CGC GCT
Génération en fréquences exactes
Engendrer un arbre couvrant aléatoire uniformément[Aldous, Broder 90][Wilson 97]
AAC ACG CGA TCG
GTG CGT GAC CTC
TGC GCG CGC GCT
Génération en fréquences exactes
Engendrer un arbre couvrant aléatoire uniformément[Aldous, Broder 90][Wilson 97]
AAC ACG CGA TCG
GTG CGT GAC CTC
TGC GCG CGC GCT
Génération en fréquences exactes
Engendrer un arbre couvrant aléatoire uniformément[Aldous, Broder 90][Wilson 97]
AAC ACG CGA TCG
GTG CGT GAC CTC
TGC GCG CGC GCT
Génération en fréquences exactes
Engendrer un arbre couvrant aléatoire uniformément[Aldous, Broder 90][Wilson 97]
AAC ACG CGA TCG
GTG CGT GAC CTC
TGC GCG CGC GCT
Génération en fréquences exactes
Engendrer un arbre couvrant aléatoire uniformément[Aldous, Broder 90][Wilson 97]
Génération en fréquences exactes
…
Engendrer un arbre couvrant aléatoire uniformément[Aldous, Broder 90][Wilson 97]
AAC ACG CGA TCG
GTG CGT GAC CTC
TGC GCG CGC GCT
Génération en fréquences exactes
Engendrer un arbre couvrant aléatoire uniformément[Aldous, Broder 90][Wilson 97]