Download - Bioinformatique: analyse des Sorangium génomes · apparente d’un organisme ou d’une cellule et la quantité d’ADN qu’elle contient ... Combien y a-t-il de gènes dans le

Bioinformatique: analyse des génomes

Céline Brochier-ArmanetUniversité Claude Bernard, Lyon 1

Laboratoire de Biométrie et Biologie évolutive (UMR 5558)[email protected]

Génomes procaryotes

0

10

20

30

40

50

60

70

80

0 1 2 3 4 5 6 7 8 9 10 11 12 13

Genome size (Mpb)

C+C content of genomes

Pathogens/Symbionts

Free living

Carsonellaruddii

Sorangiumcellulosum

Ignicoccushospitalis

(Brochier 2010 Oxford Press)

Ressources : génomes plantes(http://data.kew.org/cvalues/)

Ressources : génomes animaux(http://www.genomesize.com)

Taille des génomes cellulaires

Champignons

Autres eucaryotes(protistes)

Bactéries

Archées

105 106 107 108 109 1010 1011 1012

Log (taille du génome) (pb)

Amoeba Dubia

Eukaryotic genome size databases (2007)

Encephalitozoon cuniculi

AnimauxDrosophile ChimpanzéPratylenchus

(nématode)Necturus lewisi

(amphibien)

Plantes, algues

RizOstreococcus tauri(algue unicellulaire)

Fritillaria (famille des Liliacées)

Blé

Scutellospora castanea

Guillardia theta Paramecium tetraurelia

Nanoarchaeum equitans

Candidatus carsonella Sorangium

cellulosum

Methanosarcina acetivorans

Parasites (ou symbiontes) associés à des cellules

Le paradoxe de la c-value (1)

X 200

Paradoxe de la c-value (2)

• Définition – Contenu en DNA haploïde d’un génome

• « Comparing the largest and one of the smallest examples amongvertebrates, one finds that the cell of an amphiuma contains 70 times asmuch DNA as is found in a cell of the domestic, a far more highlydevelopped animal. It seems most unlikely that amphiuma contains 70times as many different genes as does the fowl or that a gene of amphiumacontains 70 times as much DNA as does one in the fowl » (Mirsky & Ris,1951)

⇒ Il n’y a pas de corrélation entre complexité apparente d’un organisme ou d’une cellule et la quantité d’ADN qu’elle contient


• Un paradoxe pendant plus de 20 ans• Des cellules « d’organismes simples » contiennent plus

d’ADN que des cellules « d’organismes plus complexes »

• Un génome donnée semble contenir plus d’ADN que nécessaire par rapport au nombre de gènes prédits

• Des organismes présentant de fortes ressemblances morphologiques présentent des c-values parfois très différentes

⇒La quantité d’ADN/cellule � contenu en gènes (Commoner, 1964)

!


• Un paradoxe pendant plus de 20 ans• Des cellules « d’organismes simples » contiennent plus

d’ADN que des cellules « d’organismes plus complexes »

• Un génome donnée semble contenir plus d’ADN que nécessaire par rapport au nombre de gènes prédits

• Des organismes présentant de fortes ressemblances morphologiques présentent des c-values parfois très différentes

⇒La quantité d’ADN/cellule � contenu en gènes (Commoner, 1964)

!

La majorité des génomes eucaryotes sont composés principalement d’ADN qui ne

correspond pas à des gènes

⇒ Nouveau paradoxe � Origine de cet ADN???

Nombre de gènes codant pour des protéines

Number of protein genes x 103

E. coli

Drosophila

Nematode

M. genitalium

Mammals

6020 40 80

Yeast

Nombre de gènes codant pour des protéines

Human vs E. coli:Genome size: x 600Number of genes: x 4


E. coli

Paramecium

Drosophila

Nematode

A. thaliana

M. genitalium

Mammals

6020 40 80

Yeast


E. coli

Drosophila

Nematode

M. genitalium

Mammals

6020 40 80

Yeast

Structure des génomes cellulaires

Combien y a-t-il de gènes dans le génome humain?

Technique/Source Gene estimate Comments/assumptions

Text book (1990) 100,000 if average size = 30 kb

Genomic sequencing (1994) 71,000 biased toward gene-rich region?

CpG islands 80,000 assumes 66% human genes have CpG islands

EST analysis (1994) 64,000 matching with GenBank; 50% EST redundancy

Chromosome 22 (1999) 45,000 correction for high gene density on chrom. 22

Exofish (2000) 28,000-34,000 Comparison human/fish

EST (2000) 35,000 Number of genes

EST (2000) 120,000 Number of transcripts

First genome draft (2001) 30,000-40,000 Known genes + predictions

Comparison / mouse (2002) 30,000 Known genes + predictions

Finished genome (2004) 20,000-25,000 Known genes + predictions

Finished genome (2007) 20,000 Improved gene annotation

17%0.5%

Drosophila

85%2%

13%

E. coli

70%2%

28%

Yeast

1.2%

0.05%

98%

Human

28%

0.5%71%

Nematode

0.05%

0.01%

Lungfish

(dipnoi)Coding (protein)RNANon-coding

82%

99.5%

Eléments fonctionnels des génomes

Annotation des génomes complets

• H. influenzae => 1709 gènes

• Saccharomyces cerevisiae => ~ 5600 gènes

• Drosophila melanogatser => ~13000 gènes

• C. elegans => ~19000 gènes

• Arabidopsis thaliana => ~24000 gènes

• Homo sapiens => ~30000 gènes

Bioinformatique et annotation des génomes

• Organisation de l’information le long des séquences génomique

⇒ Approches expérimentales trop coûteuses (en temps et argent) pour être appliquées de manière systématique aux projets de séquençage des génomes

⇒ Prédictions (in silico)

⇒ Tests expérimentaux

Principe de l’annotation des génomes

• Annotation structurale: Inventaire et analyse des éléments présents dans un génome– Identification des régions codantes, sites promoteurs, de

terminaison de la transcription et de la traduction, d’épissage, introns, exons…

– Séquences répétées…– Origine et terminaison de la réplication

• Annotation fonctionnelle– Fonction des gènes– Signaux de régulation…

Structure d’un gène procaryote

Structure d’un gène eucaryoteComment identifier les gènes dans un

génome procaryote ?

• Délimitation des Open Reading Frame (ORF)

• Composition en codons de la région codante– Table d’usage des codons

• Recherche de signaux caractéristiques au niveau de l’ADN – Promoteurs– Sites de terminaison de la transcription– RBS– codons START et STOP

• Recherche de similitudes avec des séquences présentes dans les banques

Comment identifier les gènes dans un génome procaryote ?





Recherche des ORFs dans des séquences aléatoires

• Il existe 3 codons START et 3 codons STOP parmi les 64 codons possibles• Séquences aléatoires

– Après un START P(codon suivant = STOP) = 3/64

– Probabilité d’occurrence d’un STOP suit une loi de PoissonPSTOP( X=n ) = e-λL x (λL)n / n! avec λ = 3/64

– Probabilité d’observer une séquencede longueur L sans codon stop

PSTOP(X=0) = e-λL

L= longueur ORFn = nb de stop dans un segment de longueur L.

ATG ? ? ? ? ? ? ?

Longeur des CDSs dans des séquences générées aléatoirement

00,10,20,30,40,50,60,70,80,9

1

0 20 40 60 80 100 120 140 160 180 200

Longueur (nb de codons)

Pro

port

ion

Longeur des CDSs dans des séquences générées aléatoirement

00,10,20,30,40,50,60,70,80,9

1

0 20 40 60 80 100 120 140 160 180 200

Longueur (nb de codons)

Pro

port

ion

Taille des CDSs dans des séquences réelles (génome d’E. coli)

Usage des codons START et STOP chez les procaryotes

L’usage du codon STOP varie plus considérablement que celui du codon START chez les procaryotes

Usage des codons START et STOP chez les procaryotes

Faible corrélation entre le choix du codon START et le contenu en G+C

du génome

Forte corrélation pour UAA et UGA Indépendante pour UAG






Code génétique Biais d’usage des codons

• Tous les codons ne sont pas utilisés avec la même fréquence- Certains codons sont surreprésentés- Certains codons sont sous-représentés

⇒ Biais d’usage des codons par rapport à leur fréquence d’usage théorique

Biais d’usage du code

Ces biais sont spécifiques des organismes considérés

Utiliser les biais d’usage du code pour l’annotation




• Recherche de signaux caractéristiques au niveau de l’ADN – Promoteurs– Sites de terminaison de la transcription– RBS


Recherche de promoteurs

• Régions situées juste en amont du site d’initiation de la transcription⇒ Reconnues par la sous-unité σ de l’ARN polymérase

• Séquence consensus reconnu par σ70

-- TTGACA------…---- TATAAT-------CAT-35 -10 +1

Boite de Pribnow boite TATA

Recherche de signaux caractéristiques(l’exemple des RBS; B. subtilis)

Détermination de séquences consensus

1 2 3 4 5 6

Séquence 1 G G A G G T

Séquence 2 C G A G G T

Séquence 3 G C A G C T

Séquence 4 G G T G C A

Consensus G G A G [GC] T

Niveau d’information faible

Etablissement de matrices poids/position

1 2 3 4 5 6

G 3 3 0 4 2 0

A 0 0 3 0 0 1

T 0 0 1 0 0 3

C 1 1 0 0 2 0

1) Construction d’une matrice de comptage

1 2 3 4 5 6

Séquence 1 G G A G G T

Séquence 2 C G A G G T

Séquence 3 G C A G C T

Séquence 4 G G T G C A


1 2 3 4 5 6

G 3 3 0 4 2 0

A 0 0 3 0 0 1

T 0 0 1 0 0 3

C 1 1 0 0 2 0

1 2 3 4 5 6

G 0.75 0.75 0 1 0.5 0

A 0 0 0.75 0 0 0.25

T 0 0 0.25 0 0 0.75

C 0.25 0.25 0 0 0.5 0

2) Construction d’une matrice de fréquences/probabilités


1 2 3 4 5 6

G 3 3 0 4 2 0

A 0 0 3 0 0 1

T 0 0 1 0 0 3

C 1 1 0 0 2 0

1 2 3 4 5 6

G 0.75 0.75 0 1 0.5 0

A 0 0 0.75 0 0 0.25

T 0 0 0.25 0 0 0.75

C 0.25 0.25 0 0 0.5 0

f6,Cf5,Cf4,Cf3,Cf2,Cf1,CC

f6,Tf5,Tf4,Tf3,Tf2,Tf1,TT

f6,Af5,Af4,Af3,Af2,Af1,AA

f6,Gf5,Gf4,Gf3,Gf2,Gf1,GG

654321





654321

2) Construction d’une matrice de fréquences/probabilités






654321





654321

f6,C/fCf5,C/fCf4,C/fCf3,C/fCf2,C/fCf1,C/fCC

f6,T/fTf5,T/fTf4,T/fTf3,T/fTf2,T/fTf1,T/fTT

f6,A/fAf5,A/fAf4,A/fAf3,A/fAf2,A/fAf1,A/fAA

f6,G/fGf5,G/fGf4,G/fGf3,G/fGf2,G/fGf1,G/fGG

654321





654321

f1,G = fréq. G à la position 1du motif étudié

fG = fréq. G dans le génomede l’organisme étudié

f1,G/fG = fréq. de G à la position 1 du motif étudié par rapport à la fréq. attendue de G (i.e. fréq. de G dans le génome étudié)

3) Construction d’une matrice de fréquences/probabilités relatives (odds)


4062-10C

0-110-11T

5-21831A

555058G

654321

4062-10C

0-110-11T

5-21831A

555058G

654321

4) Construction d’une matrice de Log Odds





654321





654321

SéquenceATCTAGAGGGTATTAATA

Est-ce que cette séquence contient une séquence de Shine-Dalgarno ?

PRINCIPE DE L’ANALYSE⇒ Regarder tous les motifs de 6 nucléotides contenus dans la séquence

⇒ Calcul d’un score pour chaque motif grâce à la matrice des Log-odds⇒ Si score > seuil => on a une séquence de Shine-Dalgarno possible à la position considérée⇒ Si score < seuil => pas de séquence de Shine-Dalgarno à la position considérée

⇒ On décale la séquence de 1 et on recommence

Principe de la recherche de signaux Application

4062-10C

0-110-11T

5-21831A

555058G

654321

4062-10C

0-110-11T

5-21831A

555058G

654321

Matrice des log-odds (Bacillus subtilis)


ATCTAG :1-1+2+1-2+5 = 6

Application

4062-10C

0-110-11T

5-21831A

555058G

654321

4062-10C

0-110-11T

5-21831A

555058G

654321


ATCTAG :1-1+2+1-2+5 = 6TCTAGA :1-1+0+1+5+5 = 11CTAGAG :0-1+8+5-2+5 = 15TAGAGG :1+3+0+1+5+5 = 15AGAGGG :1+5+8+5+5+5 = 29GAGGGT :8+3+0+5+5+0 = 21AGGGTA :1+5+0+5-1+5 = 15GGGTAT :8+5+0+1-2+0 = 12GGTATT :8+5+0+1-1+0 = 13GTATTA :8-1+8+1-1+5 = 20TATTAA :1+3+0+1-2+5 = 8ATTAAT :1-1+0+1-2+0 = -1TTAATA :1-1+8+1-1+5 = 13

Smax

Autres « bons »Score ?

4062-10C

0-110-11T

5-21831A

555058G

654321

4062-10C

0-110-11T

5-21831A

555058G

654321



Score = f(position)

-5

0

5

10

15

20

25

30

35

40

0 1 2 3 4 5 6 7 8 9 10 11 12

Position

Sco

re

Score max théo = 37*

Smax

Smax obs = 29* *

4062-10C

0-110-11T

5-21831A

555058G

654321

4062-10C

0-110-11T

5-21831A

555058G

654321



Autres « bons »Score ?

Seuil de significativité

• Smax � plus fort score observé⇒ Est-il significatif ou peut-il la conséquence du au hasard?⇒ Quelle est la probabilité d’obtenir Smax avec une séquence

aléatoire de même composition ?

• Méthode simple d’estimation statistique du score: calcul d’une p-value⇒ Générer N (~1000) séquences aléatoires de même composition que la

séquence étudiée⇒ Compter n = Nb de fois où Smax aléatoire > Smax obs

• Obtention d’une p-value = n/N (� probabilité que le résultat observé soit du au hasard)⇒ 0 ≤ p-value ≤ 1

⇒ Acceptation de l’observation si p-value ≤ 0.05 ⇒ Risque d’erreur dans 1 cas sur 20

Intérêts/Limites de ces approches

• Séquences nucléiques souvent peu conservées• Présence de séquences conservées en amont des gènes• Importance biologique (promoteur, site d’initiation, de terminaison,

de régulation…)• Identifier les caractéristiques communes de ces séquences et qui

sont absentes des séquences qui ne sont pas des promoteurs

• Signaux brefs et dégradés⇒ Grand nombre de faux positifs• Caractéristiques variables d’une organisme à l’autre• Pas de séquences uniques

>Genomic scaffold, whole genome shotgun sequenceACCCCTCTGATCATCTGGATAGTGGATTACATTAAAAAAAGAGAAAAACATTTCACAATTACCTCATATA TAATTTCATTGATTTTCCTTGTAATGATGGGCAGCATGCTAGATGCCTTACTTTTTTATTATATTAGTAA CAAATCATTTTTTAGTGCAATTATAGCATTAAATATAGTCATGGATCCAACAACTTTAGTTTTGTTCTAC GCCTTTATAAAAATAGCAAAATCAAAATCCGTAAAATTTTCATCGAAAACAATTATTAATACCACTGCCC TAATTACATGGTCTGAAATTTCGATGGCCTTATTTCTAAAATCACTTGCATTGAATGGGATATTTAATCA TAATTTAATAATAAATTATTTTTCATATTTTGGTGCTTCGATTACGTATATTCTATTTTTAATCCCAATG GTAACGGAAATGATTTTTTTTATCATTACAAACCTTAATGGCACTGAACGTTTTATTGGTTTACTCTTGC TTATTATGCAGGTGGCAGATCCAGCCATGCTCAGTGGTTATATGGAAATTCCATTACTTGTTGCTTATTC AGTAATAATGTTTTTAGTTCTGTATAGCCTGGTACGCTATGTTTACACACATAGGAAGAGTTTAACAGAG AAAAACAGAAGATTAATATCATATACGGGGGTTGTTATCGCTATATCAACTGCCAGCATAATTGAACCAT TTATTATATTTCGTCCATTTGGCTTCTCATGGTTTGTACTTGCATTAGGCATGGTTGTATCAATGTTTTT ATATTTTCAGATAGTTTTAGGTTACTATGAATAAAATATTCTCCTGATCAATACTAACTTTTTGTGCAAC ATAGGGAATGTATACACGTTTTATATATACTATGGGGAAGATTACCATTAATGGTATTCAGTATAGGCTG GTAGAGATTAACAGCATCCCCGGCAAAAAATATGGCCGGAACATCCTAAGAAGGGATGAGGGAATAGATG …TCTTATACAGAATATTTTAGGCAGAGAACTAGATGGCTGCGTGGGTATCACCAGGTATTTCTCCATTCAA AGAAAAAATTTAGCAAACTTACTGATTTTGATGCACTTATGATCGTTCTTGCGCCTACGTTTTCAGGTAT ACTTTTCTTCGGATGGCTCTATATATCACTCCTAAATTTTTATAATCCTTTTGTTCACTCAATGAGAACC TATTTCATTTCCTTAATCCTGATATCACTGATAATTTATGCTGTCGCCCTTATACTGGTTCTGATAAAGA AACGGCAAAATCTGATTTACTTACCATTGATATACATATATTTAACATTGAATTCACTGATTTCAATATA CACGCTGTTTCTGGAAGTTACAGGTGCAAAGCGTGTATGGCATAAGGTAAAGAAAACGGGCAAGACAACA CTTTAATAATTACTTTTTTATATACAACCATGGTACTGGACTCATACAGGAAAAATGCAGACAAATTCTT AAATCCCATTACAGAAAAATTCTCTGGAATAAACCCCAACACTGTTTCTGTACTATCACTAGCCTTTGCC GCTCTGGGTGGTATATTCTACTATCTCAGCCATTCTTTTCTCCTGCTCGCCTTTGTGTTTATTATTTTAT CTGCCCTGTTCGATGCACTTGACGGGAAAATTGCCAGGTTAAAGAATATTTCTTCCAAAAAGGGTGATAT GCTGGACCATGTATTTGACCGGTACTCGGATATCTTTATCGTACTTGGGATGGCATTTTCAATTTATGGT AATGTATACCTTGGATTATTTGCCATTATCGGAATCCTACTTACAAGTTATATGGGCACACAGTCACAGG CACTTGGATTAAAAAGAAATTATTCGGGAATTGCCGGAAGGGCTGACAGACTCGTTCTGATCATAATATT

ORF finder(http://www.ncbi.nlm.nih.gov/gorf/orfig.cgi)

Recherche les phases ouvertes de lecture (ORF)Commencent par un START Finissent par un STOPTaille en nucléotides = multiple de 3

Recherche d’homologues

>Genomic scaffold, whole genome shotgun sequenceACCCCTCTGATCATCTGGATAGTGGATTACATTAAAAAAAGAGAAAAACATTTCACAATTACCTCATATA TAATTTCATTGATTTTCCTTGTAATGATGGGCAGCATGCTAGATGCCTTACTTTTTTATTATATTAGTAA CAAATCATTTTTTAGTGCAATTATAGCATTAAATATAGTCATGGATCCAACAACTTTAGTTTTGTTCTAC GCCTTTATAAAAATAGCAAAATCAAAATCCGTAAAATTTTCATCGAAAACAATTATTAATACCACTGCCC TAATTACATGGTCTGAAATTTCGATGGCCTTATTTCTAAAATCACTTGCATTGAATGGGATATTTAATCA TAATTTAATAATAAATTATTTTTCATATTTTGGTGCTTCGATTACGTATATTCTATTTTTAATCCCAATG GTAACGGAAATGATTTTTTTTATCATTACAAACCTTAATGGCACTGAACGTTTTATTGGTTTACTCTTGC TTATTATGCAGGTGGCAGATCCAGCCATGCTCAGTGGTTATATGGAAATTCCATTACTTGTTGCTTATTC AGTAATAATGTTTTTAGTTCTGTATAGCCTGGTACGCTATGTTTACACACATAGGAAGAGTTTAACAGAG AAAAACAGAAGATTAATATCATATACGGGGGTTGTTATCGCTATATCAACTGCCAGCATAATTGAACCAT TTATTATATTTCGTCCATTTGGCTTCTCATGGTTTGTACTTGCATTAGGCATGGTTGTATCAATGTTTTT ATATTTTCAGATAGTTTTAGGTTACTATGAATAAAATATTCTCCTGATCAATACTAACTTTTTGTGCAAC ATAGGGAATGTATACACGTTTTATATATACTATGGGGAAGATTACCATTAATGGTATTCAGTATAGGCTG GTAGAGATTAACAGCATCCCCGGCAAAAAATATGGCCGGAACATCCTAAGAAGGGATGAGGGAATAGATG …TCTTATACAGAATATTTTAGGCAGAGAACTAGATGGCTGCGTGGGTATCACCAGGTATTTCTCCATTCAA AGAAAAAATTTAGCAAACTTACTGATTTTGATGCACTTATGATCGTTCTTGCGCCTACGTTTTCAGGTAT ACTTTTCTTCGGATGGCTCTATATATCACTCCTAAATTTTTATAATCCTTTTGTTCACTCAATGAGAACC TATTTCATTTCCTTAATCCTGATATCACTGATAATTTATGCTGTCGCCCTTATACTGGTTCTGATAAAGA AACGGCAAAATCTGATTTACTTACCATTGATATACATATATTTAACATTGAATTCACTGATTTCAATATA CACGCTGTTTCTGGAAGTTACAGGTGCAAAGCGTGTATGGCATAAGGTAAAGAAAACGGGCAAGACAACA CTTTAATAATTACTTTTTTATATACAACCATGGTACTGGACTCATACAGGAAAAATGCAGACAAATTCTT AAATCCCATTACAGAAAAATTCTCTGGAATAAACCCCAACACTGTTTCTGTACTATCACTAGCCTTTGCC GCTCTGGGTGGTATATTCTACTATCTCAGCCATTCTTTTCTCCTGCTCGCCTTTGTGTTTATTATTTTAT CTGCCCTGTTCGATGCACTTGACGGGAAAATTGCCAGGTTAAAGAATATTTCTTCCAAAAAGGGTGATAT GCTGGACCATGTATTTGACCGGTACTCGGATATCTTTATCGTACTTGGGATGGCATTTTCAATTTATGGT AATGTATACCTTGGATTATTTGCCATTATCGGAATCCTACTTACAAGTTATATGGGCACACAGTCACAGG CACTTGGATTAAAAAGAAATTATTCGGGAATTGCCGGAAGGGCTGACAGACTCGTTCTGATCATAATATT


Recherche les phases ouvertes de lecture (ORF)Commencent par un START Finissent par un STOPTaille en nucléotides = multiple de 3




Recherche de

similitudes avec des

séquences déjà connues