annotation.ppt [Mode de compatibilité]lecompte/cours/annotation2.pdf · 1 Plan 1. Gé lGénomes...
Transcript of annotation.ppt [Mode de compatibilité]lecompte/cours/annotation2.pdf · 1 Plan 1. Gé lGénomes...
1
Plan
1 Gé l1. Génomes complets2. Architecture des génomes3. Annotation des génomes
a) Annotation structurale : localisation des éléments génétiquesb) Annotation fonctionnellec) Intégrations
Annotation Fonctionnelle
Recherche de la fonction des gènes ou des protéines
Génomique fonctionnelle- transcriptomiqueDonnées
b bl h
Génomique
Prédictions in silico
p m q- protéomique- interactomique...
bibliographiques
2
Annotation fonctionnelle
gène
protéine
Fasta, BlastpPsi-Blast
Génomique
Banques protéiques généralistes
UniProt RefSeq
Protéines homologues
Les erreursd’annotation
?
Banque
Protéine malannotée
Protéine query
BLASTP
Propagation des erreurs
Génomique
3
SPT:P72010 P72010 GLYCEROL 1-PHAPHATE DEHYDROGENASE. 3/2001 356 3e-97SPTNEW:AAK41055 Aak41055 GLYCEROL-1-PHOSPHATE DEHYDROGENASE ... 337 2e-91SPT:Q9UXE7 Q9uxe7 GLYCEROL 1-PHOSPHATE DEHYDROGENASE. 3/2001 337 2e-91SPT:Q9YER2 Q9yer2 370AA LONG HYPOTHETICAL GLYCEROL DEHYDROGE... 320 2e-86SPTNEW:BAB60393 Bab60393 SN-GLYCEROL-1-PHOSPHATE DEHYDROGENA... 283 2e-75SPT:Q9HJ16 Q9hj16 GLYCEROL 1-PHOSPHATE DEHYDROGENASE RELATED... 277 2e-73SPT:Q9HS49 Q9hs49 VNG0406C. 3/2001 277 2e-73SW:Y712_METJA Q58122 HYPOTHETICAL PROTEIN MJ0712. 8/2001 265 5e-70SPT:O28599 O28599 SN-GLYCEROL-1-PHOSPHATE DEHYDROGENASE (GLD... 248 9e-65SPT:Q9X7U9 Q9x7u9 PUTATIVE GLYCEROL DEHYDROGENASE. 6/2001 182 5e-45SPT:Q9L1H9 Q9l1h9 PUTATIVE DEHYDROGENASE. 6/2001 176 5e-43SW:ARAM_BACSU P94527 ARABINOSE OPERON PROTEIN ARAM. 8/2001 157 3e-37SPT:O85004 O85004 PUTATIVE GLYCEROL-2-PHOSPHATE DEHYDROGENAS... 154 1e-36
PH1475
Annotation
351AA long hypotheticalGlycerol 1-Phaphate dehydrogenase
(SPT:O59144)
SPT:Q9KBR3 Q9kbr3 L-ARABINOSE UTILIZATION PROTEIN. 10/2000 145 1e-33SPT:Q9WYC1 Q9wyc1 ARAM PROTEIN, PUTATIVE. 6/2001 120 3e-26SPT:Q9RGD4 Q9rgd4 GLYCEROL DEHYDROGENASE (EC 1.1.1.6). 6/2001 87 4e-16SW:GLDA_CITFR P45511 GLYCEROL DEHYDROGENASE (EC 1.1.1.6) (GL... 81 2e-14SPT:Q9HHR2 Q9hhr2 SN-GLYCEROL-1-PHOSPHATE DEHYDROGENASE. 6/2001 80 4e-14SW:GLDA_ECOLI P32665 GLYCEROL DEHYDROGENASE (EC 1.1.1.6) (GL... 79 7e-14SPTNEW:BAB38297 Bab38297 GLYCEROL DEHYDROGENASE. 6/2001 79 9e-14SPTNEW:AAG59146 Aag59146 GLYCEROL DEHYDROGENASE, (NAD). 6/2001 79 9e-14SPT:Q99XT5 Q99xt5 PUTATIVE GLYCEROL DEHYDROGENASE. 6/2001 78 2e-13SW:GLDA_BACST P32816 GLYCEROL DEHYDROGENASE (EC 1.1.1.6) (GL... 78 2e-13SW:GLDA_PSEPU P50173 GLYCEROL DEHYDROGENASE (EC 1.1.1.6) (GL... 70 5e-11SW:YB67_SYNY3 P74246 HYPOTHETICAL OXIDOREDUCTASE SLR1167. 8/... 65 2e-09SPT:O13702 O13702 PUTATIVE GLYCEROL DEHYDROGENASE (EC 1.1.1.... 64 2e-09SW:YBDH_ECOLI P45579 HYPOTHETICAL OXIDOREDUCTASE IN CSTA-AHP... 63 6e-09SPTNEW:AAG54934 Aag54934 PUTATIVE OXIDOREDUCTASE. 6/2001 62 8e-09SW:AROB BUCAI P57604 3-DEHYDROQUINATE SYNTHASE (EC 4.6.1.3).... 59 9e-08SPT:Q9RNG6 Q9rng6 3-DEHYDROQUINATE SYNTHETASE HOMOLOG (FRAGM... 57 5e-07SPT:Q9A434 Q9a434 3-DEHYDROQUINATE SYNTHASE. 6/2001 53 7e-06SPT:Q9U2M4 Q9u2m4 Y38F1A.6 PROTEIN. 6/2001 52 9e-06SW:ADHB_CLOAB Q04945 NADH-DEPENDENT BUTANOL DEHYDROGENASE B ... 52 9e-06SPT:Q9JVW5 Q9jvw5 3-DEHYDROQUINATE SYNTHASE (EC 4.6.1.3). 6/... 52 1e-05SW:CLCE_PSEAE O87612 MALEYLACETATE REDUCTASE (EC 1.3.1.32). ... 52 1e-05SPT:Q9PNT2 Q9pnt2 3-DEHYDROQUINATE SYNTHASE (EC 4.6.1.3). 6/... 52 2e-05SW:CLCE_PSESB O30847 MALEYLACETATE REDUCTASE (EC 1.3.1.32). ... 52 2e-05SW:AROB_SALTY P77980 3-DEHYDROQUINATE SYNTHASE (EC 4.6.1.3).... 51 3e-05SW:AROB_BACSU P31102 3-DEHYDROQUINATE SYNTHASE (EC 4.6.1.3).... 50 4e-05SPT:P70784 P70784 TECR. 6/2001 50 6e-05
1e-07
1e-05
Les erreursd’annotation
?
Banque
Protéine malannotée
Protéine query
BLASTP
Propagation des erreurs
Protéine queryProtéines modulaires
BLASTP
Génomique
Banque
BLASTP
4
SPT:O59127 O59127 587AA LONG HYPOTHETICAL PROTEIN. 5/99 875 0.0SPT:O27968 O27968 CONSERVED HYPOTHETICAL PROTEIN. 5/99 469 e-131SPTNEW:BAA81615 Baa81615 610AA LONG HYPOTHETICAL PROTEIN. 9/99 395 e-109SPT:O26919 O26919 MOLYBDENUM COFACTOR BIOSYNTHESIS MOAA HOMOLOG... 340 2e-92SW:Y619_METJA Q58036 HYPOTHETICAL PROTEIN MJ0619. 11/97 336 5e-91SW:YA54_METJA Q58454 HYPOTHETICAL PROTEIN MJ1054 (EC 1.1.1.-). ... 107 5e-22SPT O69696 O69696 HYPOTHETICAL 84 1 KD PROTEIN 5/99 104 3e 21
Exemple de problème d’annotation:les protéines à intéines
SPT:O69696 O69696 HYPOTHETICAL 84.1 KD PROTEIN. 5/99 104 3e-21SW:DPOL_PYRHO O59610 DNA POLYMERASE (EC 2.7.7.7). 7/99 77 7e-13SPT:P77933 P77933 DNA-DEPENDENT DNA POLYMERASE (EC 2.7.7.7) (DN... 76 1e-12SW:Y832_METJA Q58242 HYPOTHETICAL PROTEIN MJ0832. 12/98 71 3e-11SW:YE20_METJA Q58815 HYPOTHETICAL PROTEIN MJ1420. 12/98 67 6e-10SPTNEW:BAA79722 Baa79722 726AA LONG HYPOTHETICAL PROTEIN. 9/99 66 1e-09SW:MOAA_METJA Q58234 PUTATIVE MOLYBDOPTERIN COFACTOR SYNTHESIS ... 64 6e-09SPT:O58384 O58384 1136AA LONG HYPOTHETICAL PROTEIN. 5/99 61 4e-08SPT:O67929 O67929 MOLYBDENUM COFACTOR BIOSYNTHESIS PROTEIN A. 5/99 58 3e-07SPT:O53143 O53143 MOAA PROTEIN. 5/99 57 5e-07SW:RPA2_METJA Q58446 DNA-DIRECTED RNA POLYMERASE SUBUNIT A" (EC... 57 6e-07SW:DPOL_PYRSD Q51334 DNA POLYMERASE (EC 2.7.7.7) (DEEP VENT DNA... 57 6e-07PABY:PAB2273 PAB2273 moaA molybdenum cofactor biosynthesis prot... 56 1e-06SW:CNX2_ARATH Q39055 MOLYBDOPTERIN BIOSYNTHESIS CNX2 PROTEIN (M... 54 4e-06SPTNEW:AAD32277 Aad32277 MOLYBDOPTERIN BIOSYNTHESIS CNX2 PROTEI... 54 4e-06SPT:O58837 O58837 1352AA LONG HYPOTHETICAL ATP DEPENDENT HELICA 54 4e 06
MooA protein ?DNA polymerase ?Helicase ?Translation factor ?Transcription factor ?
Génomique
SPT:O58837 O58837 1352AA LONG HYPOTHETICAL ATP-DEPENDENT HELICA... 54 4e-06SPT:O28273 O28273 MOLYBDENUM COFACTOR BIOSYNTHESIS PROTEIN (MOA... 54 6e-06SW:IF2P_METJA Q57710 PROBABLE TRANSLATION INITIATION FACTOR IF-... 53 7e-06SPTNEW:CAB04440 Cab04440 F49H6.5 PROTEIN. 3/99 53 1e-05SPT:O57854 O57854 316AA LONG HYPOTHETICAL MOLYBDENUM COFACTOR B... 52 2e-05SW:DPOL_METJA Q58295 DNA POLYMERASE (EC 2.7.7.7). 12/98 52 2e-05SW:MOAA_MYCTU O05786 MOLYBDENUM COFACTOR BIOSYNTHESIS PROTEIN A... 51 4e-05SW:TF2B_METJA Q58192 TRANSCRIPTION INITIATION FACTOR IIB HOMOLO... 50 6e-05SPT:O28270 O28270 HEME BIOSYNTHESIS PROTEIN (NIRJ-2). 5/99 50 8e-05
Intéine avec domaine Domaine Domaine
Génomique
Intéine avec domaine endonucléase C-terminal de MooAN-terminal de MooA
5
Annotation des protéines
gène
Prints
INT
E
protéine
Fasta, BlastpPsi-Blast
Prosite
Smart
Prodom
ER
PR
OC
D se
Smart
Génomique
Banques protéiques généralistes
SwissProt SpTrEMBL PIR
Pfam
Motifs, domaines, Protéines homologues
earch
Les erreursd’annotation
?
Banque
Protéine malannotée
Protéine query
BLASTP
Propagation des erreurs
Protéine queryProtéines modulaires
BLASTP
Banque
BLASTP
Paralogie
Fonction 1
Génomique
Banque
BLASTP
?
Protéine query
BLASTP
paralogue
Fonction 1
Fonction 2
6
Relations d’homologie
spéciation
X1 X2
X0
ancêtre
orthologie
spéciation
X1 X2
X0
ancêtre
orthologie
duplication
X0
Espèce 0
Y0 Z0
paralogie
duplication
X0
Espèce 0
Y0 Z0
paralogie
X
espèce 1
Y
espèce 2
Gène ancestralcommun
Transfert horizontal
xénologie
X
espèce 1
Y
espèce 2
Gène ancestralcommun
Transfert horizontal
xénologieRappel
X1
espèce 1
X2
espèce 2
X1
espèce 1
X2
espèce 2Y0
espèce 0
Z0Y0
espèce 0
Z0X et Y espèce 1X et Y espèce 1
Fonction souventconservée
Fonction souventlégèrement différente
ATPase et GTPase6% 3% 7%
Importance de la paralogie
NAD/FAD utilizing enzymes
DNA binding proteins
Signal transduction systems
Fe-S oxidoreductases
S-adenosylmethionine methyltransferase
Other families of paralogs
6% 3%
0%
0%
42%
43%
7% 2%3%0%5%0%
36%
47%
Synechocystis sp. (57%) Methanococcus jannaschii (53%)
Génomique
No paralogs8% 2%3%0%0%1%
27%59%
12%2%0%0%0%1%
20%
65%
Mycoplasma genitalium (35%)Haemophilus influenzae (41%)
Prokaryotic genomes: the emerging paradigm of genome-based microbiologyKoonin & GalperinCurrent Opinion in Genetics & development7:757-763 (1997)
7
Importance de la paralogieSegmentally duplicated regions in the Arabidopsis genome.
The Arabidopsis Genome Initiative. Nature 408:796-815 (2000)
Importance de la paralogie3 des 5 classes de protéases chez l’homme, la souris et le rat
GénomiqueRat Genome Sequencing Project Consortium, Nature 2004
8
Devenir des paralogues
è Après duplication… 1 gène conserve fonction initiale, l’autre dégénère
=> pseudogène 1 gène conserve fonction initiale, l’autre évolue rapidement
=> nouvelle fonction le gène ancestral a plusieurs fonctions, les 2 gènes perdent
une partie de leur fonction=> complémentation
maintien de la fonction ancestrale mais spécialisationex: expression tissu-spécifique
Whole genome duplication in yeast
Examples of duplicated blocks in Saccharomyces cerevisiae
Kellis et al. Nature 2004
9
Whole genome duplication in yeastAverage divergence for gene pairs (nb subst/1000 aa)
GénomiqueKellis et al. Nature 2004
Whole genome duplication in yeast
Origin of replication recognition complex protein ORC1 / Silencing protein SIR3
Kellis et al. Nature 2004
10
Identification des orthologues
gi|2129084|pir||C64499 isocitrate dehydrogenase (EC 1.1.1.-... 666 0.0gi|7431325|pir||A69113 isocitrate dehydrogenase - Methanoba... 310 1e-83gi|6685584|sp|O27441|LEU3_METTH 3-ISOPROPYLMALATE DEHYDROGE... 303 2e-81gi|2129085|pir||H64389 isocitrate dehydrogenase (NADP+) (EC... 295 5e-79gi|3915940|sp|Q58130|LEU3_METJA 3-ISOPROPYLMALATE DEHYDROGE... 294 6e-79gi|11498236|ref|NP_069462.1| 3-isopropylmalate dehydrogenas... 278 4e-74gi|14521551|ref|NP_127027.1| 3-isopropylmalate dehydrogenas... 274 1e-72gi|7473536|pir||E75368 probable isocitrate dehydrogenase - ... 271 6e-72gi|15023878|gb|AAK78948.1|AE007613_4 (AE007613) Isocitrate ... 262 3e-69gi|6686294|sp|P50455|LEU3_SULS7 3-ISOPROPYLMALATE DEHYDROGE... 253 1e-66gi|11251519|pir||A82539 isocitrate dehydrogenase XF2596 [im... 251 5e-66g | |p || y g [gi|7492685|pir||T38621 probable isopropyl malate dehydrogen... 249 3e-65gi|6015753|emb|CAB57580.1| (Y18930) 3-isopropylmalate dehyd... 246 2e-64gi|6322097|ref|NP_012172.1| Homo-isocitrate dehydrogenase; ... 239 3e-62gi|14520655|ref|NP_126130.1| 3-isopropylmalate dehydrogenas... 235 3e-61gi|462385|sp|P33197|IDH_THETH ISOCITRATE DEHYDROGENASE [NAD... 231 7e-60gi|281496|pir||A43934 isocitrate dehydrogenase (NADP+) (EC ... 231 8e-60gi|15282623|ref|NP_201775.1| 3-isopropylmalate dehydrogenas... 228 8e-59gi|6685603|sp|Q9WZ26|LEU3_THEMA 3-ISOPROPYLMALATE DEHYDROGE... 224 8e-58gi|6225524|sp|Q9ZDR0|IDH_RICPR ISOCITRATE DEHYDROGENASE [NA... 224 8e-58
Identification des orthologues
Seuil de % d’identité ? Seuil d’expect ?
45 45
F
F
Conservation variable entre orthologues suivant les protéines considérées
22
HA
Transcriptionalregulator
4
11 11
HA
Tryptophanyl-tRNA synthetase
protéines considérées
11
Identification des orthologuesComparaison par Blastp des protéines des génomes complets
« all-against-all » protein sequence comparison
P1
P2
P10best hit
• recherche des protéines dont le meilleur hit est à l’intérieur du même génome Identification des paralogues « récents »
• recherche des meilleurs hits réciproques (« reciprocal best hits »)
reciprocal best hit
P2
P3
P4
P5
Génome A
P26
P50
…
Génome B
Méthode utilisée dans COGhttp://www.ncbi.nlm.nih.gov/COG
PFUR:PFOK1717 1801964 1802872 R Pf_1801961 531 e-150SPT:O58008 O58008 294AA LONG HYPOTHETICAL ASPARAGINYL-TRNA SYNT... 521 e-147False
di ti
P. furiosus P. horikoshii
Multiple alignmentPABY:PAB2203 PAB2203 asnS ASPARAGINYL-TRNA SYNTHETASE (EC 6.1.1... 105 4e-22PFUR:PFOK1838 162483 163808 R Pf_162480 163793,163808 102 3e-21SPT:O57980 O57980 434AA LONG HYPOTHETICAL ASPARAGINYL-TRNA SYNT... 102 4e-21SW:SYN_THETH P54263 ASPARAGINYL-TRNA SYNTHETASE (EC 6.1.1.22) (... 94 1e-18SW:SYD_METJA Q58950 ASPARTYL-TRNA SYNTHETASE (EC 6.1.1.12) (ASP... 90 1e-17SW:SYN_LACDE P54262 ASPARAGINYL-TRNA SYNTHETASE (EC 6.1.1.22) (... 90 2e-17SW:SYD_ARCFU O29342 ASPARTYL-TRNA SYNTHETASE (EC 6.1.1.12) (ASP... 88 6e-17SW:SYN_BACSU P39772 ASPARAGINYL-TRNA SYNTHETASE (EC 6.1.1.22) (... 86 2e-16SW:SYN_MYCGE P47359 ASPARAGINYL-TRNA SYNTHETASE (EC 6.1.1.22) (... 84 9e-16SW:SYD_HALSA O07683 ASPARTYL-TRNA SYNTHETASE (EC 6.1.1.12) (ASP... 84 9e-16SW:SYN_MYCPN P75521 ASPARAGINYL-TRNA SYNTHETASE (EC 6.1.1.22) (... 81 1e-14SW:SYD_METTH O26328 ASPARTYL-TRNA SYNTHETASE (EC 6.1.1.12) (ASP... 81 1e-14SPTNEW:BAA81203 Baa81203 421AA LONG HYPOTHETICAL ASPARTYL-TRNA ... 80 1e-14PFUR:PFOK0989 842910 844235 F Pf_844238 80 2e-14SW:SYN_BORBU O51128 ASPARAGINYL-TRNA SYNTHETASE (EC 6.1.1.22) (... 79 3e-14
Results of BlastP search for PABY2356
prediction
Génomique
SW:SYN_ECOLI P17242 ASPARAGINYL-TRNA SYNTHETASE (EC 6.1.1.22) (... 78 5e-14SW:SYN_HAEIN P43829 ASPARAGINYL-TRNA SYNTHETASE (EC 6.1.1.22) (... 77 1e-13SW:SYD_HALVO O24822 ASPARTYL-TRNA SYNTHETASE (EC 6.1.1.12) (ASP... 76 3e-13PABY:PAB0646 PAB0646 aspS aspartyl-tRNA synthetase (aspS) 75 5e-13SPT:O58776 O58776 438AA LONG HYPOTHETICAL ASPARTYL-TRNA SYNTHET... 75 8e-13
Schematic view of the multiple alignment : differences in domain organisation
Anticodon binding domain
12
Schematic view of the multiple alignment
Multiple alignmentSchematic view of the multiple alignment
Analysis of conservation : loss of key catalytic residues
Génomique
Arbres phylogénétiques
Famille X
Famille Y
Sp2
Sp4Sp3
Sp5
Sp1
Sp9
Sp8
Sp7
Sp6Sp5
Sp4
13
Annotation fonctionnelle
gène
Prints
Pfam
IN Prédictions ab initio
protéine
Fasta, BlastpPsi-Blast
Prints
Prosite
Blocks
Smart
Prodom
NT
ER
PR
O
ab initio
Hélices transmembranaires
Peptide signal
Structures secondaires...
Génomique
COGBanques protéiques généralistes
SwissProt SpTrEMBL PIR
Motifs, domaines,familles
Protéines homologues Localisation, structure, ...
Bilan des annotations
14
Bilan des annotations
Erreur d’annotations : (Brenner, Trends Genet. 1999)8 %
L’annotation est un processus dynamique=> Intégration de nouvelles données
Bilan des annotations
Estimated percentages of error for different functional descriptions in three microbial genomes
Devos & Valencia, Trends In Genetics, 2001
15
Bilan des annotations
Misannotation over time in the NR database (from Genbank) for the 37 families investigated.
Schnoes et al, Plos Computational Biology, 2009
16
Plan
1 Gé l1. Génomes complets2. Architecture des génomes3. Annotation des génomes
a) Annotation structurale : localisation des éléments génétiquesb) Annotation fonctionnellec) Intégration
Localisation des éléments génétiques• éléments répétés • régions de régulation• gènes codant pour des ARNs non traduitsgènes codant pour des ARNs non traduits• gènes protéiques, pseudogènes…
Protéines• recherche de similarité• recherche de domaines fonctionnels• recherche de motifs « signature »
Intégration biologique• reconstitution des processus biologiques
Voies métaboliques,…• reconstitution des interactions,…• modélisation des systèmes…
Une tâche infinie !!!
17
Intégration : catégories fonctionnelles
E. coli K12
Intégration : GOOntologie utilisée pour annoter les gènes et leurs produits (ARN protéines)Ontologie utilisée pour annoter les gènes et leurs produits (ARN,protéines)
=> vocabulaire standardisé permettant la définition non ambigüe des concepts, s’applique à n’importe quel organisme
Structure de l’ontologie : un graphe=> noeuds = concepts liens : is_a et part_of
3 ontologies: fonction moléculaire localisation cellulaire processus biologique
18
Intégration avec GO
[ th t i
[other organelles]
protein complex organelle
mitochondrion
is-apart-of
[other protein complexes]
fatty acid beta-oxidation multienzyme complex
Intégration des données
Gene Ontology Annotation for Human
19
KEGG (Kyoto Encyclopedia of Genes and Genomes)
http://www.genome.jp/kegg/
KEGG pathways Global metabolic map
20
Kegg pathways
Ex : DNA replication
KEGG metabolic pathwaysEx: Homo sapiens
21
STRING
http://string.embl.de/
STRING
22
Mueller et al. Biochimica et Biophysica Acta 2007
Blaby-Haas & de Crécy-Lagard, Trends in Biotechnology, 2011
23
From genome to systems biology
Borodina & Nielsen, Current Opinion in Biotechnology, 2005