© Copyright Ebiointel,SL 2006 Almacenamiento y representación de la información biomédica.
© Copyright Ebiointel,SL 2006 Análisis de genomas.
-
Upload
jaime-reyes-rios -
Category
Documents
-
view
221 -
download
0
Transcript of © Copyright Ebiointel,SL 2006 Análisis de genomas.
© Copyright Ebiointel,SL 2006
Análisis de genomas
© Copyright Ebiointel,SL 2006
Puntos a tratar:
Interés de los proyectos genomas La secuenciación de genomas
Bases de datos de genomas
Anotación de genomas
Genómica comparativa
Visualizadores del genoma humano
What's Next?
Análisis de Genomas
© Copyright Ebiointel,SL 2006
Cada genoma completo suministra una fuente inagotable de información biológica:
Conocimiento del número total de genes
Conocimiento de la estructura de genes, regiones reguladoras y otros elementos funcionales
Principios sobre la organización básica del organismo (clases funcionales,...)
Conocer funciones básicas de los genes conservados en distintas especies (léxico biología molecular)
Organización secuencia en los cromosomas (saco de genes o sistema integrado información)
Evolución genoma (conservación orden de genes, evolución secuencia)
Análisis de Genomas
Miramos el bosque, no el árbol
© Copyright Ebiointel,SL 2006
Criterios para la secuenciación de genomas
Amplio conocimiento biológico previo
Patógeno humano
Interés filogenético
Análisis de Genomas
© Copyright Ebiointel,SL 2006
Secuenciación de Genomas
Hierarchical Shotgun Sequencing vs
Shotgun Sequencing
Ensamblado de la
secuencia
• Borrador (draft): 1 error en 1kb (4x-5x)
• Acabado (finished): 1 error en 10 kb (8x-9x)
© Copyright Ebiointel,SL 2006
Bases de datos genómicas
Análisis de Genomas
Links genómicaLinks genómica
GOLD[TM] Genomes
OnLine Database v 2.0
http://www.genomesonline.org Information regarding complete and ongoing genome projects
Genome Sequencing Proposals
http://www.genome.gov/10002154
Entrez Genomes
http://www.ncbi.nlm.nih.gov/entrez/query.fcgi?db=genome&cmd=search&term=
•Buscar el número de genomas de mamíferos que se están secuenciando por el método WSG (Whole Genome Shotgun)
•Buscar el número de genomas de mamíferos que se están secuenciando por el método WSG (Whole Genome Shotgun)
© Copyright Ebiointel,SL 2006
Bases de datos genómicas
Análisis de Genomas
Links genómicaLinks genómica
TIGR Microbial
Database
http://www.tigr.org/tdb/mdb/mdbcomplete.html
Microbial genomes and chromosomes
ACeDB http://www.acedb.org/ C. elegans, S. pombe, and human sequences and genomic information
FlyBase http://www.fruitfly.org Drosophila sequences and genomic information
MITOMAP http://www.mitomap.org/ Human mitochondrial genome
© Copyright Ebiointel,SL 2006
Genomas de microorganismos secuenciados
Nuestra visión del árbol de la vida debe ser modificada
Análisis de Genomas
© Copyright Ebiointel,SL 2006
Tipos celulares básicos
Análisis de Genomas
© Copyright Ebiointel,SL 2006
Genomas de microorganismos secuenciados
Nuestra visión del árbol de la vida debe ser modificada 40% genes son URFs (unidentified reading
frames) Mínimo número de genes para sostener el tipo
moderno de célula es 256-80 Importancia de transferencia horizontal (en E. coli
12,5% genoma) Gene shuffling ORFs faltantes de genes existentes Descubrimiento de antibióticos (broad spectrum
antibiotics) Causas de patogenidad (ej. Yersinia
pseudotuberculosis y Yersinia pestis)
Análisis de Genomas
© Copyright Ebiointel,SL 2006
Genomas de microorganismos secuenciados
Causas de patogenidad (ej. Yersinia pseudotuberculosis y Yersinia pestis Science 2002)
Análisis de Genomas
© Copyright Ebiointel,SL 2006
Arabidopsis thaliana
http://www.arabidopsis.org/
Genoma arroz http://rgp.dna.affrc.go.jp/ International Rice Genome Sequencing Project, coordinado por el RGP de Japón
Fugu genome project
Fugu genomics project
http://bahama.jgi-psf.org/fugu/html/fugu_factsheet.html
http://fugu.hgmp.mrc.ac.uk/PFW/
Fugu
Genoma ratón
Genoma rata
http://www.ensembl.org
http://www.ncbi.nih.gov/genome/guide/mouse
http://www.informatics.jax.org/
http://rgd.mcw.edu/
Bases de datos genómicas
Análisis de Genomas
© Copyright Ebiointel,SL 2006
Vertebrados secuenciadosAnálisis de Genomas
© Copyright Ebiointel,SL 2006
El genom
a human
o
The human genome
© Copyright Ebiointel,SL 2006
Análisis de Genomas
Genoma Humano en GenBank
http://www.ncbi.nlm.nih.gov/mapview/map_search.cgi?chr=hum_chr.inf&query=
Visualizador Genoma Humano
Guía al genoma humano
Ensembl http://www.ensembl.org Annotated human Genome sequence data
UCSC http://genome.ucsc.edu/ UCSC Genome Browser
Bases de datos genoma humano
http://www.ncbi.nlm.nih.gov/genome/guide/human/
© Copyright Ebiointel,SL 2006
Anotación del genoma
Identificación de repeticiones (Repeat masker, Reputer, …) Predicción de los genes que codifican para proteínas
Métodos ab initio (GenScan, Genmark, Glimmer,…) Comparación genoma con mRNA (EST) (blastn, sim4,…) Comparación genoma con proteínas (blastx, genewise)
• Predicción de RNA genes
Métodos ab initio (tRNAScanSE, snoRNA,…) Comparación genoma con RNA (EST) (blatn, sim4,…)
Otros elementos Pseudogenes (por similitud, blastn, blastx) Elementos reguladores (islas CpG, promotores??)
Anotación del genoma
Identificación de repeticiones (Repeat masker, Reputer, …) Predicción de los genes que codifican para proteínas
Métodos ab initio (GenScan, Genmark, Glimmer,…) Comparación genoma con mRNA (EST) (blastn, sim4,…) Comparación genoma con proteínas (blastx, genewise)
• Predicción de RNA genes
Métodos ab initio (tRNAScanSE, snoRNA,…) Comparación genoma con RNA (EST) (blatn, sim4,…)
Otros elementos Pseudogenes (por similitud, blastn, blastx) Elementos reguladores (islas CpG, promotores??)
Análisis de Genomas
Se dispone de la secuencia de un genoma ensamblada
© Copyright Ebiointel,SL 2006
Protocolo para localización de genes que codifican para proteína a partir de la inspección de la secuencia
Traducción conceptual de la secuencia Detección pautas abierta de lectura (ORFs): sucesión
de codones sin STOP (ORF promedio = ~150 nc Distinción región codificante: composición bases
Sesgo de codones Frec. Aminoácidos Correlación entre aa vecinos Mejora algoritmo probándola con genes conocidos Frec. de oligómeros (Hidden Markow models)
Búsqueda señales: sitios conservados Señales splicing: límites exón-intrón sitio aceptor y receptor, branch
point Codón inicio traducción y terminación (STOP)
Ponderación por matrices (perfiles)
Análisis de Genomas
© Copyright Ebiointel,SL 2006
Protocolo para localización de genes que codifican para proteína a partir de la inspección de la secuencia (2)
Construcción un modelo del genCombinación del exón con las fases compatibles
Búsqueda de las secuencias limítrofes Exones terminales (5’, 3’) Promotores Señal de poliadenilación
Análisis de Genomas
© Copyright Ebiointel,SL 2006
Análisis de Genomas
Predicción de genes que codifican para proteína: Resumen
© Copyright Ebiointel,SL 2006
Análisis de Genomas
Secuencia problema Arabidopsis
Ejercicios
Links buscadores de genesLinks buscadores de genes
Ejemplo: ORF Finder (Open Reading Frame Finder) al NCBI
•Buscar ORF con Genscan, o Metagene en una secuencia problema de Arabidopsis y de la secuencia del gen BRCA1 de humanos•Identificación de genes en secuencia genómica http://ebiointel.uab.es/base/base.asp?sitio=canruti&anar=ejerci&item=&subitem=
© Copyright Ebiointel,SL 2006
Análisis del proteoma codificado por un
genoma secuenciado
Análisis de Genomas
Búsqueda de homologíasBúsqueda de homologías
© Copyright Ebiointel,SL 2006
1. Predicción de genesMétodos ab initio (in
silico)
2. Análisis proteoma
Análisis de Genomas
Anotación• Predicción de genes “in silico“• Asignación funcional (homología otras proteínas, información patrones, estructura,..)
© Copyright Ebiointel,SL 2006
Comparación entre genomas
Localización de secuencias
ortólogas
Análisis de Genomas
© Copyright Ebiointel,SL 2006
Ensembl
Análisis de Genomas
Sistemas de anotación automáticos
© Copyright Ebiointel,SL 2006
Análisis de Genomas
Ortólogo vs Parálogo
Duplicación
Especiación
Especie 1 Especie 2
Presente
•Los pares 1 y 2, y 1 y 2 son ortólogos•Los pares 1 y 1, 1 y 2, 2 y 1 y 2 y 1 son parálogos
© Copyright Ebiointel,SL 2006
Análisis de Genomas
Ortólogo vs Parálogo
© Copyright Ebiointel,SL 2006
Localización de ortólogos
Criterios al comparar de proteomas
El par putativo de ortólogos deben dar el mejor hit al consultar la secuencias de cada uno con la del genoma del otro E muy bajo < 10-20 (Conservativo) o 0,01 (no
conservativo) y alineamientos > 80% identidad (conservativo) o 60% (no conservativos)
Análisis de clusters las secuencias agrupadas
Análisis de Genomas
Obtenemos los clusters de grupos homólogos
© Copyright Ebiointel,SL 2006
Análisis de Genomas
© Copyright Ebiointel,SL 2006
Análisis de Genomas
© Copyright Ebiointel,SL 2006
Análisis de Genomas
© Copyright Ebiointel,SL 2006
Genómica comparativa
Todo elementos funcional está constreñido por la selección natural
Detección de la huella de la selección en las secuencias genómicas
Principio básico
Análisis de Genomas
© Copyright Ebiointel,SL 2006
Genómica comparativa
Detección Genes
Detección regiones reguladoras
Detectar funciones nuevas y conservadas
Evolución genoma
Evolución Proteínas
Modelos animales estudios fisiología y enfermedades
La genómica comparativa es fundamental para:
Análisis de Genomas
© Copyright Ebiointel,SL 2006
Rubin et al. Science 287: 2204-2215
Análisis de Genomas
© Copyright Ebiointel,SL 2006
Distribución de homologías en proteínas humanas
Sólo vertebrados22%
Sólo procariotas<1% Eucariota y procariota
21%
Animales y otros eucariotas
32%
No homología animal
1%
Vertebrados y otros animales
24%
Análisis de Genomas
© Copyright Ebiointel,SL 2006
Genómica comparativa
Genoma ratón 14% menor genoma humano (2,5 Gb vs 2,9 Gb)
90% ambos genomas presentan sintenia
A nivel nucleotídico 40% GH se alinea con GR
Tasa substitución neutra 0,5 por sitio. Doble ratón que humanos
% genoma sometido a selec purificadora >5%
Evolución no uniforme del genoma
Ambos ~ mismo número genes, 30.000. 80% único ortólogo, sin homología <1%
© Copyright Ebiointel,SL 2006
Distribución de homologías en proteínas humanas
Genómica comparativa
© Copyright Ebiointel,SL 2006
Nature 2003, 423:241-254
Genómica comparativa
© Copyright Ebiointel,SL 2006
Metodología con una sensibilidad y precisión comparable o superior al
análisis experimental
Genómica comparativa
© Copyright Ebiointel,SL 2006
Vertebrados secuenciadosAnálisis de Genomas
© Copyright Ebiointel,SL 2006
Análisis de Genomas
Clasificación funcionalDesde:
•Simples categorías (energía, información, comunicación)
•Esquema de clasificación Gene Ontology (GO) que engloba:
•Papel biológico (Why?)•Función molecular (What?)•Localización celular (Where?)
Molecular Function Ontology
the tasks performed by individual gene products; examples are carbohydrate binding and ATPase activity
Biological Process Ontology
broad biological goals, such as mitosis or purine metabolism, that are accomplished by ordered assemblies of molecular functions
Cellular Component Ontology
subcellular structures, locations, and macromolecular complexes; examples include nucleus, telomere, and origin recognition complex
© Copyright Ebiointel,SL 2006
Análisis de Genomas
Gene Ontology
© Copyright Ebiointel,SL 2006
Análisis de Genomas
Clasificación funcional GO:0003673 : Gene_Ontology ( 149784 ) • GO:0008150 : biological_process ( 99849 )
• GO:0007610 : behavior ( 2298 ) • GO:0000004 : biological_process unknown ( 27969 ) • GO:0009987 : cellular process ( 32926 ) • GO:0007275 : development ( 14739 ) • GO:0008371 : obsolete biological process ( 97 ) • GO:0007582 : physiological process ( 62723 ) • GO:0050789 : regulation of biological process ( 12540 ) • GO:0016032 : viral life cycle ( 255 )
• GO:0005575 : cellular_component ( 80819 ) • GO:0005623 : cell ( 57332 ) • GO:0008372 : cellular_component unknown ( 19622 ) • GO:0005576 : extracellular ( 5011 ) • GO:0019814 : immunoglobulin complex ( 19 ) • GO:0008370 : obsolete cellular component ( 25 ) • GO:0005941 : unlocalized ( 550 ) • GO:0019012 : virion ( 127 )
• GO:0003674 : molecular_function ( 101079 ) • GO:0016209 : antioxidant activity ( 322 ) • GO:0005488 : binding ( 27236 ) • GO:0003824 : catalytic activity ( 33780 ) • GO:0003754 : chaperone activity ( 894 ) • GO:0030188 : chaperone regulator activity ( 13 ) • GO:0030234 : enzyme regulator activity ( 1851 ) • GO:0005554 : molecular_function unknown ( 28940 ) • GO:0003774 : motor activity ( 423 ) • GO:0045735 : nutrient reservoir activity ( 36 ) • GO:0008369 : obsolete molecular function ( 675 ) • GO:0004871 : signal transducer activity ( 6503 ) • GO:0005198 : structural molecule activity ( 3002 ) • GO:0030528 : transcription regulator activity ( 7944 ) • GO:0045182 : translation regulator activity ( 602 ) • GO:0005215 : transporter activity ( 9113 ) • GO:0030533 : triplet codon-amino acid adaptor activity ( 553 )
© Copyright Ebiointel,SL 2006
Genes bien caracterizados
Análisis de Genomas
RefSeq database
http://www.ncbi.nlm.nih.gov/LocusLink/refseq.html
Reference Sequence Project
LocusLink http://www.ncbi.nlm.nih.gov/LocusLink/ Locus Link
GeneCards http://bioinformatics.weizmann.ac.il/cards Genes humanos
© Copyright Ebiointel,SL 2006
OMIM
Online Mendelian Inheritance in Man
http://www.ncbi.nlm.nih.gov/entrez/query.fcgi?db=OMIM
Catalog of human genetic and genomic disorders
MIM (Mendelian Inheritance
in Man):
•Victor A. McKusick. Catálogo MIM (1966)- 12 ediciones impresas
•OMIM Statistics
© Copyright Ebiointel,SL 2006
Análisis de Genomas
Genoma Humano en GenBank
http://www.ncbi.nlm.nih.gov/mapview/map_search.cgi?chr=hum_chr.inf&query=
Visualizador Genoma Humano
Guía al genoma humano
Ensembl http://www.ensembl.org Annotated human Genome sequence data
UCSC http://genome.ucsc.edu/ UCSC Genome Browser
Bases de datos genoma humano
http://www.ncbi.nlm.nih.gov/genome/guide/human/
Ejercicios de búsqueda en el genoma humano
© Copyright Ebiointel,SL 2006
Análisis de Genomas
What's Next?Turning Genomics Vision Into Reality
•ENCyclopedia Of DNA Elements (ENCODE)
•The International HapMap Project
•Structural Genomics Consortium