Proyecto Genoma Humano - UAB Barcelonabioinformatica.uab.es/base/documents/masterGP/Proyecto Genoma...

15
1 Proyecto Genoma Humano 1. Desarrollo del proyecto 1 Objetivos 2 Génesis y desarrollo del proyecto 3 Estrategias de secuenciación del genoma: secuenciación aleatoria y jerárquica 4 Genotecas de BACs 5 Mapa físico 6 Selección y secuenciación de un BAC 7 Ensamblaje 8 Finalización Referencias: Lander et al. 2001, Nature 409:860-891. International Human genome Sequencing Consortium 2004, Nature 431: 931- 945. Objetivo del Proyecto Genoma Humano Elaborar un inventario de todos los genes Identificar todas las secuencias reguladoras Describir sus patrones de expresión Averiguar la función de la proteína que codifican Determinar cómo estas proteínas interactúan unas con otras en las células del organismo completo

Transcript of Proyecto Genoma Humano - UAB Barcelonabioinformatica.uab.es/base/documents/masterGP/Proyecto Genoma...

Page 1: Proyecto Genoma Humano - UAB Barcelonabioinformatica.uab.es/base/documents/masterGP/Proyecto Genoma … · Proyecto Genoma Humano 1. Desarrollo del proyecto 1 Objetivos 2 Génesis

1

Proyecto Genoma Humano1. Desarrollo del proyecto

1 Objetivos2 Génesis y desarrollo del proyecto3 Estrategias de secuenciación del genoma:

secuenciación aleatoria y jerárquica4 Genotecas de BACs5 Mapa físico6 Selección y secuenciación de un BAC7 Ensamblaje8 FinalizaciónReferencias: Lander et al. 2001, Nature 409:860-891. International

Human genome Sequencing Consortium 2004, Nature 431: 931-945.

Objetivo del Proyecto Genoma Humano

• Elaborar un inventario de todos los genes• Identificar todas las secuencias

reguladoras• Describir sus patrones de expresión• Averiguar la función de la proteína que

codifican• Determinar cómo estas proteínas

interactúan unas con otras en las células del organismo completo

Page 2: Proyecto Genoma Humano - UAB Barcelonabioinformatica.uab.es/base/documents/masterGP/Proyecto Genoma … · Proyecto Genoma Humano 1. Desarrollo del proyecto 1 Objetivos 2 Génesis

2

1. Consorcio de 20 laboratorios públicos pertenecientes a 6 países. Liderado por F.S.Collins y E. Lander.

2. Discusión y debate en la comunidad científica 1984-1990. Iniciativa: Departament of Energy y National Institutes ofHealth (US). Comienzo del proyecto: 1990. Borrador: Oct 2000. Publicación: Feb 2001. Finalización: Octubre 2004.

3. Secuenciación aleatoria jerárquica (Hierarchical ShotgunSequencing).

4. Material: DNA obtenido de donantes anónimos. La identidad de los donantes no es conocida (ni siquiera por ellos mismos).

5. Los datos se han hecho públicos a través de los bancos públicos de datos sin ninguna restricción a medida que se progresaba en el proyecto.

6. Publicación: Nature 409: 860-921 (15 febrero 2001); Nature431: 931-945 (21 Octubre 2004).

El Proyecto Genoma Humano

1. Celera Genomics. Empresa privada de biotecnología que dirige J. Craig Venter y cotiza en bolsa.

2. Anuncio del proyecto: 1998. Comienzo de la secuenciación: 8 Sep 1999. Finalización de la secuenciación: 17 Jun 2000. Ensamblaje del borrador: 1 Oct 2000.

3. Estrategia: Secuenciación aleatoria del genoma (Whole-genome shotgun sequencing).

4. Material: Se reclutaron 21 donantes voluntarios. De ellos se seleccionaron 5 sujetos (dos hombres y tres mujeres): 2 caucásicos, un afroamericano, un asiático (chino) y un hispano (mejicano).

5. Condiciones para el acceso a los datos mediante acuerdo entre Science y Celera Genomics. Los datos está a disposición de los investigadores a partir de la fecha de publicación a través de la Web de Celera y con ciertas restricciones.

6. Publicación: Science 291: 1304-1351 (16 febrero 2001).

Celera Sequencing Project

Page 3: Proyecto Genoma Humano - UAB Barcelonabioinformatica.uab.es/base/documents/masterGP/Proyecto Genoma … · Proyecto Genoma Humano 1. Desarrollo del proyecto 1 Objetivos 2 Génesis

3

Page 4: Proyecto Genoma Humano - UAB Barcelonabioinformatica.uab.es/base/documents/masterGP/Proyecto Genoma … · Proyecto Genoma Humano 1. Desarrollo del proyecto 1 Objetivos 2 Génesis

4

Características de una genoteca genómica

• Número de clones (N).• Tamaño promedio (a) y varianza del inserto.• Redundancia teórica (R = Na/b).• Aleatoriedad (randomness): representación

de secuencias genómicas diana.• Completa (completeness): si todas las

secuencias diana en el genoma estárepresentadas en la genoteca.

• Fidelidad (fidelity): medida en que los insertos de los clones son copias fieles de las secuencias del genoma.

P = 1 - (1 – a/b)N ≈ 1 – e-Na/b = 1 – e-R

N = ln (1 – P)/ln (1 – a/b)

R ≈ - ln (1 – P)donde N = número de clones; a = tamaño promedio del inserto; b = tamaño del genoma; R = redundancia teórica (Na/b); P = probabilidad de que una región dada esté incluida en la genoteca.

Page 5: Proyecto Genoma Humano - UAB Barcelonabioinformatica.uab.es/base/documents/masterGP/Proyecto Genoma … · Proyecto Genoma Humano 1. Desarrollo del proyecto 1 Objetivos 2 Génesis

5

Vector híbrido BAC/YAC quecontiene:

Centrómero y marcador His3 de levadura

Replicón del plásmido FGen de resistencia al

cloranfenicol (CM-R)Gen sacB que codifica la

levansucrasa (convierte la sucrosa en tóxico)

Segmento de relleno pUC-link eliminado durante la clonación

Lugar de clonaciónflanqueado por primers universales T7 y SP6

Shuttle vector pTARBAC2.1 (Zeng et al. 2001)

RPCI = Roswell Park Cancer Institute, Buffalo (NY)

Caltech= California Institute of Technology, Pasadena (California)

Page 6: Proyecto Genoma Humano - UAB Barcelonabioinformatica.uab.es/base/documents/masterGP/Proyecto Genoma … · Proyecto Genoma Humano 1. Desarrollo del proyecto 1 Objetivos 2 Génesis

6

Genoteca ordenada:

8 x 12 = 96 pocillos

16 x 24 = 384 pocillos1 2 3 4 5 6 7 8 9 10 11 12

ABCDEFGH

Hibridación in situ de fluorescencia (FISH) de un paciente que presenta una translocación no-recíproca de un pequeño

fragmento distal del cromosoma 10 en el cromosoma 9. (a) Sonda obtenida por microdisección del fragmento anormal del

cromosoma 9. (b) Sonda procedente del brazo cromosómico 10p.

Page 7: Proyecto Genoma Humano - UAB Barcelonabioinformatica.uab.es/base/documents/masterGP/Proyecto Genoma … · Proyecto Genoma Humano 1. Desarrollo del proyecto 1 Objetivos 2 Génesis

7

FISH en núcleos interfásicos

Page 8: Proyecto Genoma Humano - UAB Barcelonabioinformatica.uab.es/base/documents/masterGP/Proyecto Genoma … · Proyecto Genoma Humano 1. Desarrollo del proyecto 1 Objetivos 2 Génesis

8

Análisis de la región del locus Rh mediante fiber-FISH. El locus Rh contiene 2 genes RHD y RHCE altamente homólogos. La

hibridación con sondas de los intrones 3 (verde) y 7 (rojo) revela la presencia de deleciones y otras reordenaciones de la región.

Figura 6.15. Dos métodos de cartografía física para detectar solapamiento entre clones

genómicos

Page 9: Proyecto Genoma Humano - UAB Barcelonabioinformatica.uab.es/base/documents/masterGP/Proyecto Genoma … · Proyecto Genoma Humano 1. Desarrollo del proyecto 1 Objetivos 2 Génesis

9

Ensamblaje de clones mediante fingerprinting

Figure 6.2 Chain termination DNA sequencing(Sanger et al. 1977)

Page 10: Proyecto Genoma Humano - UAB Barcelonabioinformatica.uab.es/base/documents/masterGP/Proyecto Genoma … · Proyecto Genoma Humano 1. Desarrollo del proyecto 1 Objetivos 2 Génesis

10

Secuenciación automática del DNA

Secuenciación de un clon 100-200 kb

• Fase 1. Secuenciación aleatoria– Construcción de una genoteca aleatoria en

plásmido -> colección de clones 1-2 kb de tamaño promedio.

– Secuenciación de uno o ambos extremos de un cierto número de clones -> colección de lecturas (“reads”).

– Ensamblaje de las lecturas -> un cierto número de “contigs” con huecos (“gaps”) entre ellos.

• Fase 2. Finalización (corrección de errores y rellenado de huecos mediante secuenciación dirigida)

Page 11: Proyecto Genoma Humano - UAB Barcelonabioinformatica.uab.es/base/documents/masterGP/Proyecto Genoma … · Proyecto Genoma Humano 1. Desarrollo del proyecto 1 Objetivos 2 Génesis

11

Calidad de una secuencia (PHRAP score)

• P = Probabilidad de error de cada base• Q = Calidad de una base• Q = - 10 log10 P• Al iniciar un proyecto de secuenciación es

conveniente fijar cual es el objetivo: la calidad de la secuencia final a obtener. De ella depende la redundancia necesaria.

• Q = 20, 30 y 40 corresponden a P = 1%, 0,1% y 0,01%.

Page 12: Proyecto Genoma Humano - UAB Barcelonabioinformatica.uab.es/base/documents/masterGP/Proyecto Genoma … · Proyecto Genoma Humano 1. Desarrollo del proyecto 1 Objetivos 2 Génesis

12

Secuenciación de un clon 100-200 kb

• Base-calling. PHRED permite obtener la probabilidad de error de cada base.

• Ensamblaje. PHRAP permite ensamblar las lecturas en contigs.

• Edición. CONSED permite visualizar el ensamblaje y la secuencia consenso asícomo calcular la probabilidad de error de cada base en la secuencia consenso.

• Finalización. AUTOFINISH permite dirigir toda la operación de finalización basándose en la calidad de cada base.

Borrador 7 Octubre 2000

• Cartografía. Ensamblaje de los clones BAC (por fingerprinting) en 1246 contigs.

• Secuenciación y ensamblaje de 29.298 clones que representan un total de 4,26 Gb de secuencia.

• Las secuencias brutas subyacentes suponen un total de 23 Gb (promedio 7.5x).

Page 13: Proyecto Genoma Humano - UAB Barcelonabioinformatica.uab.es/base/documents/masterGP/Proyecto Genoma … · Proyecto Genoma Humano 1. Desarrollo del proyecto 1 Objetivos 2 Génesis

13

Page 14: Proyecto Genoma Humano - UAB Barcelonabioinformatica.uab.es/base/documents/masterGP/Proyecto Genoma … · Proyecto Genoma Humano 1. Desarrollo del proyecto 1 Objetivos 2 Génesis

14

Page 15: Proyecto Genoma Humano - UAB Barcelonabioinformatica.uab.es/base/documents/masterGP/Proyecto Genoma … · Proyecto Genoma Humano 1. Desarrollo del proyecto 1 Objetivos 2 Génesis

15

Fingerprint Sequenced- Gaps between

clone contigs clone contigs draft clones

El borrador del genoma humano (7-10-2000) representa el 88% de todo el genoma y un 93% de la eucromatina

Genoma Humano (versión 21-Oct-2004)• Se han conseguido secuenciar 2.850 Mb (99%

de la eucromatina).• La tasa de error es 1/100.000 bases (Q = 50).• Se ha reducido el número de “gaps” (huecos)

de ~150.000 a sólo 341.• De ellos, 33 (total ~198 Mb) en la

heterocromatina y 308 (total ~28 Mb) en la eucromatina.

• Tamaño total: 2.850 + 198 + 28 = 3.080 Mb.• Número de genes: 20.000-25.000 (19.600 genes

conocidos + 2.200 predicciones).• Pseudogenes: ~20.000.