Estratégias de sequenciamento : genoma e transcriptoma [email protected] Marcelo...

34
Estratégias de sequenciamento : genoma e transcriptoma [email protected] Marcelo Falsarella Carazzolle Laboratório de Genômica e Proteômica

Transcript of Estratégias de sequenciamento : genoma e transcriptoma [email protected] Marcelo...

Page 1: Estratégias de sequenciamento : genoma e transcriptoma mcarazzo@lge.ibi.unicamp.br Marcelo Falsarella Carazzolle Laboratório de Genômica e Proteômica Unicamp.

Estratégias de sequenciamento : genoma e

transcriptoma

[email protected]

Marcelo Falsarella Carazzolle

Laboratório de Genômica e Proteômica

Unicamp

Page 2: Estratégias de sequenciamento : genoma e transcriptoma mcarazzo@lge.ibi.unicamp.br Marcelo Falsarella Carazzolle Laboratório de Genômica e Proteômica Unicamp.

Resumo

- Introdução à genômica

- Estratégias de sequenciamento

- DNA

- ESTs

- Tecnologias de sequenciamento

- Sanger sequencing

- Pirosequenciamento

Page 3: Estratégias de sequenciamento : genoma e transcriptoma mcarazzo@lge.ibi.unicamp.br Marcelo Falsarella Carazzolle Laboratório de Genômica e Proteômica Unicamp.

Introdução à genômica

Genômica

Ciência que estuda o genoma, ou o conjunto do material genético de um organismo.

Ex.: Genoma da Xylella fastidiosa é composto pelo DNA cromossomal mais o DNA

plasmidial.

Page 4: Estratégias de sequenciamento : genoma e transcriptoma mcarazzo@lge.ibi.unicamp.br Marcelo Falsarella Carazzolle Laboratório de Genômica e Proteômica Unicamp.

Como ???

Através de seqüenciamento de DNA :

Determinação da sua seqüência nucleotídica (ACGTs).

Duas tecnologias de sequenciamento :

Sanger sequencing (Megabace, 377, ...)

Pirosequenciamento (454)

Page 5: Estratégias de sequenciamento : genoma e transcriptoma mcarazzo@lge.ibi.unicamp.br Marcelo Falsarella Carazzolle Laboratório de Genômica e Proteômica Unicamp.

Projetos genoma e transcriptoma

Seqüenciamento de material genético, DNA e RNA, de organismo e anotação de estruturas

dos genes encontrados

Ex.: Seqüenciamento do genoma humano; do cromossomo IV de S. cerevisiae; de ESTs de

diferentes espécies de Eucalyptus.

Page 6: Estratégias de sequenciamento : genoma e transcriptoma mcarazzo@lge.ibi.unicamp.br Marcelo Falsarella Carazzolle Laboratório de Genômica e Proteômica Unicamp.

Tipos de projetoDNA – seqüenciamento de estruturas do genoma ou de trechos

destas. Ex.: Genoma humano

ESTs – sequenciamento de cDNA, feitos à partir de bibliotecas de mRNA. Ex.: ESTs de cana-de-açúcar

SAGE – sequenciamento de fragmentos em torno de 20 pb do cDNA

Page 7: Estratégias de sequenciamento : genoma e transcriptoma mcarazzo@lge.ibi.unicamp.br Marcelo Falsarella Carazzolle Laboratório de Genômica e Proteômica Unicamp.

Diferenças entre as metodologias

-Sequenciamento de DNA, feito de forma aleatória, fornece :

- Informações sobre regiões codantes (genes) e promotores.

- Mas gera sequências em regiões inter-gênicas (a princípio sem nenhuma função)

- Sequenciamento de mRNA fornece :

- Informação direta sobre os genes e também sobre a expressão gênica.

- Mas genes pouco expressos são mais raros de serem sequenciados por essa técnica

- SAGE fornece informação sobre a expressão gênica de forma mais eficiente que ESTs, mas é útil apenas quando o genoma completo do organismo for conhecido

- A situação ideal para um projeto genoma é sequenciar ambos DNA e cDNA

Page 8: Estratégias de sequenciamento : genoma e transcriptoma mcarazzo@lge.ibi.unicamp.br Marcelo Falsarella Carazzolle Laboratório de Genômica e Proteômica Unicamp.

Estratégias de sequenciamento

- DNA– Shotgun de genoma inteiro– Shotgun em pedaços do genoma clonados em BACs– Primer walking

- ESTs– RNA oriundos de diferentes tecidos ou condições– Biblioteca subtrativa

Page 9: Estratégias de sequenciamento : genoma e transcriptoma mcarazzo@lge.ibi.unicamp.br Marcelo Falsarella Carazzolle Laboratório de Genômica e Proteômica Unicamp.

Quebrar em pedaços aleatórios ~2000pb

(shotgun)

DNA genômico

clonar em vetor

sequenciamento

reads

Shotgun do genoma inteiro

Page 10: Estratégias de sequenciamento : genoma e transcriptoma mcarazzo@lge.ibi.unicamp.br Marcelo Falsarella Carazzolle Laboratório de Genômica e Proteômica Unicamp.

Reconstrução do DNA original a partir do fragmentos (clusterização)

reads

Sequência consensu(DNA original)

A reconstrução é feita a partir de sobreposição dos fragmentos

Page 11: Estratégias de sequenciamento : genoma e transcriptoma mcarazzo@lge.ibi.unicamp.br Marcelo Falsarella Carazzolle Laboratório de Genômica e Proteômica Unicamp.

Quebrar em pedaços aleatoriamente desde

50Kpb até 300Kpb

DNA genômico

~800 bp ~800 bpQuebrar em pedaços de 2000pb

Clonar em BAC’s e sequenciar apenas as

pontas de cada fragmento

clonar em vetor e sequenciar os fragmentos

Shotgun de pedaços do genoma

Page 12: Estratégias de sequenciamento : genoma e transcriptoma mcarazzo@lge.ibi.unicamp.br Marcelo Falsarella Carazzolle Laboratório de Genômica e Proteômica Unicamp.

Primer Walking

Clone to sequenceVector

Primer Sequence

New Primer

Sequence

Repeat

Sempre desenhar o primer de forma que a sequência amplificada tenha sobreposição com a anterior (tipicamente 100 pb de sobreposição)

Page 13: Estratégias de sequenciamento : genoma e transcriptoma mcarazzo@lge.ibi.unicamp.br Marcelo Falsarella Carazzolle Laboratório de Genômica e Proteômica Unicamp.

Expressed sequence tags (ESTs)

clonar em vetor

sequenciamento

3’ EST5’ EST

Extrair RNA de diferentes tecidos/condições

Síntese de cDNA

Page 14: Estratégias de sequenciamento : genoma e transcriptoma mcarazzo@lge.ibi.unicamp.br Marcelo Falsarella Carazzolle Laboratório de Genômica e Proteômica Unicamp.

Controle Tratado

Extração de RNA e síntese de cDNA

sequenciamento sequenciamento

clusterização

Construção da biblioteca e sequenciamento

Sequência consensu

Expressão gênica :controletratado

= 2x

Artigo : audic e claverie

Page 15: Estratégias de sequenciamento : genoma e transcriptoma mcarazzo@lge.ibi.unicamp.br Marcelo Falsarella Carazzolle Laboratório de Genômica e Proteômica Unicamp.

Adaptors

Driver Driver and Tester

Tester

Driver Tester

No amplificatedExponential

AmplificationLinear

Amplification

EliminatedEliminatedEnriched Tester

1-cDNA synthesis

2-cDNA digestion with 4 cutter enzyme

3-Adaptor ligation to tester sample

4-Tester/ driver hybridization

5-PCR with primers that anneal

specifically to adaptor previously

ligated to tester sample

6-Enrichment of cDNA library in genes

preferentially expressed in tester

sample

Control Treated

RNA Pools

Biblioteca subtrativa

Page 16: Estratégias de sequenciamento : genoma e transcriptoma mcarazzo@lge.ibi.unicamp.br Marcelo Falsarella Carazzolle Laboratório de Genômica e Proteômica Unicamp.

Tecnologias de sequenciamento

- Sanger sequencing

- PNAS 74 (1977), n. 12, 5463-5467

- Sequenciador MegaBACE (1Mpb/24 horas)

- Pirosequenciamento

- Science 281 (1998), n. 5375, 363-365

- Nature 437 (2005), 362-7

- Sequenciador 454 (150Mpb/24 horas)

Page 17: Estratégias de sequenciamento : genoma e transcriptoma mcarazzo@lge.ibi.unicamp.br Marcelo Falsarella Carazzolle Laboratório de Genômica e Proteômica Unicamp.

Sanger sequencing

denaturação

anelamento dos primers

Page 18: Estratégias de sequenciamento : genoma e transcriptoma mcarazzo@lge.ibi.unicamp.br Marcelo Falsarella Carazzolle Laboratório de Genômica e Proteômica Unicamp.
Page 19: Estratégias de sequenciamento : genoma e transcriptoma mcarazzo@lge.ibi.unicamp.br Marcelo Falsarella Carazzolle Laboratório de Genômica e Proteômica Unicamp.

Exemplo de gel utilizado nos seqüenciadores de gel (ex.: 377). A diferença de tamanho permite a separação dos grupos de fragmentos, e esta “distribuição normal” da passagem dos

fragmentos é representada pelo eletroferograma (ou cromatograma) de cada seqüência (read).

Filme sequenciamento

Page 20: Estratégias de sequenciamento : genoma e transcriptoma mcarazzo@lge.ibi.unicamp.br Marcelo Falsarella Carazzolle Laboratório de Genômica e Proteômica Unicamp.

0 0 5 6 7 10 10 9 12 15 20 20 30 30 35 40 41 45 50 56 56 50 40 ...

O programa PHRED lê o chromatograma identificando e dando uma nota para cada base que forma a sequência :

Genome Research 8 (3) (1998), 175-185

Page 21: Estratégias de sequenciamento : genoma e transcriptoma mcarazzo@lge.ibi.unicamp.br Marcelo Falsarella Carazzolle Laboratório de Genômica e Proteômica Unicamp.

- A identificação dos picos é feita através de uma transformada de fourier do sinal

- A nota é ligada com a resolução entre os picos vizinhos e a altura do background

background

Page 22: Estratégias de sequenciamento : genoma e transcriptoma mcarazzo@lge.ibi.unicamp.br Marcelo Falsarella Carazzolle Laboratório de Genômica e Proteômica Unicamp.

Região de qualidade alta

• Picos bem definidos e grandes.• Linha de base boa.• Distância entre picos anterior e posterior constante.

Analisando o cromatograma

Page 23: Estratégias de sequenciamento : genoma e transcriptoma mcarazzo@lge.ibi.unicamp.br Marcelo Falsarella Carazzolle Laboratório de Genômica e Proteômica Unicamp.

Região de qualidade média – poucas ambigüidades

• Picos razoavelmente bem definidos e de tamanho médio.• Linha de base boa a razoável.• Distância entre picos anterior e posterior razoável.

Page 24: Estratégias de sequenciamento : genoma e transcriptoma mcarazzo@lge.ibi.unicamp.br Marcelo Falsarella Carazzolle Laboratório de Genômica e Proteômica Unicamp.

Região de qualidade baixa – baixa confiabilidade

• Picos mal definidos e de tamanho pequeno.• Linha de base confusa.• Distância entre picos anterior e posterior inconstante.

Page 25: Estratégias de sequenciamento : genoma e transcriptoma mcarazzo@lge.ibi.unicamp.br Marcelo Falsarella Carazzolle Laboratório de Genômica e Proteômica Unicamp.

Onde q é a nota phred e P é a probabilidade encontrar uma base errada :

- Nota phred = 20 => 1 base errada a cada 100 (99%)

- Nota phred = 30 => 1 base errada a cada 1000 (99.9%)

- Sequenciamento produz seqüências da ordem de 500 pb

Page 26: Estratégias de sequenciamento : genoma e transcriptoma mcarazzo@lge.ibi.unicamp.br Marcelo Falsarella Carazzolle Laboratório de Genômica e Proteômica Unicamp.

Pirosequenciamento

Science 281 (1998), n. 5375, 363-365

Fita simples

Câmera de CCD

Reação de degradação

Filme sequenciamento

Page 27: Estratégias de sequenciamento : genoma e transcriptoma mcarazzo@lge.ibi.unicamp.br Marcelo Falsarella Carazzolle Laboratório de Genômica e Proteômica Unicamp.

Quebrar em pedaços aleatórios ~2000pb

(shotgun)

DNA genômico

Ligação do adaptador e

separação em fita simples

Shotgun do genoma inteiro

Page 28: Estratégias de sequenciamento : genoma e transcriptoma mcarazzo@lge.ibi.unicamp.br Marcelo Falsarella Carazzolle Laboratório de Genômica e Proteômica Unicamp.

- O adaptador permite que o DNA se ligue em grânulos minúsculos (diâmetro de 28 m). Apenas um DNA é ligado em cada grânulo

- Os grânulos são envolvidos em gotas de óleo que contêm todos os reagentes necessários para amplificar o DNA

- Cada gota contendo o grânulo é mantida isolada para evitar contaminação e consegue produzir 10 milhões de cópias numa reação de pirosequenciamento

- Um pmol de DNA numa reação de pirosequenciamento produz 1011 moléculas de ATP gerando mais de 109 fótons, num comprimento de onda de 560 nm, e num período de 3-4 segundos. Facilmente detectado por uma câmera de CCD

Nature 437 (2005), 326-327

Page 29: Estratégias de sequenciamento : genoma e transcriptoma mcarazzo@lge.ibi.unicamp.br Marcelo Falsarella Carazzolle Laboratório de Genômica e Proteômica Unicamp.

O sequenciador 454

Câmera de CCD

Computador

Bombeamento de fluídos

Câmara de fluxo contendo as amostras e as fibras ópticas(1,6 milhões/slide)

Nature 437 (2005), 376-380

Page 30: Estratégias de sequenciamento : genoma e transcriptoma mcarazzo@lge.ibi.unicamp.br Marcelo Falsarella Carazzolle Laboratório de Genômica e Proteômica Unicamp.

Linearidade é mantida até homopolímeros de 8 nt

Pirograma

Page 31: Estratégias de sequenciamento : genoma e transcriptoma mcarazzo@lge.ibi.unicamp.br Marcelo Falsarella Carazzolle Laboratório de Genômica e Proteômica Unicamp.

São obtidas seqüências de até 100-120 b

Page 32: Estratégias de sequenciamento : genoma e transcriptoma mcarazzo@lge.ibi.unicamp.br Marcelo Falsarella Carazzolle Laboratório de Genômica e Proteômica Unicamp.

SANGER Pirosequenciamento• Depende de clonagem em

bactéria (2 semanas de trabalho)

• Não há clonagem

• Reads de ~700 bp • Reads de ~100 bp

• Clones de fita dupla permitem seqüenciamento em ambas direções (facilita orientação e montagem)

• Fragmentos fita simples não permitem seqüenciamento em ambas direções

Sanger vs Pirosequenciamento

• 25 milhões de bp em 4 horas (100x mais rápido)

• 1 milhão de pb em 24 horas

• 6 meses de sequenciamento, 24 horas por dia, para sequenciar o genoma de um fungo

• 24 horas para sequenciar o genoma de um fungo

Conclusão : a união faz a força PNAS 103 (2006), 11240

Page 33: Estratégias de sequenciamento : genoma e transcriptoma mcarazzo@lge.ibi.unicamp.br Marcelo Falsarella Carazzolle Laboratório de Genômica e Proteômica Unicamp.

END

Page 34: Estratégias de sequenciamento : genoma e transcriptoma mcarazzo@lge.ibi.unicamp.br Marcelo Falsarella Carazzolle Laboratório de Genômica e Proteômica Unicamp.

Path that was used for genome sequencing

YACs

BACs orCosmids

m13, plasmid

map (MBP)

map (200kBP)

sequence (kbp)