Estratégias de sequenciamento : genoma e transcriptoma [email protected] Marcelo...
Transcript of Estratégias de sequenciamento : genoma e transcriptoma [email protected] Marcelo...
Estratégias de sequenciamento : genoma e
transcriptoma
Marcelo Falsarella Carazzolle
Laboratório de Genômica e Proteômica
Unicamp
Resumo
- Introdução à genômica
- Estratégias de sequenciamento
- DNA
- ESTs
- Tecnologias de sequenciamento
- Sanger sequencing
- Pirosequenciamento
Introdução à genômica
Genômica
Ciência que estuda o genoma, ou o conjunto do material genético de um organismo.
Ex.: Genoma da Xylella fastidiosa é composto pelo DNA cromossomal mais o DNA
plasmidial.
Como ???
Através de seqüenciamento de DNA :
Determinação da sua seqüência nucleotídica (ACGTs).
Duas tecnologias de sequenciamento :
Sanger sequencing (Megabace, 377, ...)
Pirosequenciamento (454)
Projetos genoma e transcriptoma
Seqüenciamento de material genético, DNA e RNA, de organismo e anotação de estruturas
dos genes encontrados
Ex.: Seqüenciamento do genoma humano; do cromossomo IV de S. cerevisiae; de ESTs de
diferentes espécies de Eucalyptus.
Tipos de projetoDNA – seqüenciamento de estruturas do genoma ou de trechos
destas. Ex.: Genoma humano
ESTs – sequenciamento de cDNA, feitos à partir de bibliotecas de mRNA. Ex.: ESTs de cana-de-açúcar
SAGE – sequenciamento de fragmentos em torno de 20 pb do cDNA
Diferenças entre as metodologias
-Sequenciamento de DNA, feito de forma aleatória, fornece :
- Informações sobre regiões codantes (genes) e promotores.
- Mas gera sequências em regiões inter-gênicas (a princípio sem nenhuma função)
- Sequenciamento de mRNA fornece :
- Informação direta sobre os genes e também sobre a expressão gênica.
- Mas genes pouco expressos são mais raros de serem sequenciados por essa técnica
- SAGE fornece informação sobre a expressão gênica de forma mais eficiente que ESTs, mas é útil apenas quando o genoma completo do organismo for conhecido
- A situação ideal para um projeto genoma é sequenciar ambos DNA e cDNA
Estratégias de sequenciamento
- DNA– Shotgun de genoma inteiro– Shotgun em pedaços do genoma clonados em BACs– Primer walking
- ESTs– RNA oriundos de diferentes tecidos ou condições– Biblioteca subtrativa
Quebrar em pedaços aleatórios ~2000pb
(shotgun)
DNA genômico
clonar em vetor
sequenciamento
reads
Shotgun do genoma inteiro
Reconstrução do DNA original a partir do fragmentos (clusterização)
reads
Sequência consensu(DNA original)
A reconstrução é feita a partir de sobreposição dos fragmentos
Quebrar em pedaços aleatoriamente desde
50Kpb até 300Kpb
DNA genômico
~800 bp ~800 bpQuebrar em pedaços de 2000pb
Clonar em BAC’s e sequenciar apenas as
pontas de cada fragmento
clonar em vetor e sequenciar os fragmentos
Shotgun de pedaços do genoma
Primer Walking
Clone to sequenceVector
Primer Sequence
New Primer
Sequence
Repeat
Sempre desenhar o primer de forma que a sequência amplificada tenha sobreposição com a anterior (tipicamente 100 pb de sobreposição)
Expressed sequence tags (ESTs)
clonar em vetor
sequenciamento
3’ EST5’ EST
Extrair RNA de diferentes tecidos/condições
Síntese de cDNA
Controle Tratado
Extração de RNA e síntese de cDNA
sequenciamento sequenciamento
clusterização
Construção da biblioteca e sequenciamento
Sequência consensu
Expressão gênica :controletratado
= 2x
Artigo : audic e claverie
Adaptors
Driver Driver and Tester
Tester
Driver Tester
No amplificatedExponential
AmplificationLinear
Amplification
EliminatedEliminatedEnriched Tester
1-cDNA synthesis
2-cDNA digestion with 4 cutter enzyme
3-Adaptor ligation to tester sample
4-Tester/ driver hybridization
5-PCR with primers that anneal
specifically to adaptor previously
ligated to tester sample
6-Enrichment of cDNA library in genes
preferentially expressed in tester
sample
Control Treated
RNA Pools
Biblioteca subtrativa
Tecnologias de sequenciamento
- Sanger sequencing
- PNAS 74 (1977), n. 12, 5463-5467
- Sequenciador MegaBACE (1Mpb/24 horas)
- Pirosequenciamento
- Science 281 (1998), n. 5375, 363-365
- Nature 437 (2005), 362-7
- Sequenciador 454 (150Mpb/24 horas)
Sanger sequencing
denaturação
anelamento dos primers
Exemplo de gel utilizado nos seqüenciadores de gel (ex.: 377). A diferença de tamanho permite a separação dos grupos de fragmentos, e esta “distribuição normal” da passagem dos
fragmentos é representada pelo eletroferograma (ou cromatograma) de cada seqüência (read).
Filme sequenciamento
0 0 5 6 7 10 10 9 12 15 20 20 30 30 35 40 41 45 50 56 56 50 40 ...
O programa PHRED lê o chromatograma identificando e dando uma nota para cada base que forma a sequência :
Genome Research 8 (3) (1998), 175-185
- A identificação dos picos é feita através de uma transformada de fourier do sinal
- A nota é ligada com a resolução entre os picos vizinhos e a altura do background
background
Região de qualidade alta
• Picos bem definidos e grandes.• Linha de base boa.• Distância entre picos anterior e posterior constante.
Analisando o cromatograma
Região de qualidade média – poucas ambigüidades
• Picos razoavelmente bem definidos e de tamanho médio.• Linha de base boa a razoável.• Distância entre picos anterior e posterior razoável.
Região de qualidade baixa – baixa confiabilidade
• Picos mal definidos e de tamanho pequeno.• Linha de base confusa.• Distância entre picos anterior e posterior inconstante.
Onde q é a nota phred e P é a probabilidade encontrar uma base errada :
- Nota phred = 20 => 1 base errada a cada 100 (99%)
- Nota phred = 30 => 1 base errada a cada 1000 (99.9%)
- Sequenciamento produz seqüências da ordem de 500 pb
Pirosequenciamento
Science 281 (1998), n. 5375, 363-365
Fita simples
Câmera de CCD
Reação de degradação
Filme sequenciamento
Quebrar em pedaços aleatórios ~2000pb
(shotgun)
DNA genômico
Ligação do adaptador e
separação em fita simples
Shotgun do genoma inteiro
- O adaptador permite que o DNA se ligue em grânulos minúsculos (diâmetro de 28 m). Apenas um DNA é ligado em cada grânulo
- Os grânulos são envolvidos em gotas de óleo que contêm todos os reagentes necessários para amplificar o DNA
- Cada gota contendo o grânulo é mantida isolada para evitar contaminação e consegue produzir 10 milhões de cópias numa reação de pirosequenciamento
- Um pmol de DNA numa reação de pirosequenciamento produz 1011 moléculas de ATP gerando mais de 109 fótons, num comprimento de onda de 560 nm, e num período de 3-4 segundos. Facilmente detectado por uma câmera de CCD
Nature 437 (2005), 326-327
O sequenciador 454
Câmera de CCD
Computador
Bombeamento de fluídos
Câmara de fluxo contendo as amostras e as fibras ópticas(1,6 milhões/slide)
Nature 437 (2005), 376-380
Linearidade é mantida até homopolímeros de 8 nt
Pirograma
São obtidas seqüências de até 100-120 b
SANGER Pirosequenciamento• Depende de clonagem em
bactéria (2 semanas de trabalho)
• Não há clonagem
• Reads de ~700 bp • Reads de ~100 bp
• Clones de fita dupla permitem seqüenciamento em ambas direções (facilita orientação e montagem)
• Fragmentos fita simples não permitem seqüenciamento em ambas direções
Sanger vs Pirosequenciamento
• 25 milhões de bp em 4 horas (100x mais rápido)
• 1 milhão de pb em 24 horas
• 6 meses de sequenciamento, 24 horas por dia, para sequenciar o genoma de um fungo
• 24 horas para sequenciar o genoma de um fungo
Conclusão : a união faz a força PNAS 103 (2006), 11240
END
Path that was used for genome sequencing
YACs
BACs orCosmids
m13, plasmid
map (MBP)
map (200kBP)
sequence (kbp)