Análise de genomas e transcriptomas Prof. Dr. Francisco Prosdocimi.
Transcript of Análise de genomas e transcriptomas Prof. Dr. Francisco Prosdocimi.
Análise de genomas e transcriptomas
Prof. Dr. Francisco Prosdocimi
As novas ciências “ÔMICAS”
• Genoma• Transcriptoma• Proteoma• Metaboloma
• Fenoma, Lipidoma, Glicoma, Interactoma, Spliceoma, Kinoma, etc.
Genomas e transcriptomas
• O genoma é único
• O transcriptoma modifica-se espaço-temporalmente– Quais genes estão ativos
num determinado instante e condição?
– Como isso influencia a adaptação da célula ao meio?
• Proteoma
Montando o “genoma da fábula”
• Abaixo temos uma Fábula Fabulosa do escritor Millôr Fernandes que foi, assim como um genoma, dividida em partes. Monte as partes e produza a seqüência completa da fábula.
> Frase 1 edoria e calor que fazem os seres humanos - "mas eu não". MORAL DA
HISTÓRIA: NÃO MORRE A PASSARADA QUANDO MORRE UM PÁSSARO. > Frase 2 ela não pôde resistir e exclamou: "Mas, como, seu marido não morreu há cinco
anos?" "Sim, é verdade" - respondeu então a outra, cheia daquela compreensão, sabed
> Frase 3 Quando a amiga lhe apresentou o garotinho lindo dizendo que era seu filho mais
novo, ela não pôde resistir e exclamou: "Mas, com > Frase 4 dade" - respondeu então a outra, cheia daquela compreensão, sabedoria e calor
que fazem os seres humanos - "mas eu n
Montagem de genomas
Prof. Dr. Francisco Prosdocimi
Montando um quebra-cabeças
O problema da montagem
• Genomas bacterianos normalmente têm o tamanho medido em dezenas a centenas de quilobases (kb)
• Genomas eucarióticos têm o genoma medido em Megabases (Mb) ou gigabases (Gb)
• O genoma humano tem 3,1 Gb• Através do método de Sanger normalmente produz-
se sequências de 800bp
• Como montar um genoma?
Montagem de genomas numa casca de noz
• A abordagem shotgun
• Parte-se o DNA em pedacinhos– Corre-se um gel– Escolhe-se o tamanho dos
fragmentos a trabalhar
• Pedacinhos são clonados em vetores (montagem da biblioteca genômica)
• Sequenciamento com primers do vetor
• Monta-se a sequência por sobreposição
Montagem da Biblioteca Genômica
• Fragmentação do DNA– Enzimas de restrição– Sonicação– Calor
• Digestão do vetor
• Ligação para a produção da molécula recombinante
• Inserção em bactéria
Como sequenciar o que não se sabe o que é?
• Para sequenciarmos no método de Sanger, precisamos utilizar um primer complementar à extremidade 5’ do que desejamos sequenciar
• Vetor de sequenciamento– Primer Universal
Forward e Reverse
• Sequenciamento do inserto desconhecido
Análise dos Sequencing Reads
• Leituras do sequenciamento (cada uma das sequências produzidas)
• Tipos de Reads que podemos encontrar– Vetor + Inserto– Vetor + Inserto + Vetor– Vetor
• O vetor não representa nosso genoma de estudo, portanto, sua sequência deve sermascarada
Possibilidades (teóricas) de mascaramento
> Sequencia originalATCTCGAATTCTCTAACAGAACACGTAATATCAGCACCATCTCGAATCTCTAACAGAACACGTAATATCAGCACCATCTCGAATTCTCTAACAGAACACCATCTCGAATTCTCTAACACACCATCTCGAATTCTCTAACAAA
> Sequencia mascarada (1)ATCTCGAATTCTCTAACAGAACACGTAATATCAGCACCATCTCGAATCTCTAACAGAACACGTAATATCAGCACCATCTCGAATTCTCTAACAGAACACCATCTCGAATTCTCTAACACACCATCTCGAATTCTCTAACAAA
> Sequencia mascarada (2)XXXXXXXXXXXXXXXXXXXAACACGTAATATCAGCACCATCTCGAATCTCTAACAGAACACGTAATATCAGCACCATCTCGAATTCTCTAACAGAACACCATCTCGAATTCTCTAACACACCATCTCGAATTCTCTAACAAA
> Sequencia mascarada (3)XXXXXXXXXXXXXXXXXXXAACACGTAATATCAGCACCATCTCGAATCTCTAACAGAACACGTAATATCAGCACCATCTCGAATTCTCTAACAGAACACCATCTCGAAXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXX
> Sequencia mascarada (4)ATCTCGAATTCTCTAACAGAACACGTAATATCAGCACCATCTCGAATCTCTAACAGAACACGTAATATCAGCACCATCTCGAATTCTCTAACAGAACACCATCTCGAAXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXX
> Sequencia mascarada (5)XXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXX XXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXX
Reads limpas
• O programa Cross_match compara as sequências de DNA e mascara as sequências do vetor
• Só temos agora sequência do organismo que estudamos
• Alinhamento de sequências (bioinformática)
• Sobreposição das sequências
LINUX prompt
$> cross_match reads.fasta vector.fastaAligning vector and read sequencesMasking vector regions
$> more reads.fasta.cross_match> Read1XXXXXXXXXXACTAGACCCTATGAGGACATACATAGGACACAGAGATATATCCCGGCGCGTTTCATCTCGTACAGTTACCCCTTCAGCAGCACTCTCTGCACGATCGTCTACGXXXXXXXXXXXXXXXX
Sequence clustering
• Cálculo da pontuação de sobreposição– Match / Mismatch / Gap scores– Minmatch (14) / Minscore (30)
Montagem de contigs
• Reads alinhados• Programa cria sequências consenso (contigs)
– CAP3, Phrap, TIGR Assembler, Celera Assembler
Problemas de montagem
• E se o genoma contiver muitas sequências repetitivas?– O clustering vai reunir partes
do genoma que não são contíguas
• Análise do conteúdo de repetições de um genoma deve ser feito antes da montagem
• Deve-se mascarar as repetições e montar apenas as partes do genoma sem repetições
Genome Contig
Sequencing reads
Região repetitiva: alta cobertura de readsAlinhamento com regiões doutras partes do genoma
Reconstrução do genoma
• Contigs + gaps
• Certas regiões do DNA são difíceis de serem clonadas– Clonagem de fragmentos
é estatística
• Não estão presentes na biblioteca de DNA
• Portanto, não são sequenciadas
Genome finishing
• Primer walking consiste numa técnica de fechamento de genomas– Primers são criados para a
realização de uma PCR que produzirá a sequência dos gaps
• E se a sequência for muito grande?
• Grande parte dos genomas publicados contêm regiões de gap
Genomas eucarióticos
• Genomas enormes, nível de Mb ou Gb
• Por vezes decide-se realizar uma abordagem hierárquica para o sequenciamento
• Montagem de BACs – BAC to BAC sequencing
Mated-pair sequencing
• Não se sequencia o inserto inteiro• Sequenciamento das extremidades do inserto• Montagem das sequências das extremidades• Clonagem de insertos com tamanhos variados
(em diferentes tipos de vetores)
Gaps reais e virtuais
• Gaps virtuais– Conhece-se o vetor que
contém os mated-pairs– Sabe-se o tamanho ao
qual ele corresponde (tamanho do inserto)
– Shotgun do vetor em questão
• Gaps reais– Não se conhece nada
sobre este gap– Pode ter qualquer tamanho– Difícil solução
Genome coverage
• Cobertura do genoma
• Antes de tentarmos montar um genoma, precisamos ter uma quantidade de bases cerca de 8x maior do que o genoma– Garante que haverão poucos
gaps reais
• Genoma Humano público (2001): 2,9X coverage
• Celera: 5,1X coverage
Quanto maior a cobertura, menor o número de contigs (significando que as
moléculas foram montadas por completo)
Passos para a montagem
• Produção de sequencing reads até 8x o tamanho do genoma
• Montagem dos contigs
• Identificação de gaps reais e virtuais
• Fechamento de gaps
• Publicação do genoma
Montagem de transcriptomas
Prof. Dr. Francisco Prosdocimi
Genoma X Transcriptoma
Sequenciando ESTs
• Expressed Sequence Tags– Etiquetas de sequências
expressas
• Amplificação dos genes a partir de primers do vetor de clonagem– Pode-se produzir ESTs 3’ ou 5’– A EST 3’ está ancorada ao poli-A
• O conteúdo da extremidade 5’ da EST, no entanto, varia devido:– Tamanho do mRNA– Tamanho do inserto clonado– Tamanho amplificado pela
transcriptase reversa– Formas de Splicing do gene
Características das ESTs
Representam o pool de mRNAsPossuem de 150 a ~1000 nucleotídeos
Etiquetas de seqüências gênicasCada clone é seqüenciado uma única vezApresentam redundância
Permitem a identificação dos genes mais expressos em diferentes fases/tecidos
Permitem a identificação de splicing alternativo
Montagem dos genes• Contigs
– Cada contig representa um gene completo
• A cobertura do contig depende da expressão de cada gene– Genes muito expressos são
mais vistos
• Genes singlets– Menor evidência
• Quantidade de ESTs sequenciadas e saturação da biblioteca
• Sequências únicas– Cada uma é um gene
• Sequências quiméricas
:. Diminui a redundância;:. Aumenta o tamanho;:. Aumenta a qualidade.
Sequence clustering
• Cálculo da pontuação de sobreposição– Match / Mismatch / Gap scores– Minmatch (14) / Minscore (30)
Déja vu?
Produção de ESTs e ORESTEs
Seqüênciamento de genes expressos: Documentar a existência de transcritos gênicos num transcriptoma [otorrin... e ...damonh...]
• EST (Etiqueta de Seqüência Expressa) – seqüenciamento único de cada cDNA– extremidades 5’ ou 3’
• ORESTES (ESTs ricas em ORFs)– seqüenciamento único do amplicon derivado de
cDNA por PCR inespecífico– prevalece o centro do cDNA (cds)
Um mRNA & suas ESTs
(A)200(T)18cDNA (fita -)
AUG(A)18
cDNA (fita +)
(A)200(T)18cDNA (fita -)
AUG(A)18
cDNA (fita +)
ATGATCATGACTTACGGGCGCGCGAT
GGCGCGCGATATCCAAATTTATTATCC
3’EST
3’EST5’EST
5’EST
AAATTTATTATCCATCTACG
PCR inespecífico & seu ORESTES
(A)200
cDNA (fita -)
AUG amplicon (fita +)
Iniciador(60ºC 37ºC)
amplicon (fita -)
amplicon (fita +)
PCR(60ºC)
ORESTES
AGATCGATCATGACTTACGGGCGCGCGATATCG
GGGCGCGCGATATCGAAAAATTTATAAGGCTAGCCCCGGCGGCTCGGCCGGGGAGATCGATCATGAC
+ORESTES (outros iniciadores)
Produção de ESTs e ORESTEs
Epílogo
• Sabemos agora montar os genomas e os transcriptomas• E daí?
• Número de genes (introns e éxons), elementos regulatórios, tamanho em pares de bases
• Fizemos uma análise quantitativa e partiremos agora para uma análise qualitativa dos genes presentes– Quais são? O que fazem?– O que um organismo pode fazer dado que tem os genes que
tem?
• A análise genômica é uma análise de como pode funcionar o metabolismo de um organismo
Outras análises transcriptômicas
Prof. Dr. Francisco Prosdocimi
SAGE
• Serial Analysis of gene expression
• Utilização de enzima de restrição do tipo III (corta upstream ao sítio de reconhecimento) (NlaIII)
• Produção e sequenciamento de concatâmeros
Bioinformática SAGE
• Extração e contagem das tags• Algus transcritos não geram tags com certa enzima• Tags possuem 10bp ou 17bp (+4 restr. Site)• Mapeamento de tags a genes usando alinhamento de
sequências (1 to N, N to 1)– Tags não unívocas; repeat regions
• Erros de sequenciamento atrapalham a análise
>SAGE-WT1-A0001-A01.abd 1047 ABIGGCAGTGAATTGTAATACGACTCACTATAGGGCGAATTGGGCCCTCTAATGCATGTTGACGTGCACTTCCGTAGCCTCATGTTTTATGGAATCACCTATTATGCCATGACTTTTTCAAAACTAGGCTGTGCCATGTTTACACAGTATGCACACATCTTCCATGGATGTGGACAGAAAATCCTCCAACATGATGGCAA
A tag em azul deverá ser a o complemento reverso da sequência.
Short SAGE:
Tag Freq MappedGenesGCAGACCATA1451 AB666788, U18897AACAGTTCCA 931 NM_789654GCCAACTCGG 2 NM_123587CGTGCGGATT 1 NM_123587,
Y15324, P67473, MB12983
Microarray
• Análise comparativa da expressão gênica em high-throughput