Análise de genomas e transcriptomas Prof. Dr. Francisco Prosdocimi.

Análise de genomas e transcriptomas

Prof. Dr. Francisco Prosdocimi

As novas ciências “ÔMICAS”

• Genoma• Transcriptoma• Proteoma• Metaboloma

• Fenoma, Lipidoma, Glicoma, Interactoma, Spliceoma, Kinoma, etc.

Genomas e transcriptomas

• O genoma é único

• O transcriptoma modifica-se espaço-temporalmente– Quais genes estão ativos

num determinado instante e condição?

– Como isso influencia a adaptação da célula ao meio?

• Proteoma

Montando o “genoma da fábula”

• Abaixo temos uma Fábula Fabulosa do escritor Millôr Fernandes que foi, assim como um genoma, dividida em partes. Monte as partes e produza a seqüência completa da fábula.

> Frase 1 edoria e calor que fazem os seres humanos - "mas eu não". MORAL DA

HISTÓRIA: NÃO MORRE A PASSARADA QUANDO MORRE UM PÁSSARO. > Frase 2 ela não pôde resistir e exclamou: "Mas, como, seu marido não morreu há cinco

anos?" "Sim, é verdade" - respondeu então a outra, cheia daquela compreensão, sabed

> Frase 3 Quando a amiga lhe apresentou o garotinho lindo dizendo que era seu filho mais

novo, ela não pôde resistir e exclamou: "Mas, com > Frase 4 dade" - respondeu então a outra, cheia daquela compreensão, sabedoria e calor

que fazem os seres humanos - "mas eu n

Montagem de genomas


Montando um quebra-cabeças

O problema da montagem

• Genomas bacterianos normalmente têm o tamanho medido em dezenas a centenas de quilobases (kb)

• Genomas eucarióticos têm o genoma medido em Megabases (Mb) ou gigabases (Gb)

• O genoma humano tem 3,1 Gb• Através do método de Sanger normalmente produz-

se sequências de 800bp

• Como montar um genoma?

Montagem de genomas numa casca de noz

• A abordagem shotgun

• Parte-se o DNA em pedacinhos– Corre-se um gel– Escolhe-se o tamanho dos

fragmentos a trabalhar

• Pedacinhos são clonados em vetores (montagem da biblioteca genômica)

• Sequenciamento com primers do vetor

• Monta-se a sequência por sobreposição

Montagem da Biblioteca Genômica

• Fragmentação do DNA– Enzimas de restrição– Sonicação– Calor

• Digestão do vetor

• Ligação para a produção da molécula recombinante

• Inserção em bactéria

Como sequenciar o que não se sabe o que é?

• Para sequenciarmos no método de Sanger, precisamos utilizar um primer complementar à extremidade 5’ do que desejamos sequenciar

• Vetor de sequenciamento– Primer Universal

Forward e Reverse

• Sequenciamento do inserto desconhecido

Análise dos Sequencing Reads

• Leituras do sequenciamento (cada uma das sequências produzidas)

• Tipos de Reads que podemos encontrar– Vetor + Inserto– Vetor + Inserto + Vetor– Vetor

• O vetor não representa nosso genoma de estudo, portanto, sua sequência deve sermascarada

Possibilidades (teóricas) de mascaramento

> Sequencia originalATCTCGAATTCTCTAACAGAACACGTAATATCAGCACCATCTCGAATCTCTAACAGAACACGTAATATCAGCACCATCTCGAATTCTCTAACAGAACACCATCTCGAATTCTCTAACACACCATCTCGAATTCTCTAACAAA

> Sequencia mascarada (1)ATCTCGAATTCTCTAACAGAACACGTAATATCAGCACCATCTCGAATCTCTAACAGAACACGTAATATCAGCACCATCTCGAATTCTCTAACAGAACACCATCTCGAATTCTCTAACACACCATCTCGAATTCTCTAACAAA

> Sequencia mascarada (2)XXXXXXXXXXXXXXXXXXXAACACGTAATATCAGCACCATCTCGAATCTCTAACAGAACACGTAATATCAGCACCATCTCGAATTCTCTAACAGAACACCATCTCGAATTCTCTAACACACCATCTCGAATTCTCTAACAAA

> Sequencia mascarada (3)XXXXXXXXXXXXXXXXXXXAACACGTAATATCAGCACCATCTCGAATCTCTAACAGAACACGTAATATCAGCACCATCTCGAATTCTCTAACAGAACACCATCTCGAAXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXX

> Sequencia mascarada (4)ATCTCGAATTCTCTAACAGAACACGTAATATCAGCACCATCTCGAATCTCTAACAGAACACGTAATATCAGCACCATCTCGAATTCTCTAACAGAACACCATCTCGAAXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXX

> Sequencia mascarada (5)XXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXX XXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXX

Reads limpas

• O programa Cross_match compara as sequências de DNA e mascara as sequências do vetor

• Só temos agora sequência do organismo que estudamos

• Alinhamento de sequências (bioinformática)

• Sobreposição das sequências

LINUX prompt

$> cross_match reads.fasta vector.fastaAligning vector and read sequencesMasking vector regions

$> more reads.fasta.cross_match> Read1XXXXXXXXXXACTAGACCCTATGAGGACATACATAGGACACAGAGATATATCCCGGCGCGTTTCATCTCGTACAGTTACCCCTTCAGCAGCACTCTCTGCACGATCGTCTACGXXXXXXXXXXXXXXXX

Sequence clustering

• Cálculo da pontuação de sobreposição– Match / Mismatch / Gap scores– Minmatch (14) / Minscore (30)

Montagem de contigs

• Reads alinhados• Programa cria sequências consenso (contigs)

– CAP3, Phrap, TIGR Assembler, Celera Assembler

Problemas de montagem

• E se o genoma contiver muitas sequências repetitivas?– O clustering vai reunir partes

do genoma que não são contíguas

• Análise do conteúdo de repetições de um genoma deve ser feito antes da montagem

• Deve-se mascarar as repetições e montar apenas as partes do genoma sem repetições

Genome Contig

Sequencing reads

Região repetitiva: alta cobertura de readsAlinhamento com regiões doutras partes do genoma

Reconstrução do genoma

• Contigs + gaps

• Certas regiões do DNA são difíceis de serem clonadas– Clonagem de fragmentos

é estatística

• Não estão presentes na biblioteca de DNA

• Portanto, não são sequenciadas

Genome finishing

• Primer walking consiste numa técnica de fechamento de genomas– Primers são criados para a

realização de uma PCR que produzirá a sequência dos gaps

• E se a sequência for muito grande?

• Grande parte dos genomas publicados contêm regiões de gap

Genomas eucarióticos

• Genomas enormes, nível de Mb ou Gb

• Por vezes decide-se realizar uma abordagem hierárquica para o sequenciamento

• Montagem de BACs – BAC to BAC sequencing

Mated-pair sequencing

• Não se sequencia o inserto inteiro• Sequenciamento das extremidades do inserto• Montagem das sequências das extremidades• Clonagem de insertos com tamanhos variados

(em diferentes tipos de vetores)

Gaps reais e virtuais

• Gaps virtuais– Conhece-se o vetor que

contém os mated-pairs– Sabe-se o tamanho ao

qual ele corresponde (tamanho do inserto)

– Shotgun do vetor em questão

• Gaps reais– Não se conhece nada

sobre este gap– Pode ter qualquer tamanho– Difícil solução

Genome coverage

• Cobertura do genoma

• Antes de tentarmos montar um genoma, precisamos ter uma quantidade de bases cerca de 8x maior do que o genoma– Garante que haverão poucos

gaps reais

• Genoma Humano público (2001): 2,9X coverage

• Celera: 5,1X coverage

Quanto maior a cobertura, menor o número de contigs (significando que as

moléculas foram montadas por completo)

Passos para a montagem

• Produção de sequencing reads até 8x o tamanho do genoma

• Montagem dos contigs

• Identificação de gaps reais e virtuais

• Fechamento de gaps

• Publicação do genoma

Montagem de transcriptomas


Genoma X Transcriptoma

Sequenciando ESTs

• Expressed Sequence Tags– Etiquetas de sequências

expressas

• Amplificação dos genes a partir de primers do vetor de clonagem– Pode-se produzir ESTs 3’ ou 5’– A EST 3’ está ancorada ao poli-A

• O conteúdo da extremidade 5’ da EST, no entanto, varia devido:– Tamanho do mRNA– Tamanho do inserto clonado– Tamanho amplificado pela

transcriptase reversa– Formas de Splicing do gene

Características das ESTs

Representam o pool de mRNAsPossuem de 150 a ~1000 nucleotídeos

Etiquetas de seqüências gênicasCada clone é seqüenciado uma única vezApresentam redundância

Permitem a identificação dos genes mais expressos em diferentes fases/tecidos

Permitem a identificação de splicing alternativo

Montagem dos genes• Contigs

– Cada contig representa um gene completo

• A cobertura do contig depende da expressão de cada gene– Genes muito expressos são

mais vistos

• Genes singlets– Menor evidência

• Quantidade de ESTs sequenciadas e saturação da biblioteca

• Sequências únicas– Cada uma é um gene

• Sequências quiméricas

:. Diminui a redundância;:. Aumenta o tamanho;:. Aumenta a qualidade.

Sequence clustering

• Cálculo da pontuação de sobreposição– Match / Mismatch / Gap scores– Minmatch (14) / Minscore (30)

Déja vu?

Produção de ESTs e ORESTEs

Seqüênciamento de genes expressos: Documentar a existência de transcritos gênicos num transcriptoma [otorrin... e ...damonh...]

• EST (Etiqueta de Seqüência Expressa) – seqüenciamento único de cada cDNA– extremidades 5’ ou 3’

• ORESTES (ESTs ricas em ORFs)– seqüenciamento único do amplicon derivado de

cDNA por PCR inespecífico– prevalece o centro do cDNA (cds)

Um mRNA & suas ESTs

(A)200(T)18cDNA (fita -)

AUG(A)18

cDNA (fita +)

(A)200(T)18cDNA (fita -)

AUG(A)18

cDNA (fita +)

ATGATCATGACTTACGGGCGCGCGAT

GGCGCGCGATATCCAAATTTATTATCC

3’EST

3’EST5’EST

5’EST

AAATTTATTATCCATCTACG

PCR inespecífico & seu ORESTES

(A)200

cDNA (fita -)

AUG amplicon (fita +)

Iniciador(60ºC 37ºC)

amplicon (fita -)

amplicon (fita +)

PCR(60ºC)

ORESTES

AGATCGATCATGACTTACGGGCGCGCGATATCG

GGGCGCGCGATATCGAAAAATTTATAAGGCTAGCCCCGGCGGCTCGGCCGGGGAGATCGATCATGAC

+ORESTES (outros iniciadores)

Produção de ESTs e ORESTEs

Epílogo

• Sabemos agora montar os genomas e os transcriptomas• E daí?

• Número de genes (introns e éxons), elementos regulatórios, tamanho em pares de bases

• Fizemos uma análise quantitativa e partiremos agora para uma análise qualitativa dos genes presentes– Quais são? O que fazem?– O que um organismo pode fazer dado que tem os genes que

tem?

• A análise genômica é uma análise de como pode funcionar o metabolismo de um organismo

Outras análises transcriptômicas


SAGE

• Serial Analysis of gene expression

• Utilização de enzima de restrição do tipo III (corta upstream ao sítio de reconhecimento) (NlaIII)

• Produção e sequenciamento de concatâmeros

Bioinformática SAGE

• Extração e contagem das tags• Algus transcritos não geram tags com certa enzima• Tags possuem 10bp ou 17bp (+4 restr. Site)• Mapeamento de tags a genes usando alinhamento de

sequências (1 to N, N to 1)– Tags não unívocas; repeat regions

• Erros de sequenciamento atrapalham a análise

>SAGE-WT1-A0001-A01.abd 1047 ABIGGCAGTGAATTGTAATACGACTCACTATAGGGCGAATTGGGCCCTCTAATGCATGTTGACGTGCACTTCCGTAGCCTCATGTTTTATGGAATCACCTATTATGCCATGACTTTTTCAAAACTAGGCTGTGCCATGTTTACACAGTATGCACACATCTTCCATGGATGTGGACAGAAAATCCTCCAACATGATGGCAA

A tag em azul deverá ser a o complemento reverso da sequência.

Short SAGE:

Tag Freq MappedGenesGCAGACCATA1451 AB666788, U18897AACAGTTCCA 931 NM_789654GCCAACTCGG 2 NM_123587CGTGCGGATT 1 NM_123587,

Y15324, P67473, MB12983

Microarray

• Análise comparativa da expressão gênica em high-throughput

Análise de genomas e transcriptomas Prof. Dr. Francisco Prosdocimi.

Documents

Transcript of Análise de genomas e transcriptomas Prof. Dr. Francisco Prosdocimi.