Genómica Licenciatura em Ciências Biomédicas Departamento de Ciências da Saúde, UCP Fevereiro...

32
Genómica Licenciatura em Ciências Biomédicas Departamento de Ciências da Saúde, UCP Fevereiro 2013

Transcript of Genómica Licenciatura em Ciências Biomédicas Departamento de Ciências da Saúde, UCP Fevereiro...

Page 1: Genómica Licenciatura em Ciências Biomédicas Departamento de Ciências da Saúde, UCP Fevereiro 2013.

Genómica

Licenciatura em Ciências BiomédicasDepartamento de Ciências da Saúde, UCP

Fevereiro 2013

Page 2: Genómica Licenciatura em Ciências Biomédicas Departamento de Ciências da Saúde, UCP Fevereiro 2013.

Genómica 12-13 MJC 2

Sumário

3. Montagem de genomas• Montagem hierárquica• Montagem de genomas completos• Montagem de genomas com base em modelos• Problemas associados à montagem dos

genomas– Controlo de qualidade

18-03-2013

Page 3: Genómica Licenciatura em Ciências Biomédicas Departamento de Ciências da Saúde, UCP Fevereiro 2013.

Genómica 12-13 MJC 3

Aumenta o número de peças para 2-3 triliões.

Sobreposições em média de duas centenas de pares de bases. Equivale a ter um puzzle de 30 milhões de peças

Montagem de genomas

• Após a sequenciação temos fragmentos (de tamanhos que vão de 1000 a 40 pbs) que é preciso reordenar na sequência original.

18-03-2013

Page 4: Genómica Licenciatura em Ciências Biomédicas Departamento de Ciências da Saúde, UCP Fevereiro 2013.

Genómica 12-13 MJC 4

Algumas das peças…

• Faltam– Problemas na construção das bibliotecas– Problemas com a amplificação por PCR

• Têm erros– Zonas repetitivas– Erros no PCR

18-03-2013

Aumentamos o nº de vezes que cada peça é

sequenciada!Entre 8 e 100 vezes

Page 5: Genómica Licenciatura em Ciências Biomédicas Departamento de Ciências da Saúde, UCP Fevereiro 2013.

Genómica 12-13 MJC 5

A sequência (read) ideal

• É longa• Não tem erros

18-03-2013

Page 6: Genómica Licenciatura em Ciências Biomédicas Departamento de Ciências da Saúde, UCP Fevereiro 2013.

Genómica 12-13 MJC 6

Podemos considerar 2 tipos

• Única (single read)– Resulta da sequenciação do

fragmento em si.• Emparelhada (paired read)– Nestas leituras eu sei a

sequência das pontas e a que distância estão uma da outra.

18-03-2013

Page 7: Genómica Licenciatura em Ciências Biomédicas Departamento de Ciências da Saúde, UCP Fevereiro 2013.

Genómica 12-13 MJC 7

MONTAGEM HIERÁRQUICA OU DE CLONES

18-03-2013

Page 8: Genómica Licenciatura em Ciências Biomédicas Departamento de Ciências da Saúde, UCP Fevereiro 2013.

Genómica 12-13 MJC 8

Abordagem usada para alinhar grandes inserções clonadas

– Primeiro é feito o mapeamento dos clones por padrões de digestão, marcadores de linkage ou mutações induzidas.

18-03-2013

Page 9: Genómica Licenciatura em Ciências Biomédicas Departamento de Ciências da Saúde, UCP Fevereiro 2013.

Genómica 12-13 MJC 9

Desse mapeamento….

18-03-2013

• Escolhem-se os fragmentos a vermelho pois implicam a menor sobreposição.

• É feita a sequenciação desses fragmentos:– Cada sequenciação (read) é avaliada quanto à sua

qualidade.– É reconstruida a sequencia inicial usando as

sobreposições.

Page 10: Genómica Licenciatura em Ciências Biomédicas Departamento de Ciências da Saúde, UCP Fevereiro 2013.

Genómica 12-13 MJC 10

MONTAGEM DE GENOMAS COMPLETOS

18-03-2013

Page 11: Genómica Licenciatura em Ciências Biomédicas Departamento de Ciências da Saúde, UCP Fevereiro 2013.

11

Método mais aplicado atualmente

• Uma vez que a maioria da sequenciação já não implica clonagem.

• Dispensa o passo do mapeamento.• São sequenciadas as extremidades dos vários

fragmentos que são depois alinhadas.

Genómica 12-13 MJC18-03-2013

Page 12: Genómica Licenciatura em Ciências Biomédicas Departamento de Ciências da Saúde, UCP Fevereiro 2013.

12

Desse alinhamento surge o “contig”

18-03-2013 Genómica 12-13 MJC

• Inclui 3 fases:– Sobreposição– Alinhamento – Consenso

Page 13: Genómica Licenciatura em Ciências Biomédicas Departamento de Ciências da Saúde, UCP Fevereiro 2013.

13

Desse alinhamento surge o “contig”

18-03-2013 Genómica 12-13 MJC

A localização vai ser determinada pela

homologia

Page 14: Genómica Licenciatura em Ciências Biomédicas Departamento de Ciências da Saúde, UCP Fevereiro 2013.

14

Vários contigs dão um scaffold

18-03-2013 Genómica 12-13 MJC

Page 15: Genómica Licenciatura em Ciências Biomédicas Departamento de Ciências da Saúde, UCP Fevereiro 2013.

Genómica 12-13 MJC 1518-03-2013

Page 16: Genómica Licenciatura em Ciências Biomédicas Departamento de Ciências da Saúde, UCP Fevereiro 2013.

Genómica 12-13 MJC 16

ALGUNS ALGORITMOS DE MONTAGEM DE GENOMAS

18-03-2013

Page 17: Genómica Licenciatura em Ciências Biomédicas Departamento de Ciências da Saúde, UCP Fevereiro 2013.

Genómica 12-13 MJC 17

Greedy

• Como a homologia é a única condição este tipo de algoritmos é muito influenciado pelas sequências repetitivas ou homologias.

18-03-2013

Page 18: Genómica Licenciatura em Ciências Biomédicas Departamento de Ciências da Saúde, UCP Fevereiro 2013.

Genómica 12-13 MJC 18

Overlap-Layout-Consensus

• Todas as sobreposições são mapeadas (Overlap)• É eliminada a informação redundante (Layout)• Usando a teoria de grafos é desenhado o mapa mais

simples e que corresponderá à organização inicial.

18-03-2013

Page 19: Genómica Licenciatura em Ciências Biomédicas Departamento de Ciências da Saúde, UCP Fevereiro 2013.

Genómica 12-13 MJC 19

Overlap-Layout-Consensus

• Pode ser substituído pelo: Align-Layout-Consensus pois já há vários genomas de referência sequenciados.

18-03-2013

Page 20: Genómica Licenciatura em Ciências Biomédicas Departamento de Ciências da Saúde, UCP Fevereiro 2013.

Genómica 12-13 MJC 20

CONTROLO DE QUALIDADE

18-03-2013

Page 21: Genómica Licenciatura em Ciências Biomédicas Departamento de Ciências da Saúde, UCP Fevereiro 2013.

Genómica 12-13 MJC 21

Em genomas de novo

• Não se sabe quase nada– Nº de scaffolds e contigs que representam o

genoma.– A proporção de reads que consegue ser – O comprimento dos contigs e scaffolds

relativamente ao comprimento do genoma.

18-03-2013

Page 22: Genómica Licenciatura em Ciências Biomédicas Departamento de Ciências da Saúde, UCP Fevereiro 2013.

Genómica 12-13 MJC 22

N50

• Tamanho do contig mais curto acima do qual se inclui 50% do genoma.

18-03-2013

Page 23: Genómica Licenciatura em Ciências Biomédicas Departamento de Ciências da Saúde, UCP Fevereiro 2013.

Genómica 12-13 MJC 23

Os vários algoritmos devem ser comparados• Foi feita uma comparação no artigo GAGE:

18-03-2013

Page 24: Genómica Licenciatura em Ciências Biomédicas Departamento de Ciências da Saúde, UCP Fevereiro 2013.

Genómica 12-13 MJC 24

O algoritmo deve ter em conta• Dependendo do organismo– Tamanho diferente dos genomas– Heterozigotia diferente• Humanos (1 par de bases pair/1000) • Lesmas do mar 1/50–100

18-03-2013

Page 25: Genómica Licenciatura em Ciências Biomédicas Departamento de Ciências da Saúde, UCP Fevereiro 2013.

Genómica 12-13 MJC 25

Independentemente do algoritmo…

• Entra lixo• Sai lixo– Muitos sequenciadores têm controlos de

qualidade para contaminações, quimeras e erros de leitura.

18-03-2013

Page 26: Genómica Licenciatura em Ciências Biomédicas Departamento de Ciências da Saúde, UCP Fevereiro 2013.

Genómica 12-13 MJC 26

MONTAGEM COMPARATIVA

18-03-2013

Page 27: Genómica Licenciatura em Ciências Biomédicas Departamento de Ciências da Saúde, UCP Fevereiro 2013.

Genómica 12-13 MJC 27

Genomas de referência

Genomas de mesma espécie ou espécies semelhantes que servem de modelo.Os algoritmos tentam alinhar as sequências obtidas ao que já está sequenciado

18-03-2013

Page 28: Genómica Licenciatura em Ciências Biomédicas Departamento de Ciências da Saúde, UCP Fevereiro 2013.

Genómica 12-13 MJC 28

PROBLEMAS NA MONTAGEM DE GENOMAS

18-03-2013

Page 29: Genómica Licenciatura em Ciências Biomédicas Departamento de Ciências da Saúde, UCP Fevereiro 2013.

Genómica 12-13 MJC 29

Dificuldades• Contaminação

– Sequências que não pertencem ao genoma que se quer sequenciar.• Erros de montagem

– As sequências repetidas podem induzir os algoritmos de montagem em erro. As secções podem ser montadas como mais curtas ou sobrepostas pelo que desaparecem do genoma final.

• Homologia em grande escala.– Nos genomas dos mamíferos há zonas com uma grande percentagem de

homologia (>90%) mas que são zonas diferentes do genoma. Como a homologia éusada para fazer os alinhamentos as montagens ficammal feitas.

• Polimorfismo genómico– Dado que muitos genomas são poliploides a montagem de genomas muitas

vezes não consegue distinguir estes polimorfismos como possibilidades alternativas do mesmo locus.

18-03-2013

Page 30: Genómica Licenciatura em Ciências Biomédicas Departamento de Ciências da Saúde, UCP Fevereiro 2013.

Genómica 12-13 MJC 30

Efeito das zonas repetidas

18-03-2013

Page 31: Genómica Licenciatura em Ciências Biomédicas Departamento de Ciências da Saúde, UCP Fevereiro 2013.

Genómica 12-13 MJC 3118-03-2013

Page 32: Genómica Licenciatura em Ciências Biomédicas Departamento de Ciências da Saúde, UCP Fevereiro 2013.

Genómica 12-13 MJC 32

Bibliografia

• http://www.ncbi.nlm.nih.gov/projects/genome/assembly/assembly.shtml

• http://www.cbcb.umd.edu/research/assembly_primer.shtml

• Artigo: de novo genome assembly; GAGE ambos na pasta

18-03-2013