Uma abordagem computacional para a determinação de polimorfismos de base única

Uma abordagem computacional para a determinação de polimorfismos de

base única

Miguel Galves Orientador: Zanoni Dias

IC - UNICAMP 01/12/2006

Roteiro n  Conceitos Básicos n  Motivação n  Objetivos n  Alinhamento de seqüências n  Detecção de SNPs e confiabilidade n  Correlação de SNPs n  Conclusão

Processo básico de tradução genética n  A informação genética dos seres vivos é

armazenada em cadeias de nucleotídeos n Bases A, C, G e T

n  Proteínas são geradas a partir da leitura da cadeia de nucleotídeos n Processo de tradução

n  Proteína = cadeia de aminoácidos n  1 aminoácido = 3 nucleotídeos = 1 códon

Tradução

Polimorfismos e SNP n  Polimorfismo: dois ou mais alelos diferentes

em indivíduos da mesma espécie n  Deve aparecer em pelo menos 1% da

população n  SNP: polimorfismo que ocorre em apenas

uma base da seqüência n SNP sinônimo: não modifica o aminoácido n SNP não sinônimo: modifica o aminoácido

Porque estudar SNPs? n  Correspondem a mais de 90% dos

polimorfismos nos seres humanos n  Causa de grande parte das doenças com base

genética n  Grande interesse das industrias farmacêuticas

n Criação de terapias específicas n  Marcadores para mapeamento fino do genoma

Objetivos do trabalho n  Estudar 3 etapas distintas no processo de

detecção e análise de SNPs: n Alinhamento de ESTs com DNA genômico n Detecção de SNPs por análise de

cromatograma n Correlação de SNPs

Alinhamento de DNA com ESTs

Alinhamento de sequências

n  Inserção de espaços em duas seqüências de forma a que elas tenham o mesmo tamanho e possam ser comparadas

n  Exemplo: AGCTCGTTTG e ACCTTCGTTTTG AGC-TCGTTT-G

ACCTTCGTTTTG

n  Pontuação permite avaliar o alinhamento n  Problema de otimização: obter o alinhamento

de melhor pontuação

Algoritmos clássicos de alinhamento n  Estratégias de alinhamento

n Global n  Semi-global n  Local

n  Sistemas de pontuação n  Simples: match, mismatch, gap n  Linear: match, mismatch e

gap(k) = g + hk

Porque estudar alinhamento de mRNA com DNA?

Objetivos desta etapa

Determinar uma estratégia clássica e um conjunto de parâmetros que permitam obter bons alinhamentos entre DNA genômico e mRNA

Metodologia

n  Desenvolvimento de um alinhador em Java usando algoritmo de Miller e Myers

n  Criação de uma base de testes n  Definição de um conjunto de parâmetros de

alinhamento n  Execução de alinhamentos de mRNAs com

genes de origem n Nosso alinhador, sim4, est_genome e Spidey

n  Definição de métricas para avaliação dos alinhamentos obtidos

Conjunto de dados

1.  64 genes do cromossomo Y humano com menos de 100.000 bases

2.  40 genes completos do cromossomo Y humano com menos de 100.000 bases

3.  7376 genes completos do genoma humano com menos de 10.000 bases

4.  4930 ESTs artificiais do cromossomo 6 com erros aleatórios de 1% a 10%

Resultados obtidos - Conjunto 3

Extra Gap Delta Exon Similaridade Mismatch

(1,-2,-1,0) 0.00 0.00 99.89% 0.00%

(1,-2,-10,0) 0.00 0.01 99.89% 0.00%

Sim4 1.03 -0.03 99.18% 0.21%

Est_genome 15.56 -0.17 58.00% 1.31%

Spidey 0.12 -3.82 81.02% 0.17%

Resultados obtidos - Conjunto 4

Resultados obtidos

n  O alinhador semi-global com esquemas de pontuação (1,-2,-1,0) e (1,-2,-10,0) produzem resultados extremamente satisfatórios

n  O esquema (1,-2,-10,0) tende a gerar blocos de introns maiores

n  Sim4, est_genome e Spidey são mais regulares com ESTs com erros

Detecção de SNPs

Base-calling e sequenciamento

Porque estudar base-calling? n  Pacote phred ignora sinais secundários no

cromatograma n Apenas uma base por posição n SNPs podem gerar sinais secundários

n  PolyBayes e PolyPhred não produzem resultados satisfatórios com HIV

Objetivos desta etapa

n  Detecção de SNPs em cromatogramas de seqüências de HIV

n  Estudo de métodos para determinação de confiabilidade dos resultados

Metodologia

n  Definir algoritmos para análise e correção de cromatograma

n  Executar os algoritmos com diversos parâmetros, para análise preliminar

n  Determinação de dois algoritmos para tunning

n  Determinação do melhor algoritmo e do melhor conjunto de parâmetros

Conjunto de dados n  Sequências genéticas de HIV

n  1302 bp n  Região bem conservada

n  35 lotes de amostras de indivíduos soropositivos n  6 leituras n  1 seqüência validada, com SNPs anotados

manualmente n  Sequência de referência de HIV

Algoritmos de correção n  Relação das Áreas n  Relação das Médias das Alturas n  Limite Variável n  Pico Único por Janela n  Eliminação de Picos Ruins n  Pico Mais Baixo

Relação das Áreas

Relação das Médias das Alturas

x2x1 x1

FAKE_PEAK_HEIGHT_PERCENTAGE

MAXIMUM_FAKE_PEAK_WIDTH

MINIMUM_BORDER_DISTANCE

MINIMUM_HEIGHT

PEAKLAST POSITION

FIRST POSITION

Resultados obtidos Verdadeiro

Positivo Falso

Negativo Falso

Positivo

Área 75% 23% 394%

Média das alturas 53% 42% 317%

PolyPhred 0% 100% 0%

PolyBayes 0% 100% 0%

Confiabilidade Estatística n  Comparação de dois métodos de

confiablidade estatística para SNPs: n PolyBayes: estatística bayesiana n MSASNP: qualidades das bases

n  Conjunto de teste: SNPs anotados do SUCEST

n  MSASNP gera muitos falsos positivos e acerta menos posições que o PolyBayes

Correlação de SNPs

Linkage Disequilibrium n  Associação não aleatória entre alelos n  Informações sobre um alelo fornece

informações sobre o outro n  Medidas para quantificar LDs

n  D’ = 1, chamado de LD completo n  r2 ≥ 1/3, chamado de LD útil

n  LD múltiplo: conjunto de SNPs em LD dois a dois

Porque estudar LDs?

n  Doenças genéticas podem ser influenciadas por vários SNPs correlacionados

n  LD permite efetuar mapeamento fino do genoma humano n  Técnica tradicional: definição de 1 a 2cM n  LD: definição de 0.1cM

Objetivos desta etapa n  Estudar LDs múltiplos n  Analisar o efeito do uso das medidas D’ e r2

Metodologia

n  Pré-processamento do conjunto de dados n  Definição de uma heurística para busca de

cliques em grafos n  Problema NP-Difícil

n  Executar a busca por LDs múltiplos nos dados utilizando medidas D’ e r2

LDs múltiplos

LDs múltiplos

(j, f, i, e, g, m, n)

(k, l, h)

Conjunto de dados

n  ESTs clusterizados de cana-de-açúcar do projeto SUCEST, com SNPs anotados

n  Genes do genoma humano obtidos do NCBI: n HLA-A, HLA-B e HLA-DOB n Genes do complexo MHC n  Região com alta densidade de SNPs anotados

Resultados n  Bons resultados obtidos com tempo de

busca de 5 segundos por clique n  D’ apresenta resultados melhores

n Maior capacidade de agrupamento n Menor tendência de isolamento de SNPs

n  r2 gera grafos com menos arestas

Considerações finais n  Foram estudadas 3 etapas distintas

relacionadas a SNPs n  Resultados bastante satisfatórios, tendo em

vista o tipo de problema analisado n  Seria interessante implementar um fluxo de

trabalho único unindo estas etapas

Trabalhos publicados n  Alinhamento

n  M. Galves e Z. Dias, "Comparison of genomic DNA to cDNA alignment methods“. Lecture Notes on Bioinformatics, 2005. Springer-Verlag Berlin Heildelberg.

Apresentado no BSB 2005, Porto Alegre - RS.

n  Detecção de SNPs n  M. Galves, J. A. A. Quitzau e Z. Dias,

"New strategy to detect single nucleotide polymorphisms", Genetics and Molecular Research, 2006. Apresentado no X-Meeting 2005, Caxambu - MG.

Relatórios técnicos n  LDs múltiplos

n  A. A. M. Almeida, M. Galves e Z. Dias, “Um algoritmo para identificação de correlações múltiplas de polimorfismos” (IC-06-14), Setembro 2006.

n  Confiabilidade Estatística

n  C. Baudet, M. Galves e Z. Dias,“Comparação de métodos para determinação de SNPs com medidas de confiabilidade” (IC-06-15), Setembro 2006.

Uma abordagem computacional para a determinação de polimorfismos de base única

Documents

Transcript of Uma abordagem computacional para a determinação de polimorfismos de base única