Uma abordagem computacional para a determinação de polimorfismos de base única Miguel Galves...
Transcript of Uma abordagem computacional para a determinação de polimorfismos de base única Miguel Galves...
Uma abordagem computacional para a determinação de polimorfismos de
base única
Miguel GalvesOrientador: Zanoni Dias
IC - UNICAMP01/12/2006
Roteiro Conceitos Básicos Motivação Objetivos Alinhamento de seqüências Detecção de SNPs e confiabilidade Correlação de SNPs Conclusão
Processo básico de tradução genética A informação genética dos seres vivos é
armazenada em cadeias de nucleotídeos Bases A, C, G e T
Proteínas são geradas a partir da leitura da cadeia de nucleotídeos Processo de tradução
Proteína = cadeia de aminoácidos 1 aminoácido = 3 nucleotídeos = 1 códon
Tradução
Polimorfismos e SNP Polimorfismo: dois ou mais alelos diferentes
em indivíduos da mesma espécie Deve aparecer em pelo menos 1% da
população SNP: polimorfismo que ocorre em apenas
uma base da seqüência SNP sinônimo: não modifica o aminoácido SNP não sinônimo: modifica o aminoácido
Porque estudar SNPs?
Correspondem a mais de 90% dos polimorfismos nos seres humanos
Causa de grande parte das doenças com base genética
Grande interesse das industrias farmacêuticas Criação de terapias específicas
Marcadores para mapeamento fino do genoma
Objetivos do trabalho
Estudar 3 etapas distintas no processo de detecção e análise de SNPs: Alinhamento de ESTs com DNA genômico Detecção de SNPs por análise de
cromatograma Correlação de SNPs
Alinhamento de DNA com ESTs
Alinhamento de sequências
Inserção de espaços em duas seqüências de forma a que elas tenham o mesmo tamanho e possam ser comparadas
Exemplo: AGCTCGTTTG e ACCTTCGTTTTGAGC-TCGTTT-G
ACCTTCGTTTTG Pontuação permite avaliar o alinhamento Problema de otimização: obter o alinhamento
de melhor pontuação
Algoritmos clássicos de alinhamento
Estratégias de alinhamento Global Semi-global Local
Sistemas de pontuação Simples: match, mismatch, gap Linear: match, mismatch e
gap(k) = g + hk
Porque estudar alinhamento de mRNA com DNA?
Objetivos desta etapa
Determinar uma estratégia clássica e um conjunto de parâmetros que permitam obter bons alinhamentos entre DNA genômico e mRNA
Metodologia
Desenvolvimento de um alinhador em Java usando algoritmo de Miller e Myers
Criação de uma base de testes Definição de um conjunto de parâmetros de
alinhamento Execução de alinhamentos de mRNAs com
genes de origem Nosso alinhador, sim4, est_genome e Spidey
Definição de métricas para avaliação dos alinhamentos obtidos
Conjunto de dados
1. 64 genes do cromossomo Y humano com menos de 100.000 bases
2. 40 genes completos do cromossomo Y humano com menos de 100.000 bases
3. 7376 genes completos do genoma humano com menos de 10.000 bases
4. 4930 ESTs artificiais do cromossomo 6 com erros aleatórios de 1% a 10%
Resultados obtidos - Conjunto 3
Extra Gap Delta Exon Similaridade Mismatch
(1,-2,-1,0) 0.00 0.00 99.89% 0.00%
(1,-2,-10,0) 0.00 0.01 99.89% 0.00%
Sim4 1.03 -0.03 99.18% 0.21%
Est_genome 15.56 -0.17 58.00% 1.31%
Spidey 0.12 -3.82 81.02% 0.17%
Resultados obtidos - Conjunto 4
Resultados obtidos - Conjunto 4
Resultados obtidos
O alinhador semi-global com esquemas de pontuação (1,-2,-1,0) e (1,-2,-10,0) produzem resultados extremamente satisfatórios
O esquema (1,-2,-10,0) tende a gerar blocos de introns maiores
Sim4, est_genome e Spidey são mais regulares com ESTs com erros
Detecção de SNPs
Base-calling e sequenciamento
Porque estudar base-calling? Pacote phred ignora sinais secundários no
cromatograma Apenas uma base por posição SNPs podem gerar sinais secundários
PolyBayes e PolyPhred não produzem resultados satisfatórios com HIV
Objetivos desta etapa
Detecção de SNPs em cromatogramas de seqüências de HIV
Estudo de métodos para determinação de confiabilidade dos resultados
Metodologia
Definir algoritmos para análise e correção de cromatograma
Executar os algoritmos com diversos parâmetros, para análise preliminar
Determinação de dois algoritmos para tunning
Determinação do melhor algoritmo e do melhor conjunto de parâmetros
Conjunto de dados
Sequências genéticas de HIV 1302 bp Região bem conservada
35 lotes de amostras de indivíduos soropositivos 6 leituras 1 seqüência validada, com SNPs anotados
manualmente
Sequência de referência de HIV
Algoritmos de correção
Relação das Áreas Relação das Médias das Alturas Limite Variável Pico Único por Janela Eliminação de Picos Ruins Pico Mais Baixo
Relação das Áreas
Relação das Médias das Alturas
Resultados obtidos
Verdadeiro Positivo
Falso Negativo
Falso Positivo
Área 75% 23% 394%
Média das alturas
53% 42% 317%
PolyPhred 0% 100% 0%
PolyBayes 0% 100% 0%
Confiabilidade Estatística Comparação de dois métodos de
confiablidade estatística para SNPs: PolyBayes: estatística bayesiana MSASNP: qualidades das bases
Conjunto de teste: SNPs anotados do SUCEST
MSASNP gera muitos falsos positivos e acerta menos posições que o PolyBayes
Correlação de SNPs
Linkage Disequilibrium
Associação não aleatória entre alelos Informações sobre um alelo fornece
informações sobre o outro Medidas para quantificar LDs
D’ = 1, chamado de LD completo r2 1/3, chamado de LD útil
LD múltiplo: conjunto de SNPs em LD dois a dois
Porque estudar LDs?
Doenças genéticas podem ser influenciadas por vários SNPs correlacionados
LD permite efetuar mapeamento fino do genoma humano Técnica tradicional: definição de 1 a 2cM LD: definição de 0.1cM
Objetivos desta etapa
Estudar LDs múltiplos Analisar o efeito do uso das medidas D’ e r2
Metodologia
Pré-processamento do conjunto de dados Definição de uma heurística para busca de
cliques em grafos Problema NP-Difícil
Executar a busca por LDs múltiplos nos dados utilizando medidas D’ e r2
LDs múltiplos
LDs múltiplos
(j, f, i, e, g, m, n)
(k, l, h)
Conjunto de dados
ESTs clusterizados de cana-de-açúcar do projeto SUCEST, com SNPs anotados
Genes do genoma humano obtidos do NCBI: HLA-A, HLA-B e HLA-DOB Genes do complexo MHC Região com alta densidade de SNPs anotados
Resultados
Bons resultados obtidos com tempo de busca de 5 segundos por clique
D’ apresenta resultados melhores Maior capacidade de agrupamento Menor tendência de isolamento de SNPs
r2 gera grafos com menos arestas
Considerações finais
Foram estudadas 3 etapas distintas relacionadas a SNPs
Resultados bastante satisfatórios, tendo em vista o tipo de problema analisado
Seria interessante implementar um fluxo de trabalho único unindo estas etapas
Trabalhos publicados Alinhamento
M. Galves e Z. Dias, "Comparison of genomic DNA to cDNA alignment methods“. Lecture Notes on Bioinformatics, 2005. Springer-Verlag Berlin Heildelberg.
Apresentado no BSB 2005, Porto Alegre - RS.
Detecção de SNPs M. Galves, J. A. A. Quitzau e Z. Dias,
"New strategy to detect single nucleotide polymorphisms", Genetics and Molecular Research, 2006.
Apresentado no X-Meeting 2005, Caxambu - MG.
Relatórios técnicos LDs múltiplos
A. A. M. Almeida, M. Galves e Z. Dias, “Um algoritmo para identificação de correlações múltiplas de polimorfismos” (IC-06-14), Setembro 2006.
Confiabilidade Estatística C. Baudet, M. Galves e Z. Dias,“Comparação de métodos
para determinação de SNPs com medidas de confiabilidade” (IC-06-15), Setembro 2006.