Uma abordagem computacional para a determinação de polimorfismos de base única
-
Upload
miguel-galves -
Category
Documents
-
view
95 -
download
0
description
Transcript of Uma abordagem computacional para a determinação de polimorfismos de base única
Uma abordagem computacional para a determinação de polimorfismos de
base única
Miguel Galves Orientador: Zanoni Dias
IC - UNICAMP 01/12/2006
Roteiro n Conceitos Básicos n Motivação n Objetivos n Alinhamento de seqüências n Detecção de SNPs e confiabilidade n Correlação de SNPs n Conclusão
Processo básico de tradução genética n A informação genética dos seres vivos é
armazenada em cadeias de nucleotídeos n Bases A, C, G e T
n Proteínas são geradas a partir da leitura da cadeia de nucleotídeos n Processo de tradução
n Proteína = cadeia de aminoácidos n 1 aminoácido = 3 nucleotídeos = 1 códon
Tradução
Polimorfismos e SNP n Polimorfismo: dois ou mais alelos diferentes
em indivíduos da mesma espécie n Deve aparecer em pelo menos 1% da
população n SNP: polimorfismo que ocorre em apenas
uma base da seqüência n SNP sinônimo: não modifica o aminoácido n SNP não sinônimo: modifica o aminoácido
Porque estudar SNPs? n Correspondem a mais de 90% dos
polimorfismos nos seres humanos n Causa de grande parte das doenças com base
genética n Grande interesse das industrias farmacêuticas
n Criação de terapias específicas n Marcadores para mapeamento fino do genoma
Objetivos do trabalho n Estudar 3 etapas distintas no processo de
detecção e análise de SNPs: n Alinhamento de ESTs com DNA genômico n Detecção de SNPs por análise de
cromatograma n Correlação de SNPs
Alinhamento de DNA com ESTs
Alinhamento de sequências
n Inserção de espaços em duas seqüências de forma a que elas tenham o mesmo tamanho e possam ser comparadas
n Exemplo: AGCTCGTTTG e ACCTTCGTTTTG AGC-TCGTTT-G
ACCTTCGTTTTG
n Pontuação permite avaliar o alinhamento n Problema de otimização: obter o alinhamento
de melhor pontuação
Algoritmos clássicos de alinhamento n Estratégias de alinhamento
n Global n Semi-global n Local
n Sistemas de pontuação n Simples: match, mismatch, gap n Linear: match, mismatch e
gap(k) = g + hk
Porque estudar alinhamento de mRNA com DNA?
Objetivos desta etapa
Determinar uma estratégia clássica e um conjunto de parâmetros que permitam obter bons alinhamentos entre DNA genômico e mRNA
Metodologia
n Desenvolvimento de um alinhador em Java usando algoritmo de Miller e Myers
n Criação de uma base de testes n Definição de um conjunto de parâmetros de
alinhamento n Execução de alinhamentos de mRNAs com
genes de origem n Nosso alinhador, sim4, est_genome e Spidey
n Definição de métricas para avaliação dos alinhamentos obtidos
Conjunto de dados
1. 64 genes do cromossomo Y humano com menos de 100.000 bases
2. 40 genes completos do cromossomo Y humano com menos de 100.000 bases
3. 7376 genes completos do genoma humano com menos de 10.000 bases
4. 4930 ESTs artificiais do cromossomo 6 com erros aleatórios de 1% a 10%
Resultados obtidos - Conjunto 3
Extra Gap Delta Exon Similaridade Mismatch
(1,-2,-1,0) 0.00 0.00 99.89% 0.00%
(1,-2,-10,0) 0.00 0.01 99.89% 0.00%
Sim4 1.03 -0.03 99.18% 0.21%
Est_genome 15.56 -0.17 58.00% 1.31%
Spidey 0.12 -3.82 81.02% 0.17%
Resultados obtidos - Conjunto 4
Resultados obtidos - Conjunto 4
Resultados obtidos
n O alinhador semi-global com esquemas de pontuação (1,-2,-1,0) e (1,-2,-10,0) produzem resultados extremamente satisfatórios
n O esquema (1,-2,-10,0) tende a gerar blocos de introns maiores
n Sim4, est_genome e Spidey são mais regulares com ESTs com erros
Detecção de SNPs
Base-calling e sequenciamento
Porque estudar base-calling? n Pacote phred ignora sinais secundários no
cromatograma n Apenas uma base por posição n SNPs podem gerar sinais secundários
n PolyBayes e PolyPhred não produzem resultados satisfatórios com HIV
Objetivos desta etapa
n Detecção de SNPs em cromatogramas de seqüências de HIV
n Estudo de métodos para determinação de confiabilidade dos resultados
Metodologia
n Definir algoritmos para análise e correção de cromatograma
n Executar os algoritmos com diversos parâmetros, para análise preliminar
n Determinação de dois algoritmos para tunning
n Determinação do melhor algoritmo e do melhor conjunto de parâmetros
Conjunto de dados n Sequências genéticas de HIV
n 1302 bp n Região bem conservada
n 35 lotes de amostras de indivíduos soropositivos n 6 leituras n 1 seqüência validada, com SNPs anotados
manualmente n Sequência de referência de HIV
Algoritmos de correção n Relação das Áreas n Relação das Médias das Alturas n Limite Variável n Pico Único por Janela n Eliminação de Picos Ruins n Pico Mais Baixo
Relação das Áreas
Relação das Médias das Alturas
x2x1 x1
FAKE_PEAK_HEIGHT_PERCENTAGE
MAXIMUM_FAKE_PEAK_WIDTH
MINIMUM_BORDER_DISTANCE
MINIMUM_HEIGHT
PEAKLAST POSITION
FIRST POSITION
Resultados obtidos Verdadeiro
Positivo Falso
Negativo Falso
Positivo
Área 75% 23% 394%
Média das alturas 53% 42% 317%
PolyPhred 0% 100% 0%
PolyBayes 0% 100% 0%
Confiabilidade Estatística n Comparação de dois métodos de
confiablidade estatística para SNPs: n PolyBayes: estatística bayesiana n MSASNP: qualidades das bases
n Conjunto de teste: SNPs anotados do SUCEST
n MSASNP gera muitos falsos positivos e acerta menos posições que o PolyBayes
Correlação de SNPs
Linkage Disequilibrium n Associação não aleatória entre alelos n Informações sobre um alelo fornece
informações sobre o outro n Medidas para quantificar LDs
n D’ = 1, chamado de LD completo n r2 ≥ 1/3, chamado de LD útil
n LD múltiplo: conjunto de SNPs em LD dois a dois
Porque estudar LDs?
n Doenças genéticas podem ser influenciadas por vários SNPs correlacionados
n LD permite efetuar mapeamento fino do genoma humano n Técnica tradicional: definição de 1 a 2cM n LD: definição de 0.1cM
Objetivos desta etapa n Estudar LDs múltiplos n Analisar o efeito do uso das medidas D’ e r2
Metodologia
n Pré-processamento do conjunto de dados n Definição de uma heurística para busca de
cliques em grafos n Problema NP-Difícil
n Executar a busca por LDs múltiplos nos dados utilizando medidas D’ e r2
LDs múltiplos
LDs múltiplos
(j, f, i, e, g, m, n)
(k, l, h)
Conjunto de dados
n ESTs clusterizados de cana-de-açúcar do projeto SUCEST, com SNPs anotados
n Genes do genoma humano obtidos do NCBI: n HLA-A, HLA-B e HLA-DOB n Genes do complexo MHC n Região com alta densidade de SNPs anotados
Resultados n Bons resultados obtidos com tempo de
busca de 5 segundos por clique n D’ apresenta resultados melhores
n Maior capacidade de agrupamento n Menor tendência de isolamento de SNPs
n r2 gera grafos com menos arestas
Considerações finais n Foram estudadas 3 etapas distintas
relacionadas a SNPs n Resultados bastante satisfatórios, tendo em
vista o tipo de problema analisado n Seria interessante implementar um fluxo de
trabalho único unindo estas etapas
Trabalhos publicados n Alinhamento
n M. Galves e Z. Dias, "Comparison of genomic DNA to cDNA alignment methods“. Lecture Notes on Bioinformatics, 2005. Springer-Verlag Berlin Heildelberg.
Apresentado no BSB 2005, Porto Alegre - RS.
n Detecção de SNPs n M. Galves, J. A. A. Quitzau e Z. Dias,
"New strategy to detect single nucleotide polymorphisms", Genetics and Molecular Research, 2006. Apresentado no X-Meeting 2005, Caxambu - MG.
Relatórios técnicos n LDs múltiplos
n A. A. M. Almeida, M. Galves e Z. Dias, “Um algoritmo para identificação de correlações múltiplas de polimorfismos” (IC-06-14), Setembro 2006.
n Confiabilidade Estatística
n C. Baudet, M. Galves e Z. Dias,“Comparação de métodos para determinação de SNPs com medidas de confiabilidade” (IC-06-15), Setembro 2006.