Eukaryotic and prokaryotic promoter prediction using hybrid approach Hao Lin Qian-Zhong Li Theory in...
Transcript of Eukaryotic and prokaryotic promoter prediction using hybrid approach Hao Lin Qian-Zhong Li Theory in...
“Eukaryotic and prokaryotic promoter predictionusing hybrid approach”
Hao Lin • Qian-Zhong Li
Theory in Biosciences, 2011
Eukaryotic and prokaryotic promoter prediction using hybrid approach
Introdução Bases de dados Abordagem proposta
Técnicas Experimentos Resultados
Introdução
Conservação Oligonucleotídeo
K-mer Transcrição (Exons e Introns) PWM (Position Weight Matrix)
IntroduçãoTranscrição
IntroduçãoPWM (Position Weight Matrix)
Base de Dados
Eucariotos 300 pb → -249 a +50 (TSS = 0)
Procariotos 81 pb → -60 a +20 bp (TSS = 0)
Bases (5 espécies) C. elegans → 598 promoters, 600 coding sequences and 600 introns B. subtilis → 270 promoters, 300 coding sequences and 300 convergent
intergenic sequences H. sapiens → 1787 promoters, 1800 coding sequences and 1800 introns D. melanogaster → 1886 promoters, 2859 coding sequences and 1799
introns E. coli → 741 promoters, 700 coding sequences and 700 convergent
intergenic sequences
Abordagem proposta
Abordagem híbrida baseada em Mahalanobis Discriminant modificado para identificação de promotores procarióticos e eucarióticos Utiliza 2 técnicas para descrever características de
sinal e de composição Position Correlation Score Function (PCSF) (Li and Lin
2006; Gordon et al. 2006; Kielbasa et al. 2005) Increment of Diversity (ID) (Laxton 1978)
Abordagem proposta
PCSF (baseado em PWM) Usado para estimar a ocorrência de sequências k-
mer numa posição específica ID
Medir a similaridade na composição de oligonucleotídeos em sub-regiões específicas entre sequências de teste e de treino
MD modificado Usando como entrada os resultados de PCSF e ID,
é aplicado para predizer promotores
Conservação de oligonucleotídeos
Quanto maior o valor de maior a conservação da região
M k i
Uma matriz de probabilidade trimer oligonucleotídeo com 64 linhas (uma linha para cada trimer oligonucleotídeo) e o número de colunas de regiões conservadas é construído através da equação:
Position Correlation Score Function (PCSF)
Position Correlation Score Function (PCSF)
Baseado na matriz de probabilidade construída, a Equação 3
Average background probability →
pode ser utilizada para calcular o valor de peso
das sequências (assim como e )
shows the degree of sequence closed to matrix resource
F promoter
F non−coding F coding
F
Increment of Diversity (ID)
De acordo com o conceito de diversidade, se uma sequência X pode ser descrita como um vetor d-dimensional , então a diversidade da sequência será
Frequência absoluta do ith k-mer oligonucleotídeo →
Para duas sequências, o incremento de diversidade pode ser descrito como
Increment of Diversity (ID)
Quanto menor o ID, maior a similaridade entre 2 sequências
Através do PCSF e do ID, cada sequência eucariótica pode ser descrita como um vetor de 12 dimensões 3 do PCSF e 9 do ID
Mahalanobis Discriminant (MD)
Group mean →
Covariance matrix of training dataset →
Inverse matrix →
Determinant →
Função de predição
Hipótese
Sequências codificantes e não-codificantes juntas numa única base negativa podem resultar em baixa performance Diferença entre sequências codificantes e não
codificantes
Sub-regiões sequências de promotores eucarióticas
As bases de dados de promotores eucarióticos foram divididas em 3 regiões Transcrita Não transcrita Core promoter
Sub-regiões em sequências de promotores eucarióticos
cctcgatagtgccctcataaggcgcttaaacccaccttacccttaccatcatggctagtcgacgccaaaagcagttcgatcggaagtacagctcctatcggtaggtttggagattctggagctgaaaaaaccaatttt
Core Promoter Região transcrita
Região não transcrita
TSS
Experimentos
Experimentos
Base de teste e de treino dividida em 10 partes Varia-se a taxa entre elas 5 taxas diferentes
10-fold cross validation Comparações com outras abordagens para D.
melanogaster 400 seq → 200 promotores, 100 coding, 100 introns
Comparações com outras abordagens para H. sapiens 400 seq → 200 promotores, 100 coding, 100 introns
Avaliação de performance
Resultados
Resultados
Resultados
Trabalhos futuros
Utilizar informações estruturais do DNA e predição completa do genoma