Eukaryotic and prokaryotic promoter prediction using hybrid approach Hao Lin Qian-Zhong Li Theory in...

“Eukaryotic and prokaryotic promoter predictionusing hybrid approach”

Hao Lin • Qian-Zhong Li

Theory in Biosciences, 2011

Eukaryotic and prokaryotic promoter prediction using hybrid approach

Introdução Bases de dados Abordagem proposta

Técnicas Experimentos Resultados

Introdução

Conservação Oligonucleotídeo

K-mer Transcrição (Exons e Introns) PWM (Position Weight Matrix)

IntroduçãoTranscrição

IntroduçãoPWM (Position Weight Matrix)

Base de Dados

Eucariotos 300 pb → -249 a +50 (TSS = 0)

Procariotos 81 pb → -60 a +20 bp (TSS = 0)

Bases (5 espécies) C. elegans → 598 promoters, 600 coding sequences and 600 introns B. subtilis → 270 promoters, 300 coding sequences and 300 convergent

intergenic sequences H. sapiens → 1787 promoters, 1800 coding sequences and 1800 introns D. melanogaster → 1886 promoters, 2859 coding sequences and 1799

introns E. coli → 741 promoters, 700 coding sequences and 700 convergent

intergenic sequences

Abordagem proposta

Abordagem híbrida baseada em Mahalanobis Discriminant modificado para identificação de promotores procarióticos e eucarióticos Utiliza 2 técnicas para descrever características de

sinal e de composição Position Correlation Score Function (PCSF) (Li and Lin

2006; Gordon et al. 2006; Kielbasa et al. 2005) Increment of Diversity (ID) (Laxton 1978)

Abordagem proposta

PCSF (baseado em PWM) Usado para estimar a ocorrência de sequências k-

mer numa posição específica ID

Medir a similaridade na composição de oligonucleotídeos em sub-regiões específicas entre sequências de teste e de treino

MD modificado Usando como entrada os resultados de PCSF e ID,

é aplicado para predizer promotores

Conservação de oligonucleotídeos

Quanto maior o valor de maior a conservação da região

M k i

Uma matriz de probabilidade trimer oligonucleotídeo com 64 linhas (uma linha para cada trimer oligonucleotídeo) e o número de colunas de regiões conservadas é construído através da equação:

Position Correlation Score Function (PCSF)

Position Correlation Score Function (PCSF)

Baseado na matriz de probabilidade construída, a Equação 3

Average background probability →

pode ser utilizada para calcular o valor de peso

das sequências (assim como e )

shows the degree of sequence closed to matrix resource

F promoter

F non−coding F coding

F

Increment of Diversity (ID)

De acordo com o conceito de diversidade, se uma sequência X pode ser descrita como um vetor d-dimensional , então a diversidade da sequência será

Frequência absoluta do ith k-mer oligonucleotídeo →

Para duas sequências, o incremento de diversidade pode ser descrito como

Increment of Diversity (ID)

Quanto menor o ID, maior a similaridade entre 2 sequências

Através do PCSF e do ID, cada sequência eucariótica pode ser descrita como um vetor de 12 dimensões 3 do PCSF e 9 do ID

Mahalanobis Discriminant (MD)

Group mean →

Covariance matrix of training dataset →

Inverse matrix →

Determinant →

Função de predição

Hipótese

Sequências codificantes e não-codificantes juntas numa única base negativa podem resultar em baixa performance Diferença entre sequências codificantes e não

codificantes

Sub-regiões sequências de promotores eucarióticas

As bases de dados de promotores eucarióticos foram divididas em 3 regiões Transcrita Não transcrita Core promoter

Sub-regiões em sequências de promotores eucarióticos

cctcgatagtgccctcataaggcgcttaaacccaccttacccttaccatcatggctagtcgacgccaaaagcagttcgatcggaagtacagctcctatcggtaggtttggagattctggagctgaaaaaaccaatttt

Core Promoter Região transcrita

Região não transcrita

TSS

Experimentos

Experimentos

Base de teste e de treino dividida em 10 partes Varia-se a taxa entre elas 5 taxas diferentes

10-fold cross validation Comparações com outras abordagens para D.

melanogaster 400 seq → 200 promotores, 100 coding, 100 introns

Comparações com outras abordagens para H. sapiens 400 seq → 200 promotores, 100 coding, 100 introns

Avaliação de performance

Resultados

Trabalhos futuros

Utilizar informações estruturais do DNA e predição completa do genoma

Eukaryotic and prokaryotic promoter prediction using hybrid approach Hao Lin Qian-Zhong Li Theory in...

Documents

Transcript of Eukaryotic and prokaryotic promoter prediction using hybrid approach Hao Lin Qian-Zhong Li Theory in...