Medidas difusas para comparación de TFBSs.

30
Medidas Difusas para Motivos de ADN Fernando García Alcalde

Transcript of Medidas difusas para comparación de TFBSs.

Page 1: Medidas difusas para comparación de TFBSs.

Medidas Difusaspara

Motivos de ADN

Fernando García Alcalde

Page 2: Medidas difusas para comparación de TFBSs.

¿Qué es la transcripción?

• Proceso por el cual se transforma el DNA en RNA

• Cuando la célula necesita una proteína una región del DNA de un cromosoma se copia en a RNA

• Primera etapa del dogma central de la biología molecular:– Transcripción: De DNA a RNA– Traducción: De RNA a proteína

Page 3: Medidas difusas para comparación de TFBSs.

¿Qué se transcribe?

• Cambio de “lenguaje”

• Pocas propiedades químicas cambian:– Nucleótidos son ribonucleótidos (ribosa)– Las bases se mantienen pero la Timina (T) se

transcribe como Uracilo (U)

• Gran cambio en la estructura global:– RNA se presenta como una cadena sencilla– Se pliega en diferentes formas

Page 4: Medidas difusas para comparación de TFBSs.

¿Cómo se transcribe?

• Se abre y desenrolla una zona de la doble hélice de DNA

• Se toma como molde una de las hebras que se deja al descubierto

• Mediante una reacción encimática (RNA polimerasa), se traduce nucleótido a nucleótido de forma que se obtiene una cadena complementaria (A<->U, G<->C)

Page 5: Medidas difusas para comparación de TFBSs.

Transcripción en eucariotas

• Descubrimiento de diferencias: Imposibilidad de conseguir la transcripción in vitro

• Se necesitan factores generales de transcripción (TFIIA, TFIIB,…)

• Se combinan entre ellas y/o se unen a la secuencia promotora para permitir la transcripción.

Page 6: Medidas difusas para comparación de TFBSs.

Transcripción en eucariotas

• Tres tipos de RNA polimerasas:

– RNA polimerasa I: Genes de los rRNA 5, 8S, 18S, 28S

– RNA polimerasa II: todos los genes codificadores de proteínas más algunos de snRNA

– RNA polimerasa III: genes de los tRNA, algunos de snRNA y los genes de otro RNA’s pequeños

Page 7: Medidas difusas para comparación de TFBSs.

RNA polimerasa II. Necesidades

• Factores generales de transcripción (TFIIA, TFIIB,…)

• Proteínas externas que ayudan/dificultan la trascripción -> TF

• Consecuentemente es necesario secuencias en el gen reconocible por las proteínas externas -> TFBS

Page 8: Medidas difusas para comparación de TFBSs.

Cómo actúan los TF• Activan la transcripción:

– Se unen al DNA por un lado y al mediador por otro para hacerlo más estable (Incluso distancias muy largas: doblado de la hélice)

– Se unen al DNA para modificar la cromatina y hacer la transcripción más “fácil”

– Se unen a otros TF’s y después al DNA (probable gap en medio) para modificar las propiedades de la cromatina.

• Reprimen la transcripción:– Se unen al DNA por un lado y al mediador por otro para hacerlo menos

estable– Se unen al “sitio” donde puede unirse un activador– Se unen al DNA y después a un activador por la parte con la que podría

activar la transcripción– Se unen al DNA para modificar la cromatina y hacer la transcripción

más “difícil”

Page 9: Medidas difusas para comparación de TFBSs.

Qué es un TFBS

• TFBS: Transcription Factor Binding Site

• Zona del gen donde se une un TF

• En definitiva una sucesión de aminoácidos (A,C,G,T) que proporcionan unas propiedades químicas adecuadas

• Es muy frecuente que un mismo TF se una a distintas secuencias parecidas de aminoacidos: motivos.

Page 10: Medidas difusas para comparación de TFBSs.

Representación de motivos

• Secuencia de consenso

• PFM -> Position Frequency Matrix -> Cuántas ocurrencias de cada base

• PWM -> Position Weighted Matrix -> weighti,j = ln (ni,j+pi)/(N+1) ~ ln fi,j pi pi

• Logos -> Representación gráfica

Page 11: Medidas difusas para comparación de TFBSs.

Representación de motivos

Page 12: Medidas difusas para comparación de TFBSs.

Ejemplo de motivo

• TATA Box:

Page 13: Medidas difusas para comparación de TFBSs.

Descubrimiento de TFBSs.Hipótesis

• Los genes que se comportan de forma parecida ante las mismas circunstancias son candidatos a compartir mecanismos regulatorios.

• Se intenta arrojar luz en el complejo “mundo” de la transcripción. No resuelve todo.

Page 14: Medidas difusas para comparación de TFBSs.

Esquema general

Genes relacionados

Genes con el motivo en su secuencia promotora

All Genes on the Microarray

Considerar la contribución de cada TFBS

41

21

12

5

All Genes

1.01CCCACTCCCG

………

1e-57TTTCTCTTTC

1e-710TTTCAGTTTC

1e-1012TTTCACTTTC

P-valueInduced GenesSequence

Construir un nuevo motivo basado en su contribución a la significatividad del

motivo

Buscar las 100 semillas más prometedoras (bajo p-value)

Degenerar cada semilla

Calcular el p-value de la intersección mediante la distribución hipergeométrica

Page 15: Medidas difusas para comparación de TFBSs.

Algoritmos

• Gibbs Motif: Basado en el Gibbs sampling• MEME: Maximización de la expectación del

TFBS• AlignACE: Basado en técnicas de alineamiento

del genoma• WebMOTIFS: Aplica varios algoritmos y

“mezcla” los resultados.

• Salida: Lista de motivos. MUCHOS falsos positivos

Page 16: Medidas difusas para comparación de TFBSs.

Medidas de comparación entre Motivos

• ¿Cómo de parecidos son dos TFBS degenerados?

Page 17: Medidas difusas para comparación de TFBSs.

Utilidades

• Aplicación directa en métodos de detección de TFBS -> A la hora de degenerar se puede hacer de forma más precisa.

• Filtrar las salidas de los algoritmos y obtener una común.

• Matching con TFBSs conocidos• Eliminación de redundancias en las bases de

datos• Construcción de familias de TFBSs• Otras…

Page 18: Medidas difusas para comparación de TFBSs.

Medidas existentes

• Distancia Euclidea

• Correlación de Pearson

• Average log-likelihood ratio: Media de los PWM

• Kullback-Leibler divergence (KLD): Mide la diferencia entre dos distribuciones

• Pearson Chi-cuadrado -> Columnas estadísticamente independientes

Page 19: Medidas difusas para comparación de TFBSs.

Teoría difusa

• Zadeh (1965) -> Modelar la imprecisión inherente a algunos conceptos

• Se permite a un objeto pertenecer a un conjunto con un valor de pertenencia entre 0 y 1

• Lógica clásica -> restringe los valores a 0 ó 1

Page 20: Medidas difusas para comparación de TFBSs.

Tecnología difusa ¿Por qué?

• Manejo de la incertidumbre

• Tolerancia al ruido típicamente presente en los datos biólogicos

Page 21: Medidas difusas para comparación de TFBSs.

Interpretación difusa de motivos

• En una PFM, cada posición se puede ver como los grados de pertenencia difusa a los conjuntos de los 4 nucleótidos (A,C,G,T)

• Ejemplo: A C G T1 0.1 0.2 0.3 0.62 0.9 0 0.1 0

Page 22: Medidas difusas para comparación de TFBSs.

Medidas difusas (I)

• Teoría de conjuntos: Jaccard coefficient

• Proximidad: Minkowsky r-métrica

∑ −=

),max(),(

21

21

21CC

CCJ

bb

bbCCS

1,)(),(1

21 21 ≥−= ∑ rbbCCd rrCCr

Page 23: Medidas difusas para comparación de TFBSs.

Medidas difusas (II)

• Coeficiente angular: distancia de Bhattacharyya

• Fuzzy polynucleotide space measure (FPSM)– Mapear la matriz en un punto en el hipercubo unitario de

12 dimensiones [0,1]12

( ) ( )∑∑∑

⋅=

2221

21

21

),(CC

CCB

bb

bbCCS

∑∑

=

=−

= 12

121

12

121

21

),max(),(

i

i

ii

ii

MM

MMMMFPSM

Page 24: Medidas difusas para comparación de TFBSs.

Datos sintéticos (I)

• Generar columnas aleatorias de distribuciones conocidas

• Generar columnas aleatorias de distribuciones aleatorias.

• Comparar la discriminación de las medidas en función del IC

Page 25: Medidas difusas para comparación de TFBSs.

Datos sintéticos (II)

Page 26: Medidas difusas para comparación de TFBSs.

Clustering de JASPAR (I)• JASPAR -> 71 motivos, 11 familias

• Computar FBPs (Familial Binding Profiles)

• Medir la similitud entre cada motivo y su FBP

Page 27: Medidas difusas para comparación de TFBSs.

Clustering de JASPAR (II)

0.480.080.410.650.550.57Media

0.920.260.090.770.690.70CREB0.070.010.910.530.440.45Nuclear0.370.020.730.590.470.47HOM0.500.050.900.680.540.55HMG0.170.030.260.580.490.50TRP0.770.190.270.760.680.70REL0.700.010.040.690.610.62MADS0.620.110.250.720.630.64EBP0.430.020.240.640.540.57bHLH0.050.010.020.550.450.46Fork0.710.190.750.710.620.63ETS

ALLRChi2AngMinkFPSMJacFam

Page 28: Medidas difusas para comparación de TFBSs.

Mejoras

• Bonificar la similitud entre posiciones bien conservadas

• Bonificar matrices que siguen la misma distribución

Page 29: Medidas difusas para comparación de TFBSs.

Conclusiones

• El estudio de la detección y comparación de TFBSs es un problema que permanece abierto.

• La tecnología difusa es aplicable a este tipo de problemas

• Se necesita profundizar en el tema:– Aplicación a genes relacionados

– Incoporación a algoritmos de detección de TFBSs

Page 30: Medidas difusas para comparación de TFBSs.

Ideas futuras

• Los TF no sólo se unen en función de los nucleótidos que se encuentran: aplicar reglas que además consideren características estructurales del cromosoma, lugares donde se encuentra el promotor, etc.

• Permitir gaps para hallar conjuntos de TF relacionados entre sí