Profile HMMs Perfiles de Modelos ocultos de Markov SONIA JIMÉNEZ GUTIÉRREZ JOSE CARLOS GARCÍA...

38
Profile HMMs Profile HMMs Perfiles de Modelos Perfiles de Modelos ocultos de Markov ocultos de Markov SONIA JIMÉNEZ GUTIÉRREZ SONIA JIMÉNEZ GUTIÉRREZ JOSE CARLOS GARCÍA SERRANO JOSE CARLOS GARCÍA SERRANO I.T.I. SISTEMAS I.T.I. SISTEMAS

Transcript of Profile HMMs Perfiles de Modelos ocultos de Markov SONIA JIMÉNEZ GUTIÉRREZ JOSE CARLOS GARCÍA...

Page 1: Profile HMMs Perfiles de Modelos ocultos de Markov SONIA JIMÉNEZ GUTIÉRREZ JOSE CARLOS GARCÍA SERRANO I.T.I. SISTEMAS.

Profile HMMsProfile HMMsPerfiles de Modelos Perfiles de Modelos ocultos de Markovocultos de Markov

SONIA JIMÉNEZ GUTIÉRREZSONIA JIMÉNEZ GUTIÉRREZJOSE CARLOS GARCÍA SERRANOJOSE CARLOS GARCÍA SERRANO

I.T.I. SISTEMASI.T.I. SISTEMAS

Page 2: Profile HMMs Perfiles de Modelos ocultos de Markov SONIA JIMÉNEZ GUTIÉRREZ JOSE CARLOS GARCÍA SERRANO I.T.I. SISTEMAS.

Algunos conceptos Algunos conceptos importantesimportantes

Surgen métodos de comparación de secuencias para la búsqueda Surgen métodos de comparación de secuencias para la búsqueda de homologías como son los de homologías como son los patronespatrones, , perfilesperfiles (conjunto (conjunto alineado de secuencias que contiene un dominio) y alineado de secuencias que contiene un dominio) y HMMHMM (modelos estadísticos de la estructura primaria de las (modelos estadísticos de la estructura primaria de las secuencias).secuencias).

MotivoMotivo: si observamos un alineamiento múltiple de proteínas : si observamos un alineamiento múltiple de proteínas homólogas veremos que algunas columnas varían bastante, homólogas veremos que algunas columnas varían bastante, mientras que otras están más conservadas. Cuando observamos mientras que otras están más conservadas. Cuando observamos ciertas columnas cercanas con una alta conservación, es decir, ciertas columnas cercanas con una alta conservación, es decir, cuando encontramos trocitos de las secuencias que se conservan cuando encontramos trocitos de las secuencias que se conservan más que otros y que podrían caracterizar funcionalmente a las más que otros y que podrían caracterizar funcionalmente a las proteínas, entonces solemos hablar de MOTIVOS. proteínas, entonces solemos hablar de MOTIVOS.

DominioDominio: el concepto de dominio define una unidad estructural : el concepto de dominio define una unidad estructural independiente en las proteínas. Sin embargo se utiliza con cierta independiente en las proteínas. Sin embargo se utiliza con cierta laxitud: por ejemplo, en estudios genéticos de deleción a veces se laxitud: por ejemplo, en estudios genéticos de deleción a veces se utiliza como sinónimo de la parte mínima de la secuencia capaz utiliza como sinónimo de la parte mínima de la secuencia capaz de realizar la función estudiada. En las bases de datos de de realizar la función estudiada. En las bases de datos de dominios como PFam, un dominio se suele corresponder con el dominios como PFam, un dominio se suele corresponder con el núcleo del dominio estructural, aquella zona más similar entre núcleo del dominio estructural, aquella zona más similar entre todas las proteínas de una familia, aunque no tiene por qué todas las proteínas de una familia, aunque no tiene por qué coincidir exactamente con los límites del dominio estructural.coincidir exactamente con los límites del dominio estructural.

Page 3: Profile HMMs Perfiles de Modelos ocultos de Markov SONIA JIMÉNEZ GUTIÉRREZ JOSE CARLOS GARCÍA SERRANO I.T.I. SISTEMAS.

Algunos conceptos Algunos conceptos importantesimportantes

Existen distintos métodos para describir y localizar Existen distintos métodos para describir y localizar motivosmotivos::

1.1. Expresiones regulares o patronesExpresiones regulares o patrones: A partir de la : A partir de la información que contiene un alineamiento información que contiene un alineamiento múltiple se obtiene un patrón o expresión múltiple se obtiene un patrón o expresión regular utilizados para caracterizar motivos, regular utilizados para caracterizar motivos, indicando qué posiciones son más importantes y indicando qué posiciones son más importantes y cuales pueden variar y que variaciones pueden cuales pueden variar y que variaciones pueden sufrir.sufrir.

2.2. Creación de perfiles:Creación de perfiles: Es una matriz de Es una matriz de sustitución específica para cada posición de la sustitución específica para cada posición de la secuencia. A partir del alineamiento múltiple se secuencia. A partir del alineamiento múltiple se construye dicha matriz teniendo en cuenta la construye dicha matriz teniendo en cuenta la frecuencia de los aminoácidos en cada posición frecuencia de los aminoácidos en cada posición así como sus propiedades fisicoquímicas.así como sus propiedades fisicoquímicas.

Page 4: Profile HMMs Perfiles de Modelos ocultos de Markov SONIA JIMÉNEZ GUTIÉRREZ JOSE CARLOS GARCÍA SERRANO I.T.I. SISTEMAS.

Algunos conceptos Algunos conceptos importantesimportantes

Una diferencia entre los perfiles y las Una diferencia entre los perfiles y las expresiones regulares o patrones es que expresiones regulares o patrones es que no solo se limita a pequeñas regiones no solo se limita a pequeñas regiones con un alto índice de similitud, sino que con un alto índice de similitud, sino que presenta una mayor utilidad a la hora de presenta una mayor utilidad a la hora de definir regiones o dominios más extensos definir regiones o dominios más extensos que puedan caracterizar familias de que puedan caracterizar familias de proteínas más que motivos. El perfil proteínas más que motivos. El perfil puede cubrir tanto regiones conservadas puede cubrir tanto regiones conservadas como variables del alineamiento.como variables del alineamiento.

Page 5: Profile HMMs Perfiles de Modelos ocultos de Markov SONIA JIMÉNEZ GUTIÉRREZ JOSE CARLOS GARCÍA SERRANO I.T.I. SISTEMAS.

Algunos conceptos Algunos conceptos importantesimportantes

Page 6: Profile HMMs Perfiles de Modelos ocultos de Markov SONIA JIMÉNEZ GUTIÉRREZ JOSE CARLOS GARCÍA SERRANO I.T.I. SISTEMAS.

Algunos conceptos Algunos conceptos importantesimportantes

3. 3. Perfiles HMMsPerfiles HMMs: Se muestran como una : Se muestran como una forma más sensible, incluyendo los patrones forma más sensible, incluyendo los patrones reguladores y perfiles convencionales, de reguladores y perfiles convencionales, de búsqueda de homólogos remotos y dominios búsqueda de homólogos remotos y dominios conservados basados en una descripción conservados basados en una descripción estadística de la estructura primaria consenso estadística de la estructura primaria consenso de una familia de proteínas.de una familia de proteínas.

En el modelo HMMs que vamos a analizar En el modelo HMMs que vamos a analizar consideramos tres estados posibles consideramos tres estados posibles correspondientes a la probabilidad de correspondientes a la probabilidad de encontrar en dicha posición un determinado encontrar en dicha posición un determinado residuo, la probabilidad de inserción y de residuo, la probabilidad de inserción y de delecióndeleción

Page 7: Profile HMMs Perfiles de Modelos ocultos de Markov SONIA JIMÉNEZ GUTIÉRREZ JOSE CARLOS GARCÍA SERRANO I.T.I. SISTEMAS.

IntroducciónIntroducción Los modelos de ocultos de Markov (HMM) Los modelos de ocultos de Markov (HMM)

surgieron como una herramienta aplicada al surgieron como una herramienta aplicada al procesamiento del habla, un modelos procesamiento del habla, un modelos estadístico que, a través de un algoritmo de estadístico que, a través de un algoritmo de aprendizaje, extraía las principales aprendizaje, extraía las principales características estocásticas de una cadena de características estocásticas de una cadena de habla.habla.

Con la ingente cantidad de datos proveniente Con la ingente cantidad de datos proveniente del secuenciamiento de distintos genomas, del secuenciamiento de distintos genomas, aparece un problema adjunto -> cómo extraer aparece un problema adjunto -> cómo extraer de estos datos la información subyacente.de estos datos la información subyacente.

Solución: los HMM.Solución: los HMM.

Page 8: Profile HMMs Perfiles de Modelos ocultos de Markov SONIA JIMÉNEZ GUTIÉRREZ JOSE CARLOS GARCÍA SERRANO I.T.I. SISTEMAS.

Modelos Ocultos de Modelos Ocultos de MarkovMarkov

Un modelo oculto de Markov (HMM) es un conjunto finito de estados.

Las transiciones entre estados están dadas por un conjunto de probabilidades de transición.

En cualquier estado particular, la observación puede ser generada, de acuerdo a la distribución de probabilidades de emisión.

Sólo el resultado observable, no el estado, es visible a un observador externo por lo que los estados están “ocultos”.

Page 9: Profile HMMs Perfiles de Modelos ocultos de Markov SONIA JIMÉNEZ GUTIÉRREZ JOSE CARLOS GARCÍA SERRANO I.T.I. SISTEMAS.

Modelos Ocultos de Modelos Ocultos de MarkovMarkovAlfabeto = { b1, b2, …, bM }

Conjunto de estados = { 1, ..., K }Probabilidades de transición entre dos estados cualesquiera

aij = prob. de transición del estado i al estado jai1 + … + aiK = 1, para todos los estados i = 1…K

Probabilidades iniciales a0ia01 + … + a0K = 1

Probabilidades de emisión dentro de cada estadoei(b) = P( xi = b | i = k)ei(b1) + … + ei(bM) = 1, para todos los

estados i = 1…KEn cada paso de tiempo t, lo único que afecta los futuros

estados es el estado actual tP(t+1 =k | “cualquier cosa que pasó”) =

P(t+1 =k | 1, 2, …, t, x1, x2, …, xt)=

P(t+1 = k | t)

Page 10: Profile HMMs Perfiles de Modelos ocultos de Markov SONIA JIMÉNEZ GUTIÉRREZ JOSE CARLOS GARCÍA SERRANO I.T.I. SISTEMAS.

Las 3 grandes preguntas Las 3 grandes preguntas sobre HMMsobre HMM

EvaluaciónEvaluaciónDado un HMM M y una secuencia x, encontrar Dado un HMM M y una secuencia x, encontrar

Prob[ x|M]Prob[ x|M] DecodificaciónDecodificación

Dado un HMM M, y una secuencia x, Dado un HMM M, y una secuencia x, encontrar la secuencia de estados encontrar la secuencia de estados que que maximiza P[ x, maximiza P[ x, | M ] | M ]

AprendizajeDado un HMM M, con probabilidad Dado un HMM M, con probabilidad

transición/emisión desconocidas,transición/emisión desconocidas, y una y una secuencia x,secuencia x,

encontrar los parámetros encontrar los parámetros = (e = (eii(.), a(.), aijij) que ) que maximizan P[ x | maximizan P[ x | ] ]

Page 11: Profile HMMs Perfiles de Modelos ocultos de Markov SONIA JIMÉNEZ GUTIÉRREZ JOSE CARLOS GARCÍA SERRANO I.T.I. SISTEMAS.

DecodificaciónDecodificación Dada una secuencia de observaciones X, Dada una secuencia de observaciones X,

encuentre la secuencia de est. encuentre la secuencia de est. . . DNA coding (C) vs non-coding (N) x = …AACCTTCCGCGCAATATAGGTAACCCCGG… = …NNCCCCCCCCCCCCCCCCCNNNNNNNN…

Queremos encontrar Queremos encontrar = = 11, ……, , ……, NN,,tal que P[ x, tal que P[ x, ] esté maximizado ] esté maximizado

** = argmax = argmax P[ x, P[ x, ] ]Podemos usar programación dinámicaPodemos usar programación dinámica

Sea VSea Vkk(i) = max(i) = max{{1,…,i-1}1,…,i-1} P[x P[x11…x…xi-1i-1, , 11, …, , …, i-1i-1, x, xii, , ii = k] = k]

= Probabilidad de la secuencia de estados = Probabilidad de la secuencia de estados más verosímil que termina en el estado más verosímil que termina en el estado ii = k = k

1

2

K…

1

2

K…

1

2

K…

1

2

K…

x

1

x2 x3 xK

2

1

K

2

Page 12: Profile HMMs Perfiles de Modelos ocultos de Markov SONIA JIMÉNEZ GUTIÉRREZ JOSE CARLOS GARCÍA SERRANO I.T.I. SISTEMAS.

Algoritmo de ViterbiAlgoritmo de Viterbi

Es similar a “alinear” un conjunto de Es similar a “alinear” un conjunto de estados de una secuencia.estados de una secuencia.

Complejidad temporal: Complejidad temporal: O(KO(K22N) K=nº N) K=nº estadosestados

Complejidad espacial: Complejidad espacial: O(KN) N=longitudO(KN) N=longitud

Page 13: Profile HMMs Perfiles de Modelos ocultos de Markov SONIA JIMÉNEZ GUTIÉRREZ JOSE CARLOS GARCÍA SERRANO I.T.I. SISTEMAS.

Agoritmos de Viterbi y Agoritmos de Viterbi y ForwardForward

VITERBIVITERBI

Inicialización:Inicialización:

VV00(0) = 1(0) = 1

VVkk(0) = 0, para todo k > 0(0) = 0, para todo k > 0

Iteración:Iteración:

VVjj(i) = e(i) = ejj(x(xii) ) maxmaxkk VVkk(i-1) (i-1) aakjkj

Terminación:Terminación:

P(x, P(x, *) = *) = maxmaxkk VVkk(N)(N)

FORWARDInicialización:

f0(0) = 1

fk(0) = 0, para todo k > 0

Iteración:fl(i) = el(xi) k fk(i-1) akl

TerminaciónP(x) = k fk(N) ak0

Page 14: Profile HMMs Perfiles de Modelos ocultos de Markov SONIA JIMÉNEZ GUTIÉRREZ JOSE CARLOS GARCÍA SERRANO I.T.I. SISTEMAS.

Algoritmos de Algoritmos de entrenamientoentrenamiento

Tenemos un conjunto de secuencias de ejemplo del Tenemos un conjunto de secuencias de ejemplo del tipo de las que queremos que el modelo ajuste tipo de las que queremos que el modelo ajuste (secuencias de entrenamiento), que suponemos (secuencias de entrenamiento), que suponemos independientes.independientes.

Si conociéramos el camino de estados que recorrió Si conociéramos el camino de estados que recorrió el modelo, los estados no están ocultos (el HMM se el modelo, los estados no están ocultos (el HMM se transforma en una cadena de Markov), en la cual los transforma en una cadena de Markov), en la cual los estimadores de máximoa verosimilitud para las estimadores de máximoa verosimilitud para las frecuencias de emisión y transición se obtienen a frecuencias de emisión y transición se obtienen a partir de las frecuencias de observaciones.partir de las frecuencias de observaciones.

Si tenemos información (biológica o física) que nos Si tenemos información (biológica o física) que nos aporte información previa a la distribución de aporte información previa a la distribución de probabilidades podemos agregársela al modelo como probabilidades podemos agregársela al modelo como pseudocuentas.pseudocuentas.

Page 15: Profile HMMs Perfiles de Modelos ocultos de Markov SONIA JIMÉNEZ GUTIÉRREZ JOSE CARLOS GARCÍA SERRANO I.T.I. SISTEMAS.

Algoritmos de Algoritmos de entrenamientoentrenamiento

ObjetivoObjetivo: Dada una secuencia de : Dada una secuencia de observaciones, encontrar el modelo más observaciones, encontrar el modelo más probable que genere esa secuenciaprobable que genere esa secuencia

Problema: No conocemos las frecuencias Problema: No conocemos las frecuencias relativas de los estados ocultos visitados.relativas de los estados ocultos visitados.

No se conocen soluciones analíticasNo se conocen soluciones analíticas Nos acercamos a la solución por sucesivas Nos acercamos a la solución por sucesivas

aproximaciones.aproximaciones. El problema ahora es la optimización, por El problema ahora es la optimización, por

lo que se pueden usar muchas heurísticas lo que se pueden usar muchas heurísticas (simulated annealing, algoritmos (simulated annealing, algoritmos genéticos, etc)genéticos, etc)

Page 16: Profile HMMs Perfiles de Modelos ocultos de Markov SONIA JIMÉNEZ GUTIÉRREZ JOSE CARLOS GARCÍA SERRANO I.T.I. SISTEMAS.

Algoritmo de Baum-Algoritmo de Baum-WelchWelch

Este es el algoritmo de Expectation-Este es el algoritmo de Expectation-Maximization (EM) para la estimación de Maximization (EM) para la estimación de parámetros.parámetros.

Aplicable a cualquier proceso estocásticoAplicable a cualquier proceso estocástico Encuentra las frecuencias esperadas de los Encuentra las frecuencias esperadas de los

posibles valores de las variables ocultas.posibles valores de las variables ocultas. Calcula las distribuciones de máxima Calcula las distribuciones de máxima

verosimilitud de las variables ocultas en base verosimilitud de las variables ocultas en base a las probabilidades forward y backward.a las probabilidades forward y backward.

Repite estos pasos hasta satisfacer algún Repite estos pasos hasta satisfacer algún criterio de convergencia.criterio de convergencia.

Complejidad temporal: nº iteraciones*O(Complejidad temporal: nº iteraciones*O(NN22 TT))

Page 17: Profile HMMs Perfiles de Modelos ocultos de Markov SONIA JIMÉNEZ GUTIÉRREZ JOSE CARLOS GARCÍA SERRANO I.T.I. SISTEMAS.

Aplicaciones de los HMMAplicaciones de los HMM Los modelos probabilísticos están tomando una Los modelos probabilísticos están tomando una

mayor importancia en el análisis biológico, mayor importancia en el análisis biológico, particularmente en problemas de análisis con particularmente en problemas de análisis con muchos parámetros. muchos parámetros.

Puesto que muchos problemas en biología Puesto que muchos problemas en biología computacional se reducen al análisis de computacional se reducen al análisis de secuencias lineales cortas, los modelos basados secuencias lineales cortas, los modelos basados en HMM han sido aplicados a muchos problemasen HMM han sido aplicados a muchos problemas

Búsqueda de genes, mapas híbridos de Búsqueda de genes, mapas híbridos de radiación, unión de mapas genéticos, análisis radiación, unión de mapas genéticos, análisis filogenético y predicción de la estructura filogenético y predicción de la estructura secundaria de las proteínas.secundaria de las proteínas.

Las aplicaciones más exitosas son los perfiles Las aplicaciones más exitosas son los perfiles HMM y HMM-based gene finders.HMM y HMM-based gene finders.

Page 18: Profile HMMs Perfiles de Modelos ocultos de Markov SONIA JIMÉNEZ GUTIÉRREZ JOSE CARLOS GARCÍA SERRANO I.T.I. SISTEMAS.

Perfiles HMMsPerfiles HMMs A partir de un HMM entrenado con un A partir de un HMM entrenado con un

conjunto de secuencias previamente alineadas conjunto de secuencias previamente alineadas (CLUSTAW) se puede obtener las (CLUSTAW) se puede obtener las características estocásticas (profile) de una características estocásticas (profile) de una familia de secuencias de ADN o proteínas.familia de secuencias de ADN o proteínas.

En las proteínas se observan regiones de En las proteínas se observan regiones de longitud considerable donde no participan longitud considerable donde no participan gaps ni inserciones de residuos. gaps ni inserciones de residuos.

Se puede construir un modelo donde sólo Se puede construir un modelo donde sólo participen los estados de match, con participen los estados de match, con probabilidad 1 de transición entre un estado y probabilidad 1 de transición entre un estado y el siguiente y con probabilidades de emisión el siguiente y con probabilidades de emisión de residuos calculadas a partir de su de residuos calculadas a partir de su frecuencia de aparición.frecuencia de aparición.

Page 19: Profile HMMs Perfiles de Modelos ocultos de Markov SONIA JIMÉNEZ GUTIÉRREZ JOSE CARLOS GARCÍA SERRANO I.T.I. SISTEMAS.

Perfiles HMMsPerfiles HMMs En M1 se emiten los símbolos En M1 se emiten los símbolos

de los aminoácidos (A1..Al) con de los aminoácidos (A1..Al) con las probabilidades de emisión las probabilidades de emisión que resultan de la frecuencia que resultan de la frecuencia de aparición de éstos en la de aparición de éstos en la columna1 de las secuencias columna1 de las secuencias presentadas como datospresentadas como datos

Se fuerzan a 1 las Se fuerzan a 1 las probabilidades de transición probabilidades de transición entre un estado y el siguiente.entre un estado y el siguiente.

En las secuencias de En las secuencias de aminoácidos se observan aminoácidos se observan porciones donde es posible porciones donde es posible hallar consenso (estados de hallar consenso (estados de match) y otras donde o bien match) y otras donde o bien aparecen insert o gaps aparecen insert o gaps (estados delete).(estados delete).

Page 20: Profile HMMs Perfiles de Modelos ocultos de Markov SONIA JIMÉNEZ GUTIÉRREZ JOSE CARLOS GARCÍA SERRANO I.T.I. SISTEMAS.

Perfiles HMMsPerfiles HMMs

La Figura 2 muestra un HMM para un alineamiento de cuatro secuencias con tres posiciones.

Page 21: Profile HMMs Perfiles de Modelos ocultos de Markov SONIA JIMÉNEZ GUTIÉRREZ JOSE CARLOS GARCÍA SERRANO I.T.I. SISTEMAS.

SOFTWARE PARA SOFTWARE PARA PERFILES HMMPERFILES HMMHay múltiples paquetes de Hay múltiples paquetes de software que están disponibles software que están disponibles para implementar perfiles HMM:para implementar perfiles HMM:

Page 22: Profile HMMs Perfiles de Modelos ocultos de Markov SONIA JIMÉNEZ GUTIÉRREZ JOSE CARLOS GARCÍA SERRANO I.T.I. SISTEMAS.

La principal diferencia que existe entre La principal diferencia que existe entre ellos es la arquitectura que adoptan:ellos es la arquitectura que adoptan:• Un HMM está

compuesto por una serie de nodos o estados cada uno de los cuales emite símbolos (entre 4 o 20 posibles aminoácidos) con una probabilidad dada.• Los estados están conectados secuencialmente existiendo probabilidades de transición entre ellos. Además existen probabilidades de inserción y borrado.•BLOCKS y META-MEME representan los modelos de motivos, los clásicos HMM .•HMMER2 “Plan7” y ‘profile’ HMM representan la nueva generación de perfiles HMM en SAM, HMMER y PFTOOLS.

Page 23: Profile HMMs Perfiles de Modelos ocultos de Markov SONIA JIMÉNEZ GUTIÉRREZ JOSE CARLOS GARCÍA SERRANO I.T.I. SISTEMAS.

Hay dos modelos diferenciados para el autor:Hay dos modelos diferenciados para el autor:

Modelos de perfilesModelos de perfiles: modelos con estados : modelos con estados de inserción y borrado asociados con cada de inserción y borrado asociados con cada estado encontrado, permitiendo inserciones y estado encontrado, permitiendo inserciones y borrados en la secuencia seleccionada.borrados en la secuencia seleccionada.

Modelos de motivosModelos de motivos:: modelos dominados modelos dominados por cadenas de estados encontrados por cadenas de estados encontrados (modelando bloques sin huecos de secuencias (modelando bloques sin huecos de secuencias consenso), separados por un pequeño número consenso), separados por un pequeño número de estados insertados modelando los espacios de estados insertados modelando los espacios entre los bloques sin huecos.entre los bloques sin huecos.

Page 24: Profile HMMs Perfiles de Modelos ocultos de Markov SONIA JIMÉNEZ GUTIÉRREZ JOSE CARLOS GARCÍA SERRANO I.T.I. SISTEMAS.

SAM, HMMER, PFTOOLS y HMMpro SAM, HMMER, PFTOOLS y HMMpro implementan modelos basados al menos en una implementan modelos basados al menos en una parte en los perfiles originales HMM de Krogh parte en los perfiles originales HMM de Krogh (1994).(1994).

Estos paquetes están argumentados en un Estos paquetes están argumentados en un simple modelo que trata con múltiples simple modelo que trata con múltiples dominios, secuencias alineadas y alineamientos dominios, secuencias alineadas y alineamientos locales.locales.

El alineamiento local o global no es El alineamiento local o global no es necesariamente esencial en el algoritmo, pero necesariamente esencial en el algoritmo, pero esto demuestra que la probabilística es una esto demuestra que la probabilística es una parte del modelo de arquitectura.parte del modelo de arquitectura.

Page 25: Profile HMMs Perfiles de Modelos ocultos de Markov SONIA JIMÉNEZ GUTIÉRREZ JOSE CARLOS GARCÍA SERRANO I.T.I. SISTEMAS.

Programas que utilizan Programas que utilizan HMMHMM

Programa Aplicaciones Sitio HMMER “hammer”

Búsqueda de familias de proteínas a partir de un alineamiento múltiple Emisión de secuencias patrón

http://hmmer.wustl.edu http://bioweb.pasteur.fr/seqanal/motif/hmmer-uk.html

SAM Idem HMMER http://www.cse.ucsc.edu/research/compbio/sam.html Meta-meme

Búsqueda de motivos en alineamientos sin gaps (menos parámetros para ajustar)

http://metameme.sdsc.edu/

HMMPro Programa comercial. Idem HMMER más interface gráfica

http://www.nwtid.com/html/hmmpro.html

Pfam Banco de alineamientos múltiples y HMMs de las familias y dominios proteicos más comunes (5193 flias)

Tipos de Pfam: - Family - Domain - Repetido (en tandem forma dominio) - Motivo (unidad de secuencia corta por fuera de los dominios) http://pfam.wustl.edu/ http://www.sanger.ac.ak/Software/Pfam/index.shtml

Page 26: Profile HMMs Perfiles de Modelos ocultos de Markov SONIA JIMÉNEZ GUTIÉRREZ JOSE CARLOS GARCÍA SERRANO I.T.I. SISTEMAS.

SAM y HMMERSAM y HMMERUsan mezclas Dirichet en muchas Usan mezclas Dirichet en muchas distribuciones para ayudar al numero de distribuciones para ayudar al numero de parámetro libres. Si adoptan el hibrido parámetro libres. Si adoptan el hibrido HMM/neural network techniques esto se HMM/neural network techniques esto se acentúa.acentúa.

HMMER y PFTOOLSHMMER y PFTOOLSSon usados en primer lugar para construir Son usados en primer lugar para construir bases de datos de búsqueda de modelos bases de datos de búsqueda de modelos donde están presentes los alineamientos.donde están presentes los alineamientos.

PROBE, META-MEME y BLOCKSPROBE, META-MEME y BLOCKSAsumen distintos modelos de motivos, los Asumen distintos modelos de motivos, los alineamientos consisten en uno o mas alineamientos consisten en uno o mas bloques sin huecos, separados por secuencias bloques sin huecos, separados por secuencias ‘intervening’ que son asumidas para ser ‘intervening’ que son asumidas para ser aleatorias. PROBE y META-MEME adoptan aleatorias. PROBE y META-MEME adoptan modelos probabilísticos para los huecos.modelos probabilísticos para los huecos.

Page 27: Profile HMMs Perfiles de Modelos ocultos de Markov SONIA JIMÉNEZ GUTIÉRREZ JOSE CARLOS GARCÍA SERRANO I.T.I. SISTEMAS.

GENEWISEGENEWISE

Es una sofisticada aplicación de búsqueda Es una sofisticada aplicación de búsqueda por ventanas que puede tomar un por ventanas que puede tomar un HMMER de modelo de proteína.HMMER de modelo de proteína.

PSI-BLASTPSI-BLAST

No es una aplicación HMM, pero usa los No es una aplicación HMM, pero usa los principios de los modelos probabilísticos principios de los modelos probabilísticos para construir ‘HMM-like models’ para para construir ‘HMM-like models’ para múltiples alineamientos.múltiples alineamientos.

Page 28: Profile HMMs Perfiles de Modelos ocultos de Markov SONIA JIMÉNEZ GUTIÉRREZ JOSE CARLOS GARCÍA SERRANO I.T.I. SISTEMAS.

LIBRERIAS PARA LIBRERIAS PARA PERFILES HMMPERFILES HMM

El software para perfiles HMM esta bien para: El software para perfiles HMM esta bien para: Modelar una secuencia en particular de una familia Modelar una secuencia en particular de una familia

de interés. de interés. Buscar secuencias homologas en una base de datos. Buscar secuencias homologas en una base de datos.

Ahora necesitamos buscar una secuencia simple Ahora necesitamos buscar una secuencia simple en una librería de perfiles HMM.en una librería de perfiles HMM.

Construir una librería requiere un largo número Construir una librería requiere un largo número de múltiples alineamientos de comunes de múltiples alineamientos de comunes dominios.dominios.

Page 29: Profile HMMs Perfiles de Modelos ocultos de Markov SONIA JIMÉNEZ GUTIÉRREZ JOSE CARLOS GARCÍA SERRANO I.T.I. SISTEMAS.

Dos largas colecciones de perfiles HMMs están Dos largas colecciones de perfiles HMMs están disponibles:disponibles: Pfam Pfam

PROSITEPROSITE

Ambas bases de datos están disponibles en la Ambas bases de datos están disponibles en la web:web:

Page 30: Profile HMMs Perfiles de Modelos ocultos de Markov SONIA JIMÉNEZ GUTIÉRREZ JOSE CARLOS GARCÍA SERRANO I.T.I. SISTEMAS.

PfamPfam

Es una base de datos compuesta por los Es una base de datos compuesta por los perfiles HMMs obtenidos para distintos perfiles HMMs obtenidos para distintos dominios o regiones conservadas de proteínas.dominios o regiones conservadas de proteínas.

Contiene múltiples alineamientos de proteínas Contiene múltiples alineamientos de proteínas y perfiles-HMMs de esas familias de proteínas. y perfiles-HMMs de esas familias de proteínas. Es una base de datos semiautomática, cuyo Es una base de datos semiautomática, cuyo objetivo es ser completa y exacta.objetivo es ser completa y exacta.

PROSITEPROSITE

Es una base de datos que contiene Es una base de datos que contiene información detallada sobre todos los motivos información detallada sobre todos los motivos de secuencia de proteína conocidos. Los de secuencia de proteína conocidos. Los motivos son descritos mediante patrones motivos son descritos mediante patrones regulares. regulares.

Page 31: Profile HMMs Perfiles de Modelos ocultos de Markov SONIA JIMÉNEZ GUTIÉRREZ JOSE CARLOS GARCÍA SERRANO I.T.I. SISTEMAS.

PROSITE contiene perfiles para 290 dominios PROSITE contiene perfiles para 290 dominios de proteínas, y Pfam contiene 1313. de proteínas, y Pfam contiene 1313.

Hay muchas discusiones sobre el número de Hay muchas discusiones sobre el número de familias de proteínas que hay, el número de familias de proteínas que hay, el número de 1000 fue citado en alguna ocasión, otros 1000 fue citado en alguna ocasión, otros defienden que todas las familias tienen defienden que todas las familias tienen aproximadamente el mismo número.aproximadamente el mismo número.

Ninguno de estos servidores de perfiles están Ninguno de estos servidores de perfiles están maduros, ambas bases de datos para perfiles maduros, ambas bases de datos para perfiles software están rápidamente cambiando.software están rápidamente cambiando.

Page 32: Profile HMMs Perfiles de Modelos ocultos de Markov SONIA JIMÉNEZ GUTIÉRREZ JOSE CARLOS GARCÍA SERRANO I.T.I. SISTEMAS.

BLOCKS BLOCKS Base de datos compuesta por perfiles HMMs Base de datos compuesta por perfiles HMMs

obtenidos para distintos dominios o regiones obtenidos para distintos dominios o regiones conservadas en las proteínas. El método conservadas en las proteínas. El método HMMs también es utilizado Es una base de HMMs también es utilizado Es una base de datos compuesta por pequeños segmentos de datos compuesta por pequeños segmentos de alineamientos múltiples correspondientes a alineamientos múltiples correspondientes a entradas en PROSITE. De hecho BLOCKS es entradas en PROSITE. De hecho BLOCKS es un sistema de detección de motivos más que un sistema de detección de motivos más que una base de datos propiamente dicha.una base de datos propiamente dicha.

PRODOMPRODOMEs una BD de dominios de proteínas generado Es una BD de dominios de proteínas generado automáticamente desde SWISS-PROT y automáticamente desde SWISS-PROT y TrEMBL, consiste en una compilación TrEMBL, consiste en una compilación automática de dominios homólogos. Construido automática de dominios homólogos. Construido utilizando un procedimiento mejorado basado utilizando un procedimiento mejorado basado en PSI-BLAST.en PSI-BLAST.

Page 33: Profile HMMs Perfiles de Modelos ocultos de Markov SONIA JIMÉNEZ GUTIÉRREZ JOSE CARLOS GARCÍA SERRANO I.T.I. SISTEMAS.

PRINTSPRINTSLa base de datos PRINTS es similar en concepto, pero se usa para descargar bloques llamados "huellas dactilares", fingerprints. Ha sido recientemente incluido como un servicio on-line de BLAST y un software de búsqueda, proporcionando mayor eficacia y mejora estadística para la estimación de la seguridad de las parejas recuperadas. Es un grupo de motivos conservados para caracterizar una familia de proteínas.

Page 34: Profile HMMs Perfiles de Modelos ocultos de Markov SONIA JIMÉNEZ GUTIÉRREZ JOSE CARLOS GARCÍA SERRANO I.T.I. SISTEMAS.

HMMs PARA HMMs PARA RECONOCIMIENTO DE RECONOCIMIENTO DE

PLIEGUESPLIEGUESLos scores de los perfiles son calculados con Los scores de los perfiles son calculados con

estructuras de datos en lugar de secuencias. estructuras de datos en lugar de secuencias. Ej. ‘3D/1D profiles’.Ej. ‘3D/1D profiles’.

Di Francesco usó perfiles HMM para modelar Di Francesco usó perfiles HMM para modelar la segunda estructura de secuencias, la segunda estructura de secuencias, modificando el SAM code para emitir un modificando el SAM code para emitir un alfabeto de estructura secundaria de alfabeto de estructura secundaria de proteína. proteína.

¿Como puede HMM asumir su posición de ¿Como puede HMM asumir su posición de independiente y esperar ser un modelo independiente y esperar ser un modelo realista de estructura de proteína?realista de estructura de proteína?

Page 35: Profile HMMs Perfiles de Modelos ocultos de Markov SONIA JIMÉNEZ GUTIÉRREZ JOSE CARLOS GARCÍA SERRANO I.T.I. SISTEMAS.

Algunos métodos de reconocimiento utilizan Algunos métodos de reconocimiento utilizan algoritmos de programación dinámica, que son algoritmos de programación dinámica, que son usados para encontrar la secuencia/estructura usados para encontrar la secuencia/estructura optima alineada.optima alineada.

La sección de reconocimiento de CASP (Current La sección de reconocimiento de CASP (Current Assement of Struccture Prediction) es uno de Assement of Struccture Prediction) es uno de los mas interesantes métodos de los mas interesantes métodos de reconocimiento de cómo HMMs se desarrollan.reconocimiento de cómo HMMs se desarrollan.

En CASP las secuencias de proteínas son En CASP las secuencias de proteínas son solventadas a través de criptografía o NMR, solventadas a través de criptografía o NMR, que esta disponible para grupos que esta disponible para grupos computacionales de predicción de estructuras.computacionales de predicción de estructuras.

Page 36: Profile HMMs Perfiles de Modelos ocultos de Markov SONIA JIMÉNEZ GUTIÉRREZ JOSE CARLOS GARCÍA SERRANO I.T.I. SISTEMAS.

CONCLUSIÓNCONCLUSIÓN El proyecto del genoma humano amenaza con El proyecto del genoma humano amenaza con

abrumarnos en un diluvio de secuencias de datos.abrumarnos en un diluvio de secuencias de datos. Las populares anotaciones de largas secuencias Las populares anotaciones de largas secuencias

son muy difíciles para muchas personas.son muy difíciles para muchas personas. El desarrollo de métodos robustos para El desarrollo de métodos robustos para

automatizar la clasificación y anotación de automatizar la clasificación y anotación de secuencias es imperativo.secuencias es imperativo.

Surge la esperanza de que desarrollando Surge la esperanza de que desarrollando métodos de perfiles HMM, se pueda suministrar métodos de perfiles HMM, se pueda suministrar una segunda lista de éstos que sean sólidos, una segunda lista de éstos que sean sólidos, sensatos y estadísticamente basados en sensatos y estadísticamente basados en herramientas de análisis, que completen los herramientas de análisis, que completen los análisis BLAST y FASTA.análisis BLAST y FASTA.

Page 37: Profile HMMs Perfiles de Modelos ocultos de Markov SONIA JIMÉNEZ GUTIÉRREZ JOSE CARLOS GARCÍA SERRANO I.T.I. SISTEMAS.

La combinación del poder del software HMM y las largas secuencias alineadas en bases de datos para conservar dominios de proteínas, debería de hacer de esta esperanza una realidad.

Los modelos ocultos de Markov (HMM) proporcionan una herramienta para la modelización de secuencias de ADN, ARN y proteínas, el descubrimiento de zonas de secuencias cuyas propiedades estadísticas son distintas a las esperadas por azar (background) como es el caso de posibles genes y actualmente están empezando a ser utilizados para modelización de estructuras tridimensionales.

Page 38: Profile HMMs Perfiles de Modelos ocultos de Markov SONIA JIMÉNEZ GUTIÉRREZ JOSE CARLOS GARCÍA SERRANO I.T.I. SISTEMAS.

Computacionalmente tienen un costo aceptable, O(MT), comparados con los algoritmos de búsqueda y alineación (múltiple) y una potencia ya comprobada en toda la teoría de procesamiento del habla. Existen algoritmos de entrenamiento para los HMM como Viterbi y Baum-Welch, ampliamente utilizados que convergen en aproximadamente 10 a 15 iteraciones para la modelización de proteínas o ADN. También es posible encontrar paquetes públicos para la aplicación de HMM y bases de datos de profile HMM como Pfam.