Change-point detection

Change-point detection

Machine Learning Group

25 de febrero de 2013

Outline

Introducción: Concepto, ejemplos …

www.changepoint.info

Formulaciones clásicas

Formulaciones bayesianas

Formulaciones “en-línea”

Conclusiones

Introducción

Definición de changepoint: “An instance in time where statistical properties before and after this point differ”

Introducción (II)

El primer método apareció en la literatura estadística en la década de los 50 (Page et al., 54). De hecho, gran cantidad de métodos se han propuesto en este ámbito desde entonces

Durante las dos últimas décadas se han sumado contribuciones en el ámbito del aprendizaje máquina, incluyendo aportaciones recientes de tipo bayesiano

Otros nombres: segmentación, “structural breaks”, “break points”, “regime switching”, “detecting disorder”

Numerosas aplicaciones:

En el ámbito de la climatología

Biomédicas: segmentación de DNA, análisis de EEG, etc

Control

Análisis de tráfico en redes

Finanzas

…

Taxonomía

Changepoint detection

Retrospective Segmentation

(Batch)

Causal Segmentation

(On-line)

Onepoint vs Multipoint

Control charts

Formulaciones clásicas

Formulaciones frecuentistas (paramétricas o no)

Formulaciones de tipo bayesianoMultipoint

Detección de novedad (preferibles métodos incrementales y baratos)

Bayesian online changepoint detection

Objetivo de la sesión

Para el caso “batch” estudiaremos dos artículos “review”; uno con aproximaciones clásicas y otro con aproximaciones bayesianas

Para el caso “online” revisaremos un método propio y otro reciente de tipo bayesiano

Presentaremos algunos ejemplos ilustrativos de estas técnicas:

www.changepoint.info

Software

La mayoría de métodos “clásicos” son fácilmente implementables utilizando la toolbox de estadística de Matlab

Numerosos paquetes comerciales disponen de herramientas para changepoint detection, pero en su mayoría son limitados en cuanto al tipo de cambio que se detectan (fundamentalmente desplazamiento de medias)

Existen numerosas toolboxes específicas, la mayoría de ellas disponibles para R. En changepoint.info se recogen 22 diferentes, si bien varias son específicas a ciertas aplicaciones

Segmentación Retrospectiva

Two-phase regression model (Lund and Reeves, 2002)

Al contrario del enfoque del artículo, comenzaremos con el modelo más complejo, que como vemos permite detectar desplazamientos de medias y cambios de tendencias

H0 puede testearse usando un F test:

Valores grandes sugieren que HA es cierta, por lo que si no se conoce la situación del changepoint:

En lugar del índice temporal puede utilizarse una secuencia de referencia xt

Standard normal homogeneity (Reeves et al., 2006)

Para el caso en que únicamente queremos detectar desplazamientos de medias:

Un estadístico suficiente puede obtenerse a partir del cociente de verosimilitudes como:

Una ventaja de estos métodos clásicos es que los umbrales pueden ajustarse según el nivel deseado de certeza

Jerarquía de modelos(Vincent y Gullet, 1999)

Cuando no conocemos el modelo a aplicar, podemos considerar una jerarquía en orden creciente de complejidad:

En cada paso evaluamos la idoneidad del modelo y, en su caso, la verosimilitud de un punto de cambio

Jerarquía de modelos (II)

Una alternativa frecuente para seleccionar el modelo más adecuado de una jerarquía es utilizar un criterio de verosimilitud penalizado

El inconveniente es el coste computacional, sobre todo cuando no conocemos el valor de c, ya que hay que explorarlo para obtener el mínimo valor del AIC o BIC

Propone distintos métodos basados en modelo, bajo enfoque probabilístico (no necesariamente bayesiano)

Los métodos propuestos están implementados en una de las toolboxes enumeradas anteriormente

Notac:

Ejemplo: Piecewise Linear Regression

El modelo incluye la posibilidad de detectar desplazamientos de medias y cambios de varianza

Permite detectar cambios de tendencia, ya sea respecto del tiempo (con zt = t) o respecto de una señal de referencia

Permite trabajar con señales AR

… i.e., todos los casos de la figura vista al comienzo de la presentación. Pero la selección de z_t indica que ha de fijarse el modelo a priori

Método LRT para un único punto

Existe la posibilidad de penalizar la verosimilitud, pero en caso binario esto supone simplemente un cambio en el umbral del decisor

Enfoque bayesiano para un único punto

Priors de los hiperparámetros

Prior de la existencia de cambio: Pr(M=1)

Prior para la posición del punto de cambio: p(τ)Probabilidades a posteriori:

donde Q(a,b) es la verosimilitud del segmento una vez marginalizados los parámetros (sigmas y betas)

Enfoque bayesiano para un único punto (II)

Si únicamente queremos detectar la existencia de un cambio, tendríamos que marginalizar la posición, y quedaría:

El Factor de Bayes (entre paréntesis) puede utilizarse para detectar el punto en el que es más probable que se produzca el cambio

Los autores comentan que la selección de ψ puede ser bastante crítica. En ausencia de información a priori podríamos ajustarlo con los valores que maximizan la verosimilitud, o bien hacer un tratamiento Bayesiano (más complejo)

Prestaciones

Escenario de cambio de varianza

Promedio sobre 10000 secuencias de longitud 200

Enfoque Bayesiano significativamente mejor, sobre todo para valores intermedios de la varianza del ruido

Motivo: Promedia sobre distintas posiciones en las que puede haberse producido el cambio

Generalización para múltiples puntos

Segmentación binaria: Iterativamente, comenzando con los puntos que maximizan el cociente de verosimilitudes

Búsqueda de segmentos por vecindad: Evaluamos la log-verosimilitud para todos los posibles segmentos, y luego vamos fusionando hasta un máximo de puntos. O(n2)

Minimum Description Length: El número de puntos incrementa el número de parámetros, y por tanto incrementa el valor de la función de coste de log-verosimilitud penalizada

En caso bayesiano hay 2 posibilidades:

Prior sobre el número de puntos + prior sobre su posición condicionada al número de puntos

Prior sobre la longitud de los segmentos. Tiene numerosas ventajas (computacional, robustez a la longitud de la secuencia …)

Segmentación secuencial

(“on-line”)

Changepoint detection basada en detección de novedad

Detección de novedad: identificación de puntos situados en regiones de baja densidad de probabilidad

Existen numerosos métodos, si bien son preferibles aquéllos que pueden ser adaptados según se dispone de nuevas observaciones, sin necesidad de reentrenar

El éxito del método puede depender fuertemente del tipo de parametrización utilizada

Métodos paramétricos: GMM, HMM para datos secuenciales

Métodos no paramétricos: Métodos basados en estimaciones de pdf mediante k-NN o Parzen, “string-matching”, SVMs, etc.

Propone solución recurrente de 1-SVM aplicando el método IR-WLS con ventana de olvido exponencial

Propone método de poda para limitar la complejidad computacional

Compara frente a NORMA, otra implementación generalista para SVM adaptativa basada en descenso por gradiente

Change-point detection

Documents

Transcript of Change-point detection