Change-Point Detection Techniques for Piecewise Locally Stationary Time Series
Change-point detection
description
Transcript of Change-point detection
Change-point detection
Machine Learning Group
25 de febrero de 2013
Outline
Introducción: Concepto, ejemplos …
www.changepoint.info
Formulaciones clásicas
Formulaciones bayesianas
Formulaciones “en-línea”
Conclusiones
Introducción
Definición de changepoint: “An instance in time where statistical properties before and after this point differ”
Introducción (II)
El primer método apareció en la literatura estadística en la década de los 50 (Page et al., 54). De hecho, gran cantidad de métodos se han propuesto en este ámbito desde entonces
Durante las dos últimas décadas se han sumado contribuciones en el ámbito del aprendizaje máquina, incluyendo aportaciones recientes de tipo bayesiano
Otros nombres: segmentación, “structural breaks”, “break points”, “regime switching”, “detecting disorder”
Numerosas aplicaciones:
En el ámbito de la climatología
Biomédicas: segmentación de DNA, análisis de EEG, etc
Control
Análisis de tráfico en redes
Finanzas
…
Taxonomía
Changepoint detection
Retrospective Segmentation
(Batch)
Causal Segmentation
(On-line)
Onepoint vs Multipoint
Control charts
Formulaciones clásicas
Formulaciones frecuentistas (paramétricas o no)
Formulaciones de tipo bayesianoMultipoint
Detección de novedad (preferibles métodos incrementales y baratos)
Bayesian online changepoint detection
Objetivo de la sesión
Para el caso “batch” estudiaremos dos artículos “review”; uno con aproximaciones clásicas y otro con aproximaciones bayesianas
Para el caso “online” revisaremos un método propio y otro reciente de tipo bayesiano
Presentaremos algunos ejemplos ilustrativos de estas técnicas:
www.changepoint.info
Software
La mayoría de métodos “clásicos” son fácilmente implementables utilizando la toolbox de estadística de Matlab
Numerosos paquetes comerciales disponen de herramientas para changepoint detection, pero en su mayoría son limitados en cuanto al tipo de cambio que se detectan (fundamentalmente desplazamiento de medias)
Existen numerosas toolboxes específicas, la mayoría de ellas disponibles para R. En changepoint.info se recogen 22 diferentes, si bien varias son específicas a ciertas aplicaciones
Segmentación Retrospectiva
Two-phase regression model (Lund and Reeves, 2002)
Al contrario del enfoque del artículo, comenzaremos con el modelo más complejo, que como vemos permite detectar desplazamientos de medias y cambios de tendencias
H0 puede testearse usando un F test:
Valores grandes sugieren que HA es cierta, por lo que si no se conoce la situación del changepoint:
En lugar del índice temporal puede utilizarse una secuencia de referencia xt
Standard normal homogeneity (Reeves et al., 2006)
Para el caso en que únicamente queremos detectar desplazamientos de medias:
Un estadístico suficiente puede obtenerse a partir del cociente de verosimilitudes como:
Una ventaja de estos métodos clásicos es que los umbrales pueden ajustarse según el nivel deseado de certeza
Jerarquía de modelos(Vincent y Gullet, 1999)
Cuando no conocemos el modelo a aplicar, podemos considerar una jerarquía en orden creciente de complejidad:
En cada paso evaluamos la idoneidad del modelo y, en su caso, la verosimilitud de un punto de cambio
Jerarquía de modelos (II)
Una alternativa frecuente para seleccionar el modelo más adecuado de una jerarquía es utilizar un criterio de verosimilitud penalizado
El inconveniente es el coste computacional, sobre todo cuando no conocemos el valor de c, ya que hay que explorarlo para obtener el mínimo valor del AIC o BIC
Propone distintos métodos basados en modelo, bajo enfoque probabilístico (no necesariamente bayesiano)
Los métodos propuestos están implementados en una de las toolboxes enumeradas anteriormente
Notac:
Ejemplo: Piecewise Linear Regression
El modelo incluye la posibilidad de detectar desplazamientos de medias y cambios de varianza
Permite detectar cambios de tendencia, ya sea respecto del tiempo (con zt = t) o respecto de una señal de referencia
Permite trabajar con señales AR
… i.e., todos los casos de la figura vista al comienzo de la presentación. Pero la selección de z_t indica que ha de fijarse el modelo a priori
Método LRT para un único punto
Existe la posibilidad de penalizar la verosimilitud, pero en caso binario esto supone simplemente un cambio en el umbral del decisor
Enfoque bayesiano para un único punto
Priors de los hiperparámetros
Prior de la existencia de cambio: Pr(M=1)
Prior para la posición del punto de cambio: p(τ)Probabilidades a posteriori:
donde Q(a,b) es la verosimilitud del segmento una vez marginalizados los parámetros (sigmas y betas)
Enfoque bayesiano para un único punto (II)
Si únicamente queremos detectar la existencia de un cambio, tendríamos que marginalizar la posición, y quedaría:
El Factor de Bayes (entre paréntesis) puede utilizarse para detectar el punto en el que es más probable que se produzca el cambio
Los autores comentan que la selección de ψ puede ser bastante crítica. En ausencia de información a priori podríamos ajustarlo con los valores que maximizan la verosimilitud, o bien hacer un tratamiento Bayesiano (más complejo)
Prestaciones
Escenario de cambio de varianza
Promedio sobre 10000 secuencias de longitud 200
Enfoque Bayesiano significativamente mejor, sobre todo para valores intermedios de la varianza del ruido
Motivo: Promedia sobre distintas posiciones en las que puede haberse producido el cambio
Generalización para múltiples puntos
Segmentación binaria: Iterativamente, comenzando con los puntos que maximizan el cociente de verosimilitudes
Búsqueda de segmentos por vecindad: Evaluamos la log-verosimilitud para todos los posibles segmentos, y luego vamos fusionando hasta un máximo de puntos. O(n2)
Minimum Description Length: El número de puntos incrementa el número de parámetros, y por tanto incrementa el valor de la función de coste de log-verosimilitud penalizada
En caso bayesiano hay 2 posibilidades:
Prior sobre el número de puntos + prior sobre su posición condicionada al número de puntos
Prior sobre la longitud de los segmentos. Tiene numerosas ventajas (computacional, robustez a la longitud de la secuencia …)
Segmentación secuencial
(“on-line”)
Changepoint detection basada en detección de novedad
Detección de novedad: identificación de puntos situados en regiones de baja densidad de probabilidad
Existen numerosos métodos, si bien son preferibles aquéllos que pueden ser adaptados según se dispone de nuevas observaciones, sin necesidad de reentrenar
El éxito del método puede depender fuertemente del tipo de parametrización utilizada
Métodos paramétricos: GMM, HMM para datos secuenciales
Métodos no paramétricos: Métodos basados en estimaciones de pdf mediante k-NN o Parzen, “string-matching”, SVMs, etc.
Propone solución recurrente de 1-SVM aplicando el método IR-WLS con ventana de olvido exponencial
Propone método de poda para limitar la complejidad computacional
Compara frente a NORMA, otra implementación generalista para SVM adaptativa basada en descenso por gradiente