Series de Tiempo con Valores Atipicos

21
INSTITUTO TECNOLÓGICO Y DE ESTUDIOS SUPERIORES DE MONTERREY CAMPUS MONTERREY SERIES DE TIEMPO MA -140 Prof. Dra. Graciela González Farías Series de Tiempo con Valores Atípicos en Procesos Industriales Eddy Castillo Suriano 797717 Itzali Herrera Carrillo 797922 Cecilia Martínez León 662095 Monterrey, NL. a 1ro. de Diciembre del 2007.

description

Deteccion de valores atipicos en series de tiempo.Descripcion de metodologias de deteccion de valores atipicos en series de tiempo.Ejemplo de aplicacion.

Transcript of Series de Tiempo con Valores Atipicos

INSTITUTO TECNOLÓGICO Y DE ESTUDIOS SUPERIORES DE MONTERREY CAMPUS MONTERREY

SERIES DE TIEMPO MA -140

Prof. Dra. Graciela González Farías

Series de Tiempo con Valores Atípicos en Procesos Industriales

Eddy Castillo Suriano 797717 Itzali Herrera Carrillo 797922 Cecilia Martínez León 662095

Monterrey, NL. a 1ro. de Diciembre del 2007.

MA00-140 SERIES DE TIEMPO

Series de Tiempo con Valores Atípicos en Procesos Industriales

1 de 20

CONTENIDO

INTRODUCCIÓN 2

TIPOS DE VALORES ATÍPICOS 2

TÉCNICAS PARA TRATAR SERIES DE TIEMPO CON VALORES ATÍPICOS 3

MODELOS CON VALORES ATÍPICOS ADITIVOS Y DE INNOVACIÓN 5

DESARROLLO 6

1. ESTIMACIÓN DEL EFECTO DE UN VALOR ATÍPICO CUANDO EL TIEMPO DE LA OBSERVACIÓN ES

CONOCIDA 6

2. DETECCIÓN DE LOS VALORES ATÍPICOS UTILIZANDO UN PROCEDIMIENTO ITERATIVO 8

3. DETECCIÓN DE VALORES ATÍPICOS MEDIANTE LA DISTRIBUCIÓN DE VALORES EXTREMOS 12

4. DETECCIÓN DE VALORES ATÍPICOS EN CONTROL ESTADÍSTICO DE PROCESOS (CEP) 14

CONCLUSIONES 19

BIBLIOGRAFÍA 20

MA00-140 SERIES DE TIEMPO

Series de Tiempo con Valores Atípicos en Procesos Industriales

2 de 20

Introducción

Observaciones extraordinarias e inesperadas que parezcan discordantes con la mayoría de las observaciones de

un conjunto de datos es común encontrarlas en varios tipos de análisis de datos, tal es le caso del análisis de las

series de tiempo. A demás de los posibles errores las observaciones de una serie de tiempo, está sujeta a la

influencia de intervenciones exógenas no repetitivas, por ejemplo las huelgas, cambios repentinos en el mercado,

cambios inesperados de ciertas condiciones de un sistema físico o un proceso industrial, entre otros. A este tipo

de observaciones se les conoce como valores atípicos (outliers)1.

Como consecuencia de los valores atípicos las series de tiempo se ven modificadas y se pueden evaluar dichas

intervenciones en cinco dimensiones2:

1) Cantidad y tipo de valor atípico

2) Punto de la serie de tiempo en el que ocurre el valor atípico

3) Duración de la intervención ocasionada por este valor atípico

4) Cantidad de repeticiones

5) Secuencia de los diferentes tipos de valores atípicos

A partir de estas cinco dimensiones se pueden identificar diferentes estrategias para modelar la serie de tiempo

que incluya la detección de valores atípicos y ajuste del nuevo modelo con dichos valores. El objetivo de este

trabajo es presentar dos de estas estrategias o técnicas utilizando máxima verosimilitud y mediante una

distribución Gumbel. Además, se presentará una propuesta para la obtención de valores atípicos aplicada a un

control estadístico de proceso. Para ello es necesario definir los tipos de valores atípicos que existen y mencionar

los diferentes métodos para analizarlos.

Tipos de valores atípicos

Los valores atípicos se pueden presentar en muchas formas, tales como parches, que afectan el remanente del

registro; picos, que varían la forma y la frecuencia; cambios de nivel, que alteran la frecuencia y la magnitud; y

las disfuncionalidades en la captura de datos3. En la literatura se clasifican estas formas de valores atípicos en 4

categorías: Aditivo (AO), Desplazamiento de nivel (LS), Cambio Temporal (TC) e Innovación (IO)4.

El valor atípico aditivo (AO), es un evento o en la serie de tiempo, el cual no tiene un efecto en la serie de

tiempo excepto en el tiempo en el que ocurre. ttt vxy += , donde las observaciones son etiquetadas como yt,

con yt relacionado al proceso xt y vt representa los valores atípicos. Por lo tanto una serie de tiempo sin valores

atípicos implica que vt=0.

Un valor atípico aditivo en forma gráfica se muestra en la figura 1.

Fig. 1. Valor atípico aditivo con un decaimiento abrupto

MA00-140 SERIES DE TIEMPO

Series de Tiempo con Valores Atípicos en Procesos Industriales

3 de 20

El desplazamiento de nivel (LS) ocurre a través de una función de saltos, el efecto es un cambio permanente en

la serie de tiempo a partir de que ocurre el valor atípico xt y continuando en xt+1, xt+2,…, xn(figura 2).

Fig. 2. Valor atípico LS con un inicio abrupto y un efecto permanente

El valor atípico de innovación (IO) afecta la serie de tiempo después del periodo t donde el valor atípico ocurre.

En IO afecta todos los valores subsecuentes en la serie de tiempo después de que este ocurre de acuerdo a un

proceso ARIMA alterando los impactos εi. Típicamente un valor IO es ocasionado por un factor externo (ver

figura 3).

Fig. 3. Valor atípico IO con un cambio repentino y un decaimiento a un nivel permanente.

El TC es un evento con un impacto inicial que decae exponencialmente de acuerda a un factor δ. (ver figura 4)

Fig. 4. Valor atípico TC con un decaimiento exponencial

En este proyecto nos enfocaremos en valores atípicos aditivos (AO) y de Innovación (IO).

Técnicas para tratar series de tiempo con valores atípicos

La diversidad en técnicas de detección de valores atípicos a primera instancia pudiera parecer abrumadora e

inclusive puede ser tan especializada para un problema en particular de valores atípicos, no obstante existen

técnicas apropiadas para ciertos patrones de comportamiento en valores atípicos. Fox (1972) fue de los primeros

que considero la detección de los valores atípicos en un serie de tiempo, donde existe una correlación entre

observaciones sucesivas, con su metodología el solo puede detectar valores AO e IO sin hacer distinción entre

ellos, así mismo consideró series de tiempo simultaneas en dos casos, cuando la ubicación del valor atípico es

conocida pero el tipo no, y otra cuando ninguna de las dos son conocidas.

MA00-140 SERIES DE TIEMPO

Series de Tiempo con Valores Atípicos en Procesos Industriales

4 de 20

Por ejemplo, el análisis de intervención es una técnica que emplea una variable dummy estructurada que ha sido

propuesta por Box y Tiao (1975) para lidiar con situaciones en donde la causa del valor atípico es conocida y

que además puede causar un efecto especial, similar a la de un valor atípico aditivo, este enfoque asume que el

efecto de la intervención tiene una estructura paramétrica el cuál puede ser conocido o fácilmente estimado3.

Por otro lado, Denby y Martin (1979) investigaron la estimación robusta para un proceso autoregresivo de primer

orden con AI e IO. Abraham y Box (1979) usaron análisis Bayesiano para hacer inferencias con respecto a los

parámetros de un modelo Autoregresivo con posibilidad de presencia de IO en la serie de tiempo. Chernick,

Downing, y Pike (1982) sugirieron que la estrategia para la detección de valores atípicos sea a través de una

función matricial de intervención de las correlaciones estimadas4.

Tres años más tarde Tiao investigó un método para la detección de valores atípicos en procesos autorregresivos

de promedios móviles (ARMA). Posteriormente, Chang, Tiao y Chen (1988) consideraron la estimación de los

parámetros de series de tiempo tomando en cuenta la presencia de AO e IO para procesos autorregresivos

integrados de promedios móviles (ARIMA). Otras consideraciones, como es el problema de múltiples valores

atípicos fueron tratados por Schmid (1986). Por su parte Muirhead (1986) y Abraham junto con Yatawara

(1988) trataron el caso de un solo valor atípico AO e IO pero cuando éste ocurre en un tiempo desconocido4.

Chen continuó trabajando junto con Liu (1993) y juntos también presentaron un método de detección de valores

atípicos para un proceso ARIMA considerando los cuatro tipos de valores atípicos. El enfoque de ellos fue

basado en la estimación conjunta de los parámetros del modelo y en los efectos ocasionados por los valores

atípicos en la serie de tiempo ARIMA. Para probar su método, simularon 500 series de tiempo de 100

observaciones cada una para modelos AR(1), MA(1) e IMA(1,1).

MA00-140 SERIES DE TIEMPO

Series de Tiempo con Valores Atípicos en Procesos Industriales

5 de 20

Modelos con Valores Atípicos Aditivos y de Innovación

Dado un proceso estacionario, sea Zt la serie observada y Xt la serie libre de valores atípicos. Supongamos que

{Xt} sigue un modelo general ARMA(p,q)

( ) ( ) tt aBXB θφ = (1)

Donde ( ) p

pBBB φφφ −−−= K11 y ( ) q

qBBB θθθ −−−= K11 son operadores estacionarios e

invertibles sin factores comunes, y {at} es una secuencia de ruido blanco iid N(0,2aσ ). Un modelo de valor

atípico aditivo (AO) definido como:

=+

≠=

TtX

TtXZ

t

t

t ω (2)

)(

)(

)(

)( T

tt

T

tt

IaB

B

IX

ωφθ

ω

+=

+= (2a)

donde

==

Tt

TtI T

t ,0

,1)(

es una variable indicadora que representa la presencia o ausencia de un valor atípico en el tiempo T.

Un modelo con valor atípico de innovación (OI) es definido como

( ))(

)(

)(

)(

)(

)(

T

tt

T

ttt

IaB

B

IB

BXZ

ωφθ

ωφθ

+=

+=

(3)

Entonces, un valor atípico aditivo afecta sólo al nivel de la T-ésima observación, mientras que un valor atípico

de innovación afecta a todas las observaciones ZT, ZT+1,…, más allá del tiempo T a través de la memoria del

sistema descrita por ).()( BB φθ

De forma más general, una serie de tiempo puede contener varios, digamos k valores atípicos de distintos tipos, y

por tanto se tiene el siguiente modelo general de un modelo con valores atípicos:

( ) t

k

j

T

tjjt XIBZ j += ∑=1

)(νω (4)

cuando tt aB

BX

)(

)(

φθ

= , ( ) 1=Bjν para algún AO y ( ) )()( BBBj φθν = para un IO en el tiempo jTt = .

MA00-140 SERIES DE TIEMPO

Series de Tiempo con Valores Atípicos en Procesos Industriales

6 de 20

Desarrollo

1. Estimación del Efecto de un valor atípico cuando el tiempo de la observación es conocida

Este es el caso más simple cuando T y todos los parámetros del modelo ARMA(p,q) son conocidos. Entonces,

( ) ( )K−−−== 2211

)(

)(BB

B

BB ππ

θφ

π (1.1)

y se define

,)( tt ZBe π= (1.2)

Entonces de (2.a) y (3) de la sección anterior se tiene que

AO: ,)( )(t

T

tt aIBe += ωπ (1.3)

IO: .)(t

T

tt aIe +=ω (1.4)

De (1.4) podemos ver que la información contenida acerca de un IO está contenida en el residual et en el tiempo

T, mientras que la información para un AO está dispersa en la cadena de residuales eT, eT+1, … Esto es, para n

observaciones disponibles el modelo AO de (1.3) puede escribirse de la siguiente forma:

+

=

+

+

+

+

+

+

n

T

T

T

T

n

T

T

T

T

n

T

T

T

T

a

a

a

a

a

a

e

e

e

e

e

e

e

e

e

e

e

M

M

M

M

M

M

2

1

1

1

2

1

1

2

1

1

1 0

ω (1.5)

Sea ATω̂ el estimador de mínimos cuadrados de ω para el modelo AO. Debido a que {at} es ruido blando, de la

teoría de mínimos cuadrados tenemos que:

AO:

2

0

2

1

)(*

τπ

π

πω

T

Tn

j j

Tn

j jTjT

AT

eF

ee

=

−=

∑∑

=

= +)

(1.6)

MA00-140 SERIES DE TIEMPO

Series de Tiempo con Valores Atípicos en Procesos Industriales

7 de 20

donde ( ) ( )Tn

Tn FFFF −−−−−−= ππππ K

2211* , F es el operador de adelanto tal que Fet=et+1 y

∑ −

==

Tn

j j0

2πτ . La varianza del estimador es

[ ]

2

2

4

2

)(*1

)(*)(

τσ

πτ

τπ

ω

a

T

TAT

aFVar

eFVarVar

=

=

=)

(1.7)

De manera similar, sea ITω̂ el estimador de mínimos cuadrados de ω para el modelo IO. Se tiene que:

IO: TIT e=ω̂ (1.8)

y

( ) ( )2

)(

)ˆ(

a

T

T

tTIT aIVareVarVar

σ

ωω

=

+== (1.9)

Entonces, el mejor estimador del efecto de un valor atípico de innovación en el tiempo T es el residual eT,

mientras que el mejor estimador del efecto de un valor atípico aditivo es la combinación lineal de et,et+1,… y en

con el peso dependiente de la estructura del proceso Xt de la serie de tiempo.

Si comparamos las varianzas de ATω̂ y de ITω̂ podemos ver fácilmente que ≤)ˆ( ATVar ω )ˆ( ITVar ω , esto es

222aa στσ ≤ ; y en algunos caso )ˆ( ATVar ω puede ser mucho más pequeña que 2 aσ .

Varias pruebas de hipótesis se pueden definir tales como:

H0: ZT no tiene ni AO ni IO es decir, H0: 0== IOAO ωω

H1: ZT tiene AO es decir, H1: 0≠AOω

H2: ZT tiene IO es decir, H2: 0≠IOω

Los estadísticos de prueba de máxima verosimilitud para AO e IO son:

H1 vs. H0 : aATT σωτλ ˆ,1 = (1.10)

H2 vs. H0 : aITT σωλ ˆ,2 = (1.11)

Bajo la hipótesis nula H0, ambas T2, ,1 y λλ T se distribuyen N(0,1).

MA00-140 SERIES DE TIEMPO

Series de Tiempo con Valores Atípicos en Procesos Industriales

8 de 20

Por otro lado, el método de máxima verosimilitud nos da el siguiente criterio para probar la posibilidad de un AI

o IO en una posición desconocida de la serie Zt.

AO: { }tnt

,1,....1

max λ=

IO: { }tnt

,2,....1

max λ=

2. Detección de los Valores Atípicos Utilizando un Procedimiento Iterativo

Si T es desconocido pero los parámetros de la serie de tiempo son conocidos, entonces se puede proceder a

conocer t2,,1 y λλ t para cada t =1,2,…,n para tomar la decisión basado en los resultados de la muestra. Sin

embargo, en la práctica, los parámetros de la serie de tiempo 2y ,, ajjj σπθφ son por lo general desconocidos y

deben ser estimados. Si se conoce de antemano la existencia de puntos atípicos, entonces los estimadores de los

parámetros pueden estar bastante sesgados. En particular, 2 aσ va a tender a estar sobreestimada.

Chang y Tiao (1983) como se mencionó con anterioridad, propusieron un procedimiento iterativo para detectar y

manejar la situación cuando un número desconocido de AO e IO pueda existir en la serie de tiempo.

Paso 1. Modelar la serie {Zt} bajo el supuesto de la ausencia de valores atípicos. Calcular los residuales del

modelo estimado, es decir,

( )( )

ZtB

B

ZBe tt

θφ

π

=

=

)(ˆˆ

(2.1)

donde ( ) ( )ppBBBB φφφφ ˆˆˆ1ˆ 221 −−−−= K y ( ) ( )qqBBB θθθ ˆˆ1ˆ

1 −−−= K . Sea

∑=

=n

t

ta en 1

22 1σ̂ el estimado inicial de 2

aσ .

Paso 2. Calcular t2, ,1ˆy ˆ λλ t para t = 1, 2, …, n utilizando el modelo estimado. Defina

{ },ˆmaxmaxˆ,ti

itT λλ = (2.2)

donde T denota el tiempo cuando el máximo ocurre. Si CTT >= ,1̂ˆ λλ , donde C es una constante

positiva predeterminada típicamente tomada de algún valor entre 3 y 4. Se recomienda utilizar C=3

para una alta sensibilidad, C=3.5 para sensibilidad media y C=4 para una sensibilidad baja en la

detección de puntos atípicos en la serie con longitud máxima de 200 observaciones.1 Entonces existe

un AO en el tiempo T con su efecto estimado por ATω̂ . Uno puede modificar los datos utilizando la

ecuación (2) de la siguiente forma:

,ˆ~ T

tATtt IZZ ω−= (2.3)

y se definen los nuevos residuales utilizando la ecuación (1.3):

.)(ˆˆˆ~ )(TtATtt IBee πω−= (2.4)

MA00-140 SERIES DE TIEMPO

Series de Tiempo con Valores Atípicos en Procesos Industriales

9 de 20

Si CTT >= ,2̂ˆ λλ , entonces existe un IO en el tiempo T con un efecto estimado ITω̂ . Este efecto

del IO puede ser eliminado mediante la modificación de los datos utilizando la ecuación (3), esto es,

,ˆ)(

)(~ )(TtITtt I

B

BZZ ω

φθ)

)

−= (2.5)

y se definen los nuevos residuales utilizando la ecuación (1.4):

.ˆˆ~ )(TtITtt Iee ω−= (2.6)

Se hace una nueva estimación de 2~aσ a partir de los residuales modificados.

Paso 3. Recalcular t2, ,1ˆy ˆ λλ t a partir de los residuales modificados y 2~

aσ , y repetir paso 2 hasta que todos los

valores atípicos sean identificados. Las estimaciones iniciales de )(Bπ permanecen sin alteraciones.

Paso 4. Asumamos que el Paso 3 ha terminado y se han identificado tentativamente k valores atípicos en los

tiempos T1,T2,… y Tk. Entonces tratemos a estos tiempos como si fueran conocidos, y ahora estimemos

los parámetros de los valores atípicos kωωω ,, 21 K y los parámetros simultáneos utilizando el modelo

( ) t

k

j

T

tjjt aB

BIBZ j

)(

)(

1

)(

φθ

νω += ∑=

(2.7)

donde ( ) 1=Bjν para el AO y ( ) ( ) ( )BBBj φθν = para el IO en el tiempo t = Tj. Esto conlleva a

nuevos residuales:

.ˆ)(

)()(ˆˆ )()1()1(

−= T

tITtt IB

BZBe ω

φθ

π )

)

(2.8)

Un estimador revisado de 2aσ puede ser calculado.

Los pasos 2 al 4 son repetidos hasta que todos los valores atípicos son identificados y sus impactos son

simultáneamente estimados. Entonces, se tiene el siguiente modelo ajustado:

( ) t

k

j

T

tjjt aB

BIBZ j

)(ˆ)(ˆ

ˆ1

)(

φθ

νω += ∑=

(2.9)

donde jω̂ , ( ) ( )ppBBBB φφφφ ˆˆˆ1ˆ 221 −−−−= K y ( ) ( )qqBBB θθθ ˆˆ1ˆ

1 −−−= K son obtenidos de la

iteración final.

MA00-140 SERIES DE TIEMPO

Series de Tiempo con Valores Atípicos en Procesos Industriales

10 de 20

En general, la potencia (probabilidad de detectar o identificar correctamente los valores atípicos) del

procedimiento aumenta cuando el tamaño de la muestra aumenta y decrece cuando el valor crítico de C aumenta.

Para valores atípicos muy grandes, ω= 5σa el procedimiento parece ser aceptable. Las probabilidades de detectar

correctamente valores atípicos con C = 3.5, oscila entre 89.6% a 98.8% para el caso de un solo valor atípico y

entre 79.2% a 95.2% para el caso de dos valores atípicos. Los porcentajes de de la correcta identificación del

tipo de valor atípico está entre 76%-98% excepto para el caso de dos valores atípicos aditivos con n=50. Para

valores atípicos de tamaño mediano, ω= 3σa, el desempeño del procedimiento no es tan bueno. El

procedimiento puede no identificar valores atípicos de forma regular especialmente cuando hay más de un valor

atípico.

Ejemplo

Las observaciones de la serie representa el número de defectos por camión encontrados en la estación de

inspección final de la línea de ensamble de una planta manufacturera de vehículos comerciales. Los datos son

las observaciones de 45 días consecutivos laborales entre Noviembre 4 a Enero 10. La gráfica de la serie sugiere

un proceso estacionario con una media y varianza constante. Se observa de la gráfica ACF que decae

exponencialmente y en la gráfica PACF sólo tiene un pico en el periodo 1, lo que sugiere que la serie es un

AR(1).

Dias

No. de Defectos

0 10 20 30 40

1.0

1.5

2.0

2.5

3.0

3.5

Promedio Diario de Defectos en Manufactura de Camiones

Lag

ACF

0 5 10 15

-0.2

0.0

0.2

0.4

0.6

0.8

1.0

Series : TRUCK$W1

MA00-140 SERIES DE TIEMPO

Series de Tiempo con Valores Atípicos en Procesos Industriales

11 de 20

Lag

Partial ACF

0 5 10 15

-0.2

0.0

0.2

0.4

Series : TRUCK$W1

El modelo resultante es el siguiente con las 45 observaciones:

(1-0.43B) Zt =0.89 + at (2.9)

con 21.0ˆ 2 =aσ . La inspección de los residuales del modelo ajustado sugiere la posible existencia de valores

atípicos. Para mantener la calidad en el proceso, la detección de valores atípicos es una actividad importante en

el control de calidad. En este ejemplo se aplicó el procedimiento iterativo antes descrito y se obtuvo el siguiente

resultado:

DETECCIÓN DE VALORES ATÍPICOS

Iteración Tiempo Tipo

1 36 AO

2 9 IO

3 7 AO

4 4 IO

Entonces se considera el siguiente modelo de valores atípicos:

( ) ( ) ( ) tttttt aB

IB

IIB

IZφφ

ωωφ

ωωθ−

+−

++−

++=1

1

1

1

1

1 )4(4

)7(3

)9(2

)36(10 (2.10)

( )( )B

aIIII ttttt φωωωωθ

−+++++=

1

1)4(4

)9(2

)7(3

)36(10 (2.10a)

De una estimación simultánea de los parámetros de (2.10a) obtenemos:

( )( )

28.01

161.066.099.039.114.1 )9()4()7()36(

BaIIIIZ tttttt −

+−+++= (2.11)

MA00-140 SERIES DE TIEMPO

Series de Tiempo con Valores Atípicos en Procesos Industriales

12 de 20

y 11.0ˆ 2 =aσ . Al comparar 2.11 con 2.9 se observa una reducción del 100% en la estimación de la varianza de

2ˆaσ de 0.21 a 0.11 cuando los efectos de los cuatro valores atípicos son tomados en cuenta. Además, el cambio

en los parámetros autorregresivos es también substancial, decrecen de 0.43 a 0.28. Para el proceso de

producción bajo la perspectiva de control de calidad, uno esperaría que los defectos de la serie ocurran bajo la

modalidad de ruido blanco. Esto ocurriría si se escogiera un valor de C más pequeño y se identificaran más

valores atípicos.

3. Detección de valores atípicos mediante la distribución de valores extremos

Uno de los grandes problemas en las series de tiempo es determinar si una intervención ha ocurrido, las pruebas

para detectar los valores atípicos usadas recientemente son poco analíticas es decir, no siguen una distribución

nula, y dichas pruebas no conducen a niveles de significancia específicos.

Una prueba para valores atípicos aditivos aplicada a series tiempo fue desarrollada por Patrick Chareka, Florance

Matarise, Rolf Turner en el 2005, en dicha prueba encontraron la distribución del estadístico de prueba para

detectar valores atípicos aditivos. La distribución del estadístico de prueba converge a una distribución Gumbel.

En esta sección se mostrará las ideas principales de la prueba y sus conclusiones más relevantes.

Asumiendo que potencialmente hay valores atípicos aditivos en los tiempos t1,t2,…,tk (usualmente desconocidos)

el modelo para la serie de tiempo puede ser escrito como sigue:

t

k

j

tj

tjt XIY += ∑=1

)(ω (3.1)

donde jω son constantes, y los indicadores de la serie están dados por:

==

casootroen

ttsiI

jtj

t 0

1)(

y { }tX es una serie estacionaria con media cero y con varianza 2σ . La prueba sólo aplica cuando { }tX es una

serie de tiempo Gaussiana. Se trata de determinar si hay evidencia de influencias exógenas que hayan sido

introducidas a las observaciones de la serie de tiempo, en otras palabras, se desea probar si existe alguna

innovación aditiva (AO).

Los procedimientos actuales para probar valores atípicos aditivos se basan típicamente en estadísticos que

toman la forma del máximo en valor absoluto de ciertos estimadores, cuya distribución nula no ha sido tratada.

Esta prueba estadística se construye como sigue: Sea nYY ,,1 K la serie de tiempo observada, que se asume que

se modela por (3.1).

MA00-140 SERIES DE TIEMPO

Series de Tiempo con Valores Atípicos en Procesos Industriales

13 de 20

El conjunto ( ) ( )

−−

=)(

)(,,

)(

)(max

2

2

21

211

nS

nYY

nS

nYYT

n

nnn L , (3.2)

donde )(nYt y )(2 nSt son la media y la varianza muestral de la serie observada, con la t-ésima observación

omitida. Puede ser conveniente denotar a

−)(

))((2

2

nS

nYY

t

tt por )(nTt , y por lo tanto

{ })(,),(max 1 nTnTT nn K= .

Bajo la hipótesis nula de un proceso estacionario (i.e. todas las jω en (3.1) son cero) se tiene que:

( ) ( )

−−

≈)(

)(,,

)(

)(max

2

2

2

21

nS

nYY

nS

nYYT nn L (3.3)

donde )(nY y )(2 nS son la media y la varianza muestral usual de la serie observada. Consecuentemente, para

n grande,

( ) ( )

−−

≈2

2

2

21 ,,max

σµ

σµ n

n

YYT L (3.4)

donde µ y 2σ son la media y la varianza usual, respectivamente, del proceso estacionario.

La distribución 21χ esta en el dominio máximo de una distribución Gumbela. Esto es, bajo ciertas condiciones

el proceso { }tY (equivalente a { }tX ) el lado derecho de (3.4), propiamente normalizado, converge en

distribución a la distribución de Gumbel. Las dos aproximaciones, en (3.3) y (3.4) no influyen de manera

importante en el comportamiento límite de nT y por lo tanto el estadístico de prueba

n

nnn

c

dTC

−= (3.5)

converge en distribución a la distribución de Gumbel para ciertos valores de nc y nd . El hecho de que nC se

distribuye aproximadamente Gumbel permite probar la hipótesis nula de la ausencia de valores atípicos aditivos

con un nivel de significancia dado.

Lo visto anteriormente se enuncia en el siguiente teorema:

Teorema 3.1 5. Suponer que { }tY es una serie de tiempo que satisface el modelo de intervención aditivo (3.1) y

que la serie estacionaria con media cero { }tX es Gaussiana, con función de autocovarianza { })(kzγ tal que

0)ln()(lim =∞→

kkzk

γ (Condición de Berman) (3.6)

a La colección de distribuciones, para la cual la función de distribución limite del máximo pertenece a una familia de distribución en particular, se llama máximo dominio de atracción de esa familia.

MA00-140 SERIES DE TIEMPO

Series de Tiempo con Valores Atípicos en Procesos Industriales

14 de 20

y

∑∞

=

∞<1

)(

k

z

k

γ para alguna 10, <≤ δδ (3.7)

Para cualquier realización nYY ,,1 K de esta serie de tiempo, sea nC definido como en la ecuación (3.5) donde

)ln())ln(ln()ln(2 π−−= nndn (3.8)

y 2≡nc . Bajo kjH j ,,1,0:0 K==ω (i.e. tt XY += µ para toda t) el estadístico nC satisface

∞→Λ→ nconformexC D

n )(

donde ( ) ∞<<∞−=Λ−− xexx

e)( denota la distribución de Gumbel y →D significa que converge en

distribución.

Las condiciones (3.6) y (3.7) se satisfacen por una amplia variedad de procesos incluyendo todos los ARMA

estacionarios y todos los procesos estacionarios ARMA integrados fraccionarios. Asimismo, la serie de tiempo

con memoria larga también satisface estas condiciones.

Para comparar la potencia de esta prueba con la prueba de Chang-Tiao, se simularon varios modelos

estacionarios. En cada modelo se consideraron 100 series de 300 observaciones con un sólo valor atípico de

magnitud 3σ correspondiente a la serie evaluada, la posición del valor atípico fue aleatorio. La potencia

alcanzada para la prueba de Chang-Tiao se encontró en un intervalo de 0.27 a 1.00. Mientras que la potencia de

la prueba propuesta por Chareka et al. se encuentra entre 0.25 y 1.00. La tasa de las potencias (prueba de Chang-

Tiao sobre la propuesta aquí) tiene un intervalo cerca de 0.93 a 1.53, con mediana de 1.05 y media de 1.15. Esto

significa que bajo las condiciones simuladas, la prueba de Chang-Tiao tiene una mayor potencia.

4. Detección de valores atípicos en Control Estadístico de Procesos (CEP)

El CEP es una herramienta usada en el monitoreo de procesos en el cual se emplean principalmente cartas

estadísticas de control de procesos. Estas cartas se construyen a través de muestras obtenidas directamente del

proceso, a intervalos regulares de tiempo y su objetivo es la detección de cambios en el comportamiento de la

variable que se está midiendo, que nos indiquen una posible condición fuera de control.

En la práctica este tipo de control tiene varios defectos, entre los que destacan los siguientes:

- El intervalo de tiempo entre una muestra y otra puede ser muy grande comparado con la velocidad a la que

pueden ocurrir los cambios en el proceso.

- Las mediciones, al ser llevadas a cabo por diferentes personas y en muchos casos con diferentes instrumentos,

acumulan los errores de medición de los operadores responsables y de los instrumentos.

MA00-140 SERIES DE TIEMPO

Series de Tiempo con Valores Atípicos en Procesos Industriales

15 de 20

- Es común encontrar cartas de control implementadas en procesos para los cuales no son adecuadas.

- La mayoría de las cartas de control empleadas no toman en cuenta la estructura dinámica del proceso que

genera los datos registrados.

- El tiempo de respuesta ante condiciones fuera de control es lento y en muchas circunstancias la presencia de

uno o más de los problemas ya mencionados lo vuelve aún más lento.

Lo anterior vuelve necesaria la implementación de procedimientos que eliminen o mitiguen de alguna manera

estos problemas, con el propósito no solo de controlar la calidad en un proceso, sino de asegurar un nivel

mínimo de calidad en el mismo.

Un mejor acercamiento al control del proceso estaría dado por la implementación de procedimientos

automatizados de registro y análisis de la información, supervisados regularmente, en los cuales se tome en

cuenta tanto la velocidad de movimiento del proceso (inspección al 100%), como la naturaleza dinámica del

mismo. Esta aproximación elimina los problemas generados por el tiempo de espera para tomar cada muestra,

además de que remueve los errores provocados por los responsables de registrar la información.

CEP desde el punto de vista de los procesos ARMA con valores atípicos aditivos

Supongamos que se está monitoreando un proceso {Nt}, supongamos además que el tiempo entre observaciones

requerido por el proceso es constante en t y que hemos empezado a registrar la información en t=0.

Bajo el supuesto inicial de que el proceso se ha mantenido estable durante un intervalo de tiempo lo

suficientemente largo, podemos ajustar un modelo ARMA(p,q) de la forma:

Nt = φ-1(B) θ(B) Zt = ψ(B)Zt (4.1)

donde se requiere que {Zt} ~ iid N(0,σ2).

Ahora, nuestro supuesto inicial de estabilidad del proceso no nos asegura que esta condición se mantendrá de

esta manera en el futuro; así pues, corremos el riesgo de que se introduzca un impacto generado por alguna

condición externa al proceso, como por ejemplo el desajuste de uno de los mecanismos de operación, la

introducción de un nuevo material en el proceso, una modificación en las especificaciones de diseño no

implementada correctamente, etc.

MA00-140 SERIES DE TIEMPO

Series de Tiempo con Valores Atípicos en Procesos Industriales

16 de 20

Aunque la forma del impacto introducido puede llegar incluso a ser permanente en el proceso observado – de no

ser controlado – , al estar llevando a cabo una inspección al 100% en el proceso podemos estar en condiciones de

detectar cualquier indicio de que algo ha ocurrido y controlarlo. Esto nos permite que de manera razonable

podamos considerar únicamente impactos temporales, como aquellos provocados por valores atípicos aditivos

que pueden ser estudiados a través de un modelo de intervención que considere únicamente una intervención en

el tiempo τ = n, donde n es el tamaño de la serie considerada.

Un modelo de este tipo puede ser expresado como:

yt = = δ-1(B)ω(B) Pt(τ) + Nt = υ(B)Pt(τ) + Nt (4.2)

donde υ(B) es un polinomio de intervención tal que

υ(B)= υ0 + υ1B + υ2B2 + …

y

δ(B) = 1 – δ1B – … – δrBr ,

ω(B) = ω0 – ω1 B – … – ωs Bs

son los polinomios que determinan la forma específica de la intervención a partir de que ésta ocurre.

Además la fución Pt(τ) es una función indicadora que puede ser expresada en la forma

( )

=

=

τt 0

τt 1

τPt (4.3)

Escribamos pues el término de intervención υ(B)Pt(τ) de (4.2) como Xt y además establezcamos τ = n y

t = n+i . Entonces podemos escribir,

( ) 0,1,2...

0

1

P −−=

=

=+ i

oi

oi

nin (4.4)

y entonces

Xn+i = υ(B) Pn+i(n) = ( ) ( )∑∑∞

=

=

−+=−0j

joj

j-j i j P υ i P υ nn nn (4.5)

MA00-140 SERIES DE TIEMPO

Series de Tiempo con Valores Atípicos en Procesos Industriales

17 de 20

En (4.5) podemos ver fácilmente que Pn(n+j-i) ≠ 0 siempre que i=j, o equivalentemente cuando j=0 en el punto

en el que Pn+i(n) ≠ 0 y asi,

Xn = υ0 (4.6)

Resta ahora reescribir a (4.2) usando (4.6) como:

yt = υ0,n + Nt (4.7)

Esta ultima expresión, con la forma para Nt dada por (4.1), nos permite escribir un modelo que considera la

posible existencia de un valor atípico aditivo en la última observación registrada, donde el subíndice n en υ0,n

indica que dicho término toma un valor de 0 en cualquier punto anterior a n.

Recordando nuestra suposición inicial de que los parámetros del proceso que genera la serie observada son

estables hasta la observación n-1, y expresando (4.7) en la forma

υ0,n = yt – Nt (4.8)

podemos probar la hipótesis de que en la n-ésima observación no ha ocurrido ningún impacto. Para hacer esto,

calculamos el mejor predictor lineal a un paso (en error cuadrado medio) para Nn en base a las n-1 observaciones

previas usando un modelo de la forma (4.1) y entonces

nnn0, N̂yυ̂ −= (4.9)

es el mejor estimador lineal del impacto sufrido en la n-ésima observación, en caso de existir.

Box (1976) encontró que el estadístico

2z

2,0

σ

υ Q n= (4.10)

Sigue una distribución Ji-cuadrada con 1 grado de libertad bajo el supuesto de que el modelo ajustado sea

correcto y además {Zt} sean iid N(0,σ2).

MA00-140 SERIES DE TIEMPO

Series de Tiempo con Valores Atípicos en Procesos Industriales

18 de 20

Si el valor de Q es mayor que el valor de χ21 tenemos entonces evidencia suficiente para rechazar la hipótesis de

que la última observación obtenida no constituye un valor atípico en nuestra serie de tiempo y debería procederse

en ese momento a una verificación de las condiciones de operación en el proceso. En caso de verificarse una

condición fuera de control, podemos sustituir el valor observado en la serie con la predicción hecha para t=n y

continuar con el monitoreo. En caso de que la hipótesis no sea rechazada podemos reajustar el modelo hasta la

observación n y esperar a la aparición de una nueva observación en t=n+1 para repetir el proceso.

Desventajas

Suponiendo que la forma del modelo empleado sea correcta y que además conocemos el valor real de los

parámetros, el estadístico Q en (4.10) sigue exactamente una distribución Ji-cuadrada con 1 grado de libertad.

En la práctica lo que hacemos es ajustar el mejor modelo para los datos de la realización disponible, lo que

introduce errores de estimación de los parámetros del modelo ARMA y de la varianza de Zt, en la predicción de

la última observación de la serie.

Lo anterior nos indica que, lo que realmente tenemos, es una aproximación a la distribución en cuestión y hace

que nos preguntemos acerca del tamaño del efecto que tienen los errores de estimación en la detección de

posibles valores atípicos en la serie.

Para tener una idea de esto se realizó una simulación en la cual se generaron 1000 series de tiempo con las

siguientes características:

Parámetros Estructura

1 2 Series Generadas Series con impacto n

AR(2) 0.2 0.7 400 238 100

MA(2) 0.3 0.6 400 161 100

ARMA(1,1) 0.4 0.6 200 189 100

El valor de los parámetros se fijó para todas las series con la misma estructura y luego se introdujo un impacto

aleatorio (con magnitud entre 1 y 3) en la observación número 100 a un número de series seleccionado al azar.

Hecho esto, procedimos a ajustar los parámetros de las series simuladas usando máxima verosimilitud para las

primeras 99 observaciones, para después obtener una predicción para la observación número 100 usando el

modelo ajustado.

Para todos los casos se calculó el estadístico Q y se probó la hipótesis de que no existía un valor atípico en la

última observación de la serie. Una vez hechas todas las pruebas, comparamos el resultado contra el registro de

las series impactadas y pudimos así aproximar el valor de la potencia de la prueba para cada caso. Los resultados

se muestran en la siguiente tabla:

MA00-140 SERIES DE TIEMPO

Series de Tiempo con Valores Atípicos en Procesos Industriales

19 de 20

Modelo Potencia

Autorregresivo 52.10%

Promedio móvil 52.17%

ARMA 57.67%

Como puede verse, la potencia de la prueba se encontró desde un 52.1% para los modelos autorregresivos, hasta

un 57.67% para los modelos ARMA.

Conclusiones

El procedimiento iterativo mostrado en la sección 2 del documento es útil para la estimación de parámetros de

series de tiempo con posibles valores atípicos y puede ser aplicado a cualquier modelo invertible ARMA, aunque

en la literatura también demuestran que aplica a modelos ARIMA. Además, el algoritmo es fácil de interpretar y

de ajustar a situaciones específicas para su aplicación. Por otro lado, con la prueba de este método existe la

desventaja de que no se asocia un valor de significancia específico y en lugar de esto, se utiliza una constante

positiva predeterminada con valores entre 3 y 4.

Con la prueba de distribución de valores extremos, en cambio si se tiene un nivel de significancia asociado a

diferencia de la de Tiao. Sin embargo, Tiao tiene mayor potencia comparado con la prueba escrita por Chareka y

otros.

Por otro lado, la aportación de este trabajo se fundamenta en la distribución del mejor estimador lineal para el

impacto de un valor atípico observado en la serie desarrollada por Box (1976). La detección de un valor atípico

en series de tiempo generado en la línea de un proceso industrial. La importancia de detectar dicha valor en este

ámbito, radica en que un valor atípico representa un defecto generado por el proceso, por lo tanto es crucial que

la detección de un cambio en el proceso y la corrección del efecto exógeno introducido en el modelo sea en el

tiempo en el que éste se presenta.

Finalmente, la potencia de la prueba no resultó ser tan alta, sin embargo un futuro trabajo puede ser la

consideración de alternativas tales como la extensión del periodo de análisis, es decir no limitarlo a que se

considere un valor atípico en la última observación, sino hacer la prueba para un periodo final de 5

observaciones anteriores, por ejemplo. Otra alternativa puede ser emplear el estimador del impacto obtenido

como un estimador preliminar y ajustar a la serie completa por máxima verosimilitud un modelo que considere

los parámetros del proceso más un parámetro que considere el impacto que se está investigando. En el futuro,

estas alternativas deben ser estudiadas a detalle para poder seleccionar la mejor alternativa para la detección de

valores atípicos.

MA00-140 SERIES DE TIEMPO

Series de Tiempo con Valores Atípicos en Procesos Industriales

20 de 20

Bibliografía

1 Ih Chang, George C. Tiao y Chung Chen, Estimation of Time Series Parameters in the Presence of Outliers, Technometrics, Vol. 30, No. 2. (May, 1988), pp. 193-204. 2 Arnau Gras, Diseños de Series Temporales: Técnicas de Análisis, Edicions de la Universitat de Barcelona, España 2001 3 D.R. Brillinger and P.R. Krishnaiah, Time Series un the Frequency Domain, Elsevier Science Publishers B.V., EUA 1983 4 Wright, Y. Hu, Booth, Effectiveness of Joint Estimation When the Outlier Is the Last Observation in an Autocorrelated Short Time Series, Decision Sciences, Volume 30 Number 3, Summer 1999, Printed in the U.S.A. 5 Patrick Chareka, Florance Matarise, Rolf Turner, A test for additive outliers applicable to long-memory time series, Journal of Economic Dynamics & Control 30 (2006) 595-621.