Practical implementation of nonlinear time series methods.docx

64
Practical implementation of nonlinear time series methods: The TISEAN package Se describe la aplicación de los métodos de análisis no lineal de series de tiempo que se basan en el paradigma del caos determinista. Una gran variedad de algoritmos para la representación de datos, predicción, reducción de ruido, la dimensión y la estimación de Lyapunov, y prueba de linealidad se analizan con especial énfasis en las cuestiones de aplicación y la elección de los parámetros. Los programas de computadora que implementan las estrategias resultantes están disponibles al público, como el paquete de software TISEAN. El uso de cada algoritmo se ilustra con una aplicación típica. En cuanto a la formación teórica, que esencialmente se dan referencias a la literatura. El análisis no lineal de series de tiempo se está convirtiendo en una herramienta más y más fiable para el estudio de la dinámica compleja de las mediciones. El concepto de pocas dimensiones, el caos ha demostrado ser fructífero en la comprensión de muchos fenómenos complejos a pesar de que los sistemas naturales muy pocos han demostrado ser determinista lowdimensional en el sentido de la teoría. Con el fin de evaluar la utilidad a largo plazo del enfoque de series temporales no lineales, como inspirado por la teoría del caos, será importante que los métodos correspondientes sean más ampliamente accesibles. En este trabajo, aunque no es un examen adecuado en el análisis no lineal de series de tiempo, trata de hacer una contribución a este proceso mediante la descripción de la aplicación real de los algoritmos, y su uso apropiado. La mayoría de los métodos requieren la elección de ciertos parámetros para cada aplicación de series de tiempo específico. Vamos a tratar de dar orientación a este respecto. El alcance y la selección de los temas de este artículo, así como las opciones de su aplicación, que se han hecho, se corresponden con el contenido de la TISEAN paquete de software que está disponible al público desde http://www.mpipks- dresden.mpg.de/ ~ tisean. De hecho, este documento puede ser visto como un manual de extenderse a los programas de TISEAN. Se llena el vacío entre la documentación técnica y la literatura existente, proporcionando los puntos de entrada para un estudio más exhaustivo de los antecedentes teóricos. I. INTRODUCCIÓN Caos determinista como un concepto fundamental está ya bien establecido y descrito en una rica literatura. El mero hecho de que los sistemas simples deterministas genéricamente un comportamiento temporal complica con la presencia de no linealidad ha influido en el pensamiento y la intuición en muchos campos. Sin embargo, se ha cuestionado si la relevancia de caos para la comprensión de la hora mundial en evolución va más allá de un paradigma puramente filosófico. Por

Transcript of Practical implementation of nonlinear time series methods.docx

Page 1: Practical implementation of nonlinear time series methods.docx

Practical implementation of nonlinear time series methods:The TISEAN package

Se describe la aplicación de los métodos de análisis no lineal de series de tiempo que se basan en el paradigma del caos determinista. Una gran variedad de algoritmos para la representación de datos, predicción, reducción de ruido, la dimensión y la estimación de Lyapunov, y prueba de linealidad se analizan con especial énfasis en las cuestiones de aplicación y la elección de los parámetros. Los programas de computadora que implementan las estrategias resultantes están disponibles al público, como el paquete de software TISEAN. El uso de cada algoritmo se ilustra con una aplicación típica. En cuanto a la formación teórica, que esencialmente se dan referencias a la literatura.

El análisis no lineal de series de tiempo se está convirtiendo en una herramienta más y más fiable para el estudio de la dinámica compleja de las mediciones. El concepto de pocas dimensiones, el caos ha demostrado ser fructífero en la comprensión de muchos fenómenos complejos a pesar de que los sistemas naturales muy pocos han demostrado ser determinista lowdimensional en el sentido de la teoría. Con el fin de evaluar la utilidad a largo plazo del enfoque de series temporales no lineales, como inspirado por la teoría del caos, será importante que los métodos correspondientes sean más ampliamente accesibles. En este trabajo, aunque no es un examen adecuado en el análisis no lineal de series de tiempo, trata de hacer una contribución a este proceso mediante la descripción de la aplicación real de los algoritmos, y su uso apropiado. La mayoría de los métodos requieren la elección de ciertos parámetros para cada aplicación de series de tiempo específico. Vamos a tratar de dar orientación a este respecto. El alcance y la selección de los temas de este artículo, así como las opciones de su aplicación, que se han hecho, se corresponden con el contenido de la TISEAN paquete de software que está disponible al público desde http://www.mpipks-dresden.mpg.de/ ~ tisean. De hecho, este documento puede ser visto como un manual de extenderse a los programas de TISEAN. Se llena el vacío entre la documentación técnica y la literatura existente, proporcionando los puntos de entrada para un estudio más exhaustivo de los antecedentes teóricos.

I. INTRODUCCIÓNCaos determinista como un concepto fundamental está ya bien establecido y descrito en una rica literatura. El mero hecho de que los sistemas simples deterministas genéricamente un comportamiento temporal complica con la presencia de no linealidad ha influido en el pensamiento y la intuición en muchos campos.Sin embargo, se ha cuestionado si la relevancia de caos para la comprensión de la hora mundial en evolución va más allá de un paradigma puramente filosófico. Por lo tanto, mayores esfuerzos de investigación están dedicados a dos preguntas relacionadas. La primera pregunta es si la teoría del caos se puede utilizar para obtener una mejor comprensión e interpretación de observar el comportamiento dinámico complejo. La segunda es si la teoría del caos puede dar una ventaja en la predicción o control de una evolución en el tiempo. Evolución en el tiempo como una propiedad del sistema se puede medir mediante la grabación de la serie de tiempo. Por lo tanto, no lineal, los métodos de series de tiempo será la clave para las respuestas

de las preguntas anteriores. Este documento está destinado a fomentar el uso de tales métodos de exploración de un sector de la comunidad científica que no se limita a los teóricos del caos. Una serie de algoritmos ha sido puesto a disposición en forma de programas de ordenador por el proyecto1 TISEAN Dado que este es un territorio relativamente nuevo, el uso sin guía de los algoritmos tiene un considerable riesgo de interpretación equivocada y los resultados ininteligibles o espurias. En el presente trabajo, las ideas esenciales detrás de los algoritmos se resumen y enlaces a la bibliografía existente se dan. Para evitar la redundancia excesiva, con el Libro2 texto y la reciente revisión, tres de la derivación de los métodos se mantiene al mínimo. Por otro lado, las opciones que se han hecho en la ejecución de los programas se discuten más a fondo, aunque esto puede parecer muy técnico en ocasiones. También se señalan las posibles alternativas a la aplicación TISEAN.Vamos a mencionar en este punto una serie de referencias generales sobre el tema de la dinámica no lineal. A un nivel introductorio, el libro de Kaplan

Page 2: Practical implementation of nonlinear time series methods.docx

y Glass4 está dirigido a un público interdisciplinar y proporciona una buena comprensión intuitiva de los fundamentos de la dinámica. El marco teórico está completamente descrito por Ott, 5, sino también en los libros más antiguos de et Berge 'al.6 y Schuster.7 material más avanzado se encuentra en el trabajo por Katok y Hasselblatt.8 Una colección de artículos de investigación elaborado por Ott et al 9 cubre algunos de los aspectos más prácticos del caos, como la sincronización, el control y análisis de series temporales.El análisis no lineal de series de tiempo basado en este paradigma teórico se describe en dos monografías recientes, uno por uno y por Abarbanel10 Kantz y Schreiber.2 Mientras que el volumen anterior por lo general asume chaoticity, el último libro pone cierto énfasis en las aplicaciones prácticas de series de tiempo que no se manifiestamente encontrado, ni simplemente supone que, determinista caótico. Esta es la razón también vamos a adoptar en el presente documento. Una serie de artículos antiguos se pueden ver como las revisiones, incluyendo Grassberger et al., 11 Abarbanel et al., 12, así como Kugiumtzis et al13, 14 La aplicación del análisis de series temporales no lineales a las medidas del mundo real, donde el determinismo es poco probable que se presente en un sentido más fuerte, se revisa en Schreiber.3 Aparte de estas obras, una serie de actas de congresos volúmenes están dedicados a una serie de tiempo caótica, incluyendo Refs. 15-19.A. Filosofía de la aplicación TISEAN

Un número de personas diferentes se han acreditado para el dicho de que cada pregunta complicada tiene una respuesta sencilla que está mal. El análisis de una serie de tiempo con un enfoque no lineal es definitivamente un problema complicado. Respuestas simples se han ofrecido repetidamente en la literatura, citando a los valores numéricos de las dimensiones atractor para cualquier sistema imaginable. La implementación actual refleja nuestro escepticismo frente a respuestas tan simples que son el resultado inevitable de la utilización de algoritmos de recuadro negro. Así, por ejemplo, ninguno de los programas de dimensión''''en realidad se imprimirá

un número que puede ser citada como la dimensión atractor estimado.En cambio, la suma de correlación se calcula y herramientas básicas se proporcionan para su interpretación. Es hasta el científico que hace el análisis para poner estos resultados en su contexto adecuado e inferir qué información él o ella puede encontrar útil y plausible. Hay que destacar que esto no es simplemente una cuestión de barras de error. Las barras de error no le diga acerca de los errores sistemáticos y tampoco decir si las suposiciones subyacentes son justificadas.El proyecto TISEAN ha surgido de trabajo de los grupos de investigación durante varios años. Algunos de los programas se basan de hecho en el código publicado en la referencia. 2.Sin embargo, todavía nos gusta verlo como un punto de partida más que un paso concluyente. En primer lugar, el análisis no lineal de series de tiempo es aún un campo en rápida evolución, en particular con respecto a las aplicaciones. Esto implica que la selección de los temas de este artículo y la selección de los algoritmos implementados en TISEAN son muy sesgados hacia lo que sabemos ahora y encontró útil hasta ahora. Sin embargo, incluso los conceptos bien establecidos, como la estimación de dimensión y de reducción de ruido dejan un margen considerable de alternativas a la aplicación actual.A veces, esto se tradujo en dos o más programas concurrentes y casi redundante entrar en el paquete. No tenemos eliminados deliberadamente, estos despidos ya que el usuario puede beneficiarse de tener una elección. En cualquier caso, es saludable saber que para la mayoría de los algoritmos de la última palabra no se ha pronunciado aún ni en ser.Mientras que el paquete TISEAN contiene una serie de herramientas para el análisis lineal de series de espectro en tiempo ~, autocorrelaciones, histogramas, etc!, Estos sólo son adecuados para una rápida inspección de los datos. ARMA estimación espectral, o incluso son industrias en sí mismos y nos referimos al lector-y el usuario de TISEAN a la literatura existente y software de las estadísticas disponibles para una óptima y actualizada a la fecha las implementaciones de estos métodos importantes.

Page 3: Practical implementation of nonlinear time series methods.docx

Algunos usuarios se perderá una cómoda interfaz gráfica para los programas. Sentimos que en este punto el esfuerzo implementacionales extra no se justificaría por la funcionalidad que se espera adicional del paquete. Se está trabajando, sin embargo, para proporcionar interfaces de las matemáticas de alto nivel~ O de las estadísticas! software.B. Cuestiones generales de cálculo La base natural de formular algoritmos no lineales de series de tiempo de la teoría del caos es un espacio de fases múltiples dimensiones, en lugar de la hora o el dominio de la frecuencia. Será esencial para la dinámica global en este espacio de fase para ser no lineal con el fin de cumplir con las restricciones de nontriviality y acotación. Sólo en casos particulares, esta estructura no lineal será fácilmente representable por una función no lineal global. En cambio, todas las propiedades se expresan en términos de cantidades locales, a menudo adecuado promedios mundiales. Toda la información local será obtenido de las relaciones de vecindad de varios tipos de elementos de series de tiempo. Por lo tanto, un tema recurrente de cómputo será la de definir los vecindarios locales en el espacio de fase. Encontrar los vecinos en el espacio multidimensional es un problema común de la geometría computacional.Estructuras multidimensionales de árboles son muy utilizados y tienen atractivas propiedades teóricas. Encontrar todos los vecinos en un conjunto de vectores N toma O (log N) operaciones, tanto el conteo total de la operación es O (n log n). Una alternativa rápida es particularmente eficaz para relativamente bajas dimensiones de estructuras incrustadasen espacios multidimensionales está dado por el cuadro con ayuda de métodos vecino de búsqueda que puede empujar a la operación de la cuenta regresiva para O (N) bajo ciertos supuestos. Ambos enfoques se revisan en la referencia. 20, con especial énfasis en las aplicaciones de series de tiempo. En el proyecto TISEAN, un vecino de búsqueda rápida se realiza mediante un enfoque de caja asistida, tal como se describe en la referencia. 2.No importa en qué dimensión del espacio que estamos trabajando, vamos a definir los candidatos

para los vecinos más cercanos en dos dimensiones a través de una red de cajas iguales de tiempo. Con una rejilla de separación e, todos los vecinos de un vector x mayor que Epsilon se encuentra en los cuadros adyacentes. Pero no todos los puntos en los cuadros adyacentes están los vecinos, que pueden ser de hasta 2e de distancia, en dos dimensiones y arbitraria la medida en las dimensiones superiores.La búsqueda de los vecinos es un proceso en dos etapas. En primer lugar, la base de datos de la caja con ayuda tiene que ser llenado y después de cada punto de una lista de vecinos se puede solicitar. Hay unos pocos casos en los que es aconsejable abandonar la estrategia de búsqueda rápida y vecino. Un ejemplo es el programa que hace ruido el ruido no lineal de filtrado en un flujo de datos. Se supone que empezar a filtrar poco tiempo después de los primeros puntos se han registrado.Así, la base de datos del vecino no se puede construir desde el principio. Otra excepción es si ~ bastante corta, 500 puntos, por ejemplo!, De alta dimensión de datos se procesan.A continuación, la sobrecarga de la búsqueda de vecino se debe evitar y en su lugar un optimizado recta O (N2) se utilizará el método, como se hace en c2naive.Para un transporte, todos los programas esperan que los datos de series de tiempo en formato de columnas representadas por números ASCII. La columna que se procesa puede ser especificado en la línea de comandos. Aunque algo inútil para el almacenamiento de datos, números ASCII puede ser producido y leído por la mayoría de los otros programas. Todos los parámetros se pueden ajustar mediante la adición de opciones del comando, que, en muchos programas, cambiando los valores por defecto. Obviamente,depender de la configuración por defecto es particularmente peligroso en un campo tan sutil. Dado que casi todas las rutinas puede leer desde la entrada estándar y escribe en la salida estándar, los programas pueden ser parte de los oleoductos. Por ejemplo, se les puede llamar desde el interior de los filtros de software de gráficos u otras herramientas de software que son capaces de ejecutar comandos de shell. Además, la conversión de datos o la

Page 4: Practical implementation of nonlinear time series methods.docx

compresión se puede hacer sobre la marcha''''de esta manera. El lector se da cuenta de que aquí estamos hablando de las plataformas UNIX o LINUX, que parece ser el ambiente más apropiado.Es, sin embargo, espera que la mayoría de los programas será portado a otros entornos en un futuro próximo.Para los lectores familiarizados con los programas publicados en la referencia. 2 hay que destacar que estos constituyen la base de una serie de estos programas TISEAN escrito en FORTRAN.Los programas de C, incluso si lo hacen cosas similares, son puestas en práctica con bastante independencia. Todos los programas C y C11 ahora utilizan la asignación dinámica de almacenamiento, por ejemplo.II. representación del Espacio de Fase

Sistemas dinámicos deterministas describir la evolución temporal de un sistema en alguna fase del espacio G, R. Que se puede expresar, por ejemplo, por medio de ecuaciones diferenciales ordinarias,x ˙ ~ t! 5F? x ~ t??, ~ 1!o en Dt discretos T5n tiempo por los mapas de la formaxn115f ~ xn!. ~ 2!Una serie de tiempo puede ser considerado como una secuencia de BSERVACIONES $ sn5s (x)% realizado con algún s medición de la función (??). Desde el ~ generalmente escalar! secuencia $% sn en sí mismo no representan adecuadamente el ~ multi-dimensional! espacio de fases del sistema dinámico, es necesario emplear alguna técnica para revelar la estructura multi-dimensional utilizando los datos disponibles.A. Delay Las coordenadas del espacio más importante fase de la técnica de reconstrucción es el método de los retrasos. Vectores en un nuevo espacio, el espacio de inserción, se forman a partir de valores de tiempo de retraso de las mediciones escalares:~ ~ SN5 sn2 m21 t, sn2 ~ m22 t ,..., sn!. ~ 3!El número m de elementos que se llama la dimensión de inserción, el tiempo t es generalmente conocido como el retraso o lag.

Celebrado teoremas incrustación por Takens21 y por Sauer et al.22 estado que si la secuencia% $ sn en efecto, consiste en escalar las mediciones del estado de un sistema dinámico, entonces bajo ciertas suposiciones genericidad, la incorporación de retardo de tiempo ofrece un uno-a- una imagen de la serie original $ x%, siempre y cuando m es lo suficientemente grande.Incrustaciones tiempo de retardo se utilizan en casi todos los métodos descritos en este documento. La implementación es sencilla y no requiere mayor explicación. Si las mediciones de N escalares están disponibles, el número de vectores de incrustación es sólo N2 (m21) t. Esto tiene que tenerse en cuenta para la normalización de las cantidades correctas en promedio. Existe una amplia literatura sobre la elección''óptima''de la incorporación de parámetros m y t. Resulta, sin embargo, que lo que constituye la mejor opción en gran medida depende de la aplicación. Por lo tanto, a discutir la elección de la incorporación de parámetros de vez en cuando junto con otros algoritmos de abajo.Una versión independiente del procedimiento de retardo ~ demora, integrar! es una herramienta importante para la inspección visual de los datos, a pesar de que la visualización se limita a dos dimensiones, o en la mayoría de proyecciones bidimensionales de representaciones en tres dimensiones. Un buen desarrollo ya en dos dimensiones puede dar alguna orientación acerca de una buena elección del tiempo de retardo de dimensiones superiores incrustaciones. Como ejemplo, nos muestran dos diferentes representaciones bidimensionales de coordenadas demora de un ser humano magneto-cardiograma ~ fig. 1!. Tenga en cuenta que nosotros no asumirá ni afirmar que la magneto-~ o electro-! cardiograma es determinista o incluso caótica. Aunque en el caso particular de las grabaciones cardíaca el uso de incrustaciones retraso puede estar motivado teóricamente, de 23 años aquí sólo desea utilizar la técnica de incrustación como una herramienta de visualización.

B. Incorporación de parámetros

Page 5: Practical implementation of nonlinear time series methods.docx

Una opción razonable de la importancia de retrasar las ganancias por el hecho de que siempre tenemos que lidiar con una cantidad finita de datos ruidosos. Tanto ruido y finitud nos impide tener acceso a las escalas de longitud infinitesimal, por lo que la estructura que quieren explotar debe persistir hasta las escalas más largo posible. Dependiendo del tipo de estructura que queremos explorar que tenemos que elegir un intervalo de tiempo adecuado. La más obvia, la demora de la unidad altamente muestra de flujo de datos dará vectores de retardo que están concentradas alrededor de la diagonal en el espacio de inclusión y por lo tanto todas las perpendiculares a la estructura de la diagonal es casi invisible. En la referencia. 24 de la redundancia de términos y la irrelevancia se utilizaron para caracterizar el problema: los retrasos pequeños rendimiento fuertemente correlacionados elementos vectoriales, grandes retrasos conducen a los vectores cuyos componentes son casi ~! correlacionados y los datos son por lo tanto, aparentemente ~! distribuidos al azar en el espacio de inclusión.Un buen número de trabajos han sido publicados en la adecuada elección de la demora y la dimensión de incrustación. Hemos argumentado repeatedly11, 2,3 que una inmersión''''óptima puede-si acaso-sólo se define en relación a un propósito específico para el cual se utiliza la incrustación. Sin embargo, algunas herramientas cuantitativas están disponibles para guiar la elección.La función de autocorrelación habitual ~ Autocor, corr! y el tiempo de demora de información mutua ~ mutuo, así como la inspección visual de las representaciones de retardo con retardos distintos proporcionan información importante sobre los tiempos de retardo razonable, mientras que la estadística de los vecinos falsa ~ falsas más cercano! para obtener una orientación sobre la incorporación de la dimensión adecuada.Una vez más, los parámetros''óptima''no puede ser así establecido, excepto en el contexto de una aplicación específica.1. información mutua

El tiempo de retraso de información mutua fue sugerida por Fraser y Swinney25 como una herramienta para determinar un plazo razonable: A

diferencia de la función de autocorrelación, la información mutua también tiene en cuenta las correlaciones lineales. Uno tiene que calcularS52 (i, jj pi ~ t! Enj pi ~ t!IFP, ~ 4!donde por alguna partición en los números reales pi es la probabilidad depara encontrar un valor de series de tiempo en el intervalo i, y pi j (t) es la probabilidad conjunta de que una observación cae en el intervalo i-ésimo y el tiempo t de observación más tarde cae en el j-ésimo. En teoría, esta expresión no tiene dependencia sistemática del tamaño de los elementos de la partición y se puede calcular con bastante facilidad. Existen buenos argumentos de que si el tiempo de retraso en la información mutua presenta un mínimo inscrito en un determinado valor de t, entonces este es un buen candidato para un periodo de tiempo razonable. Sin embargo, estos argumentos tienen que ser modificados cuando la dimensión de incrustación superior a dos. Además, como se hace totalmente transparente en las siguientes secciones, no todas las aplicaciones funcionan de forma óptima con el mismo plazo. Nuestra rutina mutuo utiliza la ecuación. ~ 4!, Donde el número de cajas de igual tamaño y el tiempo de demora máxima ha de ser suministrado. El algoritmo de adaptación utilizados en la referencia. 25 es más intensivo de datos.Ya que no están realmente interesados en los valores absolutos de la información mutua aquí, sino más bien en el primer mínimo, la aplicación de un mínimo que aquí parece ser suficiente.La información relacionada con la inversión generalizada de orden dos se pueden definir utilizando el concepto de suma correlación ~ Sec. VII, Refs.26, 27!. Una estimación de la entropía de correlación se explica en la sección. VII A.2. Falso vecinos más cercanosUn método para determinar el mínimo suficiente dimensión m incorporación fue propuesta por la perrera y cols.28 Se llama el método de vecino más cercano falsa. La idea es bastante intuitiva.

Page 6: Practical implementation of nonlinear time series methods.docx

Supongamos que la incorporación de la dimensión mínima de una serie determinada de tiempo si es% $ m0. Esto significa que en un espacio de retraso m0 dimensión del atractor reconstruido es una imagen de uno-a-uno de los atractor en el espacio de fase original.En especial, las propiedades topológicas se conservan. Así, los vecinos de un punto determinado se asignan a los vecinos en el espacio de demora. Debido a la suavidad supuesto de la dinámica, los barrios de los puntos se asignan en los barrios de nuevo. Por supuesto, la forma y el diámetro de los barrios se cambia de acuerdo a los exponentes de Lyapunov.Pero supongamos ahora se insertan en un espacio m-dimensional con m, m0. Debido a esta proyección la estructura topológica ya no se conserva. Los puntos se proyectan enbarrios de otros puntos a los que no pertenecen a dimensiones superiores. Estos puntos se llaman los vecinos falsa. Ahora bien, si la dinámica se aplica, estos vecinos falsos no suelen asignarse a la imagen del barrio, pero en otro lugar, de modo que el diámetro promedio de''''se hace muy grande.La idea del algoritmo de falsos más cercana es la siguiente.Para cada punto de sWi en la serie de tiempo para buscar su vecino más cercano sWj en un espacio m-dimensional. Calcular la distancia de SIAi2sWji. Iterar los dos puntos y calcular Ri5usi112s j11uSIAi2sWji. ~ 5!Si Ri supera un determinado umbral heurístico Rt, este punto se marca como uno más cercano falsa neighbor.28 El criterio de que la dimensión de incrustación es lo suficientemente alto es que elfracción de puntos para los que Ri.Rt es cero, o al menos lo suficientemente pequeño. Dos ejemplos se muestran en la figura. 2. Uno de ellos es para el sistema de Lorenz ~ cruces!, Una para el sistema

He'non ~ llenacírculos!, y otro para una serie de tiempo He'non corrompido por el 10% de ruido blanco gaussiano ~ círculos abiertos!. Uno ve claramente que, como era de esperar, M52 es suficiente para el He'non y M53 para el sistema de Lorenz, mientras que la firma no está tan claro en el caso de ruido.La introducción del falso concepto más cercano vecinos y otros instrumentos ad hoc fue en parte una reacción a la constatación de que muchos de los resultados obtenidos para los invariantes genuino,como la dimensión de correlación, se ha debido a las falsas advertencias del procedimiento de estimación. En este último caso, las correlaciones de serie y las pequeñas fluctuaciones de la muestra puede ser fácilmente confundido con el determinismo no lineal. Resulta, sin embargo, que las cantidades ad hoc, básicamente, sufren de los problemas, que lo mismo puede ser curada con las mismas precauciones. La ejecución de falsos más cercano por lo tanto, nos permite especificar una separación mínima temporal de los vecinos válidos.Otro software para el análisis de los falsos vecinos más cercanos se encuentra disponible en forma de código fuente de Kennel.29 O, si usted prefiere pagar por una licencia, de la referencia. 30.C. Los componentes principalesSe ha demostrado en la referencia. 22 que la técnica de incrustación se puede generalizar a una amplia clase de transformaciones suaves aplicados a una incorporación de retardo de tiempo. En particular, sique la temporización coordenadas $% sn, entonces casi toda transformación lineal de rango suficiente de nuevo lleva a una inmersión.Una opción específica de la transformación lineal que se conoce como análisis de componentes principales, la descomposición de valor singular, funciones empíricas ortogonales, la descomposición Karhunen-Loe've, y probablemente otros cuantos nombres. La técnica es bastante utilizado, por ejemplo, para reducir los datos de variables múltiples para un modo más grandes. Hay una gran cantidad de literatura, incluyendo libros de texto como el que por Jolliffe.31 En el contexto del procesamiento de señales no lineales, la técnica ha sido defendida entre otros por Broomhead y King.32

Page 7: Practical implementation of nonlinear time series methods.docx

La idea es introducir un nuevo conjunto de vectores de la base ortonormal al incorporar el espacio de tal manera que las proyecciones sobre un determinado número de estas direcciones preservar la fracción máximade la varianza de los vectores originales. En otras palabras, el error en la toma de la proyección se reduce al mínimo para un número determinado de direcciones. La solución de esta minimización problem31conduce a un problema de valores propios. Las direcciones principales deseado puede ser obtenido como los vectores propios de la matriz de autocovarianza simétrica que se corresponden con los mayores valores propios.El enfoque alternativo y equivalente formalmente a través de la matriz de trayectoria se utiliza en la referencia. 32. Este último es numéricamente más estable, sino que implica la descomposición de valor singularde una matriz de N N3m puntos de datos integrados en las dimensiones m, que puede superar fácilmente los recursos de cómputo para series de tiempo de hasta moderada length.33En casi todos los algoritmos se describen a continuación, simple incrustaciones tiempo de retardo puede ser sustituido por componentes principales.En el proyecto TISEAN ~ rutinas svd, pc!, Los componentes principales sólo se proporcionan como una herramienta de visualización independiente y para el filtrado lineal, véase la sección 34. E II a continuación. En cualquiercaso, primero hay que elegir una inmersión tiempo de retardo inicial y luego una serie de componentes principales para mantenerse. A los efectos de la visualización, la segunda es inmediatamente se limita a dos o tres a lo sumo. Con el fin de aprovechar el efecto promedio de ruido del sistema de componentes principales, es recomendable elegir un plazo mucho más corto queuno para la incorporación de un tiempo de retardo común, mientras que al mismo tiempo que aumenta la dimensión de incrustación. La experimentación se recomienda. La Figura 3 muestra las contribucionesde los dos primeros componentes principales a los

magnetocardiogrammuestra en la figura. 1.D. secciones de Poincaré 'De datos de alta muestra que representa el tiempo continuo de una ecuación diferencial se llama flujo de datos. Se caracterizan por el hecho de que los errores en la dirección tangente a latrayectoria de hacer ni reducir ni aumentar de manera exponencial ~ llamada dirección marginalmente estable! y por lo tanto poseen un exponente de Lyapunov que es cero, ya que cualquier perturbación en este sentido puede ser compensada por un simple cambio de la época. Ya que en muchas de las tareas de análisis de datos este sentido es de interés bajos, se debería optar por eliminarlo. El concepto teórico de hacerlo se llama la sección de Poincaré. Después de haber elegido un hiperplano (m21)-dimensional en la incorporación de m-dimensional ~! espacio, se crea una serie de tiempo comprimido de sólo las intersecciones de la trayectoria de tiempo continuo con este hiperplano en una orientación predefinida.Estos datos son valorados mapa vector tiempo discreto como de datos. Se puede considerar la proyección de estos vectores (m21)-dimensional en los números reales como otra función de medición, por ejemplo ~, mediante el registro del valor de sn sn cuando pasa la superficie de la Poincaré!, Por lo que se puede crear una serie escalar tiempo nuevo si deseable. El programa de Poincaré construye una secuencia de vectores a partir de un flujo similar a escalar el conjunto de datos, si se especifica el hiperplano, la orientación, y los parámetros de inclusión. Las intersecciones de la trayectoria discretamente muestreados con el plano de Poincaré 'se calcula mediante una interpolación de tercer orden ~ ver fig. 4!.La colocación de la superficie de la de Poincaré 'es de gran importancia para la utilidad de los resultados. Una superficie óptima maximiza el número de intersecciones, es decir, reduce al mínimo elintervalos de tiempo entre ellos, si al mismo tiempo, el atractor permanece conectado. Se evita las pruebas y los errores relacionados con que si se define una superficie por el cruce por cero de la derivada temporal de la señal, que es sinónimo de

Page 8: Practical implementation of nonlinear time series methods.docx

recolectar todos los máximos o mínimos de todo, respectivamente. Esto se hace por valores extremos. Sin embargo, este método sufre más de laruido, ya que para los derivados de poca monta ~ es decir, cerca de los extremos! extremos adicionales pueden ser producidos por las perturbaciones.Otro aspecto de la elección de la superficie de la sección es que uno debe tratar de maximizar la varianza de los datos dentro de la sección, ya que su nivel de ruido absoluto es independiente de la sección. Una última observación: Los intervalos de tiempo entre las intersecciones son observables espacio de fase como well36 y los teoremas de la incrustación son por lo tanto válida. Por una serie de tiempo con picos pronunciados, a menudo le gusta estudiar la secuencia de intervalos de tiempo interspike, por ejemplo, en cardiología de la RR-intervalos.Si estos intervalos de tiempo se construyen de una manera para obtener los intervalos de tiempo de un mapa de Poincaré ", que son adecuados para reflejar la estructura determinista ~ si!. Para ver Ref. complicaciones.36.Para que un sistema no autónomo impulsado periódicamente la mejor superficie de la sección se da generalmente por una fase fija del término de conducción, que también se llama una visión estroboscópica.Una vez más la selección de la fase debe estar guiada por la variación de la señal dentro de la sección.E. SVD filtrosHay por lo menos dos razones para aplicar un filtro SVD a datos de series temporales: o, si se está trabajando con el flujo de datos, una forma implícita puede determinar el tiempo de retardo óptimo, o cuando,derivar un mapa estroboscópico de los datos de forma sincrónica muestra de un sistema impulsado periódicamente, se puede utilizar la redundancia para optimizar la relación señal a ruido.Tanto en aplicaciones de las matemáticas es el mismo: se construye la matriz de covarianza de los vectores de datos ~ por ejemplo, en un espacio de tiempo m-dimensional retraso de inserción,J5 Ci ^ sn2m1isn2m1j y 2 ^ ^ y sn2m1i sn2m1j y, ~ 6!

y calcula sus vectores singulares. Entonces uno de los proyectos en los vectores m-dimensional que corresponde a la más grande q singulares valores. Para trabajar con el flujo de datos, q debe ser por lo menos la dimensión correcta incorporación, y considerablemente más grande m ~ por ejemplo, m52q o más grande. El resultado es un vector de valores de series de tiempo, y en la referencia. 22 la relación de estos componentes paraderivados de temporal, por un lado, y componentes de Fourier en el otro lado se discutieron. Si, en el caso de no autónomos, que se quiere comprimir los datos de flujo de datos de los mapas,Q51. En este caso, la redundancia del flujo está implícitamente utilizado para reducir el ruido de los datos del mapa. La SVD rutina puede ser utilizado para ambos propósitos.III. Visualización, no estacionariedadA. parcelas de recurrenciaParcelas de recurrencia son una herramienta útil para identificar la estructura en un conjunto de datos de una manera cualitativamente resueltos en el tiempo. Esto puede ser la intermitencia ~ que se detecta también mediante la inspección directa!,la vecindad temporal de una trayectoria caótica a una órbita inestable periódica, o no estacionariedad. Fueron introducidos en la referencia. 37 e investigados con mucho detalle en la referencia. 38, donde se encuentran muchas pistas sobre cómo interpretar los resultados. Nuestra rutina recurr simplemente escanea la serie de tiempo y marca cada par de índices de tiempo (i, j) con un punto negro, cuyo correspondiente par de vectores de retardo tiene distancia <e. Así, en el (i, j)-plano, los puntos negro indican la cercanía. En una situación de ergódica, los puntos deben cubrir el plano de manera uniforme, en promedio, mientras que la no estacionariedad se manifiesta por una tendencia general de los puntos para estar cerca de la diagonal. Por supuesto, el retorno a una situación dinámica del sistema se encontraba antes se hace evidente por una región de negro lejos de la diagonal.En la figura. 5, una parcela de recurrencia se utiliza para detectar comportamiento transitorio en el comienzo de una grabación más larga.A los efectos de las pruebas fijas, la trama de

Page 9: Practical implementation of nonlinear time series methods.docx

recurrencia no es particularmente sensible a la opción de incrustar. El contraste de las imágenes resultantes pueden ser seleccionados por la distanciae, y el porcentaje de puntos que se deben en realidad a representar. Diversos programas de participación de la representación del color y la cuantificación de las parcelas de recurrencia se presenta en formato ejecutable DOS Webber.40 La interpretación de los patrones a menudo interesantes más allá de la detección y el estudio de la estacionariedad es todavía una cuestión abierta. Para obtener sugerencias para el estudio de las señales no estacionarias ver ref. 3 y referencias que se dan allí.B. El espacio-tiempo de separación de parcelasMientras que la trama muestra los tiempos de recurrencia absoluta, el gráfico de separación espacio-temporal introducida por Provenzale et al.41 se integra a lo largo de paralelos a la diagonal y por lo tanto sólo se muestran los tiempos relativos. Por lo general se dibuja líneas de probabilidad constante por unidad de tiempo de un punto a un e-vecino del punto actual, cuando la distancia es d tiempo t. Esto ayuda a identificar las correlaciones temporales dentro de la serie de tiempo y es relevante para estimar un tiempo de retardo razonable, y, más importante aún, la w Theiler-ventana en la dimensión y el análisis de Lyapunov-ver ~Seg. VII!. , Dijo con otras palabras, muestra qué tan grande la distancia temporal entre los puntos debe ser por lo que podemos asumir que forman muestras independientes de acuerdo con lamedida invariante. La rutina correspondiente del paquete TISEAN es stp, ver fig. 6.IV. PREDICCIÓN NO LINEALA pensar en la previsibilidad de los datos de series de tiempo vale la pena incluso si uno no está interesado en los pronósticos a todos. La previsibilidad es una forma en que las correlaciones entre los datos expresansí mismos. Estas correlaciones pueden ser lineales, no lineales correlaciones, o incluso restricciones deterministas. Cuestiones relacionadas con los pertinentes para las predicciones a aparecer con reducción de ruido y en las pruebas de datos sustitutos, sino también para el cálculo de

exponentes de Lyapunov de datos. La predicción es discutido en la mayoría de las series de tiempo no lineal generalreferencias, en particular, una buena colección de artículos se pueden encontrar en la referencia. 17.A. La validación del modeloAntes de entrar en los métodos, tenemos que discutir la forma de evaluar los resultados. La cantidad más obvia para la cuantificación de la previsibilidad es el error de pronóstico promedio, es decir, la raíz de la media RMS cuadrado ~! desviación de la predicción individual del valor real en el futuro. Si se calcula sobre los valores que también se utilizaron para construir el modelo ~ opara realizar las predicciones!, se llama el error en la muestra. Siempre es aconsejable guardar algunos datos de una prueba fuera de la muestra. Si el error fuera de la muestra es considerablemente mayor que el error en la muestra, los datos son o no estacionarias o se tiene overfitted los datos, es decir, la estructura en forma extraída de las fluctuaciones aleatorias. Un modelo con menos parámetros de entoncesprestar un mejor servicio. En los casos en que la base de datos es pobre, se puede aplicar completa validación cruzada o tomar fuera de una estadística, es decir, uno construye tantos modelos como uno realiza las previsiones, y en cada caso, pasa por alto el punto que se quiere predecir.Por construcción, este método se realiza en los enfoques locales, pero no en los mundiales.La manera más significativa, pero al menos cuantitativa de la validación del modelo es repetir el modelo y comparar esta serie de tiempo de síntesis de los datos experimentales. Uno empieza a formar unaobservó vector retraso como una condición inicial y realiza un pronóstico. Su resultado se combina con todos, pero los últimos componentes del vector inicial a un vector nuevo retraso, y el próximo pronóstico se realiza. Después de iteraciones nm, el vector de retraso con la enésima sólo contiene valores generados por el modelo y las observaciones no más. En cuanto a la predicción de un n-paso, el resultado será terriblemente malo, ya que debido a la dependencia sensible a condiciones iniciales,

Page 10: Practical implementation of nonlinear time series methods.docx

incluso un modelo ideal creará una trayectoria divergente debido a las inexactitudes en la medición de la condición inicial. Sin embargo, para que el modelo sea razonable, el atractor resultante debe ser lo más parecido a los datos observados como sea posible ~ por ejemplo, en una parcela de retraso!, Aunque no es fácil definir la similitud cuantitativa.B. lineal simple predicciónConvencionales sistemas de predicción lineal promedio de todos los lugares en el espacio de fase al extraer las correlaciones que explotan a la previsibilidad. Tong42 promovió una extensión que se adapte a diferentes modelos lineales si el estado actual se encuentra por debajo o por encima de un umbral determinado ~ TAR, modelo de umbral autorregresivos!. Si esperamos más de un componente ligero no lineal que se presente, es preferible hacer la aproximación como local en el espacio de fase como sea posible. Ha habido muchas propuestas similares en la literatura sobre la manera de aprovechar una estructura local, véase, por ejemplo, ref. 43-46. El enfoque más simple es hacer la aproximación local, pero sólo para mantener el orden cero, es decir, la aproximación de las dinámicas a nivel local por una constante. En el paquete se incluye TISEAN como un método robusto y simple: En un espacio de incorporación de demora, todos los vecinos de sn se buscan, si queremos predecir las mediciones en el tiempo n 1k. La previsión es simplementesn1k51uUnu (sjPUns j1k, ~ 7!es decir, la media de los futuros''''de los vecinos. Los errores de pronóstico promedio obtenido con el cero de rutina ~ predecir daría resultados similares! para los datos de salida del láser utilizado en la figura. 4 en función del número k de pasos por delante de las predicciones se hacen se muestra en la fig. 7. También se puede recorrer las predicciones mediante el uso de las series de tiempo como una base de datos.Además de los parámetros de inserción, todo lo que tiene que ser especificado para las predicciones de

orden cero es el tamaño de los barrios.Como el movimiento difusivo por debajo del nivel de ruido no se puede predecir todos modos, tiene sentido para seleccionar los barrios que son al menos tan grande como el nivel de ruido, tal vez dos o tres veces más grande. Por una serie de tiempo bastante limpio, esta pauta podría terminar en los barrios con muy pocos puntos.Por lo tanto, cero también nos permite especificar el número mínimo de vecinos en los que basar las predicciones.Una modificación importante de este método consiste en ampliar el entorno U hasta el infinito, sino introducir un peso depende de la distancia,sn1k5(JÞns j1kw ~ usn2sju!(JÞnw ~ usn2sju!, ~ 8!donde w se llama el núcleo. Para w (z) 5Q (e2z) donde Q esla función escalón de Heaviside, volvemos a la ecuación. ~ 7!.C. Encontrar órbitas periódicas inestablesComo aplicación de una simple predicción lineal del espacio de fase, vamos a discutir un método para localizar órbitas periódicas inestables incrustado en un atractor caótico. Este no es el lugar para examinar los métodos existentes para resolver este problema, algunas referencias include.47-50 El paquete TISEAN contiene una rutina que implementa el requisito de que por un período de la órbita de p $ s ~ n, n51 ,..., p % de un sistema dinámico como la ecuación. ~ 2! que actúan sobre vectores de retardo,s ~n115f ~ s ~ n!, n51 ,..., p, s ~ P11 [s ~ 1. ~ 9!Con unidad de retardo, los vectores de retardo p p contener entradas diferentes escalar, y la ecuación. ~ 9! define una raíz de un sistema de ecuaciones no lineales en p p dimensiones. Búsqueda de raíces multidimensional no es un problema simple. El método estándar de Newton tiene que ser aumentada por los trucos especiales para converger a nivel mundial.Algunos trucos en especial los medios para seleccionar las diferentes soluciones de la ecuación.

Page 11: Practical implementation of nonlinear time series methods.docx

~ 9!, Se implementan en la referencia. 50. Similar a los problemas encontrados en la reducción de ruido no lineal, la solución de la ecuación. ~ 9! exactamente es particularmente problemático, ya que f ~?? es desconocida y debe estimarse a partir de los datos. En la referencia. Soluciones de 49 años, aproximadamente se encuentran realizando una sola iteración del método de Newton para cada punto de la serie temporal disponible. Preferimos buscar una solución de mínimos cuadrados, minimizando(N51p es ~ ~ ~ s n112f n! i2, s ~ P11 [s ~ 1 ~ 10!en su lugar. El upo de rutina utiliza un estándar de Levenberg-Marquardt algoritmo para minimizar ~ 10!. Para ello, es necesario que f ~?? es suave. Por lo tanto, no puede usar el predictor simple no lineal basado en aproximaciones localmente constante y tenemos que utilizar una versión del núcleo suave, la ecuación. ~ 8!, En su lugar.Con w (z) 5exp (2z2/2h2), el ancho de banda del núcleo h determina el grado de suavidad de f ~??!. Está intentando iniciar ella minimización de todos los segmentos de series de tiempo disponibles se producen una serie de falsos mínimos, dependiendo del valor de h. Estos tienen que ser distinguida de las verdaderas soluciones de inspección. Por otro lado, podemos llegar a soluciones de la ecuación. ~ 9! que no son muy visitados en la serie de tiempo en absoluto, una ventaja importante sobre cambio cerca methods.47 Cabe señalar que, en función de h, siempre puede encontrar una buena mínimos de ~ 8!, incluso si no hay solución de la ecuación. ~ 9!, O ni siquiera una dinámica verdaderamente determinista, existe. Así, el hallazgo de órbitas periódicas inestables en sí mismo no es un indicador fuerte del determinismo. Podemos, sin embargo, utilizar la bicicleta o estabilidades lugares como las estadísticas de discriminación en una prueba de linealidad;véase la sección. VIII. Mientras que los propios órbitas se encuentran con bastante facilidad, es sorprendentemente difícil obtener estimaciones fiables de su estabilidad en presencia de ruido. En la UPO, una pequeña perturbación se repite a lo largo de la órbita y el valor propio inestable está determinada por la velocidad de su separación de la órbita periódica.

El usuario de la UPO tiene que especificar la dimensión de inserción, el periodo de ~ que también puede ser más pequeño! y el ancho de banda del núcleo. Por razones de eficiencia, se puede optar por omitir pruebas con puntos muy similares. Las órbitas se cuentan como distintas cuando difieren en una cantidad determinada. La rutina se hallan las órbitas, su valor propio en expansión, y las posibles sub-períodos.La figura 8 muestra la determinación de todo el período de seis órbitas a partir de 1000 se repite el mapa Henon, contaminados por Gauss 10% de ruido blanco.D. localmente predicción lineal

Si hay una buena razón para suponer que la relación sn115f (sn) es cumplido por los datos experimentales en buena aproximación ~ decir, dentro del 5%! para algunos f desconocido y que f es suave, las predicciones pueden ser mejoradas mediante el ajuste de modelos lineales locales. Que puede ser considerado como el local de la expansión de Taylor de las f desconocida, y se determinan fácilmente, reduciendo al mínimos25 (sjPUn~ S j112ansj2bn! 2, ~ 11!con respecto a la AN y BN, donde Un es el e-barrio de sn, con exclusión de sn sí mismo, como antes. Entonces, la predicción essn115ansn1bn. El problema de minimización puede ser resuelto a través de un conjunto de ecuaciones lineales acoplados, un problema estándar de álgebra lineal. Este esquema se aplica en OneStep.Para niveles de ruido moderado y longitudes de series de tiempo que esto puede dar una mejora razonable en cero y predecir.Por otra parte, como se discutió en la Sección. VI, estos mapas lineales son necesarios para el cálculo del espectro de Lyapunov. Una aproximación lineal a nivel local se introdujo en las referencias. 45, 46.Debemos tener en cuenta que la recta de mínimos cuadrados solución de la ecuación.~ 11! no siempre son óptimas y una serie de estrategias disponibles para regularizar el problema de si la matriz se convierte en cuasi-singulares y de eliminar el sesgo debido a los errores en las variables independientes'',''. Estas estrategias tienen en común que cualquier posible mejora se compra con una complicación considerable del

Page 12: Practical implementation of nonlinear time series methods.docx

procedimiento, que requiere ajustes finos de los parámetros. Nos referimos al lector a Refs. 51, 52 para materiales avanzados.En la figura. 9 se muestran las predicciones reiterado de los datos del mapa de Poincaré 'del láser de CO2 ~ fig. 4! en una representación con retraso ~ npaso en dos dimensiones!. Los datos resultantes no sólo tienen la correcta distribución marginal y el espectro de potencia, sino que también forman un esqueleto perfecto del atractor ruido original. Hay de los artefactos debido al ruido y la aspereza de este enfoque, pero hay buenas razones para suponer que la infraestructura de línea, como refleja la fractalidad del sistema no perturbado.Casdagli53 sugirió el uso de modelos locales lineales como una prueba de no linealidad: Se calcula el error de pronóstico promedio como una función del tamaño de la vecindad en la que se lleva a cabo el ajuste de un millones de euros y. Si el óptimo se produce en grandes tamaños barrio, los datos se ~ en este espacio incrustación! mejor descrito por un proceso estocástico lineal, mientras que un nivel óptimo en los tamaños más pequeños apoya la idea de la existencia de una ecuación no lineal casi determinista del movimiento. Este protocolo está implementado en la rutina de ll-ar, ver fig. 10.E. función global se ajustaLos ajustes lineales locales son muy flexibles, pero pueden ir mal en partes del espacio de fase en la que los puntos no abarcan las dimensiones del espacio disponible y que la inversa de la matriz de involucrados en la solución de la minimización no existe. Por otra parte, muy a menudo un gran número de diferentes aplicaciones lineales es poco satisfactorio. Por lo tanto, muchos autores sugieren ajuste global de funciones no lineales a los datos, es decir, para resolvers25 (n? Sn112f p ~ sn?? 2, ~ 12!donde fp es ahora una función no lineal en forma cerrada con parámetros p, con respecto a que la minimización que se hace. Polinomios, funciones de base radial, redes neuronales, polinomios ortogonales, y muchos otros métodos han sido utilizados para este propósito. Los resultados dependen de hasta qué punto el elegido ansatz fp es apropiado para modelar la función no lineal desconocida, y de qué tan bien los datos son deterministas en absoluto.Se incluyeron los RBF rutinas y polinomio en el paquete de TISEAN, donde FP es el modelo de base

radial functions54, 55 y polinomios, de 56 años, respectivamente. La ventaja de estos dos modelos es que los parámetros p producen linealmente en la función f y por lo tanto se puede determinar mediante el álgebra lineal simple, y la solución es única. Ambas características se pierden en los modelos donde los parámetros de entrar en forma no lineal.Con el fin de hacer predicciones globales no lineal, se tiene que suministrar la dimensión de inclusión y retardo de tiempo como de costumbre.Además, para el polinomio orden del polinomio tiene que ser dada. El programa devuelve los coeficientes del modelo. En rbf uno tiene que especificar el número de funciones de base que se distribuirán en los datos. El ancho de las funciones de base radial ~ Lorentzians en nuestro programa! es otro parámetro, pero como la minimización es tan rápido, el programa se ejecuta muchos valores y parámetros de prueba vuelve mejor. La figura 11 muestra el resultado de un ajuste a la serie láser de CO2 de tiempo ~ fig. 4! con funciones de base radial.Si los modelos globales se desean con el fin de inferir la estructura y las propiedades del sistema subyacente, que debe ser probada por la iteración ellos. Los errores de predicción, aunque pequeño en tamaño, podría ser sistemática y por lo tanto rechazar la trayectoria reiterado de la gama, donde los datos originales se encuentran.Puede ser útil para estudiar la dependencia de la magnitud o el signo de los errores de predicción de la posición en el espacio de inserción, ya que los errores sistemáticos se pueden reducir por un modelo diferente. Los modelos globales son atractivos porque con ellos se obtienen expresiones cerradas para la dinámica total. No hay que olvidar, sin embargo, que estos modelos describen el proceso que se observa sólo en las regiones del espacio que han sido visitados por los datos. Fuera de esta área, la forma del modelo depende exclusivamente del ansatz elegido. En particular, los polinomios divergen fuera del rango de los datos y por lo tanto puede ser inestable en la iteración.V. REDUCCIÓN DE RUIDO NO LINEALFiltrado de las señales de los sistemas no lineales requiere el uso de métodos especiales, ya que los filtros habituales lineal espectral o de otro tipo pueden interactuar negativamente con la estructura no lineal.Señales irregulares de las fuentes no lineales muestran los espectros de auténtica banda ancha y

Page 13: Practical implementation of nonlinear time series methods.docx

no hay ninguna justificación para identificar cualquier componente continua en el espectro de ruido. Reducción de ruido no lineales no se basa en la información de frecuencia para definir la diferencia entre señal y ruido. En cambio, la estructura en el espacio de fase reconstruido será explotado.General de las dependencias de serie entre las mediciones de $% sn hará que los vectores de retardo $% sn disponibles para llenar el espacio m-dimensional incrustación de una manera homogénea. Correlación lineal entre las variables de Gauss al azar, por ejemplo, se distribuirán de acuerdo a una distribución gaussiana multivariante anisotrópico. Filtrado lineal geométrica en el espacio de fase busca identificar las direcciones principales de esta distribución y el proyecto sobre ellos, ver Sec. E. II de reducción de ruido no lineal tiene en cuenta que las señales no lineales se forman estructuras curvas en el espacio inmediatamente. En particular, las señales de ruido determinista forma manchada de salida colectores lower dimensional. No lineal del espacio de fases de filtrado busca identificar estructuras y proyectar sobre ellos con el fin de reducir el ruido.Existe una abundante literatura sobre los métodos no lineales de reducción de ruido. Dos artículos de carácter de recurso sean accesibles, uno por Kostelich y Schreiber, de 57 años y uno por Davies.58 Remitimos al lector a estos artículos y otras referencias para la discusión de los enfoques que no se describen en el presente artículo.Aquí quiero concentrarme en dos enfoques que representan la estructura geométrica del espacio de fases de una aproximación local.La primera y más simple, y lo hace con el fin constante, los más sofisticados usos locales subespacios lineales más correcciones de curvatura.A. Reducción de ruido lineal simpleEl más simple algoritmo no lineal de reducción de ruido que conocemos sustituye a la coordenada central de cada vector de incorporación del medio local de esta coordenada. Esto equivale a una aproximación local constante de la dinámica y se basa en el supuesto de que la dinámica es continua.El algoritmo se describe en la referencia. 59, un enfoque similar se propone en la referencia. 43. En una inestable, por ejemplo, sistemas caóticos, es esencial no para sustituir las coordenadas primera y la última incorporación de los vectores en los promedios locales. Debido a la inestabilidad, los errores iniciales en estas coordenadas se magnifican

en lugar de ser promediadas.Este esquema de reducción de ruido se lleva a cabo con bastante facilidad.En primer lugar una inmersión tiene que ser elegido. A excepción de los datos extremadamente muestreadas, es conveniente elegir un retardo de tiempo corto. El programa utiliza siempre perezoso unidad de retardo. La incorporación de la dimensión m se debe elegir algo más alto que el requerido por los teoremas de incrustación. Luego, para cada vector incrustación% $ sn, un entorno Ue (n) se forma en el espacio de fases que contiene todos los puntos $ SN8% de tal manera que isn2sn8i, E. El radio de la e los barrios se debe tomar lo suficientemente grande como para cubrir en la medida de ruido, pero aún más pequeño que un radio de curvatura típica. Estas condiciones no siempre se pueden cumplir al mismo tiempo, en cuyo caso se tiene que repetir el proceso con varias opciones y evaluar cuidadosamente los resultados. Si el nivel de ruido es considerablemente menor que el radio de curvatura típica, los barrios de la radio de 2.3 veces el nivel de ruido dio los mejores resultados con datos artificiales. Para cada vector de coordenadas incorporación SN5 (SN2 (m21) ,..., sn) ~ el tiempo de retardo se ha establecido en la unidad!, Un medio corregidosn2m / 2 se calcula un promedio de más del barrioUe (n):sn2m/251uUe ~n! u (sn8PUe ~n!sn82m / 2. ~ 13!Después de un barrido completo a través de las series de tiempo, todos sn mediciones se sustituyen por los valores corregidos n. s Por supuesto, para el primer y el último (m21) / 2 ~ si m es impar!, Que no se tienen disponibles. La media de corrección puede ser tomado como un radio nuevo barrio para la siguiente iteración. Tenga en cuenta que el entorno de cada punto por lo menos contiene el mismo punto. Si ese es el único miembro, la media, la ecuación. ~ 13!, Es simplemente la medición sin

Page 14: Practical implementation of nonlinear time series methods.docx

corregir y ningún cambio se hace.Así, uno puede realizar de manera segura múltiples iteraciones con valores decrecientes de correo hasta que no haya más cambios realizados.Vamos a ilustrar el uso de este sistema con un ejemplo, una grabación del flujo de aire por la nariz de un ser humano como un indicador de la actividad de respiración. ~ Los datos son parte del conjunto de datos B del concurso de Santa Fe de series de tiempo realizada en 1991-1992, 17 et al.60 Rigney ver una descripción.! El resultado de la simple reducción de ruido no lineal se muestra en la fig. 12.B. Reducción de ruido lineal localmente proyectivaUn método más sofisticado hace uso de la hipótesis de que se compone de los datos medidos de la salida de un sistema dinámico de baja dimensionalidad y de ruido aleatorio o highdimensional. Esto significa que en un espacio de incorporación de forma arbitraria highdimensional la parte determinista de los datos que se encuentran en un colector de baja dimensión, mientras que el efecto del ruido es difundir los datos de este colector. Si suponemos que la amplitud del ruido es suficientemente pequeño, podemos esperar encontrar los datos distribuidos en estrecha colaboración en torno a este colector. La idea de la proyección lineal esquema de reducción de ruido es la identificación de las múltiples y para proyectar los datos en él. Las estrategias descritas aquí se remontan a la ref. 61. Un estudio de casos reales se detalla en la referencia. 62.Supongamos que el sistema dinámico, la ecuación. ~ 1! o la ecuación. ~ 2!, Forman unaq-dimensional M que contiene la trayectoria. De acuerdo con los teoremas de inserción, existe una imagen de uno-a-uno de los atractor en el espacio de inserción, si la dimensión de incrustación es suficientemente alta. Por lo tanto, si la serie de tiempo medido no se corrompieron con el ruido, todos los vectores de la incorporación sn que se encuentran dentro de otro colector de M ~ en el espacio de inclusión. Debido al ruido, esta condición ya no se cumple. La idea del plan de reducción de ruido a nivel local de proyección es que para cada sn existe una Qn corrección, con iQni pequeñas, de tal manera que sn2QnPM ~ y que Qn es ortogonal a M ~. Por supuesto, una proyección para el colector sólo puede ser un concepto razonable si los vectores están integrados en espacios que son de dimensiones más elevadas que el ~ manifoldM. Así tenemos a un exceso de integrar en espacios de dimensión m con mq

La noción de ortogonalidad depende de la métrica utilizada.Intuitivamente uno podría pensar en utilizar la métrica euclidiana.Pero esto no es necesariamente la mejor opción. La razón es que estamos trabajando con los vectores de retardo que contienen información temporal. Así, aunque las partes medias de los dos vectores de retardo están cerca, las partes finales podía estar lejos el uno del otro debido a la influencia de los exponentes de Lyapunov positivos, mientras que las primeras partes podrían diferir debido a los negativos. Por lo tanto, suele ser conveniente para corregir la parte central de vectores de retardo y dejar que las partes exteriores en su mayoría sin cambios, ya que su diferencia no es sólo una consecuencia del ruido, sino también de la propia dinámica. Resulta que para la mayoría de las aplicaciones es suficiente para fijar sólo el primero y el último componente de los vectores de retardo y corregir el resto. Esto se puede expresar en términos de P tensor métrico que se define a be61Pi j5H1: i5j y 1, i, j, m,0: en otro lugar, ~ 14!donde m es la dimensión de los''más''embebido en vectores de retardo.Así que tenemos que resolver el problema de minimización,(I~ QiP21Qi! 5!min, a unos 15!con las limitacionesun i ~ sn2Qn! 1bn i 50, para i5q11 ,..., m ~ 16!yun Pan i j i j 5d, ~ 17!donde el uno i son los vectores normales de M ~ en el punto de sn2Qn.Estas ideas se realizan en el ghkss los programas, proyectos, y el ruido en TISEAN. Mientras los dos primeros trabajos como filtros a posteriori en conjuntos de datos completos, el último puede ser utilizado en un flujo de datos. Esto significa que es posible hacer las correcciones en línea, mientras que los datos provienen de ~ Para más detalles, véase la sección. VC!. Los tres algoritmos mencionados anteriormente corregir los efectos de la curvatura. Esto se hace por cualquiera de las correcciones de post-procesamiento de los vectores de retardo ~ ghkss! o pre-procesamiento de los centros de masa de los barrios locales

Page 15: Practical implementation of nonlinear time series methods.docx

Proyecto ~!.La idea de utilizar en el programa ghkss es la siguiente.Supongamos que el colector fuera estrictamente lineal. Entonces, siempre y cuando el ruido es blanco, las correcciones en las proximidades de un punto en el colector sería el punto en todas las direcciones con igual probabilidad.Por lo tanto, si sumamos todas las correcciones Q esperamos que suman cero o ^ ~ Q & 5O). Por otro lado, si themanifold es curva, esperamos que haya una tendencia hacia el centro de curvatura (^ Q & 5Qav). Por lo tanto, para corregir esta tendencia cada corrección Q se sustituye por Q2Qav.Una estrategia diferente se usa en el proyecto de programa.Las proyecciones se realizan en un sistema de coordenadas locales, que se define por la condición de que el promedio de los vectores en el barrio es cero. O, en otras palabras, el origen de los sistemas de coordenadas es el centro de masa ^ sn & U del barrio de U. Este centro de masa tiene un sesgo hacia el centro de la curvature.2 Por lo tanto, una proyección no se encuentran en la tangente en el colector, pero en una secante. Ahora podemoscalcular el centro de masa de estos puntos en el barrio de sn. Llamémoslo ^ ^ sn & & U. Bajo supuestos bastante leve este punto tiene el doble de la distancia desde el colector de sn ^ & U. Para corregir el sesgo es establecer el origen del sistema de coordenadas locales, hasta el punto: ^ ^ sn & & ^ sn U22 y U.La implementación y el uso de la reducción del ruido a nivel local se dio cuenta proyectiva como en el proyecto y ghkss se describe en detalle en las referencias. 61, 62. Recordemos aquí los parámetros más importantes que se deben establecer de forma individual para cada serie temporal. La incorporación de parámetros suelen ser elegidos de manera muy diferente de otras aplicaciones desde overembedding considerable puede conducir a un promedio de ruido mejor. Por lo tanto, laEl retraso es de preferencia establecido en la unidad y la incorporación de la dimensión que se elija para proporcionar compatibilidad con incrustar ventanas de longitudes razonables. Sólo para datos de alta sobremuestreo ~ como el magneto-cardiograma, fig. 15, en alrededor de 1000 muestras por ciclo!, Grandes retrasos son necesarios para que una fracción sustancial de un ciclo puede ser cubierta sin la necesidad de trabajar en prohibitivamente altos espacios de dimensión. A continuación, uno

tiene que decidir cuántas dimensiones q para salir de la variedad que supuestamente contenía el atractor. La respuesta depende en parte del propósito del experimento. Proyecciones y no a paso ligero puede ser óptima en el sentido de la menor desviación residual de la señal verdadera. Bajo error RMS puede, sin embargo, coexisten con las distorsiones de la estructura sistemática de atracción. Así, para un cálculo de la dimensión posterior, una opción más conservadora sería el fin. Recuerde, sin embargo, que los puntos sólo se movió hacia, pero no sobre el subespacio locales lineales y un valor muy bajo de q no hace tanto daño como se puede pensar.La amplitud de ruido que se retira puede ser seleccionado en alguna medida por la elección del tamaño de la vecindad. De hecho, no lineal, el filtrado de proyección se puede ver de forma independiente del fondo de los sistemas dinámicos como el filtrado por la amplitud en lugar de por la frecuencia o la forma. Para permitir una clara separación de ruido y las direcciones de la señal a nivel local, los barrios deben ser al menos tan grande como el nivel de ruido se supone, bastante más grande. Esto, por supuesto compite con efectos de curvatura. Para los pequeños niveles de ruido inicial, se recomienda también para especificar un número mínimo de vecinos a fin de permitir linearizaciones estable.Por último, cabe señalar que en los casos más exitosos de la filtración se realiza dentro de los primeros uno a tres iteraciones. Yendo más lejos, es potencialmente peligrosa ya que puede inducir a las correcciones, principalmente a la distorsión. Hay que ver la corrección eficaz en cada iteración, y finaliza en el momento en que no disminuya sustancialmente más.Como ejemplo de reducción de ruido no lineal en que tratamos a los datos obtenidos a partir de una RMN láser experiment.63 ampliaciones de las representaciones de demora de dos dimensiones de los datos se muestran en la figura. 13. El panel superior muestra los datos en bruto experimental que contiene alrededor de 1,1% del ruido. En el panel inferior se produjo mediante la aplicación de tres iteraciones del sistema de reducción de ruido. Incorporación de la dimensión se m57, los vectores se proyecta a dos dimensiones. El tamaño de los barrios fueron elegidos de tal manera que al menos 50 vecinos se encontraron. Uno ve claramente que la estructura fractal del atractor se resuelve bastante bien.

Page 16: Practical implementation of nonlinear time series methods.docx

La premisa principal de este algoritmo para el trabajo es que los datos están bien aproximada por un colector de baja dimensión.Si esto no es el caso, es impredecible lo que los resultados son creados por el algoritmo. En ausencia de un colector real, el algoritmo tiene que recoger las fluctuaciones estadísticas y falsamente las interpreta como estructura. La figura 14 muestra el resultado del programa de ghkss puro ruido gaussiano. El panel superior muestra una representación retraso de los datos originales, la inferior muestra el resultado de aplicar el algoritmo durante 10 iteraciones.La estructura creada es puramente artificial y no tiene nada que ver con las estructuras en los datos originales. Esto significa que si se quiere aplicar uno de los algoritmos, uno tiene que estudiar cuidadosamente los resultados. Si los supuestos subyacentes a los algoritmos no se cumplen, en principio, cualquier cosa puede suceder.Hay que señalar, sin embargo, que el rendimiento del propio programa indica el comportamiento de tales espurios. Para los datos que en realidad es bien aproximada por un colector de dimensiones inferiores, las correcciones medio aplicado debe disminuir rápidamente con cada iteración de éxito. Este fue el caso con los datos de RMN de láser y, de hecho, la corrección era tan pequeño después de tres iteraciones que se detuvo el procedimiento. Para los datos de ruido blanco, la corrección sólo se redujo a una tasa que corresponde a una reducción general del conjunto de puntos, lo que indica una falta de convergencia hacia una verdadera baja dimensionalidad múltiple. A continuación, vamos a dar un ejemplo donde un colector de aproximación se presente sin el determinismo puro. En ese caso, la proyección sobre el colector se reduce el ruido de una manera razonable. Ver ref. 64 para el material sobre los peligros de la filtración geométrica.C. no lineal de reducción de ruido en un flujo de datos en la ref. 65, una serie de modificaciones del procedimiento anterior se han discutido, que permiten el uso de filtros no lineales de proyección en un flujo de datos. En este caso, los puntos sólo en el pasado están disponibles para la formación de barrios.Por lo tanto, la estrategia de búsqueda vecino tiene que ser modificada. Dado que el algoritmo se describe en detalle en la referencia.65, sólo dar un ejemplo de su uso aquí. La figura 15 muestra el resultado de la reducción de ruido no lineal en un magnetocardiogram ~ ver Figs. 1 y 3!

con el ruido del programa.El mismo programa también se ha utilizado con éxito para el Xtraction del feto ECG.66VI. Lyapunov EXPONENTESEl caos surge del crecimiento exponencial de las perturbaciones infinitesimales, junto con los mecanismos mundiales de plegado para garantizar la acotación de las soluciones. Esta inestabilidad exponencial se caracteriza por el espectro de Lyapunov exponents.67 Si uno asume una descomposición local del espacio de fases en las direcciones con diferentes tipos de estiramiento o contracción, entonces el espectro de los exponentes es el medio adecuado de estos tipos de locales en todo el conjunto invariante , y por lo tanto consiste en que muchos exponentes, ya que hay direcciones del espacio.El problema más importante en el análisis de series de tiempo es que el espacio de fase física es desconocida, y que en lugar del espectro se calcula en un espacio de inclusión. Así, el número de exponentes depende de la reconstrucción, y puede ser mayor que en el espacio de fase física. Como exponentes adicionales se denominan falsos, y hay varias sugerencias para evitar o them68 o para identificarlos. Por otra parte, es posible que sólo como exponentes se puede determinar a partir de una serie de tiempo como está entrando en las curvas de Kaplan Yorke fórmula ~ ver más abajo!. Para dar un ejemplo simple: Considere la posibilidad de movimiento de un sistema de alta dimensión en un ciclo límite estable.Los datos no pueden contener ninguna información sobre la estabilidad de esta órbita frente a las perturbaciones, mientras que están exactamente en el ciclo límite. Para los transeúntes, la situación puede ser diferente, pero los datos no se distribuyen de acuerdo a una medida invariante y los valores numéricos son por lo tanto difíciles de interpretar. Aparte de estas dificultades, hay un aspecto positivo en la materia: los exponentes de Lyapunov son invariantes bajo transformaciones suaves y por lo tanto independiente de la función de medición o el procedimiento de inserción. Ellos llevan una dimensión de un tiempo inverso y tienen que ser normalizados al intervalo de muestreo.A. El exponente máximoEl máximo exponente de Lyapunov se puede determinar sin la construcción explícita de un modelo para la serie temporal. Una caracterización confiable requiere que la independencia de los parámetros de inclusión y la ley exponencial para el crecimiento de las distancias se

Page 17: Practical implementation of nonlinear time series methods.docx

checked69, 70 de manera explícita. Considere la posibilidad de la representación de los datos de series de tiempo como una trayectoria en el espacio de inserción, y se supone que se observa un retorno muy cercano a un SN8 visitado sn punto. Entonces se puede considerar la distancia D05sn2sn8 como una pequeña perturbación, lo que debería crecer de forma exponencial en el tiempo. Su futuro se puede leer en la Dl5sn1l2sn81l de series de tiempo. Si se encuentra que uDlu'D0ell entonces l se ~ con probabilidad uno! el máximo exponente de Lyapunov. En la práctica, habrá fluctuaciones a causa de muchos efectos, que se discuten en detalle en la referencia. 69. Basado en este entendimiento, se puede obtener un estimador robusto consistente e imparcial para el máximo exponente de Lyapunov. Si uno calcula S (e, m, t) muestra un aumento lineal con pendiente idéntica para todos los m más grande que algunos m0 y de un rango razonable de correo, entonces esta pendiente puede ser tomado como una estimación de la máxima exponente de l1.La fórmula se lleva a cabo en las rutinas de lyap-k y Lyapunov de una manera directa. ~ El programa lyap-r implementa el algoritmo muy similar de la ref. 70, donde sólo el vecino más cercano se sigue para cada punto de referencia. Además, la norma euclidiana se usa.! Aparte de los parámetros que caracterizan la incrustación, el barrio e tamaño inicial es de relevancia: El correo más pequeño, el de la granrango lineal de S, si es que existe. Obviamente, el ruido y el número finito de puntos el límite de datos e desde abajo. Los valores por defecto de lyap-k son bastante razonables para el mapa de datos tipo. No siempre es necesario ampliar el promedio de la ecuación. ~ 18! sobre los datos disponibles todo, los promedios razonables se puede obtener ya con unos pocos cientos de referencia sn puntos. Si algunos de los puntos de referencia tienen muy pocos vecinos, el importe correspondiente en la ecuación interior. ~ 18! está dominado por las fluctuaciones.Por lo tanto, se puede optar por excluir a los puntos de referencia que tienen menos de, digamos, diez vecinos. Sin embargo, la discreción tiene que ser aplicado con este parámetro, ya que puede introducir un sesgo en contra de las regiones escasamente pobladas. Esto podría, en teoría, afectar a los exponentes estimado debido a multifractality.Al igual que otras cantidades, las estimaciones de Lyapunov puede verse afectada por las correlaciones en serie entre los puntos de referencia y los vecinos. Por lo tanto, un tiempo mínimo para un2n8u pueden y deben ser especificados aquí. Ver también sección. VII.Let a discutir los resultados de una típicos. Los datos que sustentan el panel superior de la figura. 16 son los

valores de los máximos de los datos láser de CO2. Desde este láser muestra de pocas dimensiones, el caos, con un nivel de ruido razonable, se observa un claro aumento lineal en este terreno semi-logarítmica, lo que refleja la divergencia exponencial de trayectorias cercanas. El exponente es l'0 0,38 por iteración ~ datos del mapa!, O, al introducir el intervalo de tiempo promedio, 0,007 por ms. En el panel inferior se muestra el resultado para el mismo sistema, pero ahora calcula en el original como el flujo de datos con una frecuencia de muestreo de 1 MHz. Como una estructura adicional, un aumento inicial empinadas y oscilaciones regulares son visibles. El aumento inicial se debe a la no normalidad y los efectos de la alineación de las distancias en la dirección local más inestable, y las oscilaciones son un efecto de las velocidades y densidades diferentes a nivel local por lo tanto diferentes. Ambos efectos pueden ser mucho más dramático en los casos menos favorables, pero siempre y cuando las oscilaciones regulares poseen un promedio lineal cada vez mayor, esto puede ser tomado como la estimación del exponente de Lyapunov. La normalización de la frecuencia de muestreo, de nuevo encontramos l'0 0,007 permanentes, pero es obvio que la linealidad es menos pronunciada que para el mapa de datos tipo. Finalmente, se muestran en la figura. 17 un ejemplo de un resultado negativo: Se estudian los datos de tasa de respiración humana usado antes. Ninguna parte lineal existe, y no se puede sacar ninguna conclusión razonable.Vale la pena considerar la figura de una escala logarítmica doble con el fin de detectar un comportamiento de ley de potencia, que, con una potencia media, podrían estar presentes para un crecimiento difuso de las distancias. En este ejemplo concreto, no existe una ley de poder convencer a cualquiera.B. El espectro de LyapunovEl cómputo de todo el espectro de Lyapunov requiere un esfuerzo mucho más que el exponente máximo. Un ingrediente esencial es una estimación de la jacobianos local, es decir, de la dinámica lineal, que gobierna el crecimiento de las perturbaciones infinitesimales. O se encuentra de ajuste directo de los modelos locales lineales de la sn115ansn1bn tipo, de tal manera que la primera fila del Jacobiano es el vector de una, y ij (J)5 díasi21, j para I52 ,..., m, donde m es la dimensión de incrustación.La una está dada por la mínimos cuadrados s2 5 (l (sl112ansl2bn) 2 donde $% sl es el conjunto de vecinos de sn .45,71 O se construye un modelo no lineal global y calcula su jacobianos locales mediante la adopción de

Page 18: Practical implementation of nonlinear time series methods.docx

derivados. En ambos de los casos, se multiplica la jacobianos uno por uno, siguiendo la trayectoria, como muchos diferentes vectores del Reino Unido en el espacio tangente como uno quiere calcular exponentes de Lyapunov. Cada pocos pasos, se aplica un procedimiento orthonormalization Gram-Schmidt para el conjunto del Reino Unido, y acumula los logaritmos de los factores de reajuste. Su promedio, en el orden del procedimiento de Gram-Schmidt, dar los exponentes de Lyapunov en orden descendente. La rutina lyap-spec usa este método, que se remonta a Refs. 71 y 45, el empleo de locales lineal se ajusta Aparte del problema de los exponentes espurios, este método contiene algunas otras trampas:. Se supone que existen jacobianos bien definidos, y no la prueba de su relevancia.En particular, cuando los atractores son delgados en el espacio de inserción, algunos o todos ~! de la jacobianos locales pueden estimarse muy mal. A continuación, todo el producto puede sufrir de estas estimaciones malo y los exponentes son, en consecuencia mal. Así, el enfoque no lineal global puede ser superior, si un modelo ha tenido éxito, véase cap. IV.En la Tabla I se muestran los máximos exponentes de los datos láser estroboscópico de RMN en una inmersión en tres dimensiones en función del tamaño de la vecindad. El uso global de los modelos no lineales, nos encontramos con los números dados en las dos últimas filas. Más material se discute en la Ref.. 2. La difusión de los valores en la tabla de este conjunto de datos más limpia refleja la dificultad de calcular los espectros de Lyapunov de la serie de tiempo, lo que tiene que hacerse con mucho cuidado. En particular, cuando el algoritmo se aplica a ciegas a los datos de un proceso aleatorio, no internamente puede comprobar la consistencia de la hipótesis de un sistema dinámico subyacente. Por lo tanto, un espectro de Lyapunov se calcula que en la actualidad carece de sentido.El cálculo de la primera parte del espectro de Lyapunov permite algunas interesantes controles cruzados. Se conjetura, de 72 años y se encuentra para ser correcta en la mayoría de las situaciones físicas, que el espectro de Lyapunov y la dimensión fractal de un atractor están estrechamente relacionados. Si las instrucciones de la expansión y la contratación de por lo menos en el espacio se llena continuamente y sólo una dimensión fractal es parcial, entonces se puede pedir para la dimensión de un fractal ~! volumen tal que es invariante, es decir, de manera que la suma de los correspondientes exponentes de Lyapunov se desvanece, donde se pondera la última con la parte no entera de la dimensión:DKY5k1

(I51k liulk11u, ~ 19!donde k es el máximo entero tal que la suma de los exponentes más grande k todavía no negativo. DKY se conjetura para que coincida con la dimensión de la información.La identidad Pesin es válido bajo las mismas hipótesis y nos permite calcular el KS-entropía:hKS5 (I51mQ ~ li! Li. ~ 20!VII. DIMENSIONES y entropíasLas soluciones de disipación de los sistemas dinámicos no se puede llenar un volumen del espacio de fases, ya que la disipación es sinónimo de una contracción de elementos de volumen bajo la acción de las ecuaciones de movimiento. En cambio, las trayectorias se limitan a menores dimensiones subconjuntos que tienen medida cero en el espacio de fases. Estos subconjuntos pueden ser muy complicado, y con frecuencia poseen una estructura fractal, lo que significa que están de una manera no trivial de auto-similares. Dimensiones generalizadas son una clase de cantidades que caracterizan a esta fractalidad. La dimensión de Hausdorff es, desde el punto de vista matemático, el concepto más natural para caracterizar los conjuntos fractales, de 67 años, mientras que la dimensión de la información tiene en cuenta las frecuencias de las visitas relativas y por lo tanto más atractivo para los sistemas físicos. Finalmente, para la caracterización de los datos medidos, otros conceptos similares, al igual que la dimensión de correlación, son más útiles. Una observación general es de gran relevancia para entender las limitaciones de cualquier método numérico: las dimensiones caracterizan a un conjunto o una medida invariante cuyo apoyo es el conjunto, mientras que cualquier conjunto de datos contiene sólo un número finito de puntos que representa el conjunto o la medida. Por definición, la dimensión de un conjunto finito de puntos es igual a cero. Cuando se determina la dimensión del atractor numérico, podemos extrapolar a partir de escalas de longitud finita, donde las estadísticas que se aplican es insensible a la finitud de la cantidad de datos, las escalas infinitesimales, donde se define el concepto de dimensiones. Esta extrapolación se puede fallar por muchas razones que se discuten a continuación en parte. Las dimensiones son invariantes bajo transformaciones suaves y por lo tanto una vez más en espacios de tiempo computable incorporación de demora.Entropías son un concepto teórico para caracterizar la

Page 19: Practical implementation of nonlinear time series methods.docx

información de la cantidad de información necesaria para predecir la siguiente medición con una precisión determinada. La más popular es la entropía de Kolmogorov-Sinai. Nosotros discutiremos aquí sólo la entropía de correlación, que se puede calcular de una manera mucho más robusta. La aparición de la entropía en una sección sobre los aspectos tiene que ver con el hecho de que puede ser determinado tanto por la misma herramienta estadística.A. dimensión de correlaciónEn términos generales, la idea detrás de algunas de las dimensiones de los cuantificadores es que el peso p (e) de un típico e-ball parte que cubre las tarifas fijadas invariante con su diámetro, comop (e) e D, donde el valor de D depende también de la forma precisa se define el peso. Utilizando el cuadrado de la pi probabilidad de encontrar un punto de la serie dentro de la bola, la dimensión se llama D2 dimensión de correlación, que se calcula más eficiente por la suma de correlación: 73C ~ m, e! 51Npairs(J5mN(K, j2wQ ~ e2usj2sku!, ~ 21!que si son m-dimensional vectores de retardo, Npairs5 (N2m 2W) (N2m2w11) / 2 el número de pares de puntos cubiertos por las sumas, Q es la función escalón de Heaviside, y w se verá más adelante. A escalas de longitud suficientemente pequeña y cuando la incorporación de la dimensión m supera el correlationdimension del atractor, de 74 añosC ~ m, e!} D2 e. ~ 22!Ya que uno no sabe la correlación de dimensión antes de hacer este cálculo, un control de la convergencia de los valores estimados de D2 en m.La literatura sobre la estimación correcta y espurio de la dimensión de correlación es enorme y esto ciertamente no es el lugar para repetir todos los argumentos. Las advertencias relevantes y las ideas falsas son revisados, por ejemplo, en las referencias. 75, 11, 76, 2. La precaución más importante es excluir temporalmente correlacionadas puntos de la pareja cuenta por la llamada ventana de Theiler w.75 Para llegar a ser un estimador consistente de la ~ correlación integral de la que deriva la dimensión! la suma de correlación debe cubrir una muestra aleatoria de los puntos dibujados de forma independiente de acuerdo con la medida invariante en el atractor. Elementos sucesivos de una serie de tiempo no suelen ser independientes. En particular, para el flujo de datos altamente muestra

vectores posterior retraso están altamente correlacionados.Theiler sugirió suprimir este efecto espurio por hacer caso omiso de todos los pares de puntos en la ecuación. ~ 21! cuyo tiempo los índices difieren en menos de w, donde w debe ser elegido con generosidad. Con O (N2) pares disponibles, la pérdida de la O (WN) pares no es dramático, siempre y cuando w! N. Por lo menos, las parejas con j5k tienen que ser excluidos, de 77 años de lo contrario, el fuerte sesgo a la D250, el valor matemáticamente correcto para un conjunto finito de puntos, reduce drásticamente el rango de escala. La elección de w, el primer cero de la función de auto-correlación, a veces incluso el tiempo de decaimiento de la función de auto-correlación, no son lo suficientemente grandes, ya que sólo reflejan general lineal correlations.75, 76 La trama del espacio-tiempo de separación ~ Sec. III B!proporciona un buen medio para determinar el valor suficiente para w, como se discute, por ejemplo en la referencia. 41, 2. En algunos casos, especialmente en los procesos con los espectros de la ley del inverso de potencia, la inspección requiere w a ser del orden de la longitud de las series de tiempo.Esto indica que los datos no muestra un atractor invariante suficiente y la estimación de los invariantes, como exponentes de Lyapunov D2 o debe ser abandonado.Parámetros en el d2 rutinas, c2 y c2naive son como de costumbre la incorporación de parámetros m y t, el tiempo de retardo, y la dimensión de inserción, así como la ventana de Theiler.Rápida implementación de la suma de correlación han sido propuestas por varios autores. A escalas de longitud pequeñas, el cálculo de los pares se puede hacer en O (n log n), o incluso un tiempo O (N) en lugar de O (N2) sin perder ninguno de los pares preciosos, ver ref. 20. Sin embargo, para los datos de tamaño intermedio establece también necesitamos la suma de correlación a escalas de longitud intermedia donde la búsqueda se convierte en vecino caro. Muchos autores han tratado de limitar el uso de los recursos informáticos mediante la restricción de una de las sumas en la ecuación. ~ 21! a una fracción de los puntos disponibles. Por esta práctica, sin embargo, se pierde valiosas estadísticas en las escalas de longitud pequeñas, donde los puntos son tan escasos de todos modos que todos los pares son necesarios para un crecimiento estable. En la referencia. 62, ambos enfoques se combinaron por primera vez mediante el uso de un vecino de búsqueda rápida para el correo, e 0 y la restricción de la suma de e> e 0. El TISEAN implementaciones C2 y D2 dar un paso más y seleccione

Page 20: Practical implementation of nonlinear time series methods.docx

el rango de las sumas de forma individual para cada escala de longitud para ser procesados. Esto resulta de dar una importante mejora en la velocidad. El usuario puede especificar un número deseado de parejas que parece lo suficientemente grande como para una estimación estable de C (e), por lo general 1000 pares es suficiente. A continuación, las sumas se extienden a una amplia gama que garantiza que el número de pares, o, si esto no se puede lograr, a la serie de tiempo. En las escalas más grandes de longitud, este intervalo puede ser más bien pequeñas y el usuario puede optar por dar un número mínimo de puntos de referencia para garantizar una media representativa. Sin embargo, utilizando el programa c2 el cómputo conjunto, lo cual puede a gran escala se concentra en la primera parte de la serie de tiempo, lo que parece justo para los datos fijos, nonintermittent ~ no estacionarias o datos muy intermitente por lo general no aptos para la estimación de la correlación dimensión de todos modos!. El programa de d2 es más seguro con este aspecto. En vez de restringir el alcance de los importes, sólo un subconjunto seleccionado al azar se utiliza. La asignación al azar, sin embargo, requiere una estructura de programa más sofisticado con el fin de evitar una sobrecarga en el tiempo de cálculo.1. Takens-Theiler estimadorLa convergencia hacia una dimensión de correlación finito se puede comprobar mediante el trazado dependientes de la escala''efectiva''en comparación con las dimensiones de escala de longitud de varias inmersiones. La forma más sencilla de proceder es calcular numéricamente ~! la derivada de log C (m, e) con respecto al registro e, por ejemplo, mediante la instalación de líneas rectas con el gráfico log-log de la C (E). En la figura. 18 ~ a! vemos la salida de la rutina actúa c2 en los datos de RMN del láser, procesado por C2D con el fin de obtener pistas local.Por defecto, las líneas rectas se coloca sobre una octava en el correo, mayores rangos de dar resultados más suaves. Podemos ver que en las grandes escalas, la auto-similitud se rompe debido a la extensión finita del atractor, y en escalas pequeñas, pero estadísticamente significativo, sin embargo, vemos la dimensión de la incrustación en lugar de un ácido, m independiente de valor. Este es el efecto del ruido, que es de dimensión infinita, y por lo tanto ocupa un volumen en todos los espacios de inclusión. Sólo en las escalas intermedias, vemos la meseta donde los resultados deseados se encuentran en buena aproximación independiente de m y e. La región donde se establece la ampliación,

no sólo la gama seleccionada para el montaje en línea recta, se denomina el intervalo de escala. Puesto que las fluctuaciones estadísticas en las parcelas como en la figura. 18 ~ a! muestran correlaciones características anti-~!, se ha suggested78, de 79 años de aplicar un estimador de máxima verosimilitud para obtener los valores óptimos para la D2. El Takens-Theiler-estimadordice loTDT e ~! 5C ~ e!E0e C ~ e 8!e 8de 8, ~ 23!y se puede obtener mediante el procesamiento de la salida de c2 por c2t.Desde C (e) está disponible sólo en valores discretos $ ei, i 50 ,..., I%, que interpolar por una ley de potencia pura @ o, equivalentemente, el gráfico log-log por líneas rectas: log C (e ) 5ai registro e 1BI # en medio de estos. Las integrales resultantes se pueden resolver trivialmente y se suman:E0e C ~ e 8!e 8de 85 (I51YoebiEe i21e i~ E 8! Ai21 de 85 (I51Yo ebiai~ E iai2e i21ai!. ~ 24!Trazado de la TDT frente a la figura e @. 18 ~ # b! es una alternativa interesante a la trama habitual pistas local, la figura. 18 ~ a!. Es tentador usar como un estimador de la''''dimensión como un cuadro negro para proporcionar un número uno puede citar como una dimensión. Esto implicaría la suposición injustificada de que todas las desviaciones del comportamiento de la escala exacta se debe a las fluctuaciones estadísticas. En cambio, todavía se tiene que verificar la existencia de un régimen de escala. Sólo entonces, la TDT (e) evaluar en el extremo superior del rango de escala es un estimador de dimensión razonable.

Page 21: Practical implementation of nonlinear time series methods.docx

2. Kernel Gaussiano correlación integralLa suma de correlación, la ecuación. ~ 21!, Puede ser considerada como una densidad media de los puntos donde se obtiene la densidad local de un estimador de kernel con un paso kernel Q (E2R). Una modificación natural de los conjuntos de puntos pequeños consiste en sustituir el kernel paso fuerte por una función de kernel sin problemas de ancho de banda e. Un caso particularmente interesante que se ha estudiado en el literature80 está dado por el núcleo de Gauss, es decir, Q (E2R) se sustituye por e2r2/4e 2. El resultado de kernel Gaussiano correlación suma CG (e) tiene las propiedades de escala igual a la C habitual (e). Se ha observado en la referencia. 3 que CG (e) se puede obtener de C (e) a través deCG ~ e! 512e 2 E0`de ~ e ~ e2 2/4e 2e ~ C ~ e ~!, ~ 25!sin tener que repetir todo el cálculo. Si C (e) se da en los valores discretos de correo, las integrales de la ecuación. ~ 25! puede llevarse a cabo mediante la interpolación de forma numérica C (e) con las leyes de la potencia pura. Esto se hace en C2G que utiliza un 15 punto de Gauss-Kronrod regla para la integración numérica.B. Información dimensiónOtra forma de agregar peso a la e-pelotas, que es más natural, es la probabilidad pi sí mismo. El exponente de escala resultante se llama la dimensión D1 información. Desde la dimensión de Kaplan-Yorke de la sección. VI es una aproximación de la D1, D1 el cálculo de las propiedades a través de la ampliación es relevante para la verificación cruzada de datos altamente determinista. D1 se puede calcular a partir de una suma de correlación modificada, donde, sin embargo, desagradables errores sistemáticos ocurren. La masa fija approach81 evita estos problemas, de modo que, incluyendo las correcciones de la muestra finita, de 77 años un estimador más robusto que existe.En lugar de contar el número de puntos en una bola de uno se pregunta aquí por el correo de diámetro que debe tener una bola de contener un número k de puntos cuando una serie de tiempo de longitud N se da. Su ampliación con K y N se obtiene la dimensión en el límite de las escalas de longitud pequeñas

D1 ~ m! 5 limk / N! 0d log k / Nd ^ palco ~ k / N! y. ~ 26!El c1 rutina calcula el ~ geométrica! significa exp escala de longitud de registro e ^ (k / N) y para que los vecinos k se encuentran en N puntos de datos, en función de k / N. A diferencia de la suma de correlación, correcciones finito muestra son necesarios si k es small.77 En esencia, el registro de k tiene que ser reemplazado por el C digamma función (k). La expresión resultante se lleva a cabo en c1.Dado M y T, la rutina varía K y N tales que el mayor rango razonable de k / N está cubierto con un esfuerzo computacional moderado. Esto significa que por 1 / N <k / N <K / N ~ por defecto: K5100, todos los puntos de N disponible se buscan para los vecinos y k es variada. De K / N, K / N <1, k5K se mantiene fija y N disminuye. El resultado de los datos de RMN láser se muestra en la figura. 18 ~ d!, que puede ser una escala agradable con D1'1 0,35 discernir. Para que sean comparables, la erivative logarítmica de k / N se representa frente al exp ^ log e (k, N) y y no al revés, a pesar de k / N es la variable independiente. Es fácil detectar de nuevo la violaciónes de la ampliación discutido antes: corte en las escalas grandes, el ruido a pequeña escala, las fluctuaciones en escalas más pequeñas aún, y un rango de escala en el medio. En este ejemplo, D1 está cerca de D2, y multifractality no se puede establecer de manera positiva.C. La entropía estimacionesLa dimensión de correlación caracteriza a la dependencia e de la suma de correlación dentro del rango de escala. Es natural preguntarse qué podemos aprender de sus m-dependencia, una vez m es mayor que D0. El número de e-vecinos de un vector de retraso es una estimación de la densidad de probabilidad local, y, de hecho, es una especie de probabilidad conjunta: Todos los componentes de la m-el vecino tiene que ser similares a los del vector real de forma simultánea . Así, al aumentar m, probabilidades conjuntas que cubren grandes espacios de tiempo de participar.La escala de estas probabilidades conjuntas se refiere a la correlación de entropía h2, de forma que, para la ampliación de correo, también la dependencia de m es válida sólo asintóticamente para m grande, que no llegará debido a la falta de puntos de datos. Por lo que uno va a estudiar h2 (m)

Page 22: Practical implementation of nonlinear time series methods.docx

vs m y tratar de extrapolar a las grandes m. La entropía de correlación es un límite inferior de la entropía de Kolmogorov Sinaí, que a su vez puede ser estimado por la suma de los exponentes de Lyapunov positivo.La unidad d2 programa produce como resultado de las estimaciones de h2 directamente, de los programas de cualquier otra cantidad que la correlación que tiene que ser extraído por el post-procesamiento de la salida.La entropía de primer y segundo orden se pueden derivar de la producción de C1 y C2, respectivamente. Un medio alternativo para la obtención de estos y las entropías otro generalizado es por un enfoque de contar caja. Deje que pi es la probabilidad de encontrar el estado del sistema en la casilla I, el orden q entropía se define por el límite de tamaño de la caja pequeña y gran cantidad de m(Ipiq'e2mhq. ~ 28!Para evaluar (IPIq más de una malla fina de las cajas de m @ 1 dimensiones,uso racional de la memoria es necesario: Un histograma simple sería tomar un (1 / e) de almacenamiento m. Por tanto, el boxcount programa implementa la malla de las cajas como un árbol con (1 / e) veces puntos de ramificación. El árbol es trabajado a través de forma recursiva para que en cada caso más de una rama completa que existe en el almacenamiento. La versión actual no implementa correcciones muestra finito de la ecuación. ~ 28!.VIII. PRUEBAS de no linealidadLa mayoría de los métodos y las cantidades discutidas hasta ahora son más apropiadas en los casos en que los datos muestran una fuerte y consistente firmas deterministas no lineales. Tan pronto como algo más que una pequeña cantidad moderada o mayor de ruido aditivo está presente, el comportamiento de la escala se romperá y la previsibilidad será limitado. Así, hemos explorado el extremo opuesto, no lineal y determinista por completo, en lugar de los procesos estocásticos lineales clásicos. La mayor parte de la serie en tiempo real del mundo cae en ninguna de estas categorías limitantes, ya que reflejan las respuestas no lineales y componentes de eficacia estocástico, al mismo tiempo. Poco se puede hacer de muchos de estos casos con los métodos actuales. A menudo se recomienda para tomar ventaja de la maquinaria

bien fundado de los métodos espectrales y aventurarse en un territorio no lineal sólo si alentado por pruebas positivas. Esta sección trata sobre los métodos para establecer la evidencia estadística de no linealidad más allá de un reajuste simple en una serie de tiempo.A. El concepto de datos sustitutosEl grado de no linealidad se puede medir de varias maneras. Pero, ¿cuánto previsibilidad no lineal, por ejemplo, es necesario excluir las explicaciones más trivial? Todos los cuantificadores de las fluctuaciones muestran la no linealidad, pero las distribuciones, o barras de error, si lo desea, no están disponibles de forma analítica. Por tanto, es necesario el uso de técnicas de Monte Carlo para evaluar la importancia de los resultados. Un método importante en este contexto es el método de sustitución data.82 se formula una hipótesis nula, por ejemplo, que los datos han sido creadas por un proceso gaussiano estacionario lineal, y luego se intenta rechazar esta hipótesis mediante la comparación de los resultados de la los datos de realizaciones adecuadas de la hipótesis nula. Desde el supuesto nulo no es un simple, pero deja espacio para los parámetros libres, la muestra de Monte Carlo tiene que tomar en cuenta. Un método consiste en la construcción de realizaciones limitadas de la hipótesis nula. La idea es que los parámetros libres dejados por los nulos se refleja en las propiedades específicas de los datos. Por ejemplo, los coeficientes desconocidos de un proceso autorregresivo se reflejan en la función de autocorrelación.Realizaciones limitadas se obtienen por azar los datos sujetos a la restricción de que un conjunto apropiado de parámetros se mantiene fijo. Por ejemplo, los datos al azar con un periodograma dado se puede hacer al asumir fases aleatorias y tomando la transformada inversa de Fourier del periodograma dado.Datos aleatorios con la misma distribución que un conjunto de datos puede ser generado por la permutación de los datos al azar sin reemplazo. Pedir un espectro determinado y una distribución dada al mismo tiempo, plantea ya una cuestión mucho más difícil.B. iterativo método de transformación de Fourier Serie en tiempo real muy pocos los que se sospecha que muestran la no linealidad siguen una distribución gaussiana sola vez. No Gaussianidad es el tipo más simple de la firma no lineal, pero puede tener una razón trivial: los datos pueden haber sido distorsionados en el

Page 23: Practical implementation of nonlinear time series methods.docx

proceso de medición. Así, una posible hipótesis nula sería que no es un proceso gaussiano estacionario estocástico lineal que genera una secuencia% $ xn, pero las observaciones reales son sn5s (x), donde s (?) Es una función monótona.Realizaciones limitadas de esta hipótesis nula sería necesario la generación de secuencias aleatorias con el espectro de potencia igual ~ especificar completamente el proceso lineal! y la misma distribución sola vez ~ especificar el efecto de la función de medición! como los datos observados. La amplitud de la Transformada de Fourier ajustado ~ AAFT! método propuesto en la referencia. 82 intentos de invertir la medición de la función s (?) Ajustando la base de los datos a una distribución de Gauss. A continuación, las fases de Fourier son al azar y el cambio de escala se invierte. Como se discutió en la referencia. 83, este procedimiento está sesgado hacia un espectro más plano ya la inversa de s (?) No se dispone de exactamente.En la misma referencia, un esquema, se indica que elimina este sesgo iterativa ajustar el espectro y la distribución de los sustitutos. Alternativamente, los sustitutos se reajustarán los valores exactos tomadas por los datos y la transformada de Fourier es llevado a la amplitud exacta de los datos obtenidos. La discrepancia entre los dos pasos o converge a cero con el número de iteraciones o de una inexactitud finita que disminuye con la longitud de las series de tiempo. Los sustitutos programa realiza iteraciones hasta que no mejora se puede hacer. Las dos últimas etapas se devuelven, una de ellas con la exacta amplitud de Fourier y una toma en los mismos valores que los datos. Para los datos no demasiado exótico estas dos versiones debe ser casi idéntico. La discrepancia en relación también se imprime.En la figura. 19 se utilizó este procedimiento para evaluar la hipótesis de que la reducción de ruido en los datos reportados en la figura aliento. 12 elimina un componente de ruido aditivo que es independiente de la señal. Si la hipótesis fuera cierta, igualmente podríamos añadir de nuevo en la secuencia de ruido aleatorio o una versión de lo que carece de las correlaciones de la señal. En el panel superior de la figura. 19 se muestran los datos originales. En el panel inferior se tomó la versión de la reducción de ruido ~ cf. Fig. 12 de fondo! y se añade un sustituto de la secuencia de ruido se supone. El resultado es similar, pero sigue siendo significativamente diferente de la original para hacer la suposición de aditividad inverosímil.Planes de Fourier basado en la asignación al azar sufre de algunas advertencias debido a la suposición de la inherente que los datos constituye un periodo de una

señal periódica, que no es lo que realmente esperamos. Los artefactos se discuten posibles, por ejemplo, en la referencia. 84 y puede, en resumen, lleva al rechazo espurio de la hipótesis nula. Una precaución que se deben tomar al usar sustitutos es para asegurarse de que el principio y el final de los datos corresponden aproximadamente en el valor y la fase. Entonces, la hipótesis de la periodicidad no es demasiado malo y no dañino. Por lo general, esto equivale a la pérdida de algunos puntos de la serie. Hay que señalar, sin embargo, que la rutina puede truncar los datos de algunos puntos sí mismo para ser capaz de realizar la transformada rápida de Fourier que requiere el número de puntos que se factorizable por pequeños factores primos.C. General de aleatorización restringidaEn la referencia. 85 un método general ha sido propuesto para crear datos aleatorios que cumplan con las restricciones especificadas. Con este método, los artefactos y la imprecisión de los demás esquemas de aleatorización Fourier base se pueden evitar mediante la especificación de la función de autocorrelación en lugar de la transformada de Fourier. El primero no asume continuidad periódica.Tal vez lo más importante, la restricción de una hipótesis nula bastante estrecha se pueden relajar, ya que, en principio, arbitraria observables estadística se puede imponer a los sustitutos. Una propiedad deseada de los datos tiene que ser formulada en términos de una función de coste que supone un mínimo absoluto cuando la propiedad se cumple. Estados arbitrariamente cerca de este costo mínimo se puede llegar por el método de recocido simulado. La función de coste se reduce al mínimo entre todas las permutaciones posibles de los datos. Ver ref. 85 para una descripción del enfoque.El paquete contiene TISEAN los bloques de construcción para una biblioteca de rutinas de los datos especificados por el usuario sustituto implementar funciones de costes. Actualmente, sólo la función de autocorrelación con y sin continuidad periódica se han implementado.Además, la plantilla se da a partir de la cual el usuariopudieran derivarse de su / sus propias rutinas. Un módulo es siempre que impulsa el proceso de recocido simulado a través de un sistema de enfriamiento exponencial. El usuario podrá sustituir este módulo por otro esquema de su su / opción. Un módulo que realiza permutaciones aleatorias pareja se le da lo que nos permite excluir una lista de puntos del programa de permutación. Planes de permutación más sofisticados pueden ser sustituidos si se desea.Lo más importante es la función de costo tiene que ser dada como otro módulo. Los módulos de

Page 24: Practical implementation of nonlinear time series methods.docx

autocorrelación usomaxt51tmaxuC (t) 2C (t) datau / t, donde C (t) es la función de autocorrelación, con o sin continuidad periódica.En la figura. 20 se muestra un ejemplo el cumplimiento de la hipótesis nula de un proceso estocástico estacionario gaussiano reescalado lineal que ha sido contaminada por un artefacto en las muestras de 200-220. Los planes de Fourier basado no son capaces de aplicar la parte de artefactos de la hipótesis nula. Se propagan a la estructura dada por el artefacto de manera uniforme sobre el intervalo de tiempo completo, resultando en más espigas y menos predecible.De hecho, la hipótesis nula de un proceso estacionario estocástico gaussiano reescalado lineal puede ser rechazada al nivel del 95% de significación con los errores de predicción no lineal. El artefacto espurio sería un error de no linealidad. Con el programa de forma aleatoria-auto-exp-al azar, podemos excluir el artefacto del esquema de asignación al azar y obtener una prueba correcta.Como ejemplo de una función de coste más exóticas, que nos muestran la asignación al azar de 500 iteraciones del mapa He'non, fig. 21 ~ a!. Panel ~ b! muestra la salida de los sustitutos tienen el mismo espectro y la distribución. A partir de una permutación aleatoria ~ c!, la función de coste,C5 ^ ^ xn21xn y 1 & 1 ^ xn22xn xn212 xn y 1 ^ 2 y xn21xn1 ^ xn222 xn & 1 & 1 ^ ^ xn22xn21xn xn212 xn 2 y 1 ^ 3 y xn21xn1 ^ xn213 xn y, ~ 29!se minimiza ~ azar-generic-exp-al azar!. Loincluye todos los mayores autocorrelaciones para lo que sería necesario para un ajuste de mínimos cuadrados con el xn ansatz5c2axn212 1bxn22 y en este sentido por completo especifica la estructura de segundo grado de los datos. Los rendimientos de sonidos al azarC52400, paneles ~ c! - ~ f! corresponden a C5150, 15,0.002, respectivamente.Dado que el proceso de recocido puede llevar mucho tiempo muy CPU, es importante proporcionar un código eficiente para la función de costo. Especificación de t max rezagos para N puntos de datos requiere O (N max) multiplicaciones para el cálculo de la función de costo.Una actualización después de un par se ha intercambiado, sin embargo, se puede obtener con O (t max) multiplicaciones. A menudo, la suma total o

supremo se puede truncar ya que después de los primeros términos es claro que un gran aumento de los costes es inevitable. El algoritmo de Metropolis conducción facilita la corriente máxima permitida costo para ese propósito.El tiempo de cálculo necesario para alcanzar la precisión deseada depende de la elección y ejecución de la función de coste, sino también críticamente sobre el programa de recocido. Hay una vasta literatura sobre el recocido simulado que no pueden ser revisados aquí. La experimentación con sistemas de refrigeración deben tener en cuenta el concepto básico de recocido simulado.En cada etapa, el sistema-en este caso el sustituto que se cree-se mantiene a una temperatura determinada''.''Al igual que en la termodinámica, la temperatura determina la probabilidad de las fluctuaciones alrededor de la media de la energía-en este caso el valor de la función de costo C-son . A la temperatura T, una desviación del tamaño de DC se presenta con la probabilidad de Boltzmann exp} (2DC / T). En una simulación de la metrópoli, esto se logra mediante la aceptación de todos los cambios hacia abajo (CC, 0), sino también los cambios hacia arriba con exp probabilidad (2DC / T). Aquí los cambios son combinaciones de dos seleccionados al azar los elementos de datos. La implementación actual ofrece un esquema de enfriamiento exponencial, es decir, se baja la temperatura por un factor fijo cada vez que una de las dos condiciones se cumple: o bien un número determinado de cambios se ha intentado, o un número determinado de cambios ha sido aceptada. Estos dos números y el factor de enfriamiento puede ser elegido por el usuario. Si el estado se enfría muy rápido que se atasca o se congela''''en un mínimo de falsos. Cuando esto sucede, el sistema debe ser derretido''''de nuevo y de refrigeración se toma a un ritmo más lento. Esto se puede hacer de forma automática hasta una precisión de meta se alcanza. Es, sin embargo, difíciles de predecir la cantidad de pasos que tomará. El comportamiento detallado del sistema sigue siendo objeto de investigación en curso y en todos menos en los casos más simples, la experimentación por parte del usuario, será necesario. Para facilitar el control de la refrigeración, la situación actual se escribe en un archivo cada vez que una mejora sustancial se ha hecho. Además, el nivel de detalle de la salida de diagnóstico puede ser seleccionado.D. Medición de la no linealidad débil En las pruebas de no linealidad, nos gustaría utilizar cuantificadores que se optimizan para el límite de linealidad débil, que no es lo que la mayoría de métodos de series de tiempo de la teoría del caos se han diseñado. El esquema simple

Page 25: Practical implementation of nonlinear time series methods.docx

predicción lineal ~ Sec. IV B! ha demostrado ser muy útil en este contexto. Si se utiliza como un dato comparativo, cabe señalar que a veces incrustaciones aparentemente inadecuada o el tamaño de barrio puede llevar a errores más grandes que tienen grandes fluctuaciones, sin embargo, pequeño. La solución de compromiso entre el sesgo y la varianza puede ser diferente de la situación en la que las predicciones se desea por sí mismo. El mismo razonamiento se aplica a las cantidades derivadas de la suma de correlación. Ni el límite de pequeña escala, la escala real, o la corrección de Theiler, son formalmente necesarias en un ensayo comparativo. Sin embargo, la tentación de interpretar los resultados en términos de complejidad, como''''''''o dimensión debe ser resistido, a pesar de la complejidad'',''no parece tener una. Acordados significado de todos modosAparte de los errores de predicción promedio, hemos encontrado las estabilidades de corto órbitas periódicas ~ ver Sec. IV C! útil para la detección de la no linealidad en las pruebas de datos sustitutos. Como alternativa a los métodos basados en el espacio de fase, las medidas más tradicionales de la no linealidad derivada de funciones de orden superior autocorrelación ~ Ref. 86, de rutina autocor3! También se puede considerar. Si una inversión temporal asimetría está presente, su confirmación estadística ~ timerev rutina! es un detector muy poderoso de nonlinearity.87 Algunas de las medidas de no linealidad débil se comparan de manera sistemática en la referencia. 88.IX. CONCLUSIONES Y PERSPECTIVASEl proyecto TISEAN pone a disposición una serie de algoritmos de análisis no lineal de series de tiempo a las personas interesadas en las aplicaciones del enfoque de los sistemas dinámicos. Para hacer un uso correcto de estos algoritmos, no es esencial tener por escrito los programas de la nada, un esfuerzo que la intención de repuesto al usuario haciendo que TISEAN público. Indispensable, sin embargo, es un buen conocimiento de lo que hacen los programas, y por qué hacen lo que hacen. Esta última requiere una amplia información en el enfoque de series temporales no lineales que no pueden ser proporcionados por este trabajo, sino más bien por los libros de texto como en las referencias. 10, 2, revisiones, 11,12,3 y el original literature.9 Aquí, nos hemos concentrado en la aplicación real, ya que se realiza en TISEAN y en ejemplos de la utilización concreta de los programas.Vamos a terminar la discusión, dando algunas perspectivas sobre la labor futura. Hasta ahora, el proyecto TISEAN se ha concentrado en la situación más común de una serie de tiempo único. Mientras que para las mediciones múltiples de la misma naturaleza la

mayoría de los programas pueden ser modificados con un esfuerzo moderado, un marco general para la heterogénea grabaciones multivariado ~ decir, la presión sanguínea y latidos del corazón! No se ha establecido hasta ahora en un contexto no lineal. Sin embargo, creemos que los conceptos como la sincronía generalizada, la coherencia, o el flujo de información están bien vale la pena y en algún momento deben estar disponibles para una comunidad más amplia, incluyendo la investigación aplicada.La experiencia inicial con métodos de series temporales no lineales indica que algunos de los conceptos puede resultar bastante útil en el futuro a formar parte de la caja de herramientas series de tiempo establecido. Para que esto suceda, la disponibilidad de los algoritmos y datos fiables sobre su uso será esencial. La publicación de una importante colección de programas a nivel de la investigación a través del proyecto TISEAN puede ser visto como un paso en esa dirección. Sin embargo, el potencial usuario todavía tendrá una experiencia considerable con el fin de hacer efectivo el derecho-las decisiones sobre la idoneidad de un método particular para una serie de tiempo específico, sobre la selección de parámetros, sobre la interpretación de los resultados. Hasta cierto punto, estas decisiones podrían ser guiados por un software que evalúa la situación de los datos y los resultados de forma automática. La experiencia previa con la dimensión de recuadro negro o estimadores de Lyapunov no ha sido alentadora, pero por algunos problemas específicos,''óptima'', responde, en principio, se define y se calcula de forma automática, una vez que el criterio de optimalidad se formula. Por ejemplo, los programas de predicción puede ser encapsulada en un marco que evalúa automáticamente el rendimiento para una amplia gama de parámetros de inserción, etc Por supuesto, la evaluación cuantitativa de los resultados no siempre es fácil de implementar y depende de la finalidad del estudio. Como otro ejemplo, parece razonable definir''óptima''superficies de Poincaré "de la sección y para encontrar las soluciones óptimas numéricamente.Al igual que en la mayoría de la literatura de series de tiempo, el tema de la estacionalidad ha entrado en la discusión sólo como algo que la falta de que tiene que ser detectado a fin de evitar resultados falsos. Tomando este punto en serio a la denegación de una fracción importante de los problemas de series de tiempo, incluyendo los ejemplos más destacados, es decir, la mayoría de los datos de las finanzas, la meteorología y la biología. Está bastante claro que el mero rechazo de estos problemas difíciles no es satisfactoria y que tendrá que desarrollar herramientas de análisis de realidad, entender y predecir datos no estacionarios. Algunos se

Page 26: Practical implementation of nonlinear time series methods.docx

han hecho sugerencias para la detección de control de las fluctuaciones parameters.89-92 La mayoría de estos pueden ser vistos como versiones continuas del problema de clasificación, otra aplicación que no está debidamente representado en TISEAN todavía.La publicación de software, o las revisiones y libros de texto para el caso, en un campo en evolución tan rápidamente como el análisis no lineal de series de tiempo siempre tendrá el carácter de una instantánea de la situación en un momento dado. Tener las opciones o bien esperar hasta que el campo ha saturado suficiente o con el riesgo de que los programas o declaraciones, quedará obsoleto pronto, se optó por la

segunda opción. Esperamos que de este modo, puede contribuir a la evolución de la materia.AGRADECIMIENTOSQueremos agradecer a Eckehard Olbrich, Marcus Richter, Andreas Schmitz y que han hecho contribuciones al proyecto TISEAN, y los usuarios que pacientemente hecho frente a las primeras versiones del software, en particular, Hermes, Ulrich. Damos las gracias a Leci Flepp, Tufillaro Nick, Riccardo Meucci, y Ciofini Marco por permitirnos utilizar sus datos de series temporales. Este trabajo fue apoyado por el SFB 237 de la Deutsche Forschungs gemeinschaft.

Prediction of Particulate Air Pollution using Neural Techniques

Hemos analizado la posibilidad de predecir las concentraciones horarias promedio de la atmósfera suspendidaEl material particulado con diámetro aerodinámico inferior a 2,5 micras (PM2.5) horas de anticipaciónutilizando los datos obtenidos en el centro de Santiago, Chile.Mediante la realización de algunas pruebas estándar que se utiliza en el estudio de sistemas dinámicos, que son capaces de extraer algunas características de la serie temporal de datos. Utilizamos esta información para estimar la cantidad de datos sobre el pasado para ser utilizado como entrada para una red neuronal para predecir los valores futuros de las concentraciones de PM2.5. Se demuestra que la mejora de las predicciones es posible mediante el uso de otra red neural para reducir el ruido en la serie original. Los mejores resultados se obtienen con un tipo de red neuronal, lo que equivale a una regresión lineal. Hasta seis horas de anticipación, las predicciones generadas de esta manera tienen errores significativamente menor que las predicciones basadas en la persistencia de la media a largo plazo de los datos.1. IntroducciónMuy a menudo tenemos los resultados de los experimentos que no pueden ser interpretadas con un modelo simple. Sin embargo, si tenemos una gran cantidad de datos medidos, el contenido de la información podría ser muy útil para comprender los procesos subyacentes. En los últimos años, las herramientas se han desarrollado diversos que hacen un uso eficiente de esta información, permitiendo la formulación de un modelo matemático y / o la predicción de valores futuros de la variable en estudio [1]. En el presente trabajo, se analizan las mediciones de una variable escalar sola toma en un punto espacial fijo y en intervalos regulares de tiempo. Nos concentramos en un tipo particular de series de tiempo, el de la contaminación atmosférica por material particulado con diámetro aerodinámico inferior a 2,5 mm (PM2.5), los datos obtenidos en una estación ubicada en la ciudad de Santiago de Chile. Aquí la predicción es muy útil para que las autoridades a tomar medidas para la protección de la población cuando los niveles superan los valores establecidos perjudiciales. A pesar de las normas vigentes en la mayoría de los países (incluido Chile) se establecen para las PM10 (partículas de menos de 10 mm de diámetro), los resultados de recientes estudios epidemiológicos sugieren que las normas también se debe establecer para PM2.5 [2-4]. Los datos que se investigue cada hora los valores medios de las concentraciones de masa de las partículas obtenidas durante el período de otoño e invierno de 1994. Debido a las circunstancias geográficas, climáticas y de desarrollo urbano de la ciudad de Santiago, que es entre mayo y septiembre, que los más altos niveles de contaminación del aire se observan.La función de auto-correlación muestra una periodicidad doce horas y una lenta decadencia, lo que indica la presencia de componentes deterministas en la serie. Se ha establecido que para caracterizar el proceso, el intervalo de tiempo de muestreo óptimo no es necesariamente la dada por el experimento, pero que se puede obtener mediante la evaluación de la función de medio de información mutua, que es una medida del grado en que el resultado de una medición de una variable determinada a cabo en el tiempo t está conectado con el resultado de una medición de la misma variable a cabo en t1Dt tiempo [1]. Elegir el momento de la aparición del primer mínimo de esta función como el intervalo de muestreo asegura, en primer lugar, que los puntos sucesivos de datos son lo suficientemente diferentes, y en segundo lugar, que no son estadísticamente independientes. Con este intervalo de tiempo, construimos una nueva serie de tiempo y calcular el porcentaje de "falsos vecinos más cercanos" en función de la dimensión (definida como el número de puntos

Page 27: Practical implementation of nonlinear time series methods.docx

de datos consecutivos con el pasado para estimar el siguiente punto de datos en la serie). Un conjunto de puntos de datos se consideran como un "vecino más cercano falsos" cuando, en la reconstrucción de las series de tiempo, que se generan correctamente por casualidad, y no a través de la dinámica del sistema (el cálculo estadístico de los falsos vecinos más cercanos se describe con más detalle en la sección sobre la determinación de la dimensión de embedding). La dimensión en la que el porcentaje de falsos vecinos más cercanos llega a cero se define como la incorporación de la dimensión del proceso.Este valor indica el número de valores pasados que tener en cuenta a fin de ser capaces de predecir el comportamiento futuro. Como han hecho otros autores con diferentes tipos de series de tiempo, hemos utilizado la información de la dimensión de incrustación para fijar el número de entradas para alimentar un modelo de red neuronal para la predicción diseñados [5].Dado que los modelos de redes neuronales se han utilizado como una herramienta no lineales para la predicción de series de tiempo en una variedad de aplicaciones [6,7], se decidió investigar la posibilidad de feed-forward redes neuronales para predecir las concentraciones de PM2.5 en la atmósfera, con un número de entradas igual a la dimensión de inclusión y una salida, que se corresponde con el valor futuro que queremos predecir. La necesidad de incluir a las capas ocultas de neuronas ha sido analizado. Una red neuronal feedforward sin capas ocultas y una función de transferencia lineal corresponde a una regresión lineal. El uso de una función no lineal como una sigmoide o tangente hiperbólica y / o la inclusión de una capa oculta con un número variable de neuronas se hacen de la red un dispositivo no lineal. Para implementar la red neural, la serie se divide en capacitación y equipos de prueba. Con el conjunto de entrenamiento, los pesos que se asignan de la entrada en la salida se determinan. La eficiencia de esta asignación se establece al comparar los valores calculados y los valores reales del conjunto de pruebas. Hemos encontrado que las mejores predicciones que pueden generar corresponden a una red neuronal sin capas ocultas. Las predicciones de más de seis horas de anticipación, en promedio, no mucho mejor que el promedio de desviación de la media. Mejores predicciones se habían producido con anterioridad con las redes neuronales diseñadas por ensayo y error, sin rigor con la información del tiempo de retardo y la incrustación de dimensión [9]. La razón de los resultados relativamente pobres con el esquema descrito anteriormente puede ser la inexactitud en la determinación del tiempo de retardo y la dimensión de incorporación debido a la presencia de ruido. Se ha procedido a eliminar el ruido de los datos mediante el uso de un método nuevo de la red neuronal de uso frecuente para la compresión de datos [10]. De esta manera, se ha generado una serie de tiempo más suave para el PM2.5 de datos. Un nuevo cálculo del tiempo de retraso y la dimensión de incrustación permite el diseño de una red neuronal con menos errores de predicción, que ahora son del mismo orden de magnitud que los obtenidos por ensayo y error.Dado que el número de neuronas presentes en la red que utiliza la información de la incorporación de la dimensión es mucho menor que en la red implementada por ensayo y error, en el primer caso tenemos, como una ventaja práctica, que vamos a necesitar un cálculo mucho menor tiempo.2. Los datos de cada hora un promedio de PM2.5 las concentraciones en masa para el año 1994 fueron obtenidos de forma continua por medio de un instrumento de tipo masa oscila mecánicamente equilibrio.La temperatura de la corriente de la muestra se mantiene internamente a 50 ° C. La fracción de masa de las partículas PM2.5 atmósfera se compone de partículas con un diámetro aerodinámico de hasta 2,5 mm. El instrumento se realizó en la estación A del sistema de Santiago de vigilancia pública de calidad del aire, designado como MACAM, esta estación se encuentra a unos 100 m NO de Casa de Gobierno (Palacio de La Moneda) en el centro de Santiago, Chile.Hemos optado por trabajar con datos de 05.01 a 09.30, porque es durante estos meses que, debido a condiciones desfavorables para la dispersión de las partículas de la atmósfera, la contaminación del aire en Santiago alcanza los niveles más altos. Nuestra serie de tiempo por lo tanto, tiene 3672 puntos. Valor promedio y la desviación estándar son 71 y 45, respectivamente, en unidades de mg/m3.Hemos calculado la función de auto-correlaciónC (T) de la serie de tiempo:C (T) 5 sobren50s (n) s (n1T) (1)donde s (n) es la concentración de PM2.5 en el tiempo n, N 5 3672 y T-5 0,1,2,. . .La figura 1 muestra la trama de C (T) de los datos objeto de estudio. Podemos ver los picos a los 12, 24, 36,. . . horas, lo que indica que un determinado nivel de contaminación tiene una tendencia a repetirse cada doce horas, al menos cualitativamente. La coherencia de mucho tiempo de la función de auto-correlación es un indicador del comportamiento determinista [5]. La estructura de esta función de autocorrelación se puede explicar por el hecho de que la variación

Page 28: Practical implementation of nonlinear time series methods.docx

diaria de la concentración de PM2.5 parece ser, en promedio, muy similar para todos los días de la semana durante el período considerado. La Figura 1 también muestra la gráfica de la función de auto-correlación después de la reducción de ruido (ver la sección de filtrado de ruido). Las concentraciones medias en función del momento del día se muestran en la figura. 2, donde las medias se toman más de los 153 días presente en el intervalo de estudio. Se observan dos picos de concentración, que parecen estar relacionados con el tráfico de vehículos de motor.Ya que una de las principales fuentes de PM2.5 son las emisiones de vehículos de motor, y dado que la estación de medición se encuentra cerca de una zona donde los atascos son frecuentes, especialmente en las horas punta de mañana y tarde, la curva observada no es inesperado. El aparente retraso de la concentración máxima en comparación con las horas punta siempre se puede atribuir al tiempo empleado por los contaminantes a la deriva desde el origen hasta la medición de la estación. Una demora adicional se espera en la noche, porque después del atardecer (alrededor de las 18:00 horas) las corrientes de convección atmosférica se reduce significativamente.3. Determinación de la dimensión de incrustaciónLa dimensión de incorporación de un sistema dinámico es una dimensión global entera que da el número de coordenadas necesarias para desplegar su trayectoria en el espacio de fase. Para calcular la dimensión de una serie temporal de datos experimentales, debemos determinar primero el retardo de tiempo adecuado para la muestra de datos.En general, este retardo de tiempo optimizado es diferente del tiempo de retardo en la serie de tiempo original. Una vez que tenemos este retraso de tiempo T, y después de la elección de un suficientemente alto dimensión d, para cualquier punto s de datos (k), el conocimiento del vector y (k) 5 (s (k), s (k 1 T),.. ., s (k1 (d21) T)), será suficiente para predecir la evolución del sistema. En el espacio d-dimensional, vector y (k) tiene un vecino más cercano YNN (k), que es el vector de la distancia euclidiana al menos a la misma. Si d es menor que dE, es muy probable que este vecino más cercano es falsa, es decir, que corresponde a una proyección del espacio dEdimensional real. Incorporación de la dimensión de dE se puede determinar mediante la búsqueda de la dimensión d por encima del cual el porcentaje de falsos vecinos más cercanos tiende a cero. En la práctica, se ha encontrado que si la cantidad s (k1dT) 2sNN (k1dT) u / RA es del orden o mayor que 2, entonces YNN (k) es un vecino cercano falsa. Aquí SNN (k1dT) es el componente d11 de la YNN vector (k) y la AR es el valor eficaz de los datos respecto a su media.Se ha sugerido que la elección adecuada del tiempo de retardo T0 es el primer mínimo de la función de información mutua promedio que se compara las mediciones de la variable s en el tiempo T y n1T tiempo[1]. El promedio de la función de información mutua I (T) se define como:I (T) 5 Ss (n), s (n1T) P (s (n), s (n1T)) log2 [(P (s (n), s (n1T )))/( P (s (n)) P (s (n (2)1T)))]donde P (s (n)) es la probabilidad de obtener el valor s en el tiempo n y P (s (n), s (n1T)) es la probabilidad conjunta de obtener un determinado valor de la variable s en el tiempo n y algunos otro valor de s en n1T tiempo.Estas probabilidades se calculan numéricamente a partir de la una y dos dimensiones histogramas de la serie, respectivamente. Para nuestros datos, I (T) se muestra en la fig. 3, que parece indicar que para la serie original, que debe elegir T 5 de 7 horas. Con este valor de tiempo de retraso, se calcula el porcentaje de falsos vecinos más cercanos en función de la dimensión, la obtención de lo que se muestra en la fig. 4. Debemos tomar la dimensión de incrustación que para que la variable dependiente tiende a cero. Ya que en este caso la función se reduce rápidamente, pero no va exactamente a cero, pero se mantiene aproximadamente constante en un valor bajo, una dimensión incorporación dE 5 4se consideró apropiado.4. Predicción utilizando un esquema de redes neuronalesPredicción de la concentración de la masa de PM2.5 en el tiempo t puede ser generada a partir de la siguiente asignación:yt 5 pies (x1, x2,..., xd) (3)donde x1 5 s (t-T), x2 5 s (t-2T),. . ., Xd 5 s (t2dT),representan mediciones consecutivas de los datos de la contaminación. En general, para cada t discreto, una función diferente pies se utiliza. La forma de esta función se obtiene después de ajustar un conjunto de parámetros que lo define.Los resultados de estudios recientes han demostrado la ventaja de los métodos más tradicionales de redes neuronalesmétodos estadísticos para la predicción de series temporales [6, 7].Hemos analizado la posibilidad de predecir el PM2.5 de datos mediante feed-forward redes neuronales multicapa. En

Page 29: Practical implementation of nonlinear time series methods.docx

este caso, los flujos de información desde la entrada hasta la salida sin retorno, y los parámetros a ajustar son esencialmente los pesos de conexión de una capa de entrada con n unidades o neuronas, a una unidad de salida o de neuronas, con el tiempo que pasa a través de una o más capas ocultas con un número adecuado de unidades. Por lo general, los datos disponibles se dividen en un conjunto de entrenamiento (de regulación) y un conjunto de pruebas.Los pesos óptimos se obtienen mediante el uso de "backpropagation" [8]. La calidad de la predicción se obtiene de la actuación con el equipo de prueba de los datos. Porcentaje de errores de las predicciones (PE) se calculará de acuerdo conPE 5kuytp 2 ytaulkytal(4)donde YTP es el valor esperado, YTA es el valor real, y kl medio promedio en los casos de prueba.Si los pies de función es una función lineal de una combinación lineal de las entradas, tendríamos un perceptrón lineal, que es en la práctica de una regresión lineal.Espacio adicional para un buen ajuste de los datos se puede lograr mediante la introducción de un conjunto de nodos ocultos ZTK, (k 5 1,..., N), de tal manera queZTK 5 f (wtk1x11... 1wtkdxd un wtk0) (5)donde x1,. . ., Xd son las entradas al nodo k de la capa oculta, wtkj (j 5 1,..., D) son los pesos de conexión entre la entrada y las capas ocultas, y ZTK es la k de entrada al nodo de salida. La salida esyt 5 f (vt1zt1 1... 1 1 vtnztn vt0) (6)donde vtk son los pesos de conexión entre la capa oculta y de salida.La función f utiliza con mayor frecuencia es una sigmoide:1 1 e2 (7)o una tangente hiperbólica.Hemos dejado los primeros 2900 puntos de la serie de datos para la formación, y los restantes 772 para la prueba.De acuerdo con el valor de la incorporación de la dimensión calculada, para un intervalo de tiempo T 5 7 horas, una red neuronal con cuatro unidades en la capa de entrada y una salida se lleva a cabo. Para construir el conjunto de entrenamiento se seleccionan los puntos 1, 8, 15 y 22 para la entrada y el punto 23 como salida si queremos predecir una hora de antelación, el punto 24 durante dos horas, etc A continuación, añadimos los puntos 2, 9, 16 , 23 como entradas y 24 como salida durante una hora, 25 durante dos horas, etc De esta manera, se generan 2.876 casos de entrenamiento para cada una de las 24 redes diseñados, uno para cada hora se espera para predecir el futuro, de un a veinticuatro horas. El equipo de prueba se genera de una manera similar, a partir del punto 2901. Después del entrenamiento, con los pesos errores fijos, promedio sobre el conjunto de pruebas (PE) se evalúan. Los resultados se muestran en la figura. 5. Hemos encontrado que las mejores predicciones se obtienen con una red sin capas ocultas, con f (X) 5 X, que corresponde a una aplicación lineal. Para la comparación se muestran los resultados de las predicciones generadas utilizando una red neuronal diseñada por ensayo y error (sin necesidad de utilizar explícitamente los resultados de la demora de tiempo y la dimensión de embedding). Esta red (24 3 1 ensayo) tiene 24 unidades en la capa de entrada y no capa oculta.Tiempo de retardo en este caso es T 5 1 y otra vez f (X) 5 X.Esta estructura fue motivado por los estudios anteriores sobre el mismo conjunto de datos [9]. Como referencia, la desviación media de los datos reales del valor real de la media (media dev. Significar 5 0,49) en la pantalla.Se puede observar en esta figura que las predicciones de uso de la red con 24 unidades de entrada son mejores que los obtenidos con la red con cuatro unidades de entrada. Esta diferencia puede deberse en parte al hecho de que la determinación de la incorporación de dimensión no es muy precisa, ya que nunca la curva para el porcentaje de vecinos más cercanos (Fig. 4) alcanza el valor cero, probablemente debido a la presencia de ruido . La red de 24 unidades de entrada tiene una mejor oportunidad para promediar el ruido, alcanzando una mejor predicción. También podemos ver que las predicciones de importantes utilizando una red neuronal es posible sólo hasta el fin de seis horas de antelación. Teniendo en cuenta las predicciones de 1 a 6 horas de antelación, el perceptrón con 24 entradas muestra un error promedio de 5.3% menor que el perceptrón con cuatro entradas.Hemos estudiado el efecto del uso de una tangente hiperbólica como función de transferencia en todas las redes, pero hemos comprobado que esto no conduce a una mejora significativa con respecto a un perceptrón lineal.5. Filtro de ruidoLos resultados mostrados anteriormente indican que el conjunto de datos que estamos analizando tiene una cantidad

Page 30: Practical implementation of nonlinear time series methods.docx

significativa de ruido, que es probablemente generados durante el proceso de medición. La función de auto-correlación se supone que debe dar información útil sobre el proceso subyacente, con un promedio del ruido. Por esta razón, hemos puesto en marcha un procedimiento de reducción de ruido, que también se basa en técnicas de redes neuronales.Consiste en lo siguiente: dividir la serie en grupos que contienen datos de Ng Np punto cada uno. A continuación, el diseño de una red neuronal de tres capas que tiene Np unidades en la capa de entrada, NH (con Nh, Np) unidades en la capa oculta y las unidades de Np en la capa de salida.Aquí los grupos Ng se utilizan tanto para entrenamiento y pruebas. El objetivo es que la red para reproducir la entrada a la salida, dejando de lado los componentes de alta dimensión (que es el caso de ruido) [10]. Los resultados generados en el proceso de pruebas se pegan juntos para crear una serie con la reducción de ruido. Tomamos Nh ser el valor más bajo que no implica una destrucción significativa de la estructura revelada por la función de auto-correlación. Hemos utilizado Np 5 24, y nos encontramos con que NH 5 6 es una elección apropiada. En estas condiciones, la curva de la función de auto-correlación es simplemente desplazado verticalmente, como se muestra en la fig. 1. La nueva serie de tiempo tiene una distribución más suave, como puede verse en la figura. 6, donde se ha representado la concentración másica de PM2.5 (mg/m3), tanto para los datos originales y los datos modificados por las primeras 200 horas del período en estudio. Después de la reducción del ruido, la curva de la variación diaria promedio de PM2.5 concentraciones (Fig. 2) se mantiene prácticamente sin cambios.Para la nueva serie histórica de datos se ha procedido, como antes, lo que significa que hemos calculado un intervalo de tiempo nuevo y la incorporación de la dimensión correspondiente a fin de diseñar la red neuronal.La nueva función de medio de información mutua se muestra en la fig. 3. Desde que (4) es ligeramente menor que yo (5), hemos optado por T 5 4. Para este tiempo de retardo se ha representado el porcentaje de falsos vecinos más cercanos en función de la dimensión, la obtención de lo que se muestra en la fig. 4. Observamos que una buena elección de la dimensión de incorporación de nuevo dE 5 4, pero en este caso la estimación parece más fiable ya que por las dimensiones superiores, el porcentaje se queda mucho más cerca de cero.A continuación, proceder como con los datos originales, hemos puesto en marcha una red neuronal con cuatro entradas y una salida, y hemos ajustado los parámetros con los primeros 2900 puntos para la formación, teniendo en cuenta el retardo de tiempo nuevo. Los errores de predicción para el conjunto de la prueba se muestra en la figura. 7. Una vez más, se comparan los resultados con los obtenidos mediante una red de dos capas con 24 entradas, una salida y T 5 1. Para la reducción de ruido datos de series de la desviación media de la media baja a 0,45, por lo que volver a mostrar esta cantidad como referencia, ya que sólo los errores de predicción más pequeño que esto puede ser considerado de interés.Se puede observar que ahora, los errores de predicción son más pequeños que los obtenidos con los datos originales,y que las predicciones con los 4 31 (T 5 4)red más cercanas a las de los 24 3 1 (T 5 1)de la red. El 24 3 1 de la red todavía parece reflejar mejor la tendencia de los datos, teniendo en cuenta que la cantidad relativamente pequeña de los datos disponibles no permiten una determinación muy precisa de la dimensión de inserción, y que para poder realizar predicciones con más de una hora en los errores de anticipación tienden que se acumulen.Una vez más, las predicciones con redes neuronales parecen importantes a la orden de seis horas de antelación. Teniendo en cuenta las predicciones de 1 a 6 horas de antelación, el perceptrón con 24 entradas muestra un error promedio de sólo un 4,3% más bajo que el perceptrón con 4 entradas.Como en el caso anterior hemos verificado que el problema en cuestión el uso de una función de transferencia no lineal no da mejores resultados que un perceptrón lineal.6. ConclusiónNuestros resultados muestran que la predicción de concentraciones de partículas contaminantes en la atmósfera de una ciudad contaminada es posible cuando se utilizan herramientas desarrolladas en el modelado de sistemas dinámicos y técnicas de redes neuronales. La información extraída de la serie de tiempo PM2.5 se puede utilizar para implementar una arquitectura de red neuronal con el fin de hacer predicciones de esta cantidad durante varias horas en el futuro.Una reducción de ruido anteriores utilizando redes neuronales de nuevo se encontró que era conveniente a fin de reducir significativamente los errores de predicción. Una correcta determinación de un tiempo de retardo y la dimensión óptima de la incrustación de las series de datos en estudio ha permitido el diseño de una red neuronal para hacer predicciones en un tiempo computacional relativamente bajo.Los mejores resultados se obtuvieron con una red neuronal sin capas ocultas, lo que equivale a una regresión lineal (esto no será el caso general, porque cuando el sistema subyacente es no lineal, una red neuronal con las capas ocultas sería

Page 31: Practical implementation of nonlinear time series methods.docx

más apropiado). Hasta seis horas de anticipación, las predicciones generadas de esta manera tienen errores considerablemente menor que las predicciones basadas en la persistencia de la media a largo plazo de los datos.Agradecimientos. Nos gustaría agradecer el apoyo del Departamento de Investigación de la Universidad de Santiago de Chile (DICYT), a través del proyecto 049631PJ, y Fondo Nacional de Ciencia y Tecnología (FONDECYT) a través del proyecto 1970418. Nos gustaría también dar las gracias a A. Trier para una lectura crítica del manuscrito.

Redes neuronales y modelos de regresión múltiple para la predicción de PM10 en Atenas: una evaluación comparativa. Chaloulakou A , G Grivas , Spyrellis N .

Fuente

Departamento de Ingeniería Química, Universidad Técnica Nacional de Atenas, Atenas, Grecia. [email protected]

Abstracto

La contaminación atmosférica de partículas en las zonas urbanas se considera que tiene un impacto significativo sobre la salud humana. Por lo tanto, la capacidad de hacer predicciones exactas de las concentraciones de partículas del ambiente es importante para mejorar la conciencia pública y la gestión de la calidad del aire. Este estudio examina la posibilidad de utilizar métodos de redes neuronales como herramientas para la materia particulada diaria media con un diámetro aerodinámico <10 micras (PM10) previsión de la concentración, ofreciendo una alternativa a los modelos estadísticos utilizados hasta el día de hoy. Basado en un inventario de datos, en un lugar fijo el centro de Atenas, Grecia, que van en un período de dos años, y el uso de variables meteorológicas, principalmente como insumos, modelos de redes neuronales y modelos de regresión múltiple se han desarrollado y evaluado. Las estadísticas de comparación utilizado indican que el enfoque de redes neuronales tiene una ventaja sobre los modelos de regresión, expresada tanto en términos de error de predicción (error cuadrático medio valores más bajos de 8.2-9.4%) y de la capacidad de predicción de episodios (false valores de la frecuencia inferior de la alarma por 7 - 13%). Los resultados demuestran que las redes neuronales artificiales (RNA), debidamente capacitado y formado, pueden ofrecer soluciones adecuadas a las demandas de partículas pronóstico de la contaminación.

Page 32: Practical implementation of nonlinear time series methods.docx
Page 33: Practical implementation of nonlinear time series methods.docx

Página 117 ª Simposio europeo sobre Computer Aided Process Engineering - ESCAPE17 V. Plesu y PS Agachi (Editores) © 2007 Elsevier BV Todos los derechos reservados. 1 Predicción de la calidad del aire en Uberlândia, Brasil, con modelos lineales y redes neuronales Taisa S. Lira, Marcos, Barrozo, Adilson J. Assis Escuela de Ingeniería Química de la Universidad Federal de Uberlândia, Av.. João Naves de Ávila, 2121, 38408-100, interior de Minas Gerais, Brasil, e-mail: [email protected] Abstracto La contaminación de partículas de aire se asocia con una serie de efectos sobre la salud humana, incluidos los efectos sobre el sistema respiratorio y cardiovascular, asma y la mortalidad. Por lo tanto, el desarrollo de una previsión eficiente y de alerta temprana sistema de información de calidad del aire hacia el ciudadano se convierte en un evidente la necesidad y el imperativo. El objetivo de este trabajo fue investigar que capacidad de pronóstico utilizando modelos lineales (como ARX, ARMAX, la salida de error y Box-Jenkins), y las redes neuronales. Fueron utilizados meteorológicos variables y 24 h PM 10 la concentración de hoy en día como datos de entrada. Como la producción prevista por los modelos, la PM 24 h 10 concentración se obtiene, con horizonte de predicción de hasta tres días antes. Los resultados mostraron que bastante buenas estimaciones se puede lograr por todos los modelos, sino modelos de Box-Jenkins mostró un mejor ajuste y la previsibilidad. Palabras clave La calidad del aire, los modelos lineales, redes neuronales, material particulado, la salud pública. 1. Introducción En los últimos años, la calidad del aire se ha convertido en un factor importante que contribuye a la calidad de vida en áreas urbanas, especialmente en zonas densamente pobladas y las zonas industrializadas. La contaminación de partículas de aire se asocia con una serie de efectos en la salud humana, incluidos los efectos sobre los sistemas respiratorio y cardiovascular

Página 22 TSLira et al. sistemas, el asma y la mortalidad [1,2]. Predicción a corto plazo de la calidad del aire es necesaria para tomar medidas preventivas y evasivas durante los episodios de la contaminación atmosférica. De esta manera, al influir en los hábitos de la gente todos los días o por la imposición de restricciones sobre el tráfico y la industria, debería ser posible para evitar medicación excesiva, reducir la necesidad de tratamiento en el hospital e incluso prevenir las muertes prematuras [3,4]. La tendencia en los últimos años ha sido la utilización de métodos estadísticos en lugar de más modelos deterministas tradicionales para predecir la contaminación del aire. Redes neuronales (NN), los modelos se han utilizado para la previsión de una amplia gama de contaminantes y sus concentraciones en diversas escalas de tiempo, con muy buenos resultados [5-8]. En su visión general de las aplicaciones de NN en las ciencias atmosféricas, Gardner y

Page 34: Practical implementation of nonlinear time series methods.docx

Dorling [8] en el que las redes neuronales suelen dar tan buenos o mejores resultados que los métodos lineales. Los modelos lineales se utilizan aquí como una novedad, desde la previsión de la contaminación del aire puede ser visto como similar a la identificación del sistema. Las ventajas de estos modelos es que no requieren de muy exhaustiva información acerca de los contaminantes del aire, los mecanismos de reacción, las condiciones meteorológicas los parámetros o el flujo de tráfico y que tienen la capacidad de permitir no lineal las relaciones entre las variables de predicción muy diferente. Estos hechos y la calidad de los resultados que han presentado son los motivos que los hacen más atractivo de aplicar que otros modelos. El objetivo de este trabajo fue investigar la capacidad de pronóstico de la los métodos siguientes: modelos lineales (como ARX, ARMAX, salida de error y Box-Jenkins), y las redes neuronales. Los modelos utilizados variables meteorológicas y 24 h PM 10 la concentración de hoy en día como datos de entrada. Dado que la producción prevista por el modelo, la PM 24 h 10 concentración se obtiene, con el horizonte de predicción de hasta tres días antes. 2. Datos y la metodología 2.1. Datos Este estudio se basa en PM 10 los datos recogidos por la concentración de la Facultad de Química Ingeniería de la Universidad Federal de Uberlândia (UFU) durante los años de 2003, 2004 y 2005. Las muestras fueron tomadas con equipos de alto volumen de muestras periodos de 24 horas, cada tres días, de acuerdo con las normas establecidas por ABNT (Asociación Brasileña de Normas Técnicas). El equipo está situado en la estación central de autobuses de la ciudad de Uberlândia. Más detalles sobre los datos metodología de recolección se puede obtener en otra parte [9]. Se sabe que la concentración de contaminante atmosférico está fuertemente relacionada con las condiciones meteorológicas. Los estudios sobre la influencia de la meteorología condiciones de la concentración de contaminantes del aire se puede ver en Elminir y Hien et al. [10,11]. Los datos meteorológicos utilizados en el estudio fueron obtenidos en el

Página 3Predicción de la calidad del aire en Uberlândia, Brasil, el uso de modelos lineales y redes neuronales 3 estación climática del Instituto de Geografía de la UFU encuentra 2.07 kilometros lejos desde el lugar de PM 10 de muestreo. 2.2. Las redes neuronales NN son estructuras matemáticas que hacen uso de una combinación compleja de los pesos y las funciones para convertir las variables de entrada en una salida (predicción). NN son capaces de aprender de los patrones que se les presentan y de los errores se comprometen en el proceso de aprendizaje, por lo que, finalmente, debe identificar los patrones de nunca antes visto (generalización). En el estudio actual, el perceptrón multicapa (MLP) es una adaptación. Es el tipo más común de la red neuronal feedforward en la atmósfera ciencias [8]. MLP está compuesto de al menos tres capas de neuronas: la entrada

Page 35: Practical implementation of nonlinear time series methods.docx

capa, la capa oculta (s) y la capa de salida. La capa de entrada no juega función computacional sino que sirve simplemente para pasar el vector de entrada a la red. Cada unidad en la capa oculta resume sus aportaciones, los procesos con una función de transferencia y distribuye el resultado a la capa de salida. El entrenamiento de un MLP es el procedimiento mediante el cual los valores de los pesos individuales se determinan. Diferentes algoritmos de entrenamiento se podrían aplicar para minimizar el función de error, pero el más ampliamente utilizado es el algoritmo de retropropagación [6]. Este algoritmo es otra cosa que la aplicación de la gradiente de descenso método, usando como función objetivo la suma de errores cuadrados entre la producción neta y los datos de entrenamiento. 2.3. Los modelos lineales Un general de entrada-salida del modelo lineal de un sistema único de salida con la entrada uy y la salida se puede escribir [12]: B (q) C (q) Una y (q) (t) u (t) e (t) F (q) D (q) = + (1) donde e (t) es ruido blanco y con un un b b c c d d F F n 1 1 n n 1 1 n n 1 1 n n 1 1 n n 1

Page 36: Practical implementation of nonlinear time series methods.docx

1 n A (q) 1 aq aq B (q) bq bq C (q) 1 cq cq D (q) dq 1 dq F (q) 1 fq fq - - - - - - - - - - = + + + = + + = + + + = + + + = + + + ... ... ... ... ... (2)

Página 44 TSLira et al. La estructura general puede tener hasta 32 conjuntos de diferentes modelos, dependiendo de cuál de los cinco polinomios A, B, C, D y F se utilizan. Sin embargo, sólo cuatro posibilidades se utiliza aquí, y que se resumen en la Tabla 1. Tabla 1. Algunos modelos como casos especiales de la ecuación (1).. Nombre del modelo estructura ARX ARMAX OE (salida-error) BJ (Box-Jenkins)

Page 37: Practical implementation of nonlinear time series methods.docx

Polinomios utilizados en la ecuación (1). A, B, A, B, C B, F B, C, D, F 3. Resultados y discusión Primero de todo, un análisis de regresión múltiple (nivel de significación de p <0,05) aplicado a revelar los parámetros atmosféricos controlar las variaciones día a día de PM 10 . Temperatura ( o C), humedad relativa (%), precipitación (mm), velocidad del viento (M / s), dirección del viento (grados, 0 de N) y el sol (h), además de los días de la semana, se demostró que los parámetros más importantes. Podrían explican el 64% de las varianzas de las 24 h PM 10 concentraciones. El conjunto de datos (total = 341) ya están normalizados (media = 0 y desviación estándar = 1) se dividió de la siguiente manera: 2 / 3 para la formación / valoración y 1 / 3 para su validación. Tenga en cuenta que la dirección del viento y las variables dicotómicas día se utiliza el seno y el coseno funciones. Esto permitió a los algoritmos neuronales para que funcione correctamente a pesar de las discontinuidades en las señales cíclicas original [7]. El software se utiliza Matlab. Los modelos lineales se ajustaron mediante el sistema La identificación de herramientas. Para el modelo de red neuronal (MLP), el algoritmo de aprendizaje utilizada fue de Levenberg-Marquardt retropropagación (Neural Network Toolbox). Las funciones de transferencia seleccionados para las capas se tangente hiperbólica para el capa oculta y lineal de la capa de salida. El número de neuronas en el capa oculta y de retardo de entrada para MLP, y las órdenes de los polinomios y retrasos de los modelos lineales se encuentra el óptimo de validación cruzada. Para la evaluación del desempeño modelos, tres medidas estadísticas, que se utilizan más frecuentemente en la literatura, fueron seleccionados, a saber, la media de la raíz cuadrados error (RMSE), el coeficiente de determinación (R 2 ) Y el índice de acuerdo (d). A pesar de que la R 2 tiene sus defectos conocidos en ciertas situaciones [13], esta medida fue utilizada con el fin de mantener la compatibilidad con otros los estudios. El rendimiento de todos los modelos se comparan sobre la base de la predicho y el observado PM 10 concentración. Los resultados se resumen en la Tabla 2.

Página 5Predicción de la calidad del aire en Uberlândia, Brasil, el uso de modelos lineales y redes neuronales 5 Tabla 2. Indicadores de desempeño de los modelos ARX

Page 38: Practical implementation of nonlinear time series methods.docx

ARMAX OE BJ MLP RMSE 0,5078 0,5044 0,6495 0,4039 0,5424 d 0,9320 0,9318 0,8795 0,9629 0,9140 R 2 0,7799 0,7842 0,6394 0,8120 0,7591 Otras comparaciones se pueden encontrar en la figura. 1, donde los diagramas de dispersión son hechas para el actuaciones de los dos modelos: BJ y MLP. Para un gráfico de dispersión, el perfecto caso de la predicción frente a la observación se debe mostrar de una intercepción de cero y un unidad de la pendiente. De acuerdo a las parcelas se muestra en la Fig. 1 y el desempeño de la indicadores en el Cuadro 2, los cinco modelos mostraron una capacidad de buen pronóstico para la medida PM 10 concentración, pero Box-Jenkins modelo claramente dio lo mejor los resultados. Fig.1 Los diagramas de dispersión de observar y predecir PM 10 las concentraciones de: (a) El camionero y MLP (b). Con el fin de visualizar el rendimiento del modelo de Box-Jenkins en el estimación de los coeficientes del polinomio y MLP en la formación, la comparación entre predicho frente a los datos observados se presentan en la Fig. 2. La gráfica presentación muestra a un acuerdo bastante bueno entre la predicción y la PM observado 10 concentración, tanto para los datos de estimación / formación y para la validación de datos. 4. Conclusiones Cinco modelos para predecir la calidad del aire con fines fueron evaluados aquí con 24 h PM 10 las concentraciones y las variables meteorológicas básicas de la ciudad de Uberlândia (Brasil) recogidos durante los años de 2003-2005. Los resultados mostró que bastante buenas estimaciones se puede lograr por todos los modelos, pero Box-Jenkins modelo que se presenta el mejor rendimiento. Los modelos propuestos pueden ser utilizado, entre otros, para el gobierno público local, como herramienta de control

Page 39: Practical implementation of nonlinear time series methods.docx

Página 66 TSLira et al. del tráfico urbano y también como un mecanismo de formulación de políticas públicas preventivas la política en las áreas de salud y la movilidad urbana. Fig.2 prevista (línea azul) frente a observados (línea negro) datos sobre la formación / estimación y predicho (línea roja) frente a los datos observados (línea de negro) en la validación de: (a) El camionero y MLP (b). Agradecimientos Los autores desean agradecer al Instituto de Geografía de la UFU para proporcionar los datos meteorológicos, así como el Euclides Antonio Pereira Lima proporcionar la PM 10 Los datos de concentración