Técnicas numéricas para el procesamiento de datos reales Antonio Turiel Instituto de Ciencias del...
-
Upload
javier-parra-perez -
Category
Documents
-
view
218 -
download
0
Transcript of Técnicas numéricas para el procesamiento de datos reales Antonio Turiel Instituto de Ciencias del...
Técnicas numéricas para el procesamiento de datos reales
Antonio Turiel
Instituto de Ciencias del Mar de Barcelona
Sumario• Introducción
• Caracterización probabilística básica: el histograma
• Cálculo de los momentos de una distribución
• Estudio de las correlaciones a dos puntos
• Análisis espectral
• Análisis en componentes principales (PCA)
• Inferencia Markoviana
• Wavelets
IntroducciónRequisitos básicos para este taller:
• Sólida formación de Matemáticas y Probabilidad
• Nociones de programación
Todos los ejemplos mostrados en este taller han sido obtenidos usando programas C cuyo código fuente está a la disposición de los estudiantes.
¿Por qué se necesita programación en el análisis de datos?
El análisis de datos se basa en la aplicación repetitiva de reglas de cálculo (generales o deducidas de modelos)
1.- Desempaquetarlos
¿Cómo usar los programas?
¿Cómo usar los programas?
2.- Cambiamos de directorio y compilamos
¿Cómo usar los programas?
3.- Ejecutamos el programa y verificamos el resultado
¿Por qué se hacen análisis de tipo estadístico?
Porque se pretende inferir principios universales, no dependientes de realizaciones particulares
¿Deterministao
aleatorio?
Caracterización probabilística básica: el histograma
Aproximación empírica a la función de densidad de probabilidad
Muestreo:
Buscamos el máximo y mínimo empíricos de esa variable
Dividimos el rango total en B cajas, de ancho:
Los lados de las cajas son de la forma:
Los puntos centrales de cada caja son de la forma:
o sea,
Eventos por caja:
Probabilidad estimada:
Si N, Ni son suficientemente grandes:
Ejemplo
Histograma B = 100
Problemas típicos: Si la distribución es muy curtótica
Histograma de la derivada
Solución: Truncar el rango estudiado
Criterio k :
con
31
… aunque se ha de tener cuidado de no cortar demasiado
Otro problema es el muestreo limitado de las colas
Criterio de significación sencillo:
Cálculo de los momentos de una distribución
Los momentos determinan propiedades de la distribución
Media:
Varianza:
Sesgo:
Curtosis:
Si los momentos enteros positivos no divergen demasiado rápido, el conjunto de todos los define
Estimación empírica:
En la práctica, es imposible obtener estimaciones precisas para p≥3
Teorema:
Análogamente,
Pero, obviamente:
Realmente, ¿es tan grave este problema?
Densidad de momento p:
Densidad empírica de momento p:
Densidades empíricas
p=1p=2p=3p=4
Estimar p=3 requiere millones de datos; p=4 miles de millones
Estudio de las correlaciones a dos puntos
Estadística de orden 2, pero distribuida espacialmente.
Correlación a dos puntos:
Si hay estacionariedad espacial (invariancia de traslación)
En este caso, la correlación coincide con la autocorrelación
Se puede simplificar el cálculo usando transformadas de Fourier
donde la transformada de Fourier se calcula:
Sobre datos numéricos, se puede usar la FFT
La inversa es igual, cambiando el signo
Inconveniente: la transformada de Fourier numérica es, en realidad, una serie de Fourier
donde la unidad de frecuencia es:
Las series son periódicas (aliasing).
La segunda mitad de los índices representan frecuencias negativas: si entonces con
La transformada de Fourier discreta de la autocorrelación discreta es el cuadrado del módulo de la transformada.
El aliasing ha de ser tratado correctamente
Función de autocorrelación discreta:
1.- Se extiende la secuencia xn con igual número de ceros:
2.- Se define la máscara de los datos:
3.- Se calculan las autocorrelaciones vía FFT:
4.- Se estima la autocorrelación contínua:
Correlación a dos puntos de la señal de ejemplo
Correlación a dos puntos de las derivadas
Correlación de los valores absolutos de las derivadas
Análisis espectralGeneralmente el análisis de la autocorrelación se aborda directa en el espacio de Fourier:
Análisis de componentes principales (PCA)
Varias series temporales:
Modelo lineal: Existen M causas independientes, que se combinan linealmente para formar las series observadas.
¿Cómo se extraen las causas? Decorrelando. Fijamos
Matriz de correlación:
Diagonalizando:
Se aplica a los datos para extraer las componentes principales
Datos originales:
Derivadas:
Inferencia MarkovianaSólo estudiaremos el grado de dependencia mutua.
Cantidad de información compartida o información mutua:
Entropía o cantidad de información:
Datos originales:
Derivadas:
Extremos empíricosCriterio 3
Wavelets¿Qué es una wavelet?
Una wavelet (wave particle) es una función oscilatoria elemental y localizada.
¿Para qué sirve una wavelet?
Las wavelet tienen dos aplicaciones principales:
• Análisis• Representación
Las wavelets están muy bien adaptadas para estudiar sistemas sin escala definida, aunque también son útiles en otras situaciones.
¿Cómo se usan las wavelets?
Las proyecciones de wavelet corren sobre todas las posiciones y escalas de observación
Esc
ala
Posición
Por medio de proyecciones de wavelet
Se pueden reconstruir las señales a partir de sus proyecciones de wavelet
Pero tal representación en wavelets es extremadamente redundante (una serie 1D se vuelve una función 2D, una imagen 2D se convierte 3D, etc)
…si la wavelet es admisible
Por ello se buscan subselecciones de escalas y posiciones más eficientes. Paradigma: caso diádico
Representación:
Análisis:
Caracterización de propiedades locales de una señal
A cada punto de la señal q se le asigna un exponente h invariante de escala: el exponente de singularidad
Donde es una wavelet sobre la que se proyecta la señal
Paradigma: Análisis de singularidades
Imagen SST Pathfinder (Cabo Hatteras, 8 de Mayo, 2000)
Exponentes de singularidad asociados
El análisis de singularidades sirve para detectar estructuras, independientemente de la escala y la amplitud
¡GRACIAS POR SU ATENCIÓN!