1 / 33

Análisis Estadístico de Datos Climáticos

Análisis Estadístico de Datos Climáticos. Análisis de espectro singular. Facultad de Ciencias – Facultad de Ingeniería 2009. M. Barreiro – M. Bidegain – A. Díaz. Análisis de Espectro Singular. Motivación.

Download Presentation

Análisis Estadístico de Datos Climáticos

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. Análisis Estadístico de Datos Climáticos Análisis de espectro singular Facultad de Ciencias – Facultad de Ingeniería 2009 M. Barreiro – M. Bidegain – A. Díaz

  2. Análisis de Espectro Singular Motivación El análisis de espectro singular (SSA en inglés) está diseñado para extraer información de series temporales cortas y “ruidosas”. Se destaca de métodos espectrales clásicos en que construye auto-elementos“adaptados a los datos”.

  3. Anomalías Salto Grande OND 1909-2007 Indice de Oscilación Sur (mensual) 1942-1999

  4. Dominio temporal vs. Dominio espectral La función de autocorrelación (que se calcula en el dominio temporal) y el espectro de potencia (o densidad espectral) están vinculados a través de la transformada de Fourier. El dominio espectral está motivado por el hecho de que el comportamiento más regular (y por tanto más predecible) de una serie temporal, es periódico. En el dominio espectral, se destacan las contribuciones de frecuencias predominantes y de sus períodos asociados. T período (se mide en segundos, meses, años, etc) f frecuencia (ciclos por segundo, o por mes, etc.)

  5. Dominio espectral Dominio temporal

  6. La variabilidad del sistema climático está caracterizada por un espectro de potencia que presenta: 1) una componente de banda ancha de “color cálido”, con potencias creciendo de las altas a las bajas frecuencias. 2) una componente de línea asociada con forzantes puramente periódicos, (anual y diario). 3) varios picos anchos que podrían surgir de forzantes menos periódicos (ej., variabilidad solar), oscilaciones internas, o una combinación de ambas.

  7. Series de tiempo y dinámica no lineal El sistema climático tiene un límite de predictibilidad de un par de semanas para el tiempo meteorológico, debido a sus inestabilidades y no linealidades. Aun cuando una serie provenga de un sistema determinístico caótico, su comportamiento,para escalas de tiempo relativamente grandes, no es completamente irregular. Algunas regularidades, p. ej. cuasi-periodicidades, pueden contribuir a una parte importante de su variabilidad.

  8. Series de tiempo y dinámica no lineal • Al mismo tiempo, el sistema climático presenta algunas • cuasi-periodicidades, como: • El Niño -Oscilación Sur (en océano- atmósfera) (~ 2 a 5 años). • Las oscilaciones de 40 a 50 días en la atmósfera tropical. Estas cuasi-periodicidades pueden, en principio, facilitar la predicción basada en el análisis de series temporales.

  9. Aumento de la relación señal-ruido • El SSA permite extraer información de la serie dada, descomponiéndola en patrones elementales aditivos, usando filtros adaptados a los datos. • Esos patrones pueden ser: tendencias, patrones oscilatorios, y ruido. • Algunas cuasi-periodicidades pueden contribuir a una parte importante de su variabilidad. • Las tendencias no tienen por qué ser lineales, y los patrones oscilatorios (no necesariamente armónicos) pueden estar modulados en amplitud y fase.

  10. Anomalías Salto Grande OND (1909-2007)

  11. Para los cálculos, utilizamos el SSA-toolkit de la Universidad de California Los Angeles disponible en: www.atmos.ucla.edu/tcd/ssa/

  12. (t = 1,...,N´=N - M + 1) Etapas del SSA Tiene bastante en común con el ACP, pero tiene diferencias importantes. • Se construye la secuencia de vectores desfasados: Dada una serie de tiempo X(t):

  13. ¿Cómo se elige M (longitud de “ventana”)? No hay una respuesta única. Surge de un compromiso: cantidad de información a extraer (mayor M) vs. grado de confianza estadística en esa información (N/M mayor ==> M menor). Aquí elegimos M = 20 porque los seudo-períodos que aparecen son bastante menores, como veremos. Es recomendable experimentar con más de un valor de M.

  14. Matriz de covarianza Una estimación de la matriz de covarianza CMxM es: (matriz de Toeplitz) (Hay otras estimaciones posibles) Los autovalores y autovectores son la solución de:

  15. Se construye la matriz de covarianza y se hace un análisis de componentes principales, obteniendo valores propios y funciones empíricas ortogonales (EOFs). Valores propios

  16. Ejemplo de EOFs (M=60)

  17. Funciones empíricas ortogonales • Este método construye funciones empíricas ortogonales (EOFs, de longitud M) que son la contraparte de los senos y cosenos del análisis espectral clásico de Fourier. • La ventaja sobre senos y cosenos es que los EOFs no son necesariamente funciones armónicas y, al ser adaptados a los datos, pueden capturar formas de oscilación altamente anarmónicas. • Estas EOFs suelen presentarse en pares, con • frecuencias y valores propios muy similares.

  18. Los componentes principales se calculan proyectando adecuadamente la serie temporal sobre los EOFs: Los PCs tienen longitud N-M+1

  19. Método de Monte Carlo para SSA En las señales climáticas, típicamente el ruido de fondo no es “blanco”, sino más bien “rojo”, es decir que presenta potencias mayores en frecuencias más bajas. Utilizamos aquí el término “ruido rojo” en el sentido restrictivo de un proceso autoregresivo de orden 1, AR(1). La idea es evaluar si, con algún nivel de significancia estadística, la serie original se distingue de un AR(1). Para ello, se puede hacer una simulación por el método de Monte Carlo.

  20. Se proyectan las matrices de covarianzas sobre la base de autovectores: y se compara con: Método de Monte Carlo para SSA Se ajusta un proceso AR(1) (“ruido rojo”) a la serie X(t) : donde a1,  y X0 se estiman a partir de la serie original. Se genera un ensemble de muchos datos simulados de ruido rojo y, para cada realización se calcula una matriz de covarianza .

  21. Reconstrucción parcial de la serie • A partir de los EOFs y las componentes principales asociadas (p. ej. las que explican más varianza), se calculan series cuya suma aproxima a la serie original, llamados reconstruidos (RCs). Rec 5 + 6 1980-2007 Rec 3 + 4 1980-2007 Rec 1 + 2 1980-2007

  22. 6.1 años 3.6 años 2.4 años Los reconstruidos suelen tener la propiedad de presentar un espectro de banda angosta (es decir que hay una frecuencia predominante). Salto Grande OND: Espectro de serie reconstruida con 6 componentes 1909-2007 (estimado por el método de máxima entropía).

  23. 4 pasos para establecer confianza creciente en un resultado espectral (como, p. ej., la existencia de un modo oscilatorio) • 1) Aplicar tests para un método espectral dado • 2) Utilizar otros métodos espectrales y sus tests. • 3) Encontrar el mismo modo en otras series de interés • 4) Dar una explicación física convincente (el desafío mayor)

  24. Salto Grande: Serie original vs reconstruido 1 a 6 (1909 - 2007) Varianza explicada: 46%

  25. Consecuencias para la predicción de fenómenos climáticos • La naturaleza cuasi-cíclica de los RCs implica predictibilidad. • Se puede hacer una predicción robusta de cada RC, ajustando un proceso autoregresivo de bajo orden a cada uno, y extendiéndolo hasta el instante deseado. • Para elegir los RCs hay un compromiso entre la cantidad de varianza que uno espera predecir, y la confiabilidad de la predicción. Esta última indicaría elegir sólo los RCs oscilatorios. • La exactitud de la predicción dependerá en cada caso de cuán bien representan los datos de la serie al comportamiento regular del sistema.

  26. Ejercicio de predicción lineal para 2008-2013 Dada la naturaleza oscilatoria de cada reconstruido, se ajusta un proceso auto-regresivo de orden K (AR(K)) a cada uno de ellos y se extrapola al futuro. No hay una forma única de determinar el orden K del AR, siendo conveniente que no sea demasiado grande pues puede provocar inestabilidades numéricas.

  27. Hicimos pruebas con valores de K entre 1 y 15 para el período 1909-2002, y realizamos “predicciones” de los reconstruidos para 2003 a 2007. Así obtuvimos un 80% de coincidencias en los signos de anomalías entre la suma de reconstruidos “pronosticados” y observados para K entre 2 y 15. Finalmente, elegimos K = 5.

  28. Salto Grande OND: Reconstruido y su predicción 2008-2013

  29. Pero queremos predecir la serie de anomalías que tiene mucho más varianza…

  30. Ajuste lineal entre reconstruidos y anomalías

  31. Salto Grande OND: Anomalías 1980-2008 y predicción 2008-2013

  32. Conclusiones El SSA es una herramienta útil de diagnóstico para identificar señales cuasi-periódicas en series relativamente cortas y “ruidosas”. La naturaleza oscilatoria de esas señales implica la existencia de predictibilidad potencial. La realización de pronósticos útiles usando esta técnica parece promisoria y, a la vez, presenta limitaciones a superar.

More Related