Post on 16-Nov-2018
MÉTODOS NÃO-GAUSSIANOS DE INFERÊNCIA E DE
SEPARAÇÃO DE FONTES ESTATÍSTICAS COM
APLICAÇÃO AO DIAGNÓSTICO E PREDICTABILIDADE DE
ÍNDICES DE SECA
Carlos L. Pires1, Rui P. Perdigão2 , Ricardo M. Trigo1, Andreia S. Ribeiro1
Resumo
Apresentam-se alguns métodos de inferência estatística de índices climáticos
nomeadamente de seca, a partir de variáveis estatísticas exploratórias da
circulação geral atmosférica e oceânica nos casos em que as distribuições de
probabilidade conjuntas diferem da aproximação Gaussiana. Em particular,
apresentam-se os conceitos de correlação assimétrica e de esperança condicional
em função de correlações não lineares. Mostram-se métodos de decomposição de
campos em fontes estatísticas independentes escalares e vetoriais de baixa
dimensão (díadas e tríadas) com recurso a funções contraste simuladoras da
neguentropia de Shannon usando a Análise de Componentes Independentes (ICA)
e a Análise de Subespaços Independentes (ISA). Essas fontes permitem definir
índices não lineares caracterizadores da variabilidade não-Gaussiana, utilizáveis
para inferência, previsão e downscaling. A decomposição em componentes
independentes e díadas é aplicada ao campo do geopotencial aos 500 hPA e à
função de corrente de um modelo atmosférico quase-geostrófico. As distribuições
não-Gaussianas de campos geofísicas permitem extrapolar o conceito clássico de
teleconexão às interações múltiplas entre 3 ou mais regiões ou projeções em
padrões que são descorrelacionadas duas a duas. A presença de interações
triádicas na atmosfera e oceano é posta em evidência, em particular entre modos
de variabilidade do Oceano Pacífico Norte e Sul em que tomam parte o El-Niño, a
Oscilação Decadal do Pacífico e o Dipolo do Pacífico Sul. Essa interação ocorre
em situações persistentes de ressonância entre tripletos de frequências
constituindo uma fonte de predictabilidade não linear, potencialmente útil na
previsão estatística e inferência de índices de seca.
Abstract
We present some methods of drought statistical inference issued from exploratory
variables of the general atmospheric and oceanic circulation in the cases of non-
1 Instituto Dom Luiz (Laboratório Associado), DEGGE, Faculdade de Ciências da Universidade de
Lisboa, Campo Grande, 1749-016 Lisboa, Portugal. Email: clpires@fc.ul.pt 2 Institute of Hydraulic Engineering and Water Resources Management, Vienna University of
Technology, Vienna, A-1040, Austria.
Predictabilidade Sazonal de Secas
Gaussian joint probability distributions. In particular, we have shown the concepts
of asymmetric correlation and conditional expectation as a function of nonlinear
correlations. We also put in practice methods of the field decomposition into
scalar and vectorial sources by recurring to contrast functions that are proxies of
the source’s Shannon negentropy using the Independent Component Analysis
(ISA) and Independent Subspace Analysis (ISA). Those sources allow for
defining nonlinear defined indices better characterizing the non-Gaussian
variability and usable as preditors statistical forecasting, downscaling and
inference. ICA and ISA is applied both to the z500hPa and to a model’s stream
function fields. Moreover, joint non-Gaussianity allow for extrapolating the
classical teleconnection concept to multiple interactions where three or more
remote regions or pattern indices are pairwise uncorrelated but which are not
independent as a whole. The presence of triadic interactions is put in evidence, in
particular in the Pacific North and South linking El-Niño, Pacific Decadal
Oscillation (PDO) and the South Pacific Ocean Dipole (SPOD). This interaction
occurs on situations of persistent triadic wave resonance for certain triplets of
frequencies, thus constituting a source of nonlinear predictability which is
potentially useful in the predictability and downscaling of drought indices.
1. Introdução
Os campos físicos que caracterizam o estado do geofluido oceânico-atmosférico,
tais a pressão, temperatura, velocidade, humidade e salinidade, podem considerar-
se do ponto de vista da climatologia estatística como vetores formados por
variáveis escalares estocásticas. As séries temporais multivariadas, obtidas, quer
de observações, reanálises (e.g. ERA40, ERA-Interim, XX Century ReAnalysis)
ou corridas de modelos, fornecem amostras, necessariamente finitas às quais se
podem aplicar técnicas de estatística multivariada com múltiplos propósitos e
utilidades, em particular no âmbito da presente compilação sobre a
predictabilidade e inferência de índices de seca e precipitação em várias escalas
espácio-temporais. Algumas dessas técnicas estatísticas recorrem apenas a
informação de momentos estatísticos de primeira ordem (climatologias) e de
segunda ordem, sintetizados numa matriz de covariância entre um dado conjunto
de variáveis.
Cabem nessas técnicas as chamadas técnicas de valores próprios que recorrem a
análise singular de matrizes de covariância, tais como: a) a Análise de
Componentes Principais (PCA - Principal Component Analysis), aplicada na
redução da dimensionalidade ou compressão de informação de um campo,
exprimindo-o em termos de um reduzido número de variáveis escalares ou
Componentes Principais (PCs); b) a Análise de Correlação Canónica (CCA -
Canonical Correlation Analysis) que procura as combinações lineares de um e
outro campo que maximizem a correlação entre elas. Podemos enumerar também
a SSA (Singular Spectrum Analysis) e a MSSA (Multi-Channel SSA) como
generalizações da PCA para variáveis desviadas temporalmente ou seja no espaço
dos atrasos.
A imposição de informação estatística limitada leva a certas distribuições
Métodos não-Gaussianos de inferência com aplicação à predictabilidade de seca
suficientes de probabilidade. Por exemplo, a distribuição de probabilidade de um
vetor aleatório Nx com maior grau de incerteza ou máxima entropia de
Shannon (1948), constrangida a um certo vetor média xμ e a uma certa matriz de
covariância Cxx
é a distribuição multivariada Gaussiana cuja densidade de
probabilidade (pdf) é:
1/2 112
( ) [(2 ) det )] exp[ ( ) ' ( )] ;N NC C x xx x xx x
x x μ x μ x (1)
onde a plica ( ' ) significa transposto de matriz ou vetor. Desse modo toda a
inferência estatística de parte desse vetor aleatório (e.g. médias condicionais ou
densidades de probabilidade condicionais) é obtida recorrendo a estatísticas da
distribuição global (1). Por isso as referidas técnicas, uma vez que usam apenas
xμ e C
xx, apresentam o seu melhor desempenho quando as pdfs conjuntas são
Gaussianas, visto que não usam mais do que as estatísticas suficientes da
distribuição Gaussiana. Todavia, a Gaussianidade é uma hipótese que não se
verifica rigorosamente na prática conforme se infere da análise estatística
exploratória de séries temporais de vários campos atmosférico-oceânicos. De
fcato observam-se desvios em relação às pdfs Gaussianas em diversos campos
como a pressão, precipitação, temperatura da superfície do mar (SST) etc. (Pires e
Perdigão 2007; Sura e Sardeshmukh 2008; Perron e Sura 2013). Desse modo é
necessário desenvolver técnicas estatísticas, ditas não-Gaussianas, que sejam
apropriadas e otimizadas quando aplicadas noutras distribuições de probabilidade
que não as Gaussianas e que recorram a outras informações da distribuição,
nomeadamente sobre assimetrias, multimodalidades, correlações não lineares,
geralmente contidas nos cumulantes das distribuições de ordem igual ou superior
a três (Comon 1994).
Apresentaremos de seguida três exemplos dessas técnicas a título ilustrativo e
com aplicações práticas. O primeiro refere-se ao diagnóstico de correlações
assimétricas (Pires e Perdigão 2007; Chordia et al. 2011) entre índices de
circulação geral atmosférica e médias mensais da precipitação. O segundo
exemplo é sobre a decomposição de um vetor multivariado distribuído não-
Gaussianamente em sub-vetores (fontes) maximamente independentes entre si do
ponto de vista estatístico, recorrendo a técnicas BSS (Blind Source Separation)
(Yu et al. 2014). A separação em fontes escalares e diádicas, formadas por 2
componentes, bem como a sua interpretação física é feita sobre o campo
geopotencial observado e sobre a função de corrente de um modelo atmosférico.
A terceira aplicação faz recurso à teoria da informação (Cover e Thomas 1991)
para a identificação de interações não lineares múltiplas entre 3 ou mais variáveis
descorrelacionadas duas a duas mas que não são globalmente independentes. Este
tipo de interações quando aplicadas a campos geofísicos generaliza o conceito
clássico de teleconexões. Estas são devidas a correlações lineares entre dois
pontos remotos (e.g. correlação negativa entre O El Niño e a ocorrência de
monção na Índia). As teleconexões generalizadas recorrem ao conceito de tríada
não-Gaussiana, uma vez que para tal concorrem três em vez de duas variáveis
globalmente dependentes entre si. As fontes vetoriais diádicas e triádicas sugerem
Predictabilidade Sazonal de Secas
variáveis exploratórias não lineares que são boas descritoras da variabilidade não-
Gaussiana servindo de boas candidatas para a inferência de subescala
(downscaling) e previsão estatística de indicadores de seca e outros.
2. Correlações assimétricas
2.1. Definições e propriedades
A resposta sazonal climática da superfície terrestre à dinâmica atmosférica é em
geral resultante de interações físicas, geralmente expressas em termos de fluxos de
massa, energia ou outras grandezas extensivas. Essa resposta pode ser avaliada
pela correlação linear de Pearson cor(X,Y) entre índices sinópticos de tempo,
representados por uma variável escalar X (e.g. SOI, NAO index, Niño3) e
elementos climáticos genéricos à superfície, denotados pela variável Y (e.g.
Precipitação Mensal, índices de seca). No entanto a dependência da variável Y a
estimar (preditando) em relação à variável dada X (preditor) pode não ser a mesma
em qualquer sub-domínio de variação de X, sendo a correlação de Pearson
insuficiente para descrever relações não lineares entre X e Y bem como diferenças
na sensibilidade de Y em certos quantis de X, nomeadamente nos regimes positivo
(X+) e negativo (X-) do índice dinâmico X separados pela sua mediana MX. De
seguida propor-se uma resposta a este problema.
Admitamos sem perda de generalidade X, Y centrados e normalizados (média nula
e variância unitária). Propõe-se uma decomposição da correlação cor(X,Y) (Pires e
Perdigão 2007) através de uma média pesada:
2 1 1
, ; ; ; 2 12
Mcor X Y c t t t
(2)
em que as ‘pseudo-correlações’ intervenientes definem-se como:
; ;2 2
M X Y X YM
c c ct t t
(3)
em que ( ) ( | )M X Xc E Y X M E Y X M é a chamada correlação central, dada
pela diferença de médias compósitos de Y , avaliadas respetivamente para X acima
e abaixo da mediana MX. As grandezas ( , )Xc cor X Y X M e
( , )Xc cor X Y X M são correlações assimétricas condicionadas a valores,
respetivamente acima e abaixo do quantil 50% de X. Temos
ainda1/2
[( )]Y XY X M dado pelo desvio padrão de Y para X acima da
mediana, usando-se definições similares para Y , X e X . No caso de (X,Y)
terem uma distribuição conjunta Gaussiana bivariada com correlação c, então as
‘pseudo-correlações’ ou na verdade os testes estatísticos (3) , ,Mt t t igualam a
correlação c e além disso 2 2 21Y Y c pelo que as diferenças
;t c t c funcionam como desvios em relação à Gaussianidade bivariada. Uma
medida conjunta de assimetria da correlação é dada pela medida:
Métodos não-Gaussianos de inferência com aplicação à predictabilidade de seca
1/2
2 2 2( , | ) 1 / 2c r X X XJ cor X Y X M c t t c
(4)
onde 2 1/2(1 ) ( )rY c Y cX é o resíduo normalizado da regressão linear do
preditando Y a partir de X. No caso Gaussiano bivariado tem-se 0cJ .
2.2. Resultados de correlações assimétricas entre índices de circulação
atmosférica e a precipitação mensal
De seguida mostram-se alguns diagnósticos das referidas estatísticas com
interesse no diagnóstico de índices de seca à escala mensal e para a região Euro-
Atlântica: (30ºN-70ºN, 80ºW-40ºE) (NAE) em que X são índices de circulação
geral atmosférica e Y são valores locais na referida região do SPI (Standardized
Precipitation Index) (McKee et al., 1995) à escala mensal e que é obtido da
precipitação mensal local por uma anamorfose Gaussiana isto transformando-a
numa variável com uma pdf Gaussiana standard (média nula, variância unitária).
Assim, para obter os índices atmosféricos, são calculadas as PCs de médias
mensais da pressão à superfície do mar SLP (sea level pressure) no Inverno
(período DJF de Dezembro a Fevereiro), obtidas a partir de reanálises NCEP-
NCAR no período 1951-2003 (Khistler et al., 2001) na grelha 2.5º(lat)x2.5º(long).
A primeira função empírica ortogonal (EOF1) (Fig. 1a), saída dessa análise
explica 34% da variância total do campo da SLP e projeta-se no padrão da NAO
(North Atlantic Oscillation) (Hurrell, 1995). A fase positiva (NAO+) e negativa
(NAO-) correspondem, grosso modo aos regimes ZO (zonal) e GA (Greenland
Anticiclone), obtidos por Michelangeli et al. (1995) por análise de clusters do
geopotencial aos 700 hPa. A segunda EOF (Fig. 1b) explica 21% da variância e
projeta-se no padrão RDG (Crista Atlântica). As fases positiva e negativa
projetam-se respetivamente nos regimes AR (Atlantic Ridge) e BL (Blocking)
(Michelangeli et al., 1995).
A terceira EOF (Fig. 1c) corresponde ao regime GS (dipolo Gronelândia-
Escandinávia) e também tem projeções parciais nos regimes referidos, sobretudo
AR e BL.
As variáveis X são assim as três primeiras PCs e Y o SPI mensal local ao longo da
região NAE. Deste modo calculou-se o campo da correlação, dita total
( , )c cor X Y e dos testes ,t t , comparáveis diretamente com c e ainda da
medida de assimetria cJ . Os diagnósticos por essa ordem são mostrados para
X=PC1 (primeira PC) nas Figs. 2a-d; para X=PC2 (segunda PC) nas Figs. 3a-d e
para X=PC3 (terceira PC) nas Figs. 4a-d.
Regiões estatisticamente significativas das correlações total e assimétricas e onde
cJ é significativamente diferente de zero (regiões onde a pdf de (PC,SPI) tem uma
correlação assimétrica), são marcadas em tons de cinzento nas Figs. 2-4. O nível
de confiança usado é de 95% sendo os quantis de significância obtidos por
simulações de Monte-Carlo (ver Pires e Perdigão 2007 para detalhes).
Predictabilidade Sazonal de Secas
-80E -70E -60E -50E -40E -30E -20E -10E 0E 10E 20E 30E 40E
SLP (DJF) - EOF1
30N
40N
50N
60N
70Na) b) c)
-80E -70E -60E -50E -40E -30E -20E -10E 0E 10E 20E 30E 40E
SLP (DJF) - EOF2
30N
40N
50N
60N
70N
-80E -70E -60E -50E -40E -30E -20E -10E 0E 10E 20E 30E 40E
SLP (DJF) - EOF3
30N
40N
50N
60N
70N
-80E -70E -60E -50E -40E -30E -20E -10E 0E 10E 20E 30E 40E
SLP (DJF) - EOF1
30N
40N
50N
60N
70Na) b) c)
-80E -70E -60E -50E -40E -30E -20E -10E 0E 10E 20E 30E 40E
SLP (DJF) - EOF2
30N
40N
50N
60N
70N
-80E -70E -60E -50E -40E -30E -20E -10E 0E 10E 20E 30E 40E
SLP (DJF) - EOF3
30N
40N
50N
60N
70N
-80E -70E -60E -50E -40E -30E -20E -10E 0E 10E 20E 30E 40E
SLP (DJF) - EOF1
30N
40N
50N
60N
70Na) b) c)
-80E -70E -60E -50E -40E -30E -20E -10E 0E 10E 20E 30E 40E
SLP (DJF) - EOF2
30N
40N
50N
60N
70N
-80E -70E -60E -50E -40E -30E -20E -10E 0E 10E 20E 30E 40E
SLP (DJF) - EOF3
30N
40N
50N
60N
70N
Fig. 1. Mapa das três EOFs dominantes das médias mensais da SLP no trimestre
Dezembro-Fevereiro na região Euro-Atlântica: a) primeira EOF sobretudo projetada no
padrão da NAO; b) segunda EOF projetada no padrão RDG (Atlantic Ridge); c) terceira
EOF, projetada no padrão GS (dipolo Gronelândia-Escandinávia).Valores a cinzento
representam valores positivos.
Quanto ao campo da correlação total entre SPI e as PCs, verificamos que as zonas
de maiores valores absolutos diferem em geral entre as várias PCs, o que é de
esperar devido à correlação nula entre estas. Deste modo a inferência do SPI a
partir de PCs tem contribuições complementares.
Assim a NAO (PC1) tem maior influência nos segmentos zonais 40ºW-0ºE às
latitudes de 35ºN e 60ºN bem como na Gronelândia. A PC2 projetada sobre o
regime RGB exibe forte correlação negativa (~-0.6) com SPI no Atlântico Norte
Central a cerca de 50ºN no intervalo de longitudes 40ºW-10ºE. A PC3 exibe
correlações negativas com SPI na Escandinávia e Europa Central.
Quanto à diferença entre t+ e t-, (Figs. 2b-c, 3b-c 4b-c), conclui-se a existência de
regiões com fortes assimetrias, estatisticamente significativas entre as respostas da
precipitação às fases positiva e negativa dos regimes de tempo.
Métodos não-Gaussianos de inferência com aplicação à predictabilidade de seca
-80E -70E -60E -50E -40E -30E -20E -10E 0E 10E 20E 30E 40E
Global Correlation - PC1
30N
40N
50N
60N
70N
-80E -70E -60E -50E -40E -30E -20E -10E 0E 10E 20E 30E 40E
Test Positive Side Correlation - PC1
30N
40N
50N
60N
70N
-80E -70E -60E -50E -40E -30E -20E -10E 0E 10E 20E 30E 40E
Test Negative Side Correlation - PC1
30N
40N
50N
60N
70N
a) b)
c) d)
-80E -70E -60E -50E -40E -30E -20E -10E 0E 10E 20E 30E 40E
Assymetry Measure Jc - PC1
30N
40N
50N
60N
70N
Fig. 2. Mapa de estatísticas referentes à correlação entre a PC1 da SLP mensal (com
EOF dada pela Fig. 1a, projetada no regime NAO) e o SPI mensal local: a) correlação
total; b) teste t+, proporcional à correlação assimétrica para PC1 acima da mediana; c)
teste t-, proporcional à correlação assimétrica para PC1 abaixo da mediana; d) medida
de assimetria de correlação Jc. Nos mapas de correlação as zonas marcadas a são
negativas e os contornos tem espaçamento 0.2.
-80E -70E -60E -50E -40E -30E -20E -10E 0E 10E 20E 30E 40E
Global Correlation - PC2
30N
40N
50N
60N
70N
-80E -70E -60E -50E -40E -30E -20E -10E 0E 10E 20E 30E 40E
Test Positive Side Correlation - PC2
30N
40N
50N
60N
70N
-80E -70E -60E -50E -40E -30E -20E -10E 0E 10E 20E 30E 40E
Test Negative Side Correlation - PC2
30N
40N
50N
60N
70N
a) b)
c) d)
-80E -70E -60E -50E -40E -30E -20E -10E 0E 10E 20E 30E 40E
Assymetry Measure Jc - PC2
30N
40N
50N
60N
70N
Fig. 3. Idêntico à Fig. 2 para PC2 (com EOF dada pela Fig. 1b, projetada no regime
RDG).
-80E -70E -60E -50E -40E -30E -20E -10E 0E 10E 20E 30E 40E
Global Correlation - PC3
30N
40N
50N
60N
70N
-80E -70E -60E -50E -40E -30E -20E -10E 0E 10E 20E 30E 40E
Test Positive Side Correlation - PC3
30N
40N
50N
60N
70N
-80E -70E -60E -50E -40E -30E -20E -10E 0E 10E 20E 30E 40E
Test Negative Side Correlation - PC3
30N
40N
50N
60N
70N
a) b)
c) d)
-80E -70E -60E -50E -40E -30E -20E -10E 0E 10E 20E 30E 40E
Assymetry Measure Jc - PC3
30N
40N
50N
60N
70N
Fig. 4. Idêntico à Fig. 2 para PC3 (com EOF dada pela Fig. 1c, projetada no regime SC).
Como exemplos note-se para a NAO (EOF1), a intensificação das correlações no
Predictabilidade Sazonal de Secas
regime mais favorável à precipitação (NAO- no Atlântico Central e Península
Ibérica, NAO+ no flanco Norte-Oeste da Europa). Tal significa que nessas regiões
o índice NAO é mais eficaz no diagnóstico e previsão de condições de excesso de
precipitação que em condições deficitárias de precipitação ou de seca.
O contrário, ou seja a intensificação de correlações em regimes secos, ocorre
noutras regiões. Por exemplo o regime NAO+, favorável à intensificação do
Anticiclone dos Açores exibe maior correlação negativa que positiva na região
Mediterrânica e na Gronelândia ou seja maior sensibilidade e portanto capacidade
de inferência do SPI pela NAO em condições de seca. Um exemplo dessa
assimetria de correlação é mostrado pelo diagrama de dispersão (scatter-plot) com
os pares de ocorrências (PC1, SPI) durante todo o período analisado (Fig. 5) no
ponto (37.5ºN, 2.5ºE) situado nas ilhas Baleares Mediterrâneas em que a
correlação é c=-0.17, tM=-0.13, t-=+0.19 e t+=-0.65. As isolinhas da pdf estimada
diferem de elipses como ocorreria se a pdf conjunta fosse Gaussiana.
Na análise das correlações com PC2, a correlação total é negativa no Atlântico
Norte Central (maior ocorrência de precipitação no regime de bloqueio) e positiva
nas regiões Escandinava e Mediterrânea, o que é consistente com a ocorrência
favorável de precipitação nas zonas até onde migram as correntes de perturbações
(storm-tracks) que contornam a configuração de bloqueio na região Europeia
(regime BL correspondente a valores negativos de PC2). As maiores assimetrias
nas respostas em termos de SPI verificam-se nos bordos norte e sul do máximo da
EOF2 (Fig. 3d).
-3 -2 -1 0 1 2 3
Gaussian NAO
-3
-2
-1
0
1
2
3
Gaussia
n P
recip
itation A
tlantic (
AT
L)
-3 -2 -1 0 1 2 3
Gaussian NAO
-3
-2
-1
0
1
2
3
Gaussia
n P
recip
itation S
cotland (
SC
O)
-3 -2 -1 0 1 2 3
Gaussian NAO
-3
-2
-1
0
1
2
3
Gauss
ian P
reci
pita
tion B
ale
are
s (
BA
L)
-3 -2 -1 0 1 2 3
Gaussian NAO
-3
-2
-1
0
1
2
3
Gaussia
n P
recip
itation G
reenla
nd (
GR
E)
-3 -2 -1 0 1 2 3
Gaussian NAO
-3
-2
-1
0
1
2
3
Gaussia
n P
recip
itation E
ast U
SA
(E
US
)
-3 -2 -1 0 1 2 3
Gaussian NAO
-3
-2
-1
0
1
2
3
Gauss
ian P
reci
pita
tion R
uss
ia (
RU
S)
-3 -2 -1 0 1 2 3
0.5
1
1.5
2
-3 -2 -1 0 1 2 3
0.5
1
-3 -2 -1 0 1 2 3
0.5
1
1.5
-3 -2 -1 0 1 2 30
0.5
1
1.5
2
2.5
3
-3 -2 -1 0 1 2 30
0.5
1
1.5
2
2.5
-3 -2 -1 0 1 2 30
0.5
1
a) b)
c)d)
e)f)
Fig. 5. Scatter-plot das ocorrências de pares (PC1, SPI) no ponto (37.5ºN, 2.5ºE) situado
nas ilhas Baleares (Mediterrâneo). Note-se a maior correlação negativa em condições de
seca para o caso do regime NAO+. A PC1 está normalizada. Mostram-se igualmente
isolinhas da pdf.
A PC3 exibe uma forte correlação negativa na Europa do Norte e Central,
correspondente à escassez de precipitação (seca), sobretudo no regime de bloqueio
Europeu. Tal é notório, especialmente na correlação assimétrica para PC3 acima
da mediana através de t+ (Fig. 4b), o que mostra que nessa região, a PC3 é um
excelente indicador da intensidade de seca nas condições de bloqueio.
Métodos não-Gaussianos de inferência com aplicação à predictabilidade de seca
As correlações assimétricas c- e c+ em (3) fornecem apenas uma inferência parcial
do preditor X sobre o preditando Y. A estimativa linear ( )l lY f X de Y a partir de
X que minimiza o erro médio quadrático 2( ) [( ( ) ) ]MSE f E f X Y é dada por
( )lf X cX . No entanto esta só é ótima quando a distribuição bivariada é
Gaussiana. Prova-se no caso geral, Gaussiano ou não-Gaussiano que a referida
função é a esperança condicional: ( ) ( | )ngf X E Y X . Esta média condicional
pode ser estimada de várias formas: a) empiricamente para cada X a partir de
amostras num certo intervalo [X-, X+]; b) parametricamente admitindo uma
certa pdf bivariada obtida por métodos de máxima verosimilhança ou então c)
considerando a expansão de Edgeworth da pdf (X,Y) a partir de cumulantes
(Comon 1994) que são obtidos como funções de momentos simples e cruzados.
Neste caso e tomando o resíduo normalizado 2 1/2(1 ) ( )W c Y cX ,
descorrelacionado de X, tem-se 2 1/2( ) (1 ) ( | )ngf X cX c E W X onde a
esperança condicional é dada por uma função racional:
(2,1) (3,1)1 12 32 6( ) ( )
|1 U
k H X k H XE W X
X
(5)
com (3,0) (4,0) (3,0) (3,0)
3 4 6
1 1 10( ) ( ) ( )
3! 4! 6!U X k H X k H X k k H X onde ( , )k são
cumulantes do par (X,W) de ordem +, de variáveis centradas para as quais ( , ) ( )k E X W se 1≤+≤3 (e.g. skewness de X para =3, =0, aferidor da
assimetria da pdf de X) e (4,0) 4( ) 3k E X (kurtosis de X, positivo e/ou negativo
se a cauda da pdf for mais larga e/ou estreita que no caso Gaussiano). Os
cumulantes de ordem superior ou igual a 3 anulam-se no caso Gaussiano sendo
por isso medidas de não-Gaussianidade. As funções ( )nH X são polinómios de
Hermite, satisfazendo à relação recorrente:
0 1( ) 1 ; ( ) ( ) /n n nH X H X XH X dH dX .
3. Separação de fontes estatísticas não-Gaussianas
3.1. Noções introdutórias
A inferência climatológica de uma variável Y (e.g. um certo índice de seca) a
partir de um conjunto de preditores ou regressores X1, X2,….Xp é tanto mais eficaz
quanto mais independentes estatisticamente estes forem entre si, de modo a evitar
redundâncias de informação. Uma maneira de avaliar as dependências estatísticas
entre regressores é através das correlações lineares cor(Xi, Xj), ij ou não lineares
do tipo: cor(f(Xi), g(Xj)) onde alguma das funções f ou g é não linear ou seja
diferente de uma função afim. Todavia a medida mais geral de dependência
estatística é a multi-informação (Schneidman et al. 2003) ou generalização
multivariada da informação mútua (em p=2) e que se define como:
Predictabilidade Sazonal de Secas
1
1
,...,
1 ,..., 1
1
( ,..., ) log ... 0p
p
k
X X
p X X pp
Xk
I X X dX dX
(6)
que é não negativa, anulando-se sse todas as variáveis forem estatisticamente
independentes entre si, o que acontece quando a pdf conjunta 1 ,..., pX X for o
produto de todas as pdfs marginais.
É desejável que cada uma das variáveis preditoras tenha um significado físico,
correspondendo a um certo tipo de variabilidade climática interna ou forçada,
identificável e independente das outras. Se Y é condicionado fisicamente por um
determinado campo ou seja pelas estruturas que este exibe (e.g. o índice de seca Y
é influenciado pelos sistemas do campo da pressão) então os preditores devem
conter informação compactada relevante desse campo a menos de uma pequena
fração de variância total não explicada. Tal é executado pela PCA (Hannachi et al.
2007) de um campo e considerando um número p de PCs dominantes explicando
uma elevada fração (e.g. 90%) da variância total. No entanto as PCs, apesar de
descorrelacionadas por construção, podem exibir correlações não lineares e
informação mútua (6) não nula, sendo por isso não independentes entre si, exceto
quando a pdf conjunta é Gaussiana.
3.2. Análise de Componentes Independentes
Mostremos uma forma de obter variáveis independentes. Sem perda de
generalidade consideremos as PCs centradas e normalizadas: 1/2var( )i i iX PC PC . No sentido de obtermos um homeomorfismo
(transformação bijetiva) 1 1( ,..., ) ( ,..., )p pX X Y Y X Y gerando variáveis
descorrelacionadas com a mínima multi-informação 1( ,..., )pI Y Y entre si, vamos
considerar a família das transformações dadas por rotações ortogonais das
variáveis originais normalizadas: Y RXonde ' ' p R R RR I em que pI é a
matriz identidade de ordem p. Esta transformação preserva a descorrelação entre
variáveis rodadas e a sua normalização. Pode mostrar-se que a multi-informação
das variáveis transformadas é dada pelo Lema da Neguentropia aplicado a
escalares:
11( ) ( ) ( ) ( ,..., )
p
rot k pkJ J J J Y I Y Y
X Y (7)
onde J(.) é a neguentropia (sempre não negativa) dada pelo déficit de entropia de
Shannon ( ) [ log( )]H E X
X em relação à distribuição com a mesma média e
matriz de covariância. No caso de um vetor X Gaussiano constituído por escalares
normalizados e descorrelacionados entre si tem-se:
2( ) log(2 ) [ log( )]
pJ e E
XX (8)
A neguentropia é neste caso um invariante para rotações ortogonais representando
a compaticidade de X (Monahan e DelSole 2009) ou seja a medida em que a pdf
conjunta difere da pdf isotrópica Gaussiana. Essa diferença manifesta-se na forma
Métodos não-Gaussianos de inferência com aplicação à predictabilidade de seca
de correlações não lineares, assimetrias multivariadas, centroides de múltiplas
modas etc.
A relação (7) fundamenta a chamada Análise de Componentes Independentes ICA
(Independent Component Analysis) (Hyvärinen e Oja 2000) que mostra que as
variáveis escalares que minimizam a respetiva multi-informação são as que
maximizam a soma das neguentropias marginais. Em geral é difícil estimar J
mesmo para dimensões reduzidas do vetor X . Por isso adotam-se várias
aproximações de J. Por exemplo para uma variável escalar U normalizada
genérica tem-se:
2 2 4( ) ( ) 15 ( )
12 48 72
Skew U Kurt U Skew UJ U (9)
que é expressa em função de cumulantes (Comon 1994) como o skewness 3( ) ( )Skew U E U e o kurtosis
4( ) ( ) 3Kurt U E U . Outra aproximação, é
dada por funções contraste, nulas no caso Gaussiano, tal como:
2 2
2 236 24( ) exp / 2 exp / 2 1/ 2
8 3 9 16 3 9J U E U U E U
(10)
A escolha da matriz de rotação visando variáveis de máxima neguentropia é
obtida por algoritmos de otimização não linear. Um deles é o Fast-ICA (Novey e
Adali 2008) que usa um algoritmo de tipo ponto-fixo. Um outro algoritmo,
adotado aqui, escreve R como produto das p(p+1)/2 matrizes elementares de
rotação (rotações de Jacobi), cada uma em função do ângulo de rotação (ângulos
de Euler) de um dos planos coordenados possíveis do espaço p . De seguida
escreve-se o gradiente da função de contraste em função do conjunto de ângulos
de Euler que por vez entra no algoritmo de maximização da função de contraste
pelo método quasi-Newton.
3.3. Aplicação da Análise de Componentes Independentes ao campo da pressão
à superfície
Mostramos de seguida um exemplo de aplicação da ICA ao campo de médias
mensais do geopotencial aos 500 hPa (z500) no período de Inverno alargado de
Novembro a Março na região Euro-Atlântica (NAE) no período 1951-2003
extraídas das reanálises NCEP-NCAR. As componentes independentes (ICs) são
otimizadas no subespaço das primeiras 10 PCs sendo obtidas sequencialmente no
complemento ortogonal do espaço de rotações previamente calculadas. Cada IC é
obtida por um produto interno entre o campo das anomalias do campo de z500:
Z Z e um vetor de pesos (loadings) ao longo da NAE, dado por uma
combinação linear de EOFs, escritas nas colunas da matriz W . Em síntese
1/2 '( ) Y RΛ W Z Z (11)
ondeΛ é a matriz diagonal das variâncias das PCs. Na tabela 1 mostra-se a
neguentropia aproximada (10) e a fração de variância explicada pelas 5 primeiras
PCs e pelas 5 primeiras ICs, obtidas por maximização da função contraste (10) no
Predictabilidade Sazonal de Secas
conjunto das rotações ortogonais em 10 .
Conclui-se da análise da Tabela 1 que as ICs tem maior neguentropia que as PCs e
que pelo Lema da Neguentropia (7), as ICs são, como desejável, estatisticamente
mais independentes que as PCs. Além disso a ordenação por neguentropia nas ICs
não coincide em geral com a ordenação por variância explicada. As neguentropias
das ICs estão associadas a elevados valores positivos do skewness e negativos do
kurtosis indicando que as pdfs das ICs são platicúrticas (sub-Gaussianas), o que
ocorre geralmente com pdfs bimodais, com modas acima e abaixo da mediana.
Tal é evidente nos histogramas das duas primeiras ICs normalizadas (Figs. 6a-b)
mostrando duas modas posicionadas a distâncias de +1 e -1 desvios padrão em
relação à climatologia, mostrando maior probabilidade que a associada a valores
perto da climatologia (IC~0) como aconteceria numa distribuição Gaussiana.
Mostramos a associação dessas modas a regimes de tempo persistentes. Para tal
mostra-se nas Figs. 7a-b os mapas dos pesos para a primeira e segunda ICs. No
primeiro mapa (Fig. 7a) tem-se um padrão orientado S-N, similar ao da NAO
exibindo um dipolo com centros em (35ºW, 45ºN), perto do Anticiclone dos
Açores e em (10ºW, 65ºN) perto da depressão semi-permanente da Islândia. As
duas modas da pdf correspondem aos regimes NAO- (IC>0) (fase negativa da
NAO, ligada ao regime GA – ver Michelangeli et al. (1995)) e NAO+ (IC<0)
(fase positiva da NAO, ligada ao regime ZO).
Tabela 1. Valores da variância explicada e neguentropia J das primeiras 5 PCs e 5 ICs,
ordenadas pelo valor da função de contraste maximizada. Acrescenta-se ainda o
skewness e kurtosis das ICs.
% Variância
explicada pelas
PCs
J(PCs) % Variância
explicada pelas
ICs
J(ICs) Skewness
(ICS)
Kurtosis
(ICS)
1 21.2 0.017 21.0 0.029 0.697 -0.835
2 16.6 0.008 22.6 0.026 0.572 -0.756
3 14.7 0.001 13.1 0.012 0.213 -0.462
4 12.1 0.013 13.6 0.011 0.175 -0.418
5 8.7 0.001 12.7 0.006 0.030 -0.174
O mapa dos pesos associados à segunda IC (Fig. 7b) exibe um dipolo orientado
W-E à latitude de 55ºN. A sequência entre a fase positiva e negativa
correspondem assim a uma oscilação do campo da massa entre a Gronelândia e o
mar Báltico que chamaremos oscilação BGO (Baltic-Greenland Oscillation). O
compósito da fase positiva (IC>0) tem semelhanças com o regime BL e o
compósito da fase negativa (IC<0) tem semelhanças com o regime AR.
Fica claro que as ICs tem menor informação mútua entre si que as PCs e que por
isso devem ter melhor desempenho na inferência não linear e inferência
probabilista Bayesiana de variáveis climáticas à superfície, em particular de
índices de seca. Todavia essa avaliação não é feita aqui.
Métodos não-Gaussianos de inferência com aplicação à predictabilidade de seca
a) b)
Fig.6. Histogramas das primeira (a) e segunda (b) ICs normalizadas. Note-se a
existência de duas modas distantes de +1 e -1 desvios padrão em relação à climatologia
(IC~0).
a)
b)
Fig. 7. Mapa dos pesos da primeira (a) e segunda (b) ICs na área Euro-Atlântica (NAE).
O primeiro mapa exibe o padrão da NAO e o segundo mapa exibe o padrão da BGO (ver
detalhes no texto).
3.4. Separação da variabilidade em fontes vetoriais independentes
A separação da variabilidade em ICs (7) pode não ser uma hipótese
suficientemente geral visto que pode haver dependência não linear do vetor
aleatório X em relação às fontes estatísticas. Tal é parcialmente solucionado
admitindo a possibilidade de dependências não lineares dentro de uma família de
funções, utilizando por exemplo redes neuronais auto-associativas como na ICA
não linear (Hyvärinen e Pajunen, 1999; Almeida, 2003) e na PCA não linear (NL-
PCA) (Teng et al., 2006; Scholz, 2012).
Todavia, uma maneira mais simples de contornar o problema é o de admitir que a
Predictabilidade Sazonal de Secas
não linearidade pode estar restringida a grupos de variáveis escalares linearmente
descorrelacionadas mas que podem ter correlações não lineares entre si. Esses
grupos constituem fontes estatísticas multivariadas ou vetoriais e que deverão ser
maximamente independentes mutuamente. Desse modo procura-se um vetor
1( ,..., )r Y RX Y Y resultante de uma rotação ortogonal do vetor original X .
Esse vetor é constituído de fontes vetoriais em número r e com determinadas
cardinalidades cuja soma é p≥r (conjunto de características que apelidamos de
configuração das fontes vetoriais) e cuja multi-informação seja o menor possível.
Neste contexto o Lema multivariado da Neguentropia (7) escreve-se:
11( ) ( ) ( ) ( ,..., )
( ) ( ) ( : ) , 1,...,i k
r
rot k rk
k i i i k
Y
J J J J I
J J Y I Y Y k r
Y
X Y Y Y Y
Y Y (12a-b)
onde, por (12b), a neguentropia de cada fonte vetorial k=1,..,r se decompõe na
soma das neguentropias das componentes escalares próprias com a multi-
informação entre essas componentes, devida a correlações não lineares internas
entre elas, isto é inerentes às fontes vetoriais. Para fontes vetoriais não-
Gaussianas, dá-se a concentração de probabilidade em torno de linhas, superfícies
ou em geral variedades curvilíneas, ditas principais (Hastie e Stuetzle, 1989). O
método de separação em fontes vetoriais consiste na chamada Análise de
subespaços independentes ISA (Independent Sub-space Analysis) (Theis, 2006;
Almeida, 2003).
No sentido de ilustrar a este tipo de decomposição, é dada na Fig. 8 uma amostra
finita de pontos no espaço 3D que se decompõe em duas fontes, uma
diádica: 1 1,1 1,2( , )Y YY com suporte 2D com a forma da letra ‘U’ maiúscula e uma
fonte escalar 2 2,1( )YY variando perpendicularmente ao plano da letra e com
suporte dado por um intervalo limitado. As pdfs marginais sobre 1Y e 2Y são
uniformes.
Outra forma de ilustrar a separação em fontes é através do chamado problema
generalizado do ‘Cocktail-Party’ em que grupos de pessoas distribuídos numa
sala, falando de assuntos e em línguas muito diferentes, são escutados por
altifalantes nos cantos da sala. Os dados constituem o registo sonoro,
aparentemente ruidoso desses altifalantes. Os métodos da ISA pretendem
distinguir os vários grupos de pessoas que serão assim considerados como fontes
estatísticas multivariadas independentes.
Métodos não-Gaussianos de inferência com aplicação à predictabilidade de seca
Fig. 8. Amostra correspondente a uma pdf 3D separada numa fonte diádica de pdf
uniforme (letra U) e numa fonte escalar de pdf uniforme num intervalo ortogonal ao
plano da letra.
O problema da ISA para uma dada configuração de fontes (e.g. todas as fontes
diádicas), consiste em determinar a matriz de rotação R que minimize a multi-
informação 1( ,..., )rI Y Y ou de forma dual equivalente que maximize a soma das
neguentropias das fontes: 1
( )r
src kkJ J
Y . Seguimos aqui esta segunda via,
considerando funções de contraste simuladoras das parcelas de srcJ e que possam
ser escritas como funções de esperanças de funções não lineares das componentes
de cada fonte kY . Essas funções de contraste, aqui denotadas por ( )op kF Y ,
anulam-se para pdfs Gaussianas e crescem com a não-Gaussianidade. Um outro
requisito, justificável da dimensão da fonte é o de que as funções de contraste
devem ser não separáveis aditivamente em termos de funções de subconjuntos
de kY , ou seja devem envolver todas as variáveis através de produtos. Para
simplificar, consideremos apenas fontes de dimensão dois (díadas não-
Gaussianas) 1 2( , )D Y YY e dimensão três (tríadas não-Gaussianas):
1 2 3( , , )T Y Y YY , onde 1 2 3, ,Y Y Y são as componentes descorrelacionadas das fontes.
A neguentropia das díadas e tríadas separam-se respetivamente na forma:
1 2 1 2
, {1,2,3}1 2 3 1 2 3
( ) [ ( ) ( )] ( , )
( ) [ ( ) ( ) ( )] ( , ) ( , , )
D
i jT i j ti j
J J Y J Y I Y Y
J J Y J Y J Y I Y Y I Y Y Y
Y
Y (13a-b)
onde surge um novo termo, a informação de interação (IT) 1 2 3( , , )tI Y Y Y que é a
parte da multi-informação triádica que resulta das sinergias estatísticas entre as 3
componentes em simultâneo. Por outras palavras IT resulta de efeitos
cooperativos emergentes que não podem ser explicados por subconjuntos próprios
do conjunto de componentes da fonte, ou seja neste caso por 2 componentes
(Jakulin and Bratko 2004;Timme et al. 2013). A IT trivariada pode ser positiva ou
negativa se houver respetivamente sinergias ou redundâncias entre variáveis,
sendo dada por:
Predictabilidade Sazonal de Secas
, {1,2,3}1 2 3 1 2 3( , , ) ( , | ) ( , ) ( , , ) ( , )m nt i j k i j m nm n
I Y Y Y I Y Y Y I Y Y I Y Y Y I Y Y
(14)
onde ( , , )i j k é uma qualquer permutação de (1,2,3). Pires e Perdigão (2015)
identificaram situações na dinâmica caótica de fluidos em que a IT ocorre quando
há ressonâncias entre tríadas ondulatórias e que se verificam quando a soma de
números de onda característicos, cada um de sua componente da tríada, iguala o
número de onda característico da terceira. Uma tríada perfeita é aquela em que
1 2 3 1 2 3( , , ) ( , , )tI Y Y Y I Y Y Y . Um exemplo de tal, ocorrente entre variáveis contínuas
com distribuições marginais uni e bivariadas Gaussianas standard é dado por:
1 2 3 1 2, , ~ (0,1) : | | sgn( )Y Y W N Y W YY . Neste caso os sinais das variáveis
satisfazem a um Quadrado Latino de 2 símbolos: sgn(Y3)=sgn(Y1Y2), razão pela
qual It(Y1,Y2,Y3)=log(2). A forma da pdf de Y1,Y2,Y3, associada a esta relação é
dada na Fig. 9 através da iso-superfície da pdf: =0.001, mostrando que a
probabilidade está concentrada e vale 1/4 em cada um dos 4 octantes: (+++), (+--),
(-+-) e (--+) caracterizados pelos sinais de (Y1,Y2,Y3).
Fig. 9. Iso-superfície =0.001 da PDF correspondente à tríada perfeita descrita no texto.
De forma a haver consistência entre dimensão das fontes e funções de contraste,
estas deverão simular 1 2( , )I Y Y e 1 2 3( , , )tI Y Y Y respetivamente nos casos de díadas
e tríadas. Para tal aproximemos essas informações por expansões truncadas de
Edgeworth recorrendo a cumulantes cruzados (Comon 1994;
https://en.wikipedia.org/wiki/Cumulant). Cumulantes de ordem Nord exprimem-se
como funções de momentos centrados de ordem Nord. Para pdfs Gaussianas e
Nord≥3, os cumulantes anulam-se. Assim tomando as aproximações mais simples
de I e It de truncatura Nord=3, tal leva-nos às funções contraste de componentes
normalizadas e descorrelacionadas
2 2 2
1 2 1 2 1 2 3 1 2 3( , ) ( ) ; ( , , ) ( )opD opTF Y Y E Y Y F Y Y Y E YY Y (15a-b)
respetivamente para díadas e tríadas e que são proporcionais a quadrados de
correlações não lineares, respetivamente 2
1 2( , )cor Y Y , dita quadrática e
( , )i j kcor YY Y dita triádica. Estas formas simples seguem o rationale da
Métodos não-Gaussianos de inferência com aplicação à predictabilidade de seca
metodologia Project-Pursuit (Huber, 1985) em que se procuram projeções de
baixa dimensão (neste caso 2 ou 3) que exibam distribuições não-Gaussianas
enfatizando certas caraterísticas como o ajuste estatístico por uma dada curva ou
superfície. O problema de otimização é em tudo idêntico ao de procurar a maneira
de rodar e projetar um objeto (neste caso a PDF conjunta) de modo que a sua
projeção exiba uma certa forma mais ou menos exótica, o que aqui corresponde à
não-Gaussianidade da pdf.
As correlações referidas sugerem a utilização de índices não lineares de
variabilidade que podem ser usadas como variáveis estatísticas exploratórias e que
juntam as várias componentes correlacionadas:
2
1 1 22 32
1 1 2
( 1);
( ) ( )indD D indT T
Y YYF s Y F s Y
Y YY
(16a-b)
onde ,D Ts s são os sinais das correlações quadrática e triádica e significa desvio
padrão do argumento. Quando o campo explorado é por exemplo o da pressão à
superfície (ver Sec. 3.3), essas variáveis são melhores candidatas a servir de
preditores na inferência estatística de preditandos climáticos como índices de seca.
Vejamos a sua aplicação na Sec. 3.5.
Na prática, cada um dos momentos intervenientes em 15a-b, exprime-se como
combinações lineares de momentos de terceira ordem das componentes
normalizadas não rodadas que são estimadas a priori a partir das séries temporais
disponíveis. A maximização de opDF e opTF no espaço das rotações faz-se de forma
iterada pelo método Quasi-Newton em que o vetor de controle é o vetor dos
ângulos de Euler das rotações. As díadas e tríadas dependem respetivamente de
2 3N e 3 6N ângulos onde N é a dimensão do espaço de otimização. Este
algoritmo é inicializado numa primeira aproximação (first-guess) e sobe a favor
do gradiente da função contraste até atingir um dos possíveis máximos relativos
daquela, devendo por isso escolher-se aleatoriamente múltiplos ‘first-guesses’,
cada um conduzindo a um certo máximo relativo, com o objetivo de determinar o
máximo absoluto da função de contraste.
3.5 Separação da variabilidade atmosférica mensal em díadas não-Gaussianas
O método descrito atrás foi aplicado a uma série temporal sintética longa gerada
pela corrida do modelo atmosférico quase-geostrófico a 3 níveis, espetral em
harmónicas esféricas e truncatura triangular T21, adaptado de Marshall e Molteni
(1993) (modelo QG3 daqui em diante). O modelo QG3 integra as equações da
vorticidade potencial quase-geostrófica sujeitas a um campo de forçamento
constante de inverno no Hemisfério Norte (HN) deduzido a partir de reanálises do
ECMWF e que habilita o modelo a reproduzir os regimes de tempo do hemisfério
setentrional. O modelo tem sido usado na modelação da variabilidade lenta (Low
frequency variability – LFV), não-Gaussianidade e predictabilidade da atmosfera
(Peters et al. 2012). Para obter a LFV, filtrar a variabilidade rápida de escala
sinóptica e comprimir a variância, procedeu-se a uma PCA das médias móveis de
30 dias das componentes espetrais das funções de corrente do escoamento nos 3
Predictabilidade Sazonal de Secas
níveis (200, 500 e 800 hPa). O vetor aleatório total das PCs tem dimensão 1518.
a) b)
Fig. 10. a) Fração de variância explicada acumulada até cada PC, número de onda total
médio das EOFs e tempo de descorrelação das PCs; b) Neguentropia das PCs. Assinala-
se o nível (~0.0002), ao qual é rejeitada, com nível de significância 5%, a hipótese nula
de que a variável aleatória amostrada tem distribuição Gaussiana.
A Fig. 10a mostra o gráfico da fração de variância explicada acumulada pelas PCs
ordenadas por ordem decrescente de variância. As primeiras 10, 20 e 30 PCs
explicam respetivamente 67%, 80% e 90% da variância total. De modo a lhes
associar uma escala espacial e temporal típica, calculou-se o valor médio do
número de onda total (das harmónicas esféricas) de cada EOF e ainda o tempo
típico de descorrelação da função de auto-correlação das PCs, ambas
representadas na Fig. 10a. Assim, as primeiras EOFs são de escala planetária
(4000-10000 km) e os tempos de descorrelação das PCs estão na gama entre 30-
100 dias. A EOF1 (~30% de variância explicada) é um modo com um número de
onda zonal dominante 3, e é fortemente projetada na Oscilação Ártica (AO) e na
NAO. As EOF3 e EOF4 assemelham-se a híbridos dos principais padrões espaciais
de geopotencial no Atlântico Norte, Pacífico Norte e Ásia (Kimoto e Ghil, 1993).
Calculou-se também a neguentropia (Fig. 10b) das PCs, o que mostra que as PCs
dominantes em variância são as mais não-Gaussianas enquanto que as da cauda do
espetro de variância não diferem estatisticamente de médias móveis de ruídos
brancos Gaussianos. As informações mútuas entre PCs são não nulas, dada a sua
parcial dependência estatística, especialmente quando intervém a PC1 que é a mais
não-Gaussiana, dada a possibilidade de, apesar de descorrelacionadas, elas
possuírem correlações não lineares entre si. Por exemplo I(PC1,PC5)=0.038 e
I(PC1,PC6)=0.027, provenientes de correlações quadráticas: cor |(PC12,PC5)|=0.21
e |(PC12,PC6)|=0.17 respetivamente. Desse modo, face ao exposto, o invariante Jrot
(7,12) que afere a neguentropia conjunta total pode assumir valores elevados
podendo ser concentrada em ICs ou em fontes vetoriais através da otimização das
rotações ortogonais das PCs normalizadas. A série temporal produzida foi de 106
dias fazendo-se uma subamostragem a cada 80 dias de modo a ter 12000
realizações o mais próximo de independentes e identicamente distribuídas (iid), as
Métodos não-Gaussianos de inferência com aplicação à predictabilidade de seca
quais se dividiram em dois grupos independentes de 6000 realizações cada usados
para calibração e validação das fontes estatísticas.
Deste modo, procedeu-se então à separação do espaço de variabilidade gerado
pelas 10 primeiras PCs em 5 díadas não Gaussianas. Estas são obtidas
sequencialmente, otimizando a primeira, depois a segunda no subespaço do
complemento ortogonal da primeira e assim de seguida. A função contraste
maximizada é o quadrado da covariância cruzadaopDF (15a). A tabela 2 mostra
para cada díada, a percentagem de variância explicada (Var), a correlação
quadrática (Cor) e a neguentropia conjunta das díadas (J) (Pires e Ribeiro 2015).
Tabela 2. Valores da variância explicada (Var em %), correlação quadrática (cor) e
neguentropia J das primeiras 5 díadas ID1,…,ID5. Acrescentam-se os totais de Var e J
na linha inferior da tabela.
ID Var% Cor J
1 29.8 0.52 0.211
2 10.2 0.18 0.035
3 9.9 0.16 0.032
4 7.1 0.07 0.016
5 6.7 0.06 0.015
Total 63.7 0.309
A primeira díada (ID1) é a mais neguentrópica (maior valor de J), correspondente
ao valor mais elevado da correlação quadrática: 2
1 2( , )cor Y Y =0.52, o que é patente
na pdf bivariada (Y1, Y2) da Fig. 11 em que se nota a linha de crista da pdf junto de
uma curva do tipo 2
1 1 2( 1) 0Y c Y onde c1=cte. Na figura, as pdfs marginais são
sujeitas a anamorfose Gaussiana, isto é com distribuição normal N(0,1) sendo a
pdf calculada a partir de estimador kernel Gaussiano. O integral 2D da informação
mútua é estimado com a fórmula da quadratura de Gauss (ver Apêndice B de Pires
e Perdigão, 2015). As componentes da díada, ou em geral de qualquer fonte, são
dadas pelo produto interno 'k k PC stdY v x entre um vetor de pesos de norma
unitária: kv e o vetor PC stdx das PCs normalizadas no espaço de otimização. Os
vetores peso são ortonormados. Assim, as aproximações de kY explicadas por 90%
da norma quadrática do vetor de pesos são:
Y1~0.79PC1std+0.46PC2std+0.17PC8std-0.18PC9std e
Y2~0.39PC1std-0.62PC2std-0.28PC3std+0.23PC4std+0.33PC5std+0.31PC6std
em que Y1 é fortemente dominada pela PC1, que é essencialmente o simétrico do
índice NAO, enquanto que Y2 se projeta em PCs com as quais PC1 tem uma
grande correlação quadrática. O índice não linear indDF (16a) vem assim um
polinómio multivariado nas 10 PCs com uma ordem polinomial total 2 (isto é
monómios de ordem 2 no máximo).
Predictabilidade Sazonal de Secas
Fig. 11. Contornos da pdf conjunta 2D de (Y1,Y2) da díada dominante, otimizada no
espaço das 10 primeiras PCs. As pdfs são Gaussianas standard. O intervalo entre
contornos é 0.2. Os regimes associados a cada quadrante estão assinalados.
Para obter uma visão espacializada, mostra-se os padrões espaciais (mapas
normalizados) dos pesos intervenientes em Y1 (Fig. 12a) e em Y2 (Fig. 12b),
respetivamente denotados por 1l e
2l .
Fig. 12. Mapas de pesos, espacialmente normalizados, intervenientes nas componentes
1Y (a) e 2Y (b) da díada dominante otimizada no espaço das 10 primeiras PCs.
O primeiro padrão 1l é essencialmente a diferença entre o regime negativo (AO-
,NAO-) e os regimes positivos (AO+,NAO+). O segundo padrão tem uma forte
componente no número de onda zonal 3, projeta-se essencialmente no sector
Atlântico-Pacífico, traduzindo a diferença entre NAO e AO do mesmo sinal. De
acordo com a correlação quadrática, quando 1 2sgn( ) sgn( )Y Y , existe uma
interação construtiva levando a um regime hemisférico (AO-, AO+). Quando
1 2sgn( ) sgn( )Y Y existe uma interação destrutiva no setor Pacífico, levando a um
regime com assinatura restringida ao Atlântico (NAO-, NAO+). Os 4 regimes
norte-hemisféricos do modelo QG3, denotados AO-, AO+, NAO- e NAO+ e
Métodos não-Gaussianos de inferência com aplicação à predictabilidade de seca
obtidos por Kondrashov et al. (2004) são recuperados nos compósitos da anomalia
da função de corrente aos 500 hPa (Fig. 13) nos quatro quadrantes da pdf
bivariada de (Y1,Y2) da primeira díada (Fig. 11), o que está de acordo com o dito
acima sobre a configuração dos regimes no espaço dessas duas variáveis. De um
modo geral, havendo regimes persistentes de grande probabilidade associada, as
fontes (neste caso díadas) são otimizadas de modo a que os centroides dos
regimes fiquem concentrados na curva ou superfície principal para a qual a
correlação não linear é máxima, neste caso uma parábola. Este comportamento é
corroborado com dados de simulações da SLP através de uma PCA não linear
(NLPCA) (Teng et al., 2006).
Fig. 13. Compósitos da anomalia da função de corrente aos 500 hPa do modelo QG3
(em unidades 106 m2s-1) para os quatro quadrantes (a,b,c,d) do plano (Y1, Y2) da primeira
díada. A associação dos regimes aos quadrantes é dada na Fig. 11.
Uma outra leitura da correlação não linear ó obtida do vento geostrófico. Ora os
gradientes de mapas peso da função de corrente são proporcionais a pesos do
vento geostrófico. Assim a correlação quadrática na função de corrente tem leitura
no campo do vento donde a intensidade quadrática dos jatos Atlântico e Pacífico
está correlacionada com a intensidade dos meandros dos jatos.
4. Tríadas não-Gaussianas da variabilidade climática
As tríadas não-Gaussianas que apresentámos correspondem a tripletos de
variáveis descorrelacionadas mas cujo produto de quaisquer duas está
correlacionado com a terceira de forma relevante, pelo menos acima da
Predictabilidade Sazonal de Secas
significância estatística. Todos os tripletos formados por regiões remotas entre si
nos quais os valores de um campo (e.g. temperatura da superfície do mar – SST)
estejam mutuamente descorrelacionados podem constituir uma tríada não-
Gaussiana ou seja correspondendo a uma teleconexão triádica não linear entre
regiões bem localizadas (sinergias de localização). Noutro tipo de tríadas as
componentes intervenientes são a projeção em certos padrões espacializados ao
longo de uma mesma área comum, dando-se sinergias entre padrões de que
daremos dois exemplos nas secções seguintes.
4.1. Tríada não-Gaussiana dominante da variabilidade atmosférica mensal
Calculámos a tríada dominante (Y1,Y2,Y3), maximizadora de 1 2 3( , , )opTF Y Y Y (15b)
do campo da função de corrente do modelo QG3 em espaços gerados pelas N PCs
dominantes normalizadas desde N=3 até N=20. Como esperado, opTF é crescente
com N devido ao progressivo aumento da liberdade de rotação e projeção nos
subespaços de otimização. Existe uma degenerescência trivial associada dos
máximos do funcional opTF correspondente a permutações e inversões dos eixos
das componentes de uma tríada. Há no entanto casos de quase degenerescência em
que valores próximos elevados de opTF correspondem a vetores de pesos:
'k k PC stdY v x subtendendo espaços 3D com pequena ou nenhuma projeção
(cosseno do ângulo entre subespaços). Assim, devido a bifurcações ocorrentes
com N crescente, a tríada dominante pode variar totalmente quando N é
incrementado de uma dimensão. O mesmo acontece potencialmente com as díadas
e ICs. Após estudar a sensibilidade do conjunto de vetores peso da tríada
dominante com N, verificou-se alguma estabilidade destes no intervalo N=8-11,
pelo que para um estudo mais detalhado se tomou a escolha de parcimónia N=8. À
semelhança das díadas, as aproximações correspondentes a 90% da norma
quadrática dos vetores peso são:
Y1=-0.58PC1std-0.39PC2std+0.39PC3std-0.52PC8std,
Y2=0.54PC1std-0.75PC2std+0.21PC7std e
Y3=0.53PC1std+0.42PC2std+0.50APC3std-0.27PC4std-0.36PC8std.
A correlação triádica definida por:
1/3
3 1 2 3 1 2 3 1 3 2 2 3 1( , , ) [ ( , ) ( , ) ( , )]cor Y Y Y cor YY Y cor YY Y cor Y Y Y, (17)
que vale neste caso -0.38 sendo a informação de
interação21
1 2 3 3 1 2 32( , , ) ~ log[1 ( , , ) ] 0.084tI Y Y Y cor Y Y Y . A pdf, tridimensional
da tríada é mostrada na Fig. 14 através da respetiva iso-superfície =0.001. Esta
exibe modas em 4 quadrantes cujo produto de sinais é o mesmo de cor3. No
entanto verifica-se não haver correspondência perfeita entre esses máximos e os
conhecidos regimes do modelo QG3 (ver Sec. 3.5) porque senão a ‘constelação’
dos respetivos centroides deveria ocorrer numa superfície torsa, na qual | cor3| é
maximizada o que contradiz o facto de poderem ocorrer na superfície plana da
Métodos não-Gaussianos de inferência com aplicação à predictabilidade de seca
díada dominante.
Fig. 14. Iso-superfície =0.001 da PDF correspondente à tríada dominante no espaço
das 8 PCs dominantes normalizadas (Comparar com a pdf da tríada perfeita – Fig. 9).
Fig. 15. Mapas de pesos, espacialmente normalizados, intervenientes nas componentes
1Y (a), 2Y (b) e 3Y (c) da díada dominante otimizada no espaço das 8 primeiras PCs.
Apesar de estarem diretamente relacionadas com regimes, as componentes tem
alguma leitura sinóptica. Para tal mostramos na Fig. 15a-c os mapas dos pesos
intervenientes nas componentes: 1l ,
2l e 3l . Dos mapas,
1Y é essencialmente
proporcional à intensidade do jato no bordo este da Ásia (JAS), 2Y é representativo
da anomalia de geopotencial no polo Norte (NPP) e 3Y é uma medida da
intensidade do jato no flanco leste da América do Norte (JNA). Tendo em conta
que ( , ) 0.028I JAS NPP , ( , ) 0.018I JAS JNA e ( , ) 0.038I NPP JNA ,
verificamos que os jatos são as variáveis menos dependentes entre si pelo que
( , , ) ~ [( , ), ]I JAS NPP JNA I JAS JNA NPP , o que constitui uma tríada assimétrica
(Pires e Perdigão 2015), compatível com uma modelação estocástica do tipo:
( , )NPP f JAS JNA w onde w é um ruído independente e f é uma função
Predictabilidade Sazonal de Secas
determinista não linear. O índice não linear de tríada é dado pela função
indTF (16b). Tal como para as díadas, esta variável exploratória dá conta da
variabilidade de modo mais abrangente e correta sendo candidata para o propósito
de variável discriminadora Bayesiana de graus de seca.
4.2. Tríadas não-Gaussianas relevantes da variabilidade mensal da temperatura
da superfície do mar
O método de otimização de tríadas não-Gaussianas utilizado na Sec. 4.1 é aqui
aplicado ao campo das anomalias mensais do campo da temperatura da superfície
do mar (SST) no oceano mundial restringido a latitudes inferiores a 65º,
geralmente livres de gelo de mar em qualquer época do ano. Os resultados são
parte do artigo de Pires e Trigo (2015).
Os dados são extraídos da base ERSST – Extended Reconstruction SST (versão
3b) (www.ncdc.noaa.gov/oa/climate/research/sst/ersstv3.php) numa grelha de
2ºlat2ºlong para o período 1910-2011 (102 anos) aos quais se elimina a
tendência linear de médias anuais e se calculam as anomalias em relação a cada
mês produzindo séries temporais de 1224 valores. Executa-se a PCA e calculam-
se as EOFs bem como as séries temporais das PCs e das PCs normalizadas. As
primeiras EOFs projetam-se em padrões conhecidos (Messié and Chavez 2011).
Assim a 1ª EOF é o padrão do El-Niño (17% de variância explicada - varexp.), a
2ª EOF corresponde à Oscilação Multi-decadal do Atlântico (AMO) (5.1%), a 3ª
EOF corresponde à Oscilação Decadal do Pacífico (PDO) (4.5% de varexp.), a 4ª
EOF corresponde à Oscilação do Giro do Pacífico Norte NPGO (3.7% de
varexp.), a 5ª EOF está ligada principalmente ao El-Niño Modoki (3.1% de
varexp.), a 6ª EOF associa-se ao El Niño Atlântico (2.6% de varexp.) e a 7ª EOF é
um padrão Pacífico Norte-Sul (2.4% de varexp.), exibindo 3 ondas estacionárias
orientadas W-E, com projeção no Dípolo do Pacífico Sul (SPOD). As EOFs
seguintes exibem padrões regionais com dípolos ou trens de ondas deformados
pela configuração da costa.
Contrariamente à situação em que haja a disponibilidade de grandes séries
temporais como na corrida usada do modelo QG3 (Sec. 4.1), aqui o número
efetivo de graus de liberdade temporais 1224dofN não é muito elevado devido à
disponibilidade de séries relativamente curtas das anomalias mensais da SST e à
existência de auto-correlações nelas. Desse modo, e em geral nas situações de
amostras curtas, a possibilidade de encontrar projeções dos subespaços das PCs
exibindo padrões não-Gaussianos artificiais ou espúrios devido a sobre-
ajustamento das rotações e projeções é real. Assim sendo, se N for a dimensão do
espaço de otimização e 2
3maxcor for o quadrado da correlação triádica máxima
nesse espaço, então este valor está positivamente enviesado no caso de amostras
finitas. Para retirar o viés usou-se uma fórmula idêntica à do coeficiente de
determinação ajustado (R2-adj) de uma regressão multilinear avaliado num
período de calibração a qual subtrai a R2 o viés positivo. Esse viés é proporcional
ao número preN de preditores e inversamente proporcional a dofN . No presente
Métodos não-Gaussianos de inferência com aplicação à predictabilidade de seca
caso, o viés é obtido por experiências de Monte Carlo com séries
dedofN realizações Gaussianas iid, chegando-se ao valor ajustado semi-empírico
2 2 2
3max 3max 3max(1 )pre
adj
dof
Ncor cor cor
N , (18)
onde 2(3 6)preN N é o número equivalente de preditores, neste caso
proporcional ao número de ângulos de rotação 3 6N num espaço de dimensão
N e que caracterizam a tríada. De modo a reduzir o viés através de preN procedeu-
se à otimização das tríadas apenas em espaços de dimensões 3N ou 4
destacando aquelas com maior valor de 2
3max adjcor e em que intervém a PC1
projetada no padrão El-Niño. Na escolha das tríadas otimizadas, considerámos o
multicritério ou compromisso conjunto de alta variância explicada, simplicidade
(baixo N) e elevada não-Gaussianidade. No entanto a ambiguidade de qualquer
multicritério não permite uma ordenação natural das tríadas como acontece por
exemplo com as PCs por variância explicada.
Iremos de seguida destacar e analisar a tríada otimizada no espaço de
variabilidade das PCs: PC1, PC3 e PC7 combinando o El-Niño, a PDO e o SPDO.
As respetivas componentes 1 2 3( , , )Y Y Y vem dadas por:
Y1=0.94PC1std+0.29PC3std+0.18PC7std,
praticamente coincidente com o índice El-Niño e o por
Y2=0.06PC1std-0.66PC3std+0.75PC7std e
Y3=0.34PC1std-0.69PC3std-0.64PC7std,
estas duas consistindo numa rotação de -49º do plano de componentes (PC3std,
PC7std). A fração de variância explicada pela tríada é 24.7%, a correlação triádica
é 3max 0.28cor e o seu valor ajustado é 3max 0.22adjcor . Os mapas
normalizados de pesos que multiplicam as anomalias da SST para formar as
componentes de 1 2 3( , , )Y Y Y são apresentados na Fig. 16a-c. O mapa para 1Y é
fortemente projetado no padrão El-Niño enquanto os mapas para 2Y e
3Y correspondem a trens arqueados de 3+1/2 frentes de onda orientadas
zonalmente progredindo de Norte a Sul do Oceano Pacífico. Os mapas tem
aproximadamente um desfasamento de 1/4 de comprimento de onda.
Predictabilidade Sazonal de Secas
Fig. 16. Mapas normalizados dos pesos associados às componentes 1Y (a), 2Y (b) e 3Y (c)
da tríada do campo da SST no Oceano Pacífico.
A pdf conjunta das componentes (Fig. 17) exibe modas em 4 dos 8 quadrantes
determinados por 1 2 3(sgn ,sgn ,sgn )Y Y Y , similarmente às Figs. 9 e 14. As modas
correspondem a regimes da SST que se excluem mutuamente com as ocorrências
de 1 2 3(sgn ,sgn ,sgn )Y Y Y , em ( , , ) no regime El-Niño, em ( , , ) na fase
positiva da PDO, em ( , , ) no regime La Niña e em ( , , ) na fase negativa da
PDO. Esta correspondência é notória nos mapas dos compósitos da SST (em
unidades de desvios padrão locais) (Fig. 18) nos referidos 4 regimes maioritários.
A série temporal do produto triádico 1 2 3YY Y vem na Fig. 19 onde se verifica a
ocorrência intermitente de extremos positivos contribuindo para uma média
elevada de 1 2 3( )E YY Y e a correspondência desses extremos (acima de 1) aos
regimes apontados n a Fig. 17.
Fig. 17. Iso-superfície =10-5 da pdf otimizada no espaço gerado pelas PC1, PC3 e PC7.
Os regimes da SST correspondentes a cada uma das 4 modas estão assinalados. A
correlação triádica ajustada é 0.22.
Métodos não-Gaussianos de inferência com aplicação à predictabilidade de seca
Fig. 18. Compósitos da SST em desvios padrão locais referentes aos 4 regimes
maioritários da tríada.
As series temporais das componentes 1 2 3, ,Y Y Y alisadas com médias móveis de 12
meses surgem na Fig. 20. Note-se a ocorrência frequente das combinações de
sinais das componentes acima descritas e que são favoráveis a uma média positiva
do produto triádico. As componentes tem forte marca espectral em certas
frequências, nomeadamente 1Y (El Niño) com forte marca no espetro de Fourier no
conhecido período de 5 anos. Além disso há uma relação entre as frequências
dominantes das componentes.
Fig. 19. Série temporal no período 1910-2011 do produto triádico 1 2 3YY Y . Nos casos em
que 1 2 3 1YY Y assinala-se o regime observado da SST usando o código de cores (El-
Niño: negro), (La Niña: verde), (PDO+: vermelho) e (PDO-: azul).
Fig. 20. Séries temporais no período 1910-2011 de componentes 1Y (negro), 2Y
(vermelho) e 3Y (verde), alisadas por filtro de média móvel de 12 meses.
De facto a média 1 2 3( )E YY Y pode decompor-se através do bi-espectro cruzado (Fig.
21) em que apenas contribuem combinações de frequências, uma ( if ) para cada
Predictabilidade Sazonal de Secas
componente (iY ), satisfazendo à relação:
1 2 3 0f f f propícia a ressonâncias
ondulatórias triádicas como verificado por Pires e Perdigão (2015). Definimos
bicovariância como
1,2 1 2 1 1 2 2 3( , ) [ ( ) ( ) ( )]C E Y t Y t Y t (19)
O biespetro é a transformada de Fourier dupla de 1,2 1 2( , )C . Aplicando o
teorema de Fourier da convolução tem-se:
1 2
21 2
1 2 3
11
1,2 1 2 1,2 1 2 1 2, 0
*
1,2 1 2 1 2 3 1,2 1,2 3 1 2
( , ) ( , )exp[ 2 i( )]
( , ) ( ) ( ) ( ) exp( ) ;
t
t tt
N
N NN
Y Y Y
B f f C f f
B f f T f T f T f A i f f f
(20a-b)
onde ( )iY iT f é a transformada de Fourier discreta de iY sobre a série temporal
regular de tN instantes. A bicovariância e em particular 1 2 3 1,2( ) (0,0)E YY Y C são
reconstruídos como
1 2
1 2
1
1,2 1 2 1,2 1 2 1 2, 0( , ) ( , )exp[2 i( )]
t
t t
N
N Nf fC B f f f f
(21)
A amplitude A1,2 é mostrada na Fig. 21 onde as linhas 1,2 / 3 a negro e
vermelho respetivamente, delimitam os principais zonas de tripletos de
frequências que contribuem para o momento 1 2 3( )E YY Y (ilhas de ressonância).
Fig. 21. Biespetro cruzado associado ao cumulante E(Y1Y2Y3) para as frequências f1, f2, f3
em ciclos por século associadas às componentes Y1, Y2 e Y3 respetivamente. As linhas
pretas e vermelhas delimitam as ilhas de ressonância no domínio espetral.
A este respeito, note-se em particular o período 1962-1975 (assinalado na Fig. 20)
em que há uma dominância em das frequências 1f =28 ciclos por século (cps),
2f =55 cps e 3f =27 cps. Quando para o biespectro contribui um número reduzido
Métodos não-Gaussianos de inferência com aplicação à predictabilidade de seca
de tripletos de frequências ao contrário de um biespetro contínuo associado a uma
tríada de ruídos brancos, então tal pode constituir uma fonte de predictabilidade
no sentido em que a ocorrência (incidência) mais ou menos prolongada de um
tripleto de frequências ressonantes com ondas interagindo construtivamente pode,
devido à sua persistência no tempo, servir para a previsão não linear de uma
componente a partir do produto das outras. Tal é mostrado na Fig. 22 através da
correlação desfasada cruzada entre ( )iY t com em meses e ( ) ( )j kY t Y t em que
se avalia a predictabilidade de uma componente no futuro (e.g. El-Niño 1Y ) com
base no produto atrasado das outras duas componentes da tríada. Note-se por
exemplo os elevados valores 1 2 3| [ ( ), ( ) ( )] | 0.2cor Y t Y t Y t para prazos de=120,
150 e 190 meses. Este tipo de predictabilidade não linear interanual e intranual de
certos índices de larga escala da SST e outros campos pode ser importante para a
previsão a longo prazo de impactos desses índices como a seca tratada neste livro.
Fig. 22. Correlogramas cruzados de 1 2 3[ ( ), ( ) ( )]cor Y t Y t Y t (preto),
2 1 3[ ( ), ( ) ( )]cor Y t Y t Y t (vermelho) e 3 1 2[ ( ), ( ) ( )]cor Y t Y t Y t (verde).
5 Conclusões
A inferência estatística otimizada para distribuições Gaussianas é aplicável em
distribuições não-Gaussianas mas com um desempenho inferior. Deste modo
apresentam-se exemplos de variáveis estatísticas exploratórias que descrevem
melhor a variabilidade não-Gaussiana de certos campos geofísicos bem como as
suas interdependências. Em particular mostram-se as limitações das correlações
lineares entre um preditor X (e.g. um índice de circulação atmosférica de larga
escala) e um preditando Y (e.g. um índice de seca) e como estas se devem
generalizar para correlações assimétricas, válidas em certos sub-domínios de X e
Y. Mostra-se também como correlações não lineares podem ser relevantes na
média condicional E(Y|X). Outro exemplo ocorre na separação da variabilidade
multivariada em fontes estatísticas independentes. Estas, sendo mais
independentes que as componentes principais (válidas no paradigma Gaussiano),
tem melhor desempenho na inferência Bayesiana. Como aplicação calcularam-se
as componentes independentes do campo da pressão na região Euro-Atlântica
pondo em evidência a alternância entre fases positiva e negativa da Oscilação do
Atlântico Norte e um outro par de regimes, suscetível de corresponder a uma outra
oscilação com dipolos centrados no mar Báltico e na Gronelândia. É feita a
Predictabilidade Sazonal de Secas
generalização a fontes estatísticas vetoriais (díadas e tríadas não-Gaussianas) que
acomodam de modo mais eficaz certas correlações não lineares, não exprimíveis
em termos de componentes escalares. O teste é executado na variabilidade mensal
de inverno no Hemisfério Norte (HN) através de um modelo quase-geostrófico
(QG3), simulador da variabilidade lenta da atmosfera. Neste caso, os regimes
atmosféricos do HN (AO+, AO-, NAO-. NAO+) ficam alinhados ao longo da
curva principal que caracteriza a fonte diádica dominante. As fontes diádicas e
triádicas permitem a formulação de variáveis exploratórias não lineares com
melhor desempenho na inferência. Finalmente as distribuições não-Gaussianas
permitem a generalização do conceito de teleconexões envolvendo 3 (ou mesmo
mais) regiões ou projeções em padrões, descorrelacionadas 2 a 2 mas que não são
globalmente independentes entre si como por exemplo numa tríada em que uma
componente está correlacionada com o produto das outras duas em resultado de
sinergias (o valor dessa correlação é a chamada correlação triádica). Este tipo de
fenómeno mostrou-se acontecer no modelo QG3 e também no campo das
anomalias mensais da temperatura da superfície do mar. Neste caso ocorre uma
tríada entre índices de padrão relevantes no Oceano Pacífico: o El-Niño, a
oscilação decadal do Pacífico (PDO) e o índice do Dipolo do Pacífico Sul
(SPOD). A correlação triádica tem uma assinatura espetral no biespetro cruzado
em que ocorrem certas ‘ilhas de ressonância’ potenciadoras da predictabilidade e
que podem ser usadas para previsão intranual e interanual nos eventos de maior
persistência da interação construtiva entre as 3 ondas intervenientes. Os preditores
não lineares obtidos das tríadas são utilizáveis para diagnóstico, downscaling e
previsão de indicadores climáticos à superfície (e.g. seca).
Agradecimentos
Este estudo foi financiado pela FCT através do projecto
PTDC/GEOMET/3476/2012 “Avaliação da Predictabilidade e hibridação de
Previsões sazonais de seca na Europa Ocidental – PHDROUGHT”.
Referências bibliográficas
Almeida, L., 2003. MISEP – Linear and Nonlinear ICA Based on Mutual Information. J
Mach Learn Res 4: 1297-1318. URL:
http://www.jmlr.org/papers/volume4/almeida03a/almeida03a.pdf
Chordia, T., Goyal, A., Tong, Q., 2011. Pairwise Correlations. URL:
http://ssrn.com/abstract=1785390 or http://dx.doi.org/10.2139/ssrn.1785390
Comon, P., 1994. Independent component analysis, a new concept? Signal Process. 36,
287-314.
Cover, T.M., Thomas, J.A., 1991. Elements of Information Theory. John Wiley & Sons,
Inc.: New York, NY, USA.
Hannachi, A., Jolliffe, I.T., 2007. Stephenson D.B. and Trendafilov N.T.: Empirical
orthogonal functions and related techniques in atmospheric science: A review. Int J
Climatol 27: 1119–1152.
Hannachi, A., Unkel, S., Trendafilov, N.T., Jolliffe, I.T., 2009. Independent component
analysis of climate data: A new look at EOF rotation. J Climate 22, 2797-2812.
Métodos não-Gaussianos de inferência com aplicação à predictabilidade de seca
Hastie, T., Stuetzle, W., 1989. Principal Curves. J. Amer. Statistical Ass. 84,502-516.
Hyvärinen, A., Pajunen, P., 1999. Nonlinear independent component analysis: Existence
and uniqueness results. Neural Networks 12(3), 429-439.
Hyvärinen, A., Oja, E., 2000. Independent Component Analysis: Algorithms and
Application. Neural Networks 13(4-5), 411-430.
Huber, P.J., 1985. Projection pursuit. The Annals of Statistics 13 (2): 435–475.
Hurrell, J.W., 1995. Decadal Trends in the North Atlantic Oscillation: Regional
Temperatures and Precipitation. Science 269, 676-679.
Jakulin, A., Bratko, I., 2004. Quantifying and Visualizing Attribute Interactions: an
Approach Based on Entropy. arXiv:cs/0308002v3[cs.AI], 308002, 3 pp.
Kimoto, M., Ghil, M., 1993a. Multiple flow regimes in the Northern Hemisphere winter.
Part I: Methodology and hemispheric regimes. J. Atmos. Sci. 50, 2625-2644.
Kistler, R., Kalnay, E., Collins, W., Saha, S., White, G., Woollen, J., Chelliah, M.,
Ebisuzaki, W., Kanamitsu, M., Kousky, V., van den Dool, H., Jenne, R., Fiorino, M.,
2001. The NCEP-NCAR 50-Year Reanalysis: Monthly Means CD-ROM and
Documentation. Bull. Amer. Meteorol. Soc. 82, 247-268.
Kondrashov, D., Ide, K., Ghil, M., 2004. Weather regimes and preferred transition paths
in a three-level quasi-geostrophic model. J. Atmos. Sci. 61, 568–587.
Marshall, J., Molteni, F., 1993. Toward a dynamical understanding of atmospheric
weather regimes, J. Atmos. Sci. 50, 1792–1818.
Messié, M., Chavez, F., 2011, Global modes of sea surface temperature variability in
relation to regional climate indices. J. Climate 24, 4314-4331
Michelangeli, P.A., Vautard, R., Legras, B., 1995. Weather regimes: Recurrence and
quasi stationarity. J. Atmos. Sci. 52, 1237-1256.
McKee, T.B., Doesken, N.J., Kleist, J., 1995. Drought monitoring with multiple time scales.
In: 9th Conference on Applied Climatology, Am. Meteor. Soc., Boston, pp. 233-236.
Monahan, A.H., DelSole, T., 2009. Information theoretic measures of dependence,
compactness, and non-Gaussianity for multivariate probability distributions. Nonlin
Proc. Geophys. 16, 57-64
Novey, M., Adali, T., 2008. Complex ICA by Negentropy Maximization. IEEE Trans.
Neural Netw. Learn. Syst. 19(4), 596-609.
Perron, M., Sura, P., 2013. Climatology of non-Gaussian atmospheric statistics. J.
Climate 26, 1063-1083
Peters, J.M., Kravtsov, S., Schwartz, T., 2012. Predictability associated with nonlinear
regimes in an atmospheric model. J. Atmos. Sci. 69, 1137-1154.
Pires, C.A., Perdigão, R.A.P., 2007. Non-Gaussianity and asymmetry of the winter
monthly precipitation estimation from the NAO. Mon. Wea. Rev. 135, 430-448.
Pires, C.A., Perdigão, R.A.P., 2015. Non-Gaussian interaction information: estimation,
optimization and diagnostic application of triadic wave resonance. Nonlin Processes in
Geophysics 22, 87-108.
Pires, C.A.L., Ribeiro, A.F.S., 2015. Separation of the low-frequency variability of a
quasi-geostrophic atmospheric model into non-Gaussian multidimensional sources.
Climate Dynamics (submetido).
Pires, C.A., Trigo, R.M., 2015. Non-Gaussian triadic interactions on geophysical fields:
optimization, validation and application to the Sea Surface Temperature interannual
variability. J. Climate (submetido).
Predictabilidade Sazonal de Secas
Schneidman, E., Still, S., Berry, M.J., Bialek, W., 2003. Network information and
connected correlations. Phys. Rev. Lett. 91, 238701-1–238701-4
Shannon, C.E., 1948, The mathematical theory of communication. Bell Syst. Techn.
Journal 27, 379-423.
Sholz, M., 2012. Validation on Nonlinear PCA. Neural Processing Letters 36(1), 21-30.
Sura, P., Sardeshmukh, P.D., 2008. A global view of non-Gaussian SST variability. J.
Phys. Oceanogr. 38, 639-647.
Teng, Q., Fyfe, J.C., Monahan, A.H., 2006. Northern Hemisphere circulation regimes:
observed, simulated and predicted. Climate Dynamics 28(7), 867-879.
Theis, F.J., 2006. Towards a general independent subspace analysis. In: Proceedings of
Neural Information Processing Systems (NIPS 2006)
Timme, N., Alford, W., Flecker, B., Beggs, J.M., 2013. Synergy, redundancy, and
multivariate information measures: an experimentalist’s perspective. J. Comput.
Neurosci. 36, 119-140
Yu, X., Hu, D., Xu, J., 2014. Blind Source Separation: Theory and Applications. Wiley.
ISBN: 978-1-118-67984-5, 416 pp.