Simulação de Perdas com Análise de Eventos Extremos de perdas com... · A distribuição...

23
1 Simulação de Perdas com Análise de Eventos Extremos Viviane Maranhão 27/09/2012 1. Introdução Com o objetivo de testar e melhorar a qualidade dos resultados obtidos, pelo modelo LDA, para o cálculo de VaR (Value at Risk) e Perda Esperada em Risco Operacional através da simulação de Monte Carlo, realizamos testes e simulações com a metodologia atual e uma nova metodologia proposta para a abordagem dos eventos extremos para o caso PoT ( Peaks over Threshold). Inicialmente, apresentamos o problema de estimação na cauda com uma única distribuição e o problema de valores extremos. Na sequência, apresentamos de forma sucinta as distribuições estatísticas utilizadas nesse trabalho fechando a parte introdutória. Na parte central, abordamos os vários tipos de testes realizados nesse trabalho comentando a respectiva relevância de cada um. Por fim, apresentamos um resumo dos resultados obtidos e as conclusões alcançadas. Ao longo do trabalho, também apontamos pontos que podem ou serão objeto de análise específica nos trabalhos subsequentes. 2. Método PoT Uma distribuição acumulada empírica de severidades pode apresentar valores mais afastados à medida que a probabilidade se aproxima de 1, como podemos observar na figura abaixo composta de 200 observações:

Transcript of Simulação de Perdas com Análise de Eventos Extremos de perdas com... · A distribuição...

Page 1: Simulação de Perdas com Análise de Eventos Extremos de perdas com... · A distribuição binomial negativa é uma distribuição de probabilidade discreta que indica o número

1

Simulação de Perdas com Análise de Eventos Extremos

Viviane Maranhão

27/09/2012

1. Introdução

Com o objetivo de testar e melhorar a qualidade dos resultados obtidos, pelo modelo LDA, para o

cálculo de VaR (Value at Risk) e Perda Esperada em Risco Operacional através da simulação de

Monte Carlo, realizamos testes e simulações com a metodologia atual e uma nova metodologia

proposta para a abordagem dos eventos extremos para o caso PoT (Peaks over Threshold).

Inicialmente, apresentamos o problema de estimação na cauda com uma única distribuição e o

problema de valores extremos. Na sequência, apresentamos de forma sucinta as distribuições

estatísticas utilizadas nesse trabalho fechando a parte introdutória. Na parte central, abordamos os

vários tipos de testes realizados nesse trabalho comentando a respectiva relevância de cada um. Por

fim, apresentamos um resumo dos resultados obtidos e as conclusões alcançadas. Ao longo do

trabalho, também apontamos pontos que podem ou serão objeto de análise específica nos trabalhos

subsequentes.

2. Método PoT

Uma distribuição acumulada empírica de severidades pode apresentar valores mais afastados à

medida que a probabilidade se aproxima de 1, como podemos observar na figura abaixo composta

de 200 observações:

Page 2: Simulação de Perdas com Análise de Eventos Extremos de perdas com... · A distribuição binomial negativa é uma distribuição de probabilidade discreta que indica o número

2

Pensando nos quantis, esse comportamento afeta justamente os valores mais altos, que muitas vezes

na análise de risco operacional são os de nosso interesse, por exemplo, para o cálculo do VaR. Caso

o quantil desejado não corresponda a um ponto tabelado, teremos um intervalo muito grande de

valores possíveis neste caso, o que não é desejável pois aumenta o erro.

O método PoT visa contornar esse tipo de situação. No contexto do risco operacional, dada uma

distribuição de severidades F(x) e um valor de corte µ (threshold), chamamos de eventos de corpo

(das severidades) os valores de severidade menores ou iguais ao corte e de eventos de cauda (das

severidades) ou eventos extremos aqueles maiores que o corte que serão ajustados por um novo

modelo.

O método consiste em:

1. Escolher um ponto de corte. Esta escolha pode contar com ferramentas auxiliares como

gráfico de Hill, de excessos de médias e de quantis.

2. Fazer o ajuste dos valores à direita de µ, da cauda de F(x), utilizando como modelo uma

distribuição GPD (pareto generalizada).

A justificativa para o uso da GPD baseia-se na possibilidade de escolher seus parâmetros de forma

que ela se torne uma distribuição de cauda pesada (ou longa). Em distribuições de cauda longa, uma

população com alta frequência é seguida por uma de baixa frequência que gradativamente decresce

assintoticamente. Os eventos no fim da cauda têm uma probabilidade de ocorrência muito baixa.

Atualmente, para realizar a simulação da distribuição das perdas agregadas através desta análise

utilizamos uma única distribuição de frequências, e o sorteio de um evento no corpo ou na cauda da

distribuição é condicionado ao valor inicial de severidade sorteado, dado o modelo escolhido, ser

menor ou maior que o corte. Caso o valor de severidade gerado seja maior que µ este valor é

descartado e um novo valor é sorteado tomando como distribuição base a GPD.

Levando em conta que os eventos da cauda possuem valores significativamente maiores que os do

corpo, em termos de sua severidade, e que são mais raros, possuindo frequência baixa, propomos

uma nova abordagem, em que após a separação das severidades em corpo e cauda a distribuição das

frequências seja também separada em duas. Com isso, são preservadas de forma separadas as

frequências das severidades do corpo e da cauda. Nossa expectativa é que com esta metodologia

sejam estimados valores menores de perda esperada e VaR.

Page 3: Simulação de Perdas com Análise de Eventos Extremos de perdas com... · A distribuição binomial negativa é uma distribuição de probabilidade discreta que indica o número

3

3. Distribuições estatísticas

Para facilitar a leitura deste documento apresentamos a seguir um breve resumo das distribuições

estatísticas envolvidas neste estudo. Para um maior aprofundamento nas distribuições, suas

densidades e propriedades, recomendamos a leitura Bussab & Moretin (2005) e Abramowitz e

Stegun (1964).

Binomial

A distribuição binomial é a distribuição de probabilidade discreta do número de sucessos numa

sequência de n tentativas independentes que podem resultar em sucesso com probabilidade, p,

cada. Abaixo alguns exemplos de densidade de probabilidade e probabilidade acumulada da

binomial para diferentes parâmetros.

Binomial Negativa

A distribuição binomial negativa é uma distribuição de probabilidade discreta que indica o

número de tentativas necessárias para obter n sucessos de igual probabilidade θ, sendo a última

tentativa um sucesso. A seguir alguns exemplos de densidade de probabilidade e probabilidade

acumulada da binomial negativa para diferentes parâmetros.

Page 4: Simulação de Perdas com Análise de Eventos Extremos de perdas com... · A distribuição binomial negativa é uma distribuição de probabilidade discreta que indica o número

4

Geométrica

A distribuição geométrica é uma distribuição discreta e indica a probabilidade de k tentativas

serem necessárias para ocorrer um sucesso cuja probabilidade de ocorrência é p. Vemos abaixo

alguns gráficos de densidade de probabilidade e probabilidade acumulada da distribuição

geométrica para diferentes valores de p.

Hipergeométrica

A distribuição hipergeométrica é uma distribuição de probabilidade discreta que descreve a

probabilidade de k sucessos em n extrações a partir de uma população finita de tamanho N

contendo m sucessos sem reposição. A seguir gráficos de densidade de probabilidade e

probabilidade acumulada da distribuição hipergeométrica para diferentes parâmetros.

Page 5: Simulação de Perdas com Análise de Eventos Extremos de perdas com... · A distribuição binomial negativa é uma distribuição de probabilidade discreta que indica o número

5

Poisson

É uma distribuição bastante utilizada para modelar as frequências dos eventos de perda em risco

operacional. A distribuição de Poisson é uma distribuição de probabilidade discreta que

expressa a probabilidade de uma série de eventos ocorrer num certo período de tempo,

considerando que estes eventos ocorrem independentemente de quando ocorreu o último evento.

Seu parâmetro λ é um número real, igual ao número esperado de ocorrências que ocorrem num dado intervalo de tempo. A seguir gráficos de densidade de probabilidade e probabilidade

acumulada da distribuição de Poisson para diferentes valores de λ.

Polya Aeppli

A distribuição Polya-Aeppli é uma distribuição discreta e pode ser derivada como um modelo

para o número de objetos em que estes ocorrem em clusters. Os clusters seguem uma

distribuição de Poisson com parâmetro θ, e o número de objetos dentro de um conjunto segue

uma distribuição geométrica com parâmetro p. Por esta razão, esta distribuição é por vezes

referida como uma distribuição de Poisson-geométrica. Apresentamos alguns gráficos de

densidade de probabilidade e probabilidade acumulada para Polya Aeppli a seguir.

Page 6: Simulação de Perdas com Análise de Eventos Extremos de perdas com... · A distribuição binomial negativa é uma distribuição de probabilidade discreta que indica o número

6

Lognormal

A lognormal é uma distribuição contínua definida para valores positivos que tem parâmetros de

localização μ e de escala σ. Uma variável aleatória X tem distribuição lognormal quando o seu

logaritmo Y= log(X) tem distribuição normal. A distribuição lognormal costuma ser utilizada

para modelar as severidades dos eventos de perda no contexto do risco operacional.

Apresentamos a seguir alguns gráficos da distribuição de probabilidades e probabilidade acumulada para diferentes parâmetros da lognormal.

Distribuição de Pareto Generalizada

A distribuição de Pareto generalizada (GPD) é uma distribuição contínua bastante utilizada no

risco operacional para modelar os eventos extremos das severidades por ser possível controlar o

peso da sua cauda através de uma escolha adequada de parâmetros.

Ela é formada pelos parâmetros de localização, µ, que chamamos de threshold e que define o

domínio da distribuição, de escala, σ, (positivo) e de forma, ξ, este último diretamente

relacionado com a forma da cauda da distribuição, ela é pesada para valores positivos de ξ. Para

ilustrar a distribuição apresentamos a seguir alguns gráficos da distribuição de probabilidades e

probabilidades acumuladas da GPD.

Page 7: Simulação de Perdas com Análise de Eventos Extremos de perdas com... · A distribuição binomial negativa é uma distribuição de probabilidade discreta que indica o número

7

4. Metodologia de Testes

Para testar a viabilidade da metodologia realizamos diversas simulações e comparamos os

resultados.

São variáveis da simulação:

Número de simulações: Número de vezes que o processo será realizado (no final é

executada a média das realizações). Utilizamos os valores 1.000, 10.000 (padrão do sistema) e 100.000 para podermos medir a convergência do método (velocidade em que os valores

gerados tendem a se estabilizar) e também a estabilidade em relação à periodicidade do

gerador de números aleatórios.

Hoje o sistema utiliza como gerador de números aleatórios o algoritmo linear congruencial,

que sabidamente possui uma periodicidade limitada. Em outro momento, devemos expandir

os testes para diferentes números de simulações e também testar as diferenças de resultados

para um outro gerador, como o Mersenne Twister.

Horizonte de tempo: Horizonte de tempo utilizado para os cálculos do VaR e perda

esperada. Utilizamos 1, 30 e 360 correspondendo a um dia, um mês e um ano,

respectivamente.

Ao utilizarmos diferentes horizontes de tempo podemos perceber o comportamento da

simulação para grupos de tamanhos diferentes, uma vez que as perdas dentro de cada

horizonte são somadas. Também podemos analisar o comportamento das médias e das

caudas das distribuições (perda esperada e VaRs, respectivamente) para diferentes valores de

tempo. Uma análise detalhada deste efeito foge do escopo deste trabalho, mas em um

momento futuro faremos um estudo das diferenças teóricas esperadas entre estes valores nos

diferentes horizontes de tempo e as obtidas na simulação.

VaR: Valores de VaR que deveriam ser calculados na simulação. Utilizamos 95%, 99% e

99.97%.

Separação de frequências: Se as frequências das severidades devem ser separadas em corpo e cauda ou não após a escolha do ponto de corte na severidade.

Tipo de simulação na frequência: A simulação pode ser paramétrica (considera

distribuições teóricas) ou não paramétrica (utiliza a tabela de frequências empíricas). Este

tipo de estudo foi feito para analisar a sensibilidade das simulações à qualidade do modelo

escolhido para representar as frequências. Esta parte constitui um importante objeto de

análise deste trabalho.

A escolha de um ajuste através de um modelo permite inferir valores para a probabilidade

para os quais não há observação correspondente na amostra, por outro lado, este ajuste pode

justamente alterar os valores de VaR e perda esperada para as perdas agregadas, uma vez

que podem, por conta do ajuste atribuir certos valores de probabilidade que não

correspondem aos reais.

Page 8: Simulação de Perdas com Análise de Eventos Extremos de perdas com... · A distribuição binomial negativa é uma distribuição de probabilidade discreta que indica o número

8

Em particular devemos ficar atentos ao que acontece no ajuste na cauda das distribuições de

frequência, ou seja, para valores mais elevados de frequência, como estes valores tendem a

ser raros na amostra, é possível ajustar um modelo “bom” no sentido em que contempla

grande parte da distribuição, mas que difere dela justamente na cauda, o que pode

sobrestimar ou subestimar as perdas agregadas, uma vez que isso tem relação direta com o

número de eventos sorteados. Também pode ser que nenhum modelo se ajuste

adequadamente sendo que a qualidade das estimações de risco está diretamente ligada à

qualidade da distribuição de perdas agregadas a qual é influenciada pelos ajustes de modelo.

Chamaremos estes fenômenos de risco do modelo.

Distribuição das severidades do corpo: Uma lognormal de parâmetros de localização 10 e escala 0.5. Estamos assumindo que esta distribuição teórica corresponde exatamente a

algum conjunto de dados de severidades e, portanto, não há erros de ajuste. A densidade de

probabilidade (pdf) e densidade acumulada (cdf) desta distribuição podem ser vistas a

seguir:

Escolha do ponto de corte: Foi escolhido como o percentil 0.9 da distribuição do corpo fazendo com que a cauda correspondesse a 10% da distribuição total de severidades. No

caso da distribuição escolhida esse percentil foi igual a 41.805,19. Esse valor é representado

no gráfico da distribuição de severidades através de uma linha vertical vermelha.

Distribuição das severidades da cauda: Uma GPD considerando o threshold anterior tendo parâmetros de escala 10, threshold 41.805,19 e forma 0.1. Lembramos que esta distribuição

está definida para valores maiores que o threshold e que a escolha do parâmetro de forma a

torna uma distribuição de cauda pesada, mais adequada que a lognormal para modelar a

ocorrência dos eventos extremos. As densidades de probabilidade e acumulada da

distribuição podem ser vistas abaixo:

Page 9: Simulação de Perdas com Análise de Eventos Extremos de perdas com... · A distribuição binomial negativa é uma distribuição de probabilidade discreta que indica o número

9

Distribuição empírica das freqüências: Geramos dados aleatoriamente 1250 observações (correspondendo aproximadamente aos dias úteis em 5 anos) seguindo uma distribuição de

Poisson com parâmetro 1.5 e computamos as frequências empíricas. Em uma base real após

a escolha do ponto de corte deveríamos separar os eventos de corpo e cauda e computar as

frequências de cada um deles, obtendo assim duas distribuições, as frequências do corpo e as

frequências da cauda (aproveitamos para ressaltar que a separação pelo ponto de corte é

sempre feita com base nos valores de severidade, não faz sentido separar diretamente a

distribuição de frequências original com base em um percentil).

Neste teste, para a separação das frequências da cauda da distribuição das severidades

fizemos 3 frequências, uma série de 1250 observações de uma Poisson de parâmetro 0.15

(caso 1), uma distribuição binária (caso 2), e uma distribuição com valores mais altos (caso

3), respeitando os limites da frequência original e também a proporção para que a soma das

frequências da cauda da distribuição de severidades correspondesse à 10% da soma da

frequência total das severidades. A escolha por esta separação busca contemplar diversos

cenários:

1. com frequências correspondentes a um modelo real, que apresenta valores baixos e

com uma pequena probabilidade pode apresentar mais de um evento no mesmo dia,

2. leva ao limite o fato dos eventos extremos serem raros, e, portanto, permite que

somente um evento extremo ocorra no dia e;

3. caso, patológico, em que ocorre o maior número possível de eventos em cada dia,

respeitando os limites da distribuição original, para sentir o efeito de uma

distribuição de frequências com valores mais elevados para os eventos da cauda das

severidades.

Para as frequências do corpo subtraímos das frequências totais as frequências das caudas,

tomando cuidado para que um dia não apresentasse frequência negativa. No caso 1, este

processo foi realizado aleatoriamente, buscando simular uma distribuição que de fato pode

ocorrer na realidade. No caso 2, elaboramos dois cenários, um subtraindo dos menores

valores de frequência e outro dos maiores, para que seja possível sentir o efeito de duas

distribuições de frequências distintas para os eventos do corpo da distribuição de

Page 10: Simulação de Perdas com Análise de Eventos Extremos de perdas com... · A distribuição binomial negativa é uma distribuição de probabilidade discreta que indica o número

10

severidades, mantendo uma mesma distribuição de frequências para os eventos da cauda da

distribuição de severidades (em particular, no primeiro caso haverá uma maior inclusão de

zeros). Finalmente, no caso 3 foram subtraídos os maiores valores de frequência, uma vez

que os valores de frequências gerados para os eventos extremos de severidade eram maiores

e não se pode ter dia com frequência negativa. Desta forma, obtivemos um cenário para

distribuição de frequências única e quatro cenários para distribuição empírica de frequências

separadas em frequências das severidades do corpo e frequência das severidades da cauda.

Distribuição teórica das frequências: Para o caso das simulações paramétricas fizemos

ajustes através do GRO para escolher um modelo teórico para as frequências. Cada

distribuição empírica de frequências criada no item anterior foi ajustada em 3 modelos

diferentes, um primeiro buscando um bom resultado de teste chi-quadrado (o teste de

aderência utilizado em nosso sistema para avaliar a qualidade do ajuste do modelo) e

também um equilíbrio entre os valores ajustados e observados na cauda, um segundo com o

ajuste sobrestimando os valores observados na cauda destas distribuições de frequência

(aqueles valores mais altos e que esperamos que ocorram poucas vezes) e um terceiro

subestimando os valores observados na cauda destas distribuições de frequência. Os

cenários foram obtidos fazendo a combinação dos diferentes casos de separação das

frequências dos eventos do corpo e da cauda da distribuição de severidades. No total foram

3 cenários para uma frequência única e 36 cenários para separação em frequências dos

eventos que ocorreram corpo e na cauda da distribuição de severidades.

Apresentamos a seguir o histograma das distribuições de frequência empíricas criadas bem como

cada um dos ajustes obtidos.

Frequência Única

0

0,05

0,1

0,15

0,2

0,25

0,3

0,35

0,4

0,45

0 1 2 3 4 5 6 7

Empírica Melhor Ajuste Maior na Cauda Menor na Cauda

Para uma única frequência o ajuste ideal mostra-se próximo à distribuição original, (o que faz

sentido, pois ela foi gerada através de uma distribuição de Poisson). O ajuste de um modelo maior

na cauda da distribuição de frequências sobrestima os valores mais elevados e subestima os mais

baixos, enquanto o ajuste de um modelo menor na cauda apresenta o comportamento oposto, e com

uma distribuição bastante diferente da distribuição original.

Page 11: Simulação de Perdas com Análise de Eventos Extremos de perdas com... · A distribuição binomial negativa é uma distribuição de probabilidade discreta que indica o número

11

Frequência Cauda - 1

0

0,1

0,2

0,3

0,4

0,5

0,6

0,7

0,8

0,9

1

0 1 2

Empírica Melhor Ajuste Maior na Cauda Menor na Cauda

Para as frequências da cauda das severidades dos eventos de perda o ajuste ideal aproximou-se da

distribuição empírica, novamente refletindo seu processo de criação. Por estarmos trabalhando com

um domínio bastante limitado, os demais ajustes também apresentam certa semelhança com a

distribuição empírica, mas esperamos sentir a diferença entre os modelos na hora de sortear dois

eventos em um mesmo dia, o ajuste menor na cauda não permitirá que isso ocorra, e o ajuste maior

permitirá que ocorra mais vezes que no ajuste ideal.

Frequência Cauda - 2

0

0,1

0,2

0,3

0,4

0,5

0,6

0,7

0,8

0,9

1

0 1

Empírica Melhor Ajuste Maior na Cauda Menor na Cauda

Para as frequências da cauda das severidades dos eventos de perda que consideram que no máximo

um evento extremo pode ocorrer no dia o ajuste ideal pela binomial foi perfeito, uma vez que reflete

o próprio comportamento da distribuição. Para os outros ajustes podemos observar um

comportamento semelhante ao caso anterior.

Page 12: Simulação de Perdas com Análise de Eventos Extremos de perdas com... · A distribuição binomial negativa é uma distribuição de probabilidade discreta que indica o número

12

Frequência Cauda - 3

0

0,1

0,2

0,3

0,4

0,5

0,6

0,7

0,8

0,9

1

0 1 2 3 4 5 6 7

Empírica Melhor Ajuste Maior na Cauda Menor na Cauda

Para o último caso de frequências da cauda das severidades dos eventos de perda mesmo o ajuste

ideal mostrou-se ruim, lembrando que esta distribuição foi criada justamente como um caso

patológico para testar o comportamento das perdas agregadas em caso de muitos eventos em um

único dia. Ressaltamos que o ajuste maior na cauda não corresponde em nada à distribuição

original, e que provavelmente gerará um número bem maior de eventos que os outros ajustes.

Frequência Corpo - 1

0

0,05

0,1

0,15

0,2

0,25

0,3

0,35

0,4

0,45

0,5

0 1 2 3 4 5 6 7

Empírica Melhor Ajuste Maior na Cauda Menor na Cauda

Para o primeiro caso de ajustes para a distribuição de frequências do corpo da distribuição das

severidades o ajuste ideal apresenta um comportamento próximo à distribuição empírica e tanto o

ajuste maior quanto o menor na cauda desta distribuição de frequências são decrescentes, fazendo

que o número de zeros seja sobrestimado. Ainda assim, esperamos que por conta das caudas esses

modelos apresentem comportamentos diferentes.

Page 13: Simulação de Perdas com Análise de Eventos Extremos de perdas com... · A distribuição binomial negativa é uma distribuição de probabilidade discreta que indica o número

13

Frequência Corpo - 2a

0

0,05

0,1

0,15

0,2

0,25

0,3

0,35

0,4

0,45

0,5

0 1 2 3 4 5 6 7

Empírica Melhor Ajuste Maior na Cauda Menor na Cauda

Para a distribuição das frequências do corpo da distribuição de severidades em que foram

retirados os eventos extremos que ocorreram no máximo uma vez por dia dos valores menores de

frequência observamos que todos os ajustes apresentam diferenças em relação à distribuição

empírica.

Frequência Corpo - 2b

0

0,05

0,1

0,15

0,2

0,25

0,3

0,35

0,4

0,45

0 1 2 3 4 5 6

Empírica Melhor Ajuste Maior na Cauda Menor na Cauda

Para a distribuição das frequências do corpo da distribuição de severidades em que foram

retirados os eventos extremos que ocorreram no máximo uma vez por dia dos valores maiores de

frequência também não foi possível encontrar um bom ajuste. Este caso está bastante sujeito ao

risco de modelo.

Page 14: Simulação de Perdas com Análise de Eventos Extremos de perdas com... · A distribuição binomial negativa é uma distribuição de probabilidade discreta que indica o número

14

Frequência Corpo - 3

0

0,1

0,2

0,3

0,4

0,5

0,6

0,7

0,8

0 1 2 3 4

Empírica Melhor Ajuste Maior na Cauda Menor na Cauda

Finalmente, para o último caso de distribuição das frequências do corpo da distribuição de

severidades temos um ajuste ideal próximo à frequência empírica, um ajuste maior na cauda que

levará de fato à maior ocorrência de valores mais altos e um ajuste menos na cauda que levará à

menor ocorrência de valores mais altos e inclusive a uma maior ocorrência de dias sem eventos.

Os diferentes tipos de ajustes apresentados buscam ilustrar como é possível inadvertidamente

incluir o risco do modelo em uma simulação. Ainda que alguns valores para a cauda sobrestimados

sejam compensados por um ajuste subestimado para frequências baixas, e vice-versa, é importante

ressaltar que são modelos que não correspondem aos dados reais e que podem levar a resultados

enganosos para as perdas agregadas.

Como saída das simulações foram analisados os valores de VaR calculados, a perda esperada e

também a proporção de eventos efetivamente sorteados na cauda, esta última para verificar se uma

eventual diferença de valores não era vinda de um sorteio menor de eventos extremos ao invés de

ser por conta das diferentes metodologias.

Page 15: Simulação de Perdas com Análise de Eventos Extremos de perdas com... · A distribuição binomial negativa é uma distribuição de probabilidade discreta que indica o número

15

5. Resultados

A planilha completa com os cenários de teste está disponível no repositório do P&D junto com os

arquivos de saída gerados. Apresentamos aqui as conclusões:

Número de Simulações.

De uma maneira geral houve pouca diferença nos resultados entre os diferentes valores de

simulação, em particular ao aumentar de 10.000 para 100.000. Em todos os casos, o valor mais sensível às alterações foi o do VaR 99.97%, especialmente em horizonte de tempo de 1

dia, isto porque como ele é calculado com base nos quantis ele depende de fato de uma série

de dados maior. Em todo caso, o sentido da variação foi aleatório, não apresentando um

padrão fixo de “para mais” ou “para menos”. Desta forma, os próximos resultados serão

apresentados sempre para o caso de 10.000 simulações, que é o padrão do sistema.

Lembramos que em um momento futuro estressaremos melhor o gerador de números

aleatórios e também utilizaremos outro gerador para avaliar a velocidade de convergência,

ou mesmo uma sensibilidade menor ao tamanho da amostra.

Apresentamos as frequências das variações:

-0.4 -0.2 0 0.2 0.4 0.6 0.8 1 1.2 1.40

5

10

15

20

25

30

35

40

45Variação para 1 dia

PE 1000->10000

PE 10000->100000

VaR 95% 1000->10000

VaR 95% 10000->100000

VaR 99% 1000->10000

VaR 99% 10000->100000

VaR 99.97% 1000->10000

VaR 99.97% 10000->100000

Page 16: Simulação de Perdas com Análise de Eventos Extremos de perdas com... · A distribuição binomial negativa é uma distribuição de probabilidade discreta que indica o número

16

-0.2 -0.15 -0.1 -0.05 0 0.05 0.1 0.150

5

10

15

20

25

30

35

40

45Variação para 30 dias

PE 1000->10000

PE 10000->100000

VaR 95% 1000->10000

VaR 95% 10000->100000

VaR 99% 1000->10000

VaR 99% 10000->100000

VaR 99.97% 1000->10000

VaR 99.97% 10000->100000

-0.1 -0.08 -0.06 -0.04 -0.02 0 0.02 0.04 0.06 0.080

5

10

15

20

25

30

35

40

45Variação para 360 dias

PE 1000->10000

PE 10000->100000

VaR 95% 1000->10000

VaR 95% 10000->100000

VaR 99% 1000->10000

VaR 99% 10000->100000

VaR 99.97% 1000->10000

VaR 99.97% 10000->100000

Em todos os casos, e de forma mais acentuada para o maior horizonte de tempo há uma

grande concentração de valores em torno do zero, especialmente para a perda esperada e

VaR menor, o que mostra que de fato a variação foi pequena e para este trabalho é possível

considerar satisfatória a simulação com 10.000 iterações.

Horizonte de Tempo:

O aumento da perda esperada em relação ao aumento do horizonte de tempo foi

praticamente linear em todos os casos. Para os VaRs é possível ver que há relação com o

tempo, mas não é possível estabelecer esta relação, apenas que a variação é maior de acordo

com o aumento do horizonte de tempo ou de sua raiz quadrada como em processos de

elevada simetria de resultados como para risco de mercado. Também pode-se ver que os

valores de VaR mais altos (99.97%) são multiplicados por constantes menores que os

valores mais baixos (95%). Estas relações serão objeto de análise de outro trabalho,

confrontando resultados teóricos e resultados simulados.

Page 17: Simulação de Perdas com Análise de Eventos Extremos de perdas com... · A distribuição binomial negativa é uma distribuição de probabilidade discreta que indica o número

17

As tabelas a seguir apresentam as principais estatísticas descritivas dessas variações:

1 dia->30 dias Perda Esperada Var-95% Var-99% Var-99,97%

Média 29,83 13,39 10,63 7,86

Erro padrão 0,02 0,27 0,31 0,31

Mediana 29,85 13,13 10,24 8,41

Desvio padrão 0,16 1,81 2,04 2,04

Variância da amostra 0,03 3,29 4,15 4,16

Mínimo 29,43 8,38 6,04 3,25

Máximo 30,20 17,74 15,08 12,97

1 dia -> 360 dias Perda Esperada Var-95% Var-99% Var-99,97%

Média 357,06 132,04 97,67 65,42

Erro padrão 0,32 3,64 3,78 3,44

Mediana 357,13 129,45 93,59 69,68

Desvio padrão 2,15 24,14 25,06 22,79

Variância da amostra 4,62 582,72 627,80 519,60

Mínimo 351,72 70,97 45,34 12,71

Máximo 360,81 190,00 154,87 125,63

30 dias -> 360 dias Perda Esperada Var-95% Var-99% Var-99,97%

Média 11,97 9,79 9,08 8,11

Erro padrão 0,00 0,08 0,11 0,15

Mediana 11,97 9,82 9,13 8,35

Desvio padrão 0,02 0,53 0,76 1,02

Variância da amostra 0,00 0,28 0,58 1,03

Mínimo 11,89 8,26 6,00 3,91

Máximo 12,01 10,71 10,27 9,69

Page 18: Simulação de Perdas com Análise de Eventos Extremos de perdas com... · A distribuição binomial negativa é uma distribuição de probabilidade discreta que indica o número

18

Tipo de simulação (paramétrica ou não paramétrica):

Em todos os casos, a proporção de eventos sorteados na cauda das severidades foi de 10%,

arredondando com duas casas decimais, de forma que as diferenças que surgiram entre os

valores não foram decorrentes de um sorteio menor ou maior de eventos de valores

extremos. Podemos entender que as simulações paramétricas são sujeitas a erros de ajuste do

modelo.

Para uma única frequência: Tomando como horizonte de tempo um ano, o ajuste através

do modelo ideal (Poisson) gerou pouca variação em relação à modelagem com a frequência

não paramétrica, mas tantos os modelos que sobrestimaram (hipergeométrica) como os que

subestimaram (geométrica) a cauda geraram valores maiores de VaR e perda esperada como

pode ser visto a seguir.

Ajuste Perda Esperada Var-95% Var-99% Var-99,97%

poisson 0% 0% 0% -1%

geometrica 0% 4% 5% 7%

hipergeometrica 46% 42% 40% 36%

Para refrescar a memória do leitor reapresentaremos o histograma dos ajustes e da

distribuição empírica de uma única frequência:

Frequência Única

0

0,05

0,1

0,15

0,2

0,25

0,3

0,35

0,4

0,45

0 1 2 3 4 5 6 7

Empírica Melhor Ajuste Maior na Cauda Menor na Cauda

Ou seja, o ajuste que levou à maior variação, o da hipergeométrica, menor na cauda, foi

justamente o que menos representa a distribuição empírica. Apesar do esperado, por conta

do ajuste menor da cauda, ser um valor menor de perda esperada e VaR, o contrário ocorreu

pois houve uma diferença muito grande entre os valores tabelados e estimados para valores

baixos de frequências, enquanto na frequência empírica a chance de se sortear um dia sem

Page 19: Simulação de Perdas com Análise de Eventos Extremos de perdas com... · A distribuição binomial negativa é uma distribuição de probabilidade discreta que indica o número

19

evento de perda é de cerca de 40%, com o ajuste passa a ser menos de 5%, o que,

naturalmente, levará a um sorteio maior de eventos e impactará na soma das severidades.

Este comportamento deixa claro o quanto a simulação pode ser influenciada pelo risco de

modelo. Um modelo que representa bem os dados reais gera resultados parecidos com os

gerados trabalhando diretamente com as frequências tabeladas, enquanto modelos que não

representam bem os dados podem gerar resultados imprevisíveis e principalmente, fora da

realidade.

Para a separação em duas frequências: a utilização de modelos teóricos em detrimento das frequências tabeladas gerou aumentos na perda esperada e VaR, com exceção dos casos

em que o modelo da distribuição de frequências do corpo das severidades era feito de

maneira a subestimar os valores nas caudas, nestes casos houve um decaimento dos valores

obtidos. Como exemplo deste comportamento podemos observar o caso em que as

frequências totais foram separadas nas frequências dos eventos extremos com um ou

nenhum evento e estes valores foram retirados de frequências pequenas do total. O ajuste na

distribuição de frequências do corpo foi: Polya Aeppli, melhor ajuste, Geométrica,

sobrestimando a cauda, Hipergeométrica, subestimando a cauda. Nas frequências dos

eventos extremos: Binomial, o ajuste ideal, Hipergeométrica, sobrestimando a cauda e

geométrica, subestimando a cauda.

É importante notar também que no caso em que houve sobrestimação o aumento foi bem

mais expressivo.

Ajuste (frq. Corpo – frq. Cauda) Perda Esperada Var-95% Var-99% Var-99,97%

Polya x binomial 4% 4% 4% 3%

Polya x hipergeométrica 5% 6% 6% 4%

Polya x geometrica 4% 4% 5% 3%

geométrica x binomial 76% 78% 79% 76%

geométrica x hipergeométrica 77% 79% 80% 78%

geométrica x geometrica 76% 78% 79% 77%

hipergeométrica x binomial -5% -7% -8% -11%

hipergeométrica x hipergeométrica -4% -6% -7% -10%

hipergeométrica x geometrica -5% -7% -8% -11%

O impacto do risco de modelo na distribuição de perdas agregadas é maior para um ajuste da

distribuição das frequências do corpo das severidades não correspondente aos dados reais.

No caso dos ajustes mais próximos dos dados tabelados, a diferença foi a menos expressiva,

justamente por se aproximar dos dados tabelados.

Page 20: Simulação de Perdas com Análise de Eventos Extremos de perdas com... · A distribuição binomial negativa é uma distribuição de probabilidade discreta que indica o número

20

A seguir apresentamos os gráficos das frequências utilizadas neste caso. Podemos ver que quando

mais distante o modelo ajustado da distribuição empírica, maior a variação gerada nas perdas

agregadas.

Frequência Corpo - 2a

0

0,05

0,1

0,15

0,2

0,25

0,3

0,35

0,4

0,45

0,5

0 1 2 3 4 5 6 7

Empírica Melhor Ajuste Maior na Cauda Menor na Cauda

Tipo de Separação de Frequências - Frequências separadas x Frequência única:

i. Para frequências tabeladas, ou seja, na modelagem semi-paramétrica, usar uma frequência

sempre levou a valores maiores que a separação em duas frequências, podemos ver o

aumento para cada caso, no horizonte de tempo de um ano na tabela abaixo:

Ajuste Perda

Esperada Var-95% Var-99% Var-99,97%

cauda poisson 32% 30% 29% 29%

cauda binaria, corpo sem menores 32% 29% 28% 26%

cauda binaria, corpo sem maiores 32% 32% 32% 33%

cauda valores altos, corpo sem maiores 32% 30% 30% 31%

Em todos os casos usar uma única frequência gera valores na simulação cerca de 30% maior

que separando em duas frequências, uma para os eventos do corpo e outra para ou eventos

da cauda das severidades, trabalhando com os valores originais, tabelados.

Naturalmente, a perda esperada será bem menos sensível ao tipo de separação das

frequências que o VaR, uma vez que enquanto a primeira trabalha com a média de todos os

dados, o VaR trabalha diretamente na cauda da distribuição de perdas agregadas.

Page 21: Simulação de Perdas com Análise de Eventos Extremos de perdas com... · A distribuição binomial negativa é uma distribuição de probabilidade discreta que indica o número

21

Ao trabalharmos com os dados originais podemos ver certo padrão no comportamento,

mesmo considerando diversas naturezas de frequências o que indica que o procedimento é

estável.

ii. Para frequências ajustadas, ou seja, na modelagem paramétrica, em geral houve aumento

ao usar uma frequência ao invés de separar em duas. Os casos em que houve diminuição do

valor foram relativos aos casos em que o modelo ajustado subestimou a quantidade de

frequências na cauda da distribuição, mas ainda assim a redução sempre foi menos

expressiva que o crescimento. Como exemplo apresentamos uma tabela comparando uma

única frequência ajustada pela Poisson, o mais perto dos dados originais, contra os diversos

modelos propostos para a separação em duas frequências, para horizonte de tempo de um

ano.

As frequências totais dos eventos de perda foram separadas considerando que os eventos

extremos ocorreram uma ou nenhuma vez no dia, montando a distribuição de frequências

dos eventos extremos e estes valores foram retirados de frequências grandes do total. O

ajuste na distribuição de frequências do corpo foi: hipergeométrica, melhor ajuste, Poisson,

sobrestimando a cauda, Hipergeométrica, subestimando a cauda. Nas frequências dos

eventos extremos: Binomial, o ajuste ideal, Hipergeométrica, sobrestimando a cauda e

geométrica, subestimando a cauda. Realçamos em amarelo na tabela os casos com a

frequência da distribuição do corpo das severidades subestimado na cauda.

Ajuste (frq. Corpo – frq. Cauda) Perda Esperada Var-95% Var-99% Var-99,97%

hipergeometrica x binomial 34% 33% 34% 33%

hipergeometrica x hipergeometrica 32% 32% 31% 32%

hipergeometrica x geometrica 34% 33% 33% 34%

poisson x binomial -13% -12% -12% -11%

poisson x hipergeometrica -13% -13% -12% -12%

poisson x geometrica -13% -12% -12% -12%

hipergeometrica x binomial 7% 8% 9% 10%

hipergeometrica x hipergeometrica 6% 7% 8% 9%

hipergeometrica x geometrica 7% 8% 8% 10%

Podemos ver que o aumento ou diminuição dos valores estimados em relação a uma única

frequência é bastante influenciado pelo tipo de modelo utilizado para modelar as frequências do

corpo da distribuição de severidades. Isto se deve a dois motivos, o primeiro é que a distribuição de

frequências do corpo representa 90% da distribuição de frequências total dos eventos de perda,

portanto haverá um sorteio muito maior de eventos nessa região, fazendo com que o impacto no

resultado geral seja maior.

Page 22: Simulação de Perdas com Análise de Eventos Extremos de perdas com... · A distribuição binomial negativa é uma distribuição de probabilidade discreta que indica o número

22

O segundo é que, como vimos anteriormente, os ajustes de modelos para estas distribuições

mostraram-se bastante insatisfatórios, pouco representando os dados originais, portanto as variações

ilustram o efeito do risco de modelo na simulação. A ausência de um padrão único para os valores

simulados indica uma instabilidade do método para simulação paramétrica por conta do risco do

modelo.

6. Conclusões

A separação das frequências da severidade entre eventos de corpo e cauda demonstrou-se vantajosa

no sentido em que leva a valores de VaR e perda esperada mais aderentes aos dados das perdas.

Adicionalmente, concluímos que utilizar uma única distribuição de frequências para a simulação de

perdas agregadas pode fazer com que haja uma extração maior na cauda, pois os dias em que a

frequência de eventos extremos é nula não estarão sendo considerada caso tenha ocorrido algum

outro evento neste mesmo dia, o que impactará diretamente na soma das severidades dos eventos

sorteados.

Em outras palavras, ao considerarmos uma única distribuição de frequências para representar

simultaneamente eventos, de uma mesma categoria de risco, cuja intensidade das perdas seja tão

diferente a ponto de necessitarmos modelos distintos para cada grupo, há uma tendência consistente

de sobrestimação da distribuição de perdas pelo método LDA.

É sabido que este método baseia-se na independência das variáveis aleatórias de frequência e

severidade. Porém, ao separarmos as severidades em dois grupos um para o corpo contemplando

perdas típicas e que possui maior número de ocorrências e outro para perdas elevadas de difícil

ocorrência, estamos reconhecendo a existência, para uma linha de negócio e categoria de risco, de

dois processos de perdas com padrões distintos. Dessa forma, assumir total independência entre

frequência e severidade é uma hipótese muito forte e, por vezes, irrealista a qual poderá sobrestimar

a distribuição de perdas agregadas como os dados apresentados demonstram.

Sem prejuízo do exposto acima, ainda ressaltamos que a simulação paramétrica é sujeita ao risco de

modelo, ou seja, utilizar um modelo de distribuição de frequências que não corresponde aos dados

reais. Este ajuste inadequado, em particular nas caudas, pode gerar valores incorretos na simulação.

Isto fica ainda mais evidente nos casos de separação das frequências em duas, pois ao trabalharmos

diretamente com as frequências dos eventos que ocorreram na cauda da distribuição de severidades,

estamos lidando com os valores mais altos da distribuição que podem tanto elevar quanto reduzir

inadequadamente os valores estimados de perda esperada e VaR por conta de um ajuste que

apresenta divergências em relação aos valores reais nos extremos.

Dessa forma, a recomendação é trabalhar diretamente com as frequências empíricas e com sua

separação para os eventos que ocorrem no corpo da distribuição das severidades e os que ocorrem

na cauda da mesma distribuição.

Page 23: Simulação de Perdas com Análise de Eventos Extremos de perdas com... · A distribuição binomial negativa é uma distribuição de probabilidade discreta que indica o número

23

7. Bibliografia

J. D. O. S. Junior. “Discussões sobre a Relação entre Distribuições de Cauda Pesada e

Conflitos de Informação em Inferência Bayesiana”. Universidade Estadual de Campinas.

Dissertação de Mestrado.

Matsumoto, M.; Nishimura, T. (1998). "Mersenne twister: a 623-dimensionally equidistributed uniform pseudo-random number generator". ACM Transactions on Modeling

and Computer Simulation 8 (1): 3–30.

Milton Abramowitz e Irene A. Stegun. (1964). “Handbook of Mathematical Functions: with Formulas, Graphs, and Mathematical Tables”. Dover books on mathematics. Dover, New

York, 9ª. edição.

O. Bussab e Pedro A. Morettin. (2005). “Estatística Básica”. Saraiva, 5ª. edição.

Sheldon M. Ross. 2006. Simulation, Fourth Edition. Academic Press, Inc., Orlando, FL,

USA.

V. Belitsky e F. M. Moreira (2007). Emprego do método “Peaks-over-Threshold” na estimação de risco: uma exposição abragente, detalhada mas simples. Instituto de

Matemática e Estatística da Universidade de São Paulo. Third Brazilian Conference on

Statistical Modelling in Insurance and Finance, Maresias, Brazil.

W. Lee (2009). “Applying Generalized Pareto Distribution to the Risk Management of Commerce Fire Insurance”. Tamkang University.