Practica de estadística actuarial aplicad

8 de noviembre de 2012

PRACTICA 1 ESTADÍSTICA ACTUARIAL APLICADA

Ester Caparros Jane COMPONENTES PRINCIPALES

APLICADO A UNA CARTERA

DE SEGUROS DE AUTOS

En el presente trabajo se aborda el análisis e interpretación de una cartera de seguros de

automóvil a través del uso del método de análisis de componentes principales(con el software

SPSS) cuyo objetivo es explicar adecuadamente el comportamiento de la muestra con un

menor número de variables que el original.

Nuestra base de datos está compuesta por cinco variables, siendo tres de ellas cuantitativas–

edad, antigüedad del permiso y antigüedad en la compañía, y las dos restantes – número de

siniestros y garantía de daños – variables de control. Disponemos de 2.469 observaciones para

cada una de las variables, número que con posterioridad comprobaremos si es adecuado o no

para el análisis a realizar.

En primer lugar como es conveniente conocer los datos de que disponemos vamos a utilizar los

estadísticos descriptivosque nos proporcionan un resumen de ellos:

Estadísticos descriptivos

N Mínimo Máximo Media Desv. típ.

Edad 2469 39 62 49,41 3,143

Antigüedad Permiso 2469 13 27 19,46 2,009

Antigüedad en la compañía 2469 12 18 15,07 1,074

N válido (según lista) 2469

Podemos observar que en la cartera no hay gente joven, dado que la edad mínima es de 39

años, y que los asegurados tienen muchos años de carnet de conducir y llevan también

muchos años en la compañía, es decir, tengo una clientela estable y fidelizada (probablemente

debido a la estrategia y la política comercial de la aseguradora).

Otra herramienta útil que contribuye al mejor conocimiento de nuestra cartera son los

gráficos, hemos realizado varios y nos ha parecido destacar dos de ellos por lo que aportan.

Este primer gráfico nos muestra que los clientes que sufren siniestros son personas a partir de

poco más de 55 años, una cierta edad, con muchos años de experiencia que se refleja en la

antigüedad del permiso pero que pierden aptitudes para conducir dado que concentran la

siniestralidad. Este hecho se puede observar a partir de otro gráfico con la edad en el eje de

ordenadas y en el de abscisas la antigüedad en la compañía, que corrobora las conclusiones

extraídas presentándose los siniestros para distintas antigüedades pero concentrados en

edades superiores a los 55 años. Se adjunta el gráfico a continuación:

En el último de los gráficos podemos ver que los clientes con la garantía de daños contratada

son aquellos con una antigüedad en la compañía de 15 años en adelante con un rango de edad

muy amplio que va desde los 40 años a los 65. Creemos que esto se puede deber a que la

compañía premia la fidelidad de sus clientes ofreciendo esta cobertura a un precio

notablemente menor al de mercado.

1. ANÁLISIS DE COMPONENTES PRINCIPALES RETENIENDO ÚNICAMENTE EL PRIMERO

Una vez examinado el perfil de los clientes vamos a realizar el análisis de componentes

principales. Mediante el SPSS debemos seguir el siguiente procedimiento: ir a menú “Analizar”,

luego a submenú “Reducción de dimensiones”,por último a “Factor”, aparece una ventana

donde seleccionar las opciones y ejecutandoobtenemos los resultados.

Matriz de correlacionesa

Edad Antigüedad

Permiso

Antigüedad en

la compañía

Correlación Edad 1,000 ,934 ,348

Antigüedad Permiso ,934 1,000 ,045

Antigüedad en la compañía ,348 ,045 1,000

Sig. (Unilateral) Edad ,000 ,000

Antigüedad Permiso ,000 ,013

Antigüedad en la compañía ,000 ,013

a. Determinante = ,035

El primer paso es estudiar la matriz de correlaciones– se ha escogido esta en lugar de la matriz

de covarianzas porque está tipificada – para determinar si los datos son adecuados para poder

aplicar componentes principales. Para concluir que se puede seguir las correlaciones deben

ser elevadas, como sucede entre las variables Edad y Antigüedad del Permiso en que es muy

alta y aunque no sucede así con Antigüedad en la compañía al observar el determinante de

esta matriz, que nos indica la intensidad de las correlaciones, y la significación de cada variable

que son bastante próximos a 0 parece que con nuestros datos se puede continuar con el

análisis de componentes principales y obtener un resultado correcto.

KMO y prueba de Bartlett

Medida de adecuación muestral de Kaiser-Meyer-Olkin. ,294

Prueba de esfericidad de

Bartlett

Chi-cuadrado aproximado 8296,011

Sig. ,000

El KMO, que nos dice si para el conjunto de variables tenemos datos suficientes para hacer el

análisis, es muy bajo y al ser inferior a 0,5 no sería recomendable proseguir pero como no

podemos disponer de más datos continuaremos.

La prueba de Bartlett efectúa un contraste con hipótesis nula que la matriz de correlaciones es

una matriz identidad, afirmación que me interesa rechazar dado que si fuera una matriz

identidad significaría que no hay correlaciones y aplicar el análisis de componentes principales

no tendría ningún sentido. Bartlett es una observación muy similar al KMO pero a nivel

individual, para cada variable. Como el nivel de significación es cero se rechaza la 𝐻0 que es lo

que queríamos.

Matricesanti-imagen

Edad Antigüedad

Permiso

Antigüedad en

la compañía

Covarianza anti-imagen Edad ,035 -,036 -,083

Antigüedad Permiso -,036 ,039 ,086

Antigüedad en la compañía -,083 ,086 ,269

Correlación anti-imagen Edad ,370a -,980 -,855

Antigüedad Permiso -,980 ,346a ,833

Antigüedad en la compañía -,855 ,833 ,079a

a. Medida de adecuación muestral

La matriz anti-imagen presenta las covarianzas y coeficientes de correlación parciales y se

utiliza para comprobar la adecuación muestral de cada variable. Los valores de la diagonal

principal deberían ser próximos a 1 y los que no pertenecen a ella lo más bajos posibles.

Podemos observar en la tabla superior que no sucede esto sino lo contrario, siendo los valores

de la diagonal principal bajos y el resto elevados, por tanto la medida de la muestra no es

adecuada para el análisis que estamos llevando a cabo y aunque proseguiremos con él al no

ajustarse los datos a este requerimiento de los componentes principales los resultados que

obtendremos no permitirán una buena interpretación.

No hay una regla única para decidir el número de componentes principales a seleccionar para

explicar las variables originalessino tres métodos, – elcriterio de la media aritmética nos dice

que seleccionemos las componentes principales cuya raíz característica supere la media de las

raíces características (este valor es la varianza de cada CP) y para las variables tipificadas, este

valor es 1; el contraste sobre raíces no retenidas es un procedimiento que fija un número m de

componentes a retener y contrasta que el resto no son significativos y por último el gráfico de

sedimentación cortando en el punto en que la pendiente cambia de forma destacable– pero

puede haber disparidad con lo cual decidiremos en función del número de variables iniciales

(para reducirlas en la medida de lo posible) y la proporción de varianza explicada acumulada.

El SPSS sigue el criterio de la media aritmética utilizando por defecto el valor 1 para discriminar

los componentes principales que retiene de los que no, que conduce a quedarnos con un solo

componente principal.

Comunalidades

Inicial Extracción

Edad 1,000 ,990

Antigüedad Permiso 1,000 ,875

Antigüedad en la compañía 1,000 ,147

Método de extracción: Análisis de Componentes principales.

Las comunalidades nos proporcionan la proporción de la variabilidad explicada por la

componente principal retenida. Vemos que las variables edad y antigüedad permiso quedan

muy bien explicadas pero ya que están muy cercanas a 1 pero parece que CP1 no explica bien

lo que sucede con antigüedad en la compañía ya que el valor es muy bajo.

Varianza total explicada

Componente

Autovalores iniciales

Sumas de las saturaciones al cuadrado de

la extracción

% de la

varianza % acumulado Total

% de la

varianza % acumulado

1 2,011 67,048 67,048 2,011 67,048 67,048

2 ,971 32,362 99,409

3 ,018 ,591 100,000

El cuadro de varianza total explicada ofrece los valores de cada componente principal, el

porcentaje que explica cada uno de ellos y el acumulado y hace igual para los componentes

retenidos, en nuestro caso uno. Con el gráfico de sedimentación es difícil decidir el número de

componentes ya que no se observa ningún cambio a remarcar en su pendiente. Puede parecer

razonable quedarse con el primeropero no llega a explicar ni el 70% y creemos preferible

quedarnos con los dos primeros, ya que con ellos se el 99 % de la varianza, ganando más de un

30%, y el valor de este segundo componente principal es muy cercano a 1. Vamos a finalizar el

análisis utilizando un único componente principal para extraer conclusiones y tras esto

realizaremos otro con dos componentes principales para ver que resultados nos proporciona y

compararlos.

Matriz de componentesa

Componente

Edad ,995

Antigüedad Permiso ,935

Antigüedad en la compañía ,383

Método de extracción: Análisis de componentes principales

a. 1 componentes extraídos

Esta matriz nos ofrece las correlaciones entre las componentes principales y las variables

originales. Cuanto mayores sean mejor, con un coeficiente mínimo para considerarse correcto

de 0,60. Esto se cumple para dos de las tres variables, edad y antigüedad del permiso, que

además están muy correlacionadas con el CP1, siendo sus valores muy próximos a 1. En el caso

de antigüedad en la compañía vemos que no queda demasiado explicada, el coeficiente de

correlación es bajo pero no lo suficiente para eliminar la variable (si la correlación fuera muy

baja). A partir de estos valores podemos calcular el autovalor del CP1 sumando sus cuadrados.

Correlaciones reproducidas

Antigüedad

Permiso

Antigüedad en

la compañía

Correlación reproducida Edad ,990a ,930 ,381

Antigüedad Permiso ,930 ,875a ,358

Antigüedad en la compañía ,381 ,358 ,147a

Residualb Edad ,003 -,034

Antigüedad Permiso ,003 -,314

Antigüedad en la compañía -,034 -,314

a. Comunalidades reproducidas

b. Los residuos se calculan entre las correlaciones observadas y reproducidas. Hay 1 (33,0%)

residuales no redundantes con valores absolutos mayores que 0,05.

Matriz de coeficientes para el cálculo de las

puntuaciones en las componentes

Componente

Edad ,495

Antigüedad en la compañía ,191

Método de extracción: Análisis de componentes principales.

Puntuaciones de componentes.

A partir de estos coeficientes elSPSScalcula las estimaciones del componente principal 1 para

cada individuo a partir del modelo (se debe sumar el producto de cada variable por su

coeficiente), llamadaspuntuaciones y podemos guardarlas como una nueva variable. Pero lo

que realmente nos interesa de laspuntuaciones es que permiten comparar los valores reales

con los estimados y obtener los residuos que esperamos sean lo más bajos posibles ya que de

este modo el modelo serámuy cercano a los datos, y los explicará bien. Para verificar que los

residuos son bajos utilizamos la matriz de covarianza de las puntuaciones (bajo estas líneas),

que para confirmar esto y por tanto la validez del modelo debe ser una matriz identidad. Al

haber un solo componente principal es muy sencillo comprobar que se cumple.

Matriz de covarianza de las

puntuaciones de las componentes

Componente 1

1 1,000

Método de extracción: Análisis de componentes principales. Puntuaciones de componentes.

Finalmente, solo nos queda la interpretación de las componentes principales.La problemática

de la interpretación es, nada más y nada menos, tratar de asignar un significado inteligible y

útil a las componentes principales obtenidas.Para ello se recurre a examinar la relación

existente entre las componentes principales y las variables originales (u otras auxiliares), para

por medio de esta relación tratar de darles un contenido a su significado.

Hay que tener en cuenta que la interpretación tiene un sentido cuando solo elegimos las

primeras componentes, –asociada a la proporción de varianza acumulada–, y entonces

corresponde buscar la interpretación de estos primeros componentes seleccionados.

Lo que nos ayudará a interpretar las componentes principales son las correlaciones de cada

componente principal con cada variable, que aparecen en la matriz de componentes(se puede

consultar en la página 6). En este caso, tal como se ha visto, CP1 tiene una correlación positiva

muy alta (casi 1) con edad y antigüedad del permisocon lo cual podríamos interpretarla como

EXPERIENCIA DE CONDUCCIÓN atendiendo aque hay establecida por ley una edad mínima para

obtener el permiso conducir y en gran medida la gente se saca el carnet en torno a esta edad,

resultandoun aumento de ambas variables a la par en términos absolutos a partir del

momento de obtención del permiso que se traduce en la experiencia adquirida.En cuanto a la

antigüedad en la compañía la correlación es baja (0,38), implicando que explica poco de esta.

Ya hemos terminado con este análisis de componentes principales reteniendo solo uno y como

se ha comentado seguidamente procederemos a elaborar un nuevo análisis quedándonos con

los dos primeros componentes principales y compararemos los resultados obtenidos.La

metodología a seguir será la misma que en el primer caso, lo único que haremos es cambiar en

el SPSS el valor 1 por 0,95del criterio de la media aritmética para que el programa seleccione

los dos primeros componentes principales en lugar de uno y posteriormente explicaremos la

solución obtenida y nos fijaremos en que difiere con la anterior.

2. ANÁLISIS DE COMPONENTES PRINCIPALES RETENIENDO LOS DOS PRIMEROS

Al tratar con los mismos datos, los estadísticos descriptivos se mantienen inalterados y en

consecuencia el perfil de los clientes tampoco varía, recordemos los rasgos básicos: personas

de mediana edad con muchos años de permiso y en la compañía– clientela estable y fidelizada

–; con los siniestros concentrados a partir de los 55 años y la cobertura de la garantía de daños

contratada son aquellos con una antigüedad en la compañía de 15 años en adelante con un

rango de edad amplio – de 40 a 65años –. También permanecen sin cambios la matriz de

correlaciones, la cual indicaba que eran buenas para continuar; el KMO, la prueba de Bartlett y

la matriz anti-imagenqueapuntanno proseguir ya que la muestra no era adecuada) y el gráfico

de sedimentaciónrespecto al cual solo cambiamos el punto de corte, de 1 a 0,95 para observar

que entonces pasamos de retener un componente principal a dos.

Comunalidades

Inicial Extracción Extracción con CP1

Edad 1,000 ,991 ,990

Antigüedad Permiso 1,000 ,992 ,875

Antigüedad en la compañía 1,000 ,999 ,147

Columna a la derecha para mejorar la comparación

A partir de las comunalidades vemos que las tres variables que tenemos quedan muy bien

explicadas (muy cercanas a 1) y con respecto al primero de los análisis aumenta la extracción,

es decir, la proporción de la variabilidad explicada por las componentes principales retenidas,

especialmente para antigüedad en la compañía que prácticamente no tenía peso en el modelo

– con un coeficiente de 0,147 – y ahora está perfectamente recogida.

Varianza total explicada

Componente

Autovalores iniciales

Sumas de las saturaciones al cuadrado de

la extracción

% de la

varianza % acumulado Total

% de la

varianza % acumulado

1 2,011 67,048 67,048 2,011 67,048 67,048

2 ,971 32,362 99,409 ,971 32,362 99,409

3 ,018 ,591 100,000

El cuadro de la varianza total explicada ofrece los valores de cada componente principal, el

porcentaje que explica cada uno de ellos y el acumulado y hace igual para los componentes

retenidos, ahora dosen vez de uno . Nos inclinamos por utilizar dos componentes, puesto que

pasamos del 67 al 99 % de la varianza, ganando más de un 30% y cabe añadir que con un

único componente había una de las variables que quedaba sin explicar y ahora queda

completamente contenida argumentos suficientes para justificar esta decisión.

Matriz de componentesa

Componente

Edad ,995 -,033

En esta matriz tenemos las correlaciones entre las componentes principales y las variables

originales, las cuales deben ser cuanto más altas mejor(coeficiente mínimo de 0,60) pero solo

de una variable con una componente, debido a que cada variable tiene que estar representada

solo en una componente, - que quede representado se consigue por medio de una correlación

alta – . Como se aprecia en la tabla, se satisface para las tres variables, con correlaciones muy

cercanas a 1, y quedan muy bien explicadas, por la componente 1, edad y antigüedad permiso

y por la componente 2, antigüedad en la compañía.

Correlaciones reproducidas

Edad Antigüedad

Permiso

Antigüedad en

la compañía

Correlación reproducida

Edad ,991a ,942 ,350

Antigüedad Permiso ,942 ,992a ,042

Antigüedad en la compañía ,350 ,042 ,999a

Residualb

Edad -,008 -,003

Antigüedad Permiso -,008 ,003

Antigüedad en la compañía -,003 ,003

a. Comunalidades reproducidas

b. Los residuos se calculan entre las correlaciones observadas y reproducidas. Hay 0 (0,0%) residuales

no redundantes con valores absolutos mayores que 0,05.

Sobre estas líneas tenemos las correlaciones tras estimar el modelo, apareciendo las

comunalidades en la diagonal principal y también tenemos los residuos, los cuales es deseable

que sean bajos ya que de este modo el modelo se acerca más a los datos. Mientras que son

prácticamente nulos y con un 0% que superan en valor absoluto 0,05si vamos a la página 6,

donde tenemos la misma tabla para el modelo con un componente principal, se puede

apreciar claramenteque los residuos son superiores. En este sentido vemos evidente que el

modelo con dos componentes principales es mejor que el que tenía una.

puntuaciones en las componentes

Componente

Edad ,495 -,034

Puntuaciones de componentes

A partir de estos coeficientes elSPSScalcula las estimaciones delas componentes principales 1 y

2 para cada individuo a partir del modelo–puntuaciones– que permitirán comparar los valores

reales con los estimados y obtener los residuos. Para constatar que los residuos son bajos,

además de la matriz de correlaciones reproducidas que incorpora los residuos,manejamos la

matriz de covarianza de las puntuaciones (bajo estas líneas), que para confirmar esto y por

tanto la validez del modelo debe ser una matriz identidad, que vemos se cumple.

puntuaciones de las componentes

Componente 1 2

1 1,000 ,000

2 ,000 1,000

Para terminar con el análisis falta algo fundamental: lainterpretación de las componentes

principales, o sea, tratar de darles un contenido a su significado.Lo hacemos a partir de las

correlaciones entre componentes principalesy variables, en lamatriz de componentes(en la

). Ya habíamos comentado la CP1 como EXPERIENCIA DE CONDUCCIÓNpor su

correlación positiva muy elevadacon edad y antigüedad del permiso. En cuanto a la CP2

recopila tan sólo una variable:antigüedad en la compañía, bastante independientedel

resto,con lo cual el significado que podríamos darle es que a pesar que las compañías tratan de

fidelizar la clientela es fácil cambiarse a otra, y los consumidores velan por sus intereses

quedándose con quien les ofrece mejores condiciones en su seguro de automóvil.

A partir del desarrollo de las componentes principales, los gráficos iniciales, que replicamos

bajo estas líneas, y un gráfico adicional con las componentes principales en los ejes vamos a

ilustrar la relación que tienen con las variables de control siniestros y garantía de daños.

Hemos creado un gráfico de dispersión con las dos componentes principales con la variable

siniestros.

Para que salganlos valors de las componentes principales y poder crear el gráfico,

previamente, al estimar el modelo, hemos hecho que nos guarde los valores de la

estimaciónhecha por regresión.

A nuestro juicio la variable siniestros estará bastante acoplada con la componente principal 1,

de acuerdo con la definición de “experiencia de conducción”, que compilaba a edad y

antigüedad del permisovisto que el gráfico a la izquierda muestra que los clientes a partir de

unos 55 años (una cierta edadque conlleva muchos años de experiencia, asociada esta última

conla antigüedad del permiso) son quienestienen siniestros.Si nos fijamos en el gráfico

superior de la página anterior, nos lleva a la misma conclusión dado que los siniestros se

concentran en la franja de 2 a 4 de la componente 1. Con respecto a la componente principal

2, que reúne sólo la variable antigüedad en la compañía, opinamos que se ajustará con la

garantía de dañospuesto que del gráfico de la derecha se desprende que los clientes con la

garantía de daños contratada son aquellos con una antigüedad en la compañía de 15 años en

adelante con un rango de edad muy amplio que va desde los 40 años a los 65.

Ahora vamos a realizar el análisis teniendo en cuenta las variables de control siniestros y

garantía de daños para observar si existen diferencias. Lo haremos dejando el corte de la

media aritmética en 0,95 que es un valor cercano a uno para que en principio retengamos dos

componentes ya que los resultados obtenidos hasta aquí han sido claramente mejores

condos.De este análisis resultarán cuatro modelos más.

3. ANÁLISIS DE COMPONENTES PRINCIPALES PARA LOS CLIENTES QUE NO HAN TENIDO

SINIESTROS

Aunque nuestra base de datos es la misma en todo a partir de este momento vamos a utilizar

datos distintos en cada supuesto y por este motivo además de realizar el análisis vamos a

volver a calcular los estadísticos descriptivos para advertir los cambios en el perfil de los

consumidores.

Estadísticos descriptivosa

Media Desviación

típica

N del análisis

Edad 49,35 3,067 2451

Antigüedad Permiso 19,42 1,969 2451

Antigüedad en la compañía 15,06 1,069 2451

a. Sólo aquellos casos para los que Siniestros = 0, serán utilizados en la fase de análisis.

En los análisis anteriores en que no distinguíamos entre quienes habían tenido siniestros de los

que no disponíamos de 2469 observaciones, siendo una primera nota a realizar que el tamaño

muestral se ha reducido muy poco, consecuencia de una baja siniestralidad. También podemos

ver que los intervalos y las medias se mantienen prácticamente iguales, así como las

desviaciones típicas, aunque parece que se reducen algo. De esto se deduce que los resultados

que obtengamos deben ser similares a los del análisis general.

Matriz de correlacionesa,b

Edad Antigüedad

Permiso

Antigüedad en

la compañía

Correlación

Edad 1,000 ,931 ,336

Sig. (Unilateral)

Edad ,000 ,000

b. Determinante = ,036

Al estudiar la matriz de correlacionespara determinar si los datos son adecuados para poder

aplicar componentes principales se puede ver que los resultados son muy similares a la del

primer ensayo. Concluimos que se puede seguir porque las correlaciones son elevadas, a

pesar que no sucede en Antigüedad en la compañía, por esto reparamos en el determinante

de esta matriz, que indica la intensidad de las correlaciones y la significación de cada variable

que son bastante próximos a 0, por ello se puede continuar con el análisis de componentes

principales y en principio obtener unos buenos resultados.

KMO y prueba de Bartletta

Bartlett

Sig. ,000

El KMO, que nos dice si para el conjunto de variables tenemos datos suficientes para el

conjunto de variables, es muy bajo y no sería recomendable proseguir. La prueba de Bartlett

efectúa un contraste con hipótesis nula que la matriz de correlaciones es una matriz identidad,

implicando que no hay correlaciones. Como el nivel de significación es cero se rechaza la 𝐻0

que es lo que queríamosy tiene sentido aplicar el análisis de componentes principales.

Matrices anti-imagena

Edad Antigüedad

Permiso

Antigüedad en

la compañía

Covarianza anti-imagen

Edad ,036 -,038 -,085

Correlación anti-imagen

Edad ,367b -,979 -,853

Antigüedad Permiso -,979 ,344b ,832

Antigüedad en la compañía -,853 ,832 ,074b

b. Medida de adecuación muestral

La matriz anti-imagen, que presenta las covarianzas y coeficientes de correlación parciales y se

utiliza para comprobar la adecuación muestral de cada variable. Los valores incrementan de

forma muy suave pero la diagonal principal sigue con valores bajos, cuando deberían ser

próximos a 1 y los que no pertenecen a ella lo más bajos posibles. Esto no es adecuado para el

análisis y afectará a los resultados.

Comunalidadesa

Inicial Extracción

Edad 1,000 ,991

a. Sólo aquellos casos para los que Siniestros = 0, serán utilizados en la fase de análisis. A partir de las comunalidades vemos que las tres variables que tenemos quedan muy bien

explicadas (casi 1).

Varianza total explicadaa

Componente Autovalores iniciales Sumas de las saturaciones al cuadrado de la

extracción

Total % de la varianza % acumulado Total % de la varianza % acumulado

1 1,999 66,622 66,622 1,999 66,622 66,622

2 ,983 32,762 99,384 ,983 32,762 99,384

3 ,018 ,616 100,000

El cuadro de la varianzatotal explicada ofrece pocas variaciones en relación al análisis

genérico, con una disminución muy leve en los % de la varianza y en el autovalor de la

componente 1 y un ligero aumento en la 2. Utilizaremos dos componentes, ya que el modelo

se ajusta mejor y todas las variables resultan explicar, como se ha visto.

Matriz de componentesa,b

Componente

Edad ,995 -,021

AntigüedadPermiso ,937 -,336

Método de extracción: Análisis de componentesprincipales

a. 2 componentesextraídos

b. Sóloaquellos casos para los que Siniestros = 0, seránutilizados en la fase de análisis

En la tabla podemos reparar en quelas correlaciones entre las componentes principales y las

variables originales sonmuy cercanas a 1en una componente para cada variable, recogiéndose

todas muy bien en el modelo.

Correlaciones reproducidasa

Edad AntigüedadPer

Antigüedad en

la compañía

Correlaciónreproducida

Edad ,991b ,940 ,339

AntigüedadPermiso ,940 ,992b ,024

Antigüedad en la compañía ,339 ,024 ,999b

Residualc

Edad -,009 -,003

AntigüedadPermiso -,009 ,003

a. Sóloaquellos casos para los que Siniestros = 0, seránutilizados en la fase de análisis.

b. Comunalidadesreproducidas

c. Los residuos se calculan entre las correlaciones observadas y reproducidas. Hay 0 (0,0%) residuales no

redundantes con valores absolutosmayores que 0,05.

Lo más relevante de esta matriz son los residuos, los cuales cumplen la propiedad de ser bajos

y por tanto el modelo se acerca en gran medida a los datos.

puntuaciones en las componentesa

Componente

Edad ,498 -,021

a. Sólo aquellos casos para los que Siniestros = 0, serán utilizados en la fase de análisis

A partir de estos coeficientes elSPSScalcula las estimaciones de las componentes principales 1

y 2 para cada individuo a partir del modelo –puntuaciones– que permitirán obtener los

residuos. Para ver que si los residuos son bajos, usamos la matriz de covarianza de las

puntuaciones (página siguiente), que lo confirmaal ser una matriz identidad.

puntuaciones de las componentesa

Componente 1 2

1 1,000 ,000

2 ,000 1,000

Finalizaremos con lainterpretación de las componentes principales.Pero basándonos en la

gran similitud de los resultados no percibimos que añada algún hecho relevante y por tanto

nos quedaremos con la interpretación ya desarrollada, calificando la CP1 como EXPERIENCIA

DE CONDUCCIÓNpor su correlación positiva muy elevada con edad y antigüedad del permiso,y

la CP2 recopila tan sólo una variable:antigüedad en la compañía, bastante independientedel

resto, con lo cual el significado que podríamos darle es la relativa facilidad para cambiar de

compañía.

4. ANÁLISIS DE COMPONENTES PRINCIPALES PARA LOS CLIENTES QUE HAN TENIDO

SINIESTROS

Media Desviación

típica

N del análisis

Edad 57,89 1,323 18

Antigüedad en la compañía 16,39 ,979 18

a. Sólo aquellos casos para los que Siniestros = 1, serán utilizados en la fase

de análisis.

En los análisis iniciales en que no distinguíamos entre quienes habían tenido siniestros de los

que no disponíamos de 2469 observaciones, siendo una primera nota a realizar que el tamaño

muestral se ha reducido mucho, al haber unasiniestralidad baja. Cabe destacarel incremento

en la edad media que pasa de los 49 a casi 58 años, con una desviación que se reduce

notablemente (en 1,7) cosa que quiere decir que el intervalo de la edad es menor (menor

variabilidad). También señalar el incremento la antigüedad del permiso de prácticamente 5

años y un menor aumento enla antigüedad del permiso (de 1,39) en términos medios. Las

desviaciones típicas se reducen especialmente en la edad y en menor medida pero a tener en

cuenta en la antigüedad del permiso. Tras este breve examen vemos que el perfil de cliente

cambia respecto al genérico: son pocos, de una edad media pero ya tendiendo a mayores, y

por tanto con una mayor antigüedad del permiso, y con una mayor antigüedad en la compañía

y es de esperar que los resultados sean distintos.

Edad Antigüedad

Permiso

Antigüedad en

la compañía

Correlación

Edad 1,000 ,750 -,328

Antigüedad Permiso ,750 1,000 -,812

Antigüedad en la compañía -,328 -,812 1,000

Sig. (Unilateral)

Edad ,000 ,092

De la matriz de correlacionespara determinar si los datos son adecuados se pueden apreciar

los cambios. La correlación de Antigüedad en la compañía con Antigüedad permiso que era

muy baja ha crecido de manera muy importante (antes 0,027) y por tanto es bueno para

nuestro análisis. Concluimos que se puede seguir, si bienaun hay una correlación un poco baja

entreAntigüedad en la compañíay edad (aproximadamente no varía).

Bartlett

40,362 8118,514

,000 ,000

conjunto de variables, es muy bajo (aunque sufre un aumento de aproximadamente un 0,1) y

no sería recomendable proseguir. En la prueba de Bartlett como el nivel de significación es

cero se rechaza la 𝐻0y tiene sentido continuar el análisis.

Edad Antigüedad

Permiso

Antigüedad en

la compañía

Edad ,205 -,111 -,132

Edad ,340b -,878 -,729

La matriz anti-imagen, que presenta las covarianzas y coeficientes de correlación parciales y se

utiliza para comprobar la adecuación muestral de cada variable. Los valores de la diagonal

principal aumentan pero no lo suficiente, dado que deberían ser próximos a 1 y los que no

pertenecen a ella lo más bajos posibles – parece que se reducen –. No es adecuado para el

análisis.

Comunalidadesa

Inicial Extracción

Edad 1,000 ,623

a. Sólo aquellos casos para los que Siniestros = 1, serán utilizados en la fase de análisis. A partir de las comunalidades vemos que las tres variables que tenemos quedan explicadas; sin

embargo hay que advertir que la proporción de la variabilidad explicada ha tenido un claro

descenso en las variables edad y antigüedad en la compañía, pasando de prácticamente 1 a

Componente Autovalores iniciales Sumas de las saturaciones al cuadrado de la

extracción

1 2,281 76,044 76,044 2,281 76,044 76,044

2 ,673 22,440 98,484

3 ,045 1,516 100,000

El cuadro de la varianzatotal explicada ofrece una información interesante: que hemos

retenido únicamente el primer componente principal. Parece una buena elección puesto a que

explica un 76%, cercano al 80, y el autovalor del segundo es bastante inferior a 1. Al comparar

con el anterior análisis se aprecian diferencias sustanciales: cambia el número de componentes

de dos a uno, explicando este CP1 un 10% más que antes y hay una mayor reducción de

variables que es de lo que trata el análisis de componentes principales. No obstante al pasar

de dos a uno el modelo pierde información y no reflejará con la misma precisiónlos datos.

Para este caso hemosadjuntado el gráfico de sedimentaciónya que el cambio que experimenta

la pendiente y que nos indica el número de componentes a reteneres muy visible.

Componente

Edad ,790

Antigüedad en la compañía -,827

Método de extracción: Análisis de componentesprincipales

a. 2 componentesextraídos

b. Sóloaquellos casos para los que Siniestros = 1, seránutilizados en la fase de análisis

En la tabla podemos reparar en que las correlaciones entre las componentes principales y las

variables originales son muy cercanas a 1en valor absoluto, recogiéndose todas muy bien en el

modelo.

Edad Antigüedad

Permiso

Antigüedad en

la compañía

Edad ,623b ,779 -,653

Antigüedad Permiso ,779 ,973b -,816

Antigüedad en la compañía -,653 -,816 ,684b

Residualc

Edad -,029 ,325

b. Comunalidades reproducidas

c. Los residuos se calculan entre las correlaciones observadas y reproducidas. Hay 1 (33,0%) residuales

no redundantes con valores absolutos mayores que 0,05.

Lo más relevante de esta matriz son los residuos, los cuales queremos que seanbajos pero

tenemos que un 33% de ellos son mayores de 0,05, debido a la menor exactitud al tener un

solo componente principal (cuando teníamos dos eran 0).

Matriz de coeficientes para el cálculo de

las puntuaciones en las componentesa

Componente

Edad ,346

Antigüedad en la compañía -,363

A partir de estos coeficientessecalculan laspuntuacionesy posteriormente los residuos. Para

ver que si los residuos son bajos, usamos la matriz de covarianza de las puntuaciones (página

siguiente), que lo confirma al ser una matriz identidad. No contradice la anterior matriz de

correlaciones reproducidas pero nos dice que los residuos son pequeños y que el modelo se

puede dar por válido.

Matriz de covarianza de las puntuaciones de las componentesa

Componente 1

1 1,000

Vamos a terminar con lainterpretación.Solo tenemos una componente principal muy

correlacionada con las tres variables, de manera positiva con edad y antigüedad del permiso y

negativamente con antigüedad en la compañía. Atendiendo a las correlaciones positivas

descritas parece lógico definirla como EXPERIENCIA DE CONDUCCIÓNpero no sabemos darle

significado a la correlación negativa que mantiene con antigüedad en la compañíaque tiene un

comportamientocontrarioal resto de variables y la componente principal.

Se puede añadir ya que en su momento no se ha indicado al no caer en ello que el modelo

genérico recoge el comportamiento de los clientes que no han tenido siniestros, seguramente

motivado porque los que sí los han tenido son muy pocos (un 0,73%) a pesar que tienen un

perfil mucho más concreto y diferenciado.

5. ANÁLISIS DE COMPONENTES PRINCIPALES PARA LOS CLIENTES QUE NO TIENEN

CONTRATADA LA GARANTÍA DE DAÑOS

Media Desviación

típica

N del análisis

Edad 48,34 2,991 905

a. Sólo aquellos casos para los que Garantía Daños = 0, serán utilizados en

la fase de análisis.

En los análisis iniciales disponíamos de 2469 observaciones y en este de 905, siendo una

primera observaciónla reduccióndel tamaño muestral. En la edad media hay una pequeña

disminución (antes 49,3), la antigüedad del permisose mantiene igual y la antigüedad en la

compañía es la variable que experimenta un mayor cambio, de poco más de un año y su

desviación que se reduce notablemente (en 1,7) cosa que nos dice que el intervalo en que se

mueven los datos es menor. El resto de desviaciones se mantienen. Después de esto podemos

ilustrar ante qué el tipo de cliente nos encontramos; de una edad media, con una prolongada

experiencia (en la media del resto de clientes en la antigüedad del permiso) y con una menor

antigüedad en la compañía que el promediorazón que habíamos apuntado que llevaba a no

contratar la garantía de daños porque puede que se premiea los clientes más antiguos con

mayores descuentos.

Edad Antigüedad

Permiso

Antigüedad en

la compañía

Correlación

Edad 1,000 ,969 ,243

Sig. (Unilateral)

Edad ,000 ,000

a. Sólo aquellos casos para los que Garantía Daños = 0, serán utilizados en la fase de análisis.

De la matriz de correlacionespara determinar si los datos son adecuados vemos que hay dos

bajas. No obstante al observar el determinante de esta matriz, que nos indica la intensidad de

las correlaciones, y la significación de cada variable que son próximos a 0 parece que con

nuestros datos se puede continuar con el análisis.

Bartlett

Sig. ,000

a. Sólo aquellos casos para los que Garantía Daños = 0, serán utilizados

en la fase de análisis.

conjunto de variables, es muy bajo y no sería recomendable proseguir. En la prueba de Bartlett

se rechaza la 𝐻0y tiene sentido continuar.

Edad Antigüedad

Permiso

Antigüedad en

la compañía

Edad ,037 -,038 -,094

Edad ,427b -,980 -,618

La matriz anti-imagen que utilizamos para comprobar la adecuación muestral de cada

variableno ofrece el resultado esperado, siendo los valores de la diagonal principal bajos y el

resto elevados, por tanto la medida de la muestra no es adecuada para el análisis.

Comunalidadesa

Inicial Extracción

Edad 1,000 ,990

Antigüedad en la compañía 1,000 1,000

Método de extracción: Análisis de Componentes principales

a. Sólo aquellos casos para los que Garantía Daños = 0, serán utilizados en la fase de análisis

Las comunalidades nos proporcionan la proporción de la variabilidad explicada por la

componente principal retenida. Vemos que las variables edad y antigüedad permiso quedan

muy bien explicadas yantigüedad en la compañíatotalmente explicada al ser 1.Estos números

hacen prever que el modelo se adaptará muy bien a los datos.

Componente Autovalores iniciales Sumas de las saturaciones al cuadrado de

la extracción

1 2,025 67,502 67,502 2,025 67,502 67,502

2 ,956 31,859 99,361 ,956 31,859 99,361

3 ,019 ,639 100,000

El cuadro de varianza total explicada ofrece los valores de cada componente principal, el

porcentaje que explica cada uno de ellos y el acumulado. Hemos retenido los dos primeros

componentesy conseguimos explicar más de un 99 % de la varianza. Como el gráfico de

sedimentación es muy similar al del primero de los análisis y no muestra contundentemente el

número de variables a seleccionar no lo anexamos.

Componente

Edad ,992 -,082

b. Sólo aquellos casos para los que Garantía Daños = 0, serán utilizados en la fase de análisis

Esta matriz nos ofrece las correlaciones entre las componentes principales y las variables

originales. Vemos que se ajusta muy bien a los requisitos del análisis quedando representadas

las variables en solo en una componente principal, en la CP1 edad y antigüedad del permiso y

en la CP2 antigüedad delacompañíacomo nos ocurría en el modelo genérico con dos

componentes.

Edad Antigüedad

Permiso

Antigüedad en

la compañía

Edad ,990b ,979 ,244

Antigüedad Permiso ,979 ,991b ,093

Antigüedad en la compañía ,244 ,093 1,000b

Residualc

Edad -,009 -,001

b. Comunalidades reproducidas

c. Los residuos se calculan entre las correlaciones observadas y reproducidas. Hay 0 (0,0%) residuales no

redundantes con valores absolutos mayores que 0,05.

Aquí tenemos las correlaciones tras estimar el modelo y también tenemos los residuos, que

son prácticamente nulos con un 0% que superan en valor absoluto 0,05 y va muy bien porque

el modelo se ajustará mejor a los datos.

Matriz de coeficientes para el cálculo de las puntuaciones en las

componentesa

Componente

Edad ,490 -,085

a. Sólo aquellos casos para los que Garantía Daños = 0, serán

utilizados en la fase de análisis.

Matriz de covarianza de las puntuaciones de las

componentesa

Componente 1 2

1 1,000 ,000

2 ,000 1,000

Para constatar que los residuos son bajos comprobamos los valores de la matriz de covarianza

de las puntuaciones que debe ser una matriz identidad, como se produce.

Vamos a terminar con lainterpretación,a partir de las correlaciones entre componentes

principalesy variables. Las relaciones permanecen inalteradas con respecto al modelo general

con dos componentes principales y no percibimos nuevos matices. Recordemos que CP1 la

habíamos designadoEXPERIENCIA DE CONDUCCIÓNy la CP2que podíamos asociar a la facilidad

de cambiarse de compañía (contiene solo la variable:antigüedad en la compañía).

6. ANÁLISIS DE COMPONENTES PRINCIPALES PARA LOS CLIENTES QUE NO TIENEN

CONTRATADA LA GARANTÍA DE DAÑOS

Media Desviación

típica

N del análisis

Edad 50,03 3,062 1564

a. Sólo aquellos casos para los que Garantía Daños = 1, serán utilizados en

la fase de análisis.

Pasamos de 2469 observacionesa 1564, unareducción de un 36,65%del tamaño muestral. Es

decir, de nuestros clientes un 36,65% no tienen contratada la garantía de daños frente a un

63,35% que si la tienen, resultando de mayor importancia el segundo grupo por su número.

Frente a quienes no disponían de esta cobertura, este conjunto tiene una edad en promedio

dos años más, la variable antigüedad del permiso se mantiene sin cambios y la antigüedad en

la compañía aumenta año y medio de media. Las desviaciones son muy semejantes entre

ambos grupos, y en relación al general también menos para la antigüedad en la compañíaque

se reduce.Este colectivo tiene de una edad media-alta, con una prolongada experiencia (en la

media del resto de clientes en la antigüedad del permiso) y con una elevadaantigüedad en la

compañía.

Los resultados obtenidos que sirven para comprobar que se cumplen los requisitos del análisis

de componentes principales – matriz de correlaciones, KMO y prueba de Bartlett, matriz

antiimagen,matriz de covarianza de las puntuaciones de las componentes (es la identidad)–son

análogos y constatan que podemos realizar el análisis aunque presentan problemas el KMO y

la matriz anti-imagen como viene repitiéndose en todos los casos. Por esto para no

extendernos en exceso vamos a presentar lo más destacado que es como resulta el modelo.

Comunalidadesa

Inicial Extracción

Edad 1,000 ,991

Antigüedad en la compañía 1,000 1,000

Método de extracción: Análisis de Componentes

principales.

a. Sólo aquellos casos para los que Garantía Daños =

1, serán utilizados en la fase de análisis.

Vemos que todas las variables se explican muy bien, prácticamente en su totalidad como en

antigüedad en la compañía. En las correlaciones reproducidas se observa unaumento respecto

las iniciales y residuos muy bajos.

Componente Autovalores iniciales Sumas de las saturaciones al cuadrado de

la extracción

1 2,001 66,693 66,693 2,001 66,693 66,693

2 ,981 32,705 99,398 ,981 32,705 99,398

3 ,018 ,602 100,000

Componente

Edad ,995 -,036

Método de extracción: Análisis de componentes

principales.

b. Sólo aquellos casos para los que Garantía Daños

= 1, serán utilizados en la fase de análisis.

Vemos que en el modelo tenemos dos componentes principales que explican el 66% y el 32%

respectivamente, quedando justificada por el modelo más del 99% de la varianza. Hay que

prestar atención en que estos porcentajes casi iguales que los que nos han salido en el análisis

de toda la cartera. Y las correlaciones entre las variables y las componentes principales se

mantienen muy parecidas entre los clientes en general, y los grupos con y sin garantía de

daños contratada. Es lógico pues no introducir cambios en la interpretación de las

componentesy quedarnos con el significado que les habíamos dado en función de las

correlaciones. Ya habíamos comentado la CP1 como EXPERIENCIA DE CONDUCCIÓNpor su

correlación positiva muy elevada con edad y antigüedad del permiso. En cuanto a la CP2

recopila tan sólo una variable:antigüedad en la compañía, bastante independientedel resto,

con lo cual el significado que podríamos darle es que a pesar que las compañías tratan de

fidelizar la clientela es fácil cambiarse a otra, y los consumidores velan por sus intereses

quedándose con quien les ofrece mejores condiciones en su seguro de automóvil.

Para dar por terminada la práctica queremos comentar que esperábamos, quizás porque se

nos había pedido comparar todos los modelos, unos resultados más dispares que nos llevaran

a unasconclusiones más amplias, especialmente en la interpretación de las componentes

principales, evidentemente sin cambiar el fondo pero si añadiendo matices y nos hemos

encontrado con unas variaciones mínimas salvo en el caso de los asegurados que habían

tenido siniestros.

Practica de estadística actuarial aplicad

Education

Transcript of Practica de estadística actuarial aplicad

Operational and Actuarial Aspects of Takaful Actuarial Concepts and Actuarial Control Cycle.

Valuación Actuarial del Seguro de Invalidez, Vejez y ... · Instituto Ecuatoriano de Seguridad Social Dirección Actuarial, de Investigación y Estadística Valuación Actuarial

UNSW Business School/ Risk & Actuarial Studies Data Analytics in Actuarial Education · UNSW Business School/ Risk & Actuarial Studies Data Analytics in Actuarial Education ... Evaluate

Estadística Estadística Descriptiva

Innovación Actuarial Summit/2016/2.pdf · Actuarial Summit 2016 – Colegio Actuarial Mexicano – Innovación Actuarial Autor: Alberto M. Ramírez de Jurado F. Fecha: 16 de Agosto

Actuarial Mathematics (MA310)hamilton.nuigalway.ie/teachingWeb/MA310/Investment_A.pdf · Actuarial Mathematics (MA310) Graham Ellis Graham Ellis Actuarial Mathematics (MA310)

aIPAM Fall Conferenceaipam.net/doc/2013_aIPAM_final_FOX.pdf · 12 • 90% Actuarial Value (AV) • 80% Actuarial Value (AV) • 70% Actuarial Value (AV) • 60% Actuarial Value (AV)

Actuarial Tracks Presentation - Actuarial Association of UCSB

DE L INSTITUTO DE UIOLOCIA APLICAD A - Museu Nacional - … · consejo superior de investigaciones cientifica s p1iblicac10nes de l instituto de uiolocia aplicad a tomo xxi v publicado

ACTUARY - secure.michagent.org · Actuary, Actuarial Analyst, Pricing Actuary, Product Development Actuary, Actuarial Assistant, Actuarial Associate, Actuarial Consultant, Consulting

study - Cattolica International · Statistical and Actuarial Sciences Accounting and management in insurance Actuarial life insurance Actuarial non-life insurance Actuarial social

EZRA PENLAND ACTUARIAL RECRUITMENT California Actuarial …cass.pstat.ucsb.edu/2017/talks/Ezra.pdf · 2017. 1. 24. · Sally Ezra EZRA PENLAND ACTUARIAL RECRUITMENT California Actuarial

NE Actuarial Club Actuarial modernization updaten-a-c.org/wp-content/uploads/NAC-Actuarial-Modernization... · 2019-04-30 · PwC | NE Actuarial Club –Actuarial modernization update

Modelos Estocásticos de Estadística Actuarial

Current Topics in Actuarial Science – Actuarial Workshop

ACTUARIAL EXAMS AS A UCSB STUDENTactuaryclub.pstat.ucsb.edu/.../2012/04/Actuarial-Exams.pdf · 2017-02-16 · actuarial exams as a ucsb student ucsb actuarial association friday,

Special Newsletter - International Actuarial Association · Special Newsletter Special Newsletter International Actuarial Association International Actuarial Association October 2015

MSc in Actuarial Science MSc in Actuarial Management …blogs.city.ac.uk/cassmscadmissions/files/2014/02/ACT-IRM-Slides-06... · MSc in Actuarial Science MSc in Actuarial Management

Estadística Actuarial: Regresión Lineal · proceso de aprendizaje de los estudiantes de la asignatura Estad¶‡stica Actuarial: Regresi¶on de la Licenciatura en Ciencias Actuariales

Actuarial Analysis Actuarial Analysis Actuarial Analysis Actuarial Analysis Actuarial ... · 2016-06-27 · Actuarial Analysis Actuarial Analysis Actuarial Analysis Actuarial Analysis