Practica de estadística actuarial aplicad

8 de noviembre de 2012
PRACTICA 1 ESTADÍSTICA
ACTUARIAL APLICADA
Ester Caparros Jane
COMPONENTES
PRINCIPALES
APLICADO A UNA CARTERA
DE SEGUROS DE AUTOS

1
En el presente trabajo se aborda el análisis e interpretación de una cartera de seguros de
automóvil a través del uso del método de análisis de componentes principales(con el software
SPSS) cuyo objetivo es explicar adecuadamente el comportamiento de la muestra con un
menor número de variables que el original.
Nuestra base de datos está compuesta por cinco variables, siendo tres de ellas cuantitativas–
edad, antigüedad del permiso y antigüedad en la compañía, y las dos restantes – número de
siniestros y garantía de daños – variables de control. Disponemos de 2.469 observaciones para
cada una de las variables, número que con posterioridad comprobaremos si es adecuado o no
para el análisis a realizar.
En primer lugar como es conveniente conocer los datos de que disponemos vamos a utilizar los
estadísticos descriptivosque nos proporcionan un resumen de ellos:
Estadísticos descriptivos
N Mínimo Máximo Media Desv. típ.
Edad 2469 39 62 49,41 3,143
Antigüedad Permiso 2469 13 27 19,46 2,009
Antigüedad en la compañía 2469 12 18 15,07 1,074
N válido (según lista) 2469
Podemos observar que en la cartera no hay gente joven, dado que la edad mínima es de 39
años, y que los asegurados tienen muchos años de carnet de conducir y llevan también
muchos años en la compañía, es decir, tengo una clientela estable y fidelizada (probablemente
debido a la estrategia y la política comercial de la aseguradora).
Otra herramienta útil que contribuye al mejor conocimiento de nuestra cartera son los
gráficos, hemos realizado varios y nos ha parecido destacar dos de ellos por lo que aportan.
u

2
Este primer gráfico nos muestra que los clientes que sufren siniestros son personas a partir de
poco más de 55 años, una cierta edad, con muchos años de experiencia que se refleja en la
antigüedad del permiso pero que pierden aptitudes para conducir dado que concentran la
siniestralidad. Este hecho se puede observar a partir de otro gráfico con la edad en el eje de
ordenadas y en el de abscisas la antigüedad en la compañía, que corrobora las conclusiones
extraídas presentándose los siniestros para distintas antigüedades pero concentrados en
edades superiores a los 55 años. Se adjunta el gráfico a continuación:

3
En el último de los gráficos podemos ver que los clientes con la garantía de daños contratada
son aquellos con una antigüedad en la compañía de 15 años en adelante con un rango de edad
muy amplio que va desde los 40 años a los 65. Creemos que esto se puede deber a que la
compañía premia la fidelidad de sus clientes ofreciendo esta cobertura a un precio
notablemente menor al de mercado.
1. ANÁLISIS DE COMPONENTES PRINCIPALES RETENIENDO ÚNICAMENTE EL PRIMERO
Una vez examinado el perfil de los clientes vamos a realizar el análisis de componentes
principales. Mediante el SPSS debemos seguir el siguiente procedimiento: ir a menú “Analizar”,
luego a submenú “Reducción de dimensiones”,por último a “Factor”, aparece una ventana
donde seleccionar las opciones y ejecutandoobtenemos los resultados.
Matriz de correlacionesa
Edad Antigüedad
Permiso
Antigüedad en
la compañía
Correlación Edad 1,000 ,934 ,348
Antigüedad Permiso ,934 1,000 ,045
Antigüedad en la compañía ,348 ,045 1,000
Sig. (Unilateral) Edad ,000 ,000
Antigüedad Permiso ,000 ,013
Antigüedad en la compañía ,000 ,013
a. Determinante = ,035
El primer paso es estudiar la matriz de correlaciones– se ha escogido esta en lugar de la matriz
de covarianzas porque está tipificada – para determinar si los datos son adecuados para poder
aplicar componentes principales. Para concluir que se puede seguir las correlaciones deben
ser elevadas, como sucede entre las variables Edad y Antigüedad del Permiso en que es muy
alta y aunque no sucede así con Antigüedad en la compañía al observar el determinante de
esta matriz, que nos indica la intensidad de las correlaciones, y la significación de cada variable
que son bastante próximos a 0 parece que con nuestros datos se puede continuar con el
análisis de componentes principales y obtener un resultado correcto.
KMO y prueba de Bartlett
Medida de adecuación muestral de Kaiser-Meyer-Olkin. ,294
Prueba de esfericidad de
Bartlett
Chi-cuadrado aproximado 8296,011
Gl 3
Sig. ,000
El KMO, que nos dice si para el conjunto de variables tenemos datos suficientes para hacer el
análisis, es muy bajo y al ser inferior a 0,5 no sería recomendable proseguir pero como no
podemos disponer de más datos continuaremos.

4
La prueba de Bartlett efectúa un contraste con hipótesis nula que la matriz de correlaciones es
una matriz identidad, afirmación que me interesa rechazar dado que si fuera una matriz
identidad significaría que no hay correlaciones y aplicar el análisis de componentes principales
no tendría ningún sentido. Bartlett es una observación muy similar al KMO pero a nivel
individual, para cada variable. Como el nivel de significación es cero se rechaza la 𝐻0 que es lo
que queríamos.
Matricesanti-imagen
Edad
Antigüedad
Permiso
Antigüedad en
la compañía
Covarianza anti-imagen Edad ,035 -,036 -,083
Antigüedad Permiso -,036 ,039 ,086
Antigüedad en la compañía -,083 ,086 ,269
Correlación anti-imagen Edad ,370a
-,980 -,855
Antigüedad Permiso -,980 ,346a
,833
Antigüedad en la compañía -,855 ,833 ,079a
a. Medida de adecuación muestral
La matriz anti-imagen presenta las covarianzas y coeficientes de correlación parciales y se
utiliza para comprobar la adecuación muestral de cada variable. Los valores de la diagonal
principal deberían ser próximos a 1 y los que no pertenecen a ella lo más bajos posibles.
Podemos observar en la tabla superior que no sucede esto sino lo contrario, siendo los valores
de la diagonal principal bajos y el resto elevados, por tanto la medida de la muestra no es
adecuada para el análisis que estamos llevando a cabo y aunque proseguiremos con él al no
ajustarse los datos a este requerimiento de los componentes principales los resultados que
obtendremos no permitirán una buena interpretación.
No hay una regla única para decidir el número de componentes principales a seleccionar para
explicar las variables originalessino tres métodos, – elcriterio de la media aritmética nos dice
que seleccionemos las componentes principales cuya raíz característica supere la media de las
raíces características (este valor es la varianza de cada CP) y para las variables tipificadas, este
valor es 1; el contraste sobre raíces no retenidas es un procedimiento que fija un número m de
componentes a retener y contrasta que el resto no son significativos y por último el gráfico de
sedimentación cortando en el punto en que la pendiente cambia de forma destacable– pero
puede haber disparidad con lo cual decidiremos en función del número de variables iniciales
(para reducirlas en la medida de lo posible) y la proporción de varianza explicada acumulada.
El SPSS sigue el criterio de la media aritmética utilizando por defecto el valor 1 para discriminar
los componentes principales que retiene de los que no, que conduce a quedarnos con un solo
componente principal.

5
Comunalidades
Inicial Extracción
Edad 1,000 ,990
Antigüedad Permiso 1,000 ,875
Antigüedad en la compañía 1,000 ,147
Método de extracción: Análisis de Componentes principales.
Las comunalidades nos proporcionan la proporción de la variabilidad explicada por la
componente principal retenida. Vemos que las variables edad y antigüedad permiso quedan
muy bien explicadas pero ya que están muy cercanas a 1 pero parece que CP1 no explica bien
lo que sucede con antigüedad en la compañía ya que el valor es muy bajo.
Varianza total explicada
Componente
Autovalores iniciales
Sumas de las saturaciones al cuadrado de
la extracción
Total
% de la
varianza % acumulado Total
% de la
varianza % acumulado
1 2,011 67,048 67,048 2,011 67,048 67,048
2 ,971 32,362 99,409
3 ,018 ,591 100,000

6
El cuadro de varianza total explicada ofrece los valores de cada componente principal, el
porcentaje que explica cada uno de ellos y el acumulado y hace igual para los componentes
retenidos, en nuestro caso uno. Con el gráfico de sedimentación es difícil decidir el número de
componentes ya que no se observa ningún cambio a remarcar en su pendiente. Puede parecer
razonable quedarse con el primeropero no llega a explicar ni el 70% y creemos preferible
quedarnos con los dos primeros, ya que con ellos se el 99 % de la varianza, ganando más de un
30%, y el valor de este segundo componente principal es muy cercano a 1. Vamos a finalizar el
análisis utilizando un único componente principal para extraer conclusiones y tras esto
realizaremos otro con dos componentes principales para ver que resultados nos proporciona y
compararlos.
Matriz de componentesa
Componente
1
Edad ,995
Antigüedad Permiso ,935
Antigüedad en la compañía ,383
Método de extracción: Análisis de componentes principales
a. 1 componentes extraídos
Esta matriz nos ofrece las correlaciones entre las componentes principales y las variables
originales. Cuanto mayores sean mejor, con un coeficiente mínimo para considerarse correcto
de 0,60. Esto se cumple para dos de las tres variables, edad y antigüedad del permiso, que
además están muy correlacionadas con el CP1, siendo sus valores muy próximos a 1. En el caso
de antigüedad en la compañía vemos que no queda demasiado explicada, el coeficiente de
correlación es bajo pero no lo suficiente para eliminar la variable (si la correlación fuera muy
baja). A partir de estos valores podemos calcular el autovalor del CP1 sumando sus cuadrados.
Correlaciones reproducidas
Edad
Antigüedad
Permiso
Antigüedad en
la compañía
Correlación reproducida Edad ,990a
,930 ,381
Antigüedad Permiso ,930 ,875a
,358
Antigüedad en la compañía ,381 ,358 ,147a
Residualb
Edad ,003 -,034
Antigüedad Permiso ,003 -,314
Antigüedad en la compañía -,034 -,314
a. Comunalidades reproducidas
b. Los residuos se calculan entre las correlaciones observadas y reproducidas. Hay 1 (33,0%)
residuales no redundantes con valores absolutos mayores que 0,05.

7
Matriz de coeficientes para el cálculo de las
puntuaciones en las componentes
Componente
1
Edad ,495
Antigüedad en la compañía ,191
Método de extracción: Análisis de componentes principales.
Puntuaciones de componentes.
A partir de estos coeficientes elSPSScalcula las estimaciones del componente principal 1 para
cada individuo a partir del modelo (se debe sumar el producto de cada variable por su
coeficiente), llamadaspuntuaciones y podemos guardarlas como una nueva variable. Pero lo
que realmente nos interesa de laspuntuaciones es que permiten comparar los valores reales
con los estimados y obtener los residuos que esperamos sean lo más bajos posibles ya que de
este modo el modelo serámuy cercano a los datos, y los explicará bien. Para verificar que los
residuos son bajos utilizamos la matriz de covarianza de las puntuaciones (bajo estas líneas),
que para confirmar esto y por tanto la validez del modelo debe ser una matriz identidad. Al
haber un solo componente principal es muy sencillo comprobar que se cumple.
Matriz de covarianza de las
puntuaciones de las componentes
Componente 1
1 1,000
Finalmente, solo nos queda la interpretación de las componentes principales.La problemática
de la interpretación es, nada más y nada menos, tratar de asignar un significado inteligible y
útil a las componentes principales obtenidas.Para ello se recurre a examinar la relación
existente entre las componentes principales y las variables originales (u otras auxiliares), para
por medio de esta relación tratar de darles un contenido a su significado.
Hay que tener en cuenta que la interpretación tiene un sentido cuando solo elegimos las
primeras componentes, –asociada a la proporción de varianza acumulada–, y entonces
corresponde buscar la interpretación de estos primeros componentes seleccionados.
Lo que nos ayudará a interpretar las componentes principales son las correlaciones de cada
componente principal con cada variable, que aparecen en la matriz de componentes(se puede
consultar en la página 6). En este caso, tal como se ha visto, CP1 tiene una correlación positiva
muy alta (casi 1) con edad y antigüedad del permisocon lo cual podríamos interpretarla como

8
EXPERIENCIA DE CONDUCCIÓN atendiendo aque hay establecida por ley una edad mínima para
obtener el permiso conducir y en gran medida la gente se saca el carnet en torno a esta edad,
resultandoun aumento de ambas variables a la par en términos absolutos a partir del
momento de obtención del permiso que se traduce en la experiencia adquirida.En cuanto a la
antigüedad en la compañía la correlación es baja (0,38), implicando que explica poco de esta.
Ya hemos terminado con este análisis de componentes principales reteniendo solo uno y como
se ha comentado seguidamente procederemos a elaborar un nuevo análisis quedándonos con
los dos primeros componentes principales y compararemos los resultados obtenidos.La
metodología a seguir será la misma que en el primer caso, lo único que haremos es cambiar en
el SPSS el valor 1 por 0,95del criterio de la media aritmética para que el programa seleccione
los dos primeros componentes principales en lugar de uno y posteriormente explicaremos la
solución obtenida y nos fijaremos en que difiere con la anterior.
2. ANÁLISIS DE COMPONENTES PRINCIPALES RETENIENDO LOS DOS PRIMEROS
Al tratar con los mismos datos, los estadísticos descriptivos se mantienen inalterados y en
consecuencia el perfil de los clientes tampoco varía, recordemos los rasgos básicos: personas
de mediana edad con muchos años de permiso y en la compañía– clientela estable y fidelizada
–; con los siniestros concentrados a partir de los 55 años y la cobertura de la garantía de daños
contratada son aquellos con una antigüedad en la compañía de 15 años en adelante con un
rango de edad amplio – de 40 a 65años –. También permanecen sin cambios la matriz de
correlaciones, la cual indicaba que eran buenas para continuar; el KMO, la prueba de Bartlett y
la matriz anti-imagenqueapuntanno proseguir ya que la muestra no era adecuada) y el gráfico
de sedimentaciónrespecto al cual solo cambiamos el punto de corte, de 1 a 0,95 para observar
que entonces pasamos de retener un componente principal a dos.

9
Comunalidades
Inicial Extracción Extracción con CP1
Edad 1,000 ,991 ,990
Antigüedad Permiso 1,000 ,992 ,875
Antigüedad en la compañía 1,000 ,999 ,147
Columna a la derecha para mejorar la comparación
A partir de las comunalidades vemos que las tres variables que tenemos quedan muy bien
explicadas (muy cercanas a 1) y con respecto al primero de los análisis aumenta la extracción,
es decir, la proporción de la variabilidad explicada por las componentes principales retenidas,
especialmente para antigüedad en la compañía que prácticamente no tenía peso en el modelo
– con un coeficiente de 0,147 – y ahora está perfectamente recogida.
Varianza total explicada
Componente
Autovalores iniciales
Sumas de las saturaciones al cuadrado de
la extracción
Total
% de la
varianza % acumulado Total
% de la
varianza % acumulado
1 2,011 67,048 67,048 2,011 67,048 67,048
2 ,971 32,362 99,409 ,971 32,362 99,409
3 ,018 ,591 100,000
El cuadro de la varianza total explicada ofrece los valores de cada componente principal, el
porcentaje que explica cada uno de ellos y el acumulado y hace igual para los componentes
retenidos, ahora dosen vez de uno . Nos inclinamos por utilizar dos componentes, puesto que
pasamos del 67 al 99 % de la varianza, ganando más de un 30% y cabe añadir que con un
único componente había una de las variables que quedaba sin explicar y ahora queda
completamente contenida argumentos suficientes para justificar esta decisión.
Matriz de componentesa
Componente
1 2
Edad ,995 -,033

10
En esta matriz tenemos las correlaciones entre las componentes principales y las variables
originales, las cuales deben ser cuanto más altas mejor(coeficiente mínimo de 0,60) pero solo
de una variable con una componente, debido a que cada variable tiene que estar representada
solo en una componente, - que quede representado se consigue por medio de una correlación
alta – . Como se aprecia en la tabla, se satisface para las tres variables, con correlaciones muy
cercanas a 1, y quedan muy bien explicadas, por la componente 1, edad y antigüedad permiso
y por la componente 2, antigüedad en la compañía.
Correlaciones reproducidas
Edad Antigüedad
Permiso
Antigüedad en
la compañía
Correlación reproducida
Edad ,991a
,942 ,350
Antigüedad Permiso ,942 ,992a
,042
Antigüedad en la compañía ,350 ,042 ,999a
Residualb
Edad -,008 -,003
Antigüedad Permiso -,008 ,003
Antigüedad en la compañía
-,003 ,003
a. Comunalidades reproducidas
b. Los residuos se calculan entre las correlaciones observadas y reproducidas. Hay 0 (0,0%) residuales
no redundantes con valores absolutos mayores que 0,05.
Sobre estas líneas tenemos las correlaciones tras estimar el modelo, apareciendo las
comunalidades en la diagonal principal y también tenemos los residuos, los cuales es deseable
que sean bajos ya que de este modo el modelo se acerca más a los datos. Mientras que son
prácticamente nulos y con un 0% que superan en valor absoluto 0,05si vamos a la página 6,
donde tenemos la misma tabla para el modelo con un componente principal, se puede
apreciar claramenteque los residuos son superiores. En este sentido vemos evidente que el
modelo con dos componentes principales es mejor que el que tenía una.
puntuaciones en las componentes
Componente
1 2
Edad ,495 -,034
Puntuaciones de componentes

11
A partir de estos coeficientes elSPSScalcula las estimaciones delas componentes principales 1 y
2 para cada individuo a partir del modelo–puntuaciones– que permitirán comparar los valores
reales con los estimados y obtener los residuos. Para constatar que los residuos son bajos,
además de la matriz de correlaciones reproducidas que incorpora los residuos,manejamos la
matriz de covarianza de las puntuaciones (bajo estas líneas), que para confirmar esto y por
tanto la validez del modelo debe ser una matriz identidad, que vemos se cumple.
puntuaciones de las componentes
Componente 1 2
1 1,000 ,000
2 ,000 1,000
Para terminar con el análisis falta algo fundamental: lainterpretación de las componentes
principales, o sea, tratar de darles un contenido a su significado.Lo hacemos a partir de las
correlaciones entre componentes principalesy variables, en lamatriz de componentes(en la
página 9). Ya habíamos comentado la CP1 como EXPERIENCIA DE CONDUCCIÓNpor su
correlación positiva muy elevadacon edad y antigüedad del permiso. En cuanto a la CP2
recopila tan sólo una variable:antigüedad en la compañía, bastante independientedel
resto,con lo cual el significado que podríamos darle es que a pesar que las compañías tratan de
fidelizar la clientela es fácil cambiarse a otra, y los consumidores velan por sus intereses
quedándose con quien les ofrece mejores condiciones en su seguro de automóvil.
A partir del desarrollo de las componentes principales, los gráficos iniciales, que replicamos
bajo estas líneas, y un gráfico adicional con las componentes principales en los ejes vamos a
ilustrar la relación que tienen con las variables de control siniestros y garantía de daños.
u

12
Hemos creado un gráfico de dispersión con las dos componentes principales con la variable
siniestros.
Para que salganlos valors de las componentes principales y poder crear el gráfico,
previamente, al estimar el modelo, hemos hecho que nos guarde los valores de la
estimaciónhecha por regresión.
A nuestro juicio la variable siniestros estará bastante acoplada con la componente principal 1,
de acuerdo con la definición de “experiencia de conducción”, que compilaba a edad y
antigüedad del permisovisto que el gráfico a la izquierda muestra que los clientes a partir de
unos 55 años (una cierta edadque conlleva muchos años de experiencia, asociada esta última
conla antigüedad del permiso) son quienestienen siniestros.Si nos fijamos en el gráfico
superior de la página anterior, nos lleva a la misma conclusión dado que los siniestros se
concentran en la franja de 2 a 4 de la componente 1. Con respecto a la componente principal
2, que reúne sólo la variable antigüedad en la compañía, opinamos que se ajustará con la
garantía de dañospuesto que del gráfico de la derecha se desprende que los clientes con la
garantía de daños contratada son aquellos con una antigüedad en la compañía de 15 años en
adelante con un rango de edad muy amplio que va desde los 40 años a los 65.
Ahora vamos a realizar el análisis teniendo en cuenta las variables de control siniestros y
garantía de daños para observar si existen diferencias. Lo haremos dejando el corte de la
media aritmética en 0,95 que es un valor cercano a uno para que en principio retengamos dos
componentes ya que los resultados obtenidos hasta aquí han sido claramente mejores
condos.De este análisis resultarán cuatro modelos más.

13
3. ANÁLISIS DE COMPONENTES PRINCIPALES PARA LOS CLIENTES QUE NO HAN TENIDO
SINIESTROS
Aunque nuestra base de datos es la misma en todo a partir de este momento vamos a utilizar
datos distintos en cada supuesto y por este motivo además de realizar el análisis vamos a
volver a calcular los estadísticos descriptivos para advertir los cambios en el perfil de los
consumidores.
Estadísticos descriptivosa
Media Desviación
típica
N del análisis
Edad 49,35 3,067 2451
Antigüedad Permiso 19,42 1,969 2451
Antigüedad en la compañía 15,06 1,069 2451
a. Sólo aquellos casos para los que Siniestros = 0, serán utilizados en la fase de análisis.
En los análisis anteriores en que no distinguíamos entre quienes habían tenido siniestros de los
que no disponíamos de 2469 observaciones, siendo una primera nota a realizar que el tamaño
muestral se ha reducido muy poco, consecuencia de una baja siniestralidad. También podemos
ver que los intervalos y las medias se mantienen prácticamente iguales, así como las
desviaciones típicas, aunque parece que se reducen algo. De esto se deduce que los resultados
que obtengamos deben ser similares a los del análisis general.
Matriz de correlacionesa,b
Edad Antigüedad
Permiso
Antigüedad en
la compañía
Correlación
Edad 1,000 ,931 ,336
Sig. (Unilateral)
Edad ,000 ,000
b. Determinante = ,036
Al estudiar la matriz de correlacionespara determinar si los datos son adecuados para poder
aplicar componentes principales se puede ver que los resultados son muy similares a la del
primer ensayo. Concluimos que se puede seguir porque las correlaciones son elevadas, a
pesar que no sucede en Antigüedad en la compañía, por esto reparamos en el determinante
de esta matriz, que indica la intensidad de las correlaciones y la significación de cada variable
que son bastante próximos a 0, por ello se puede continuar con el análisis de componentes
principales y en principio obtener unos buenos resultados.

14
KMO y prueba de Bartletta
Bartlett
gl 3
Sig. ,000
El KMO, que nos dice si para el conjunto de variables tenemos datos suficientes para el
conjunto de variables, es muy bajo y no sería recomendable proseguir. La prueba de Bartlett
efectúa un contraste con hipótesis nula que la matriz de correlaciones es una matriz identidad,
implicando que no hay correlaciones. Como el nivel de significación es cero se rechaza la 𝐻0
que es lo que queríamosy tiene sentido aplicar el análisis de componentes principales.
Matrices anti-imagena
Edad Antigüedad
Permiso
Antigüedad en
la compañía
Covarianza anti-imagen
Edad ,036 -,038 -,085
Correlación anti-imagen
Edad ,367b
-,979 -,853
Antigüedad Permiso -,979 ,344b
,832
Antigüedad en la compañía -,853 ,832 ,074b
b. Medida de adecuación muestral
La matriz anti-imagen, que presenta las covarianzas y coeficientes de correlación parciales y se
utiliza para comprobar la adecuación muestral de cada variable. Los valores incrementan de
forma muy suave pero la diagonal principal sigue con valores bajos, cuando deberían ser
próximos a 1 y los que no pertenecen a ella lo más bajos posibles. Esto no es adecuado para el
análisis y afectará a los resultados.
Comunalidadesa
Inicial Extracción
Edad 1,000 ,991
A partir de las comunalidades vemos que las tres variables que tenemos quedan muy bien
explicadas (casi 1).

15
Varianza total explicadaa
Componente Autovalores iniciales Sumas de las saturaciones al cuadrado de la
extracción
Total % de la varianza % acumulado Total % de la varianza % acumulado
1 1,999 66,622 66,622 1,999 66,622 66,622
2 ,983 32,762 99,384 ,983 32,762 99,384
3 ,018 ,616 100,000
El cuadro de la varianzatotal explicada ofrece pocas variaciones en relación al análisis
genérico, con una disminución muy leve en los % de la varianza y en el autovalor de la
componente 1 y un ligero aumento en la 2. Utilizaremos dos componentes, ya que el modelo
se ajusta mejor y todas las variables resultan explicar, como se ha visto.
Matriz de componentesa,b
Componente
1 2
Edad ,995 -,021
AntigüedadPermiso ,937 -,336
Método de extracción: Análisis de componentesprincipales
a. 2 componentesextraídos
b. Sóloaquellos casos para los que Siniestros = 0, seránutilizados en la fase de análisis
En la tabla podemos reparar en quelas correlaciones entre las componentes principales y las
variables originales sonmuy cercanas a 1en una componente para cada variable, recogiéndose
todas muy bien en el modelo.
Correlaciones reproducidasa
Edad AntigüedadPer
miso
Antigüedad en
la compañía
Correlaciónreproducida
Edad ,991b
,940 ,339
AntigüedadPermiso ,940 ,992b
,024
Antigüedad en la compañía ,339 ,024 ,999b
Residualc
Edad -,009 -,003
AntigüedadPermiso -,009 ,003
Antigüedad en la compañía -,003 ,003
a. Sóloaquellos casos para los que Siniestros = 0, seránutilizados en la fase de análisis.
b. Comunalidadesreproducidas

16
c. Los residuos se calculan entre las correlaciones observadas y reproducidas. Hay 0 (0,0%) residuales no
redundantes con valores absolutosmayores que 0,05.
Lo más relevante de esta matriz son los residuos, los cuales cumplen la propiedad de ser bajos
y por tanto el modelo se acerca en gran medida a los datos.
puntuaciones en las componentesa
Componente
1 2
Edad ,498 -,021
a. Sólo aquellos casos para los que Siniestros = 0, serán utilizados en la fase de análisis
A partir de estos coeficientes elSPSScalcula las estimaciones de las componentes principales 1
y 2 para cada individuo a partir del modelo –puntuaciones– que permitirán obtener los
residuos. Para ver que si los residuos son bajos, usamos la matriz de covarianza de las
puntuaciones (página siguiente), que lo confirmaal ser una matriz identidad.
puntuaciones de las componentesa
Componente 1 2
1 1,000 ,000
2 ,000 1,000
Finalizaremos con lainterpretación de las componentes principales.Pero basándonos en la
gran similitud de los resultados no percibimos que añada algún hecho relevante y por tanto
nos quedaremos con la interpretación ya desarrollada, calificando la CP1 como EXPERIENCIA
DE CONDUCCIÓNpor su correlación positiva muy elevada con edad y antigüedad del permiso,y
la CP2 recopila tan sólo una variable:antigüedad en la compañía, bastante independientedel
resto, con lo cual el significado que podríamos darle es la relativa facilidad para cambiar de
compañía.

17
4. ANÁLISIS DE COMPONENTES PRINCIPALES PARA LOS CLIENTES QUE HAN TENIDO
SINIESTROS
Media Desviación
típica
N del análisis
Edad 57,89 1,323 18
Antigüedad en la compañía 16,39 ,979 18
a. Sólo aquellos casos para los que Siniestros = 1, serán utilizados en la fase
de análisis.
En los análisis iniciales en que no distinguíamos entre quienes habían tenido siniestros de los
que no disponíamos de 2469 observaciones, siendo una primera nota a realizar que el tamaño
muestral se ha reducido mucho, al haber unasiniestralidad baja. Cabe destacarel incremento
en la edad media que pasa de los 49 a casi 58 años, con una desviación que se reduce
notablemente (en 1,7) cosa que quiere decir que el intervalo de la edad es menor (menor
variabilidad). También señalar el incremento la antigüedad del permiso de prácticamente 5
años y un menor aumento enla antigüedad del permiso (de 1,39) en términos medios. Las
desviaciones típicas se reducen especialmente en la edad y en menor medida pero a tener en
cuenta en la antigüedad del permiso. Tras este breve examen vemos que el perfil de cliente
cambia respecto al genérico: son pocos, de una edad media pero ya tendiendo a mayores, y
por tanto con una mayor antigüedad del permiso, y con una mayor antigüedad en la compañía
y es de esperar que los resultados sean distintos.
Edad Antigüedad
Permiso
Antigüedad en
la compañía
Correlación
Edad 1,000 ,750 -,328
Antigüedad Permiso ,750 1,000 -,812
Antigüedad en la compañía -,328 -,812 1,000
Sig. (Unilateral)
Edad ,000 ,092
De la matriz de correlacionespara determinar si los datos son adecuados se pueden apreciar
los cambios. La correlación de Antigüedad en la compañía con Antigüedad permiso que era
muy baja ha crecido de manera muy importante (antes 0,027) y por tanto es bueno para
nuestro análisis. Concluimos que se puede seguir, si bienaun hay una correlación un poco baja
entreAntigüedad en la compañíay edad (aproximadamente no varía).

18
Bartlett
40,362 8118,514
3 3
,000 ,000
conjunto de variables, es muy bajo (aunque sufre un aumento de aproximadamente un 0,1) y
no sería recomendable proseguir. En la prueba de Bartlett como el nivel de significación es
cero se rechaza la 𝐻0y tiene sentido continuar el análisis.
Edad Antigüedad
Permiso
Antigüedad en
la compañía
Edad ,205 -,111 -,132
Edad ,340b
-,878 -,729
,906
La matriz anti-imagen, que presenta las covarianzas y coeficientes de correlación parciales y se
utiliza para comprobar la adecuación muestral de cada variable. Los valores de la diagonal
principal aumentan pero no lo suficiente, dado que deberían ser próximos a 1 y los que no
pertenecen a ella lo más bajos posibles – parece que se reducen –. No es adecuado para el
análisis.
Comunalidadesa
Inicial Extracción
Edad 1,000 ,623
A partir de las comunalidades vemos que las tres variables que tenemos quedan explicadas; sin
embargo hay que advertir que la proporción de la variabilidad explicada ha tenido un claro
descenso en las variables edad y antigüedad en la compañía, pasando de prácticamente 1 a
0,6.

19
Componente Autovalores iniciales Sumas de las saturaciones al cuadrado de la
extracción
1 2,281 76,044 76,044 2,281 76,044 76,044
2 ,673 22,440 98,484
3 ,045 1,516 100,000
El cuadro de la varianzatotal explicada ofrece una información interesante: que hemos
retenido únicamente el primer componente principal. Parece una buena elección puesto a que
explica un 76%, cercano al 80, y el autovalor del segundo es bastante inferior a 1. Al comparar
con el anterior análisis se aprecian diferencias sustanciales: cambia el número de componentes
de dos a uno, explicando este CP1 un 10% más que antes y hay una mayor reducción de
variables que es de lo que trata el análisis de componentes principales. No obstante al pasar
de dos a uno el modelo pierde información y no reflejará con la misma precisiónlos datos.
Para este caso hemosadjuntado el gráfico de sedimentaciónya que el cambio que experimenta
la pendiente y que nos indica el número de componentes a reteneres muy visible.
Componente
1
Edad ,790
Antigüedad en la compañía -,827

20
Método de extracción: Análisis de componentesprincipales
a. 2 componentesextraídos
b. Sóloaquellos casos para los que Siniestros = 1, seránutilizados en la fase de análisis
En la tabla podemos reparar en que las correlaciones entre las componentes principales y las
variables originales son muy cercanas a 1en valor absoluto, recogiéndose todas muy bien en el
modelo.
Edad Antigüedad
Permiso
Antigüedad en
la compañía
Edad ,623b
,779 -,653
Antigüedad Permiso ,779 ,973b
-,816
Antigüedad en la compañía -,653 -,816 ,684b
Residualc
Edad -,029 ,325
b. Comunalidades reproducidas
c. Los residuos se calculan entre las correlaciones observadas y reproducidas. Hay 1 (33,0%) residuales
no redundantes con valores absolutos mayores que 0,05.
Lo más relevante de esta matriz son los residuos, los cuales queremos que seanbajos pero
tenemos que un 33% de ellos son mayores de 0,05, debido a la menor exactitud al tener un
solo componente principal (cuando teníamos dos eran 0).
Matriz de coeficientes para el cálculo de
las puntuaciones en las componentesa
Componente
1
Edad ,346
Antigüedad en la compañía -,363
A partir de estos coeficientessecalculan laspuntuacionesy posteriormente los residuos. Para
ver que si los residuos son bajos, usamos la matriz de covarianza de las puntuaciones (página
siguiente), que lo confirma al ser una matriz identidad. No contradice la anterior matriz de
correlaciones reproducidas pero nos dice que los residuos son pequeños y que el modelo se
puede dar por válido.
Matriz de covarianza de las puntuaciones de las componentesa

21
Componente 1
1 1,000
Vamos a terminar con lainterpretación.Solo tenemos una componente principal muy
correlacionada con las tres variables, de manera positiva con edad y antigüedad del permiso y
negativamente con antigüedad en la compañía. Atendiendo a las correlaciones positivas
descritas parece lógico definirla como EXPERIENCIA DE CONDUCCIÓNpero no sabemos darle
significado a la correlación negativa que mantiene con antigüedad en la compañíaque tiene un
comportamientocontrarioal resto de variables y la componente principal.
Se puede añadir ya que en su momento no se ha indicado al no caer en ello que el modelo
genérico recoge el comportamiento de los clientes que no han tenido siniestros, seguramente
motivado porque los que sí los han tenido son muy pocos (un 0,73%) a pesar que tienen un
perfil mucho más concreto y diferenciado.
5. ANÁLISIS DE COMPONENTES PRINCIPALES PARA LOS CLIENTES QUE NO TIENEN
CONTRATADA LA GARANTÍA DE DAÑOS
Media Desviación
típica
N del análisis
Edad 48,34 2,991 905
a. Sólo aquellos casos para los que Garantía Daños = 0, serán utilizados en
la fase de análisis.
En los análisis iniciales disponíamos de 2469 observaciones y en este de 905, siendo una
primera observaciónla reduccióndel tamaño muestral. En la edad media hay una pequeña
disminución (antes 49,3), la antigüedad del permisose mantiene igual y la antigüedad en la
compañía es la variable que experimenta un mayor cambio, de poco más de un año y su
desviación que se reduce notablemente (en 1,7) cosa que nos dice que el intervalo en que se
mueven los datos es menor. El resto de desviaciones se mantienen. Después de esto podemos
ilustrar ante qué el tipo de cliente nos encontramos; de una edad media, con una prolongada
experiencia (en la media del resto de clientes en la antigüedad del permiso) y con una menor
antigüedad en la compañía que el promediorazón que habíamos apuntado que llevaba a no
contratar la garantía de daños porque puede que se premiea los clientes más antiguos con
mayores descuentos.

22
Edad Antigüedad
Permiso
Antigüedad en
la compañía
Correlación
Edad 1,000 ,969 ,243
Sig. (Unilateral)
Edad ,000 ,000
a. Sólo aquellos casos para los que Garantía Daños = 0, serán utilizados en la fase de análisis.
De la matriz de correlacionespara determinar si los datos son adecuados vemos que hay dos
bajas. No obstante al observar el determinante de esta matriz, que nos indica la intensidad de
las correlaciones, y la significación de cada variable que son próximos a 0 parece que con
nuestros datos se puede continuar con el análisis.
Bartlett
gl 3
Sig. ,000
a. Sólo aquellos casos para los que Garantía Daños = 0, serán utilizados
en la fase de análisis.
conjunto de variables, es muy bajo y no sería recomendable proseguir. En la prueba de Bartlett
se rechaza la 𝐻0y tiene sentido continuar.
Edad Antigüedad
Permiso
Antigüedad en
la compañía
Edad ,037 -,038 -,094
Edad ,427b
-,980 -,618
,591

23
La matriz anti-imagen que utilizamos para comprobar la adecuación muestral de cada
variableno ofrece el resultado esperado, siendo los valores de la diagonal principal bajos y el
resto elevados, por tanto la medida de la muestra no es adecuada para el análisis.
Comunalidadesa
Inicial Extracción
Edad 1,000 ,990
Antigüedad en la compañía 1,000 1,000
Método de extracción: Análisis de Componentes principales
a. Sólo aquellos casos para los que Garantía Daños = 0, serán utilizados en la fase de análisis
Las comunalidades nos proporcionan la proporción de la variabilidad explicada por la
componente principal retenida. Vemos que las variables edad y antigüedad permiso quedan
muy bien explicadas yantigüedad en la compañíatotalmente explicada al ser 1.Estos números
hacen prever que el modelo se adaptará muy bien a los datos.
Componente Autovalores iniciales Sumas de las saturaciones al cuadrado de
la extracción
1 2,025 67,502 67,502 2,025 67,502 67,502
2 ,956 31,859 99,361 ,956 31,859 99,361
3 ,019 ,639 100,000
El cuadro de varianza total explicada ofrece los valores de cada componente principal, el
porcentaje que explica cada uno de ellos y el acumulado. Hemos retenido los dos primeros
componentesy conseguimos explicar más de un 99 % de la varianza. Como el gráfico de
sedimentación es muy similar al del primero de los análisis y no muestra contundentemente el
número de variables a seleccionar no lo anexamos.
Componente
1 2
Edad ,992 -,082
b. Sólo aquellos casos para los que Garantía Daños = 0, serán utilizados en la fase de análisis

24
Esta matriz nos ofrece las correlaciones entre las componentes principales y las variables
originales. Vemos que se ajusta muy bien a los requisitos del análisis quedando representadas
las variables en solo en una componente principal, en la CP1 edad y antigüedad del permiso y
en la CP2 antigüedad delacompañíacomo nos ocurría en el modelo genérico con dos
componentes.
Edad Antigüedad
Permiso
Antigüedad en
la compañía
Edad ,990b
,979 ,244
Antigüedad Permiso ,979 ,991b
,093
Antigüedad en la compañía ,244 ,093 1,000b
Residualc
Edad -,009 -,001
Antigüedad en la compañía -,001 ,001
b. Comunalidades reproducidas
c. Los residuos se calculan entre las correlaciones observadas y reproducidas. Hay 0 (0,0%) residuales no
redundantes con valores absolutos mayores que 0,05.
Aquí tenemos las correlaciones tras estimar el modelo y también tenemos los residuos, que
son prácticamente nulos con un 0% que superan en valor absoluto 0,05 y va muy bien porque
el modelo se ajustará mejor a los datos.
Matriz de coeficientes para el cálculo de las puntuaciones en las
componentesa
Componente
1 2
Edad ,490 -,085
a. Sólo aquellos casos para los que Garantía Daños = 0, serán
utilizados en la fase de análisis.
Matriz de covarianza de las puntuaciones de las
componentesa
Componente 1 2
1 1,000 ,000
2 ,000 1,000

25
Para constatar que los residuos son bajos comprobamos los valores de la matriz de covarianza
de las puntuaciones que debe ser una matriz identidad, como se produce.
Vamos a terminar con lainterpretación,a partir de las correlaciones entre componentes
principalesy variables. Las relaciones permanecen inalteradas con respecto al modelo general
con dos componentes principales y no percibimos nuevos matices. Recordemos que CP1 la
habíamos designadoEXPERIENCIA DE CONDUCCIÓNy la CP2que podíamos asociar a la facilidad
de cambiarse de compañía (contiene solo la variable:antigüedad en la compañía).
6. ANÁLISIS DE COMPONENTES PRINCIPALES PARA LOS CLIENTES QUE NO TIENEN
CONTRATADA LA GARANTÍA DE DAÑOS
Media Desviación
típica
N del análisis
Edad 50,03 3,062 1564
a. Sólo aquellos casos para los que Garantía Daños = 1, serán utilizados en
la fase de análisis.
Pasamos de 2469 observacionesa 1564, unareducción de un 36,65%del tamaño muestral. Es
decir, de nuestros clientes un 36,65% no tienen contratada la garantía de daños frente a un
63,35% que si la tienen, resultando de mayor importancia el segundo grupo por su número.
Frente a quienes no disponían de esta cobertura, este conjunto tiene una edad en promedio
dos años más, la variable antigüedad del permiso se mantiene sin cambios y la antigüedad en
la compañía aumenta año y medio de media. Las desviaciones son muy semejantes entre
ambos grupos, y en relación al general también menos para la antigüedad en la compañíaque
se reduce.Este colectivo tiene de una edad media-alta, con una prolongada experiencia (en la
media del resto de clientes en la antigüedad del permiso) y con una elevadaantigüedad en la
compañía.
Los resultados obtenidos que sirven para comprobar que se cumplen los requisitos del análisis
de componentes principales – matriz de correlaciones, KMO y prueba de Bartlett, matriz
antiimagen,matriz de covarianza de las puntuaciones de las componentes (es la identidad)–son
análogos y constatan que podemos realizar el análisis aunque presentan problemas el KMO y
la matriz anti-imagen como viene repitiéndose en todos los casos. Por esto para no
extendernos en exceso vamos a presentar lo más destacado que es como resulta el modelo.

26
Comunalidadesa
Inicial Extracción
Edad 1,000 ,991
Antigüedad en la compañía 1,000 1,000
Método de extracción: Análisis de Componentes
principales.
a. Sólo aquellos casos para los que Garantía Daños =
1, serán utilizados en la fase de análisis.
Vemos que todas las variables se explican muy bien, prácticamente en su totalidad como en
antigüedad en la compañía. En las correlaciones reproducidas se observa unaumento respecto
las iniciales y residuos muy bajos.
Componente Autovalores iniciales Sumas de las saturaciones al cuadrado de
la extracción
1 2,001 66,693 66,693 2,001 66,693 66,693
2 ,981 32,705 99,398 ,981 32,705 99,398
3 ,018 ,602 100,000
Componente
1 2
Edad ,995 -,036
Método de extracción: Análisis de componentes
principales.
b. Sólo aquellos casos para los que Garantía Daños
= 1, serán utilizados en la fase de análisis.
Vemos que en el modelo tenemos dos componentes principales que explican el 66% y el 32%
respectivamente, quedando justificada por el modelo más del 99% de la varianza. Hay que
prestar atención en que estos porcentajes casi iguales que los que nos han salido en el análisis
de toda la cartera. Y las correlaciones entre las variables y las componentes principales se
mantienen muy parecidas entre los clientes en general, y los grupos con y sin garantía de
daños contratada. Es lógico pues no introducir cambios en la interpretación de las

27
componentesy quedarnos con el significado que les habíamos dado en función de las
correlaciones. Ya habíamos comentado la CP1 como EXPERIENCIA DE CONDUCCIÓNpor su
correlación positiva muy elevada con edad y antigüedad del permiso. En cuanto a la CP2
recopila tan sólo una variable:antigüedad en la compañía, bastante independientedel resto,
con lo cual el significado que podríamos darle es que a pesar que las compañías tratan de
fidelizar la clientela es fácil cambiarse a otra, y los consumidores velan por sus intereses
quedándose con quien les ofrece mejores condiciones en su seguro de automóvil.
Para dar por terminada la práctica queremos comentar que esperábamos, quizás porque se
nos había pedido comparar todos los modelos, unos resultados más dispares que nos llevaran
a unasconclusiones más amplias, especialmente en la interpretación de las componentes
principales, evidentemente sin cambiar el fondo pero si añadiendo matices y nos hemos
encontrado con unas variaciones mínimas salvo en el caso de los asegurados que habían
tenido siniestros.

Practica de estadística actuarial aplicad

Recomendados

Recomendados

Más contenido relacionado

Destacado

Destacado (20)

Similar a Practica de estadística actuarial aplicad

Similar a Practica de estadística actuarial aplicad (20)

Último

Último (20)

Practica de estadística actuarial aplicad