SlideShare una empresa de Scribd logo
1 de 28
8 de noviembre de 2012
PRACTICA 1 ESTADÍSTICA
ACTUARIAL APLICADA
Ester Caparros Jane
COMPONENTES
PRINCIPALES
APLICADO A UNA CARTERA
DE SEGUROS DE AUTOS
1
En el presente trabajo se aborda el análisis e interpretación de una cartera de seguros de
automóvil a través del uso del método de análisis de componentes principales(con el software
SPSS) cuyo objetivo es explicar adecuadamente el comportamiento de la muestra con un
menor número de variables que el original.
Nuestra base de datos está compuesta por cinco variables, siendo tres de ellas cuantitativas–
edad, antigüedad del permiso y antigüedad en la compañía, y las dos restantes – número de
siniestros y garantía de daños – variables de control. Disponemos de 2.469 observaciones para
cada una de las variables, número que con posterioridad comprobaremos si es adecuado o no
para el análisis a realizar.
En primer lugar como es conveniente conocer los datos de que disponemos vamos a utilizar los
estadísticos descriptivosque nos proporcionan un resumen de ellos:
Estadísticos descriptivos
N Mínimo Máximo Media Desv. típ.
Edad 2469 39 62 49,41 3,143
Antigüedad Permiso 2469 13 27 19,46 2,009
Antigüedad en la compañía 2469 12 18 15,07 1,074
N válido (según lista) 2469
Podemos observar que en la cartera no hay gente joven, dado que la edad mínima es de 39
años, y que los asegurados tienen muchos años de carnet de conducir y llevan también
muchos años en la compañía, es decir, tengo una clientela estable y fidelizada (probablemente
debido a la estrategia y la política comercial de la aseguradora).
Otra herramienta útil que contribuye al mejor conocimiento de nuestra cartera son los
gráficos, hemos realizado varios y nos ha parecido destacar dos de ellos por lo que aportan.
u
2
Este primer gráfico nos muestra que los clientes que sufren siniestros son personas a partir de
poco más de 55 años, una cierta edad, con muchos años de experiencia que se refleja en la
antigüedad del permiso pero que pierden aptitudes para conducir dado que concentran la
siniestralidad. Este hecho se puede observar a partir de otro gráfico con la edad en el eje de
ordenadas y en el de abscisas la antigüedad en la compañía, que corrobora las conclusiones
extraídas presentándose los siniestros para distintas antigüedades pero concentrados en
edades superiores a los 55 años. Se adjunta el gráfico a continuación:
3
En el último de los gráficos podemos ver que los clientes con la garantía de daños contratada
son aquellos con una antigüedad en la compañía de 15 años en adelante con un rango de edad
muy amplio que va desde los 40 años a los 65. Creemos que esto se puede deber a que la
compañía premia la fidelidad de sus clientes ofreciendo esta cobertura a un precio
notablemente menor al de mercado.
1. ANÁLISIS DE COMPONENTES PRINCIPALES RETENIENDO ÚNICAMENTE EL PRIMERO
Una vez examinado el perfil de los clientes vamos a realizar el análisis de componentes
principales. Mediante el SPSS debemos seguir el siguiente procedimiento: ir a menú “Analizar”,
luego a submenú “Reducción de dimensiones”,por último a “Factor”, aparece una ventana
donde seleccionar las opciones y ejecutandoobtenemos los resultados.
Matriz de correlacionesa
Edad Antigüedad
Permiso
Antigüedad en
la compañía
Correlación Edad 1,000 ,934 ,348
Antigüedad Permiso ,934 1,000 ,045
Antigüedad en la compañía ,348 ,045 1,000
Sig. (Unilateral) Edad ,000 ,000
Antigüedad Permiso ,000 ,013
Antigüedad en la compañía ,000 ,013
a. Determinante = ,035
El primer paso es estudiar la matriz de correlaciones– se ha escogido esta en lugar de la matriz
de covarianzas porque está tipificada – para determinar si los datos son adecuados para poder
aplicar componentes principales. Para concluir que se puede seguir las correlaciones deben
ser elevadas, como sucede entre las variables Edad y Antigüedad del Permiso en que es muy
alta y aunque no sucede así con Antigüedad en la compañía al observar el determinante de
esta matriz, que nos indica la intensidad de las correlaciones, y la significación de cada variable
que son bastante próximos a 0 parece que con nuestros datos se puede continuar con el
análisis de componentes principales y obtener un resultado correcto.
KMO y prueba de Bartlett
Medida de adecuación muestral de Kaiser-Meyer-Olkin. ,294
Prueba de esfericidad de
Bartlett
Chi-cuadrado aproximado 8296,011
Gl 3
Sig. ,000
El KMO, que nos dice si para el conjunto de variables tenemos datos suficientes para hacer el
análisis, es muy bajo y al ser inferior a 0,5 no sería recomendable proseguir pero como no
podemos disponer de más datos continuaremos.
4
La prueba de Bartlett efectúa un contraste con hipótesis nula que la matriz de correlaciones es
una matriz identidad, afirmación que me interesa rechazar dado que si fuera una matriz
identidad significaría que no hay correlaciones y aplicar el análisis de componentes principales
no tendría ningún sentido. Bartlett es una observación muy similar al KMO pero a nivel
individual, para cada variable. Como el nivel de significación es cero se rechaza la 𝐻0 que es lo
que queríamos.
Matricesanti-imagen
Edad
Antigüedad
Permiso
Antigüedad en
la compañía
Covarianza anti-imagen Edad ,035 -,036 -,083
Antigüedad Permiso -,036 ,039 ,086
Antigüedad en la compañía -,083 ,086 ,269
Correlación anti-imagen Edad ,370a
-,980 -,855
Antigüedad Permiso -,980 ,346a
,833
Antigüedad en la compañía -,855 ,833 ,079a
a. Medida de adecuación muestral
La matriz anti-imagen presenta las covarianzas y coeficientes de correlación parciales y se
utiliza para comprobar la adecuación muestral de cada variable. Los valores de la diagonal
principal deberían ser próximos a 1 y los que no pertenecen a ella lo más bajos posibles.
Podemos observar en la tabla superior que no sucede esto sino lo contrario, siendo los valores
de la diagonal principal bajos y el resto elevados, por tanto la medida de la muestra no es
adecuada para el análisis que estamos llevando a cabo y aunque proseguiremos con él al no
ajustarse los datos a este requerimiento de los componentes principales los resultados que
obtendremos no permitirán una buena interpretación.
No hay una regla única para decidir el número de componentes principales a seleccionar para
explicar las variables originalessino tres métodos, – elcriterio de la media aritmética nos dice
que seleccionemos las componentes principales cuya raíz característica supere la media de las
raíces características (este valor es la varianza de cada CP) y para las variables tipificadas, este
valor es 1; el contraste sobre raíces no retenidas es un procedimiento que fija un número m de
componentes a retener y contrasta que el resto no son significativos y por último el gráfico de
sedimentación cortando en el punto en que la pendiente cambia de forma destacable– pero
puede haber disparidad con lo cual decidiremos en función del número de variables iniciales
(para reducirlas en la medida de lo posible) y la proporción de varianza explicada acumulada.
El SPSS sigue el criterio de la media aritmética utilizando por defecto el valor 1 para discriminar
los componentes principales que retiene de los que no, que conduce a quedarnos con un solo
componente principal.
5
Comunalidades
Inicial Extracción
Edad 1,000 ,990
Antigüedad Permiso 1,000 ,875
Antigüedad en la compañía 1,000 ,147
Método de extracción: Análisis de Componentes principales.
Las comunalidades nos proporcionan la proporción de la variabilidad explicada por la
componente principal retenida. Vemos que las variables edad y antigüedad permiso quedan
muy bien explicadas pero ya que están muy cercanas a 1 pero parece que CP1 no explica bien
lo que sucede con antigüedad en la compañía ya que el valor es muy bajo.
Varianza total explicada
Componente
Autovalores iniciales
Sumas de las saturaciones al cuadrado de
la extracción
Total
% de la
varianza % acumulado Total
% de la
varianza % acumulado
1 2,011 67,048 67,048 2,011 67,048 67,048
2 ,971 32,362 99,409
3 ,018 ,591 100,000
Método de extracción: Análisis de Componentes principales.
6
El cuadro de varianza total explicada ofrece los valores de cada componente principal, el
porcentaje que explica cada uno de ellos y el acumulado y hace igual para los componentes
retenidos, en nuestro caso uno. Con el gráfico de sedimentación es difícil decidir el número de
componentes ya que no se observa ningún cambio a remarcar en su pendiente. Puede parecer
razonable quedarse con el primeropero no llega a explicar ni el 70% y creemos preferible
quedarnos con los dos primeros, ya que con ellos se el 99 % de la varianza, ganando más de un
30%, y el valor de este segundo componente principal es muy cercano a 1. Vamos a finalizar el
análisis utilizando un único componente principal para extraer conclusiones y tras esto
realizaremos otro con dos componentes principales para ver que resultados nos proporciona y
compararlos.
Matriz de componentesa
Componente
1
Edad ,995
Antigüedad Permiso ,935
Antigüedad en la compañía ,383
Método de extracción: Análisis de componentes principales
a. 1 componentes extraídos
Esta matriz nos ofrece las correlaciones entre las componentes principales y las variables
originales. Cuanto mayores sean mejor, con un coeficiente mínimo para considerarse correcto
de 0,60. Esto se cumple para dos de las tres variables, edad y antigüedad del permiso, que
además están muy correlacionadas con el CP1, siendo sus valores muy próximos a 1. En el caso
de antigüedad en la compañía vemos que no queda demasiado explicada, el coeficiente de
correlación es bajo pero no lo suficiente para eliminar la variable (si la correlación fuera muy
baja). A partir de estos valores podemos calcular el autovalor del CP1 sumando sus cuadrados.
Correlaciones reproducidas
Edad
Antigüedad
Permiso
Antigüedad en
la compañía
Correlación reproducida Edad ,990a
,930 ,381
Antigüedad Permiso ,930 ,875a
,358
Antigüedad en la compañía ,381 ,358 ,147a
Residualb
Edad ,003 -,034
Antigüedad Permiso ,003 -,314
Antigüedad en la compañía -,034 -,314
Método de extracción: Análisis de Componentes principales.
a. Comunalidades reproducidas
b. Los residuos se calculan entre las correlaciones observadas y reproducidas. Hay 1 (33,0%)
residuales no redundantes con valores absolutos mayores que 0,05.
7
Matriz de coeficientes para el cálculo de las
puntuaciones en las componentes
Componente
1
Edad ,495
Antigüedad Permiso ,465
Antigüedad en la compañía ,191
Método de extracción: Análisis de componentes principales.
Puntuaciones de componentes.
A partir de estos coeficientes elSPSScalcula las estimaciones del componente principal 1 para
cada individuo a partir del modelo (se debe sumar el producto de cada variable por su
coeficiente), llamadaspuntuaciones y podemos guardarlas como una nueva variable. Pero lo
que realmente nos interesa de laspuntuaciones es que permiten comparar los valores reales
con los estimados y obtener los residuos que esperamos sean lo más bajos posibles ya que de
este modo el modelo serámuy cercano a los datos, y los explicará bien. Para verificar que los
residuos son bajos utilizamos la matriz de covarianza de las puntuaciones (bajo estas líneas),
que para confirmar esto y por tanto la validez del modelo debe ser una matriz identidad. Al
haber un solo componente principal es muy sencillo comprobar que se cumple.
Matriz de covarianza de las
puntuaciones de las componentes
Componente 1
1 1,000
Método de extracción: Análisis de componentes principales.
Puntuaciones de componentes.
Finalmente, solo nos queda la interpretación de las componentes principales.La problemática
de la interpretación es, nada más y nada menos, tratar de asignar un significado inteligible y
útil a las componentes principales obtenidas.Para ello se recurre a examinar la relación
existente entre las componentes principales y las variables originales (u otras auxiliares), para
por medio de esta relación tratar de darles un contenido a su significado.
Hay que tener en cuenta que la interpretación tiene un sentido cuando solo elegimos las
primeras componentes, –asociada a la proporción de varianza acumulada–, y entonces
corresponde buscar la interpretación de estos primeros componentes seleccionados.
Lo que nos ayudará a interpretar las componentes principales son las correlaciones de cada
componente principal con cada variable, que aparecen en la matriz de componentes(se puede
consultar en la página 6). En este caso, tal como se ha visto, CP1 tiene una correlación positiva
muy alta (casi 1) con edad y antigüedad del permisocon lo cual podríamos interpretarla como
8
EXPERIENCIA DE CONDUCCIÓN atendiendo aque hay establecida por ley una edad mínima para
obtener el permiso conducir y en gran medida la gente se saca el carnet en torno a esta edad,
resultandoun aumento de ambas variables a la par en términos absolutos a partir del
momento de obtención del permiso que se traduce en la experiencia adquirida.En cuanto a la
antigüedad en la compañía la correlación es baja (0,38), implicando que explica poco de esta.
Ya hemos terminado con este análisis de componentes principales reteniendo solo uno y como
se ha comentado seguidamente procederemos a elaborar un nuevo análisis quedándonos con
los dos primeros componentes principales y compararemos los resultados obtenidos.La
metodología a seguir será la misma que en el primer caso, lo único que haremos es cambiar en
el SPSS el valor 1 por 0,95del criterio de la media aritmética para que el programa seleccione
los dos primeros componentes principales en lugar de uno y posteriormente explicaremos la
solución obtenida y nos fijaremos en que difiere con la anterior.
2. ANÁLISIS DE COMPONENTES PRINCIPALES RETENIENDO LOS DOS PRIMEROS
Al tratar con los mismos datos, los estadísticos descriptivos se mantienen inalterados y en
consecuencia el perfil de los clientes tampoco varía, recordemos los rasgos básicos: personas
de mediana edad con muchos años de permiso y en la compañía– clientela estable y fidelizada
–; con los siniestros concentrados a partir de los 55 años y la cobertura de la garantía de daños
contratada son aquellos con una antigüedad en la compañía de 15 años en adelante con un
rango de edad amplio – de 40 a 65años –. También permanecen sin cambios la matriz de
correlaciones, la cual indicaba que eran buenas para continuar; el KMO, la prueba de Bartlett y
la matriz anti-imagenqueapuntanno proseguir ya que la muestra no era adecuada) y el gráfico
de sedimentaciónrespecto al cual solo cambiamos el punto de corte, de 1 a 0,95 para observar
que entonces pasamos de retener un componente principal a dos.
9
Comunalidades
Inicial Extracción Extracción con CP1
Edad 1,000 ,991 ,990
Antigüedad Permiso 1,000 ,992 ,875
Antigüedad en la compañía 1,000 ,999 ,147
Método de extracción: Análisis de Componentes principales.
Columna a la derecha para mejorar la comparación
A partir de las comunalidades vemos que las tres variables que tenemos quedan muy bien
explicadas (muy cercanas a 1) y con respecto al primero de los análisis aumenta la extracción,
es decir, la proporción de la variabilidad explicada por las componentes principales retenidas,
especialmente para antigüedad en la compañía que prácticamente no tenía peso en el modelo
– con un coeficiente de 0,147 – y ahora está perfectamente recogida.
Varianza total explicada
Componente
Autovalores iniciales
Sumas de las saturaciones al cuadrado de
la extracción
Total
% de la
varianza % acumulado Total
% de la
varianza % acumulado
1 2,011 67,048 67,048 2,011 67,048 67,048
2 ,971 32,362 99,409 ,971 32,362 99,409
3 ,018 ,591 100,000
Método de extracción: Análisis de Componentes principales.
El cuadro de la varianza total explicada ofrece los valores de cada componente principal, el
porcentaje que explica cada uno de ellos y el acumulado y hace igual para los componentes
retenidos, ahora dosen vez de uno . Nos inclinamos por utilizar dos componentes, puesto que
pasamos del 67 al 99 % de la varianza, ganando más de un 30% y cabe añadir que con un
único componente había una de las variables que quedaba sin explicar y ahora queda
completamente contenida argumentos suficientes para justificar esta decisión.
Matriz de componentesa
Componente
1 2
Edad ,995 -,033
Antigüedad Permiso ,935 -,343
Antigüedad en la compañía ,383 ,923
Método de extracción: Análisis de componentes principales.
a. 2 componentes extraídos
10
En esta matriz tenemos las correlaciones entre las componentes principales y las variables
originales, las cuales deben ser cuanto más altas mejor(coeficiente mínimo de 0,60) pero solo
de una variable con una componente, debido a que cada variable tiene que estar representada
solo en una componente, - que quede representado se consigue por medio de una correlación
alta – . Como se aprecia en la tabla, se satisface para las tres variables, con correlaciones muy
cercanas a 1, y quedan muy bien explicadas, por la componente 1, edad y antigüedad permiso
y por la componente 2, antigüedad en la compañía.
Correlaciones reproducidas
Edad Antigüedad
Permiso
Antigüedad en
la compañía
Correlación reproducida
Edad ,991a
,942 ,350
Antigüedad Permiso ,942 ,992a
,042
Antigüedad en la compañía ,350 ,042 ,999a
Residualb
Edad -,008 -,003
Antigüedad Permiso -,008 ,003
Antigüedad en la compañía
-,003 ,003
Método de extracción: Análisis de Componentes principales.
a. Comunalidades reproducidas
b. Los residuos se calculan entre las correlaciones observadas y reproducidas. Hay 0 (0,0%) residuales
no redundantes con valores absolutos mayores que 0,05.
Sobre estas líneas tenemos las correlaciones tras estimar el modelo, apareciendo las
comunalidades en la diagonal principal y también tenemos los residuos, los cuales es deseable
que sean bajos ya que de este modo el modelo se acerca más a los datos. Mientras que son
prácticamente nulos y con un 0% que superan en valor absoluto 0,05si vamos a la página 6,
donde tenemos la misma tabla para el modelo con un componente principal, se puede
apreciar claramenteque los residuos son superiores. En este sentido vemos evidente que el
modelo con dos componentes principales es mejor que el que tenía una.
Matriz de coeficientes para el cálculo de las
puntuaciones en las componentes
Componente
1 2
Edad ,495 -,034
Antigüedad Permiso ,465 -,353
Antigüedad en la compañía ,191 ,951
Método de extracción: Análisis de componentes principales.
Puntuaciones de componentes
11
A partir de estos coeficientes elSPSScalcula las estimaciones delas componentes principales 1 y
2 para cada individuo a partir del modelo–puntuaciones– que permitirán comparar los valores
reales con los estimados y obtener los residuos. Para constatar que los residuos son bajos,
además de la matriz de correlaciones reproducidas que incorpora los residuos,manejamos la
matriz de covarianza de las puntuaciones (bajo estas líneas), que para confirmar esto y por
tanto la validez del modelo debe ser una matriz identidad, que vemos se cumple.
Matriz de covarianza de las
puntuaciones de las componentes
Componente 1 2
1 1,000 ,000
2 ,000 1,000
Método de extracción: Análisis de componentes principales.
Puntuaciones de componentes
Para terminar con el análisis falta algo fundamental: lainterpretación de las componentes
principales, o sea, tratar de darles un contenido a su significado.Lo hacemos a partir de las
correlaciones entre componentes principalesy variables, en lamatriz de componentes(en la
página 9). Ya habíamos comentado la CP1 como EXPERIENCIA DE CONDUCCIÓNpor su
correlación positiva muy elevadacon edad y antigüedad del permiso. En cuanto a la CP2
recopila tan sólo una variable:antigüedad en la compañía, bastante independientedel
resto,con lo cual el significado que podríamos darle es que a pesar que las compañías tratan de
fidelizar la clientela es fácil cambiarse a otra, y los consumidores velan por sus intereses
quedándose con quien les ofrece mejores condiciones en su seguro de automóvil.
A partir del desarrollo de las componentes principales, los gráficos iniciales, que replicamos
bajo estas líneas, y un gráfico adicional con las componentes principales en los ejes vamos a
ilustrar la relación que tienen con las variables de control siniestros y garantía de daños.
u
12
Hemos creado un gráfico de dispersión con las dos componentes principales con la variable
siniestros.
Para que salganlos valors de las componentes principales y poder crear el gráfico,
previamente, al estimar el modelo, hemos hecho que nos guarde los valores de la
estimaciónhecha por regresión.
A nuestro juicio la variable siniestros estará bastante acoplada con la componente principal 1,
de acuerdo con la definición de “experiencia de conducción”, que compilaba a edad y
antigüedad del permisovisto que el gráfico a la izquierda muestra que los clientes a partir de
unos 55 años (una cierta edadque conlleva muchos años de experiencia, asociada esta última
conla antigüedad del permiso) son quienestienen siniestros.Si nos fijamos en el gráfico
superior de la página anterior, nos lleva a la misma conclusión dado que los siniestros se
concentran en la franja de 2 a 4 de la componente 1. Con respecto a la componente principal
2, que reúne sólo la variable antigüedad en la compañía, opinamos que se ajustará con la
garantía de dañospuesto que del gráfico de la derecha se desprende que los clientes con la
garantía de daños contratada son aquellos con una antigüedad en la compañía de 15 años en
adelante con un rango de edad muy amplio que va desde los 40 años a los 65.
Ahora vamos a realizar el análisis teniendo en cuenta las variables de control siniestros y
garantía de daños para observar si existen diferencias. Lo haremos dejando el corte de la
media aritmética en 0,95 que es un valor cercano a uno para que en principio retengamos dos
componentes ya que los resultados obtenidos hasta aquí han sido claramente mejores
condos.De este análisis resultarán cuatro modelos más.
13
3. ANÁLISIS DE COMPONENTES PRINCIPALES PARA LOS CLIENTES QUE NO HAN TENIDO
SINIESTROS
Aunque nuestra base de datos es la misma en todo a partir de este momento vamos a utilizar
datos distintos en cada supuesto y por este motivo además de realizar el análisis vamos a
volver a calcular los estadísticos descriptivos para advertir los cambios en el perfil de los
consumidores.
Estadísticos descriptivosa
Media Desviación
típica
N del análisis
Edad 49,35 3,067 2451
Antigüedad Permiso 19,42 1,969 2451
Antigüedad en la compañía 15,06 1,069 2451
a. Sólo aquellos casos para los que Siniestros = 0, serán utilizados en la fase de análisis.
En los análisis anteriores en que no distinguíamos entre quienes habían tenido siniestros de los
que no disponíamos de 2469 observaciones, siendo una primera nota a realizar que el tamaño
muestral se ha reducido muy poco, consecuencia de una baja siniestralidad. También podemos
ver que los intervalos y las medias se mantienen prácticamente iguales, así como las
desviaciones típicas, aunque parece que se reducen algo. De esto se deduce que los resultados
que obtengamos deben ser similares a los del análisis general.
Matriz de correlacionesa,b
Edad Antigüedad
Permiso
Antigüedad en
la compañía
Correlación
Edad 1,000 ,931 ,336
Antigüedad Permiso ,931 1,000 ,027
Antigüedad en la compañía ,336 ,027 1,000
Sig. (Unilateral)
Edad ,000 ,000
Antigüedad Permiso ,000 ,092
Antigüedad en la compañía ,000 ,092
a. Sólo aquellos casos para los que Siniestros = 0, serán utilizados en la fase de análisis.
b. Determinante = ,036
Al estudiar la matriz de correlacionespara determinar si los datos son adecuados para poder
aplicar componentes principales se puede ver que los resultados son muy similares a la del
primer ensayo. Concluimos que se puede seguir porque las correlaciones son elevadas, a
pesar que no sucede en Antigüedad en la compañía, por esto reparamos en el determinante
de esta matriz, que indica la intensidad de las correlaciones y la significación de cada variable
que son bastante próximos a 0, por ello se puede continuar con el análisis de componentes
principales y en principio obtener unos buenos resultados.
14
KMO y prueba de Bartletta
Medida de adecuación muestral de Kaiser-Meyer-Olkin. ,292
Prueba de esfericidad de
Bartlett
Chi-cuadrado aproximado 8118,514
gl 3
Sig. ,000
a. Sólo aquellos casos para los que Siniestros = 0, serán utilizados en la fase de análisis.
El KMO, que nos dice si para el conjunto de variables tenemos datos suficientes para el
conjunto de variables, es muy bajo y no sería recomendable proseguir. La prueba de Bartlett
efectúa un contraste con hipótesis nula que la matriz de correlaciones es una matriz identidad,
implicando que no hay correlaciones. Como el nivel de significación es cero se rechaza la 𝐻0
que es lo que queríamosy tiene sentido aplicar el análisis de componentes principales.
Matrices anti-imagena
Edad Antigüedad
Permiso
Antigüedad en
la compañía
Covarianza anti-imagen
Edad ,036 -,038 -,085
Antigüedad Permiso -,038 ,041 ,088
Antigüedad en la compañía -,085 ,088 ,272
Correlación anti-imagen
Edad ,367b
-,979 -,853
Antigüedad Permiso -,979 ,344b
,832
Antigüedad en la compañía -,853 ,832 ,074b
a. Sólo aquellos casos para los que Siniestros = 0, serán utilizados en la fase de análisis.
b. Medida de adecuación muestral
La matriz anti-imagen, que presenta las covarianzas y coeficientes de correlación parciales y se
utiliza para comprobar la adecuación muestral de cada variable. Los valores incrementan de
forma muy suave pero la diagonal principal sigue con valores bajos, cuando deberían ser
próximos a 1 y los que no pertenecen a ella lo más bajos posibles. Esto no es adecuado para el
análisis y afectará a los resultados.
Comunalidadesa
Inicial Extracción
Edad 1,000 ,991
Antigüedad Permiso 1,000 ,992
Antigüedad en la compañía 1,000 ,999
Método de extracción: Análisis de Componentes principales.
a. Sólo aquellos casos para los que Siniestros = 0, serán utilizados en la fase de análisis.
A partir de las comunalidades vemos que las tres variables que tenemos quedan muy bien
explicadas (casi 1).
15
Varianza total explicadaa
Componente Autovalores iniciales Sumas de las saturaciones al cuadrado de la
extracción
Total % de la varianza % acumulado Total % de la varianza % acumulado
1 1,999 66,622 66,622 1,999 66,622 66,622
2 ,983 32,762 99,384 ,983 32,762 99,384
3 ,018 ,616 100,000
Método de extracción: Análisis de Componentes principales.
a. Sólo aquellos casos para los que Siniestros = 0, serán utilizados en la fase de análisis.
El cuadro de la varianzatotal explicada ofrece pocas variaciones en relación al análisis
genérico, con una disminución muy leve en los % de la varianza y en el autovalor de la
componente 1 y un ligero aumento en la 2. Utilizaremos dos componentes, ya que el modelo
se ajusta mejor y todas las variables resultan explicar, como se ha visto.
Matriz de componentesa,b
Componente
1 2
Edad ,995 -,021
AntigüedadPermiso ,937 -,336
Antigüedad en la compañía ,360 ,932
Método de extracción: Análisis de componentesprincipales
a. 2 componentesextraídos
b. Sóloaquellos casos para los que Siniestros = 0, seránutilizados en la fase de análisis
En la tabla podemos reparar en quelas correlaciones entre las componentes principales y las
variables originales sonmuy cercanas a 1en una componente para cada variable, recogiéndose
todas muy bien en el modelo.
Correlaciones reproducidasa
Edad AntigüedadPer
miso
Antigüedad en
la compañía
Correlaciónreproducida
Edad ,991b
,940 ,339
AntigüedadPermiso ,940 ,992b
,024
Antigüedad en la compañía ,339 ,024 ,999b
Residualc
Edad -,009 -,003
AntigüedadPermiso -,009 ,003
Antigüedad en la compañía -,003 ,003
Método de extracción: Análisis de Componentes principales.
a. Sóloaquellos casos para los que Siniestros = 0, seránutilizados en la fase de análisis.
b. Comunalidadesreproducidas
16
c. Los residuos se calculan entre las correlaciones observadas y reproducidas. Hay 0 (0,0%) residuales no
redundantes con valores absolutosmayores que 0,05.
Lo más relevante de esta matriz son los residuos, los cuales cumplen la propiedad de ser bajos
y por tanto el modelo se acerca en gran medida a los datos.
Matriz de coeficientes para el cálculo de las
puntuaciones en las componentesa
Componente
1 2
Edad ,498 -,021
Antigüedad Permiso ,469 -,342
Antigüedad en la compañía ,180 ,949
Método de extracción: Análisis de componentes principales
Puntuaciones de componentes
a. Sólo aquellos casos para los que Siniestros = 0, serán utilizados en la fase de análisis
A partir de estos coeficientes elSPSScalcula las estimaciones de las componentes principales 1
y 2 para cada individuo a partir del modelo –puntuaciones– que permitirán obtener los
residuos. Para ver que si los residuos son bajos, usamos la matriz de covarianza de las
puntuaciones (página siguiente), que lo confirmaal ser una matriz identidad.
Matriz de covarianza de las
puntuaciones de las componentesa
Componente 1 2
1 1,000 ,000
2 ,000 1,000
Método de extracción: Análisis de componentes principales.
Puntuaciones de componentes.
a. Sólo aquellos casos para los que Siniestros = 0, serán utilizados en la fase de análisis
Finalizaremos con lainterpretación de las componentes principales.Pero basándonos en la
gran similitud de los resultados no percibimos que añada algún hecho relevante y por tanto
nos quedaremos con la interpretación ya desarrollada, calificando la CP1 como EXPERIENCIA
DE CONDUCCIÓNpor su correlación positiva muy elevada con edad y antigüedad del permiso,y
la CP2 recopila tan sólo una variable:antigüedad en la compañía, bastante independientedel
resto, con lo cual el significado que podríamos darle es la relativa facilidad para cambiar de
compañía.
17
4. ANÁLISIS DE COMPONENTES PRINCIPALES PARA LOS CLIENTES QUE HAN TENIDO
SINIESTROS
Estadísticos descriptivosa
Media Desviación
típica
N del análisis
Edad 57,89 1,323 18
Antigüedad Permiso 24,33 1,283 18
Antigüedad en la compañía 16,39 ,979 18
a. Sólo aquellos casos para los que Siniestros = 1, serán utilizados en la fase
de análisis.
En los análisis iniciales en que no distinguíamos entre quienes habían tenido siniestros de los
que no disponíamos de 2469 observaciones, siendo una primera nota a realizar que el tamaño
muestral se ha reducido mucho, al haber unasiniestralidad baja. Cabe destacarel incremento
en la edad media que pasa de los 49 a casi 58 años, con una desviación que se reduce
notablemente (en 1,7) cosa que quiere decir que el intervalo de la edad es menor (menor
variabilidad). También señalar el incremento la antigüedad del permiso de prácticamente 5
años y un menor aumento enla antigüedad del permiso (de 1,39) en términos medios. Las
desviaciones típicas se reducen especialmente en la edad y en menor medida pero a tener en
cuenta en la antigüedad del permiso. Tras este breve examen vemos que el perfil de cliente
cambia respecto al genérico: son pocos, de una edad media pero ya tendiendo a mayores, y
por tanto con una mayor antigüedad del permiso, y con una mayor antigüedad en la compañía
y es de esperar que los resultados sean distintos.
Matriz de correlacionesa,b
Edad Antigüedad
Permiso
Antigüedad en
la compañía
Correlación
Edad 1,000 ,750 -,328
Antigüedad Permiso ,750 1,000 -,812
Antigüedad en la compañía -,328 -,812 1,000
Sig. (Unilateral)
Edad ,000 ,092
Antigüedad Permiso ,000 ,000
Antigüedad en la compañía ,092 ,000
a. Sólo aquellos casos para los que Siniestros = 1, serán utilizados en la fase de análisis.
b. Determinante = ,036
De la matriz de correlacionespara determinar si los datos son adecuados se pueden apreciar
los cambios. La correlación de Antigüedad en la compañía con Antigüedad permiso que era
muy baja ha crecido de manera muy importante (antes 0,027) y por tanto es bueno para
nuestro análisis. Concluimos que se puede seguir, si bienaun hay una correlación un poco baja
entreAntigüedad en la compañíay edad (aproximadamente no varía).
18
KMO y prueba de Bartletta
Medida de adecuación muestral de Kaiser-Meyer-Olkin. ,385
Prueba de esfericidad de
Bartlett
40,362 8118,514
3 3
,000 ,000
a. Sólo aquellos casos para los que Siniestros = 1, serán utilizados en la fase de análisis.
El KMO, que nos dice si para el conjunto de variables tenemos datos suficientes para el
conjunto de variables, es muy bajo (aunque sufre un aumento de aproximadamente un 0,1) y
no sería recomendable proseguir. En la prueba de Bartlett como el nivel de significación es
cero se rechaza la 𝐻0y tiene sentido continuar el análisis.
Matrices anti-imagena
Edad Antigüedad
Permiso
Antigüedad en
la compañía
Covarianza anti-imagen
Edad ,205 -,111 -,132
Antigüedad Permiso -,111 ,078 ,101
Antigüedad en la compañía -,132 ,101 ,160
Correlación anti-imagen
Edad ,340b
-,878 -,729
Antigüedad Permiso -,878 ,434b
,906
Antigüedad en la compañía -,729 ,906 ,362b
a. Sólo aquellos casos para los que Siniestros = 1, serán utilizados en la fase de análisis.
b. Medida de adecuación muestral
La matriz anti-imagen, que presenta las covarianzas y coeficientes de correlación parciales y se
utiliza para comprobar la adecuación muestral de cada variable. Los valores de la diagonal
principal aumentan pero no lo suficiente, dado que deberían ser próximos a 1 y los que no
pertenecen a ella lo más bajos posibles – parece que se reducen –. No es adecuado para el
análisis.
Comunalidadesa
Inicial Extracción
Edad 1,000 ,623
Antigüedad Permiso 1,000 ,973
Antigüedad en la compañía 1,000 ,684
Método de extracción: Análisis de Componentes principales.
a. Sólo aquellos casos para los que Siniestros = 1, serán utilizados en la fase de análisis.
A partir de las comunalidades vemos que las tres variables que tenemos quedan explicadas; sin
embargo hay que advertir que la proporción de la variabilidad explicada ha tenido un claro
descenso en las variables edad y antigüedad en la compañía, pasando de prácticamente 1 a
0,6.
19
Varianza total explicadaa
Componente Autovalores iniciales Sumas de las saturaciones al cuadrado de la
extracción
Total % de la varianza % acumulado Total % de la varianza % acumulado
1 2,281 76,044 76,044 2,281 76,044 76,044
2 ,673 22,440 98,484
3 ,045 1,516 100,000
Método de extracción: Análisis de Componentes principales.
a. Sólo aquellos casos para los que Siniestros = 1, serán utilizados en la fase de análisis.
El cuadro de la varianzatotal explicada ofrece una información interesante: que hemos
retenido únicamente el primer componente principal. Parece una buena elección puesto a que
explica un 76%, cercano al 80, y el autovalor del segundo es bastante inferior a 1. Al comparar
con el anterior análisis se aprecian diferencias sustanciales: cambia el número de componentes
de dos a uno, explicando este CP1 un 10% más que antes y hay una mayor reducción de
variables que es de lo que trata el análisis de componentes principales. No obstante al pasar
de dos a uno el modelo pierde información y no reflejará con la misma precisiónlos datos.
Para este caso hemosadjuntado el gráfico de sedimentaciónya que el cambio que experimenta
la pendiente y que nos indica el número de componentes a reteneres muy visible.
Matriz de componentesa,b
Componente
1
Edad ,790
Antigüedad Permiso ,987
Antigüedad en la compañía -,827
20
Método de extracción: Análisis de componentesprincipales
a. 2 componentesextraídos
b. Sóloaquellos casos para los que Siniestros = 1, seránutilizados en la fase de análisis
En la tabla podemos reparar en que las correlaciones entre las componentes principales y las
variables originales son muy cercanas a 1en valor absoluto, recogiéndose todas muy bien en el
modelo.
Correlaciones reproducidasa
Edad Antigüedad
Permiso
Antigüedad en
la compañía
Correlación reproducida
Edad ,623b
,779 -,653
Antigüedad Permiso ,779 ,973b
-,816
Antigüedad en la compañía -,653 -,816 ,684b
Residualc
Edad -,029 ,325
Antigüedad Permiso -,029 ,004
Antigüedad en la compañía ,325 ,004
Método de extracción: Análisis de Componentes principales.
a. Sólo aquellos casos para los que Siniestros = 0, serán utilizados en la fase de análisis.
b. Comunalidades reproducidas
c. Los residuos se calculan entre las correlaciones observadas y reproducidas. Hay 1 (33,0%) residuales
no redundantes con valores absolutos mayores que 0,05.
Lo más relevante de esta matriz son los residuos, los cuales queremos que seanbajos pero
tenemos que un 33% de ellos son mayores de 0,05, debido a la menor exactitud al tener un
solo componente principal (cuando teníamos dos eran 0).
Matriz de coeficientes para el cálculo de
las puntuaciones en las componentesa
Componente
1
Edad ,346
Antigüedad Permiso ,432
Antigüedad en la compañía -,363
Método de extracción: Análisis de componentes principales
Puntuaciones de componentes
a. Sólo aquellos casos para los que Siniestros = 1, serán utilizados en la fase de análisis
A partir de estos coeficientessecalculan laspuntuacionesy posteriormente los residuos. Para
ver que si los residuos son bajos, usamos la matriz de covarianza de las puntuaciones (página
siguiente), que lo confirma al ser una matriz identidad. No contradice la anterior matriz de
correlaciones reproducidas pero nos dice que los residuos son pequeños y que el modelo se
puede dar por válido.
Matriz de covarianza de las puntuaciones de las componentesa
21
Componente 1
1 1,000
Método de extracción: Análisis de componentes principales.
Puntuaciones de componentes.
a. Sólo aquellos casos para los que Siniestros = 1, serán utilizados en la fase de análisis
Vamos a terminar con lainterpretación.Solo tenemos una componente principal muy
correlacionada con las tres variables, de manera positiva con edad y antigüedad del permiso y
negativamente con antigüedad en la compañía. Atendiendo a las correlaciones positivas
descritas parece lógico definirla como EXPERIENCIA DE CONDUCCIÓNpero no sabemos darle
significado a la correlación negativa que mantiene con antigüedad en la compañíaque tiene un
comportamientocontrarioal resto de variables y la componente principal.
Se puede añadir ya que en su momento no se ha indicado al no caer en ello que el modelo
genérico recoge el comportamiento de los clientes que no han tenido siniestros, seguramente
motivado porque los que sí los han tenido son muy pocos (un 0,73%) a pesar que tienen un
perfil mucho más concreto y diferenciado.
5. ANÁLISIS DE COMPONENTES PRINCIPALES PARA LOS CLIENTES QUE NO TIENEN
CONTRATADA LA GARANTÍA DE DAÑOS
Estadísticos descriptivosa
Media Desviación
típica
N del análisis
Edad 48,34 2,991 905
Antigüedad Permiso 19,43 1,986 905
Antigüedad en la compañía 13,99 ,637 905
a. Sólo aquellos casos para los que Garantía Daños = 0, serán utilizados en
la fase de análisis.
En los análisis iniciales disponíamos de 2469 observaciones y en este de 905, siendo una
primera observaciónla reduccióndel tamaño muestral. En la edad media hay una pequeña
disminución (antes 49,3), la antigüedad del permisose mantiene igual y la antigüedad en la
compañía es la variable que experimenta un mayor cambio, de poco más de un año y su
desviación que se reduce notablemente (en 1,7) cosa que nos dice que el intervalo en que se
mueven los datos es menor. El resto de desviaciones se mantienen. Después de esto podemos
ilustrar ante qué el tipo de cliente nos encontramos; de una edad media, con una prolongada
experiencia (en la media del resto de clientes en la antigüedad del permiso) y con una menor
antigüedad en la compañía que el promediorazón que habíamos apuntado que llevaba a no
contratar la garantía de daños porque puede que se premiea los clientes más antiguos con
mayores descuentos.
22
Matriz de correlacionesa,b
Edad Antigüedad
Permiso
Antigüedad en
la compañía
Correlación
Edad 1,000 ,969 ,243
Antigüedad Permiso ,969 1,000 ,094
Antigüedad en la compañía ,243 ,094 1,000
Sig. (Unilateral)
Edad ,000 ,000
Antigüedad Permiso ,000 ,002
Antigüedad en la compañía ,000 ,002
a. Sólo aquellos casos para los que Garantía Daños = 0, serán utilizados en la fase de análisis.
b. Determinante = ,037
De la matriz de correlacionespara determinar si los datos son adecuados vemos que hay dos
bajas. No obstante al observar el determinante de esta matriz, que nos indica la intensidad de
las correlaciones, y la significación de cada variable que son próximos a 0 parece que con
nuestros datos se puede continuar con el análisis.
KMO y prueba de Bartletta
Medida de adecuación muestral de Kaiser-Meyer-Olkin. ,373
Prueba de esfericidad de
Bartlett
Chi-cuadrado aproximado 2972,457
gl 3
Sig. ,000
a. Sólo aquellos casos para los que Garantía Daños = 0, serán utilizados
en la fase de análisis.
El KMO, que nos dice si para el conjunto de variables tenemos datos suficientes para el
conjunto de variables, es muy bajo y no sería recomendable proseguir. En la prueba de Bartlett
se rechaza la 𝐻0y tiene sentido continuar.
Matrices anti-imagena
Edad Antigüedad
Permiso
Antigüedad en
la compañía
Covarianza anti-imagen
Edad ,037 -,038 -,094
Antigüedad Permiso -,038 ,039 ,092
Antigüedad en la compañía -,094 ,092 ,613
Correlación anti-imagen
Edad ,427b
-,980 -,618
Antigüedad Permiso -,980 ,420b
,591
Antigüedad en la compañía -,618 ,591 ,085b
a. Sólo aquellos casos para los que Garantía Daños = 0, serán utilizados en la fase de análisis.
b. Medida de adecuación muestral
23
La matriz anti-imagen que utilizamos para comprobar la adecuación muestral de cada
variableno ofrece el resultado esperado, siendo los valores de la diagonal principal bajos y el
resto elevados, por tanto la medida de la muestra no es adecuada para el análisis.
Comunalidadesa
Inicial Extracción
Edad 1,000 ,990
Antigüedad Permiso 1,000 ,991
Antigüedad en la compañía 1,000 1,000
Método de extracción: Análisis de Componentes principales
a. Sólo aquellos casos para los que Garantía Daños = 0, serán utilizados en la fase de análisis
Las comunalidades nos proporcionan la proporción de la variabilidad explicada por la
componente principal retenida. Vemos que las variables edad y antigüedad permiso quedan
muy bien explicadas yantigüedad en la compañíatotalmente explicada al ser 1.Estos números
hacen prever que el modelo se adaptará muy bien a los datos.
Varianza total explicadaa
Componente Autovalores iniciales Sumas de las saturaciones al cuadrado de
la extracción
Total % de la varianza % acumulado Total % de la varianza % acumulado
1 2,025 67,502 67,502 2,025 67,502 67,502
2 ,956 31,859 99,361 ,956 31,859 99,361
3 ,019 ,639 100,000
Método de extracción: Análisis de Componentes principales.
a. Sólo aquellos casos para los que Garantía Daños = 0, serán utilizados en la fase de análisis.
El cuadro de varianza total explicada ofrece los valores de cada componente principal, el
porcentaje que explica cada uno de ellos y el acumulado. Hemos retenido los dos primeros
componentesy conseguimos explicar más de un 99 % de la varianza. Como el gráfico de
sedimentación es muy similar al del primero de los análisis y no muestra contundentemente el
número de variables a seleccionar no lo anexamos.
Matriz de componentesa,b
Componente
1 2
Edad ,992 -,082
Antigüedad Permiso ,968 -,233
Antigüedad en la compañía ,324 ,946
Método de extracción: Análisis de componentes principales
a. 2 componentes extraídos
b. Sólo aquellos casos para los que Garantía Daños = 0, serán utilizados en la fase de análisis
24
Esta matriz nos ofrece las correlaciones entre las componentes principales y las variables
originales. Vemos que se ajusta muy bien a los requisitos del análisis quedando representadas
las variables en solo en una componente principal, en la CP1 edad y antigüedad del permiso y
en la CP2 antigüedad delacompañíacomo nos ocurría en el modelo genérico con dos
componentes.
Correlaciones reproducidasa
Edad Antigüedad
Permiso
Antigüedad en
la compañía
Correlación reproducida
Edad ,990b
,979 ,244
Antigüedad Permiso ,979 ,991b
,093
Antigüedad en la compañía ,244 ,093 1,000b
Residualc
Edad -,009 -,001
Antigüedad Permiso -,009 ,001
Antigüedad en la compañía -,001 ,001
Método de extracción: Análisis de Componentes principales.
a. Sólo aquellos casos para los que Garantía Daños = 0, serán utilizados en la fase de análisis.
b. Comunalidades reproducidas
c. Los residuos se calculan entre las correlaciones observadas y reproducidas. Hay 0 (0,0%) residuales no
redundantes con valores absolutos mayores que 0,05.
Aquí tenemos las correlaciones tras estimar el modelo y también tenemos los residuos, que
son prácticamente nulos con un 0% que superan en valor absoluto 0,05 y va muy bien porque
el modelo se ajustará mejor a los datos.
Matriz de coeficientes para el cálculo de las puntuaciones en las
componentesa
Componente
1 2
Edad ,490 -,085
Antigüedad Permiso ,478 -,244
Antigüedad en la compañía ,160 ,990
Método de extracción: Análisis de componentes principales.
Puntuaciones de componentes.
a. Sólo aquellos casos para los que Garantía Daños = 0, serán
utilizados en la fase de análisis.
Matriz de covarianza de las puntuaciones de las
componentesa
Componente 1 2
1 1,000 ,000
2 ,000 1,000
Método de extracción: Análisis de componentes principales.
25
Puntuaciones de componentes
a. Sólo aquellos casos para los que Garantía Daños = 0, serán utilizados en la fase de análisis.
Para constatar que los residuos son bajos comprobamos los valores de la matriz de covarianza
de las puntuaciones que debe ser una matriz identidad, como se produce.
Vamos a terminar con lainterpretación,a partir de las correlaciones entre componentes
principalesy variables. Las relaciones permanecen inalteradas con respecto al modelo general
con dos componentes principales y no percibimos nuevos matices. Recordemos que CP1 la
habíamos designadoEXPERIENCIA DE CONDUCCIÓNy la CP2que podíamos asociar a la facilidad
de cambiarse de compañía (contiene solo la variable:antigüedad en la compañía).
6. ANÁLISIS DE COMPONENTES PRINCIPALES PARA LOS CLIENTES QUE NO TIENEN
CONTRATADA LA GARANTÍA DE DAÑOS
Estadísticos descriptivosa
Media Desviación
típica
N del análisis
Edad 50,03 3,062 1564
Antigüedad Permiso 19,47 2,022 1564
Antigüedad en la compañía 15,69 ,727 1564
a. Sólo aquellos casos para los que Garantía Daños = 1, serán utilizados en
la fase de análisis.
Pasamos de 2469 observacionesa 1564, unareducción de un 36,65%del tamaño muestral. Es
decir, de nuestros clientes un 36,65% no tienen contratada la garantía de daños frente a un
63,35% que si la tienen, resultando de mayor importancia el segundo grupo por su número.
Frente a quienes no disponían de esta cobertura, este conjunto tiene una edad en promedio
dos años más, la variable antigüedad del permiso se mantiene sin cambios y la antigüedad en
la compañía aumenta año y medio de media. Las desviaciones son muy semejantes entre
ambos grupos, y en relación al general también menos para la antigüedad en la compañíaque
se reduce.Este colectivo tiene de una edad media-alta, con una prolongada experiencia (en la
media del resto de clientes en la antigüedad del permiso) y con una elevadaantigüedad en la
compañía.
Los resultados obtenidos que sirven para comprobar que se cumplen los requisitos del análisis
de componentes principales – matriz de correlaciones, KMO y prueba de Bartlett, matriz
antiimagen,matriz de covarianza de las puntuaciones de las componentes (es la identidad)–son
análogos y constatan que podemos realizar el análisis aunque presentan problemas el KMO y
la matriz anti-imagen como viene repitiéndose en todos los casos. Por esto para no
extendernos en exceso vamos a presentar lo más destacado que es como resulta el modelo.
26
Comunalidadesa
Inicial Extracción
Edad 1,000 ,991
Antigüedad Permiso 1,000 ,991
Antigüedad en la compañía 1,000 1,000
Método de extracción: Análisis de Componentes
principales.
a. Sólo aquellos casos para los que Garantía Daños =
1, serán utilizados en la fase de análisis.
Vemos que todas las variables se explican muy bien, prácticamente en su totalidad como en
antigüedad en la compañía. En las correlaciones reproducidas se observa unaumento respecto
las iniciales y residuos muy bajos.
Varianza total explicadaa
Componente Autovalores iniciales Sumas de las saturaciones al cuadrado de
la extracción
Total % de la varianza % acumulado Total % de la varianza % acumulado
1 2,001 66,693 66,693 2,001 66,693 66,693
2 ,981 32,705 99,398 ,981 32,705 99,398
3 ,018 ,602 100,000
Método de extracción: Análisis de Componentes principales.
a. Sólo aquellos casos para los que Garantía Daños = 1, serán utilizados en la fase de análisis.
Matriz de componentesa,b
Componente
1 2
Edad ,995 -,036
Antigüedad Permiso ,967 -,237
Antigüedad en la compañía ,276 ,961
Método de extracción: Análisis de componentes
principales.
a. 2 componentes extraídos
b. Sólo aquellos casos para los que Garantía Daños
= 1, serán utilizados en la fase de análisis.
Vemos que en el modelo tenemos dos componentes principales que explican el 66% y el 32%
respectivamente, quedando justificada por el modelo más del 99% de la varianza. Hay que
prestar atención en que estos porcentajes casi iguales que los que nos han salido en el análisis
de toda la cartera. Y las correlaciones entre las variables y las componentes principales se
mantienen muy parecidas entre los clientes en general, y los grupos con y sin garantía de
daños contratada. Es lógico pues no introducir cambios en la interpretación de las
27
componentesy quedarnos con el significado que les habíamos dado en función de las
correlaciones. Ya habíamos comentado la CP1 como EXPERIENCIA DE CONDUCCIÓNpor su
correlación positiva muy elevada con edad y antigüedad del permiso. En cuanto a la CP2
recopila tan sólo una variable:antigüedad en la compañía, bastante independientedel resto,
con lo cual el significado que podríamos darle es que a pesar que las compañías tratan de
fidelizar la clientela es fácil cambiarse a otra, y los consumidores velan por sus intereses
quedándose con quien les ofrece mejores condiciones en su seguro de automóvil.
Para dar por terminada la práctica queremos comentar que esperábamos, quizás porque se
nos había pedido comparar todos los modelos, unos resultados más dispares que nos llevaran
a unasconclusiones más amplias, especialmente en la interpretación de las componentes
principales, evidentemente sin cambiar el fondo pero si añadiendo matices y nos hemos
encontrado con unas variaciones mínimas salvo en el caso de los asegurados que habían
tenido siniestros.

Más contenido relacionado

Destacado (20)

Malasia
MalasiaMalasia
Malasia
 
Manipulacion alimento Salud Publica
Manipulacion alimento Salud PublicaManipulacion alimento Salud Publica
Manipulacion alimento Salud Publica
 
Análisis factorial SPSS
Análisis factorial SPSSAnálisis factorial SPSS
Análisis factorial SPSS
 
Micronesia y Polinesia
Micronesia y PolinesiaMicronesia y Polinesia
Micronesia y Polinesia
 
Historia de la estadística en la antiguedad
Historia de la estadística en la antiguedadHistoria de la estadística en la antiguedad
Historia de la estadística en la antiguedad
 
Cultura polinesia
Cultura polinesiaCultura polinesia
Cultura polinesia
 
Turkmenistan by dmitriy jerebsov
Turkmenistan by dmitriy jerebsovTurkmenistan by dmitriy jerebsov
Turkmenistan by dmitriy jerebsov
 
Arquitectura Maya
Arquitectura MayaArquitectura Maya
Arquitectura Maya
 
7. tipos de alimentos
7.  tipos de alimentos7.  tipos de alimentos
7. tipos de alimentos
 
Comic Aztecas
Comic AztecasComic Aztecas
Comic Aztecas
 
austria
austriaaustria
austria
 
Los aztecas
Los aztecasLos aztecas
Los aztecas
 
Ingeniería de alimentos
Ingeniería de alimentosIngeniería de alimentos
Ingeniería de alimentos
 
Litio
LitioLitio
Litio
 
Pinturas murales mayas
Pinturas murales mayasPinturas murales mayas
Pinturas murales mayas
 
ARQUITECTURA EGIPCIA
ARQUITECTURA EGIPCIAARQUITECTURA EGIPCIA
ARQUITECTURA EGIPCIA
 
CIVILIZACIÓN AZTECA
CIVILIZACIÓN AZTECACIVILIZACIÓN AZTECA
CIVILIZACIÓN AZTECA
 
La Rueda De Los Alimentos
La Rueda De Los AlimentosLa Rueda De Los Alimentos
La Rueda De Los Alimentos
 
Brasil
BrasilBrasil
Brasil
 
El Imperio Azteca Diapo
El Imperio Azteca DiapoEl Imperio Azteca Diapo
El Imperio Azteca Diapo
 

Similar a Practica de estadística actuarial aplicad

la fabricación de pernos
la fabricación de pernos la fabricación de pernos
la fabricación de pernos Andrea Mtz Gomez
 
Ejemplo Weka Titanic
Ejemplo Weka TitanicEjemplo Weka Titanic
Ejemplo Weka TitanicCarlos Román
 
Análisis de la estructura salarial de una empresa análisis de regresión múltiple
Análisis de la estructura salarial de una empresa análisis de regresión múltipleAnálisis de la estructura salarial de una empresa análisis de regresión múltiple
Análisis de la estructura salarial de una empresa análisis de regresión múltipleSergio Rodríguez Fernández
 
estadistica en la produccion
estadistica en la produccionestadistica en la produccion
estadistica en la produccionMeeny Balderaass
 
Estadistica aplicada a la calidad: Evaluación del desempeño
Estadistica aplicada a la calidad: Evaluación del desempeñoEstadistica aplicada a la calidad: Evaluación del desempeño
Estadistica aplicada a la calidad: Evaluación del desempeñoEmilioVargasM
 
Intervalos de Confianza de Datos Apareados
Intervalos de Confianza de Datos ApareadosIntervalos de Confianza de Datos Apareados
Intervalos de Confianza de Datos ApareadosGladys Susana
 
Herramientas Cuantitativas_Parte 2.pptx
Herramientas Cuantitativas_Parte 2.pptxHerramientas Cuantitativas_Parte 2.pptx
Herramientas Cuantitativas_Parte 2.pptxHenry Pulgarin
 
Coeficiente de Amortiguamiento del Aire
Coeficiente de Amortiguamiento del Aire Coeficiente de Amortiguamiento del Aire
Coeficiente de Amortiguamiento del Aire Noe Limon
 
IntroduccióN Al Control De La ProduccióN
IntroduccióN Al Control De La ProduccióNIntroduccióN Al Control De La ProduccióN
IntroduccióN Al Control De La ProduccióNadfst
 
IntroduccióN Al Control De La ProduccióN
IntroduccióN Al Control De La ProduccióNIntroduccióN Al Control De La ProduccióN
IntroduccióN Al Control De La ProduccióNguest5e1760b
 
IntroduccióN Al Control De La ProduccióN
IntroduccióN Al Control De La ProduccióNIntroduccióN Al Control De La ProduccióN
IntroduccióN Al Control De La ProduccióNguest5e1760b
 
Aplicación de Histogramas y Correlación
Aplicación de Histogramas y CorrelaciónAplicación de Histogramas y Correlación
Aplicación de Histogramas y CorrelaciónIris Márquez
 
Qué puede aportar la econometría a mi estrategia de marketing online (parte 1)
Qué puede aportar la econometría a mi estrategia de marketing online (parte 1)Qué puede aportar la econometría a mi estrategia de marketing online (parte 1)
Qué puede aportar la econometría a mi estrategia de marketing online (parte 1)Álvaro Fierro
 
Practica Stata - Modelos Riesgo de Credito.pptx
Practica Stata - Modelos Riesgo de Credito.pptxPractica Stata - Modelos Riesgo de Credito.pptx
Practica Stata - Modelos Riesgo de Credito.pptxssuserc8ee7a
 
Estadistica aplicada a la calidad
Estadistica aplicada a la calidadEstadistica aplicada a la calidad
Estadistica aplicada a la calidaddannyconye
 
Semana 2 ejercicios cap 2
Semana 2 ejercicios cap 2Semana 2 ejercicios cap 2
Semana 2 ejercicios cap 2Juan Negrete
 

Similar a Practica de estadística actuarial aplicad (20)

la fabricación de pernos
la fabricación de pernos la fabricación de pernos
la fabricación de pernos
 
Ejemplo Weka Titanic
Ejemplo Weka TitanicEjemplo Weka Titanic
Ejemplo Weka Titanic
 
Análisis de la estructura salarial de una empresa análisis de regresión múltiple
Análisis de la estructura salarial de una empresa análisis de regresión múltipleAnálisis de la estructura salarial de una empresa análisis de regresión múltiple
Análisis de la estructura salarial de una empresa análisis de regresión múltiple
 
estadistica en la produccion
estadistica en la produccionestadistica en la produccion
estadistica en la produccion
 
Estadistica aplicada a la calidad: Evaluación del desempeño
Estadistica aplicada a la calidad: Evaluación del desempeñoEstadistica aplicada a la calidad: Evaluación del desempeño
Estadistica aplicada a la calidad: Evaluación del desempeño
 
Intervalos de Confianza de Datos Apareados
Intervalos de Confianza de Datos ApareadosIntervalos de Confianza de Datos Apareados
Intervalos de Confianza de Datos Apareados
 
Herramientas Cuantitativas_Parte 2.pptx
Herramientas Cuantitativas_Parte 2.pptxHerramientas Cuantitativas_Parte 2.pptx
Herramientas Cuantitativas_Parte 2.pptx
 
Coeficiente de Amortiguamiento del Aire
Coeficiente de Amortiguamiento del Aire Coeficiente de Amortiguamiento del Aire
Coeficiente de Amortiguamiento del Aire
 
Presentacion de mata ejercicio 5
Presentacion de mata ejercicio 5Presentacion de mata ejercicio 5
Presentacion de mata ejercicio 5
 
Kaggle Otto Group
Kaggle Otto GroupKaggle Otto Group
Kaggle Otto Group
 
IntroduccióN Al Control De La ProduccióN
IntroduccióN Al Control De La ProduccióNIntroduccióN Al Control De La ProduccióN
IntroduccióN Al Control De La ProduccióN
 
IntroduccióN Al Control De La ProduccióN
IntroduccióN Al Control De La ProduccióNIntroduccióN Al Control De La ProduccióN
IntroduccióN Al Control De La ProduccióN
 
IntroduccióN Al Control De La ProduccióN
IntroduccióN Al Control De La ProduccióNIntroduccióN Al Control De La ProduccióN
IntroduccióN Al Control De La ProduccióN
 
Aplicación de Histogramas y Correlación
Aplicación de Histogramas y CorrelaciónAplicación de Histogramas y Correlación
Aplicación de Histogramas y Correlación
 
Qué puede aportar la econometría a mi estrategia de marketing online (parte 1)
Qué puede aportar la econometría a mi estrategia de marketing online (parte 1)Qué puede aportar la econometría a mi estrategia de marketing online (parte 1)
Qué puede aportar la econometría a mi estrategia de marketing online (parte 1)
 
Practica Stata - Modelos Riesgo de Credito.pptx
Practica Stata - Modelos Riesgo de Credito.pptxPractica Stata - Modelos Riesgo de Credito.pptx
Practica Stata - Modelos Riesgo de Credito.pptx
 
Estadistica aplicada a la calidad
Estadistica aplicada a la calidadEstadistica aplicada a la calidad
Estadistica aplicada a la calidad
 
8 1
8 18 1
8 1
 
Semana 2 ejercicios cap 2
Semana 2 ejercicios cap 2Semana 2 ejercicios cap 2
Semana 2 ejercicios cap 2
 
Confiabilidad
ConfiabilidadConfiabilidad
Confiabilidad
 

Último

Sesión de aprendizaje Planifica Textos argumentativo.docx
Sesión de aprendizaje Planifica Textos argumentativo.docxSesión de aprendizaje Planifica Textos argumentativo.docx
Sesión de aprendizaje Planifica Textos argumentativo.docxMaritzaRetamozoVera
 
TECNOLOGÍA FARMACEUTICA OPERACIONES UNITARIAS.pptx
TECNOLOGÍA FARMACEUTICA OPERACIONES UNITARIAS.pptxTECNOLOGÍA FARMACEUTICA OPERACIONES UNITARIAS.pptx
TECNOLOGÍA FARMACEUTICA OPERACIONES UNITARIAS.pptxKarlaMassielMartinez
 
Informatica Generalidades - Conceptos Básicos
Informatica Generalidades - Conceptos BásicosInformatica Generalidades - Conceptos Básicos
Informatica Generalidades - Conceptos BásicosCesarFernandez937857
 
Caja de herramientas de inteligencia artificial para la academia y la investi...
Caja de herramientas de inteligencia artificial para la academia y la investi...Caja de herramientas de inteligencia artificial para la academia y la investi...
Caja de herramientas de inteligencia artificial para la academia y la investi...Lourdes Feria
 
UNIDAD DPCC. 2DO. DE SECUNDARIA DEL 2024
UNIDAD DPCC. 2DO. DE  SECUNDARIA DEL 2024UNIDAD DPCC. 2DO. DE  SECUNDARIA DEL 2024
UNIDAD DPCC. 2DO. DE SECUNDARIA DEL 2024AndreRiva2
 
cortes de luz abril 2024 en la provincia de tungurahua
cortes de luz abril 2024 en la provincia de tungurahuacortes de luz abril 2024 en la provincia de tungurahua
cortes de luz abril 2024 en la provincia de tungurahuaDANNYISAACCARVAJALGA
 
el CTE 6 DOCENTES 2 2023-2024abcdefghijoklmnñopqrstuvwxyz
el CTE 6 DOCENTES 2 2023-2024abcdefghijoklmnñopqrstuvwxyzel CTE 6 DOCENTES 2 2023-2024abcdefghijoklmnñopqrstuvwxyz
el CTE 6 DOCENTES 2 2023-2024abcdefghijoklmnñopqrstuvwxyzprofefilete
 
DE LAS OLIMPIADAS GRIEGAS A LAS DEL MUNDO MODERNO.ppt
DE LAS OLIMPIADAS GRIEGAS A LAS DEL MUNDO MODERNO.pptDE LAS OLIMPIADAS GRIEGAS A LAS DEL MUNDO MODERNO.ppt
DE LAS OLIMPIADAS GRIEGAS A LAS DEL MUNDO MODERNO.pptELENA GALLARDO PAÚLS
 
DECÁGOLO DEL GENERAL ELOY ALFARO DELGADO
DECÁGOLO DEL GENERAL ELOY ALFARO DELGADODECÁGOLO DEL GENERAL ELOY ALFARO DELGADO
DECÁGOLO DEL GENERAL ELOY ALFARO DELGADOJosé Luis Palma
 
La empresa sostenible: Principales Características, Barreras para su Avance y...
La empresa sostenible: Principales Características, Barreras para su Avance y...La empresa sostenible: Principales Características, Barreras para su Avance y...
La empresa sostenible: Principales Características, Barreras para su Avance y...JonathanCovena1
 
Plan Refuerzo Escolar 2024 para estudiantes con necesidades de Aprendizaje en...
Plan Refuerzo Escolar 2024 para estudiantes con necesidades de Aprendizaje en...Plan Refuerzo Escolar 2024 para estudiantes con necesidades de Aprendizaje en...
Plan Refuerzo Escolar 2024 para estudiantes con necesidades de Aprendizaje en...Carlos Muñoz
 
Clasificaciones, modalidades y tendencias de investigación educativa.
Clasificaciones, modalidades y tendencias de investigación educativa.Clasificaciones, modalidades y tendencias de investigación educativa.
Clasificaciones, modalidades y tendencias de investigación educativa.José Luis Palma
 
Manual - ABAS II completo 263 hojas .pdf
Manual - ABAS II completo 263 hojas .pdfManual - ABAS II completo 263 hojas .pdf
Manual - ABAS II completo 263 hojas .pdfMaryRotonda1
 
30-de-abril-plebiscito-1902_240420_104511.pdf
30-de-abril-plebiscito-1902_240420_104511.pdf30-de-abril-plebiscito-1902_240420_104511.pdf
30-de-abril-plebiscito-1902_240420_104511.pdfgimenanahuel
 
Identificación de componentes Hardware del PC
Identificación de componentes Hardware del PCIdentificación de componentes Hardware del PC
Identificación de componentes Hardware del PCCesarFernandez937857
 
SINTAXIS DE LA ORACIÓN SIMPLE 2023-2024.pptx
SINTAXIS DE LA ORACIÓN SIMPLE 2023-2024.pptxSINTAXIS DE LA ORACIÓN SIMPLE 2023-2024.pptx
SINTAXIS DE LA ORACIÓN SIMPLE 2023-2024.pptxlclcarmen
 
programa dia de las madres 10 de mayo para evento
programa dia de las madres 10 de mayo  para eventoprograma dia de las madres 10 de mayo  para evento
programa dia de las madres 10 de mayo para eventoDiegoMtsS
 

Último (20)

Unidad 3 | Metodología de la Investigación
Unidad 3 | Metodología de la InvestigaciónUnidad 3 | Metodología de la Investigación
Unidad 3 | Metodología de la Investigación
 
Sesión de aprendizaje Planifica Textos argumentativo.docx
Sesión de aprendizaje Planifica Textos argumentativo.docxSesión de aprendizaje Planifica Textos argumentativo.docx
Sesión de aprendizaje Planifica Textos argumentativo.docx
 
TECNOLOGÍA FARMACEUTICA OPERACIONES UNITARIAS.pptx
TECNOLOGÍA FARMACEUTICA OPERACIONES UNITARIAS.pptxTECNOLOGÍA FARMACEUTICA OPERACIONES UNITARIAS.pptx
TECNOLOGÍA FARMACEUTICA OPERACIONES UNITARIAS.pptx
 
Informatica Generalidades - Conceptos Básicos
Informatica Generalidades - Conceptos BásicosInformatica Generalidades - Conceptos Básicos
Informatica Generalidades - Conceptos Básicos
 
Caja de herramientas de inteligencia artificial para la academia y la investi...
Caja de herramientas de inteligencia artificial para la academia y la investi...Caja de herramientas de inteligencia artificial para la academia y la investi...
Caja de herramientas de inteligencia artificial para la academia y la investi...
 
UNIDAD DPCC. 2DO. DE SECUNDARIA DEL 2024
UNIDAD DPCC. 2DO. DE  SECUNDARIA DEL 2024UNIDAD DPCC. 2DO. DE  SECUNDARIA DEL 2024
UNIDAD DPCC. 2DO. DE SECUNDARIA DEL 2024
 
cortes de luz abril 2024 en la provincia de tungurahua
cortes de luz abril 2024 en la provincia de tungurahuacortes de luz abril 2024 en la provincia de tungurahua
cortes de luz abril 2024 en la provincia de tungurahua
 
el CTE 6 DOCENTES 2 2023-2024abcdefghijoklmnñopqrstuvwxyz
el CTE 6 DOCENTES 2 2023-2024abcdefghijoklmnñopqrstuvwxyzel CTE 6 DOCENTES 2 2023-2024abcdefghijoklmnñopqrstuvwxyz
el CTE 6 DOCENTES 2 2023-2024abcdefghijoklmnñopqrstuvwxyz
 
DE LAS OLIMPIADAS GRIEGAS A LAS DEL MUNDO MODERNO.ppt
DE LAS OLIMPIADAS GRIEGAS A LAS DEL MUNDO MODERNO.pptDE LAS OLIMPIADAS GRIEGAS A LAS DEL MUNDO MODERNO.ppt
DE LAS OLIMPIADAS GRIEGAS A LAS DEL MUNDO MODERNO.ppt
 
DECÁGOLO DEL GENERAL ELOY ALFARO DELGADO
DECÁGOLO DEL GENERAL ELOY ALFARO DELGADODECÁGOLO DEL GENERAL ELOY ALFARO DELGADO
DECÁGOLO DEL GENERAL ELOY ALFARO DELGADO
 
La empresa sostenible: Principales Características, Barreras para su Avance y...
La empresa sostenible: Principales Características, Barreras para su Avance y...La empresa sostenible: Principales Características, Barreras para su Avance y...
La empresa sostenible: Principales Características, Barreras para su Avance y...
 
Plan Refuerzo Escolar 2024 para estudiantes con necesidades de Aprendizaje en...
Plan Refuerzo Escolar 2024 para estudiantes con necesidades de Aprendizaje en...Plan Refuerzo Escolar 2024 para estudiantes con necesidades de Aprendizaje en...
Plan Refuerzo Escolar 2024 para estudiantes con necesidades de Aprendizaje en...
 
Sesión de clase: Defendamos la verdad.pdf
Sesión de clase: Defendamos la verdad.pdfSesión de clase: Defendamos la verdad.pdf
Sesión de clase: Defendamos la verdad.pdf
 
Clasificaciones, modalidades y tendencias de investigación educativa.
Clasificaciones, modalidades y tendencias de investigación educativa.Clasificaciones, modalidades y tendencias de investigación educativa.
Clasificaciones, modalidades y tendencias de investigación educativa.
 
Manual - ABAS II completo 263 hojas .pdf
Manual - ABAS II completo 263 hojas .pdfManual - ABAS II completo 263 hojas .pdf
Manual - ABAS II completo 263 hojas .pdf
 
30-de-abril-plebiscito-1902_240420_104511.pdf
30-de-abril-plebiscito-1902_240420_104511.pdf30-de-abril-plebiscito-1902_240420_104511.pdf
30-de-abril-plebiscito-1902_240420_104511.pdf
 
Identificación de componentes Hardware del PC
Identificación de componentes Hardware del PCIdentificación de componentes Hardware del PC
Identificación de componentes Hardware del PC
 
Repaso Pruebas CRECE PR 2024. Ciencia General
Repaso Pruebas CRECE PR 2024. Ciencia GeneralRepaso Pruebas CRECE PR 2024. Ciencia General
Repaso Pruebas CRECE PR 2024. Ciencia General
 
SINTAXIS DE LA ORACIÓN SIMPLE 2023-2024.pptx
SINTAXIS DE LA ORACIÓN SIMPLE 2023-2024.pptxSINTAXIS DE LA ORACIÓN SIMPLE 2023-2024.pptx
SINTAXIS DE LA ORACIÓN SIMPLE 2023-2024.pptx
 
programa dia de las madres 10 de mayo para evento
programa dia de las madres 10 de mayo  para eventoprograma dia de las madres 10 de mayo  para evento
programa dia de las madres 10 de mayo para evento
 

Practica de estadística actuarial aplicad

  • 1. 8 de noviembre de 2012 PRACTICA 1 ESTADÍSTICA ACTUARIAL APLICADA Ester Caparros Jane COMPONENTES PRINCIPALES APLICADO A UNA CARTERA DE SEGUROS DE AUTOS
  • 2. 1 En el presente trabajo se aborda el análisis e interpretación de una cartera de seguros de automóvil a través del uso del método de análisis de componentes principales(con el software SPSS) cuyo objetivo es explicar adecuadamente el comportamiento de la muestra con un menor número de variables que el original. Nuestra base de datos está compuesta por cinco variables, siendo tres de ellas cuantitativas– edad, antigüedad del permiso y antigüedad en la compañía, y las dos restantes – número de siniestros y garantía de daños – variables de control. Disponemos de 2.469 observaciones para cada una de las variables, número que con posterioridad comprobaremos si es adecuado o no para el análisis a realizar. En primer lugar como es conveniente conocer los datos de que disponemos vamos a utilizar los estadísticos descriptivosque nos proporcionan un resumen de ellos: Estadísticos descriptivos N Mínimo Máximo Media Desv. típ. Edad 2469 39 62 49,41 3,143 Antigüedad Permiso 2469 13 27 19,46 2,009 Antigüedad en la compañía 2469 12 18 15,07 1,074 N válido (según lista) 2469 Podemos observar que en la cartera no hay gente joven, dado que la edad mínima es de 39 años, y que los asegurados tienen muchos años de carnet de conducir y llevan también muchos años en la compañía, es decir, tengo una clientela estable y fidelizada (probablemente debido a la estrategia y la política comercial de la aseguradora). Otra herramienta útil que contribuye al mejor conocimiento de nuestra cartera son los gráficos, hemos realizado varios y nos ha parecido destacar dos de ellos por lo que aportan. u
  • 3. 2 Este primer gráfico nos muestra que los clientes que sufren siniestros son personas a partir de poco más de 55 años, una cierta edad, con muchos años de experiencia que se refleja en la antigüedad del permiso pero que pierden aptitudes para conducir dado que concentran la siniestralidad. Este hecho se puede observar a partir de otro gráfico con la edad en el eje de ordenadas y en el de abscisas la antigüedad en la compañía, que corrobora las conclusiones extraídas presentándose los siniestros para distintas antigüedades pero concentrados en edades superiores a los 55 años. Se adjunta el gráfico a continuación:
  • 4. 3 En el último de los gráficos podemos ver que los clientes con la garantía de daños contratada son aquellos con una antigüedad en la compañía de 15 años en adelante con un rango de edad muy amplio que va desde los 40 años a los 65. Creemos que esto se puede deber a que la compañía premia la fidelidad de sus clientes ofreciendo esta cobertura a un precio notablemente menor al de mercado. 1. ANÁLISIS DE COMPONENTES PRINCIPALES RETENIENDO ÚNICAMENTE EL PRIMERO Una vez examinado el perfil de los clientes vamos a realizar el análisis de componentes principales. Mediante el SPSS debemos seguir el siguiente procedimiento: ir a menú “Analizar”, luego a submenú “Reducción de dimensiones”,por último a “Factor”, aparece una ventana donde seleccionar las opciones y ejecutandoobtenemos los resultados. Matriz de correlacionesa Edad Antigüedad Permiso Antigüedad en la compañía Correlación Edad 1,000 ,934 ,348 Antigüedad Permiso ,934 1,000 ,045 Antigüedad en la compañía ,348 ,045 1,000 Sig. (Unilateral) Edad ,000 ,000 Antigüedad Permiso ,000 ,013 Antigüedad en la compañía ,000 ,013 a. Determinante = ,035 El primer paso es estudiar la matriz de correlaciones– se ha escogido esta en lugar de la matriz de covarianzas porque está tipificada – para determinar si los datos son adecuados para poder aplicar componentes principales. Para concluir que se puede seguir las correlaciones deben ser elevadas, como sucede entre las variables Edad y Antigüedad del Permiso en que es muy alta y aunque no sucede así con Antigüedad en la compañía al observar el determinante de esta matriz, que nos indica la intensidad de las correlaciones, y la significación de cada variable que son bastante próximos a 0 parece que con nuestros datos se puede continuar con el análisis de componentes principales y obtener un resultado correcto. KMO y prueba de Bartlett Medida de adecuación muestral de Kaiser-Meyer-Olkin. ,294 Prueba de esfericidad de Bartlett Chi-cuadrado aproximado 8296,011 Gl 3 Sig. ,000 El KMO, que nos dice si para el conjunto de variables tenemos datos suficientes para hacer el análisis, es muy bajo y al ser inferior a 0,5 no sería recomendable proseguir pero como no podemos disponer de más datos continuaremos.
  • 5. 4 La prueba de Bartlett efectúa un contraste con hipótesis nula que la matriz de correlaciones es una matriz identidad, afirmación que me interesa rechazar dado que si fuera una matriz identidad significaría que no hay correlaciones y aplicar el análisis de componentes principales no tendría ningún sentido. Bartlett es una observación muy similar al KMO pero a nivel individual, para cada variable. Como el nivel de significación es cero se rechaza la 𝐻0 que es lo que queríamos. Matricesanti-imagen Edad Antigüedad Permiso Antigüedad en la compañía Covarianza anti-imagen Edad ,035 -,036 -,083 Antigüedad Permiso -,036 ,039 ,086 Antigüedad en la compañía -,083 ,086 ,269 Correlación anti-imagen Edad ,370a -,980 -,855 Antigüedad Permiso -,980 ,346a ,833 Antigüedad en la compañía -,855 ,833 ,079a a. Medida de adecuación muestral La matriz anti-imagen presenta las covarianzas y coeficientes de correlación parciales y se utiliza para comprobar la adecuación muestral de cada variable. Los valores de la diagonal principal deberían ser próximos a 1 y los que no pertenecen a ella lo más bajos posibles. Podemos observar en la tabla superior que no sucede esto sino lo contrario, siendo los valores de la diagonal principal bajos y el resto elevados, por tanto la medida de la muestra no es adecuada para el análisis que estamos llevando a cabo y aunque proseguiremos con él al no ajustarse los datos a este requerimiento de los componentes principales los resultados que obtendremos no permitirán una buena interpretación. No hay una regla única para decidir el número de componentes principales a seleccionar para explicar las variables originalessino tres métodos, – elcriterio de la media aritmética nos dice que seleccionemos las componentes principales cuya raíz característica supere la media de las raíces características (este valor es la varianza de cada CP) y para las variables tipificadas, este valor es 1; el contraste sobre raíces no retenidas es un procedimiento que fija un número m de componentes a retener y contrasta que el resto no son significativos y por último el gráfico de sedimentación cortando en el punto en que la pendiente cambia de forma destacable– pero puede haber disparidad con lo cual decidiremos en función del número de variables iniciales (para reducirlas en la medida de lo posible) y la proporción de varianza explicada acumulada. El SPSS sigue el criterio de la media aritmética utilizando por defecto el valor 1 para discriminar los componentes principales que retiene de los que no, que conduce a quedarnos con un solo componente principal.
  • 6. 5 Comunalidades Inicial Extracción Edad 1,000 ,990 Antigüedad Permiso 1,000 ,875 Antigüedad en la compañía 1,000 ,147 Método de extracción: Análisis de Componentes principales. Las comunalidades nos proporcionan la proporción de la variabilidad explicada por la componente principal retenida. Vemos que las variables edad y antigüedad permiso quedan muy bien explicadas pero ya que están muy cercanas a 1 pero parece que CP1 no explica bien lo que sucede con antigüedad en la compañía ya que el valor es muy bajo. Varianza total explicada Componente Autovalores iniciales Sumas de las saturaciones al cuadrado de la extracción Total % de la varianza % acumulado Total % de la varianza % acumulado 1 2,011 67,048 67,048 2,011 67,048 67,048 2 ,971 32,362 99,409 3 ,018 ,591 100,000 Método de extracción: Análisis de Componentes principales.
  • 7. 6 El cuadro de varianza total explicada ofrece los valores de cada componente principal, el porcentaje que explica cada uno de ellos y el acumulado y hace igual para los componentes retenidos, en nuestro caso uno. Con el gráfico de sedimentación es difícil decidir el número de componentes ya que no se observa ningún cambio a remarcar en su pendiente. Puede parecer razonable quedarse con el primeropero no llega a explicar ni el 70% y creemos preferible quedarnos con los dos primeros, ya que con ellos se el 99 % de la varianza, ganando más de un 30%, y el valor de este segundo componente principal es muy cercano a 1. Vamos a finalizar el análisis utilizando un único componente principal para extraer conclusiones y tras esto realizaremos otro con dos componentes principales para ver que resultados nos proporciona y compararlos. Matriz de componentesa Componente 1 Edad ,995 Antigüedad Permiso ,935 Antigüedad en la compañía ,383 Método de extracción: Análisis de componentes principales a. 1 componentes extraídos Esta matriz nos ofrece las correlaciones entre las componentes principales y las variables originales. Cuanto mayores sean mejor, con un coeficiente mínimo para considerarse correcto de 0,60. Esto se cumple para dos de las tres variables, edad y antigüedad del permiso, que además están muy correlacionadas con el CP1, siendo sus valores muy próximos a 1. En el caso de antigüedad en la compañía vemos que no queda demasiado explicada, el coeficiente de correlación es bajo pero no lo suficiente para eliminar la variable (si la correlación fuera muy baja). A partir de estos valores podemos calcular el autovalor del CP1 sumando sus cuadrados. Correlaciones reproducidas Edad Antigüedad Permiso Antigüedad en la compañía Correlación reproducida Edad ,990a ,930 ,381 Antigüedad Permiso ,930 ,875a ,358 Antigüedad en la compañía ,381 ,358 ,147a Residualb Edad ,003 -,034 Antigüedad Permiso ,003 -,314 Antigüedad en la compañía -,034 -,314 Método de extracción: Análisis de Componentes principales. a. Comunalidades reproducidas b. Los residuos se calculan entre las correlaciones observadas y reproducidas. Hay 1 (33,0%) residuales no redundantes con valores absolutos mayores que 0,05.
  • 8. 7 Matriz de coeficientes para el cálculo de las puntuaciones en las componentes Componente 1 Edad ,495 Antigüedad Permiso ,465 Antigüedad en la compañía ,191 Método de extracción: Análisis de componentes principales. Puntuaciones de componentes. A partir de estos coeficientes elSPSScalcula las estimaciones del componente principal 1 para cada individuo a partir del modelo (se debe sumar el producto de cada variable por su coeficiente), llamadaspuntuaciones y podemos guardarlas como una nueva variable. Pero lo que realmente nos interesa de laspuntuaciones es que permiten comparar los valores reales con los estimados y obtener los residuos que esperamos sean lo más bajos posibles ya que de este modo el modelo serámuy cercano a los datos, y los explicará bien. Para verificar que los residuos son bajos utilizamos la matriz de covarianza de las puntuaciones (bajo estas líneas), que para confirmar esto y por tanto la validez del modelo debe ser una matriz identidad. Al haber un solo componente principal es muy sencillo comprobar que se cumple. Matriz de covarianza de las puntuaciones de las componentes Componente 1 1 1,000 Método de extracción: Análisis de componentes principales. Puntuaciones de componentes. Finalmente, solo nos queda la interpretación de las componentes principales.La problemática de la interpretación es, nada más y nada menos, tratar de asignar un significado inteligible y útil a las componentes principales obtenidas.Para ello se recurre a examinar la relación existente entre las componentes principales y las variables originales (u otras auxiliares), para por medio de esta relación tratar de darles un contenido a su significado. Hay que tener en cuenta que la interpretación tiene un sentido cuando solo elegimos las primeras componentes, –asociada a la proporción de varianza acumulada–, y entonces corresponde buscar la interpretación de estos primeros componentes seleccionados. Lo que nos ayudará a interpretar las componentes principales son las correlaciones de cada componente principal con cada variable, que aparecen en la matriz de componentes(se puede consultar en la página 6). En este caso, tal como se ha visto, CP1 tiene una correlación positiva muy alta (casi 1) con edad y antigüedad del permisocon lo cual podríamos interpretarla como
  • 9. 8 EXPERIENCIA DE CONDUCCIÓN atendiendo aque hay establecida por ley una edad mínima para obtener el permiso conducir y en gran medida la gente se saca el carnet en torno a esta edad, resultandoun aumento de ambas variables a la par en términos absolutos a partir del momento de obtención del permiso que se traduce en la experiencia adquirida.En cuanto a la antigüedad en la compañía la correlación es baja (0,38), implicando que explica poco de esta. Ya hemos terminado con este análisis de componentes principales reteniendo solo uno y como se ha comentado seguidamente procederemos a elaborar un nuevo análisis quedándonos con los dos primeros componentes principales y compararemos los resultados obtenidos.La metodología a seguir será la misma que en el primer caso, lo único que haremos es cambiar en el SPSS el valor 1 por 0,95del criterio de la media aritmética para que el programa seleccione los dos primeros componentes principales en lugar de uno y posteriormente explicaremos la solución obtenida y nos fijaremos en que difiere con la anterior. 2. ANÁLISIS DE COMPONENTES PRINCIPALES RETENIENDO LOS DOS PRIMEROS Al tratar con los mismos datos, los estadísticos descriptivos se mantienen inalterados y en consecuencia el perfil de los clientes tampoco varía, recordemos los rasgos básicos: personas de mediana edad con muchos años de permiso y en la compañía– clientela estable y fidelizada –; con los siniestros concentrados a partir de los 55 años y la cobertura de la garantía de daños contratada son aquellos con una antigüedad en la compañía de 15 años en adelante con un rango de edad amplio – de 40 a 65años –. También permanecen sin cambios la matriz de correlaciones, la cual indicaba que eran buenas para continuar; el KMO, la prueba de Bartlett y la matriz anti-imagenqueapuntanno proseguir ya que la muestra no era adecuada) y el gráfico de sedimentaciónrespecto al cual solo cambiamos el punto de corte, de 1 a 0,95 para observar que entonces pasamos de retener un componente principal a dos.
  • 10. 9 Comunalidades Inicial Extracción Extracción con CP1 Edad 1,000 ,991 ,990 Antigüedad Permiso 1,000 ,992 ,875 Antigüedad en la compañía 1,000 ,999 ,147 Método de extracción: Análisis de Componentes principales. Columna a la derecha para mejorar la comparación A partir de las comunalidades vemos que las tres variables que tenemos quedan muy bien explicadas (muy cercanas a 1) y con respecto al primero de los análisis aumenta la extracción, es decir, la proporción de la variabilidad explicada por las componentes principales retenidas, especialmente para antigüedad en la compañía que prácticamente no tenía peso en el modelo – con un coeficiente de 0,147 – y ahora está perfectamente recogida. Varianza total explicada Componente Autovalores iniciales Sumas de las saturaciones al cuadrado de la extracción Total % de la varianza % acumulado Total % de la varianza % acumulado 1 2,011 67,048 67,048 2,011 67,048 67,048 2 ,971 32,362 99,409 ,971 32,362 99,409 3 ,018 ,591 100,000 Método de extracción: Análisis de Componentes principales. El cuadro de la varianza total explicada ofrece los valores de cada componente principal, el porcentaje que explica cada uno de ellos y el acumulado y hace igual para los componentes retenidos, ahora dosen vez de uno . Nos inclinamos por utilizar dos componentes, puesto que pasamos del 67 al 99 % de la varianza, ganando más de un 30% y cabe añadir que con un único componente había una de las variables que quedaba sin explicar y ahora queda completamente contenida argumentos suficientes para justificar esta decisión. Matriz de componentesa Componente 1 2 Edad ,995 -,033 Antigüedad Permiso ,935 -,343 Antigüedad en la compañía ,383 ,923 Método de extracción: Análisis de componentes principales. a. 2 componentes extraídos
  • 11. 10 En esta matriz tenemos las correlaciones entre las componentes principales y las variables originales, las cuales deben ser cuanto más altas mejor(coeficiente mínimo de 0,60) pero solo de una variable con una componente, debido a que cada variable tiene que estar representada solo en una componente, - que quede representado se consigue por medio de una correlación alta – . Como se aprecia en la tabla, se satisface para las tres variables, con correlaciones muy cercanas a 1, y quedan muy bien explicadas, por la componente 1, edad y antigüedad permiso y por la componente 2, antigüedad en la compañía. Correlaciones reproducidas Edad Antigüedad Permiso Antigüedad en la compañía Correlación reproducida Edad ,991a ,942 ,350 Antigüedad Permiso ,942 ,992a ,042 Antigüedad en la compañía ,350 ,042 ,999a Residualb Edad -,008 -,003 Antigüedad Permiso -,008 ,003 Antigüedad en la compañía -,003 ,003 Método de extracción: Análisis de Componentes principales. a. Comunalidades reproducidas b. Los residuos se calculan entre las correlaciones observadas y reproducidas. Hay 0 (0,0%) residuales no redundantes con valores absolutos mayores que 0,05. Sobre estas líneas tenemos las correlaciones tras estimar el modelo, apareciendo las comunalidades en la diagonal principal y también tenemos los residuos, los cuales es deseable que sean bajos ya que de este modo el modelo se acerca más a los datos. Mientras que son prácticamente nulos y con un 0% que superan en valor absoluto 0,05si vamos a la página 6, donde tenemos la misma tabla para el modelo con un componente principal, se puede apreciar claramenteque los residuos son superiores. En este sentido vemos evidente que el modelo con dos componentes principales es mejor que el que tenía una. Matriz de coeficientes para el cálculo de las puntuaciones en las componentes Componente 1 2 Edad ,495 -,034 Antigüedad Permiso ,465 -,353 Antigüedad en la compañía ,191 ,951 Método de extracción: Análisis de componentes principales. Puntuaciones de componentes
  • 12. 11 A partir de estos coeficientes elSPSScalcula las estimaciones delas componentes principales 1 y 2 para cada individuo a partir del modelo–puntuaciones– que permitirán comparar los valores reales con los estimados y obtener los residuos. Para constatar que los residuos son bajos, además de la matriz de correlaciones reproducidas que incorpora los residuos,manejamos la matriz de covarianza de las puntuaciones (bajo estas líneas), que para confirmar esto y por tanto la validez del modelo debe ser una matriz identidad, que vemos se cumple. Matriz de covarianza de las puntuaciones de las componentes Componente 1 2 1 1,000 ,000 2 ,000 1,000 Método de extracción: Análisis de componentes principales. Puntuaciones de componentes Para terminar con el análisis falta algo fundamental: lainterpretación de las componentes principales, o sea, tratar de darles un contenido a su significado.Lo hacemos a partir de las correlaciones entre componentes principalesy variables, en lamatriz de componentes(en la página 9). Ya habíamos comentado la CP1 como EXPERIENCIA DE CONDUCCIÓNpor su correlación positiva muy elevadacon edad y antigüedad del permiso. En cuanto a la CP2 recopila tan sólo una variable:antigüedad en la compañía, bastante independientedel resto,con lo cual el significado que podríamos darle es que a pesar que las compañías tratan de fidelizar la clientela es fácil cambiarse a otra, y los consumidores velan por sus intereses quedándose con quien les ofrece mejores condiciones en su seguro de automóvil. A partir del desarrollo de las componentes principales, los gráficos iniciales, que replicamos bajo estas líneas, y un gráfico adicional con las componentes principales en los ejes vamos a ilustrar la relación que tienen con las variables de control siniestros y garantía de daños. u
  • 13. 12 Hemos creado un gráfico de dispersión con las dos componentes principales con la variable siniestros. Para que salganlos valors de las componentes principales y poder crear el gráfico, previamente, al estimar el modelo, hemos hecho que nos guarde los valores de la estimaciónhecha por regresión. A nuestro juicio la variable siniestros estará bastante acoplada con la componente principal 1, de acuerdo con la definición de “experiencia de conducción”, que compilaba a edad y antigüedad del permisovisto que el gráfico a la izquierda muestra que los clientes a partir de unos 55 años (una cierta edadque conlleva muchos años de experiencia, asociada esta última conla antigüedad del permiso) son quienestienen siniestros.Si nos fijamos en el gráfico superior de la página anterior, nos lleva a la misma conclusión dado que los siniestros se concentran en la franja de 2 a 4 de la componente 1. Con respecto a la componente principal 2, que reúne sólo la variable antigüedad en la compañía, opinamos que se ajustará con la garantía de dañospuesto que del gráfico de la derecha se desprende que los clientes con la garantía de daños contratada son aquellos con una antigüedad en la compañía de 15 años en adelante con un rango de edad muy amplio que va desde los 40 años a los 65. Ahora vamos a realizar el análisis teniendo en cuenta las variables de control siniestros y garantía de daños para observar si existen diferencias. Lo haremos dejando el corte de la media aritmética en 0,95 que es un valor cercano a uno para que en principio retengamos dos componentes ya que los resultados obtenidos hasta aquí han sido claramente mejores condos.De este análisis resultarán cuatro modelos más.
  • 14. 13 3. ANÁLISIS DE COMPONENTES PRINCIPALES PARA LOS CLIENTES QUE NO HAN TENIDO SINIESTROS Aunque nuestra base de datos es la misma en todo a partir de este momento vamos a utilizar datos distintos en cada supuesto y por este motivo además de realizar el análisis vamos a volver a calcular los estadísticos descriptivos para advertir los cambios en el perfil de los consumidores. Estadísticos descriptivosa Media Desviación típica N del análisis Edad 49,35 3,067 2451 Antigüedad Permiso 19,42 1,969 2451 Antigüedad en la compañía 15,06 1,069 2451 a. Sólo aquellos casos para los que Siniestros = 0, serán utilizados en la fase de análisis. En los análisis anteriores en que no distinguíamos entre quienes habían tenido siniestros de los que no disponíamos de 2469 observaciones, siendo una primera nota a realizar que el tamaño muestral se ha reducido muy poco, consecuencia de una baja siniestralidad. También podemos ver que los intervalos y las medias se mantienen prácticamente iguales, así como las desviaciones típicas, aunque parece que se reducen algo. De esto se deduce que los resultados que obtengamos deben ser similares a los del análisis general. Matriz de correlacionesa,b Edad Antigüedad Permiso Antigüedad en la compañía Correlación Edad 1,000 ,931 ,336 Antigüedad Permiso ,931 1,000 ,027 Antigüedad en la compañía ,336 ,027 1,000 Sig. (Unilateral) Edad ,000 ,000 Antigüedad Permiso ,000 ,092 Antigüedad en la compañía ,000 ,092 a. Sólo aquellos casos para los que Siniestros = 0, serán utilizados en la fase de análisis. b. Determinante = ,036 Al estudiar la matriz de correlacionespara determinar si los datos son adecuados para poder aplicar componentes principales se puede ver que los resultados son muy similares a la del primer ensayo. Concluimos que se puede seguir porque las correlaciones son elevadas, a pesar que no sucede en Antigüedad en la compañía, por esto reparamos en el determinante de esta matriz, que indica la intensidad de las correlaciones y la significación de cada variable que son bastante próximos a 0, por ello se puede continuar con el análisis de componentes principales y en principio obtener unos buenos resultados.
  • 15. 14 KMO y prueba de Bartletta Medida de adecuación muestral de Kaiser-Meyer-Olkin. ,292 Prueba de esfericidad de Bartlett Chi-cuadrado aproximado 8118,514 gl 3 Sig. ,000 a. Sólo aquellos casos para los que Siniestros = 0, serán utilizados en la fase de análisis. El KMO, que nos dice si para el conjunto de variables tenemos datos suficientes para el conjunto de variables, es muy bajo y no sería recomendable proseguir. La prueba de Bartlett efectúa un contraste con hipótesis nula que la matriz de correlaciones es una matriz identidad, implicando que no hay correlaciones. Como el nivel de significación es cero se rechaza la 𝐻0 que es lo que queríamosy tiene sentido aplicar el análisis de componentes principales. Matrices anti-imagena Edad Antigüedad Permiso Antigüedad en la compañía Covarianza anti-imagen Edad ,036 -,038 -,085 Antigüedad Permiso -,038 ,041 ,088 Antigüedad en la compañía -,085 ,088 ,272 Correlación anti-imagen Edad ,367b -,979 -,853 Antigüedad Permiso -,979 ,344b ,832 Antigüedad en la compañía -,853 ,832 ,074b a. Sólo aquellos casos para los que Siniestros = 0, serán utilizados en la fase de análisis. b. Medida de adecuación muestral La matriz anti-imagen, que presenta las covarianzas y coeficientes de correlación parciales y se utiliza para comprobar la adecuación muestral de cada variable. Los valores incrementan de forma muy suave pero la diagonal principal sigue con valores bajos, cuando deberían ser próximos a 1 y los que no pertenecen a ella lo más bajos posibles. Esto no es adecuado para el análisis y afectará a los resultados. Comunalidadesa Inicial Extracción Edad 1,000 ,991 Antigüedad Permiso 1,000 ,992 Antigüedad en la compañía 1,000 ,999 Método de extracción: Análisis de Componentes principales. a. Sólo aquellos casos para los que Siniestros = 0, serán utilizados en la fase de análisis. A partir de las comunalidades vemos que las tres variables que tenemos quedan muy bien explicadas (casi 1).
  • 16. 15 Varianza total explicadaa Componente Autovalores iniciales Sumas de las saturaciones al cuadrado de la extracción Total % de la varianza % acumulado Total % de la varianza % acumulado 1 1,999 66,622 66,622 1,999 66,622 66,622 2 ,983 32,762 99,384 ,983 32,762 99,384 3 ,018 ,616 100,000 Método de extracción: Análisis de Componentes principales. a. Sólo aquellos casos para los que Siniestros = 0, serán utilizados en la fase de análisis. El cuadro de la varianzatotal explicada ofrece pocas variaciones en relación al análisis genérico, con una disminución muy leve en los % de la varianza y en el autovalor de la componente 1 y un ligero aumento en la 2. Utilizaremos dos componentes, ya que el modelo se ajusta mejor y todas las variables resultan explicar, como se ha visto. Matriz de componentesa,b Componente 1 2 Edad ,995 -,021 AntigüedadPermiso ,937 -,336 Antigüedad en la compañía ,360 ,932 Método de extracción: Análisis de componentesprincipales a. 2 componentesextraídos b. Sóloaquellos casos para los que Siniestros = 0, seránutilizados en la fase de análisis En la tabla podemos reparar en quelas correlaciones entre las componentes principales y las variables originales sonmuy cercanas a 1en una componente para cada variable, recogiéndose todas muy bien en el modelo. Correlaciones reproducidasa Edad AntigüedadPer miso Antigüedad en la compañía Correlaciónreproducida Edad ,991b ,940 ,339 AntigüedadPermiso ,940 ,992b ,024 Antigüedad en la compañía ,339 ,024 ,999b Residualc Edad -,009 -,003 AntigüedadPermiso -,009 ,003 Antigüedad en la compañía -,003 ,003 Método de extracción: Análisis de Componentes principales. a. Sóloaquellos casos para los que Siniestros = 0, seránutilizados en la fase de análisis. b. Comunalidadesreproducidas
  • 17. 16 c. Los residuos se calculan entre las correlaciones observadas y reproducidas. Hay 0 (0,0%) residuales no redundantes con valores absolutosmayores que 0,05. Lo más relevante de esta matriz son los residuos, los cuales cumplen la propiedad de ser bajos y por tanto el modelo se acerca en gran medida a los datos. Matriz de coeficientes para el cálculo de las puntuaciones en las componentesa Componente 1 2 Edad ,498 -,021 Antigüedad Permiso ,469 -,342 Antigüedad en la compañía ,180 ,949 Método de extracción: Análisis de componentes principales Puntuaciones de componentes a. Sólo aquellos casos para los que Siniestros = 0, serán utilizados en la fase de análisis A partir de estos coeficientes elSPSScalcula las estimaciones de las componentes principales 1 y 2 para cada individuo a partir del modelo –puntuaciones– que permitirán obtener los residuos. Para ver que si los residuos son bajos, usamos la matriz de covarianza de las puntuaciones (página siguiente), que lo confirmaal ser una matriz identidad. Matriz de covarianza de las puntuaciones de las componentesa Componente 1 2 1 1,000 ,000 2 ,000 1,000 Método de extracción: Análisis de componentes principales. Puntuaciones de componentes. a. Sólo aquellos casos para los que Siniestros = 0, serán utilizados en la fase de análisis Finalizaremos con lainterpretación de las componentes principales.Pero basándonos en la gran similitud de los resultados no percibimos que añada algún hecho relevante y por tanto nos quedaremos con la interpretación ya desarrollada, calificando la CP1 como EXPERIENCIA DE CONDUCCIÓNpor su correlación positiva muy elevada con edad y antigüedad del permiso,y la CP2 recopila tan sólo una variable:antigüedad en la compañía, bastante independientedel resto, con lo cual el significado que podríamos darle es la relativa facilidad para cambiar de compañía.
  • 18. 17 4. ANÁLISIS DE COMPONENTES PRINCIPALES PARA LOS CLIENTES QUE HAN TENIDO SINIESTROS Estadísticos descriptivosa Media Desviación típica N del análisis Edad 57,89 1,323 18 Antigüedad Permiso 24,33 1,283 18 Antigüedad en la compañía 16,39 ,979 18 a. Sólo aquellos casos para los que Siniestros = 1, serán utilizados en la fase de análisis. En los análisis iniciales en que no distinguíamos entre quienes habían tenido siniestros de los que no disponíamos de 2469 observaciones, siendo una primera nota a realizar que el tamaño muestral se ha reducido mucho, al haber unasiniestralidad baja. Cabe destacarel incremento en la edad media que pasa de los 49 a casi 58 años, con una desviación que se reduce notablemente (en 1,7) cosa que quiere decir que el intervalo de la edad es menor (menor variabilidad). También señalar el incremento la antigüedad del permiso de prácticamente 5 años y un menor aumento enla antigüedad del permiso (de 1,39) en términos medios. Las desviaciones típicas se reducen especialmente en la edad y en menor medida pero a tener en cuenta en la antigüedad del permiso. Tras este breve examen vemos que el perfil de cliente cambia respecto al genérico: son pocos, de una edad media pero ya tendiendo a mayores, y por tanto con una mayor antigüedad del permiso, y con una mayor antigüedad en la compañía y es de esperar que los resultados sean distintos. Matriz de correlacionesa,b Edad Antigüedad Permiso Antigüedad en la compañía Correlación Edad 1,000 ,750 -,328 Antigüedad Permiso ,750 1,000 -,812 Antigüedad en la compañía -,328 -,812 1,000 Sig. (Unilateral) Edad ,000 ,092 Antigüedad Permiso ,000 ,000 Antigüedad en la compañía ,092 ,000 a. Sólo aquellos casos para los que Siniestros = 1, serán utilizados en la fase de análisis. b. Determinante = ,036 De la matriz de correlacionespara determinar si los datos son adecuados se pueden apreciar los cambios. La correlación de Antigüedad en la compañía con Antigüedad permiso que era muy baja ha crecido de manera muy importante (antes 0,027) y por tanto es bueno para nuestro análisis. Concluimos que se puede seguir, si bienaun hay una correlación un poco baja entreAntigüedad en la compañíay edad (aproximadamente no varía).
  • 19. 18 KMO y prueba de Bartletta Medida de adecuación muestral de Kaiser-Meyer-Olkin. ,385 Prueba de esfericidad de Bartlett 40,362 8118,514 3 3 ,000 ,000 a. Sólo aquellos casos para los que Siniestros = 1, serán utilizados en la fase de análisis. El KMO, que nos dice si para el conjunto de variables tenemos datos suficientes para el conjunto de variables, es muy bajo (aunque sufre un aumento de aproximadamente un 0,1) y no sería recomendable proseguir. En la prueba de Bartlett como el nivel de significación es cero se rechaza la 𝐻0y tiene sentido continuar el análisis. Matrices anti-imagena Edad Antigüedad Permiso Antigüedad en la compañía Covarianza anti-imagen Edad ,205 -,111 -,132 Antigüedad Permiso -,111 ,078 ,101 Antigüedad en la compañía -,132 ,101 ,160 Correlación anti-imagen Edad ,340b -,878 -,729 Antigüedad Permiso -,878 ,434b ,906 Antigüedad en la compañía -,729 ,906 ,362b a. Sólo aquellos casos para los que Siniestros = 1, serán utilizados en la fase de análisis. b. Medida de adecuación muestral La matriz anti-imagen, que presenta las covarianzas y coeficientes de correlación parciales y se utiliza para comprobar la adecuación muestral de cada variable. Los valores de la diagonal principal aumentan pero no lo suficiente, dado que deberían ser próximos a 1 y los que no pertenecen a ella lo más bajos posibles – parece que se reducen –. No es adecuado para el análisis. Comunalidadesa Inicial Extracción Edad 1,000 ,623 Antigüedad Permiso 1,000 ,973 Antigüedad en la compañía 1,000 ,684 Método de extracción: Análisis de Componentes principales. a. Sólo aquellos casos para los que Siniestros = 1, serán utilizados en la fase de análisis. A partir de las comunalidades vemos que las tres variables que tenemos quedan explicadas; sin embargo hay que advertir que la proporción de la variabilidad explicada ha tenido un claro descenso en las variables edad y antigüedad en la compañía, pasando de prácticamente 1 a 0,6.
  • 20. 19 Varianza total explicadaa Componente Autovalores iniciales Sumas de las saturaciones al cuadrado de la extracción Total % de la varianza % acumulado Total % de la varianza % acumulado 1 2,281 76,044 76,044 2,281 76,044 76,044 2 ,673 22,440 98,484 3 ,045 1,516 100,000 Método de extracción: Análisis de Componentes principales. a. Sólo aquellos casos para los que Siniestros = 1, serán utilizados en la fase de análisis. El cuadro de la varianzatotal explicada ofrece una información interesante: que hemos retenido únicamente el primer componente principal. Parece una buena elección puesto a que explica un 76%, cercano al 80, y el autovalor del segundo es bastante inferior a 1. Al comparar con el anterior análisis se aprecian diferencias sustanciales: cambia el número de componentes de dos a uno, explicando este CP1 un 10% más que antes y hay una mayor reducción de variables que es de lo que trata el análisis de componentes principales. No obstante al pasar de dos a uno el modelo pierde información y no reflejará con la misma precisiónlos datos. Para este caso hemosadjuntado el gráfico de sedimentaciónya que el cambio que experimenta la pendiente y que nos indica el número de componentes a reteneres muy visible. Matriz de componentesa,b Componente 1 Edad ,790 Antigüedad Permiso ,987 Antigüedad en la compañía -,827
  • 21. 20 Método de extracción: Análisis de componentesprincipales a. 2 componentesextraídos b. Sóloaquellos casos para los que Siniestros = 1, seránutilizados en la fase de análisis En la tabla podemos reparar en que las correlaciones entre las componentes principales y las variables originales son muy cercanas a 1en valor absoluto, recogiéndose todas muy bien en el modelo. Correlaciones reproducidasa Edad Antigüedad Permiso Antigüedad en la compañía Correlación reproducida Edad ,623b ,779 -,653 Antigüedad Permiso ,779 ,973b -,816 Antigüedad en la compañía -,653 -,816 ,684b Residualc Edad -,029 ,325 Antigüedad Permiso -,029 ,004 Antigüedad en la compañía ,325 ,004 Método de extracción: Análisis de Componentes principales. a. Sólo aquellos casos para los que Siniestros = 0, serán utilizados en la fase de análisis. b. Comunalidades reproducidas c. Los residuos se calculan entre las correlaciones observadas y reproducidas. Hay 1 (33,0%) residuales no redundantes con valores absolutos mayores que 0,05. Lo más relevante de esta matriz son los residuos, los cuales queremos que seanbajos pero tenemos que un 33% de ellos son mayores de 0,05, debido a la menor exactitud al tener un solo componente principal (cuando teníamos dos eran 0). Matriz de coeficientes para el cálculo de las puntuaciones en las componentesa Componente 1 Edad ,346 Antigüedad Permiso ,432 Antigüedad en la compañía -,363 Método de extracción: Análisis de componentes principales Puntuaciones de componentes a. Sólo aquellos casos para los que Siniestros = 1, serán utilizados en la fase de análisis A partir de estos coeficientessecalculan laspuntuacionesy posteriormente los residuos. Para ver que si los residuos son bajos, usamos la matriz de covarianza de las puntuaciones (página siguiente), que lo confirma al ser una matriz identidad. No contradice la anterior matriz de correlaciones reproducidas pero nos dice que los residuos son pequeños y que el modelo se puede dar por válido. Matriz de covarianza de las puntuaciones de las componentesa
  • 22. 21 Componente 1 1 1,000 Método de extracción: Análisis de componentes principales. Puntuaciones de componentes. a. Sólo aquellos casos para los que Siniestros = 1, serán utilizados en la fase de análisis Vamos a terminar con lainterpretación.Solo tenemos una componente principal muy correlacionada con las tres variables, de manera positiva con edad y antigüedad del permiso y negativamente con antigüedad en la compañía. Atendiendo a las correlaciones positivas descritas parece lógico definirla como EXPERIENCIA DE CONDUCCIÓNpero no sabemos darle significado a la correlación negativa que mantiene con antigüedad en la compañíaque tiene un comportamientocontrarioal resto de variables y la componente principal. Se puede añadir ya que en su momento no se ha indicado al no caer en ello que el modelo genérico recoge el comportamiento de los clientes que no han tenido siniestros, seguramente motivado porque los que sí los han tenido son muy pocos (un 0,73%) a pesar que tienen un perfil mucho más concreto y diferenciado. 5. ANÁLISIS DE COMPONENTES PRINCIPALES PARA LOS CLIENTES QUE NO TIENEN CONTRATADA LA GARANTÍA DE DAÑOS Estadísticos descriptivosa Media Desviación típica N del análisis Edad 48,34 2,991 905 Antigüedad Permiso 19,43 1,986 905 Antigüedad en la compañía 13,99 ,637 905 a. Sólo aquellos casos para los que Garantía Daños = 0, serán utilizados en la fase de análisis. En los análisis iniciales disponíamos de 2469 observaciones y en este de 905, siendo una primera observaciónla reduccióndel tamaño muestral. En la edad media hay una pequeña disminución (antes 49,3), la antigüedad del permisose mantiene igual y la antigüedad en la compañía es la variable que experimenta un mayor cambio, de poco más de un año y su desviación que se reduce notablemente (en 1,7) cosa que nos dice que el intervalo en que se mueven los datos es menor. El resto de desviaciones se mantienen. Después de esto podemos ilustrar ante qué el tipo de cliente nos encontramos; de una edad media, con una prolongada experiencia (en la media del resto de clientes en la antigüedad del permiso) y con una menor antigüedad en la compañía que el promediorazón que habíamos apuntado que llevaba a no contratar la garantía de daños porque puede que se premiea los clientes más antiguos con mayores descuentos.
  • 23. 22 Matriz de correlacionesa,b Edad Antigüedad Permiso Antigüedad en la compañía Correlación Edad 1,000 ,969 ,243 Antigüedad Permiso ,969 1,000 ,094 Antigüedad en la compañía ,243 ,094 1,000 Sig. (Unilateral) Edad ,000 ,000 Antigüedad Permiso ,000 ,002 Antigüedad en la compañía ,000 ,002 a. Sólo aquellos casos para los que Garantía Daños = 0, serán utilizados en la fase de análisis. b. Determinante = ,037 De la matriz de correlacionespara determinar si los datos son adecuados vemos que hay dos bajas. No obstante al observar el determinante de esta matriz, que nos indica la intensidad de las correlaciones, y la significación de cada variable que son próximos a 0 parece que con nuestros datos se puede continuar con el análisis. KMO y prueba de Bartletta Medida de adecuación muestral de Kaiser-Meyer-Olkin. ,373 Prueba de esfericidad de Bartlett Chi-cuadrado aproximado 2972,457 gl 3 Sig. ,000 a. Sólo aquellos casos para los que Garantía Daños = 0, serán utilizados en la fase de análisis. El KMO, que nos dice si para el conjunto de variables tenemos datos suficientes para el conjunto de variables, es muy bajo y no sería recomendable proseguir. En la prueba de Bartlett se rechaza la 𝐻0y tiene sentido continuar. Matrices anti-imagena Edad Antigüedad Permiso Antigüedad en la compañía Covarianza anti-imagen Edad ,037 -,038 -,094 Antigüedad Permiso -,038 ,039 ,092 Antigüedad en la compañía -,094 ,092 ,613 Correlación anti-imagen Edad ,427b -,980 -,618 Antigüedad Permiso -,980 ,420b ,591 Antigüedad en la compañía -,618 ,591 ,085b a. Sólo aquellos casos para los que Garantía Daños = 0, serán utilizados en la fase de análisis. b. Medida de adecuación muestral
  • 24. 23 La matriz anti-imagen que utilizamos para comprobar la adecuación muestral de cada variableno ofrece el resultado esperado, siendo los valores de la diagonal principal bajos y el resto elevados, por tanto la medida de la muestra no es adecuada para el análisis. Comunalidadesa Inicial Extracción Edad 1,000 ,990 Antigüedad Permiso 1,000 ,991 Antigüedad en la compañía 1,000 1,000 Método de extracción: Análisis de Componentes principales a. Sólo aquellos casos para los que Garantía Daños = 0, serán utilizados en la fase de análisis Las comunalidades nos proporcionan la proporción de la variabilidad explicada por la componente principal retenida. Vemos que las variables edad y antigüedad permiso quedan muy bien explicadas yantigüedad en la compañíatotalmente explicada al ser 1.Estos números hacen prever que el modelo se adaptará muy bien a los datos. Varianza total explicadaa Componente Autovalores iniciales Sumas de las saturaciones al cuadrado de la extracción Total % de la varianza % acumulado Total % de la varianza % acumulado 1 2,025 67,502 67,502 2,025 67,502 67,502 2 ,956 31,859 99,361 ,956 31,859 99,361 3 ,019 ,639 100,000 Método de extracción: Análisis de Componentes principales. a. Sólo aquellos casos para los que Garantía Daños = 0, serán utilizados en la fase de análisis. El cuadro de varianza total explicada ofrece los valores de cada componente principal, el porcentaje que explica cada uno de ellos y el acumulado. Hemos retenido los dos primeros componentesy conseguimos explicar más de un 99 % de la varianza. Como el gráfico de sedimentación es muy similar al del primero de los análisis y no muestra contundentemente el número de variables a seleccionar no lo anexamos. Matriz de componentesa,b Componente 1 2 Edad ,992 -,082 Antigüedad Permiso ,968 -,233 Antigüedad en la compañía ,324 ,946 Método de extracción: Análisis de componentes principales a. 2 componentes extraídos b. Sólo aquellos casos para los que Garantía Daños = 0, serán utilizados en la fase de análisis
  • 25. 24 Esta matriz nos ofrece las correlaciones entre las componentes principales y las variables originales. Vemos que se ajusta muy bien a los requisitos del análisis quedando representadas las variables en solo en una componente principal, en la CP1 edad y antigüedad del permiso y en la CP2 antigüedad delacompañíacomo nos ocurría en el modelo genérico con dos componentes. Correlaciones reproducidasa Edad Antigüedad Permiso Antigüedad en la compañía Correlación reproducida Edad ,990b ,979 ,244 Antigüedad Permiso ,979 ,991b ,093 Antigüedad en la compañía ,244 ,093 1,000b Residualc Edad -,009 -,001 Antigüedad Permiso -,009 ,001 Antigüedad en la compañía -,001 ,001 Método de extracción: Análisis de Componentes principales. a. Sólo aquellos casos para los que Garantía Daños = 0, serán utilizados en la fase de análisis. b. Comunalidades reproducidas c. Los residuos se calculan entre las correlaciones observadas y reproducidas. Hay 0 (0,0%) residuales no redundantes con valores absolutos mayores que 0,05. Aquí tenemos las correlaciones tras estimar el modelo y también tenemos los residuos, que son prácticamente nulos con un 0% que superan en valor absoluto 0,05 y va muy bien porque el modelo se ajustará mejor a los datos. Matriz de coeficientes para el cálculo de las puntuaciones en las componentesa Componente 1 2 Edad ,490 -,085 Antigüedad Permiso ,478 -,244 Antigüedad en la compañía ,160 ,990 Método de extracción: Análisis de componentes principales. Puntuaciones de componentes. a. Sólo aquellos casos para los que Garantía Daños = 0, serán utilizados en la fase de análisis. Matriz de covarianza de las puntuaciones de las componentesa Componente 1 2 1 1,000 ,000 2 ,000 1,000 Método de extracción: Análisis de componentes principales.
  • 26. 25 Puntuaciones de componentes a. Sólo aquellos casos para los que Garantía Daños = 0, serán utilizados en la fase de análisis. Para constatar que los residuos son bajos comprobamos los valores de la matriz de covarianza de las puntuaciones que debe ser una matriz identidad, como se produce. Vamos a terminar con lainterpretación,a partir de las correlaciones entre componentes principalesy variables. Las relaciones permanecen inalteradas con respecto al modelo general con dos componentes principales y no percibimos nuevos matices. Recordemos que CP1 la habíamos designadoEXPERIENCIA DE CONDUCCIÓNy la CP2que podíamos asociar a la facilidad de cambiarse de compañía (contiene solo la variable:antigüedad en la compañía). 6. ANÁLISIS DE COMPONENTES PRINCIPALES PARA LOS CLIENTES QUE NO TIENEN CONTRATADA LA GARANTÍA DE DAÑOS Estadísticos descriptivosa Media Desviación típica N del análisis Edad 50,03 3,062 1564 Antigüedad Permiso 19,47 2,022 1564 Antigüedad en la compañía 15,69 ,727 1564 a. Sólo aquellos casos para los que Garantía Daños = 1, serán utilizados en la fase de análisis. Pasamos de 2469 observacionesa 1564, unareducción de un 36,65%del tamaño muestral. Es decir, de nuestros clientes un 36,65% no tienen contratada la garantía de daños frente a un 63,35% que si la tienen, resultando de mayor importancia el segundo grupo por su número. Frente a quienes no disponían de esta cobertura, este conjunto tiene una edad en promedio dos años más, la variable antigüedad del permiso se mantiene sin cambios y la antigüedad en la compañía aumenta año y medio de media. Las desviaciones son muy semejantes entre ambos grupos, y en relación al general también menos para la antigüedad en la compañíaque se reduce.Este colectivo tiene de una edad media-alta, con una prolongada experiencia (en la media del resto de clientes en la antigüedad del permiso) y con una elevadaantigüedad en la compañía. Los resultados obtenidos que sirven para comprobar que se cumplen los requisitos del análisis de componentes principales – matriz de correlaciones, KMO y prueba de Bartlett, matriz antiimagen,matriz de covarianza de las puntuaciones de las componentes (es la identidad)–son análogos y constatan que podemos realizar el análisis aunque presentan problemas el KMO y la matriz anti-imagen como viene repitiéndose en todos los casos. Por esto para no extendernos en exceso vamos a presentar lo más destacado que es como resulta el modelo.
  • 27. 26 Comunalidadesa Inicial Extracción Edad 1,000 ,991 Antigüedad Permiso 1,000 ,991 Antigüedad en la compañía 1,000 1,000 Método de extracción: Análisis de Componentes principales. a. Sólo aquellos casos para los que Garantía Daños = 1, serán utilizados en la fase de análisis. Vemos que todas las variables se explican muy bien, prácticamente en su totalidad como en antigüedad en la compañía. En las correlaciones reproducidas se observa unaumento respecto las iniciales y residuos muy bajos. Varianza total explicadaa Componente Autovalores iniciales Sumas de las saturaciones al cuadrado de la extracción Total % de la varianza % acumulado Total % de la varianza % acumulado 1 2,001 66,693 66,693 2,001 66,693 66,693 2 ,981 32,705 99,398 ,981 32,705 99,398 3 ,018 ,602 100,000 Método de extracción: Análisis de Componentes principales. a. Sólo aquellos casos para los que Garantía Daños = 1, serán utilizados en la fase de análisis. Matriz de componentesa,b Componente 1 2 Edad ,995 -,036 Antigüedad Permiso ,967 -,237 Antigüedad en la compañía ,276 ,961 Método de extracción: Análisis de componentes principales. a. 2 componentes extraídos b. Sólo aquellos casos para los que Garantía Daños = 1, serán utilizados en la fase de análisis. Vemos que en el modelo tenemos dos componentes principales que explican el 66% y el 32% respectivamente, quedando justificada por el modelo más del 99% de la varianza. Hay que prestar atención en que estos porcentajes casi iguales que los que nos han salido en el análisis de toda la cartera. Y las correlaciones entre las variables y las componentes principales se mantienen muy parecidas entre los clientes en general, y los grupos con y sin garantía de daños contratada. Es lógico pues no introducir cambios en la interpretación de las
  • 28. 27 componentesy quedarnos con el significado que les habíamos dado en función de las correlaciones. Ya habíamos comentado la CP1 como EXPERIENCIA DE CONDUCCIÓNpor su correlación positiva muy elevada con edad y antigüedad del permiso. En cuanto a la CP2 recopila tan sólo una variable:antigüedad en la compañía, bastante independientedel resto, con lo cual el significado que podríamos darle es que a pesar que las compañías tratan de fidelizar la clientela es fácil cambiarse a otra, y los consumidores velan por sus intereses quedándose con quien les ofrece mejores condiciones en su seguro de automóvil. Para dar por terminada la práctica queremos comentar que esperábamos, quizás porque se nos había pedido comparar todos los modelos, unos resultados más dispares que nos llevaran a unasconclusiones más amplias, especialmente en la interpretación de las componentes principales, evidentemente sin cambiar el fondo pero si añadiendo matices y nos hemos encontrado con unas variaciones mínimas salvo en el caso de los asegurados que habían tenido siniestros.