El sector industrial en España representa un predominio
de la actividad c o n respecto a las exportaciones netas
del país al exterior. Como motor de la actividad exportadora,
casi un 90% corresponden a esta industria, y de igual manera
por cada euro en que se incrementa la produccón industrial,
72 céntimos se destinan a compras en el tejido productivo. Por
otro lado en el sector servicios por ejemplo, sólo 38 céntimos
se reinvierten en compras al conjunto de la economía, según
la Confederación Española de Organizaciones Empresariales.
He aqui la importancia de este sector económico en el país. La
industria es también el segundo sector de la economía con
mayor peso porcentual en el Producto Interior Bruto, detrás del
sector servicios y delante del turismo & construcción.
Nos enfocamos en este tema porque queriamos aprender sobre el sector industrial de España. Por lo tanto sacamos nuestros valores del Instituto Nacional de Estadística. Este trabajo consistirá en el análisis de diversos problemas que surgen en la selección de datos.Asi mismo intentaremos crear un modelo explicativo que nos diga que es lo que explica el número de las empresas en el sector industrial en las diferentes comunidades de España.
Trabajo econometria. Modelo econométrico para explicar el número de empresas del sector Industria en España
1. Modelo econométrico para explicar el número de empresas del sector Industria en España
FULLSCREEN HOME
2. CONCLUSIONES
PREDICCIONES
49
48
47PROPUESTA DE MODELO FINAL: CORREGIR SUS POSIBLES PROBLEMAS
45ESTUDIO PUNTOS ANÓMALOS E INFLUYENTES
42ESTUDIO DE LA AUTOCORRELACIÓN
39ESTUDIO DE LA HETEROCEDASTICIDAD
38ESTUDIO DE LA NORMALIDAD DE LOS RESIDUOS
37DETECCIÓN GRÁFICA DE POSIBLES PROBLEMAS
36ANÁLISIS DE LA SIGNIFICATIVIDAD
36PRIMERA ESTIMACIÓN DEL MODELO AJUSTADO
8ESTUDIO DE MULTICOLINEALIDAD
4MODELO TEORICO PROPUESTO
3INTRODUCCIÓN
CONTENIDO
FULLSCREEN HOME
BIENVENIDO
3. ECONOMETRÍA
Bienvenido
E
l sector industrial en España representa un predominio
de la actividad c o n respecto a las exportaciones netas
del país alexterior. Como motor de la actividad exportadora,
casi un 90% corresponden a esta industria, y de igual manera
por cada euro en que se incrementa la produccón industrial,
72 céntimos se destinan a compras en el tejido productivo. Por
otro lado en el sector servicios por ejemplo, sólo 38 céntimos
se reinvierten en compras al conjunto de la economía, según
la Confederación Española de Organizaciones Empresariales.
He aqui la importancia de este sector económico en el país. La
industria es también el segundo sector de la economía con
mayor peso porcentual en el Producto Interior Bruto, detrás del
sector servicios y delante del turismo & construcción.
Nos enfocamos en este tema porque queriamos aprender sobre
el sector industrial de España. Por lo tanto sacamos nuestros valores
del Instituto Nacional de Estadística. Este trabajo consistirá en el
análisis de diversos problemas que surgen en la selección de datos.
Asi mismo intentaremos crear un modelo explicativo que nos diga
que es lo que explica el número de las empresas en el sector industrial
en las diferentes comunidades de España.
INTRODUCCIÓN
3
Por otro
FULLSCREEN HOME
BIENVENIDO
4. EQUIVALENCIA DE VARIABLES
Variables ( punto de pártida de análisis)
Y Industria (Número de empresas)
X1 Padrón: Población Total (nº varones)
X2 Padrón: Población Total ( nº mujeres)
X3 Construcción (nº empresas)
X4 Comercio, transporte y hostelería (nº empresas)
X5 Total servicios (nº empresas)
X6 Información y comunicaciones (nº empresas)
X7 Actividades financieras y de seguros (nº empresas)
X8 Actividades inmobiliarias (nº empresas)
X9 Actividades profesionales y técnicas (nº empresas)
X10 Educación, sanidad y servicios sociales (nº empresas)
Modelo Inicial Téorico (Antes de Correlación número 1)
Y=Bo+B1*X1+B2*X2+B3*X3+B4*X4+B5*X5+B6*X6+B7*X7+B8*X8+B9*X9+B10*X10+U
La variable a explicar en nuestro proyecto es“Industria (Número de empresas)”. Las 12 variables que
explican el modelo que se disponen son los siguientes según la base de datos (desde fuente incial de
los datos y sin haber hecho ningún analisis ni malipulación da los datos en el programa estadístico
Statgraphics)
Padrón: Población Total, Padrón: Población Total (varones), Padrón: Población Total (mujeres), Tasa
Bruta de Mortalidad (defunciones por mil habitantes), Tasa Bruta de Natalidad (nacidos por mil
habitantes) ,Tasa de Fecundidad (nacidos por mil mujeres), IPC, IPC.Variación Interanual, Número de
empresas, Industria (nº empresas), Construcción (nº empresas), Comercio, transporte y hostelería (nº
empresas), Total servicios (nº empresas), Información y comunicaciones (nº empresas), Actividades
financieras y de seguros (nº empresas), Actividades inmobiliarias (nº empresas), Actividades
profesionales y técnicas (nº empresas), Educación, sanidad y servicios sociales (nº empresas), Otros
servicios personales (nº empresas), Tasa Actividad (%), EPA. Tasa de paro (%), EPA. Ocupados (miles
de personas), PIB a precios de mercado (miles de euros), CRE. PIB per cápita (euros), Censo Agrario.
Número de Explotaciones, Censo Agrario. Superficie agrícola, Censo Agrario. Unidades ganaderas
totales, Censo 2011: Total viviendas familiares, Censo 2011: Total viviendas principales, Censo 2011:
Viviendas secundarias y Censo 2011: Viviendas vacías.
Por lo tanto vamos a analizar el proyecto es la heterocedasticidad, la autocorrelación y la
multicolinealidad de los datos obtenidos.
El modelo teórico que nosotros propusimos es el siguiente
“Y=Bo+B1*X1+B2*X2+B3*X3+B4*X4+B5*X5+B6*X6+B7*X7+B8*X8+B9*X9+B10*X10+B11*X11+B1
2*x12+U”.
Desde la Base de datos inicial(fuente) Colocamos todos los datos en el statgraphics, en el cual,
al inciar una regresión lineal de los datos con la variable Industria (nº empresas) como variable
“Y” , y ha resultado error algunos de ellos, debido a que han sido correlaciones lineales de
algunas de las variables en el modelo y eliminamos dos variables y el modelo teórico (sin
resolver ningún problema de los antes mencionado a analizar en el trabajo) 4
FULLSCREEN HOME
5. Y INDUSTRIA (Número de empresas) nº emp
Industria Variable en Statgraphics (programa para análisis estadistico)
Número de empresas del sector industrial cuya
casa matriz esta dentro del territorio español y
ejercen corrientemente su actividad en el país.
B0
Valor medio del número de empresas del sector
industrial cuando las variables explicativas valen
cero“0”
X1 PADRÓN: POBLACIÓN TOTAL (Nº
VARONES) Nº VARONES VARIABLE EN STATGRAPHICS (PROGRAMA PARA
ANÁLISIS ESTADISTICO)
Total de personas residenciadas en España de
sexo masculino.
B1
Incremento medio del número de empresas del
sector industrial cuando aumenta en una perso-
na la población residenciada en España de sexo
masculino, y el resto de las variables explicativas
permanecen constantes.
X2 PADRÓN: POBLACIÓN TOTAL ( Nº
MUJERES) Nº MUJERES VARIABLE EN STATGRAPHICS (PROGRAMA PARA
ANÁLISIS ESTADISTICO)
Total de personas residenciadas en España de
sexo femenino.
B2
Incremento medio del número de empresas
del sector industrial cuando aumenta en una
persona la población residenciada en España
de sexo femenino y el resto de las variables
explicativas permanecen constantes.
X3 CONSTRUCCIÓN (Nº EMPRESAS) Nº EMP
CONSTRUCCIÓN VARIABLE EN STATGRAPHICS (PROGRAMA PARA ANÁLISIS
ESTADISTICO)
Número de empresas del sector de la
construcción cuya casa matriz esta dentro del
territorio español y ejercen corrientemente su
actividad en el país.
B3
Incremento medio del número de
empresas del sector industrial cuando aumenta
en una sociedad ( forma legal de empresa en
España) el número de empresas del sector de la
constrcución cuya casa matriz esta dentro del
territorio español y ejercen corrientemente su
actividad en el país y el resto de las variables
explicativas permanecen constantes.
B5
Incremento medio del número de empresas
del sector servicios cuya casa matriz esta dentro
del territorio español y ejercen corrientemente su
actividad en el país y el resto de las variables
explicativas permanecen constantes.
X6 INFORMACIÓN Y COMUNICACIONES
(Nº EMPRESAS) Nº EMP INFO COM VARIABLE EN STATGRAPHICS
(PROGRAMA PARA ANÁLISIS ESTADISTICO)
Número de empresas del sector de Información
y comunicaciones cuya casa matriz esta dentro
del territorio español y ejercen corrientemente su
actividad en el país.
B6
Incremento medio del número de empresas
del sector industrial cuando aumenta en una
sociedad ( forma legal de empresa en España)
el número de empresas del sector de Información
y comunicaciones cuya casa matriz esta dentro
del territorio español y ejercen corrientemente su
actividad en el país y el resto de las variables
explicativas permanecen constantes.
X7 ACTIVIDADES FINANCIERAS Y DE SEG-
UROS (Nº EMPRESAS) Nº EMP _ACT_FINANCIERAS
VARIABLE EN STATGRAPHICS (PROGRAMA PARA ANÁLISIS ESTADISTICO)
Número de empresas del sector financiero y de segu-
ros cuya casa matriz esta dentro del territorio espa-
ñol y ejercen corrientemente su actividad en el país.
X4 COMERCIO, TRANSPORTE Y
HOSTELERÍA (Nº EMPRESAS) Nº EMP COM-
ERCIO, TRANSPORTE Y HO VARIABLE EN STATGRAPHICS (PROGRAMA
PARA ANÁLISIS ESTADISTICO)
Número de empresas de comercio
transporte y hostelería cuya casa matriz
esta dentro del territorio español y ejercen
corrientemente su actividad en el país.
B4
Incremento medio del número
de empresas del sector industrial
cuando aumenta en una sociedad
( forma legal de empresa en España)
el número de empresas de comercio
transporte y hostelería cuya casa
matriz esta dentro del territorio
español y ejercen corrientemente su
actividad en el país y el resto de las
variables explicativas permanecen
constantes.
X5 TOTAL SERVICIOS (Nº EMPRE-
SAS) Nº EMP SERVICIOS VARIABLE EN STATGRAPHICS (PROGRAMA
PARA ANÁLISIS ESTADISTICO)
Número de empresas del sector servicios
cuya casa matriz esta dentro del territorio
español y ejercen corrientemente su acti-
vidad en el país.
5
FULLSCREEN HOMEDEFINICIÓN DE CADA VARIABLE
6. B7
Incremento medio del número de empresas
del sector industrial cuando aumenta en una
sociedad ( forma legal de empresa en España)
el número de empresas del sector financiero
y de seguros cuya casa matriz estadentro del
territorio y ejercen corrientemente su actividad
en el país y el resto de las variables explicativas
permanecen constantes.
X8 ACTIVIDADES INMOBILIARIAS (Nº
EMPRESAS) Nº EMP _ACT_INMOBILIARI VARIABLE EN STATGRAPHICS
Número de empresas del sector inmobiliario cuya
casa matriz esta dentro del territorio español y
ejercen corrientemente su actividad en el país.
B8
Incremento medio del número de empresas
del sector industrial cuando aumenta en una
sociedad ( forma legal de empresa en España)
el número de empresas del sector inmobiliario
cuya casa matriz estadentro del territorio y
ejercen corrientemente su actividad en el país
y el resto de las variables explicativas
permanecen constantes.
X9 ACTIVIDADES PROFESIONALES Y TÉC-
NICAS (Nº EMPRESAS)
Nº EMP _ACT_PROFESIONAL VARIABLE EN STATGRAPHICS (PROGRAMA PARA
ANÁLISIS ESTADISTICO)
Número de empresas dedicadas a actividades
profesionales y técnicas cuya casa matriz esta
dentro del territorio español y ejercen
corrientemente su actividad en el país.
B9
Incremento medio del número de empresas
del sector industrial cuando aumenta en
una sociedad ( forma legal de empresa en
España) el úmero de empresas dedicadas
a actividades profesionales y técnicas cuya
casa matriz esta dentro del territorio español
y ejercen corrientemente su actividad en el
país y el resto de las variables explicativas
permanecen constantes.
X10 EDUCACIÓN, SANIDAD Y SERVICIOS
SOCIALES (Nº EMPRESAS) Nº EMP _ACT_EDU_SAN_SE
VARIABLE EN STATGRAPHICS (PROGRAMA PARA ANÁLISIS ESTADISTICO)
Número de empresas dedicadas a actividades
Educación, sanidad y servicios sociales cuya casa
matriz esta dentro del territorio español y ejercen
corrientemente su actividad en el país.
NOTA EXPLICATIVA
ESTAS SON TODAS LAS DEFINICIONES DE LAS VARIABLES A
USAR DENTRO DEL MODELO PREVIO A LOS ANÁLISIS Y DESPUÉS
DE HACER UNA ELIMINACIÓN PREVIA SEGÚN CUAL VARIABLE
SEA O NO COMBINACION LINEAL DE OTRAS VARIABLES. SOBRE
ESTE MODELO SE REALIZARÁN LOS ESTUDIO DE MULTICOLIN-
EALIDAD, ESTUDIO DE LA NORMALIDAD DE LOS RESIDUOS?
ESTUDIO DE LA HETEROCEDASTICIDAD, Y ESTUDIO DE LA
AUTOCORRELACIÓN
B10
Incremento medio del número de empresas
del sector industrial cuando aumenta en
una sociedad ( forma legal de empresa en
España) el número de empresas dedicadas a ac-
tividades educación, sanidad y servicios sociales
cuya casa matriz esta dentro del territorio espa-
ñol y ejercen corrientemente su actividad en el
país. y el resto de las variables explicativas
permanecen constantes.
U
Perturbación del modelo econométrico. Rep-
resenta las variables explicativas que afectan al
número de empresas del sector industrial en
España, y que no se han tenido en cuenta en el
modelo.
6
FULLSCREEN HOMEDEFINICIÓN DE CADA VARIABLE
7. • Las perturbaciones U son variables aleatorias
de media nula
Para resolver el modelo planteado se
colocan las siguientes hipótesis de las
cualeselmodelodebeseguirrespectoalos
residuos o lo que llamamos en el modelo,
la variable U, que serán verificadas en los
siguientes anánalisis.
• Todas las perturbaciones tienen la mis-
ma varianza.
• Todas las perturbaciones están
incorrelacionadas entre si
• Las perturbaciones tienen una
distribución normal
Hipótesis
7
FULLSCREEN HOME
8. ESTUDIO DE MULTICOLINEALIDAD
Error Estadístico
Parámetro Estimación Estándar T Valor-P
CONSTANTE 239,398 742,824 0,322281 0,7555
nº emp _Act_Edu_san_se 2,54761 2,34135 1,08809 0,3082
nº emp _Act_financieras 3,25102 2,65647 1,22381 0,2558
nº emp _Act_inmobiliari -0,0630529 0,759229 -0,0830486 0,9359
nº emp _Act_profesional -0,243586 0,946264 -0,257418 0,8034
nº emp Comercio, transporte y ho -0,0312964 0,269176 -0,116267 0,9103
nº emp Construcción 0,497052 0,204349 2,43236 0,0411
nº emp Info com 0,372158 2,99778 0,124145 0,9043
nº emp servicios -0,353634 0,715922 -0,493956 0,6346
Nº mujeres -0,0847514 0,063683 -1,33083 0,2199
Nº varones 0,0775232 0,0508611 1,52421 0,1660
Fuente
Suma de
Cuadrados Gl Cuadrado Medio
Razón-F Valor-P
Modelo 1,86496E9 10 1,86496E8 74,21 0,0000
Residuo 2,01037E7 8 2,51296E6
Total (Corr.) 1,88506E9 18
Podemos ver que, tras una regresión multiple del modelo,
tenemos que el Valor-P del modelo econométrico es menor a
0.05 por lo cual, aceptamos que el modelo es significativo para
explicar el número de empresas del sector industrial en España.
Pero de igual manera podemos ver una contradicción en los
Valor-P en todas las variables explicativas del modelo, esto dado
que, todos los valores de todas las variables explicativas del
modelo son mayores a 0.05 por lo que se acepta la hipotesis
nula que dice que estas variables no son significativas para
explicar el número de empresas en el sector industrial en España.
Ante esto sospechamos que podriamos tener un problema de
multicolinealidad en nuestros datos, y procedemos a análizarlos y a
solucionar este problema.
PRUEBAS DE HIPÓTESIS
•Cada parámetro
H0: βi = 0
H1: βi diferente a 0
•Modelo
H0: β1 = β2 = ... = βk = 0 8
FULLSCREEN HOME
9. Matriz de correlaciónes para primer análisis multicolinealidad
Nº varones Nº mujeres nº emp
Construcción
nº emp
Comercio,
transporte y ho
nº emp servicios nº emp Info
com
nº emp _Act_
financieras
nº emp _Act_
inmobiliari
nº emp _Act_
profesional
nº emp _Act_
Edu_san_se
Nº varones 1 0,999436 0,966554 0,996976 0,950873 0,81794 0,977025 0,918709 0,93296 0,962153
Nº mujeres 0,999436 1 0,969901 0,995879 0,958153 0,833465 0,982716 0,922728 0,942256 0,968742
nº emp
Construcción
0,966554 0,969901 1 0,97534 0,976938 0,879365 0,976959 0,962055 0,962436 0,980572
nº emp
Comercio,
transporte y ho
0,996976 0,995879 0,97534 1 0,950434 0,809927 0,972586 0,929318 0,929272 0,961277
nº emp
servicios
0,950873 0,958153 0,976938 0,950434 1 0,950415 0,986538 0,977225 0,997205 0,99849
nº emp Info
com
0,81794 0,833465 0,879365 0,809927 0,950415 1 0,90894 0,913537 0,968456 0,93895
nº emp _Act_
financieras
0,977025 0,982716 0,976959 0,972586 0,986538 0,90894 1 0,9461 0,980575 0,989212
nº emp _Act_
inmobiliari
0,918709 0,922728 0,962055 0,929318 0,977225 0,913537 0,9461 1 0,965619 0,972773
nº emp _Act_
profesional
0,93296 0,942256 0,962436 0,929272 0,997205 0,968456 0,980575 0,965619 1 0,993722
nº emp _Act_
Edu_san_se
0,962153 0,968742 0,980572 0,961277 0,99849 0,93895 0,989212 0,972773 0,993722 1
ESTUDIO DE
MULTICOLINEALIDAD
Lo que buscamos en este paso es saber si las variables están
relacionadas entre sí .
Por lo tanto, hicimos un estudio de multicolinialidad.
La matriz de correlación que hicimos es la siguiente.
Hay 3 maneras de identificar la multicolinealidad, la primera
nos dice que, si los algun valor por debajo de la diagonal
principal es mayor a 0.7 poseemos multicolinealidad, el
segundo nos dice que, calculando la matriz inversa de la
matriz de correlaciones poseemos multicolinealidad con los
valores mayores de 10 en la diagonal principal y son
automaticamente candidatos a ser eliminados o cambiados
del modelo. Finalmente, el tercero es el resultado del calculo
de la raiz cuadrada de la relación de el auto valor maximo
entre el autovalor mínimo de la matriz de correlación que si de
igual manera da mayor a10 existe multicolinealidad en el
modelo.
Podemos ver que la mayoría de los valores son mayores a 0,7, por lo
tanto, detectamos que hay un problema de multicolinialidad en
los datos. Hicimos la inversa de esta matriz para poder eliminar los
datos que no ocupados.
9
FULLSCREEN HOME
10. Problema 1 de multicolinealidad (algún valor de la DP de la matriz inversa>10)
Nº varones 28156,08435 -36426,6813 -593,736992 -1338,335511 -11134,20262 -4823,165851 4538,855084 -1563,194345 8178,54295 14615,95491
Nº mujeres -36426,6813 48296,97854 959,0314073 607,7722549 16206,33122 6217,691908 -6186,657352 1988,143475 -11540,18141 -19630,23365
nº emp
Construcción
-593,736992 959,0314073 127,9609294 -92,91234091 -429,8959593 149,321652 -96,39598934 151,0962803 137,6040663 -293,2738328
nº emp
Comercio,
transporte y ho
-1338,335511 607,7722549 -92,91234091 2259,104269 -3180,238282 1207,222936 2,290682495 417,3304234 1000,747886 -742,3935
nº emp
servicios
-11134,20262 16206,33122 -429,8959593 -3180,238282 30672,52575 544,6163712 -3642,947996 -2716,446098 -15872,58128 -10626,82468
nº emp Info
com
-4823,165851 6217,691908 149,321652 1207,222936 544,6163712 1768,719278 -789,7784859 500,2839045 -1468,601726 -3140,167515
nº emp _Act_
financieras
4538,855084 -6186,657352 -96,39598934 2,290682495 -3642,947996 -789,7784859 1064,972679 -23,8008713 2111,587777 2968,870525
nº emp _Act_
inmobiliari
-1563,194345 1988,143475 151,0962803 417,3304234 -2716,446098 500,2839045 -23,8008713 577,2214264 1070,290076 -330,226291
nº emp _Act_
profesional
8178,54295 -11540,18141 137,6040663 1000,747886 -15872,58128 -1468,601726 2111,587777 1070,290076 9576,06456 6795,176153
nº emp _Act_
Edu_san_se
14615,95491 -19630,23365 -293,2738328 -742,3935 -10626,82468 -3140,167515 2968,870525 -330,226291 6795,176153 10147,18414
ESTUDIO DE
MULTICOLINEALIDAD
Podemosverqueenladiagonalprincipaldela matriz
todoslosvalorestienenunvalormayora10, porlotanto,
procedemosacalcularelmayorvalorde
ladiagonalprincipalparaluegoeliminarlavariablemas
próximaqueestácausandomayor multicolinealidad en
elmodelo.
PODEMOSVERQUELAVARIABLE“NUMERODE
MUJERES”ES LA VARIABLE CON MAYOR VALOR EN LA
DIAGONAL PRINCIPAL POR LO CUAL LA ELIMINAMOS
DE NUESTRO MODELO.ENBASECONLAMATRIZDE
CORRELACIÓN
INICIALHACEMOSELCÁLCULOSINESTAVARIABLE.
10
FULLSCREEN HOME
11. Componente Porcentaje de Porcentaje
Número Eigenvalor Varianza Acumulado
1 9,57455 95,745 95,745
2 0,324718 3,247 98,993
3 0,0702479 0,702 99,695
4 0,0219557 0,22 99,915
5 0,00629292 0,063 99,978
6 0,000978158 0,01 99,987
7 0,000905412 0,009 99,996
8 0,00030823 0,003 100
9 3,45103E-05 0 100
10 0,000010291 0 100
Como se puede ver en la tabla, iniciamos el análisis del índice de acondicionamiento con
nuestras 10 variables iniciales. Para ello, sacamos los autovalores de la matriz de correlación
y procedimos a calcular la raíz del autovalor máximo divido por el autovalor mínimo. Si el
resultado del índice de acondicionamiento es mayor a 10 significa que tenemos un problema
de multicolinealidad. Es así que nos fijamos en la matriz inversa y procedemos a eliminar
la variable con el número más grande ya que la diferencia entre el número más grande y
el segundo más grande es al menos igual a 1. Esta primera tabla nos indica que si existe
multicolinearidad y procedemos a eliminar la variable N mujeres ya que tiene el número más
grande.
11
IA 964,563
FULLSCREEN HOME
12. ESTUDIO DE
MULTICOLINEALIDAD
EN BASE CON LA MATRIZ DE CORRELACIÓN INICIA
HACEMOS EL CÁLCULO SIN LAVARIABLE NºMUJERES.
PODEMOS VER EN ESTA MATRIZ QUE LA MAYORÍA DE
LOS VALORES TIENEN UN VALOR MAYOR A 0,7 LO CUAL
NOS REFLEJA QUE LA GRAN MAYORIA DE LAS VARI-
ABLE NOS ESTA CAUSANDO MULTICOLINEALIDAD
EN EL MODELO, POR LO TANTO PROCEDEMOS A CAL-
CULAR EL MATIZ INVERSA PARA PODER CONSEGUIR
IDENTIFICAR LA VARIABLE OPTIMA A SER ELIMINADA
DE NUESTRO MODELO.
Nueva matriz ( preparado para matriz de correlaciones 2) Eliminado variable Nº mujeres
Nº varones nº emp
Construcción
nº emp
Comercio,
transporte y ho
nº emp
servicios
nº emp Info
com
nº emp _Act_
financieras
nº emp _Act_
inmobiliari
nº emp _Act_
profesional
nº emp _Act_
Edu_san_se
Nº varones 1 0,966554 0,996976 0,950873 0,81794 0,977025 0,918709 0,93296 0,962153
nº emp
Construcción
0,966554 1 0,97534 0,976938 0,879365 0,976959 0,962055 0,962436 0,980572
nº emp
Comercio,
transporte y
ho
0,996976 0,97534 1 0,950434 0,809927 0,972586 0,929318 0,929272 0,961277
nº emp
servicios
0,950873 0,976938 0,950434 1 0,950415 0,986538 0,977225 0,997205 0,99849
nº emp Info
com
0,81794 0,879365 0,809927 0,950415 1 0,90894 0,913537 0,968456 0,93895
nº emp _Act_
financieras
0,977025 0,976959 0,972586 0,986538 0,90894 1 0,9461 0,980575 0,989212
nº emp _Act_
inmobiliari
0,918709 0,962055 0,929318 0,977225 0,913537 0,9461 1 0,965619 0,972773
nº emp _Act_
profesional
0,93296 0,962436 0,929272 0,997205 0,968456 0,980575 0,965619 1 0,993722
nº emp _Act_
Edu_san_se
0,962153 0,980572 0,961277 0,99849 0,93895 0,989212 0,972773 0,993722 1
12
FULLSCREEN HOME
BIENVENIDO
13. ESTUDIO DE
MULTICOLINEALIDAD
PODEMOS VER QUE EN LA DIAGONAL
PRINCIPAL DE LA MATRIZ QUE TODOS LOS
VALORES TIENEN UN VALOR MAYOR A 10. POR
LO TANTO, PROCEDEMOS A IDENTIFICAR EL
MAYOR VALOR DE LA DIAGONAL PRINCIPAL
PARA LUEGO ELIMINAR LA VARIABLE QUE ESTÁ
CAUSANDO MAYOR MULTICOLINEALIDAD EN EL
MODELO. PODEMOS OBSERVAR QUE SE TIENE
QUE ELIMINAR LA VARIABLE “Nº EMP SER-
VICIOS”.
Problema 2 de multicolinealidad (algún valor de la DP de la matriz inversa>10)
Nº varones 682,2516034 129,5863398 -879,9398323 1088,98153 -133,64099 -127,2628076 -63,69125083 -525,3247255 -189,6144393
nº emp
Construcción
129,5863398 108,9174764 -104,9808532 -751,7045094 25,85716201 26,45224851 111,6177851 366,7570434 96,52302769
nº emp
Comercio,
transporte y
ho
-879,9398323 -104,9808532 2251,456024 -3384,179787 1128,979105 80,14397276 392,3114993 1145,970264 -495,365389
nº emp
servicios
1088,98153 -751,7045094 -3384,179787 25234,39733 -1541,766205 -1566,979246 -3383,57917 -12000,20649 -4039,785944
nº emp Info
com
-133,64099 25,85716201 1128,979105 -1541,766205 968,2614888 6,683953812 244,3328291 17,0666267 -612,9960727
nº emp
_Act_
financieras
-127,2628076 26,45224851 80,14397276 -1566,979246 6,683953812 272,4856463 230,8726677 633,3348857 454,3130306
nº emp
_Act_
inmobiliari
-63,69125083 111,6177851 392,3114993 -3383,57917 244,3328291 230,8726677 495,3795681 1545,34125 477,851608
nº emp
_Act_
profesional
-525,3247255 366,7570434 1145,970264 -12000,20649 17,0666267 633,3348857 1545,34125 6818,629396 2104,686929
nº emp
_Act_Edu_
san_se
-189,6144393 96,52302769 -495,365389 -4039,785944 -612,9960727 454,3130306 477,851608 2104,686929 2168,50546
13
FULLSCREEN HOME
14. Análisis de Componentes
Principales
Componente Porcentaje de Porcentaje
Número Eigenvalor Varianza Acumulado
1 8,62103 95,789 95,789
2 0,284234 3,158 98,947
3 0,0655561 0,728 99,676
4 0,0209503 0,233 99,909
5 0,00610577 0,068 99,976
6 0,000937063 0,01 99,987
7 0,000877763 0,01 99,997
8 0,000274224 0,003 100
9 3,05169E-05 0 100
En esta tabla hicimos el cálculo del indice de acondicionamiento sin la variable Nmujeres y
encontramos que seguimos teniendo el problema de multicolinealidad ya que el indice de
acondicionamiento es mayor a 10. Volvemos a fijarnos en la matriz inversa y procedemos a eliminar la
variable con el número más grande que proviene de la variable “nº emp servicios”. Podemos
eliminar la variable porque la diferencia entre el número más grande y el segundo más grande es al
menos igual a 1.
14
IA 531,507
FULLSCREEN HOME
15. Nueva matriz ( preparado para matriz de correlaciones 3) Eliminado variable nº emp servicios
Nº varones nº emp
Construcción
nº emp
Comercio,
transporte y ho
nº emp Info
com
nº emp _Act_
financieras
nº emp _Act_
inmobiliari
nº emp _Act_
profesional
nº emp _Act_
Edu_san_se
Nº varones 1 0,966554 0,996976 0,81794 0,977025 0,918709 0,93296 0,962153
nº emp
Construcción
0,966554 1 0,97534 0,879365 0,976959 0,962055 0,962436 0,980572
nº emp
Comercio,
transporte y ho
0,996976 0,97534 1 0,809927 0,972586 0,929318 0,929272 0,961277
nº emp Info
com
0,81794 0,879365 0,809927 1 0,90894 0,913537 0,968456 0,93895
nº emp _Act_
financieras
0,977025 0,976959 0,972586 0,90894 1 0,9461 0,980575 0,989212
nº emp _Act_
inmobiliari
0,918709 0,962055 0,929318 0,913537 0,9461 1 0,965619 0,972773
nº emp _Act_
profesional
0,93296 0,962436 0,929272 0,968456 0,980575 0,965619 1 0,993722
nº emp _Act_
Edu_san_se
0,962153 0,980572 0,961277 0,93895 0,989212 0,972773 0,993722 1
ESTUDIO DE
MULTICOLINEALIDAD
TRAS ELIMINAR LA VARIABLE ELIMINADO VARIABLE Nº EMP
SERVICIOS PARTIMOS DESDE LA MATRIZ DE CORRELACIONES
ANTERIOR.
PODEMOSVER QUE LA MAYORÍA DE LOSVALORES SON MAYORES
A 0,7, POR LO TANTO, DETECTAMOS QUE HAY UN PROBLEMA DE
MULTICOLINIALIDAD EN LOS DATOS.
ANTE ESTO CALCULAMOS LA INVERSA DE ESTA MATRIZ PARA
PODER IDENTIFICAR LA VARIABLE A ELIMINAR LOS DATOS.
15
FULLSCREEN HOME
16. ESTUDIO DE
MULTICOLINEALIDAD
PODEMOSVERQUEENLADIAGONALPRINCIPALDELAMATRIZ
LA GRAN MAYORÍA DE LOSVALORESTIENE UNVALOR MAYOR
A 10, POR LO TANTO, PROCEDEMOS A CALCULAR EL MAYOR
VALORDELADIAGONALPRINCIPALPARALUEGOELIMINARLA
VARIABLEQUEESTÁCAUSANDOMAYORMULTICOLINEALIDAD
ENELMODELO. PORLOQUEPODEMOSVER QUESETIENEQUE
ELIMINARLAVARIABLE“NºEMPCOMERCIO,TRANSPORTEYHO”
Problema 3 de multicolinealidad (algún valor de la DP de la matriz
inversa>10)
Nº varones 635,2569889 162,0258832 -733,8967454 -67,10661237 -59,64037003 82,32591669 -7,4600405 -15,27889949
nº emp 162,0258832 86,52503876 -205,7917889 -20,07033107 -20,22631289 10,82474115 9,28429642 -23,81768312
nº emp
Comercio,
transporte y
ho
-733,8967454 -205,7917889 1797,604375 922,2131592 -130,0032885 -61,45960072 -463,3749368 -1037,140243
nº emp Info
com
-67,10661237 -20,07033107 922,2131592 874,0629629 -89,05503345 37,60357987 -716,11961 -859,8181133
nº emp
_Act_
financieras
-59,64037003 -20,22631289 -130,0032885 -89,05503345 175,181006 20,76270283 -111,8414014 203,454623
nº emp
_Act_
inmobiliari
82,32591669 10,82474115 -61,45960072 37,60357987 20,76270283 41,68900237 -63,71832769 -63,8270932
nº emp
_Act_
profesional
-7,4600405 9,28429642 -463,3749368 -716,11961 -111,8414014 -63,71832769 1111,936509 183,5685099
16
FULLSCREEN HOME
17. Análisis de Componentes
Principales
Componente Porcentaje de Porcentaje
Número Eigenvalor Varianza Acumulado
1 7,62596 95,325 95,325
2 0,279508 3,494 98,818
3 0,0655494 0,819 99,638
4 0,0208921 0,261 99,899
5 0,00610248 0,076 99,975
6 0,000894147 0,011 99,986
7 0,000819762 0,01 99,997
8 0,000272082 0,003 100
En esta tabla calculamos el indice de acondicionamiento sin la variable nº emp servicios y encontramos
que seguimos teniendo el problema de multicolinealidad ya que el indice de acondicionamiento es
mayor a 10. Volvemos a fijarnos en la matriz inversa y procedemos a eliminar la variable con el número
másgrande queprovienedelavariable“nºempComercio,transporteyho”.Podemoseliminarlavariable
porque la diferencia entre el número más grande y el segundo más grande es al menos igual a 1.
17
IA 167,416
FULLSCREEN HOME
18. Nueva matriz ( preparado para matriz de correlaciones 4) Eliminado variable nº emp Comercio, transporte y ho
Nº varones nº emp
Construcción
nº emp Info
com
nº emp _Act_
financieras
nº emp _Act_
inmobiliari
nº emp _Act_
profesional
nº emp _Act_
Edu_san_se
Nº varones 1 0,966554 0,81794 0,977025 0,918709 0,93296 0,962153
nº emp Construcción 0,966554 1 0,879365 0,976959 0,962055 0,962436 0,980572
nº emp Info com 0,81794 0,879365 1 0,90894 0,913537 0,968456 0,93895
nº emp _Act_financieras 0,977025 0,976959 0,90894 1 0,9461 0,980575 0,989212
nº emp _Act_inmobiliari 0,918709 0,962055 0,913537 0,9461 1 0,965619 0,972773
nº emp _Act_profesional 0,93296 0,962436 0,968456 0,980575 0,965619 1 0,993722
nº emp _Act_Edu_san_se 0,962153 0,980572 0,93895 0,989212 0,972773 0,993722 1
ESTUDIO DE
MULTICOLINEALIDAD
TRAS ELIMINARLA VARIABLEELIMINADOVARIABLE“NºEMPCOMERCIO,
TRANSPORTE Y HO” PARTIMOS DESDE LA MATRIZ DE CORRELACIONES
ANTERIOR.
PODEMOS VER QUE LA MAYORÍA DE LOS VALORES SON MAYORES A
0,7, POR LO TANTO, DETECTAMOS QUE HAY UN PROBLEMA DE MULTI-
COLINIALIDAD EN LOS DATOS.
ANTE ESTO CALCULAMOS LA INVERSA DE ESTA MATRIZ PARA PODER
IDENTIFICAR LA VARIABLE A ELIMINAR LOS DATOS.
18
FULLSCREEN HOME
19. ESTUDIO DE
MULTICOLINEALIDAD
PODEMOSVER QUE EN LA DIAGONAL PRINCIPAL DE LA MATRIZ LA GRAN MAYORÍA DE
LOSVALORESTIENEUNVALORMAYORA10,PORLOTANTO,PROCEDEMOSACALCULAR
ELMAYORVALORDELA DIAGONALPRINCIPALPARALUEGOELIMINARLAVARIABLEQUE
ESTÁCAUSANDOMAYORMULTICOLINEALIDADENELMODELO. PORLOQUEPODEMOS
VER QUESETIENEQUEELIMINARLAVARIABLE“NºEMPCOMERCIO,TRANSPORTEYHO.”
Problema 4 de multicolinealidad (algún valor de la DP de la matriz inversa>10)
Nº varones 335,6335344 78,00855087 309,3996119 -112,7160032 57,23418818 -196,6392407 -438,7056888
nº emp 78,00855087 62,96576122 85,505678 -35,1092369 3,788776312 -43,76339222 -142,5506752
nº emp Info
com
309,3996119 85,505678 400,9460064 -22,36030068 69,13379494 -478,3974113 -327,7408701
nº emp
_Act_
financieras
-112,7160032 -35,1092369 -22,36030068 165,7791291 16,31792604 -145,3528161 128,448329
nº emp
_Act_
inmobiliari
57,23418818 3,788776312 69,13379494 16,31792604 39,58771547 -79,56098973 -99,28663375
nº emp
_Act_
profesional
-196,6392407 -43,76339222 -478,3974113 -145,3528161 -79,56098973 992,4906869 -83,77885605
nº emp
_Act_Edu_
san_se
-438,7056888 -142,5506752 -327,7408701 128,448329 -99,28663375 -83,77885605 923,3891059
19
FULLSCREEN HOME
20. Análisis de Componentes
Principales
Componente Porcentaje de Porcentaje
Número Eigenvalor Varianza Acumulado
1 6,6926 95,609 95,609
2 0,213993 3,057 98,666
3 0,0655228 0,936 99,602
4 0,0205516 0,294 99,895
5 0,00580459 0,083 99,978
6 0,000882961 0,013 99,991
7 0,000646198 0,009 100
En esta tabla calculamos el indice de acondicionamiento sin la variable “nº emp Comercio, transporte
y ho “y encontramos que seguimos teniendo el problema de multicolinealidad ya que el indice de
acondicionamiento es mayor a 10. Volvemos a fijarnos en la matriz inversa y procedemos a eliminar la
variable con el número más grande que proviene de la variable “nº emp _Act_profesional”. Podemos
eliminar la variable porque la diferencia entre el número más grande y el segundo más grande es al
menos igual a 1.
20
IA 101,769
FULLSCREEN HOME
21. Nueva matriz ( preparado para matriz de correlaciones 5) Eliminado variable nº
emp _Act_profesional
Nº varones nº emp
Construcción
nº emp Info
com
nº emp _Act_
financieras
nº emp _Act_
inmobiliari
nº emp _Act_
Edu_san_se
Nº varones 1 0,966554 0,81794 0,977025 0,918709 0,962153
nº emp
Construcción
0,966554 1 0,879365 0,976959 0,962055 0,980572
nº emp Info
com
0,81794 0,879365 1 0,90894 0,913537 0,93895
nº emp _Act_
financieras
0,977025 0,976959 0,90894 1 0,9461 0,989212
nº emp _Act_
inmobiliari
0,918709 0,962055 0,913537 0,9461 1 0,972773
nº emp _Act_
Edu_san_se
0,962153 0,980572 0,93895 0,989212 0,972773 1
ESTUDIO DE
MULTICOLINEALIDAD
TRAS ELIMINAR LA VARIABLE ELIMINADO VARIABLE “Nº EMP _ACT_PROFESIONAL” PAR-
TIMOS DESDE LA MATRIZ DE CORRELACIONES ANTERIOR.
PODEMOS VER QUE LA MAYORÍA DE LOS VALORES SON MAYORES A 0,7, POR LO TANTO,
DETECTAMOS QUE HAY UN PROBLEMA DE MULTICOLINIALIDAD EN LOS DATOS.
ANTE ESTO CALCULAMOS LA INVERSA DE ESTA MATRIZ PARA PODER IDENTIFICAR LA
VARIABLE A ELIMINAR LOS DATOS.
21
FULLSCREEN HOME
22. ESTUDIO DE
MULTICOLINEALIDAD
PODEMOS VER QUE EN LA DIAGONAL PRINCIPAL DE LA MATRIZ LA
GRAN MAYORÍA DE LOSVALORESTIENE UNVALOR MAYOR A10,POR LO
TANTO,PROCEDEMOSACALCULARELMAYOR VALORDELADIAGONAL
PRINCIPAL PARA LUEGO ELIMINAR LAVARIABLE QUE ESTÁ CAUSANDO
MAYORMULTICOLINEALIDADENELMODELOPORLOQUEPODEMOSVER
QUESETIENEQUEELIMINARLAVARIABLE“NºEMP_ACT_EDU_SAN_SE”.
Problema 5 de multicolinealidad (algún valor de la DP de la
matriz inversa>10)
Nº varones 296,6739839 69,33783957 214,6161495 -141,5143262 41,4710049 -455,3045455
nº emp 69,33783957 61,0360358 64,41097774 -41,51849835 0,280573318 -146,244863
nº emp Info
com
214,6161495 64,41097774 170,3503079 -92,42283311 30,78404311 -368,1237054
nº emp
_Act_
financieras
-141,5143262 -41,51849835 -92,42283311 144,491835 4,666014283 116,1786998
nº emp
_Act_
inmobiliari
41,4710049 0,280573318 30,78404311 4,666014283 33,20987116 -106,0025947
nº emp
_Act_Edu_
san_se
-455,3045455 -146,244863 -368,1237054 116,1786998 -106,0025947 916,3171033
22
FULLSCREEN HOME
23. Análisis de Componentes
Principales
Componente Porcentaje de Porcentaje
Número Eigenvalor Varianza Acumulado
1 5,70646 95,108 95,108
2 0,202805 3,38 98,488
3 0,063737 1,062 99,55
4 0,0204801 0,341 99,891
5 0,00579101 0,097 99,988
6 0,000724747 0,012 100
En esta tabla calculamos el indice de acondicionamiento sin la variable “nº emp _Act_profesional
“y encontramos que seguimos teniendo el problema de multicolinealidad ya que el indice de
acondicionamiento es mayor a 10. Volvemos a fijarnos en la matriz inversa y procedemos a eliminar la
variable con el número más grande que proviene de la variable “nº emp _Act_Edu_san_se”. Podemos
eliminar la variable porque la diferencia entre el número más grande y el segundo más grande es al
menos igual a 1.
23
IA 88,734
FULLSCREEN HOME
24. Nueva matriz ( preparado para matriz de correlaciones 6) Eliminado
variable nº emp _Act_Edu_san_se
Nº varones nº emp
Construcción
nº emp Info
com
nº emp _Act_
financieras
nº emp _Act_
inmobiliari
Nº varones 1 0,966554 0,81794 0,977025 0,918709
nº emp
Construcción
0,966554 1 0,879365 0,976959 0,962055
nº emp Info
com
0,81794 0,879365 1 0,90894 0,913537
nº emp _Act_
financieras
0,977025 0,976959 0,90894 1 0,9461
nº emp _Act_
inmobiliari
0,918709 0,962055 0,913537 0,9461 1
ESTUDIO DE
MULTICOLINEALIDAD
TRAS ELIMINAR LA VARIABLE ELIMINADO VARIABLE “Nº EMP_ACT_EDU_SAN_SE”
PARTIMOS DESDE LA MATRIZ DE CORRELACIONES ANTERIOR.
PODEMOS VER QUE LA MAYORÍA DE LOS VALORES SON MAYORES A 0,7, POR LO
TANTO, DETECTAMOS QUE HAY UN PROBLEMA DE MULTICOLINIALIDAD EN LOS
DATOS.
ANTE ESTO CALCULAMOS LA INVERSA DE ESTA MATRIZ PARA PODER IDENTIFICAR
LA VARIABLE A ELIMINAR LOS DATOS.
24
FULLSCREEN HOME
25. ESTUDIO DE
MULTICOLINEALIDAD
PODEMOS VER QUE EN LA DIAGONAL PRINCIPAL DE LA MATRIZ LA GRAN MAYORÍA DE
LOSVALORESTIENEUNVALORMAYORA10,PORLOTANTO, PROCEDEMOSACALCULAR
ELMAYOR VALORDELADIAGONALPRINCIPALPARALUEGOELIMINARLAVARIABLEQUE
ESTÁCAUSANDOMAYORMULTICOLINEALIDAD ENELMODELO. PORLOQUEPODEMOS
VER QUESETIENEQUEELIMINARLAVARIABLE“NºEMP_ACT_FINANCIERAS”.
Problema 6 de multicolinealidad (algún valor de la
DP de la matriz inversa>10)
Nº varones 70,43982505 -3,329090488 31,70087296 -83,78683214 -11,20013158
nº emp -3,329090488 37,69525141 5,658171916 -22,97629503 -16,63751637
nº emp Info
com
31,70087296 5,658171916 22,4592973 -45,74888878 -11,80172529
nº emp
_Act_
financieras
-83,78683214 -22,97629503 -45,74888878 129,7616829 18,10595073
nº emp
_Act_
inmobiliari
-11,20013158 -16,63751637 -11,80172529 18,10595073 20,94714023
25
FULLSCREEN HOME
26. Análisis de Componentes
Principales
Componente Porcentaje de Porcentaje
Número Eigenvalor Varianza Acumulado
1 4,70919 94,184 94,184
2 0,202427 4,049 98,232
3 0,0633198 1,266 99,499
4 0,0203242 0,406 99,905
5 0,00473556 0,095 100
En esta tabla calculamos el indice de acondicionamiento sin la variable “nº emp _Act_Edu_san_
se “y encontramos que seguimos teniendo el problema de multicolinealidad ya que el indice de
acondicionamiento es mayor a 10. Volvemos a fijarnos en la matriz inversa y procedemos a eliminar la
variable con el número más grande que proviene de la variable “nº emp _Act_financieras”. Podemos
eliminar la variable porque la diferencia entre el número más grande y el segundo más grande es al
menos igual a 1.
26
IA 31,535
FULLSCREEN HOME
27. Nueva matriz ( preparado para matriz de correlaciones 7)
Eliminado variable nº emp _Act_financieras
Nº varones nº emp
Construcción
nº emp Info
com
nº emp _Act_
inmobiliari
Nº varones 1 0,966554 0,81794 0,918709
nº emp
Construcción
0,966554 1 0,879365 0,962055
nº emp Info
com
0,81794 0,879365 1 0,913537
nº emp _Act_
inmobiliari
0,918709 0,962055 0,913537 1
ESTUDIO DE
MULTICOLINEALIDAD
TRAS ELIMINAR LA VARIABLE ELIMINADO VARIABLE “Nº EMP _ACT_FINANCIERAS”
PARTIMOS DESDE LA MATRIZ DE CORRELACIONES ANTERIOR.
PODEMOS VER QUE LA MAYORÍA DE LOS VALORES SON MAYORES A 0,7, POR LO
TANTO, DETECTAMOS QUE HAY UN PROBLEMA DE MULTICOLINIALIDAD EN LOS
DATOS.
ANTE ESTO CALCULAMOS LA INVERSA DE ESTA MATRIZ PARA PODER IDENTIFICAR
LA VARIABLE A ELIMINAR LOS DATOS.
27
FULLSCREEN HOME
28. ESTUDIO DE
MULTICOLINEALIDAD
PODEMOSVER QUE EN LA DIAGONAL PRINCIPAL DE LA MATRIZ
LA GRAN MAYORÍA DE LOS VALORES TIENE UN VALOR MAYOR
A 10, POR LO TANTO, PROCEDEMOS A CALCULAR EL MAYOR
VALOR DE LA DIAGONAL PRINCIPAL PARA LUEGO ELIMINAR LA
VARIABLE QUE ESTÁ CAUSANDO MAYOR MULTICOLINEALIDAD
EN EL MODELO. POR LO QUE PODEMOSVER QUE SETIENE QUE
ELIMINAR LAVARIABLE “Nº EMP CONSTRUCCIÓN”.
Problema 7 de multicolinealidad (algún
valor de la DP de la matriz inversa>10)
Nº varones 16,33885253 -18,16483346 2,160916483 0,49084083
nº emp Construcción -18,16483346 33,62694618 -2,442370114 -13,43158025
nº emp Info com 2,160916483 -2,442370114 6,33003034 -5,418275968
nº emp _Act_
inmobiliari
0,49084083 -13,43158025 -5,418275968 18,42077463
28
FULLSCREEN HOME
29. Análisis de Componentes
Principales
Componente Porcentaje de Porcentaje
Número Eigenvalor Varianza Acumulado
1 3,73081 93,27 93,27
2 0,198546 4,964 98,234
3 0,0504839 1,262 99,496
4 0,0201602 0,504 100
En esta tabla calculamos el indice de acondicionamiento sin la variable “nº emp _Act_financieras
“y encontramos que seguimos teniendo el problema de multicolinealidad ya que el indice de
acondicionamiento es mayor a 10. Volvemos a fijarnos en la matriz inversa y procedemos a eliminar
la variable con el número más grande que proviene de la variable “nº emp Construcción”. Podemos
eliminar la variable porque la diferencia entre el número más grande y el segundo más grande es al
menos igual a 1.
29
IA 13,604
FULLSCREEN HOME
30. ESTUDIO DE
MULTICOLINEALIDAD
PODEMOS VER QUE EN LA DIAGONAL PRINCIPAL DE LA MATRIZ LA GRAN MAYORÍA
DE LOS VALORES TIENE UN VALOR MAYOR A 10, POR LO TANTO, PROCEDEMOS A
CALCULAR EL MAYOR VALOR DE LA DIAGONAL PRINCIPAL PARA LUEGO ELIMINAR
LA VARIABLE QUE ESTÁ CAUSANDO MAYOR MULTICOLINEALIDAD EN EL
MODELO.
POR LO QUE PODEMOS VER QUE SE TIENE QUE ELIMINAR LA VARIABLE “Nº EMP _
ACT_INMOBILIARI”. A PARTIR DE AHORA, QUEDA UN MODELO CON DOS VARIABLES
EXPLICATIVAS QUE SON SIGNIFICATIVAS PARA EXPLICAR EL MODELO, PERO, DADO
QUE EXISTE UN PROBLEMA DE MULTICOLINEALIDAD ENTRE ELLAS, PROCEDEMOS
A REALIZAR EL ULTIMO ANÁLISIS MODELO.
Problema 8 de multicolinealidad (algún valor de la DP
de la matriz inversa>10)
Nº varones 6,526448718 0,841580313 -6,76472193
nº emp Info com 0,841580313 6,15263773 -6,393829622
nº emp _Act_inmobiliari -6,76472193 -6,393829622 13,05581085
Nueva matriz ( preparado para matriz de correlaciones) Eliminado
variable nº emp Construcción
Nº varones nº emp Info com nº emp _Act_inmobiliari
Nº varones 1 0,81794 0,918709
nº emp Info com 0,81794 1 0,913537
nº emp _Act_inmobiliari 0,918709 0,913537 1
30
FULLSCREEN HOME
31. En esta tabla calculamos el indice de acondicionamiento sin la variable “nº emp Construcción “y
encontramos que no tenemos multicolinealidad ya que el indice de acondicionamiento es menor a
10. Sin embargo en las otras pruebas si tuvimos multicolinealidad en esta etapa. Volvemos a fijarnos
en la matriz inversa y procedemos a eliminar la variable con el número más grande que proviene de la
variable “nº emp _Act_inmobiliari”. Podemos eliminar la variable porque la diferencia entre el número
más grande y el segundo más grande es al menos igual a 1.
1 2,76758 92,253 92,253
2 0,182125 6,071 98,324
3 0,0502949 1,676 100
31
IA 7,418
FULLSCREEN HOME
32. Nueva matriz ( preparado para matriz de correlaciones)
Eliminado variable nº emp _Act_inmobiliari
Nº varones nº emp Info com
Nº varones 1 0,81794
nº emp Info
com
0,81794 1
DOS MODELOS (ELIMINAR
MULTICOLINEALIDAD)
R^2
63,42 "Regresión Multiple sobre la variable nº
emp Info com
"
92,77 "Regresión Multiple sobre la variable Nº
varones
"
ESTUDIO DE
MULTICOLINEALIDAD
TRAS ELIMINAR LA VARIABLE ELIMINADO VARIABLE
Nº EMP INFO COM PARTIMOS DESDE LA MATRIZ DE
CORRELACIONES ANTERIOR. PODEMOS VER QUE LA
VARIABLE Nº EMP INFO COM ES MAYOR A 0,7, POR
LO TANTO, DETECTAMOS QUE HAY UN PROBLEMA
DE MULTICOLINIALIDAD EN LOS DATOS. ANTE ESTO
CALCULAMOS LA INVERSA DE ESTA MATRIZ PARA
PODER IDENTIFICAR LA VARIABLE A ELIMINAR LOS
DATOS.
DESPUÉS DE LLEGAR A UNA SOLUCION CON 2 VARIABLES A INTENAR ELIMINAR
LA MULTICOLINEALIDAD, NO SE HA PODIDO SEGUIR DADO QUE LOS VALORES DE
LA DIAGONAL PRINCIPAL EN EL SEGUNDO ANÁLISIS SON IGUALES Y MENORES A
10 CON UNA DIFERENCIA NO MAYOR A 1, POR ESTO, CREAMOS 2 REGRESIONES
LINEALES ELIMINANDO EN CADA UNO UNA DE LAS VARIABLES PROBLEMATICAS, Y
ELEGIMOS EL MODELO CON EL R^2 MÁS ALTO.
DESPUÉS DE REALIZAR ESTOS DOS PROCESOS, NOS QUEDAMOS CON LA
VARIABLENºVARONESDADOQUEPRESENTAELR^2MAYORDEENTRELOS2MODELOS
Problema 9 de multicolinealidad(algún valor de la DP de la matriz inversa>10)
Nº varones 3,021383938 -2,471310778
nº emp Info com -2,471310778 3,021383938
32
FULLSCREEN HOME
33. Análisis de Componentes
Principales
Componente Porcentaje de Porcentaje
Número Eigenvalor Varianza Acumulado
1 1,81794 90,897 90,897
2 0,18206 9,103 100
En esta tabla calculamos el indice de acondicionamiento sin la variable “nº emp _Act_inmobiliari “y encontramos
que no tenemos multicolinealidad ya que el indice de acondicionamiento es menor a 10. Sin embargo en las otras
pruebas si tuvimos multicolinealidad en esta etapa. Procedemos a la eliminación de esta variable y realizamos otra
matriz inversa sin la variable“nº emp _Act_inmobiliari“.
Al eliminar las variables que llevaban el problema de multicolinearidad nos encontramos con dos ultimas variables
: Nº varones y nº emp Info com. El indice de acondicionamiento es menor a 10 sin embargo en las otras pruebas
salió el problema de multicolinealidad. Al realizar la matriz inversa no logramos determinar la variable que causaba
el problema ya que la diagonal principal no nos decía mucho. Es por ello que decimos proceder con el segundo
método para eliminar variables, comparando las regresiones múltiples y sus resultados.
Análisis de Componentes
Principales
Componente Porcentaje de Porcentaje
Número Eigenvalor Varianza Acumulado
1 1 100 100
33
IA 3,160IA 1,000
FULLSCREEN HOME
34. 1. R-cuadrada = 92,7656 porciento
2. R-cuadrado (ajustado para g.l.) = 92,34 porciento
3. Error estándar del est. = 2832,31
4. Error absoluto medio = 1976,43
5. Estadístico Durbin-Watson = 1,72708 (P=0,2745)
6. Autocorrelación de residuos en retraso 1 = -0,00550153
MODELO (ELIMINAR MULTICOLINEALIDAD) Variables independientes:
Nº varones
Error Estadístico
Parámetro Estimación Estándar T Valor-P
CONSTANTE 873,128 918,767 0,950326 0,3553
Nº varones 0,00798041 0,000540518 14,7644 0
Análisis de Varianza
Fuente Suma de Cuadrados Gl Cuadrado Medio Razón-F Valor-P
Modelo 1,75E+09 1 1,75E+09 217,99 0
Residuo 1,36E+08 17 8,02E+06
Total (Corr.) 1,89E+09 18
La salida muestra los resultados de ajustar
un modelo de regresión lineal múltiple
para describir la relación entre nº emp
Industria y 1 variables independientes. La
ecuación del modelo ajustado es
nºempIndustria=873,128+0,00798041*Nº
varones
Puesto que el valor-P en la tabla ANOVA
es menor que 0,05, existe una relación
estadísticamente significativa entre las
variables con un
nivel de confianza del 95,0%.
REGRESIÓN MÚLTIPLE - Nº EMP
INDUSTRIA
34
FULLSCREEN HOME
35. 1. R-cuadrada = 63,4225 %
2. R-cuadrado (ajustado para g.l.) = 61,2709 %
3. Error estándar del est. = 6368,62
4. Error absoluto medio = 4796,86
5. Estadístico Durbin-Watson = 1,91048 (P=0,4411)
6. Autocorrelaciónderesiduosenretraso1=-0,0650305
MODELO (ELIMINAR MULTICOLINEALIDAD) Variables independientes:
nº emp Info com
Error Estadístico
Parámetro Estimación Estándar T Valor-P
CONSTANTE 5274,05 1745,94 3,02076 0,0077
nº emp Info
com
1,55209 0,285876 5,42924 0,0000
Análisis de Varianza
Fuente Suma de Cuadrados Gl Cuadrado Medio Razón-F Valor-P
Modelo 1,19555E9 1 1,19555E9 29,48 0,0000
Residuo 6,89508E8 17 4,05593E7
Total (Corr.) 1,88506E9 18
La salida muestra los resultados de ajustar
un modelo de regresión lineal múltiple
para describir la relación entre nº emp
Industria y 1
variables independientes. La ecuación del
modelo ajustado es
nº emp Industria = 5274,05 + 1,55209*nº
emp Info com
Puesto que el valor-P en la tabla ANOVA
es menor que 0,05, existe una relación
estadísticamente significativa entre las
variables con un
nivel de confianza del 95,0%.
REGRESIÓN MÚLTIPLE - Nº EMP
INDUSTRIA
35
FULLSCREEN HOME
36. MODELO (ELIMINAR MULTICOLINEALIDAD) Variables independientes:
Nº varones
Error Estadístico
Parámetro Estimación Estándar T Valor-P
CONSTANTE 873,128 918,767 0,950326 0,3553
Nº varones 0,00798041 0,000540518 14,7644 0
36
PRIMERA ESTIMACIÓN DEL MODELO AJUSTADO
Y ANÁLISIS DE LA SIGNIFICATIVIDAD Modelo Inicial Téorico (Ajustado)
Y=Bo+B1*X1+U
Lasalidamuestralosresultadosdeajustarunmodelo
de regresión lineal múltiple para describir la relación
entre nº emp Industria y 1 variables independientes.
La ecuación del modelo ajustado es
nº emp Industria = 873,128 + 0,00798041*Nº
varones
PRUEBAS DE HIPÓTESIS
•Cada parámetro
H0: βi = 0
H1: βi diferente a 0
•Modelo
H0: β1 = β2 = ... = βk = 0
H1: Al menos uno es diferente de 0
Puesto que el valor-P en la tabla ANOVA es menor
que 0,05 rechazamos la hipotesis nula planteada y
decimos que , existe una relación estadísticamente
significativa entre las variables con un nivel de
confianzadel95,0%,rezachandoconestolahipótesis
nula.Ydeigualmaneradadoqueelmodeloposeeun
valor-Pmenorque0,05podemos decirqueelmodelo
econométrico nos permite explicar en su globalidad
el número de empresas en el sector industrial en
España por lo cual rechazamos a hipotesis nula.
Análisis de Varianza
Fuente Suma de Cuadrados Gl Cuadrado Medio Razón-F Valor-P
Modelo 1,75E+09 1 1,75E+09 217,99 0
Residuo 1,36E+08 17 8,02E+06
Total (Corr.) 1,89E+09 18
FULLSCREEN HOME
37. Gráfico de Residuos
0 1 2 3 4 5
(X 1,E6)
Nº varones
-4
-2
0
2
4
RediduoEstudentizado
Gráfico de Residuos
0 4 8 12 16 20
número de fila
-4
-2
0
2
4
RediduoEstudentizado
Gráfico de RESIDUOS^2
-3 7 17 27 37 47
(X 1,E6)predicho
-3
7
17
27
37
47
(X 1,E6)
observado
Gráfico de Residuos
0 1 2 3 4
(X 1,E7)
predicho RESIDUOS^2
-4
-2
0
2
4
RediduoEstudentizado
Detección gráfica de posibles problemas
Podemos ver que dado que la grafica de residuos v N varones puede
llegar a asimilarse a una pequeña onda ascendente podemos
suponer quepodemosllegaratener poblemasdemulticolinealidad,pero
dado a que tras ser eliminado este problema anteriormente, nos hemos
quedado con 1 sola variable explicativa no poseemos este problema en
nuestromodelo,ademásdeello,siquepodemosverdeunaformaconica
quenosestaindicandoheterolasticidadenelmodeloestudiadorespecto
alosgráficosdeResiduosvsNvaronesyResiduosvspredichoResiduos^2.
Además a ello, podemos llegar a pensar que probablemente no hay
puntosanomalosenelmodelo,esdecir,residuosqueseseparanmucho
de lapauta marcada por el resto de los residuos del ajuste, dado que en
el grafico de Residuos vs predicho la mayoria de los datos se ajustan a la
linea de tendencia. La heterocedasticidad es un problema que aparece
cuando la varianza de la perturbación no es constante, si la varianza no
es constante tendremos un error en el calculo dentro de la estimación de
parámetros, predicciones, y contrastes de hipótesis en el modelo, por lo
cual procedemos a eliminar este problema.
37
FULLSCREEN HOME
38. ESTUDIO DE LA NORMALIDAD DE LOS RESIDUOS
Análisis de Varianza
Prueba Estadístico Valor-P
Chi-Cuadrado 10,6842 0,297977
Estadístico W
de Shapiro-
Wilk
0,973675 0,830776
Valor-Z para
asimetría
0,105986 0,915588
Valor-Z para
curtosis
Datos Insuficientes
Contraste de hipótesis para la normalidad de
residuos.
Ho: Los residuos se distribuyen normalmente
H1: Los residuos NO se distribuyen normalmente
P-Valor ≥ α aceptamos H0
Esta ventana muestra los resultados de
diversas pruebas realizadas para determinar si
los RESIDUOS puede se distribuyen normal.
La prueba de chi-cuadrada divide el rango de
RESIDUOS en 12 clases igualmente probables y
compara el número de observaciones en cada clase
con el número esperado de observaciones.
La prueba de sesgo estandarizado busca falta de simetría
en los datos. La prueba de curtosis estandarizada busca
si la forma de la distribución es más plana ó picuda que la
distribución normal. La curtosis estandarizada no pudo
ser calculada. Debido a que el valor-P más pequeño
de las pruebas realizadas es mayor ó igual a 0,05, no se
puede rechazar la idea de que RESIDUOS proviene de una
distribución normal con 95% de confianza.
38
FULLSCREEN HOME
39. HETEROCEDASTICIDAD
Heterocedasticidad
e2 = β0 + β1X1 + β2X2 + ... + βkXk + U
H0: σ2 = constante La variable no genera heterocedasticidad
H1: σ2 /= constante La variable genera heterocedasticidad
Como los Valor-P de la varible N varones y del
modelo respectos a los residuos al cuadrado son
menoresaa0.05 podemos decirquerechazamos
la hipótesis nula del modelo y aceptamos que
tenemos heterocedasticidad en nuestros datos y
procedemos a eliminarla.
39
RegresiónMúltiple - RESIDUOS^2
Variable dependiente:RESIDUOS^2
Variablesindependientes:
Nº varones
Númerode observaciones:19
Error Estadístico
Parámetro Estimación Estándar T Valor-P
CONSTANTE -2,74632E6 1,82834E6 -1,50208 0,1514
Nº varones 8,258 1,07563 7,67738 0,0000
Análisisde Varianza
Fuente Suma deCuadrados Gl Cuadrado Medio Razón-F Valor-P
Modelo 1,87246E15 1 1,87246E15 58,94 0,0000
Residuo 5,4005E14 17 3,17677E13
Total (Corr.) 2,41251E15 18
R-cuadrada= 77,6146 porciento
R-cuadrado(ajustadoparag.l.) = 76,2978 porciento
Error estándardel est.= 5,63628E6
Error absolutomedio=3,99775E6
EstadísticoDurbin-Watson=1,9366 (P=0,4496)
Autocorrelaciónde residuosenretraso1= -0,0195102
El StatAdvisor
La salidamuestralosresultadosde ajustarunmodelode regresiónlinealmúltiple paradescribirlarelaciónentre RESIDUOS^2y1 variables
independientes. Laecuacióndel modeloajustadoes
RESIDUOS^2 = -2,74632E6 + 8,258*Nº varones
Puestoque el valor-P enlatablaANOVA esmenorque 0,05, existe unarelaciónestadísticamente significativaentre lasvariablesconun
nivel de confianzadel 95,0%.
El estadísticoR-Cuadradaindicaque el modeloasíajustadoexplica77,6146% de lavariabilidadenRESIDUOS^2. El estadístico
R-Cuadradaajustada, que esmás apropiadapara comparar modeloscondiferente númerode variablesindependientes, es76,2978%. El error
estándardel estimadomuestraque ladesviaciónestándarde losresiduoses5,63628E6. Este valorpuede usarse paraconstruirlímitespara
nuevasobservaciones, seleccionandolaopciónde Reportesdel menúde texto. El errorabsolutomedio(MAE) de 3,99775E6 esel valor
promediode losresiduos. El estadísticode Durbin-Watson(DW) examinalosresiduosparadeterminarsi hayalgunacorrelación
significativabasadaenel ordenenel que se presentanenel archivode datos. Puestoque el valor-P esmayorque 0,05, no hay indicaciónde
una autocorrelaciónserial enlosresiduosconunnivel de confianzadel 95,0%.
Para determinarsi el modelopuede simplificarse, note que el valor-P másaltode lasvariablesindependienteses0,0000, que corresponde aNº
varones. Puestoque el valor-P esmenorque 0,05, ese términoesestadísticamente significativoconunnivel de confianzadel 95,0%.
Consecuentemente, probablementenoquisieraeliminarningunavariabledel modelo.
ESTUDIO DE LA HETEROCEDASTICIDAD
FULLSCREEN HOME
40. Se calcula un modelo téorico para el cual se elimina la heterocedasticidad de nuestro modelo.
Para llegar a el, debemos dividir todo el modelo inicial entre la variable explicativa que nos esta
causando heterocedasticidad y esta elevada a un exponente c.
El exponente c es el resultado de dividir el indice h entre 2, y de igual manera el indice h es el
resultado de calcular una regresión multiple respecto a los residuos al cuadrado y la variable
explicativa que nos esta causando este problema elevada a un h supuesto por el usuario.
Debemos probar valores de “h” hasta que encontremos el R2 más alto, “h” puede tomar
valores de tipo Real, aunque se recomienda el uso de Enteros positivos, Enteros negativos, y
fraccionarios entre 0 y 1.
En este caso nuestro indice h es de valor 3 que dividido entre dos nos resulta un valor de C igual
a 1.5, al cual elevaremos a la variable N Varones y cada elemento del modelo dividido entre
esta variable ya devidademente elevada al exponente c.
Como podemos ver logramos conseguir un modelo con muchas probablidades de no tener
heterocedasticidad pero de igualmanera, pero hasta que consigamos los residuos y se haga la
comprovación (residuos al cuadrado respecto a las variables explicativas del supuesto mdelo sin
heterocedasticidad) no se verá con certeza que no poseemos heterocedasticidad en el modelo.
Debemos explicar que en el modelo se ha quitado la constante automatica que escribe el
programa al hacer los calculos dado que la constante ya esta indicada en nuestro modelo.
Modelo resultante
nº emp Industria/(Nº varones^1,5) = -399,425*1/(Nº varones^1,5) + 0,0113827*Nº varones/(Nº
varones^1,5)
Solución teórica
DEBEMOS PROBAR VALORES DE“H”HASTA QUE ENCONTREMOS EL R2 MÁS ALTO.
40
𝑌
𝑋 𝑃
𝐶 =
𝛽0
𝑋 𝑃
𝐶 + 𝛽1
𝑋1
𝑋 𝑃
𝐶 + 𝛽2
𝑋2
𝑋 𝑃
𝐶 + ⋯ + 𝛽 𝐾
𝑋 𝐾
𝑋 𝑃
𝐶+U
𝑅𝑒𝑠𝑖𝑑𝑢𝑜𝑠2
= 𝛽0 + 𝛽1 𝑋 𝑃
ℎ
+ 𝑈
h "R2"
1 77,6146
2 83,1447
3 83,4205
4 82,3377
5 80,4974
-1 7,71161
-2 3,8439
0,5 65,5001
0,33 58,2286
h 3
C 1,5
RegresiónMúltiple - nº emp Industria/(Nº varones^1,5)
Variable dependiente:nºempIndustria/(Nºvarones^1,5)
Variablesindependientes:
1/(Nºvarones^1,5)
Nº varones/(Nºvarones^1,5)
Númerode observaciones:19
Error Estadístico
Parámetro Estimación Estándar T Valor-P
1/(Nº varones^1,5) -399,425 56,352 -7,08804 0,0000
Nº varones/(Nºvarones^1,5) 0,0113827 0,00103777 10,9685 0,0000
Análisisde Varianza
Fuente Suma deCuadrados Gl Cuadrado Medio Razón-F Valor-P
Modelo 3,07375E-9 2 1,53687E-9 68,80 0,0000
Residuo 3,79769E-10 17 2,23394E-11
Total 3,45351E-9 19
R-cuadrada= 89,0034 porciento
R-cuadrado(ajustadoparag.l.) = 88,3565 porciento
Error estándardel est. = 0,00000472645
Error absolutomedio=0,00000288022
EstadísticoDurbin-Watson=0,991486
Autocorrelaciónde residuosenretraso1= 0,176669
El StatAdvisor
La salidamuestralosresultadosde ajustarunmodelode regresiónlinealmúltiple paradescribirlarelaciónentre nºempIndustria/(Nº
varones^1,5) y 2 variablesindependientes. Laecuacióndel modeloajustadoes
nº empIndustria/(Nºvarones^1,5) =-399,425*1/(Nº varones^1,5) + 0,0113827*Nº varones/(Nºvarones^1,5)
Puestoque el valor-P enlatablaANOVA esmenorque 0,05, existe unarelaciónestadísticamente significativaentre lasvariablesconun
nivel de confianzadel 95,0%.
El estadísticoR-Cuadradaindicaque el modeloasíajustadoexplica89,0034% de lavariabilidadennºempIndustria/(Nºvarones^1,5). El
estadísticoR-Cuadradaajustada, que esmásapropiadapara comparar modeloscondiferente númerode variablesindependientes, es 88,3565%.
(Nota:debidoaque el modelonocontiene unaconstante, deberátenercuidadoal interpretarlosvaloresde R-cuadrada. Nocompare estos
valoresde R-cuadradacon aquellosmodelosque sícontienenunaconstante.) El error estándardel estimadomuestraque ladesviación
estándarde losresiduoses0,00000472645. Este valorpuede usarse paraconstruirlímitesparanuevasobservaciones, seleccionandola
opciónde Reportesdel menúde texto. El errorabsolutomedio(MAE) de 0,00000288022 es el valorpromediode losresiduos. El estadístico
de Durbin-Watson(DW) examinalosresiduosparadeterminarsi hayalgunacorrelaciónsignificativabasadaenel ordenenel que se
presentanenel archivode datos.
Para determinarsi el modelopuede simplificarse, note que el valor-P másaltode lasvariablesindependienteses0,0000, que corresponde a
1/(Nº varones^1,5). Puestoque el valor-P esmenorque 0,05, ese términoesestadísticamente significativoconunnivel de confianzadel
95,0%. Consecuentemente, probablemente noquisieraeliminarningunavariable del modelo.
FULLSCREEN HOME
41. RegresiónMúltiple - RESIDUOS2^2
Variable dependiente:RESIDUOS2^2
Variablesindependientes:
1/(Nºvarones^1,5)
Nº varones/(Nºvarones^1,5)
Númerode observaciones:19
Error Estadístico
Parámetro Estimación Estándar T Valor-P
CONSTANTE -7,19986E-11 0
1/(Nº varones^1,5) -0,00308438 0
Nº varones/(Nºvarones^1,5) 8,77537E-8 0
Análisisde Varianza
Fuente Suma deCuadrados Gl Cuadrado Medio Razón-F Valor-P
Modelo 0 2 0
Residuo 0 16 0
Total (Corr.) 0 18
R-cuadrada= 100,0 porciento
R-cuadrado(ajustadoparag.l.) = 0 porciento
Error estándardel est.= 0
Error absolutomedio=7,55079E-12
EstadísticoDurbin-Watson=1,0 (P=0,0081)
Autocorrelaciónde residuosenretraso1= 0
El StatAdvisor
La salidamuestralosresultadosde ajustarunmodelode regresiónlinealmúltiple paradescribirlarelaciónentre RESIDUOS2^2y2 variables
independientes. Laecuacióndel modeloajustadoes
RESIDUOS2^2 = -7,19986E-11 - 0,00308438*1/(Nº varones^1,5) + 8,77537E-8*Nº varones/(Nºvarones^1,5)
El estadísticoR-Cuadradaindicaque el modeloasíajustadoexplica100,0% de la variabilidadenRESIDUOS2^2. El estadísticoR-Cuadrada
ajustada, que esmás apropiadapara comparar modeloscondiferente númerode variablesindependientes, es0,0%. El error estándardel
estimadomuestraque ladesviaciónestándarde losresiduoses0,0. Este valorpuede usarse paraconstruirlímitespara nuevasobservaciones,
seleccionandolaopciónde Reportesdel menúde texto. El errorabsolutomedio(MAE) de 7,55079E-12 es el valorpromediode losresiduos.
El estadísticode Durbin-Watson(DW) examinalosresiduosparadeterminarsi hayalgunacorrelaciónsignificativabasadaenel ordenenel
que se presentanenel archivode datos. Puestoque el valor-P esmenorque 0,05, hay indicaciónde unaposible correlaciónserial conun
nivel de confianzadel 95,0%. Grafique losresiduosversusel númerode filaparaversi hay algúnpatrónque puedadetectarse.
El modelo no puede verificar dado
que no hay valores -P que nos den
una conclusión directa si hay o
no heterocelasticidad por lo que
suponemos que no existe mas el
problema de heterolasticidad y
etendemos que el modelo anteriór
es nuestro modelo para continuar
nuestro estudio.
41
VERIFICACIÓN DE
HETEROCELASTICIDAD
FULLSCREEN HOME
42. Autocorrelaciones Parciales Estimadas para RESIDUOS2
0 2 4 6 8
retraso
-1
-0,6
-0,2
0,2
0,6
1
AutocorrelacionesParciales
Autocorrelaciones Estimadas para RESIDUOS2
0 2 4 6 8
retraso
-1
-0,6
-0,2
0,2
0,6
1
Autocorrelaciones
FAS y FAP
SegúnelprimeranálisisdelosgraficosFAS
y FAP, no hay autocorrelación de ningún
grado, dado que en ningúno de los dos
gráficos, los factores de autocorrelación
(barras) cortan o superan a los limites de
autocorrelación (lineas rojas)
42
FULLSCREEN HOME
43. + no -
Gráfico de Durbin-Watson
n=19
k=1
α = 0,05
DL =1,18
DU = 1,40
0 41,40 2,6 2,821,18
ElEstadísticoDurbin-Watson=0,991486,ypara
un tamañode muestra n=19 y una sola variable
explicativa k=1, tenemos en las tablas que DL
=1,18 y DU = 1,40. Como el resultado ha sido
d=0,991486<1.18 la prueba indica claramente
la presencia de autocorrelación positiva de
primer orden.
43
FULLSCREEN HOME
44. Contraste de hipótesis de Durbin-Watson
Regresión Múltiple - nº emp Industria/(Nº varones^1,5)
Variable dependiente: nº emp Industria/(Nº varones^1,5)
Variables independientes:
1/(Nº varones^1,5)
Nº varones/(Nº varones^1,5)
Número de observaciones: 19
Error Estadístico
Parámetro Estimación Estándar T Valor-P
1/(Nº varones^1,5) -399,425 56,352 -7,08804 0,0000
Nº varones/(Nº varones^1,5) 0,0113827 0,00103777 10,9685 0,0000
Análisis de Varianza
Fuente Suma de Cuadrados Gl Cuadrado Medio Razón-F Valor-P
Modelo 3,07375E-9 2 1,53687E-9 68,80 0,0000
Residuo 3,79769E-10 17 2,23394E-11
Total 3,45351E-9 19
R-cuadrada = 89,0034 porciento
R-cuadrado (ajustado para g.l.) = 88,3565 porciento
Error estándar del est. = 0,00000472645
Error absoluto medio = 0,00000288022
Estadístico Durbin-Watson = 0,991486
Autocorrelación de residuos en retraso 1 = 0,176669
El StatAdvisor
La salida muestra los resultados de ajustar un modelo de regresión lineal múltiple para describir la relación entre nº emp Industria/
(Nº
varones^1,5) y 2 variables independientes. La ecuación del modelo ajustado es
nº emp Industria/(Nº varones^1,5) = -399,425*1/(Nº varones^1,5) + 0,0113827*Nº varones/(Nº varones^1,5)
Puesto que el valor-P en la tabla ANOVA es menor que 0,05, existe una relación estadísticamente significativa entre las variables
con un
nivel de confianza del 95,0%.
El estadístico R-Cuadrada indica que el modelo así ajustado explica 89,0034% de la variabilidad en nº emp Industria/(Nº varones^
1,5). El
estadístico R-Cuadrada ajustada, que es más apropiada para comparar modelos con diferente número de variables independientes, es
88,3565%.
(Nota: debido a que el modelo no contiene una constante, deberá tener cuidado al interpretar los valores de R-cuadrada. No
compare estos
valores de R-cuadrada con aquellos modelos que sí contienen una constante.) El error estándar del estimado muestra que la
desviación
estándar de los residuos es 0,00000472645. Este valor puede usarse para construir límites para nuevas observaciones, seleccionando
la
opción de Reportes del menú de texto. El error absoluto medio (MAE) de 0,00000288022 es el valor promedio de los residuos. El
estadístico
de Durbin-Watson (DW) examina los residuos para determinar si hay alguna correlación significativa basada en el orden en el que
se
presentan en el archivo de datos.
Dado que no poseemos el Valor-P del
estadistico Durbin Watson que nos permite
hacer el contraste de hipótesis para poder
concluir una respuesta sobre la presencia de
autocorrelación de los residuos en el modelo,
no podemos llegar a una respuesta tras este
metodo. Y lo que si podemos decir es que, La
Razón-F se esta lo suficientemente aceptable
por lo que suponemos que podria no haber
problemas de autocorrelación dejando la
respuesta a los proximo análisis.
44
FULLSCREEN HOME
45. Puntos Influyentes
Distancia de
MahalanobisFila Influencia DFITS
10 0,508072 16,6135 -0,147333
15 0,485712 15,111 -0,373854
19 0,164336 2,39866 3,22643
Influencia media de un solo punto = 0,105263
Puntos atípicos
Fila Y Predicha Residuo Estudentizado
19 0,0000379624 0,0000223515 0,0000156109 7,28
Respectoalospuntos influyentespodemosverquetenemos
del resultado de dos veces la raiz cuadrada de la influencia
media de un solo punto (0.105263) es igual a 0.64889. Dado
que el valor del DFITS para la fila 19 es mayor o igual a este
valoranteriormenteseñaladoesteesconsideradoinfluyente
para el resto de los valores del modelo económetrico.
Y hablando respecto a los puntos anómalos o atípicos,
podemos decir que los residuos estudentizados de la fila
19 so mucho mayores a 3 por lo que se convierten en un
punto anòmalo y candidato a ser eliminado del modelo.
Dado a estas dos conclusiones, eliminamos del modelo la
fila19de datosque correspondenalacomunidad autonoma
de“La Rioja”.
Punto Anómalo
Punto Anómalo candidato a eliminar del
modelo
45
Estudio puntos anómalos e influyentes FULLSCREEN HOME
46. + no -
Gráfico de Durbin-Watson 2
n=18
k=1
α = 0,05
DL =1,16
DU = 1,39
0 41,39 2,61 2,841,16
En el primer grafico de Durbin Watson identificamos la
autocorrelacion con n= 19. Sin emabargo encontramos que
en la fila 19 habia un punto anomalo, por lo cual eliminamos
esa fila. Es asi que hicimos un segundo grafico de Durbin-
Watson con n= 18.
El Estadístico Durbin-Watson = 1,54773, y para un tamañode
muestra n=18 y una sola variable explicativa k=1, tenemos
en las tablas que DL =1,16 y DU = 1,39. Como el resultado ha
sido d=1,54773>1,16 la prueba indica claramente la ausencia
de autocorrelación en nuestro modelo.
Finalmente, como la autocorrelacion no aparece en el FAS y
FAP, y no podemos ver el P-Valor, podemos concluir que no
existe autocorrelación en nuestro modelo.
46
FULLSCREEN HOME
47. 47
R-cuadrada = 100,0 porciento
R-cuadrado (ajustado para g.l.) = 0 porciento Error estándar del
est. = 0
Errorabsolutomedio=0,0000014617EstadísticoDurbin-Watson
= 1,54773
Autocorrelación de residuos en retraso 1 = 0,205636
El StatAdvisor
Lasalidamuestralosresultadosdeajustarunmodeloderegresión
lineal múltiple para describir la relación entre nº emp Industria/
(Nº varones^1,5) y 2 variables independientes. La ecuación del
modelo ajustado es
nº emp Industria/(Nº varones^1,5) = -337,635*1/
(Nº varones^1,5) + 0,00977479*Nº varones/(Nº
varones^1,5)
Análisis de Varianza
Fuente Suma de Cuadrados Gl Cuadrado Medio Razón-F Valor-P
Modelo 2,01237E-9 2 1,00618E-9
Residuo 0 16 0
Total 2,01237E-9 18
Error
Parámetro Estimación Estándar T Valor-P
1/(Nº
varones^1,5)
-337,635 0
Nº varones/(Nº
varones^1,5)
0,00977479 0
Propuesta de modelo final: Corregir
sus posibles problemas
FULLSCREEN HOME
48. 48
Resultados de la Regresión para nº emp Industria/(Nº varones^1,5)
Ajustado Error Est. Inferior 95,0% Superior 95,0% Inferior 95,0%
Fila LC para
Pronóstico
LC para
Pronóstico
LC para
Pronóstico
LC para la Media
19 4,0658E-06 0 4,0658E-06 4,0658E-06 4,0658E-06
(Nº varones^1,5) 1102017841
Predicción (Industria/
(Nº varones^1,5) )*(Nº
varones^1,5)
4480,584139 4480,584139 4480,584139 4480,584139
Superior 95,0%
Fila LC para la Media
19 4,0658E-06
Para realizar la prediccion puntual usamos un numero que escojimos al
azar y lo colocamos en la fila 19 (previamente eliminada debido a que era
un punto anomalo) y usamos la opcion "Reportes". Es asi que al obtener
nuestros resultados en statgraphic , procedimos a resolver la ecuacion
para encontrar el valor de " nº emp Industria" .
nº emp Industria/(Nº varones^1,5)
Para finalizar multiplicamos:
4,0658E-06 * (1066905)^1,5 = 4480,54
Por lo tanto la prediccion puntual es de 4480,54, lo cual significa que
si hay 1 066 905 varones en la comunidad de "La Rioja" habran 4481
empresas.
Creemos que puede haber un problema con nuestros resultados por
que nuestros datos no son una serie temporal. A lo largo del trabajo
usamos datos de comunidades españolas en un año en especifico.
PREDICCIONES FULLSCREEN HOME
49. 49
Queriamos explicar el numero de empresas en el sector industrial en las diferentes comunidades españolas, por lo cual usamos 10
variables explicativas.
Debido a los problemas de multicolinealidad eliminamos 9 variables y nos quedamos con 1 : N varones
Encontramos que :
la variable y el modelo son sgnificativos
los residuos estas distribuidos de forma normal
no existen problemas de heterocedasticidad
no existen problemas de autocorrelacion
no existen puntos anomalos/ influyentes
Podemos concluir que el numero de varones que residen en una comunidad española explica el numero de empresas en el
sector industrial que existe en esa comunidad.
CONCLUSIONES
FULLSCREEN HOME