1. ESTUDIO DE LAS TASAS DE CRECIMIENTO DE LA
POBLACIÓN DE LOS DEPARTAMENTOS DE COLOMBIA
UTILIZANDO ANÁLISIS MULTIVARIADO. SANTO
TOMÁS DE AQUINO SECCIONAL BUCARAMANGA.
Presentado por:
Yully Andrea López Rueda
Trabajo de grado para optar por el título de
Ingeniera Industrial
2020
2. •Pruebas de
supuestos
•Comparaciones de
pares de medias
• Diagrama dispersión
• Método de mínimos
cuadrados
• Modelo de regresión
lineal múltiple
•Definición de
variables estadísticas
•Estimadores
puntuales
•ANOVA
Unidireccional
•Regresión Lineal
Múltiple
Revisión de
marco teórico
Procesamiento
de la
información
Análisis de
varianza
(ANOVA) -
Unidireccional
Modelo de
regresión y
correlación
PLANIFICACIÓN DEL
ESTUDIO
3. PLANTEAMIENTO DEL
PROBLEMA
Crecimiento
poblacional
Análisis de
varianza -
Unidireccional
Factor
(Tamaño)
Habitantes
Regresión lineal
múltiple
Estimación por
serie de tiempo
y tamaño
Formulación del problema
¿Cuáles son los factores que influyen
directamente en el crecimiento demográfico
de los distintos departamentos de Colombia?
¿Cómo estimar con alto grado de confiabilidad
las distintas proyecciones de crecimiento
poblacional?
4. OBJETIVOS DE LA
INVESTIGACIÓN
Objetivo general
Identificar, modelar y estimar a través de
análisis multivariado, los distintos factores que
influyen en el crecimiento poblacional en los
departamentos de Colombia.
Objetivos específicos
Diseñar un experimento de ANOVA –
Unidireccional que explique la
relación entre factor, variable
respuesta y error experimental.
Realizar procesos de comparación de
medias que permitan identificar los
departamentos en lo que influye el
factor analizado.
Modelar una función de regresión
lineal múltiple, que permita estimar
proyecciones de crecimiento en años
futuros.
5. METODOLOGÍA
Base de datos original.
(Pocos datos)
Clasificación por
categoría ordinal
ANOVAS –
Unidireccionales año
2005 y 2020
Modelo de ANOVA - Unidireccional
Experimento - Unidad Experimental
(Departamento)
Extensión en Km2
i= ( Pequeño, Mediano, Grande) = 3
Variable respuesta
Cantidad de habitantes anual
7. METODOLOGÍA
Independencia Transformación de variables
• Se utilizó función ALEATORIO ENTRE de Excel. Se considera buen
generador lineal congruencial.
• Análisis estadístico mediante prueba de rachas (prueba no
paramétrica).
Fuente.
http://halweb.uc3m.es/esp/Personal/personas/jm
marin/esp/EDescrip/tema4.pdf
9. METODOLOGÍA
Verificación de supuestos ANOVA ANOVA Ajustada Año 2005
Análisis de varianza de un factor
RESUMEN
Grupos Cuenta Suma Promedio Varianza
GRANDE 11 136,512742 12,4102493 2,71620666
MEDIANO 11 152,664879 13,8786254 0,53710077
PEQUEÑO 11 152,262197 13,8420179 1,40164631
ANÁLISIS DE VARIANZA
Origen de las
variaciones
Suma de
cuadrados
Grados de
libertad
Promedio de
los
cuadrados
F Probabilidad
Valor crítico
para F
Entre grupos 15,427242 2 7,71362102 4,97123373 0,01365512 3,3158295
Dentro de los grupos
46,5495375 30 1,55165125
Total 61,9767795 32
• Nivel de confiabilidad seleccionado para la prueba del 95%
12. METODOLOGÍA
Verificación de supuestos ANOVA ANOVA Ajustada Año 2020
• Nivel de confiabilidad seleccionado para la prueba del 95%
Análisis de varianza de un factor
RESUMEN
Grupos Cuenta Suma Promedio Varianza
GRANDE 11 138,951566 12,6319605 2,67587646
MEDIANO 11 154,239218 14,0217471 0,5280801
PEQUEÑO 11 154,064211 14,0058373 1,44048354
ANÁLISIS DE VARIANZA
Origen de las
variaciones
Suma de
cuadrados
Grados de
libertad
Promedio de
los
cuadrados
F Probabilidad
Valor crítico
para F
Entre grupos 14,004091 2 7,00204549 4,52285659 0,01919634 3,3158295
Dentro de los grupos
46,444401 30 1,5481467
Total 60,4484919 32
14. METODOLOGÍA
Regresión Lineal Múltiple
• Modelo aplicado a los distintos departamentos
caracterizados en la base de datos. Se realizó
codificación de variable cualitativa.
15. METODOLOGÍA
Regresión Lineal Múltiple
X3 X4 X5 X6 X7
Andina 1 0 0 0 0
Orinoquia 0 1 0 0 0
Pacifico 0 0 1 0 0
Caribe 0 0 0 1 0
Amazonia 0 0 0 0 1
Codificación de variables por departamento
** Se debe tener en cuenta que en la codificación de estas variables, existe un grado de libertad
que no se debe colocar como variable independiente, para el caso de región será X7 (Amazonia)
X1 X2 X3 X4 X5 X6 Y
Año Área en Km2
Habitantes
2005 63.612 Km2 1 0 0 0 5.682.276
2005 3.388 Km2 0 0 0 1 2.166.156
2005 1.775 Km2 1 0 0 0 6.840.116
2005 25.978 Km2 0 0 0 1 1.878.993
2005 23.189 Km2 1 0 0 0 1.255.311
2005 7.888 Km2 1 0 0 0 968.740
2005 88.965 Km2 0 0 0 0 420.337
2005 29.308 Km2 0 0 1 0 1.268.937
2005 22.905 Km2 0 0 0 1 903.279
2005 25.020 Km2 0 0 0 1 1.467.929
2005 22.633 Km2 1 0 0 0 2.280.037
2005 46.530 Km2 0 0 1 0 454.030
2005 19.890 Km2 1 0 0 0 1.011.418
2005 20.848 Km2 0 0 0 1 681.575
2005 23.188 Km2 0 0 0 1 1.149.917
2005 85.635 Km2 0 1 0 0 783.168
2005 33.268 Km2 0 0 1 0 1.541.956
2005 21.658 Km2 1 0 0 0 1.243.975
2005 1.845 Km2 1 0 0 0 534.552
2005 4.140 Km2 1 0 0 0 897.509
2005 30.537 Km2 1 0 0 0 1.957.789
2005 10.917 Km2 0 0 0 1 772.010
2005 23.562 Km2 1 0 0 0 1.365.342
2005 22.140 Km2 0 0 1 0 4.161.425
2005 23.818 Km2 0 1 0 0 232.118
2005 44.640 Km2 0 1 0 0 295.353
2005 24.885 Km2 0 0 0 0 310.132
2005 52 Km2 0 0 0 1 70.554
2005 109.665 Km2 0 0 0 0 67.726
2005 72.238 Km2 0 0 0 0 35.230
2005 53.460 Km2 0 0 0 0 95.551
2005 54.135 Km2 0 0 0 0 39.279
2005 100.242 Km2 0 1 0 0 55.872
Región
Base de datos codificada para regresión lineal múltiple. Años 2005 a 2010
• Revisar el % de precisión de los años 2011 a 2015
respecto a los resultados obtenidos entre los años
2005 a 2010
16. METODOLOGÍA
Regresión Lineal Múltiple
• Revisar el % de precisión de los años 2011 a 2015 respecto a los resultados obtenidos entre los
años 2005 a 2010
Estadísticas de la regresión
Coeficiente de correlación múltiple 0,53505457
Coeficiente de determinación R^2 0,28628339
R^2 ajustado 0,26386297
Error típico 1356042,78
Observaciones 198
ANÁLISIS DE VARIANZA
Grados de
libertad
Suma de
cuadrados
Promedio de
los
cuadrados
F
Valor crítico
de F
Regresión 6 1,4088E+14 2,348E+13 12,7688701 4,1709E-12
Residuos 191 3,5122E+14 1,8389E+12
Total 197 4,921E+14
Coeficientes Error típico Estadístico t Probabilidad Inferior 95%
Superior
95%
Inferior
95,0%
Superior
95,0%
Intercepción -32248551,1 113280643 -0,28467839 0,77619897 -255690314 191193212 -255690314 191193212
X1 15878,2719 56428,3558 0,28138817 0,7787173 -95424,5151 127181,059 -95424,5151 127181,059
X2 8,02241887 4,9748108 1,61260783 0,1084808 -1,79020634 17,8350441 -1,79020634 17,8350441
X3 2459353,02 366032,369 6,71894955 2,048E-10 1737368,08 3181337,95 1737368,08 3181337,95
X4 222042,167 357807,397 0,62056338 0,5356267 -483719,322 927803,656 -483719,322 927803,656
X5 2014694,96 396241,28 5,08451558 8,7584E-07 1233124,1 2796265,83 1233124,1 2796265,83
X6 1417251,57 391119,02 3,6235813 0,00037243 645784,168 2188718,97 645784,168 2188718,97
Resumen
• ECUACIÓN ESTIMADA DE REGRESIÓN LINEAL
MÚLTIPLE
17. CONCLUSIONES
La técnica ANOVA demostró que el tamaño del
departamento influye en el crecimiento poblacional. La
prueba Tukey dio resultados de diferencias significativas
entre departamentos de tamaño grande con pequeños y
medianos pero no entre ellos mismos,
Se debe seguir realizando una revisión sistemática de
literatura para optimizar el modelado en la regresión
lineal múltiple, que permita mejorar el coeficiente de
determinación del modelo y explique de mejor forma el
crecimiento demográfico departamental.
18. CONCLUSIONES
El análisis de varianza como técnica de diseño de experimentos,
permite contextualizar a las diferentes realidades como un factor
influye en una variable respuesta.
Al realizarse una verificación de supuestos para la aplicación de ANOVA
se encontró una aplicación de transformación de variables para aceptar
los supuestos y aplicar la técnica.
Los procesos de modelación por regresión lineal múltiple muestran la
fuerte afectación entre los distintos factores que influyen en una
respuesta. Además se debe tener en cuenta la asociación o correlación
entre estas (Multicolinealidad en modelos de regresión)
19. REFERENCIAS
1.NEWBOLD, P. (1996) Estadística para los negocios y la economía. Madrid: Prentice Hall.
2.ANDERSON D., SWEENEY D. (2008), Williams T. Estadística para la administración y economía. Décima edición.
Cengage Learning.
3.MONTGOMERY D. (2006), Diseño y análisis de experimentos. Segunda edición. Limusa Wiley.
4.Multicolinealidad. https://www.uv.es/uriel/material/multicolinealidad3.pdf
5.MORENO DEL VALLE “La Multicolinealidad en modelos de Regresión Lineal Múltiple”
http://scielo.sld.cu/scielo.php?script=sci_arttext&pid=S2071-00542012000400013
6.GARCÍA J. “Modelos de regresión lineal múltiple en presencia de variables cuantitativas y cualitativas para
predecir el rendimiento estudiantil” http://ve.scielo.org/scielo.php?script=sci_arttext&pid=S0378-
78182006000200007
7.Conceptos básicos de ANOVA https://www.maximaformacion.es/blog-dat/que-es-el-anova-de-una-via/
8.Conceptos básicos de ANOVA https://conceptosclaros.com/analisis-varianza-anova/
20. “Como comunidad somos los mejores, pero nos preparamos día a día
para hacernos excelentes. Dios les bendiga en este final de año”