Análisis de Regresión.pptx

Análisis de Regresión
Ing. Edmundo Torres Flores, MBA
Julio del 2022

Objetivo
Aprender los conceptos y características de los modelos de
análisis para utilizar las fórmulas físicas válidas y el pronóstico
del trabajo en series de tiempo en relación a los modelos de
regresión de acuerdo a las variables de los mismos.
(Aprender lo básico para hacer pronósticos y reconocer relación entre
variables)

Temario
1. Introducción a los modelos de pronósticos
a) Definición de pronóstico y de modelo
b) Características de los modelos de pronósticos
c) Clasificación de los modelos de pronósticos
d) Marco conceptual de un modelo de pronósticos
e) Criterios de desempeño de los modelos de pronósticos
f) Usos y aplicaciones de los modelos de pronósticos
2. Modelos de regresión
a) Definición de regresión, correlación, ecuación de predicción, optimización,
modelos lineales, modelos no lineales
b) Usos de los modelos de regresión.
c) Regresión lineal simple
• Método de los mínimos cuadrados
d) Regresión lineal múltiple
e) Regresión Polinomial
f) Selección de Variables
3. Modelos de series de tiempo

Forma de Evaluación
• Participación en Clase Discrecional
• Actividades (Tareas) 50%
• Examen 50%
Puntos indispensables
 Tanto actividades diarias como examen, requieren de mostrar procedimiento usado y un comentario sobre las
conclusiones.
 Las tareas deberán ser subidas a la plataforma a tiempo, de lo contrario no serán calificadas.
 Es necesario entregar tareas para tener derecho a examen. (Nivel de tolerancia máximo: (1) Tarea faltante)

Que es un pronóstico
El pronóstico en estadística es la estimación sobre lo que se espera que pueda
suceder respecto a una variable. Esto, en base a un análisis numérico(*).
Es decir, el pronóstico es una forma de adelantarse a lo que puede acontecer en
el futuro, siempre utilizando herramientas matemáticas.
Ejemplos
Demanda, PIB, Ventas,
Utilidades, Uso de
Capacidad, etc.
(*) También existen modelos cualitativos pero son
menos rigurosos

Tipos de pronóstico
Pronósticos a corto plazo: Tiene vigencia de un año. Suele usarse para planear el
abastecimiento de insumos, calcular el nivel de producción y para la asignación de mano
de obra a las distintas tareas.
Pronósticos a mediano plazo: Pueden tener un plazo de seis meses a tres años. Se
utilizan para estimar ventas, producción y flujo efectivo. Igualmente, permiten
estructurar presupuestos basados en objetivos de mediano y largo plazo.
Pronósticos a largo plazo: Tienen un horizonte de más de tres años. Suelen usarse para
estimar los resultados de ciertas inversiones, estudiar el lanzamiento de nuevos
productos, evaluar tendencias del mercado y, en general, elaborar proyectos de largo
alcance. (Proyectos de inversión grandes)

Características de los Pronósticos
Es consistente con las demás áreas del negocio. Si marketing pronosticó un crecimiento
del 25% de unidades vendidas entonces producción y recursos humanos deben estar en
capacidad de cumplir.
Se basa en el conocimiento adecuado del pasado relevante. Aunque hay excepciones, la
regla es que comportamientos ocurridos en el pasado son fuente de predicción del
futuro. Tiene en cuenta variables nuevas o esperadas en el futuro.
Tiene en cuenta el entorno político y económico. Un cambio en las condiciones de estos
factores puede traer consecuencias enormes en cualquier sector económico.
Es oportuno. Ya sea para ganar cuota de mercado introduciendo un nuevo producto o
para retirar otro y evitar una crisis, el más preciso de los pronósticos pierde toda su
utilidad si se ha dejado pasar la oportunidad correcta de aplicarlo en la planeación.

Clasificación de los Modelos de Pronósticos
Modelos objetivos o cuantitativos
Los métodos cuantitativos abarcan el estudio de
variables dependientes o que tienen efectos sobre
otras variables. Para utilizar modelos cuantitativos es
necesario aplicar cálculos matemáticos con los
factores más importantes del estudio.
• Modelos de regresión
• Análisis cíclicos y de series de tiempo
• Promedios móviles
• Modelos econométricos
• Suavización exponencial
• Modelos de simulación
Modelos subjetivos o cualitativos
Los métodos cualitativos pueden ser difíciles de
explicar numéricamente y se enfocan en el estudio de
características. Estos pronósticos pueden componerse
de las opiniones o el consenso de ideas de expertos.
Por lo tanto, los datos se procesan de una manera
específica bajo premisas.
• Panel de expertos o método Delphi.
• Analogía histórica o de estudios anteriores
• Encuestas de satisfacción
• Investigación de mercados
• Evaluación de clientes
• Análisis de un grupo de expertos
• Conclusiones acerca de los modelos de
Pronósticos

Concepto de Pronóstico
0.0
20.0
40.0
60.0
80.0
100.0
120.0
140.0
160.0
180.0
1 2 3 4 5 6 7 8 9 10 11 12 13
miles
de
unidades
Años
Ventas autos electricos USA
A partir de datos históricos (suficientes y confiables
de una o mas variables conocidas-independientes),
identificar y proponer un modelo matemático que
describa suficientemente bien el comportamiento de
una variable independiente de interés.
Lo valioso es que este análisis nos permite realizar
extrapolaciones hacia el futuro con un grado de error
conocido.
𝑦 = 𝑓 𝑥1,𝑥2, 𝑥3, … . 𝑥𝑛 + е
𝑦 es un estimador de la variable dependiente y
Una, o n variables
Función lineal o no lineal

Criterios de desempeño de los modelos de
pronósticos (para cada período de tiempo)
Error de periodo
También conocida como desviación de la observación o de evento (et), es la fórmula más básica del proceso de estimación, de ella
derivan gran parte de los indicadores de precisión.
Yt representa la demanda real y Ŷt representa el valor de pronóstico, la desviación entre estas dos variables da como resultado un
valor dimensional, puede ser tanto positivo como negativo e indica el valor de desviación entre la demanda y el pronóstico en el
periodo t.
Error absoluto de periodo
Mide la desviación en valor nominal o la magnitud entre el valor de la demanda y el valor del pronóstico en el periodo t.
Este indicador busca evitar el fenómeno que ocurre con el indicador anterior (desviación de periodo) al momento de promediar o
sumar desviaciones dado que valores negativos y positivos se netean, con este indicador de desviación absoluta el resultado global
al momento de acumular las deviaciones absolutas de N periodos su resultado será un valor nominal positivo.

pronósticos
Error cuadrático de periodo
Mide la desviación en valor nominal entre el valor de la demanda y el valor del pronóstico, pero elevada al cuadrado en el periodo t.
Tiene la misma propiedad que el indicador anterior, solo que este indicador castiga los periodos con altas desviaciones elevándola al
cuadrado (alejando al pronóstico del objetivo que es estar cercano a cero).
% del Error de periodo
Es la manifestación de un error relativo en términos porcentuales entre la observación real (demanda) y el pronóstico en el periodo
t.

pronósticos
Ejemplo

pronósticos (de selección)
MAD (Mean Absolute Desviation)
Representa la desviación promedio del pronóstico en valores absolutos. Mide la dispersión entre los valores de la demanda y
los valores del pronóstico.
Se obtiene tomando el promedio de las observaciones del indicador número 2, mediante el valor absoluto de las diferencias
entre la demanda real y la pronosticada, dividida entre la cantidad de errores.
MSE (Mean Square Error)
Es el promedio de los cuadrados de las desviaciones de la estimación en los N periodos.
Los resultados son valores poco entendibles dentro del proceso de estimación debido a que las desviaciones son elevadas al
cuadrado, en ocasiones son valores de 6, 7 y hasta más dígitos, como se mencionó en el indicador número 3 el objetivo de este
indicador es castigar los modelos con alto nivel de desviación (para irlos descartando) alejándolos del objetivo de acercarseal
cero.

pronósticos (de selección)
RMSE (Root Mean Square Error)
Es la raíz del promedio de los cuadrados de las diferencias de la estimación en los N periodos, es uno de los indicadores de
precisión más confiables para comparar los diferentes métodos o criterios de pronóstico.
También es conocido como la desviación del error cuadrático con la expresión δMSE ó raíz del MSE , esta medida junto con la
desviación del MAD son los indicadores más recomendados para (hacer match) seleccionar el mejor modelo de pronóstico,
pero a pesar su efectividad probada ésta no es muy utilizada entre los planeadores.
AIC (Akaike Information Criterion)

pronósticos (de interpretación)
MAPE (Mean Absolute Percentage Error)
Mide la magnitud del error en valor porcentual, no considera el signo del error. El MAPE es una de las medidas más utilizadas a nivel
mundial, no es recomendable para la selección de un modelo puesto que presenta sesgos que favorece a los pronósticos que están
por debajo de los valores reales.
El hecho que se estime una magnitud de la desviación porcentual lo hace un indicador frecuentemente utilizado por los encargados
de elaborar pronósticos debido a su fácil interpretación, incluso es útil cuando no se conoce o no se tiene a la mano el volumen de
demanda del producto dado que es una medida relativa. Por ejemplo, afirmar que la “desviación porcentual promedio es un 10%”
es más fácil de comprender que cuando se dice “la desviación absoluta media por período es de 5.600 unidades”

pronósticos (de interpretacion)
MPE (Mean Percentage Error)
Es una métrica simple, sirve para mostrarnos si la desviación del pronóstico presenta sesgo positivo o negativo, también se dice que
el pronóstico está optimista o conservador.
Hay que recordar que como planeadores debemos evitar mantenernos varios periodos consecutivos subestimando (underfitting) o
sobrestimando (overfitting), la primera generaría ruptura de stock y la segunda excesos de inventarios. Su resultado pueden ir desde
-100% hasta +100% y cuando un modelo de pronóstico exhibe un MPE consistentemente alejado de cero o periódicamente
mantiene el sesgo (positivo o negativo) debe evaluarse la necesidad de replantearlo pues el modelo puede estar peligrosamente
sesgado.

pronósticos (de interpretacion)
WMAPE (Weighted Mean Absolute Percentage Error)
Es el MAPE ponderado por el peso de la demanda. Es un indicador muy recomendado ya que la
ponderación del total minimiza los efectos de productos con demanda muy variable, pero con poco
impacto en los valores reales, al igual que el MAPE presenta sesgos que favorece a los pronósticos que
están por debajo de los valores reales.
R2 Coeficiente de Determinación
Este coeficiente determina la calidad del modelo para interpretar los resultados y la proporción de
variación de los resultados que puede explicarse por el modelo. El resultado del coeficiente de
determinación oscila entre 0 y 1. Cuanto más cerca de 1 se sitúe su valor, mayor será el ajuste del
modelo a la variable que estamos intentando explicar.
WMAPE = 𝑡=1
𝑇 ⃓𝑦−𝑦⃓
𝑡=1
𝑇 ⃓𝑦⃓

pronósticos (de asertividad)
FA (Forecast Accuracy)
La forma más común de medir la asertividad de un pronóstico es comparar los
resultados del pronóstico contra los valores reales, si sabemos de antemano que el
pronóstico va a presentar un nivel de desviación (ver el vaso medio vacío), porque no
presentar la información con el lado bueno del desempeño del modelo (ver el vaso
medio lleno). El objetivo es encontrar valores cercanos a 1 para emitir juicios favorables
sobre el modelo de pronóstico seleccionado.
Si el MAPE o WMAPE representa el vaso medio vacío, (1- MAPE) ó (1-WMAPE)
representará el Forecast Accuracy ósea el vaso medio lleno.

pronósticos (de asertividad)
U de Tehil
Es un indicador econométrico, el coeficiente de desigualdad U de Theil es otra medida
que permite analizar la efectividad del modelo seleccionado en la predicción.
Recordemos que las medidas de desviaciones absolutas en lugar de las desviaciones
cuadráticas suelen presentar sesgos y éstos últimos penalizan en mayor medida las altas
desviaciones. La elección dependerá de la importancia que se les dé a las altas
desviaciones. El coeficiente de desigualdad U de Theil presenta una solución para estos
escenarios.
Si el U de Theil es cercano a cero, entonces nos indicaría que el modelo realiza una
buena predicción, pero si analizamos los componentes del Theil como el sesgo si no
tiende a cero, la varianza es pequeña y la covarianza no es muy alta se puede concluir
que el modelo de estimación no es efectivo, es poco usado por los profesionales de
planeación.

pronósticos (de control)
T.S. (Señal de Rastreo)
Es una medida de control que permite medir la desviación del pronóstico respecto a
variaciones en la demanda. Análogamente se puede interpretar como el número de
MADs (Desviación Media Absoluta o Mean Absolute Deviation) que el pronóstico está
sobrestimado o subestimado.
Si los límites de control se establecen en más o menos 3 desviaciones estándar
(aproximadamente 3,75 MAD), entonces el 99,7% de los puntos caerían dentro de estos
límites, entonces podemos decir que el modelo de pronóstico se encuentra estable.

Modelos de regresión
Regresión
El análisis de regresión es una herramienta de frecuente uso en estadística. La cual permite investigar
las relaciones entre diferentes variables cuantitativas.
Variable dependiente y variable(s) independiente(s)
Esto, mediante la formulación de ecuaciones matemáticas.
Una crítica común a este tipo de modelo de predicción matemática es que no es óptimo, pues suele
confundir correlación con CAUSALIDAD.
Correlación
Es el grado de influencia que la(s) variable(s) independientes tienen sobre la variable dependiente.

Ecuación de Predicción
La ecuación de predicción es una formula matemática por medio de la cual se estima o "predice" los valores
que tomara la variable dependiente (por ejemplo, Ia calificación semestral que obtendrá un aspirante a
determinado programa a universitario}, a partir de una o varias variables independientes que ya se
conocen.
y = f(x1,x2…..xp) + ϵ
y = Variable dependiente y
x1,x2…..xp = variable(s) independiente(s)
ϵ = errores o residuos
y=β0+β1x1+β2x2….. +βpxp + ϵ (modelo lineal multiple)
Los errores son variables aleatorias con media 0 y varianza constante σ2 y son independientes entre si

Estimación de parámetros β0, β1, β2, βp
Estos parámetros poblacionales son estimados a través de las estadísticas muéstrales (que son
estimadores insesgados):
b0, b1, b2…..bp
Y por supuesto también tienen una distribución muestral con media, varianza etc. y para ellos también
pueden establecerse intervalos de confianza y pruebas de hipótesis.

Modelos lineales, modelos no lineales
Modelo lineal
Es cuando la relación matemática entre las variables es lineal (grado1)
Modelo no lineal
Es cuando la relación matemática entre las variables NO es lineal
• Modelo polinómico
• Modelo de potencia
• Modelo logarítmico
• Modelo exponencial
• Etc.

Regresión lineal simple (una variable independiente o predictora, la forma más simple de análisis de
regresión)
La regresión lineal simple examina la relación lineal entre dos variables continuas: una respuesta (Y) y
un predictor (X).
Cuando las dos variables están relacionadas, es posible predecir un valor de respuesta a partir de un
valor predictor con una exactitud mayor que la asociada únicamente a las probabilidades.
y = β0 + β1x+ e
La ecuación de regresión lineal simple se representa gráficamente como una línea recta.
β0 es la intersección del eje y de la línea de regresión. (Sin embargo carece de interpretación práctica si es irrazonable considerar
que el rango de valores de x incluye a cero)
β1 es la pendiente (indica el cambio promedio en la variable de respuesta cuando la variable predictora aumenta en una unidad adicional)

Supuestos de la Regresión Lineal
• El modelo debe ser lineal.
• Los datos se deben haber muestreado al azar y contar con suficientes (al menos 30 datos en Regresión
Lineal Simple).
• Las variables explicativas no deben ser colineales.
• Las variables explicativas deben presentar un error insignificante en la medición.
• Los residuales presentan una suma esperada de cero.
• Los residuales presentan una varianza homogénea (Homocedasticidad).
• Los residuales están distribuidos de forma normal.
• Los residuales adyacentes no deben presentar autocorrelación.

regresión)
Los parámetros β0, β1 son desconocidos así que hay que calcularlos a partir de estadísticas o
estimadores que vienen siendo
b0 y b1
Entonces la ecuación de regresión estimada es
ŷ = b0 + b1x + e
Donde ŷ es un estimado de y en un determinado punto

regresión)
En la práctica, como ya dijimos, los valores de los parámetros no se conocen β0 y β1 , por lo que deben estimarse
utilizando datos de una muestra de la población. Los parámetros de la población se estiman utilizando estadísticas (o
estimadores) de muestra.
Las estadísticas de muestra están representadas por b0 y b1. cuando las estadísticas de muestra se sustituyen por los
parámetros de la población, se forma la ecuación de regresión estimada.
ŷ = b0 + b1 x

Método de los mínimos cuadrados
b1 =
b0 =
Es un procedimiento con el que dados un
conjunto de datos (pares ordenados y
familia de funciones), se intenta determinar
la función continua que mejor se aproxime
a los datos (línea de regresión o la línea de
mejor ajuste), proporcionando una
demostración visual de la relación entre los
puntos de los mismos. En su forma más
simple, busca minimizar la suma de
cuadrados de las diferencias ordenadas
(llamadas residuos) entre los puntos
generados por la función y los
correspondientes datos.
Se debe minimizar
Q(α,β) = ∑e2
i = ∑ [yi −(b0-b1xi)] 2

Método de los mínimos cuadrados
a) bo es un estimador insegado de β0. Es decir, E(bo)= β0
b) b1 es un estimador insegado de β1. Es decir, E(b1)= β1
c) La varianza de b0 = σ2
𝑥2
d) La varianza de b1 = σ2 1
𝑛
+ 𝑥2
𝑥2
e) Un estimador para = σ2 es:

Coeficiente de correlación (R de Pearson)
En estadística, el coeficiente de correlación de Pearson es una medida de dependencia lineal entre dos variables
aleatorias cuantitativas.
De manera menos formal, podemos definir el coeficiente de correlación de Pearson como un índice que puede
utilizarse para medir el grado de relación de dos variables siempre y cuando ambas sean cuantitativas y continuas.

Coeficiente de correlación (R de Pearson)
Interpretación
• Si r=1, existe una correlación positiva perfecta. El índice indica una
dependencia total entre las dos variables denominada relación
directa: cuando una de ellas aumenta, la otra también lo hace en
proporción constante.
• Si 0<r<1 entonces existe una correlación positiva.
• Si r=0 entonces no existe relación lineal pero esto no
necesariamente implica que las variables son independientes:
pueden existir todavía relaciones no lineales entre las dos variables.
• Si -1<r<0, existe una correlación negativa.
• Si r=-1, existe una correlación negativa perfecta. El índice indica una
dependencia total entre las dos variables llamada relación inversa:
cuando una de ellas aumenta, la otra disminuye en proporción
constante.

Coeficiente de determinación
El coeficiente de determinación es la proporción de la varianza total de la variable explicada por la
regresión. El coeficiente de determinación, también llamado R cuadrado, refleja la bondad del
ajuste de un modelo a la variable que pretender explicar.
Es importante saber que el resultado del coeficiente de determinación oscila entre 0 y 1. Cuanto más cerca
de 1 se sitúe su valor, mayor será el ajuste del modelo a la variable que estamos intentando explicar. De
forma inversa, cuanto más cerca de cero, menos ajustado estará el modelo y, por tanto, menos fiable será.

Coeficiente de determinación ajustado
El coeficiente de determinación ajustado (R cuadrado ajustado) es la medida que define el
porcentaje explicado por la varianza de la regresión en relación con la varianza de la variable
explicada. Es decir, lo mismo que el R cuadrado, pero con una diferencia: El coeficiente de
determinación ajustado penaliza la inclusión de variables.
En la fórmula, N es el tamaño de la muestra y k el número de variables explicativas. Por
deducción matemática, a valores más altos de k, más alejado estará el R cuadrado ajustado del
R cuadrado normal. Al revés, a valores más bajos de k, más cerca estará de 1 la fracción central
y, por tanto, más parecidos serán el R cuadrado ajustado y el R cuadrado normal.

Intervalos de confianza para los parámetros β0 y β1
a) Para el parámetro β0
b0 - tn-2, α/2 𝑠 1
𝑛
+
𝑥2
𝑥2 < β0 < b0 + tn-2, α/2 𝑠 1
𝑛
+
𝑥2
𝑥2
b1 - tn-2, α/2
𝑠
𝑥2 < β1 < b1 + tn-2, α/2
𝑠
𝑥2

Intervalos de confianza para valores de predicción
Con un (1-α )x 100% de confianza podemos afirmar que el valor predicho de
y, se encuentra en el siguiente intervalo:
𝑦 − tn-2, α/2 𝑠𝑅
1
𝑛
+ (x−𝑥)2
(x−𝑥)2 < y < 𝑦 + tn-2, α/2 𝑠𝑅
1
𝑛
+ (x−𝑥)2
(x−𝑥)2
𝑠𝑅 = (y−𝑦)2 − b1 (x−𝑥)(y−𝑦)
𝑛−2

Análisis de Regresión.pptx

Recomendados

Recomendados

Más contenido relacionado

Similar a Análisis de Regresión.pptx

Similar a Análisis de Regresión.pptx (20)

Último

Último (20)

Análisis de Regresión.pptx