SlideShare una empresa de Scribd logo
1 de 23
1
SELECCCION DE VARIABLE Y CONSTRUCCION DEL MODELO
I. Introducción:
En muchas situaciones se dispone de un conjunto grande de posibles variables regresoras, una
primera pregunta es saber si todas las variables deben entrar en el modelo de regresión y, en
caso negativo, se quiere saber qué variables deben entrar y que variables no deben entrar en
el modelo. El analista debe determinar el subconjunto real de regresores que debe usarse en
el modelo. La definición del subconjunto adecuado de regresores para el modelo es lo que se
llama problema de selección de variable.
La construcción de un modelo que solo incluya un subconjunto de los regresores disponibles
implica dos objetivos contrapuestos:
 Se desea que el modelo incluya tantos regresores como sea posible, para que
el contenido de la información en ellos pueda influir sobre el valor predicho de
Y.
 Se desea que el modelo incluya los menos regresores que sea posible, porque
la variancia de la predicción 𝑦̂ aumenta a medida que aumenta la cantidad de
regresores. También, mientras mas regresores haya en el modelo, los costos
de recolección de datos y los del mantenimiento del modelo serán mayores.
Ninguno de los procedimientos de selección de variable que se describen a continuación tiene
garantía de producir la ecuación de regresión óptima para un determinado conjunto de datos,
en general no hay una sola ecuación optima, sino más bien varias igualmente buenas.
II. Consecuencias de la mala especificación del modelo:
Supongamos que el modelo completo tiene la siguiente forma:
𝑦𝑖 = 𝛽0 + ∑ 𝛽𝑗 𝑥𝑖𝑗
𝑘
𝑗=1
+ 𝜀𝑖, 𝑖 = 1,2, … , 𝑛. ó 𝑦 = 𝑋𝛽 + 𝜀
Hay 𝐾 variables regresoras candidatas, con 𝑛 ≥ 𝐾 + 1 observaciones de estos regresores y la
variable respuesta y.
Se supondrá que la lista de los regresores candidatos contiene todas las variables importantes.
También se supondrá que todas las ecuaciones incluyen un término de ordenada al origen.
Sean r la cantidad de variables regresoras que serán eliminadas de la ecuación, entonces la
cantidad de variables que se retiene es p>=K+1-r; donde el modelo se puede escribir de la
siguiente manera:
𝑦 = 𝑋 𝑝 𝛽 𝑝 + 𝑋𝑟 𝛽𝑟 + 𝜀
Se puede observar que la matriz 𝑋 se divide en dos matrices de orden (𝑛𝑥𝑝) 𝑦 (𝑛𝑥𝑟)
respectivamente.
Para el modelo completo 𝛽 estimado es:
𝛽̂ = (𝑋′
𝑋)−1
𝑋′
𝑦
Y el estimado de la varianza residual es:
𝜎2
=
𝑦′
𝑦 − 𝛽̂′𝑋′𝑦
𝑛 − 𝐾 − 1
De donde los:
𝛽̂ 𝑝 = (𝑋 𝑝
′
𝑋 𝑝)
−1
𝑋 𝑝
′
𝑦 ; 𝛽̂ 𝑟 = (𝑋𝑟
′
𝑋𝑟)−1
𝑋𝑟
′
𝑦
2
Teniendo en cuenta las ecuaciones anteriores, a continuación se especifican las propiedades
de los estimados de 𝛽̂ 𝑦 𝜎̂2
del modelo de subconjunto.
1. El valor esperado de 𝛽̂ 𝑝 es:
𝐸(𝛽̂ 𝑝) = 𝛽 𝑝 + (𝑋′
𝑋)−1
𝑋 𝑝
′
𝑋𝑟 𝛽𝑟
Entonces 𝛽̂ 𝑝 es un estimador sesgado de 𝛽 𝑝, a menos que los coeficientes de regresión
que correspondan a las variables eliminadas (𝛽 𝑝) sean cero, o que las variables
estimadas sean ortogonales a las variables omitidas (𝑋 𝑝
′
𝑋𝑟 = 0).
2. Las variancias de 𝛽̂ 𝑝 y 𝛽̂ son Var(𝛽̂p)=𝜎2
(𝑋′ 𝑝 𝑋 𝑝)−1
y Var(𝛽̂)=𝜎2
(X’X)−1
,también la
matriz Var(𝛽̂)-Var(𝛽̂p) es positiva semidefinida, lo cual indica que al eliminar las
variables nunca se aumentan las varianzas de los estimados de los parámetros
restantes.
3. 𝛽̂ 𝑝 es un estimado sesgado de βp y 𝛽̂ no lo es ,es más razonable comparar la precisión
de los estimados de los parámetros para los modelos completos y de subconjunto en
términos del error cuadrático medio ,por ejemplo :
𝑀𝑆𝐸(𝜃̂) = 𝑉𝑎𝑟(𝜃̂) + [𝐸(𝜃̂) − 𝜃]
2
Error cuadrático medio de 𝛽̂p es
𝑀𝑆𝐸(𝛽̂ 𝑝) = 𝜎2
(𝑋 𝑝
′
𝑋 𝑝)
−1
+ 𝐴𝛽𝑟 𝛽′ 𝑟 𝐴′
; 𝐴 = (𝑋 𝑝
′
𝑋 𝑝)
−1
𝑋 𝑝
′
𝑋𝑟
Los estimadores por mínimos cuadráticos de los parámetros en el modelo de
subconjunto tienen menor error cuadrático medio que los correspondientes del
modelo completo, cuando las variables eliminadas tienen coeficientes de regresión
que son menores que los errores estándares de sus estimados en el modelo completo.
4. El parámetro 𝜎̂2
es un estimado insesgado de 𝜎2
, sin embargo para el modelo
subconjunto:
𝐸(𝜎̂2) =
𝜎2
+ 𝛽𝑟
′
𝑋𝑟
′
[𝐼 − 𝑋 𝑝(𝑋 𝑝
′
𝑋 𝑝)
−1
𝑋 𝑝
′
] 𝑋𝑟 𝛽𝑟
𝑛 − 𝑝
Esto es, 𝜎̂2
en general es sesgado hacia arriba como estimando de 𝜎2
.
5. Supóngase que se desea predecir la respuesta en el punto 𝑥’ = [𝑥 𝑝
′
, 𝑥 𝑟
′
]. Si se usa el
modelo completo, el valor predicho es 𝑦̂ = 𝑥′𝛽̂, con media 𝑥′𝛽 y variancia de la
predicción :
𝑉𝑎𝑟(𝑦̂) = 𝜎2
[1 + 𝑥(𝑋’𝑋)−1
𝑥]
Sin embargo, si se usa el modelo de subconjunto, 𝑦̂𝑝 = 𝑥 𝑝
′
𝛽̂ 𝑝, con media
𝐸(𝑦̂) = 𝑥 𝑝
′
𝛽 𝑝 + 𝑥 𝑝
′
𝐴𝛽𝑟
Y el error cuadrático medio de predicción
𝑀𝑆𝐸(𝑦̂) = 𝜎2
[1 + 𝑥 𝑝
′
(𝑋 𝑝
′
𝑋 𝑝)
−1
𝑥 𝑝] + (𝑥 𝑝
′
𝐴𝛽𝑟 − 𝑥 𝑟
′
𝛽𝑟)
2
𝑦̂ es un estimado sesgado de 𝑦 a menos que 𝑥 𝑝
′
𝐴𝛽𝑟 = 0, que solo es cierto si
𝑋 𝑝
′
𝑋𝑟 𝛽𝑟 = 0, además la variancia de 𝑦̂ procedente del modelo completo es no es
menor que la de 𝑦̂𝑝 del modelo de subconjunto. En términos de error cuadrático
medio, se puede demostrar que:
𝑉𝑎𝑟(𝑦̂) ≥ 𝑀𝑆𝐸(𝑦̂𝑝)
Siempre y cuando la matriz 𝑉𝑎𝑟(𝛽 𝑝) − 𝛽𝑟 𝛽𝑟
′
sea positiva semidefinida.
3
Al eliminar variables del modelo, se puede mejorar la precisión de los estimados de os
parámetros de las variables retenidas, aun cuando algunas de las variables omitidas no
sean despreciables. El omitir variables introduce sesgo potencial en los estimados de
los coeficientes de las variables retenidas y la respuesta, sin embargo, si las variables
eliminadas tienen efectos pequeños, el MSE de los estimados sesgados será menor
que la variancia de los estimados insesgados, ya que, la cantidad de sesgo introducida
es menor que la reducción en la varianza. Existe peligro al retener variables
despreciables, lo que nos lleva a variables con coeficientes cero, o que sean menores
que sus errores estándares correspondientes del modelo completo. El peligro es que
aumentan las variancias de los estimados de los parámetros y de la respuesta
predicha.
III. Criterios para evaluar modelos de regresión con subconjuntos de variables:
1. Coeficiente de determinación múltiple.
Coeficiente de regresión múltiple para un modelo de regresión con subconjuntos de p
términos. Representa el porcentaje de variabilidad de la Y que explica el modelo de regresión.
El coeficiente aumenta al aumentar p y es máximo cuando p=k+1.
2. 𝑹 𝟐
ajustada
La estadística 𝑅2
Ajustada no necesariamente aumenta cuando se introducen más regresores
al modelo.
Si se agregan s regresores al modelo, 𝑅2
𝐴𝑗.(𝑝+𝑠) será mayor que 𝑅2
𝐴𝑗.𝑝, si y solo sí la
estadística parcial de F es mayor que 1.
𝑅2
𝑎𝑗. = 1 −
𝐶𝑀𝑒𝑟𝑟𝑜𝑟
𝑆𝑆𝑡𝑜𝑡𝑎𝑙
𝑛 − 1
4
3. Cuadrado medio de residuales.
La elección del modelo se basará en lo siguiente:
- El 𝐶𝑀𝑒𝑟𝑟𝑜𝑟(p) mínimo.
- El valor de p, de modo que el 𝐶𝑀𝑒𝑟𝑟𝑜𝑟(p) sea aproximadamente igual a 𝐶𝑀𝑒𝑟𝑟𝑜𝑟 para
el modelo completo.
- Un valor de p cercano al punto en donde crece el 𝐶𝑀𝑒𝑟𝑟𝑜𝑟(p) mínimo.
4. Estadística 𝑪 𝒑 de Mallows.
Los criterios anteriores se basan en el 𝐶𝑀𝑒𝑟𝑟𝑜𝑟, pero también es interesante tener en cuenta el
sesgo en la selección del modelo ya que si se omite una variable regresora importante los
estimadores de los coeficientes de regresión son sesgados y los criterios anteriores pueden
elegir un modelo que tenga sesgo grande aunque su 𝐶𝑀𝑒𝑟𝑟𝑜𝑟 sea pequeño. Un criterio que
tenga en cuenta el sesgo ayudará a elegir el modelo adecuadamente.
Un criterio que se relaciona con el error cuadrático medio de un valor ajustado.
𝐶 𝑝 =
𝑆𝐶𝑒𝑟𝑟𝑜𝑟
𝐶𝑀𝑒𝑟𝑟𝑜𝑟
− 𝑛 + 2𝑝
 Ideal 𝐶 𝑝 = 𝑝
 Sobreexplicado 𝐶 𝑝 > 𝑝
 Infraexplicados 𝐶 𝑝 < 𝑝
5. Press
Es una medida de lo bien que función un modelo de regresión para predecir nuevos datos. Lo
deseable es tener un modelo con valores relativamente pequeños, aunque por su definición
siempre será mayor que la SCerror.
𝑃𝑟𝑒𝑠𝑠 = ∑[𝑌𝑖 − 𝑦̂(𝑖)]2
𝑛
𝑖=1
= ∑[
𝑒𝑖
1 − ℎ𝑖𝑖
]2
𝑛
𝑖=1
𝐻 = 𝑥′(𝑥′
𝑥)−1
𝑥′
𝑃𝑟𝑒𝑠𝑠 > 𝑆𝐶𝑒𝑟𝑟𝑜𝑟, ideal es que ℎ𝑖i tienda a cero para que sea igual al 𝑆𝐶𝑒𝑟𝑟𝑜𝑟.
5
IV. Técnicas computacionales para seleccionar variables
1. Todas las regresiones posibles.
Como hay 𝐾 = 4 regresores candidatos, hay 24
= 16 ecuaciones posibles de regresión, si se
incluye siempre la ordenada al origen 𝛽0. Se muestran los resultados de ajustar esas 16
ecuaciones.
Se utiliza como medida de bondad de ajuste el coeficiente de determinación en función de p:
Al examinar esta figura se ve que después de que hay dos regresores en el modelo, hay poca
ganancia en términos de R2 cuando se introducen variables adicionales. Los dos modelos de
dos regresores (𝑥1, 𝑥2) 𝑦 (𝑥1, 𝑥4) tienen en esencia los mismos valores de 𝑅2, y en lo que
6
respecta a este criterio, sería poca la diferencia si se escogiera cualquiera de los modelos como
la ecuación final de regresión; podría ser mejor usar (𝑥1, 𝑥4) porque 𝑥4 produce el mejor
modelo con un regresor (se observa el R2).
Todo el subconjunto de regresión para el que 𝑅2
𝑝 > 𝑅2
0 es adecuado.
Es ilustrativo examinar los pares de correlaciones entre 𝑥𝑖 𝑦 𝑥𝑗
Los pares de regresores (𝑥1, 𝑥3) 𝑌 (𝑥2, 𝑥4) están muy correlacionados, porque
𝑟13 = −0.824 𝑦 𝑟24 = −0.973
En consecuencia, si se agregan más regresores cuando(𝑥1, 𝑥2) o cuando (𝑥1, 𝑥4) ya están en
el modelo será de poco provecho, porque el contenido de información en los regresores
excluidos está presente en los regresores que ya están en el modelo.
7
Ahora analizamos la gráfica del 𝐶𝑀𝑒𝑟𝑟𝑜𝑟:
El modelo con cuadrado medio residual mínimo es el (𝑥1, 𝑥2, 𝑥4) para el que 𝑀𝑆𝑅𝑒𝑠(4) =
5.3303, nótese que, como era de esperarse, el modelo que minimiza a 𝑀𝑆𝑅𝑒𝑠(𝑃) también
maximiza la 𝑅2
ajustada, sin embargo, dos de los otros modelos con tres regresores,
(𝑥1, 𝑥2, 𝑥3) y (𝑥1, 𝑥3, 𝑥4), y los dos modelos de dos regresores (𝑥1, 𝑥2) y (𝑋1, 𝑥4), tienen
valores comparables del cuadrado medio residual; si en el modelo está ya sea
(𝑥1, 𝑥2) 𝑜 (𝑥1, 𝑥4), hay poca reducción en el cuadrado medio de residuales cuando se agregan
más regresores. El modelo con subconjunto (𝑥1, 𝑥2) puede ser más adecuado que el (𝑥1, 𝑥4)
porque tiene menor valor del cuadrado medio de residuales.
8
Observamos la gráfica de Cp:
Al examinar esta gráfica se ve que hay cuatro modelos que podrían ser aceptables:
(𝑥1, 𝑥2), (𝑥1, 𝑥2, 𝑥3), (𝑥1, 𝑥2, 𝑥4) 𝑦 (𝑥1, 𝑥3, 𝑥4). Sin considerar factores adicionales, como la
información técnica acerca de los regresores, o los costos de la recolección de datos, podría
ser adecuado elegir el modelo más sencillo (𝑥1, 𝑥2) como modelo final, porque tiene el 𝐶𝑝
mínimo (es ideal igual a p o menor a p).
Este ejemplo ha ilustrado el proceso de cómputo relacionado con la formación de modelo con
todas las regresiones posibles; nótese que no hay elección definida de la mejor ecuación de
regresión. Con mucha frecuencia se ve que los distintos criterios sugieren distintas ecuaciones,
por ejemplo, la ecuación con Cp mínimo es la que tiene (𝑥1, 𝑥2) y la de 𝑀𝑆𝑅𝑒𝑠 mínimo es la
que tiene (𝑥1, 𝑥2, 𝑥4).
Por lo tanto se examina los dos modelos (𝑥1, 𝑥2) 𝑦 (𝑥1, 𝑥2, 𝑥4) con respecto a PRESS y a sus
factores de inflación de varianza (FIV).
9
𝑅2
𝑝𝑟𝑒𝑑𝑖𝑐𝑐𝑖𝑜𝑛 = (1 −
𝑃𝑅𝐸𝑆𝑆
𝑆𝑆𝑡𝑜𝑡𝑎𝑙
)
𝐹𝐼𝑉𝑗 =
1
1 − 𝑅2
𝑗
Para (𝑥1, 𝑥2)
10
 𝐹𝐼𝑉1 =
1
1−0.0522
=1.05
 𝐹𝐼𝑉2 =
1
1−0.0522
=1.05
Para (𝑥1, 𝑥2, 𝑥4)
- 𝐹𝐼𝑉1 =
1
1−0.062
=1.066
- 𝐹𝐼𝑉2 =
1
1−0.9468
=18.797
- 𝐹𝐼𝑉4 =
1
1−0.9472
=18.939
Ambos modelos tienen valores de PRESS muy parecidos (más o menos el doble de la suma de
cuadrados de residuales para la ecuación con 𝑀𝑆𝑅𝑒𝑠 mínima), y la 𝑅2
para predicción. Sin
embargo, x2 y x4 son muy multicolineales, lo que se ve por los mayores factores de inflación
de varianza en (𝑥1, 𝑥2, 𝑥4). Ya que ambos modelos tienen estadísticas PRESS equivalentes, se
recomendaría el modelo con (𝑥1, 𝑥2), con base en la falta de colinealidad en él.
11
2. Métodos de regresión por segmentos.
a. Selección hacia delante(forward).
Este procedimiento comienza con la hipótesis que no hay regresores en el modelo además de
la ordenada a origen. Se trata de determinar un subconjunto óptimo insertando regresores. El
primer regresor que se selecciona para entrar a la ecuación es el que tenga la máxima
correlación simple con la variable de respuesta Y. Supóngase que este regresor es X1, este
también es el regresor que producirá el máximo valor de la estadística F en la prueba de
significancia de la regresión. El regresor se introduce si la estadística F es mayor que un valor
predeterminado de F. El segundo regresor para entrar es el que ahora tenga la máxima
correlación con y, después de ajustar y por el efecto del primer regresor que se introdujo, X1.
A esas correlaciones se les llama correlaciones parciales, que son las correlaciones sencillas
entre los residuales de la regresión 𝑦̂=𝛽̂0 + 𝛽̂1X1 y los residuales de las regresiones de los
demás regresores candidatos sobre X1.
Supóngase que en el paso 2 el regresor con la máxima correlación parcial con Y es 𝑋2, eso
implica que la estadística parcial F con mayor valor es
F=
𝑆𝑆 𝑅(𝑋2 𝑋1)⁄
𝑀𝑆 𝑅𝐸𝑆(𝑋1, 𝑋2)
Si este valor de F es mayor que FIN ,entonces se agrega X2 al modelo el regresor que tenga la
máxima correlación parcial y si su estadística parcial F es mayor que el valor preseleccionado
para entrar ,FIN ,o cuando se ha agregado el ultimo regresor candidato al modelo.
Ejemplo: Data : Dato de cementos de Hald.
En primer lugar se observa en la tabla, cual de las variables candidatas tiene mayor correlación
parcial con la variables respuesta; claramente que se puede observar que 𝑋4 tpresenta mayor
correlacion con 𝑦 que es igual 𝑐𝑜𝑟(𝑥4, 𝑦) = −0.821 con F=22.80 siendo mayor al 𝐹_𝐼𝑁 =
4.84, entra 𝑥4 al modelo.
Por lo tanto en primera instancia el modelo es : 𝑦̂ = 𝛽̂0 + 𝛽̂ 𝑋4 + 𝜀
El siguiente paso es ver cual de las variables restantes tiene mayor correlación con la variable
respuesta teniendo en cuenta a la variable introducida(𝑥4); se aprecia que el siguiente variable
con mayor correlación es 𝑥1 con 0.9567 y el 𝐹 = 108.22, siendo mayor a 𝐹𝐼𝑁 = 4.96,
también se agrega 𝑥1 al modelo.
En el siguiente paso 𝑥2 tiene mayor correlación parcial con 𝐹 = 5.03, resultando menor al
𝐹𝐼𝑁 = 5.12, por lo tanto 𝑥2 no entra al modelo y termina el procedimiento.
Haciendo uso del software (Minitab 17), se obtiene el siguiente modelo:
Minitab, tiene entre sus funciones el calculo de la selección de modelos por segmentos, en
este caso seleccionamos el de selección hacia delante y nos muestra directamente el modelo
final que seria el mismo haciendo mediante el calculo manual.
12
b. Eliminación hacia atrás(backward).
Eliminación hacia atrás:
En la eliminación hacia atrás se trata de determinar un buen modelo trabajando en dirección
contraria, es decir, se comienza con un modelo que incluya todos los K regresores candidatos.
Luego se pasa a calcular la estadística parcial F para cada regresor, como si fuera la última
variable que entro al modelo.
La mínima de las estadísticas parciales F se compara con un valor preseleccionado
denominado 𝐹𝑠𝑎𝑙 o 𝐹𝑜𝑢𝑡 , entonces si la mínima estadística parcial F es menor que el valor ya
mencionado se pasa a eliminar ese regresor, ahora se ajusta un modelo de regresión con K – 1
regresores, se vuelven a calcular las estadísticas parciales F para el nuevo modelo, y se repite
el procedimiento ya mencionado. El algoritmo de eliminación hacia atrás termina cuando el
valor mínimo de F parcial no es menor que 𝐹𝑜𝑢𝑡, el valor preseleccionado de corte.
Ejemplo: (Usando minitab 17)
Como el algoritmo inicia con todos K regresores candidatos, se pasa a correr una regresión con
todos, obteniéndose los siguientes resultados:
13
Como se observa el valor mínimo de las estadísticas parciales de F es 0.02, el cual le pertenece
al regresor x3.
Se establece el valor de 𝐹𝑜𝑢𝑡 = 𝐹(0.95,1,8) = 5.317655 , con el cual basaremos nuestras
decisiones. Entonces como 𝐹 < 𝐹𝑜𝑢𝑡 se pasa a quitar del modelo al regresor x3.
Como se quitó del modelo al regresor x3, se corre nuevamente una regresión pero ahora con
solo 3 regresores (x1, x2 y x4), el resultado se muestra a continuación:
14
Como se observa en esta nueva regresión, el mínimo estadístico parcial F es 1.86, el cual le
pertenece al regresor x4. Entonces se pasa a comparar con 𝐹𝑜𝑢𝑡 , mostrando que 𝐹 < 𝐹𝑜𝑢𝑡 ,
por lo tanto se pasa a quitar al regresor x4 del modelo.
Ahora se tienen solo 2 regresores(x1 y x2) con los cuales se corre una regresión nueva, los
resultados se muestran en la siguiente imagen:
Como se muestran en la imagen en mínimo de los estadísticos parciales F es 146.52, el cual le
pertenece al regresor x1. A continuación se pasa a comparar dicho valor con 𝐹𝑜𝑢𝑡, mostrando
lo siguiente: 𝐹 > 𝐹𝑜𝑢𝑡; por lo tanto el algoritmo termina en este paso, quedando en el modelo
los regresores x1 y x2, y obteniendo como resultando el modelo final:
𝑦 = 52.58 + 1.468 𝑥1 + 0.6623 𝑥2
Como comentario, este algoritmo puede ser realizado directamente por el minitab, mostrando
los mimos resultados.
15
c. Regresión por segmentos(paso a paso ó Stepwise).
La regresión por segmentos es una modificación de la selección hacia delante, en la que a cada
paso se reevalúan todos los regresores que habían entrado antes al modelo, mediante sus
estadísticas parciales F. Un regresor agregado en una etapa anterior puede volverse
redundante, debido a las relaciones entre él y los regresores que ya estén en la ecuación. Si la
estadística parcial F de una variable es menor que 𝐹𝑂𝑈𝑇, esa variable se elimina del modelo.
En este método se requieren dos valores de corte, 𝐹𝐼𝑁 𝑦 𝐹𝑂𝑈𝑇, algunos analistas prefieren
definir 𝐹𝐼𝑁 = 𝐹𝑂𝑈𝑇, aunque eso no es necesario, con frecuencia se opta por 𝐹𝐼𝑁 > 𝐹𝑂𝑈𝑇, con lo
que se hace algo mas difícil agregar un regresor que eliminar uno.
El método termina cuando ya no hay variables candidatas a ser incluidas o a ser eliminadas.
Veamos el siguiente ejemplo:
Data: Datos de cemento de Hald
Ya explicado el método, pasamos a hacer los cálculos.
En este caso se hará uso de software libre R.
Primeramente definiremos las funciones para calcular las correlaciones parciales:
16
calculamos las correlaciones:
Se observa que la mayor correlación con la variable respuesta es 𝑐𝑜𝑟(𝑦, 𝑥4) = −0.821,
entonces introducimos al modelo:
> summary.aov(lm(y~x4))
Df Sum Sq Mean Sq F value Pr(>F)
x4 1 1831.9 1831.9 22.8 0.000576 ***
Residuals 11 883.9 80.4
---
Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
> n <- 13
> p <- 0
> Fexp <- (cor(x4,y)^2*(n-p-1))/(1-cor(x4,y)^2)
> Fexp
[1] 24.87111
> Fteo <- qf(0.95,1,n-p-1)
> Fteo
[1] 4.747225
> # Fexp > Fteo, entra x4 al modelo.
Paso 1:
> n <- 13
> p <- 0
> Fexp <- (cor(x4,y)^2*(n-p-1))/(1-cor(x4,y)^2)
17
> Fexp
[1] 24.87111
> Fteo <- qf(0.95,1,n-p-1)
> Fteo
[1] 4.747225
> # Fexp > Fteo, entra x4 al modelo
Paso 2:
> pcor(x1,y,x4)
[1] 0.9567731
> pcor(x2,y,x4)
[1] 0.1302149
> pcor(x3,y,x4)
[1] -0.8950818
> p <- p+1
> # mayor correlacion parcial de primer orden: x1
> Fexp <- (pcor(x1,y,x4)^2*(n-p-1))/(1-pcor(x1,y,x4)^2)
> Fexp
[1] 119.0463
> Fteo <- qf(0.95,1,(n-p-1))
> Fteo
[1] 4.844336
> # como Fexp > Fteo, entra x1 al modelo.
Paso 3:
> p <- p+1
> # prueba de la significancia de las variables introducidas
anteriormete: x4
> Fexp <- (pcor(x4,y,x1)^2*(n-p-1))/(1-pcor(x4,y,x1)^2)
> Fexp
[1] 159.2952
> Fteo <- qf(0.95,1,(n-p-1))
> Fteo
[1] 4.964603
> # como Fexp > Fteo, se mantiene x4 en el modelo.
Paso 4:
> pcor2(x2,y,x4,x1)
[1] 0.5986053
> pcor2(x3,y,x4,x1)
[1] -0.5657105
> # mayor correlacion parcial de segundo orden: x2
> Fexp <- (pcor2(x2,y,x4,x1)^2*(n-p-1))/(1-pcor2(x2,y,x4,x1)^2)
> Fexp
[1] 5.584294
> Fteo <- qf(0.95,1,(n-p-1))
> Fteo
[1] 4.964603
> # como Fexp > Fteo, entra x2 al modelo.
Paso 5:
18
> # prueba de la significancia de las variables introducidas
anteriormente: x4 y x1
> p <- p+1
> Fexp <- (pcor2(x4,y,x1,x2)^2*(n-p-1))/(1-pcor2(x4,y,x1,x2)^2)
> Fexp
[1] 1.863262
> Fteo <- qf(0.95,1,(n-p-1))
> Fteo
[1] 5.117355
> # como Fexp < Fteo, se debe eliminar x4 del modelo.
> Fexp <- (pcor2(x1,y,x2,x4)^2*(n-p-1))/(1-pcor2(x1,y,x2,x4)^2)
> Fexp
[1] 154.0076
> Fteo <- qf(0.95,1,(n-p-1))
> Fteo
[1] 5.117355
> # como Fexp > Fteo, se mantiene x1 en el modelo.
Paso 6:
> #solo queda x3,se calcula su correlacion parcial.
> pcor2(x3,y,x2,x1)
[1] 0.4112643
> Fexp <- (pcor2(x3,y,x2,x1)^2*(n-p-1))/(1-pcor2(x3,y,x2,x1)^2)
> Fexp
[1] 1.832128
> Fteo <- qf(0.95,1,(n-p-1))
> Fteo
[1] 5.117355
> # como Fexp < Fteo, x3 no entra al modelo.
> # ** FINALMENTE EL MODELO QUEDA CON X1 Y X2 COMO VARIABLES
REGRESORAS**.
Resumen del modelo final:
> summary.aov(lm(y~x1+x2))
Df Sum Sq Mean Sq F value Pr(>F)
x1 1 1450.1 1450.1 250.4 2.09e-08 ***
x2 1 1207.8 1207.8 208.6 5.03e-08 ***
Residuals 10 57.9 5.8
---
Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
> summary(lm(y~x1+x2))
Call:
lm(formula = y ~ x1 + x2)
Residuals:
Min 1Q Median 3Q Max
-2.893 -1.574 -1.302 1.363 4.048
Coefficients:
Estimate Std. Error t value Pr(>|t|)
19
(Intercept) 52.57735 2.28617 23.00 5.46e-10 ***
x1 1.46831 0.12130 12.11 2.69e-07 ***
x2 0.66225 0.04585 14.44 5.03e-08 ***
---
Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
Residual standard error: 2.406 on 10 degrees of freedom
Multiple R-squared: 0.9787, Adjusted R-squared: 0.9744
F-statistic: 229.5 on 2 and 10 DF, p-value: 4.407e-09
Usando el método computacional de Minitab 17:
Haciendo uso del software SPSS se obtiene el siguiente resultado:
REGRESSION
/MISSING LISTWISE
/STATISTICS COEFF OUTS R ANOVA CHANGE ZPP
/CRITERIA=PIN(.05) POUT(.10)
/NOORIGIN
/DEPENDENT y
/METHOD=STEPWISE x1 x2 x3 x4
/RESIDUALS NORMPROB(ZRESID).
20
21
V. Recomendaciones finales para la práctica.
Como se ha visto existen varios procedimientos de selección de variables en regresión
lineal. Se puede clasificarse como por etapas o de todas las regresiones posibles. Las
ventajas del tipo por etapas son el ser rápido, fáciles de implementar y se consiguen con
facilidad para casi todos los sistemas de computo. Sus desventajas está en que no
producen modelos de subconjunto que sean necesariamente los mejores con respecto
algún criterio común, y además, como se orientan hacia la producción de una sola
ecuación final, el usuario con poco conocimiento puede ser conducido a creer que ese
modelo sea optimo, en algún sentido.
Si la cantidad de variables candidatas es considerable, el costo de todas las regresiones
posibles es casi lo mismo que por etapas, pero no se puede conseguir con tanta facilidad
como los demás métodos en etapas, en especial para computadoras personales.
Cuando la cantidad de regresores candidatos es demasiado grande como para emplear de
entrada el método de todas las regresiones posibles, se recomienda una estrategia de dos
etapas. En primer paso se puede filtrar y eliminar los regresores que tengan efectos
despreciables, y ya teniendo una lista mas pequeña se puede analizar con el método de
todas las regresiones posibles. Un analista siempre debe recurrir a sus conocimientos de
su entorno del problema y al sentido común para evaluar los regresores candidatos. Con
22
frecuencia se ve que algunas variables se pueden eliminar con base en la lógica o en el
sentido técnico.
Un analista se debe hacerse las siguientes preguntas, después de elegir un modelo:
 ¿Es razonable la ecuación?, ¿tienen sentido los regresores en el modelo,
considerando el entorno del problema?.
 ¿Es útil el modelo para el objeto que se pretendía?
 ¿Es razonable los coeficientes de regresión?
 ¿Son satisfactorios las comprobaciones comunes de diagnostico de adecuación
de modelo?
Por ultimo, aunque la ecuación ajuste bien a los datos , y pase las pruebas normales de
diagnostico, no hay seguridad de que haya a predecir con exactitud nuevas observaciones.
VI. Anexo
a. Data: Datos de cemento de Hald
Caso: Calor producido(y), en calorías por gramos de cemento, en función de la cantidad de
cada uno de los cuatro ingredientes en la mezcla: aluminato tricálcico (x1), silicato tricálcico
(x2), aluminoferrito tetra cálcico (x3) y silicato di cálcico(x4).
Y x1 x2 x3 x4
78,50 7 26 6 60
23
74,30 1 29 15 52
104,30 11 56 8 20
87,60 11 31 8 47
95,90 7 52 6 33
109,20 11 55 9 22
102,70 3 71 17 6
72,50 1 31 22 44
93,10 2 54 18 22
115,90 21 47 4 26
83,80 1 40 23 34
113,30 11 66 9 12
109,40 10 68 8 12

Más contenido relacionado

La actualidad más candente

Unidad 2 Estadistica inferencial 2
Unidad 2 Estadistica inferencial 2Unidad 2 Estadistica inferencial 2
Unidad 2 Estadistica inferencial 2Juan Carlos Valdez
 
Raices de ecuaciones MN
Raices de ecuaciones MNRaices de ecuaciones MN
Raices de ecuaciones MNTensor
 
Regresion linealsimple
Regresion linealsimpleRegresion linealsimple
Regresion linealsimpleGucho Ca
 
Unidad 2: Regresión lineal múltiple y correlación
Unidad 2: Regresión lineal múltiple y correlaciónUnidad 2: Regresión lineal múltiple y correlación
Unidad 2: Regresión lineal múltiple y correlaciónAlvaro Chavez
 
3- Regresiones lineales (para Matemáticas de Bioquímica)
3- Regresiones lineales (para Matemáticas de Bioquímica)3- Regresiones lineales (para Matemáticas de Bioquímica)
3- Regresiones lineales (para Matemáticas de Bioquímica)Javier García Molleja
 
Cap2. modelo regresión multiple-v2-2011
Cap2. modelo regresión multiple-v2-2011Cap2. modelo regresión multiple-v2-2011
Cap2. modelo regresión multiple-v2-2011Robinho Navarrete
 
10.sistemas mal condicionados
10.sistemas mal condicionados10.sistemas mal condicionados
10.sistemas mal condicionadosrjvillon
 
Raices de ecuaciones en excel
Raices de ecuaciones en excelRaices de ecuaciones en excel
Raices de ecuaciones en excelTensor
 
Two equations systems solution 1
Two equations systems solution   1Two equations systems solution   1
Two equations systems solution 1Edgar Mata
 
Diseños factoriales 2016
Diseños factoriales 2016Diseños factoriales 2016
Diseños factoriales 2016Petete Yeyo
 
Regresion lineal
Regresion linealRegresion lineal
Regresion linealTensor
 
Tema 2.1 regresión lineal
Tema 2.1  regresión linealTema 2.1  regresión lineal
Tema 2.1 regresión linealAnthony Maule
 
Regresión lineal multiple autores grillet montaño rodríguez
Regresión lineal multiple  autores grillet montaño rodríguezRegresión lineal multiple  autores grillet montaño rodríguez
Regresión lineal multiple autores grillet montaño rodríguezthomas669
 
Metodo de la bisección
Metodo de la bisecciónMetodo de la bisección
Metodo de la bisecciónTensor
 
Computadoras y mecanica de fluidos
Computadoras y mecanica de fluidosComputadoras y mecanica de fluidos
Computadoras y mecanica de fluidosvictor ore
 
Descomposicion LU Gauss Seidel
Descomposicion LU Gauss SeidelDescomposicion LU Gauss Seidel
Descomposicion LU Gauss SeidelDiego Salazar
 

La actualidad más candente (20)

Unidad 2 Estadistica inferencial 2
Unidad 2 Estadistica inferencial 2Unidad 2 Estadistica inferencial 2
Unidad 2 Estadistica inferencial 2
 
Raices de ecuaciones MN
Raices de ecuaciones MNRaices de ecuaciones MN
Raices de ecuaciones MN
 
7 procesos estocasticos
7 procesos estocasticos7 procesos estocasticos
7 procesos estocasticos
 
Regresion linealsimple
Regresion linealsimpleRegresion linealsimple
Regresion linealsimple
 
Unidad 2: Regresión lineal múltiple y correlación
Unidad 2: Regresión lineal múltiple y correlaciónUnidad 2: Regresión lineal múltiple y correlación
Unidad 2: Regresión lineal múltiple y correlación
 
3- Regresiones lineales (para Matemáticas de Bioquímica)
3- Regresiones lineales (para Matemáticas de Bioquímica)3- Regresiones lineales (para Matemáticas de Bioquímica)
3- Regresiones lineales (para Matemáticas de Bioquímica)
 
Prueba chi cuadrada
Prueba chi cuadradaPrueba chi cuadrada
Prueba chi cuadrada
 
Cap2. modelo regresión multiple-v2-2011
Cap2. modelo regresión multiple-v2-2011Cap2. modelo regresión multiple-v2-2011
Cap2. modelo regresión multiple-v2-2011
 
10.sistemas mal condicionados
10.sistemas mal condicionados10.sistemas mal condicionados
10.sistemas mal condicionados
 
Raices de ecuaciones en excel
Raices de ecuaciones en excelRaices de ecuaciones en excel
Raices de ecuaciones en excel
 
Regresion lineal simple
Regresion lineal simpleRegresion lineal simple
Regresion lineal simple
 
Two equations systems solution 1
Two equations systems solution   1Two equations systems solution   1
Two equations systems solution 1
 
Diseños factoriales 2016
Diseños factoriales 2016Diseños factoriales 2016
Diseños factoriales 2016
 
Regresion lineal
Regresion linealRegresion lineal
Regresion lineal
 
Tema 2.1 regresión lineal
Tema 2.1  regresión linealTema 2.1  regresión lineal
Tema 2.1 regresión lineal
 
Regresión lineal multiple autores grillet montaño rodríguez
Regresión lineal multiple  autores grillet montaño rodríguezRegresión lineal multiple  autores grillet montaño rodríguez
Regresión lineal multiple autores grillet montaño rodríguez
 
Metodo de la bisección
Metodo de la bisecciónMetodo de la bisección
Metodo de la bisección
 
Computadoras y mecanica de fluidos
Computadoras y mecanica de fluidosComputadoras y mecanica de fluidos
Computadoras y mecanica de fluidos
 
REGRESIÓN LINEAL SIMPLE
REGRESIÓN LINEAL SIMPLEREGRESIÓN LINEAL SIMPLE
REGRESIÓN LINEAL SIMPLE
 
Descomposicion LU Gauss Seidel
Descomposicion LU Gauss SeidelDescomposicion LU Gauss Seidel
Descomposicion LU Gauss Seidel
 

Similar a Selecccion de-variable-y-construccion-del-modelo

Analisis de regresion multiple
Analisis de regresion multipleAnalisis de regresion multiple
Analisis de regresion multipleJhosepAlexFernndez
 
Diseño de experiencias
Diseño de experienciasDiseño de experiencias
Diseño de experienciasDiego Gomez
 
Metodos numericos capitulo 2
Metodos numericos capitulo 2Metodos numericos capitulo 2
Metodos numericos capitulo 2Juan Timoteo Cori
 
Metodos de eliminacion
Metodos de eliminacionMetodos de eliminacion
Metodos de eliminacionk4ndo
 
Sistemas lineales casos especiales
Sistemas lineales casos especialesSistemas lineales casos especiales
Sistemas lineales casos especialesKike Prieto
 
Presentaciã³n metodos numericos
  Presentaciã³n metodos numericos  Presentaciã³n metodos numericos
Presentaciã³n metodos numericosVeronica Villasana
 
Presentación clase 5 regresión múltiple.pdf
Presentación clase 5 regresión múltiple.pdfPresentación clase 5 regresión múltiple.pdf
Presentación clase 5 regresión múltiple.pdfMARLENIMIGUELMARTINE
 
Raices de ecuaciones en excel
Raices de ecuaciones en excelRaices de ecuaciones en excel
Raices de ecuaciones en excelTensor
 
Análisis numérico (josé monsalve). (autoguardado)
Análisis numérico (josé monsalve). (autoguardado)Análisis numérico (josé monsalve). (autoguardado)
Análisis numérico (josé monsalve). (autoguardado)José Monsalve
 
8. Raices de ecuaciones no lineales (Una variable).pptx
8. Raices de ecuaciones no lineales (Una variable).pptx8. Raices de ecuaciones no lineales (Una variable).pptx
8. Raices de ecuaciones no lineales (Una variable).pptxWalbertoCantilloAcua
 
T026800007004 0-felvir rivas-_trabajofinaldefensa-000
T026800007004 0-felvir rivas-_trabajofinaldefensa-000T026800007004 0-felvir rivas-_trabajofinaldefensa-000
T026800007004 0-felvir rivas-_trabajofinaldefensa-000Cleto de la Torre
 
Curso de-econometria-basica
Curso de-econometria-basicaCurso de-econometria-basica
Curso de-econometria-basicavestaoriginal
 
Two equations systems sol 01 equal
Two equations systems sol 01 equalTwo equations systems sol 01 equal
Two equations systems sol 01 equalEdgar Mata
 

Similar a Selecccion de-variable-y-construccion-del-modelo (20)

Analisis de regresion multiple
Analisis de regresion multipleAnalisis de regresion multiple
Analisis de regresion multiple
 
Diseño de experiencias
Diseño de experienciasDiseño de experiencias
Diseño de experiencias
 
Metodos numericos capitulo 2
Metodos numericos capitulo 2Metodos numericos capitulo 2
Metodos numericos capitulo 2
 
Metodos de eliminacion
Metodos de eliminacionMetodos de eliminacion
Metodos de eliminacion
 
Sistemas lineales casos especiales
Sistemas lineales casos especialesSistemas lineales casos especiales
Sistemas lineales casos especiales
 
Ajuste de curvas regresion lineal y no lineal
Ajuste de curvas regresion lineal y no linealAjuste de curvas regresion lineal y no lineal
Ajuste de curvas regresion lineal y no lineal
 
Clase8 minisem
Clase8 minisemClase8 minisem
Clase8 minisem
 
Presentaciã³n metodos numericos
  Presentaciã³n metodos numericos  Presentaciã³n metodos numericos
Presentaciã³n metodos numericos
 
Presentación clase 5 regresión múltiple.pdf
Presentación clase 5 regresión múltiple.pdfPresentación clase 5 regresión múltiple.pdf
Presentación clase 5 regresión múltiple.pdf
 
Taller yacimientos ii
Taller yacimientos iiTaller yacimientos ii
Taller yacimientos ii
 
Raices de ecuaciones en excel
Raices de ecuaciones en excelRaices de ecuaciones en excel
Raices de ecuaciones en excel
 
Pluginfile 6
Pluginfile 6Pluginfile 6
Pluginfile 6
 
Análisis numérico (josé monsalve). (autoguardado)
Análisis numérico (josé monsalve). (autoguardado)Análisis numérico (josé monsalve). (autoguardado)
Análisis numérico (josé monsalve). (autoguardado)
 
8. Raices de ecuaciones no lineales (Una variable).pptx
8. Raices de ecuaciones no lineales (Una variable).pptx8. Raices de ecuaciones no lineales (Una variable).pptx
8. Raices de ecuaciones no lineales (Una variable).pptx
 
T026800007004 0-felvir rivas-_trabajofinaldefensa-000
T026800007004 0-felvir rivas-_trabajofinaldefensa-000T026800007004 0-felvir rivas-_trabajofinaldefensa-000
T026800007004 0-felvir rivas-_trabajofinaldefensa-000
 
Análisis de regresión múltiple
Análisis de regresión múltipleAnálisis de regresión múltiple
Análisis de regresión múltiple
 
Curso de-econometria-basica
Curso de-econometria-basicaCurso de-econometria-basica
Curso de-econometria-basica
 
Matrices
MatricesMatrices
Matrices
 
Two equations systems sol 01 equal
Two equations systems sol 01 equalTwo equations systems sol 01 equal
Two equations systems sol 01 equal
 
5 valor esperado
5 valor esperado5 valor esperado
5 valor esperado
 

Último

PPT GESTIÓN ESCOLAR 2024 Comités y Compromisos.pptx
PPT GESTIÓN ESCOLAR 2024 Comités y Compromisos.pptxPPT GESTIÓN ESCOLAR 2024 Comités y Compromisos.pptx
PPT GESTIÓN ESCOLAR 2024 Comités y Compromisos.pptxOscarEduardoSanchezC
 
Estrategia de Enseñanza y Aprendizaje.pdf
Estrategia de Enseñanza y Aprendizaje.pdfEstrategia de Enseñanza y Aprendizaje.pdf
Estrategia de Enseñanza y Aprendizaje.pdfromanmillans
 
Movimientos Precursores de La Independencia en Venezuela
Movimientos Precursores de La Independencia en VenezuelaMovimientos Precursores de La Independencia en Venezuela
Movimientos Precursores de La Independencia en Venezuelacocuyelquemao
 
OLIMPIADA DEL CONOCIMIENTO INFANTIL 2024.pptx
OLIMPIADA DEL CONOCIMIENTO INFANTIL 2024.pptxOLIMPIADA DEL CONOCIMIENTO INFANTIL 2024.pptx
OLIMPIADA DEL CONOCIMIENTO INFANTIL 2024.pptxjosetrinidadchavez
 
Flores Nacionales de América Latina - Botánica
Flores Nacionales de América Latina - BotánicaFlores Nacionales de América Latina - Botánica
Flores Nacionales de América Latina - BotánicaJuan Carlos Fonseca Mata
 
NARRACIONES SOBRE LA VIDA DEL GENERAL ELOY ALFARO
NARRACIONES SOBRE LA VIDA DEL GENERAL ELOY ALFARONARRACIONES SOBRE LA VIDA DEL GENERAL ELOY ALFARO
NARRACIONES SOBRE LA VIDA DEL GENERAL ELOY ALFAROJosé Luis Palma
 
EXPECTATIVAS vs PERSPECTIVA en la vida.
EXPECTATIVAS vs PERSPECTIVA  en la vida.EXPECTATIVAS vs PERSPECTIVA  en la vida.
EXPECTATIVAS vs PERSPECTIVA en la vida.DaluiMonasterio
 
DECÁGOLO DEL GENERAL ELOY ALFARO DELGADO
DECÁGOLO DEL GENERAL ELOY ALFARO DELGADODECÁGOLO DEL GENERAL ELOY ALFARO DELGADO
DECÁGOLO DEL GENERAL ELOY ALFARO DELGADOJosé Luis Palma
 
plan-de-trabajo-colegiado en una institucion educativa
plan-de-trabajo-colegiado en una institucion educativaplan-de-trabajo-colegiado en una institucion educativa
plan-de-trabajo-colegiado en una institucion educativafiorelachuctaya2
 
el CTE 6 DOCENTES 2 2023-2024abcdefghijoklmnñopqrstuvwxyz
el CTE 6 DOCENTES 2 2023-2024abcdefghijoklmnñopqrstuvwxyzel CTE 6 DOCENTES 2 2023-2024abcdefghijoklmnñopqrstuvwxyz
el CTE 6 DOCENTES 2 2023-2024abcdefghijoklmnñopqrstuvwxyzprofefilete
 
DE LAS OLIMPIADAS GRIEGAS A LAS DEL MUNDO MODERNO.ppt
DE LAS OLIMPIADAS GRIEGAS A LAS DEL MUNDO MODERNO.pptDE LAS OLIMPIADAS GRIEGAS A LAS DEL MUNDO MODERNO.ppt
DE LAS OLIMPIADAS GRIEGAS A LAS DEL MUNDO MODERNO.pptELENA GALLARDO PAÚLS
 
Procesos Didácticos en Educación Inicial .pptx
Procesos Didácticos en Educación Inicial .pptxProcesos Didácticos en Educación Inicial .pptx
Procesos Didácticos en Educación Inicial .pptxMapyMerma1
 
5° SEM29 CRONOGRAMA PLANEACIÓN DOCENTE DARUKEL 23-24.pdf
5° SEM29 CRONOGRAMA PLANEACIÓN DOCENTE DARUKEL 23-24.pdf5° SEM29 CRONOGRAMA PLANEACIÓN DOCENTE DARUKEL 23-24.pdf
5° SEM29 CRONOGRAMA PLANEACIÓN DOCENTE DARUKEL 23-24.pdfOswaldoGonzalezCruz
 
LINEAMIENTOS INICIO DEL AÑO LECTIVO 2024-2025.pptx
LINEAMIENTOS INICIO DEL AÑO LECTIVO 2024-2025.pptxLINEAMIENTOS INICIO DEL AÑO LECTIVO 2024-2025.pptx
LINEAMIENTOS INICIO DEL AÑO LECTIVO 2024-2025.pptxdanalikcruz2000
 

Último (20)

Repaso Pruebas CRECE PR 2024. Ciencia General
Repaso Pruebas CRECE PR 2024. Ciencia GeneralRepaso Pruebas CRECE PR 2024. Ciencia General
Repaso Pruebas CRECE PR 2024. Ciencia General
 
Unidad 4 | Teorías de las Comunicación | MCDI
Unidad 4 | Teorías de las Comunicación | MCDIUnidad 4 | Teorías de las Comunicación | MCDI
Unidad 4 | Teorías de las Comunicación | MCDI
 
PPT GESTIÓN ESCOLAR 2024 Comités y Compromisos.pptx
PPT GESTIÓN ESCOLAR 2024 Comités y Compromisos.pptxPPT GESTIÓN ESCOLAR 2024 Comités y Compromisos.pptx
PPT GESTIÓN ESCOLAR 2024 Comités y Compromisos.pptx
 
Estrategia de Enseñanza y Aprendizaje.pdf
Estrategia de Enseñanza y Aprendizaje.pdfEstrategia de Enseñanza y Aprendizaje.pdf
Estrategia de Enseñanza y Aprendizaje.pdf
 
Movimientos Precursores de La Independencia en Venezuela
Movimientos Precursores de La Independencia en VenezuelaMovimientos Precursores de La Independencia en Venezuela
Movimientos Precursores de La Independencia en Venezuela
 
OLIMPIADA DEL CONOCIMIENTO INFANTIL 2024.pptx
OLIMPIADA DEL CONOCIMIENTO INFANTIL 2024.pptxOLIMPIADA DEL CONOCIMIENTO INFANTIL 2024.pptx
OLIMPIADA DEL CONOCIMIENTO INFANTIL 2024.pptx
 
Earth Day Everyday 2024 54th anniversary
Earth Day Everyday 2024 54th anniversaryEarth Day Everyday 2024 54th anniversary
Earth Day Everyday 2024 54th anniversary
 
Flores Nacionales de América Latina - Botánica
Flores Nacionales de América Latina - BotánicaFlores Nacionales de América Latina - Botánica
Flores Nacionales de América Latina - Botánica
 
NARRACIONES SOBRE LA VIDA DEL GENERAL ELOY ALFARO
NARRACIONES SOBRE LA VIDA DEL GENERAL ELOY ALFARONARRACIONES SOBRE LA VIDA DEL GENERAL ELOY ALFARO
NARRACIONES SOBRE LA VIDA DEL GENERAL ELOY ALFARO
 
EXPECTATIVAS vs PERSPECTIVA en la vida.
EXPECTATIVAS vs PERSPECTIVA  en la vida.EXPECTATIVAS vs PERSPECTIVA  en la vida.
EXPECTATIVAS vs PERSPECTIVA en la vida.
 
Unidad 3 | Teorías de la Comunicación | MCDI
Unidad 3 | Teorías de la Comunicación | MCDIUnidad 3 | Teorías de la Comunicación | MCDI
Unidad 3 | Teorías de la Comunicación | MCDI
 
DECÁGOLO DEL GENERAL ELOY ALFARO DELGADO
DECÁGOLO DEL GENERAL ELOY ALFARO DELGADODECÁGOLO DEL GENERAL ELOY ALFARO DELGADO
DECÁGOLO DEL GENERAL ELOY ALFARO DELGADO
 
plan-de-trabajo-colegiado en una institucion educativa
plan-de-trabajo-colegiado en una institucion educativaplan-de-trabajo-colegiado en una institucion educativa
plan-de-trabajo-colegiado en una institucion educativa
 
el CTE 6 DOCENTES 2 2023-2024abcdefghijoklmnñopqrstuvwxyz
el CTE 6 DOCENTES 2 2023-2024abcdefghijoklmnñopqrstuvwxyzel CTE 6 DOCENTES 2 2023-2024abcdefghijoklmnñopqrstuvwxyz
el CTE 6 DOCENTES 2 2023-2024abcdefghijoklmnñopqrstuvwxyz
 
DE LAS OLIMPIADAS GRIEGAS A LAS DEL MUNDO MODERNO.ppt
DE LAS OLIMPIADAS GRIEGAS A LAS DEL MUNDO MODERNO.pptDE LAS OLIMPIADAS GRIEGAS A LAS DEL MUNDO MODERNO.ppt
DE LAS OLIMPIADAS GRIEGAS A LAS DEL MUNDO MODERNO.ppt
 
Tema 7.- E-COMMERCE SISTEMAS DE INFORMACION.pdf
Tema 7.- E-COMMERCE SISTEMAS DE INFORMACION.pdfTema 7.- E-COMMERCE SISTEMAS DE INFORMACION.pdf
Tema 7.- E-COMMERCE SISTEMAS DE INFORMACION.pdf
 
Procesos Didácticos en Educación Inicial .pptx
Procesos Didácticos en Educación Inicial .pptxProcesos Didácticos en Educación Inicial .pptx
Procesos Didácticos en Educación Inicial .pptx
 
Defendamos la verdad. La defensa es importante.
Defendamos la verdad. La defensa es importante.Defendamos la verdad. La defensa es importante.
Defendamos la verdad. La defensa es importante.
 
5° SEM29 CRONOGRAMA PLANEACIÓN DOCENTE DARUKEL 23-24.pdf
5° SEM29 CRONOGRAMA PLANEACIÓN DOCENTE DARUKEL 23-24.pdf5° SEM29 CRONOGRAMA PLANEACIÓN DOCENTE DARUKEL 23-24.pdf
5° SEM29 CRONOGRAMA PLANEACIÓN DOCENTE DARUKEL 23-24.pdf
 
LINEAMIENTOS INICIO DEL AÑO LECTIVO 2024-2025.pptx
LINEAMIENTOS INICIO DEL AÑO LECTIVO 2024-2025.pptxLINEAMIENTOS INICIO DEL AÑO LECTIVO 2024-2025.pptx
LINEAMIENTOS INICIO DEL AÑO LECTIVO 2024-2025.pptx
 

Selecccion de-variable-y-construccion-del-modelo

  • 1. 1 SELECCCION DE VARIABLE Y CONSTRUCCION DEL MODELO I. Introducción: En muchas situaciones se dispone de un conjunto grande de posibles variables regresoras, una primera pregunta es saber si todas las variables deben entrar en el modelo de regresión y, en caso negativo, se quiere saber qué variables deben entrar y que variables no deben entrar en el modelo. El analista debe determinar el subconjunto real de regresores que debe usarse en el modelo. La definición del subconjunto adecuado de regresores para el modelo es lo que se llama problema de selección de variable. La construcción de un modelo que solo incluya un subconjunto de los regresores disponibles implica dos objetivos contrapuestos:  Se desea que el modelo incluya tantos regresores como sea posible, para que el contenido de la información en ellos pueda influir sobre el valor predicho de Y.  Se desea que el modelo incluya los menos regresores que sea posible, porque la variancia de la predicción 𝑦̂ aumenta a medida que aumenta la cantidad de regresores. También, mientras mas regresores haya en el modelo, los costos de recolección de datos y los del mantenimiento del modelo serán mayores. Ninguno de los procedimientos de selección de variable que se describen a continuación tiene garantía de producir la ecuación de regresión óptima para un determinado conjunto de datos, en general no hay una sola ecuación optima, sino más bien varias igualmente buenas. II. Consecuencias de la mala especificación del modelo: Supongamos que el modelo completo tiene la siguiente forma: 𝑦𝑖 = 𝛽0 + ∑ 𝛽𝑗 𝑥𝑖𝑗 𝑘 𝑗=1 + 𝜀𝑖, 𝑖 = 1,2, … , 𝑛. ó 𝑦 = 𝑋𝛽 + 𝜀 Hay 𝐾 variables regresoras candidatas, con 𝑛 ≥ 𝐾 + 1 observaciones de estos regresores y la variable respuesta y. Se supondrá que la lista de los regresores candidatos contiene todas las variables importantes. También se supondrá que todas las ecuaciones incluyen un término de ordenada al origen. Sean r la cantidad de variables regresoras que serán eliminadas de la ecuación, entonces la cantidad de variables que se retiene es p>=K+1-r; donde el modelo se puede escribir de la siguiente manera: 𝑦 = 𝑋 𝑝 𝛽 𝑝 + 𝑋𝑟 𝛽𝑟 + 𝜀 Se puede observar que la matriz 𝑋 se divide en dos matrices de orden (𝑛𝑥𝑝) 𝑦 (𝑛𝑥𝑟) respectivamente. Para el modelo completo 𝛽 estimado es: 𝛽̂ = (𝑋′ 𝑋)−1 𝑋′ 𝑦 Y el estimado de la varianza residual es: 𝜎2 = 𝑦′ 𝑦 − 𝛽̂′𝑋′𝑦 𝑛 − 𝐾 − 1 De donde los: 𝛽̂ 𝑝 = (𝑋 𝑝 ′ 𝑋 𝑝) −1 𝑋 𝑝 ′ 𝑦 ; 𝛽̂ 𝑟 = (𝑋𝑟 ′ 𝑋𝑟)−1 𝑋𝑟 ′ 𝑦
  • 2. 2 Teniendo en cuenta las ecuaciones anteriores, a continuación se especifican las propiedades de los estimados de 𝛽̂ 𝑦 𝜎̂2 del modelo de subconjunto. 1. El valor esperado de 𝛽̂ 𝑝 es: 𝐸(𝛽̂ 𝑝) = 𝛽 𝑝 + (𝑋′ 𝑋)−1 𝑋 𝑝 ′ 𝑋𝑟 𝛽𝑟 Entonces 𝛽̂ 𝑝 es un estimador sesgado de 𝛽 𝑝, a menos que los coeficientes de regresión que correspondan a las variables eliminadas (𝛽 𝑝) sean cero, o que las variables estimadas sean ortogonales a las variables omitidas (𝑋 𝑝 ′ 𝑋𝑟 = 0). 2. Las variancias de 𝛽̂ 𝑝 y 𝛽̂ son Var(𝛽̂p)=𝜎2 (𝑋′ 𝑝 𝑋 𝑝)−1 y Var(𝛽̂)=𝜎2 (X’X)−1 ,también la matriz Var(𝛽̂)-Var(𝛽̂p) es positiva semidefinida, lo cual indica que al eliminar las variables nunca se aumentan las varianzas de los estimados de los parámetros restantes. 3. 𝛽̂ 𝑝 es un estimado sesgado de βp y 𝛽̂ no lo es ,es más razonable comparar la precisión de los estimados de los parámetros para los modelos completos y de subconjunto en términos del error cuadrático medio ,por ejemplo : 𝑀𝑆𝐸(𝜃̂) = 𝑉𝑎𝑟(𝜃̂) + [𝐸(𝜃̂) − 𝜃] 2 Error cuadrático medio de 𝛽̂p es 𝑀𝑆𝐸(𝛽̂ 𝑝) = 𝜎2 (𝑋 𝑝 ′ 𝑋 𝑝) −1 + 𝐴𝛽𝑟 𝛽′ 𝑟 𝐴′ ; 𝐴 = (𝑋 𝑝 ′ 𝑋 𝑝) −1 𝑋 𝑝 ′ 𝑋𝑟 Los estimadores por mínimos cuadráticos de los parámetros en el modelo de subconjunto tienen menor error cuadrático medio que los correspondientes del modelo completo, cuando las variables eliminadas tienen coeficientes de regresión que son menores que los errores estándares de sus estimados en el modelo completo. 4. El parámetro 𝜎̂2 es un estimado insesgado de 𝜎2 , sin embargo para el modelo subconjunto: 𝐸(𝜎̂2) = 𝜎2 + 𝛽𝑟 ′ 𝑋𝑟 ′ [𝐼 − 𝑋 𝑝(𝑋 𝑝 ′ 𝑋 𝑝) −1 𝑋 𝑝 ′ ] 𝑋𝑟 𝛽𝑟 𝑛 − 𝑝 Esto es, 𝜎̂2 en general es sesgado hacia arriba como estimando de 𝜎2 . 5. Supóngase que se desea predecir la respuesta en el punto 𝑥’ = [𝑥 𝑝 ′ , 𝑥 𝑟 ′ ]. Si se usa el modelo completo, el valor predicho es 𝑦̂ = 𝑥′𝛽̂, con media 𝑥′𝛽 y variancia de la predicción : 𝑉𝑎𝑟(𝑦̂) = 𝜎2 [1 + 𝑥(𝑋’𝑋)−1 𝑥] Sin embargo, si se usa el modelo de subconjunto, 𝑦̂𝑝 = 𝑥 𝑝 ′ 𝛽̂ 𝑝, con media 𝐸(𝑦̂) = 𝑥 𝑝 ′ 𝛽 𝑝 + 𝑥 𝑝 ′ 𝐴𝛽𝑟 Y el error cuadrático medio de predicción 𝑀𝑆𝐸(𝑦̂) = 𝜎2 [1 + 𝑥 𝑝 ′ (𝑋 𝑝 ′ 𝑋 𝑝) −1 𝑥 𝑝] + (𝑥 𝑝 ′ 𝐴𝛽𝑟 − 𝑥 𝑟 ′ 𝛽𝑟) 2 𝑦̂ es un estimado sesgado de 𝑦 a menos que 𝑥 𝑝 ′ 𝐴𝛽𝑟 = 0, que solo es cierto si 𝑋 𝑝 ′ 𝑋𝑟 𝛽𝑟 = 0, además la variancia de 𝑦̂ procedente del modelo completo es no es menor que la de 𝑦̂𝑝 del modelo de subconjunto. En términos de error cuadrático medio, se puede demostrar que: 𝑉𝑎𝑟(𝑦̂) ≥ 𝑀𝑆𝐸(𝑦̂𝑝) Siempre y cuando la matriz 𝑉𝑎𝑟(𝛽 𝑝) − 𝛽𝑟 𝛽𝑟 ′ sea positiva semidefinida.
  • 3. 3 Al eliminar variables del modelo, se puede mejorar la precisión de los estimados de os parámetros de las variables retenidas, aun cuando algunas de las variables omitidas no sean despreciables. El omitir variables introduce sesgo potencial en los estimados de los coeficientes de las variables retenidas y la respuesta, sin embargo, si las variables eliminadas tienen efectos pequeños, el MSE de los estimados sesgados será menor que la variancia de los estimados insesgados, ya que, la cantidad de sesgo introducida es menor que la reducción en la varianza. Existe peligro al retener variables despreciables, lo que nos lleva a variables con coeficientes cero, o que sean menores que sus errores estándares correspondientes del modelo completo. El peligro es que aumentan las variancias de los estimados de los parámetros y de la respuesta predicha. III. Criterios para evaluar modelos de regresión con subconjuntos de variables: 1. Coeficiente de determinación múltiple. Coeficiente de regresión múltiple para un modelo de regresión con subconjuntos de p términos. Representa el porcentaje de variabilidad de la Y que explica el modelo de regresión. El coeficiente aumenta al aumentar p y es máximo cuando p=k+1. 2. 𝑹 𝟐 ajustada La estadística 𝑅2 Ajustada no necesariamente aumenta cuando se introducen más regresores al modelo. Si se agregan s regresores al modelo, 𝑅2 𝐴𝑗.(𝑝+𝑠) será mayor que 𝑅2 𝐴𝑗.𝑝, si y solo sí la estadística parcial de F es mayor que 1. 𝑅2 𝑎𝑗. = 1 − 𝐶𝑀𝑒𝑟𝑟𝑜𝑟 𝑆𝑆𝑡𝑜𝑡𝑎𝑙 𝑛 − 1
  • 4. 4 3. Cuadrado medio de residuales. La elección del modelo se basará en lo siguiente: - El 𝐶𝑀𝑒𝑟𝑟𝑜𝑟(p) mínimo. - El valor de p, de modo que el 𝐶𝑀𝑒𝑟𝑟𝑜𝑟(p) sea aproximadamente igual a 𝐶𝑀𝑒𝑟𝑟𝑜𝑟 para el modelo completo. - Un valor de p cercano al punto en donde crece el 𝐶𝑀𝑒𝑟𝑟𝑜𝑟(p) mínimo. 4. Estadística 𝑪 𝒑 de Mallows. Los criterios anteriores se basan en el 𝐶𝑀𝑒𝑟𝑟𝑜𝑟, pero también es interesante tener en cuenta el sesgo en la selección del modelo ya que si se omite una variable regresora importante los estimadores de los coeficientes de regresión son sesgados y los criterios anteriores pueden elegir un modelo que tenga sesgo grande aunque su 𝐶𝑀𝑒𝑟𝑟𝑜𝑟 sea pequeño. Un criterio que tenga en cuenta el sesgo ayudará a elegir el modelo adecuadamente. Un criterio que se relaciona con el error cuadrático medio de un valor ajustado. 𝐶 𝑝 = 𝑆𝐶𝑒𝑟𝑟𝑜𝑟 𝐶𝑀𝑒𝑟𝑟𝑜𝑟 − 𝑛 + 2𝑝  Ideal 𝐶 𝑝 = 𝑝  Sobreexplicado 𝐶 𝑝 > 𝑝  Infraexplicados 𝐶 𝑝 < 𝑝 5. Press Es una medida de lo bien que función un modelo de regresión para predecir nuevos datos. Lo deseable es tener un modelo con valores relativamente pequeños, aunque por su definición siempre será mayor que la SCerror. 𝑃𝑟𝑒𝑠𝑠 = ∑[𝑌𝑖 − 𝑦̂(𝑖)]2 𝑛 𝑖=1 = ∑[ 𝑒𝑖 1 − ℎ𝑖𝑖 ]2 𝑛 𝑖=1 𝐻 = 𝑥′(𝑥′ 𝑥)−1 𝑥′ 𝑃𝑟𝑒𝑠𝑠 > 𝑆𝐶𝑒𝑟𝑟𝑜𝑟, ideal es que ℎ𝑖i tienda a cero para que sea igual al 𝑆𝐶𝑒𝑟𝑟𝑜𝑟.
  • 5. 5 IV. Técnicas computacionales para seleccionar variables 1. Todas las regresiones posibles. Como hay 𝐾 = 4 regresores candidatos, hay 24 = 16 ecuaciones posibles de regresión, si se incluye siempre la ordenada al origen 𝛽0. Se muestran los resultados de ajustar esas 16 ecuaciones. Se utiliza como medida de bondad de ajuste el coeficiente de determinación en función de p: Al examinar esta figura se ve que después de que hay dos regresores en el modelo, hay poca ganancia en términos de R2 cuando se introducen variables adicionales. Los dos modelos de dos regresores (𝑥1, 𝑥2) 𝑦 (𝑥1, 𝑥4) tienen en esencia los mismos valores de 𝑅2, y en lo que
  • 6. 6 respecta a este criterio, sería poca la diferencia si se escogiera cualquiera de los modelos como la ecuación final de regresión; podría ser mejor usar (𝑥1, 𝑥4) porque 𝑥4 produce el mejor modelo con un regresor (se observa el R2). Todo el subconjunto de regresión para el que 𝑅2 𝑝 > 𝑅2 0 es adecuado. Es ilustrativo examinar los pares de correlaciones entre 𝑥𝑖 𝑦 𝑥𝑗 Los pares de regresores (𝑥1, 𝑥3) 𝑌 (𝑥2, 𝑥4) están muy correlacionados, porque 𝑟13 = −0.824 𝑦 𝑟24 = −0.973 En consecuencia, si se agregan más regresores cuando(𝑥1, 𝑥2) o cuando (𝑥1, 𝑥4) ya están en el modelo será de poco provecho, porque el contenido de información en los regresores excluidos está presente en los regresores que ya están en el modelo.
  • 7. 7 Ahora analizamos la gráfica del 𝐶𝑀𝑒𝑟𝑟𝑜𝑟: El modelo con cuadrado medio residual mínimo es el (𝑥1, 𝑥2, 𝑥4) para el que 𝑀𝑆𝑅𝑒𝑠(4) = 5.3303, nótese que, como era de esperarse, el modelo que minimiza a 𝑀𝑆𝑅𝑒𝑠(𝑃) también maximiza la 𝑅2 ajustada, sin embargo, dos de los otros modelos con tres regresores, (𝑥1, 𝑥2, 𝑥3) y (𝑥1, 𝑥3, 𝑥4), y los dos modelos de dos regresores (𝑥1, 𝑥2) y (𝑋1, 𝑥4), tienen valores comparables del cuadrado medio residual; si en el modelo está ya sea (𝑥1, 𝑥2) 𝑜 (𝑥1, 𝑥4), hay poca reducción en el cuadrado medio de residuales cuando se agregan más regresores. El modelo con subconjunto (𝑥1, 𝑥2) puede ser más adecuado que el (𝑥1, 𝑥4) porque tiene menor valor del cuadrado medio de residuales.
  • 8. 8 Observamos la gráfica de Cp: Al examinar esta gráfica se ve que hay cuatro modelos que podrían ser aceptables: (𝑥1, 𝑥2), (𝑥1, 𝑥2, 𝑥3), (𝑥1, 𝑥2, 𝑥4) 𝑦 (𝑥1, 𝑥3, 𝑥4). Sin considerar factores adicionales, como la información técnica acerca de los regresores, o los costos de la recolección de datos, podría ser adecuado elegir el modelo más sencillo (𝑥1, 𝑥2) como modelo final, porque tiene el 𝐶𝑝 mínimo (es ideal igual a p o menor a p). Este ejemplo ha ilustrado el proceso de cómputo relacionado con la formación de modelo con todas las regresiones posibles; nótese que no hay elección definida de la mejor ecuación de regresión. Con mucha frecuencia se ve que los distintos criterios sugieren distintas ecuaciones, por ejemplo, la ecuación con Cp mínimo es la que tiene (𝑥1, 𝑥2) y la de 𝑀𝑆𝑅𝑒𝑠 mínimo es la que tiene (𝑥1, 𝑥2, 𝑥4). Por lo tanto se examina los dos modelos (𝑥1, 𝑥2) 𝑦 (𝑥1, 𝑥2, 𝑥4) con respecto a PRESS y a sus factores de inflación de varianza (FIV).
  • 9. 9 𝑅2 𝑝𝑟𝑒𝑑𝑖𝑐𝑐𝑖𝑜𝑛 = (1 − 𝑃𝑅𝐸𝑆𝑆 𝑆𝑆𝑡𝑜𝑡𝑎𝑙 ) 𝐹𝐼𝑉𝑗 = 1 1 − 𝑅2 𝑗 Para (𝑥1, 𝑥2)
  • 10. 10  𝐹𝐼𝑉1 = 1 1−0.0522 =1.05  𝐹𝐼𝑉2 = 1 1−0.0522 =1.05 Para (𝑥1, 𝑥2, 𝑥4) - 𝐹𝐼𝑉1 = 1 1−0.062 =1.066 - 𝐹𝐼𝑉2 = 1 1−0.9468 =18.797 - 𝐹𝐼𝑉4 = 1 1−0.9472 =18.939 Ambos modelos tienen valores de PRESS muy parecidos (más o menos el doble de la suma de cuadrados de residuales para la ecuación con 𝑀𝑆𝑅𝑒𝑠 mínima), y la 𝑅2 para predicción. Sin embargo, x2 y x4 son muy multicolineales, lo que se ve por los mayores factores de inflación de varianza en (𝑥1, 𝑥2, 𝑥4). Ya que ambos modelos tienen estadísticas PRESS equivalentes, se recomendaría el modelo con (𝑥1, 𝑥2), con base en la falta de colinealidad en él.
  • 11. 11 2. Métodos de regresión por segmentos. a. Selección hacia delante(forward). Este procedimiento comienza con la hipótesis que no hay regresores en el modelo además de la ordenada a origen. Se trata de determinar un subconjunto óptimo insertando regresores. El primer regresor que se selecciona para entrar a la ecuación es el que tenga la máxima correlación simple con la variable de respuesta Y. Supóngase que este regresor es X1, este también es el regresor que producirá el máximo valor de la estadística F en la prueba de significancia de la regresión. El regresor se introduce si la estadística F es mayor que un valor predeterminado de F. El segundo regresor para entrar es el que ahora tenga la máxima correlación con y, después de ajustar y por el efecto del primer regresor que se introdujo, X1. A esas correlaciones se les llama correlaciones parciales, que son las correlaciones sencillas entre los residuales de la regresión 𝑦̂=𝛽̂0 + 𝛽̂1X1 y los residuales de las regresiones de los demás regresores candidatos sobre X1. Supóngase que en el paso 2 el regresor con la máxima correlación parcial con Y es 𝑋2, eso implica que la estadística parcial F con mayor valor es F= 𝑆𝑆 𝑅(𝑋2 𝑋1)⁄ 𝑀𝑆 𝑅𝐸𝑆(𝑋1, 𝑋2) Si este valor de F es mayor que FIN ,entonces se agrega X2 al modelo el regresor que tenga la máxima correlación parcial y si su estadística parcial F es mayor que el valor preseleccionado para entrar ,FIN ,o cuando se ha agregado el ultimo regresor candidato al modelo. Ejemplo: Data : Dato de cementos de Hald. En primer lugar se observa en la tabla, cual de las variables candidatas tiene mayor correlación parcial con la variables respuesta; claramente que se puede observar que 𝑋4 tpresenta mayor correlacion con 𝑦 que es igual 𝑐𝑜𝑟(𝑥4, 𝑦) = −0.821 con F=22.80 siendo mayor al 𝐹_𝐼𝑁 = 4.84, entra 𝑥4 al modelo. Por lo tanto en primera instancia el modelo es : 𝑦̂ = 𝛽̂0 + 𝛽̂ 𝑋4 + 𝜀 El siguiente paso es ver cual de las variables restantes tiene mayor correlación con la variable respuesta teniendo en cuenta a la variable introducida(𝑥4); se aprecia que el siguiente variable con mayor correlación es 𝑥1 con 0.9567 y el 𝐹 = 108.22, siendo mayor a 𝐹𝐼𝑁 = 4.96, también se agrega 𝑥1 al modelo. En el siguiente paso 𝑥2 tiene mayor correlación parcial con 𝐹 = 5.03, resultando menor al 𝐹𝐼𝑁 = 5.12, por lo tanto 𝑥2 no entra al modelo y termina el procedimiento. Haciendo uso del software (Minitab 17), se obtiene el siguiente modelo: Minitab, tiene entre sus funciones el calculo de la selección de modelos por segmentos, en este caso seleccionamos el de selección hacia delante y nos muestra directamente el modelo final que seria el mismo haciendo mediante el calculo manual.
  • 12. 12 b. Eliminación hacia atrás(backward). Eliminación hacia atrás: En la eliminación hacia atrás se trata de determinar un buen modelo trabajando en dirección contraria, es decir, se comienza con un modelo que incluya todos los K regresores candidatos. Luego se pasa a calcular la estadística parcial F para cada regresor, como si fuera la última variable que entro al modelo. La mínima de las estadísticas parciales F se compara con un valor preseleccionado denominado 𝐹𝑠𝑎𝑙 o 𝐹𝑜𝑢𝑡 , entonces si la mínima estadística parcial F es menor que el valor ya mencionado se pasa a eliminar ese regresor, ahora se ajusta un modelo de regresión con K – 1 regresores, se vuelven a calcular las estadísticas parciales F para el nuevo modelo, y se repite el procedimiento ya mencionado. El algoritmo de eliminación hacia atrás termina cuando el valor mínimo de F parcial no es menor que 𝐹𝑜𝑢𝑡, el valor preseleccionado de corte. Ejemplo: (Usando minitab 17) Como el algoritmo inicia con todos K regresores candidatos, se pasa a correr una regresión con todos, obteniéndose los siguientes resultados:
  • 13. 13 Como se observa el valor mínimo de las estadísticas parciales de F es 0.02, el cual le pertenece al regresor x3. Se establece el valor de 𝐹𝑜𝑢𝑡 = 𝐹(0.95,1,8) = 5.317655 , con el cual basaremos nuestras decisiones. Entonces como 𝐹 < 𝐹𝑜𝑢𝑡 se pasa a quitar del modelo al regresor x3. Como se quitó del modelo al regresor x3, se corre nuevamente una regresión pero ahora con solo 3 regresores (x1, x2 y x4), el resultado se muestra a continuación:
  • 14. 14 Como se observa en esta nueva regresión, el mínimo estadístico parcial F es 1.86, el cual le pertenece al regresor x4. Entonces se pasa a comparar con 𝐹𝑜𝑢𝑡 , mostrando que 𝐹 < 𝐹𝑜𝑢𝑡 , por lo tanto se pasa a quitar al regresor x4 del modelo. Ahora se tienen solo 2 regresores(x1 y x2) con los cuales se corre una regresión nueva, los resultados se muestran en la siguiente imagen: Como se muestran en la imagen en mínimo de los estadísticos parciales F es 146.52, el cual le pertenece al regresor x1. A continuación se pasa a comparar dicho valor con 𝐹𝑜𝑢𝑡, mostrando lo siguiente: 𝐹 > 𝐹𝑜𝑢𝑡; por lo tanto el algoritmo termina en este paso, quedando en el modelo los regresores x1 y x2, y obteniendo como resultando el modelo final: 𝑦 = 52.58 + 1.468 𝑥1 + 0.6623 𝑥2 Como comentario, este algoritmo puede ser realizado directamente por el minitab, mostrando los mimos resultados.
  • 15. 15 c. Regresión por segmentos(paso a paso ó Stepwise). La regresión por segmentos es una modificación de la selección hacia delante, en la que a cada paso se reevalúan todos los regresores que habían entrado antes al modelo, mediante sus estadísticas parciales F. Un regresor agregado en una etapa anterior puede volverse redundante, debido a las relaciones entre él y los regresores que ya estén en la ecuación. Si la estadística parcial F de una variable es menor que 𝐹𝑂𝑈𝑇, esa variable se elimina del modelo. En este método se requieren dos valores de corte, 𝐹𝐼𝑁 𝑦 𝐹𝑂𝑈𝑇, algunos analistas prefieren definir 𝐹𝐼𝑁 = 𝐹𝑂𝑈𝑇, aunque eso no es necesario, con frecuencia se opta por 𝐹𝐼𝑁 > 𝐹𝑂𝑈𝑇, con lo que se hace algo mas difícil agregar un regresor que eliminar uno. El método termina cuando ya no hay variables candidatas a ser incluidas o a ser eliminadas. Veamos el siguiente ejemplo: Data: Datos de cemento de Hald Ya explicado el método, pasamos a hacer los cálculos. En este caso se hará uso de software libre R. Primeramente definiremos las funciones para calcular las correlaciones parciales:
  • 16. 16 calculamos las correlaciones: Se observa que la mayor correlación con la variable respuesta es 𝑐𝑜𝑟(𝑦, 𝑥4) = −0.821, entonces introducimos al modelo: > summary.aov(lm(y~x4)) Df Sum Sq Mean Sq F value Pr(>F) x4 1 1831.9 1831.9 22.8 0.000576 *** Residuals 11 883.9 80.4 --- Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1 > n <- 13 > p <- 0 > Fexp <- (cor(x4,y)^2*(n-p-1))/(1-cor(x4,y)^2) > Fexp [1] 24.87111 > Fteo <- qf(0.95,1,n-p-1) > Fteo [1] 4.747225 > # Fexp > Fteo, entra x4 al modelo. Paso 1: > n <- 13 > p <- 0 > Fexp <- (cor(x4,y)^2*(n-p-1))/(1-cor(x4,y)^2)
  • 17. 17 > Fexp [1] 24.87111 > Fteo <- qf(0.95,1,n-p-1) > Fteo [1] 4.747225 > # Fexp > Fteo, entra x4 al modelo Paso 2: > pcor(x1,y,x4) [1] 0.9567731 > pcor(x2,y,x4) [1] 0.1302149 > pcor(x3,y,x4) [1] -0.8950818 > p <- p+1 > # mayor correlacion parcial de primer orden: x1 > Fexp <- (pcor(x1,y,x4)^2*(n-p-1))/(1-pcor(x1,y,x4)^2) > Fexp [1] 119.0463 > Fteo <- qf(0.95,1,(n-p-1)) > Fteo [1] 4.844336 > # como Fexp > Fteo, entra x1 al modelo. Paso 3: > p <- p+1 > # prueba de la significancia de las variables introducidas anteriormete: x4 > Fexp <- (pcor(x4,y,x1)^2*(n-p-1))/(1-pcor(x4,y,x1)^2) > Fexp [1] 159.2952 > Fteo <- qf(0.95,1,(n-p-1)) > Fteo [1] 4.964603 > # como Fexp > Fteo, se mantiene x4 en el modelo. Paso 4: > pcor2(x2,y,x4,x1) [1] 0.5986053 > pcor2(x3,y,x4,x1) [1] -0.5657105 > # mayor correlacion parcial de segundo orden: x2 > Fexp <- (pcor2(x2,y,x4,x1)^2*(n-p-1))/(1-pcor2(x2,y,x4,x1)^2) > Fexp [1] 5.584294 > Fteo <- qf(0.95,1,(n-p-1)) > Fteo [1] 4.964603 > # como Fexp > Fteo, entra x2 al modelo. Paso 5:
  • 18. 18 > # prueba de la significancia de las variables introducidas anteriormente: x4 y x1 > p <- p+1 > Fexp <- (pcor2(x4,y,x1,x2)^2*(n-p-1))/(1-pcor2(x4,y,x1,x2)^2) > Fexp [1] 1.863262 > Fteo <- qf(0.95,1,(n-p-1)) > Fteo [1] 5.117355 > # como Fexp < Fteo, se debe eliminar x4 del modelo. > Fexp <- (pcor2(x1,y,x2,x4)^2*(n-p-1))/(1-pcor2(x1,y,x2,x4)^2) > Fexp [1] 154.0076 > Fteo <- qf(0.95,1,(n-p-1)) > Fteo [1] 5.117355 > # como Fexp > Fteo, se mantiene x1 en el modelo. Paso 6: > #solo queda x3,se calcula su correlacion parcial. > pcor2(x3,y,x2,x1) [1] 0.4112643 > Fexp <- (pcor2(x3,y,x2,x1)^2*(n-p-1))/(1-pcor2(x3,y,x2,x1)^2) > Fexp [1] 1.832128 > Fteo <- qf(0.95,1,(n-p-1)) > Fteo [1] 5.117355 > # como Fexp < Fteo, x3 no entra al modelo. > # ** FINALMENTE EL MODELO QUEDA CON X1 Y X2 COMO VARIABLES REGRESORAS**. Resumen del modelo final: > summary.aov(lm(y~x1+x2)) Df Sum Sq Mean Sq F value Pr(>F) x1 1 1450.1 1450.1 250.4 2.09e-08 *** x2 1 1207.8 1207.8 208.6 5.03e-08 *** Residuals 10 57.9 5.8 --- Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1 > summary(lm(y~x1+x2)) Call: lm(formula = y ~ x1 + x2) Residuals: Min 1Q Median 3Q Max -2.893 -1.574 -1.302 1.363 4.048 Coefficients: Estimate Std. Error t value Pr(>|t|)
  • 19. 19 (Intercept) 52.57735 2.28617 23.00 5.46e-10 *** x1 1.46831 0.12130 12.11 2.69e-07 *** x2 0.66225 0.04585 14.44 5.03e-08 *** --- Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1 Residual standard error: 2.406 on 10 degrees of freedom Multiple R-squared: 0.9787, Adjusted R-squared: 0.9744 F-statistic: 229.5 on 2 and 10 DF, p-value: 4.407e-09 Usando el método computacional de Minitab 17: Haciendo uso del software SPSS se obtiene el siguiente resultado: REGRESSION /MISSING LISTWISE /STATISTICS COEFF OUTS R ANOVA CHANGE ZPP /CRITERIA=PIN(.05) POUT(.10) /NOORIGIN /DEPENDENT y /METHOD=STEPWISE x1 x2 x3 x4 /RESIDUALS NORMPROB(ZRESID).
  • 20. 20
  • 21. 21 V. Recomendaciones finales para la práctica. Como se ha visto existen varios procedimientos de selección de variables en regresión lineal. Se puede clasificarse como por etapas o de todas las regresiones posibles. Las ventajas del tipo por etapas son el ser rápido, fáciles de implementar y se consiguen con facilidad para casi todos los sistemas de computo. Sus desventajas está en que no producen modelos de subconjunto que sean necesariamente los mejores con respecto algún criterio común, y además, como se orientan hacia la producción de una sola ecuación final, el usuario con poco conocimiento puede ser conducido a creer que ese modelo sea optimo, en algún sentido. Si la cantidad de variables candidatas es considerable, el costo de todas las regresiones posibles es casi lo mismo que por etapas, pero no se puede conseguir con tanta facilidad como los demás métodos en etapas, en especial para computadoras personales. Cuando la cantidad de regresores candidatos es demasiado grande como para emplear de entrada el método de todas las regresiones posibles, se recomienda una estrategia de dos etapas. En primer paso se puede filtrar y eliminar los regresores que tengan efectos despreciables, y ya teniendo una lista mas pequeña se puede analizar con el método de todas las regresiones posibles. Un analista siempre debe recurrir a sus conocimientos de su entorno del problema y al sentido común para evaluar los regresores candidatos. Con
  • 22. 22 frecuencia se ve que algunas variables se pueden eliminar con base en la lógica o en el sentido técnico. Un analista se debe hacerse las siguientes preguntas, después de elegir un modelo:  ¿Es razonable la ecuación?, ¿tienen sentido los regresores en el modelo, considerando el entorno del problema?.  ¿Es útil el modelo para el objeto que se pretendía?  ¿Es razonable los coeficientes de regresión?  ¿Son satisfactorios las comprobaciones comunes de diagnostico de adecuación de modelo? Por ultimo, aunque la ecuación ajuste bien a los datos , y pase las pruebas normales de diagnostico, no hay seguridad de que haya a predecir con exactitud nuevas observaciones. VI. Anexo a. Data: Datos de cemento de Hald Caso: Calor producido(y), en calorías por gramos de cemento, en función de la cantidad de cada uno de los cuatro ingredientes en la mezcla: aluminato tricálcico (x1), silicato tricálcico (x2), aluminoferrito tetra cálcico (x3) y silicato di cálcico(x4). Y x1 x2 x3 x4 78,50 7 26 6 60
  • 23. 23 74,30 1 29 15 52 104,30 11 56 8 20 87,60 11 31 8 47 95,90 7 52 6 33 109,20 11 55 9 22 102,70 3 71 17 6 72,50 1 31 22 44 93,10 2 54 18 22 115,90 21 47 4 26 83,80 1 40 23 34 113,30 11 66 9 12 109,40 10 68 8 12