1. REGRESIÓN LINEAL MÚLTIPLE
Introducción
Es evidente que lo más económico y rápido para modelar el comportamiento de una
variable Y es usar una sola variable preeditora y usar un modelo lineal. Pero algunas
veces es bastante obvio de que el comportamiento de Y es imposible que sea
explicada en gran medida por solo una variable.
Por ejemplo, es imposible tratar de explicar el rendimiento de un estudiante en un
examen, teniendo en cuenta solamente el número de horas que se preparó para
ella. Claramente, el promedio académico del estudiante, la carga académica que
lleva, el año de estudios, son tres de las muchas otras variables que pueden explicar
su rendimiento. Tratar de explicar el comportamiento de Y con más de una variable
preeditora usando una funcional lineal es el objetivo de regresión lineal múltiple.
Frecuentemente, uno no es muy familiar con las variables que están en juego y basa
sus conclusiones solamente en cálculos obtenidos con los datos tomados.
Es decir, si ocurre que el coeficiente de determinación R 2 sale bajo (digamos menor
de un 30%) , considerando además que su valor no se ha visto afectado por datos
anormales, entonces el modelo es pobre y para mejorarlo hay tres alternativas que
frecuentemente se usan:
a) Transformar la variable preeditora, o la variable de respuesta Y, o ambas y usar
luego un modelo lineal.
b) Usar regresión polinómica con una variable preeditora.
c) Conseguir más variables preeditoras y usar una regresión lineal múltiple.
En el primer caso, se puede perder el tiempo tratando de encontrar la transformación
más adecuada y se podría caer en overfitting, es decir, encontrar un modelo
demasiado optimista, que satisface demasiado la tendencia de los datos tomados
pero que es pobre para hacer predicciones debido a que tiene una varianza grande.
En el segundo caso el ajuste es más rápido, pero es bien fácil caer en overfitting y,
además se pueden crear muchos problemas de cálculo ya que pueden surgir
problemas de colinealidad, es decir relación lineal entre los términos del modelo
polinomio.
El tercer caso es tal vez la alternativa más usada y conveniente. Tiene bastante
analogía con el caso simple, pero requiere el uso de vectores y matrices.
En el siguiente ejemplo se mostrará el uso interactivo de las tres alternativas a
través de seis modelos de regresión y servirá como un ejemplo de motivación para
introducirnos en regresión lineal múltiple.
El modelo de regresión lineal múltiple
El modelo de regresión lineal múltiple con p variables predictoras y basado en n
observaciones tomadas es de la forma:
2. para i = 1,2,.n. Escribiendo el modelo para cada una de las observaciones, éste
puede ser considerado como un sistema de ecuaciones lineales de la forma
que puede ser escrita en forma matricial como
Recuperado de: http://pdf.rincondelvago.com/regresion-lineal-multiple.html
APLICACION DE REGRESION MULTIPLE
Mediante el siguiente problema podremos ilustrar la aplicación de Regresión
Multiple:
En la Facultad de Ingeniería de Sistemas y Computo de la Universidad “Inca
Garcilaso de la Vega” se quiere entender los factores de aprendizaje de los alumnos
que cursan la asignatura de PHP, para lo cual se escoge al azar una muestra de 15
alumnos y ellos registran notas promedios en las asignaturas de Algoritmos, Base de
Datos y Programación como se muestran en el siguiente cuadro.
Base de
Alumno PHP Algoritmos Datos Programación
1 13 15 15 13
2 13 14 13 12
3 13 16 13 14
4 15 20 14 16
5 16 18 18 17
6 15 16 17 15
3. 7 12 13 15 11
8 13 16 14 15
9 13 15 14 13
10 13 14 13 10
11 11 12 12 10
12 14 16 11 14
13 15 17 16 15
14 15 19 14 16
15 15 13 15 10
Lo que buscamos es construir un modelo para determinar la dependencia que exista
de aprendizaje reflejada en las notas de la asignatura de PHP, conociendo las notas
de las asignaturas Algoritmos, Base de Datos y Programación.
Se presentara la siguiente ecuación a resolver:
Utilizando las formulas de las ecuaciones normales a los datos obtendremos los
coeficientes de regresión o utilizando Regresión de Análisis de datos, en la Hoja de
Calculo de Excel podemos calcular también los coeficientes de regresión:
Por lo tanto podemos construir la ecuación de regresión que buscamos:
El Error Estándar de Regresión Múltiple (S x, y )
Mediante esta medida de dispersión se hace más preciso el grado de dispersión
alrededor del plano de regresión, se hace más pequeño.
Para calcularla se utiliza la formula siguiente:
4. En los resultados de Excel se llama error típico y para explicar la relación del
aprendizaje de PHP que se viene desarrollando es de 0.861
El coeficiente de determinación múltiple (r2)
Utilizaremos para determinar la tasa porcentual de Y para ser explicados las
variables múltiples, utilizando la si siguiente formula:
SCregresiò n
r2
SCTotal
18.7737874
r2 0.69704656
26.9333333
IV.- CONCLUSIONES
El 69.70% del aprendizaje del Curso de PHP puede ser explicado mediante las
notas obtenidas por las asignaturas de Algoritmos, Base de Datos y Programación.
V.- BIBLIOGRAFIA DE REGRESION
Torino H . Resumen del libro de Estadísticas de Berenson y Levine
Dirección: http:// www.mografias.com/trabajos13 /beren/beren.shtml)
El Rincón del Vago, SL C Toro 76,2º Salamanca (España)
Dirección: http:// htlm.rincondelvago.com/estadistica/html)
Vommi : MJ ¿Qué es un monografía?
dirección: http://www.mografias.com/trabajos7/beren/beren.shtml)
El Rincón Del Vago, SL C Toro 76,2º Salamanca (España)
Dirección: http://htlm.rincondelvago.com/estadistica/html)
Ortega Calvom, Cayuela Domínguez A, Regresión Logística No condicionada y
tamaño de muestra: una revisión bibliografía. Revista Española de salud Publica
[serie en internet] 2002 Marzo Vol 70Nº2 [12 paginas] dirección
http://www.scielospphp?piol=s1135-5727200200020000&scrip[=sciarte
Galdos Cálculo y Estadística III Edición Unica. Grupo La Republica. Lima Perú;2005.
5. Cannavos G. Probabilidad y Estadística Aplicación y métodos. Ed. en español Mc
GRAW- HILL/INTERAMERICANA DE MEXICO.1995.
Trabajo Realizado por:
Daniel A. Robles Fabián
daroblesfa@yahoo.es
Curso: Modelos Estadísticos
Escuela Posgrado - Ciclo I
Maestría: Ingeniería de Sistemas y Computo
Universidad “Inca Garcilaso de la Vega”
Profesor: Dr. Jorge Córdova Egocheaga
Lima – Perú