Formas de aplicar la regresión lineal simple y múltiple en estadística. Se habla de la correlación de datos, su coeficiente, ejemplos de regresión lineal y múltiple. Y como aplicarlos dependiendo del caso. Se muestran sus graficas y formulas.
2. CORRELACIÓN
• Una correlación existe entre dos variables cuando una de ellas está relacionada con la otra de
alguna manera
• Coeficiente de correlación lineal
• Puesto que el examen visual de los diagramas de dispersión es muy subjetivo, necesitamos
medidas más precisas y objetivas. Empleamos el coeficiente de correlación lineal r, que sirve
para detectar patrones lineales.
• El coeficiente de correlación lineal r mide la fuerza de la relación lineal entre
los valores cuantitativos apareados x y y en una muestra.
[El coeficiente de correlación lineal también se conoce como coeficiente de correlación
producto momento de Pearson, en honor de Karl Pearson (1857-1936), quien lo desarrolló
originalmente].
• Puesto que el coeficiente de correlación lineal r se calcula utilizando datos muestrales, se trata
de un estadístico muestral empleado para medir la fuerza de la correlación lineal entre x y y
3. Dato: Todas las relaciones que no crezcan/decrezcan todo el
rato al mismo ritmo o sean planas, son relaciones no lineales.
Intuitivamente, todo lo que no se pueda dibujar con una línea
recta, es no lineal.
4. REQUISITOS
Dado cualquier conjunto de datos muestrales apareados, siempre se puede calcular el coeficiente de
correlación lineal r, pero se deben satisfacer los siguientes requisitos cuando se prueban hipótesis o
cuando se hacen inferencias acerca de r.
1. La muestra de datos apareados (x, y) es una muestra aleatoria de datos cuantitativos. (Es
importante que los datos muestrales no se hayan reunido por medio de algún método
inapropiado, como una muestra de respuesta voluntaria).
2. El examen visual del diagrama de dispersión debe confirmar que los puntos se acercan al patrón
de una línea recta.
3. Es necesario eliminar cualquier valor extremo, si se sabe que se trata de un error. Los efectos de
cualquier otro valor extremo deben tomarse en cuenta calculando r con y sin el valor extremo
incluido.
Nota: Los requisitos 2 y 3 se simplifican al verificar el siguiente requisito formal:
Los pares de datos (x, y) tienen una distribución normal bivariada. (Para cualquier valor fijo de x, los
valores correspondientes de y tengan una distribución con forma de campana, y que para cualquier
valor fijo de y, los valores de x tengan también una distribución con forma de campana). Suele ser
difícil verificar este supuesto, así que, por ahora, usaremos los requisitos 2 y 3 descritos arriba.
6. INTERPRETACIÓN COEFICIENTE DE
CORRELACIÓN LINEAL
• Interpretaciones tales como “cercano a” 0, a 1 o a -1 son vagas, por lo
que utilizamos el siguiente criterio específico de decisión:
• Interpretación de r por medio de la tabla A-6: Si el valor absoluto del
valor calculado de r excede el valor de la tabla de A-6, concluya que
existe una correlación lineal significativa. De lo contrario, no existe
evidencia suficiente para sustentar la conclusión de una correlación
lineal.
• Interpretación de r por medio de un programa de cómputo: Si el valor P
calculado es menor o igual que el nivel de significancia, concluya que
existe una correlación lineal. De lo contrario, no existe evidencia
suficiente para sustentar la conclusión de una correlación lineal.
Dato: Al calcular a mano r y otros estadísticos de este
capítulo, hacer un redondeo a la mitad de un cálculo suele
generar errores importantes.
Nivel de significancia
7. REGRESIÓN LINEAL SIMPLE
• La regresión lineal simple es una estadística utilizada para predecir o
estimar una variable cuantitativa en función de otra variable cuantitativa.
8. PROCEDIMIENTO
• La técnica de regresión lineal consiste en modelar una ecuación de una
recta que puede ser positiva o negativa dependiendo de los datos
analizados.
9. CASOS APLICADOS
• Caso 1
• Queremos predecir el sueldo mensual (pesos mxn) de un trabajador
mexicano en función de la edad de estos mismos trabajadores.
• Variable cuantitativa 1 dependiente: Sueldo (Y)
• Variable cuantitativa 2 independiente: Edad (X)
• A medida que aumenta la edad, aumenta el sueldo del trabajador
debido a la experiencia y conocimientos de este mismo.
10. CASOS APLICADOS
• Caso 2
• Queremos predecir el tiempo (meses) que se tarda una constructora en
llevar a cabo la construcción de un edificio en función del numero de
trabajadores que tiene para realizar la obra.
• Variable cuantitativa 1 dependiente: Tiempo de la obra (Y)
• Variable cuantitativa 2 independiente: Número de trabajadores (X)
• A medida que aumenta el número de trabajadores, disminuye el tiempo
de construcción de la obra y si este disminuye, aumenta el tiempo de la
obra.
11. EJEMPLO
• Se desea predecir la nota de calificación de un alumno en función de la
cantidad de horas a la semana que estudió para un examen
• Se tomo una muestra de 6 alumnos, cuyos resultados se muestran a
continuación:
Horasdeestudio(X) Notadecalificación(Y)
3 8
6 10
8 15
2 8
1 5
6 12
18. EJEMPLO
• Conclusión: Por cada hora de estudio adicional, la nota de la calificación
de los estudiantes aumenta en 1.5 puntos.
19. REGRESIÓN LINEAL MÚLTIPLE
• Método para analizar una relación lineal que incluye más de dos
variables.
• Debido a la naturaleza tan compleja de las operaciones
requeridas, los cálculos manuales son poco prácticos, se destaca
el uso y la interpretación de los resultados obtenidos con un
programa estadístico de cómputo.
• Elementos fundamentales:
1. La ecuación de regresión múltiple
2. El valor de R2 ajustada
3. El valor P (es una medida de la significancia general de la
ecuación de regresión múltiple)
20.
21. R2 AJUSTADO
• R2 denota el coeficiente múltiple de determinación, que es una
medida de lo bien que se ajusta la ecuación de regresión múltiple a los
datos muestrales.
• Un ajuste perfecto daría como resultado R2 = 1, y un ajuste muy
bueno daría por resultado un valor cercano a 1. Un ajuste muy
deficiente se relaciona con un valor de R2 cercano a 0.
• El coeficiente ajustado de determinación es el coeficiente múltiple de
determinación R2 modificado para justificar el número de variables y el
tamaño de la muestra.
22. UTILIZANDO EXCEL
• Primero ingrese los datos muestrales en las columnas.
• Seleccione Tools del menú principal, después Data Analysis y
Regression.
• En el cuadro de diálogo introduzca el rango de valores para la variable
dependiente Y, después el rango de valores para las variables
independientes X, que deben estar en columnas adyacentes. (Utilice
copiar>pegar para mover las columnas como desee).
• Los resultados incluirán el coeficiente múltiple de determinación R2, la
R2 ajustada y una lista de los valores del intercepto y el coeficiente
utilizado para la ecuación de regresión múltiple.