Este documento presenta los conceptos básicos de la regresión simple y múltiple. Explica cómo determinar si dos variables están correlacionadas linealmente y cómo calcular la ecuación de la recta de regresión. También cubre cómo contrastar si un modelo de regresión lineal es adecuado y cómo extender el modelo a múltiples variables predictoras. Finalmente, proporciona un ejemplo de cómo usar un modelo de regresión múltiple para analizar factores que influyen en la satisfacción de los usuarios de una biblioteca.
Al terminar el estudio de este capítulo, usted será
capaz de:
Definir qué es economía y distinguir entre
microeconomía y macroeconomía
Explicar las dos grandes preguntas de la economía
Explicar las ideas clave que definen el pensamiento
económico
Explicar la manera en que los economistas
conciben su trabajo como científicos sociales y
asesores en política
Al terminar el estudio de este capítulo, usted será
capaz de:
Definir qué es economía y distinguir entre
microeconomía y macroeconomía
Explicar las dos grandes preguntas de la economía
Explicar las ideas clave que definen el pensamiento
económico
Explicar la manera en que los economistas
conciben su trabajo como científicos sociales y
asesores en política
Frecuencias bidimencionales: Marginales, condicionales y conjuntas, media, varianza y covarianza marginales y condicionales. Regresión: Definición, diagrama de dispersión, método de los mínimos cuadrados, Determinación de los prámetros de la ecuación, validación y análisis de varianza.
CLASE-8 Regresión y correlación (dicotomicas).pdfjenniferps1
tema de estadística: regresión y correlación, contiene información importante, como formulas, interpretaciones, y algunos ejercicios de aplicación.
este tema esta aplicada al ámbito de la carrera de psicología, ya que es muy importante por que nos ayuda a saber el tipo de población, la moda, la media, la mediana, también la varianza, covarianza y los gráficos de dispersión, todo esto nos ayudara a terminar la ecuación de regresión.
1. Cálculo del Coeficiente de Determinación
Mide el poder explicativo del modelo de regresión, es
decir, la parte de la variación de Y explicada por la
variación de X
El valor de r
2 ha de estar entre 0 y 1, si r
2 = 0,70 significa
que el 70% de la variación de Y está explicada por las
variaciones de X. Es evidente que cuanto mayor sea r
2
,
mayor poder explicativo tendrá nuestro modelo.
El valor 1 − r
2 se llama el coeficiente de alineación, e
indica el porcentaje de variaciones observadas que son
explicadas por el modelo.
Para el ejemplo anterior el coeficiente de determinación
sería: r
2 = (0,874)
2 = 0,764, y su coeficiente de
alineación es: 1 – r
2 = 1 – 0,764= 0,236 = 23,6%.
Para el siguiente ejemplo: r
2 = (−0,603)
2 = 0,364, y
su coeficiente de alineación: 1 – r
2 = 1 – 0,364 = 0,636
= 63,6%
se presentan algunos ejercicios aplicativos, estos son:
1. Problema 1: Se cuenta con las mediciones sobre la edad y la talla de 14
niños, y estamos interesados en determinar si existe algún tipo de
relación entre la talla del niño y su edad.
Frecuencias bidimencionales: marginales, condicionales y conjuntas, medias, varianzas y correlaciones marginales, matriz de varianza y covarianza. Regresión lineal, definición, diagrama de dispersión, método de mínimos cuadrado, determinación de los componentes de ecuacuón, validación de la ecuación de regresión y análisis de varianza.
Frecuencias bidimencionales: Marginales, condicionales y conjuntas, medias, varianzas y correlaciones marginales y condicionales. martiz de voarianza y covarianza.
Regresión: Defición, diagrama de dispresión, métdoso de los mínimos cuadrado,
ROMPECABEZAS DE ECUACIONES DE PRIMER GRADO OLIMPIADA DE PARÍS 2024. Por JAVIE...JAVIER SOLIS NOYOLA
El Mtro. JAVIER SOLIS NOYOLA crea y desarrolla el “ROMPECABEZAS DE ECUACIONES DE 1ER. GRADO OLIMPIADA DE PARÍS 2024”. Esta actividad de aprendizaje propone retos de cálculo algebraico mediante ecuaciones de 1er. grado, y viso-espacialidad, lo cual dará la oportunidad de formar un rompecabezas. La intención didáctica de esta actividad de aprendizaje es, promover los pensamientos lógicos (convergente) y creativo (divergente o lateral), mediante modelos mentales de: atención, memoria, imaginación, percepción (Geométrica y conceptual), perspicacia, inferencia, viso-espacialidad. Esta actividad de aprendizaje es de enfoques lúdico y transversal, ya que integra diversas áreas del conocimiento, entre ellas: matemático, artístico, lenguaje, historia, y las neurociencias.
Instrucciones del procedimiento para la oferta y la gestión conjunta del proceso de admisión a los centros públicos de primer ciclo de educación infantil de Pamplona para el curso 2024-2025.
2. EJEMPLO:
Aproxima bien el número de préstamos que efectúa una biblioteca a
lo largo de su primer año de vida.
Nos dicen que la fórmula
Si damos valores a la variable Días (nº días transcurridos desde
la apertura de la biblioteca…
DíasprestamosN 3'025º +=
4. Si dos variables X e Y está relacionadas mediante una expresión
del tipo Y=a+bX, la gráfica que relaciona los valores de X e Y es
una línea recta, y se dice que Y=a+bX es la ecuación de dicha
recta; el recíproco es cierto, es decir, si la gráfica que
relaciona X e Y es una recta, entre ambas existe una relación del
tipo Y=a+bX. En ese caso, decimos que entre X e Y hay una
relación de tipo lineal.
En la realidad, no nos encontramos fórmulas tan “redondas”, pero
sí nos encontramos fenómenos que pueden aproximarse por ellas.
5. Días
Nº
prestamos
5 25
20 32
35 40
50 39
65 47
80 51
95 56
110 54
135 69
150 72
165 76
180 77
195 86
210 90
235 98
250 102
265 105
280 110
295 113
310 120
EJEMPLO: Supongamos que una biblioteca
proporcionó los siguientes datos, a lo largo
de su primer año de vida
7. APROXIMADAMENTE,
Nº prestamos = 24,5529 + 0,301579*Días
En este caso, diríamos que las variables Nº préstamos y Días están
linealmente correlacionadas, y que lo de arriba es la ecuación de
la recta de regresión de Nº préstamos sobre Días.
¿Para qué nos sirve? (1) para conocer leyes
empíricas; (2) para predecir el valor de una cierta
variable
8. PROBLEMAS: Dadas dos variables X e Y, continuas
1.- [Correlación] ¿Existe una cierta relación entre ellas, o por el contrario son
independientes? En el primer caso, hablamos de que entre X e Y
hay correlación; en el segundo, decimos que son incorreladas
2.- [Correlación lineal] Suponiendo que entre X e Y hay correlación, ¿están
linealmente correlacionadas, es decir, funciona suficientemente bien un
modelo del tipo Y = a+bX para predecir Y a partir de X? ¿Cuáles son los
“óptimos” valores para a y b, es decir, los que producen “mejores” esti-
maciones?
3.- [Otros tipos de correlación] ¿Hay algún modelo mejor que el lineal
que permita estimar Y a partir de X? Por ejemplo,
Cuadrático: Y=a+bX+bX2
Exponencial: Y=a bx
…
Otro ejemplo (Leyes bibliométricas)
10. 1. Distribuciones bidimensionales. Correlación.
Cuando en una población registramos simultáneamente los valores
de dos variables X e Y, decimos que estamos ante una distribución
BIDIMENSIONAL (PIZARRA: distribuciones marginales)
Los datos relativos a una distribución bidimensional se pueden
representar gráficamente mediante una NUBE DE PUNTOS, o
DIAGRAMA DE DISPERSION (PIZARRA)
Si la nube de puntos se ajusta aproximadamente a una curva, diremos
que las variables están correlacionadas, es decir, que existe una cierta
relación entre ellas (y buscaremos cuál es la expresión, la “fórmula” que
mejor aproxima una de ellas partir de la otra); en caso contrario, decimos
que las variables son incorreladas, es decir, que no tienen relación.
12. Además de la “inspección” de la nube de puntos,
hay métodos más exactos para evaluar la existencia
o no de correlación.
13. Si la nube de puntos parece ajustarse en torno a alguna curva (es
decir, si hay correlación), la forma de dicha curva nos indica el tipo
de correlación. Si la nube de puntos parece agruparse en torno a
una recta, diremos que hay correlación lineal, o que las variables
están linealmente correlacionadas.
0 100 200 300 400
0
20
40
60
80
100
120
14. Si las variables están linealmente correlacionadas, entonces tiene
sentido buscar la recta que “mejor se ajusta” a la nube de puntos,
es decir, la recta que globalmente está más cerca del conjunto de
puntos. Si nuestra intención al hacer eso es la de estimar Y a partir
de X, entonces encontrar dicha recta es equivalente a encontrar la
mejor aproximación
Y=a+bX (RECTA DE REGRESION DE Y SOBRE X)
¿Cómo tomar a, b para que la aproximación sea
“óptima”?
15. 2. Regresión lineal sobre un conjunto de puntos.
PROBLEMA 1: Dada una distribución bidimensional (X,Y), determinar
si las variables X e Y están o no linealmente correlacionadas, y la
fuerza de dicha correlación lineal.
PROBLEMA 2: Suponiendo que X e Y están linealmente correlacionadas,
determinar la recta de regresión de Y sobre X, es decir, a y b de modo
que, aproximadamente, Y=a + bX.
16. PROBLEMA 1: Dada una distribución bidimensional (X,Y), determinar
si las variables X e Y están o no linealmente correlacionadas, y la
fuerza de dicha correlación lineal.
- Nube de puntos.
- Coeficiente de correlación lineal de Pearson. (PIZARRA)
- Coeficiente de correlación lineal de Spearman.
- Coeficiente de determinación ó R-cuadrado ó % de variabilidad
explicada.
17. PROBLEMA 2: Suponiendo que X e Y están linealmente correlacionadas,
determinar la recta de regresión de Y sobre X, es decir, a y b de modo
que, aproximadamente, Y=a + bX.
bXaY +=
(Ecuación recta de regresión de Y sobre X)
Conocida la recta de regresión, podemos estimar los valores de Y
correspondientes a distintos valores de X.
ii bxay +=ˆ
Valor predicho, o estimado
22. 3. El modelo de regresión lineal.
Sabemos decidir si, aproximadamente, un conjunto (xi,yi) de puntos
(datos) se ajusta o no a Y=a+bX. Pero, teniendo en cuenta que esos
datos son una MUESTRA de una población…
¿SIGUE SIENDO “APROXIMADAMENTE”
VALIDO Y=a+bX cuando tomamos
NO una muestra (xi,yi), sino cuando consideramos
TODA LA POBLACION? ¿Qué queremos
decir por “aproximadamente”?
23. Modelo de regresión lineal:
iii bxay ε++=
Y: variable explicada X: regresor
residuo
Decimos que dos variables (poblacionales!)
están linealmente correlacionadas, si:
1.
2. Los residuos tienen media 0.
3. La varianza de los residuos no depende de xi (homocedasticidad)
4. Los residuos son normales.
5. Los residuos son aleatorios.
2+ 4+ 5= Residuos siguen una normal N(0,σ)
24. Gráfico del Modelo Ajustado
Semanas
Prestamos
8 12 16 20 24 28 32
26
31
36
41
46
51
56
“La varianza de los residuos no depende de xi (homocedasticidad)”
25. Modelo de regresión lineal:
iii bxay ε++=
Y: variable explicada X: regresor
residuo
Hipótesis básicas:
1.
2. Los residuos tienen media 0.
3. La varianza de los residuos no depende de xi (homocedasticidad)
4. Los residuos son normales.
5. Los residuos son aleatorios.
2, 4 y 5 pueden contrastarte guardando los residuos, y procediendo
como en otras ocasiones.
26. Modelo de regresión lineal:
iii bxay ε++=
Y: variable explicada X: regresor
residuo
Hipótesis básicas:
1.
2. Los residuos tienen media 0.
3. La varianza de los residuos no depende de xi (homocedasticidad)
4. Los residuos son normales.
5. Los residuos son aleatorios.
3 lo contrastaremos con los gráficos de residuos,
y comprobando que no haya residuos atípicos.
28. Modelo de regresión lineal:
iii bxay ε++=
Y: variable explicada X: regresor
residuo
Hipótesis básicas:
1.
2. Los residuos tienen media 0.
3. La varianza de los residuos no depende de xi (homocedasticidad)
4. Los residuos son normales.
5. Los residuos son aleatorios.
¿Cómo CONTRASTAR?
29. a.- Inspección del diagrama de dispersión, valores de los coeficientes
de correlación de Pearson y Spearman (si el ajuste no funciona bien
para la muestra, difícilmente lo hará para la población).
b.- Contraste tipo ANOVA sobre la existencia o no de correlación lineal.
COEFICIENTE DE DETERMINACION. = Contraste sobre la pendiente
de la recta de regresión.
c.- ¿Cómo podemos estar seguros de que, en la población, los coeficien-
tes de Pearson y Spearman no serían 0 (en cuyo caso, no habría
correlación lineal)? Contraste de hipótesis.
¿Cómo CONTRASTAR?
(Explicación: PIZARRA)
30. - Eliminación de parámetros (simplificación del modelo):
iii bxay ε++=
Si aceptamos el contraste H0: a=0, entonces la recta de regresión
que obtenemos es y = bx (una fórmula más sencilla): se dice entonces
que hemos simplificado nuestro modelo.
31. Y: variable explicada X: regresor
residuo
1.
2. Los residuos tienen media 0.
3. La varianza de los residuos no depende de xi (homocedasticidad)
4. Los residuos son normales.
5. Los residuos son aleatorios.
iii bxay ε++=
¿Qué hacer si falla alguna hipótesis? (algunas ideas sobre esto…)
(APUNTES)
Statgraphics
32. 4. El modelo de regresión múltiple.
PROBLEMA: Hemos recogido datos sobre usuarios de mediana edad
de una biblioteca en la que además se realizan actividades tanto para
niños como para adolescentes y adultos, y estamos interesados en
analizar cuáles son las variables que determinan el nivel de satisfacción
de sus usuarios; las variables recogidas son: afición a la lectura, al cine,
a la música, número de hijos, renta… y, por supuesto, nivel de satisfac-
ción.
34. El modelo de regresión simple es, a priori, poco realista (parece poco
probable que el nivel de satisfacción dependa de una única variable,
más bien lo natural es que en él intervengan varias variables). En con-
secuencia, ensayamos no con
sino con
Y=a+bX
Y=a+b1X1+ … +bnXn
Variable respuesta
(en nuestro caso,
“nivel de satisfacción”)
regresores
35. Satisfaccion = 0,686829 + 0,134472*Aficion_cine +
0,436889*Aficion_lectura - 0,0904825*Aficion_musica +
0,234494*Aficion_TV + 0,113699*Nivel_estudios + 0,206893*Num_hijos -
0,0000595998*renta_mens
Por ejemplo, en el problema anterior, la fórmula a la que llegaremos
es:
Aquí, Y=Satisfacción, X1=Afición_cine, X2=Aficion_lectura, etc.
Sirve para:
- predecir.
- detectar influencias (qué variables tienen más “poder” sobre la
variable que nos interesa, etc.)
36. Modelo de regresión múltiple:
1.
2. Los residuos tienen media 0.
3. La varianza de los residuos no depende de xi (homocedasticidad)
4. Los residuos son normales.
5. Los residuos son aleatorios.
6. Las variables x1, x2, etc. no están linealmente correlacionadas
entre sí.
inni xbxbay ε++⋅⋅⋅++= 11
residuo
37. Modelo de regresión múltiple:
1.
2. Los residuos tienen media 0.
3. La varianza de los residuos no depende de xi (homocedasticidad)
4. Los residuos son normales.
5. Los residuos son aleatorios.
6. Las variables x1, x2, etc. no están linealmente correlacionadas
entre sí.
2+ 4+ 5= Residuos siguen una normal N(0,σ)
inni xbxbay ε++⋅⋅⋅++= 11
residuo