Este documento presenta los métodos de regresión lineal, comenzando con el método de mínimos cuadrados ordinarios. Explica las ecuaciones normales para hallar los estimadores de los parámetros de la recta de regresión y cómo calcular la recta de regresión. También introduce conceptos como varianza muestral, covarianza y coeficiente de correlación.
Métodos de regresión lineal mínimos cuadrados ordinarios
1.
2. METODOS
La primera forma de regresiones lineales documentada fue el método
de MCO.
El modelo está expresado en forma matemática.
Solo se toma una muestra de la realidad.
En modelos multiecuacionales las variables tienen diferentes
nombres.
Función de regresión poblacional:
iii uXY
9. Y X
62
51
42
55
51
58
43
70
60
50
70
55
60
45
Ejemplo de aplicación
En una encuesta de hogares (por muestreo estadístico) realizado a
7 familias se obtuvo la siguiente información relativa al ingreso y
gasto familiar en bolivianos.
Donde Y= GASTO
X= INGRESO
Con la anterior información se pide:
Para la relación Y=f(x), encontrar la recta de regresión mínimo-cuadrática y
estimar el monto del gasto para un ingreso de 100bolivianos.
Grafique la nube de puntos y la recta de regresión.
13. METODO DE MÁXIMA VEROSIMILITUD
Este método proporciona estimadores
con muchas propiedades deseables,
sin embargo es necesario aclarar que los EMV,
no son siempre insesgados
(como en el caso de varianzas),
pero una sencilla modificación los
convierte en estimadores insesgados.
14. A manera de ilustración supongamos que una urna contiene
(X) bolillas azules (a) y (n-x) bolillas blancas (b). en estas
condiciones y considerando que por éxito (p), se entiende
la probabilidad de extraer al azar una bombilla azul (a),
entonces existe las siguientes posibilidades:
¿Cuál de estos resultados posible seria el mejor estimador de la probabilidad
de éxito?
15. La respuesta a esta pregunta se podría dar en términos de
un caso particular y mediante la distribución binomial.
Recordando que
17. Se puede observar con nitidez que:
Cuando x = 0 en la muestra
aleatoria de tamaño 3, se cumple:
Luego
18. En general, si = estimación de p y = otra
estimación de p, entonces:
b) La Función de Verosimilitud y el Estimador Máximo
Verosímil (EMV).
Sea
Para constante
FUNCION DE VEROSIMILITUD
19. De donde que
Estimación de máxima verosimilitud de 0
También
Estimación de máxima verosimilitud de 0
20. PASOS A SEGUIR PARA LA
DOCIMA
1. FORMUACION DE HIPOTESIS
2. ESTABLECER EL NI VEL DE SIGNIFICANCIA
3. ESTADISTICO A PRUEBA
4. TOMA DE DECISION (REGLA DE DECISION)
21. DOCIMACIA DE HIPOTESIS
ESTADISTICA.-
No toda hipótesis es una hipótesis estadística, sino
solamente aquellas referidas a la distribución probabilística de
una o mas variables aleatorias.
Así por ejemplo se puede suponer con intención de ser sometida
a una prueba decisoria, que:
a) Una variable aleatoria tiene distribución normal con
parámetros desconocidos
b) Una variable aleatoria tiene una distribución binomial con
n=12 y probabilidad de éxito (P) desconocido.
c) Dos variables aleatorias son independientes.
22. Del cuadro, se deduce que al docimar una hipótesis se puede
tomar la decisión de rechazar cuando verdaderamente es falsa
o se puede incurrir en error cuando se rechaza siendo cierta.
Por el otro lado, se puede aceptar la hipótesis cuando es
verdaderamente cierta o se puede cometer error siendo falsa.
Se concluye:
Cuando se rechaza la hipótesis principal, siendo esta
verdaderamente cierta, en este caso se comete el error llamado
de TIPO I
Cuando se acepta la hipótesis principal, siendo
verdaderamente falsa, en este segundo caso se incurre en el
error denominado de TIPO II
EL HECHO REAL
LA DECISION Ho CIERTA Ho FALSA
ACEPTAR: Ho DECISION CORRECTA ERROR TIPO II
RECHAZAR: Ho ERROR TIPO I DECISION CORRECTA
23. HIPOTESIS RELATIVAS A LA MEDIA DE UNA
POBLACION NORMAL. (DOCIMA DE MEDIAS)
a) Se conoce la varianza poblacional
A)
B) Elegir y encontrar el Z, de tablas de la
distribución normal tipificada.
01
00
:
:
H
H
2
24. X
X
Zc
0
C) Proceder a la determinación del Z calculado con los valores
muestrales.
D) Si
Entonces se rechaza Ho
E) Concluir, destacando la decisión final en términos del problema
planteado.
tc ZZ
25. a) Se conoce la varianza poblacional
Ejemplo de aplicación:
La asociación de dueños de establecimientos comerciales al detalle de
cierta ciudad, en una conferencia de prensa, declaro que el salario
medio por hora de sus empleados es de Bs. 10. Los dirigentes de un
sindicato rubro, sostienen que la Asociación exagera. Frente a este
panorama, la Dirección Distrital del Trabajo, como entidad reguladora,
dispone tomar una muestra aleatoria de 225 sindicalizados con el
resultado de una media de Bs. 9, 10. Asumiendo una desviación típica
de Bs. 5, decida el nivel de significación del 1% ¿Quien tiene razón?
10:
10:
1
0
H
H
323.2
99.0101.0
tZ
A) B)
2
26. C) Datos
D) Como, 2,703>2,323
Entonces, se “RECHAZA Ho”
E) La asociación de Dueños de
Establecimientos Comerciales al detalle, no
tiene razón.
703,2703,2
703,2
333,0
9.0
333,0
1010,9
333,0
15
5
225
5
10;10,9X
-
225;n5;σ
c
c
Z
Z
nX
tc ZZ
0,99
0,01
R.A.
0
Z,
Z=2,323
27. b) No se conoce la varianza poblacional
En este caso la única diferencia consiste en utilizar la
varianza muestral en sustitución de la varianza poblacional
y como lógica consecuencia se utilizará la distribución “t”
de Student en reemplazo de la distribución normal tipificada Z.
Ejemplo de Aplicación:
De una investigación realizada a 24 familias, de la zona de
Obrajes de la ciudad de La Paz, se sabe que el ingreso
familiar promedio durante el año 1995, fue de Bs. 3.245, con
una desviación típica de Bs. 412.
Docimar la Hipótesis de que el verdadero ingreso familiar
medio en dicha zona, durante 1995, fue de Bs. 4000, tomando
como alternativa que fue distinto de 4000, al 5% de
significación.
2
29. DOCIMA DE DIFERENCIA DE MEDIAS.-
Sean
Cuyas medias son y respectivamente. Dado que X y
Y son variables aleatorias independientes, entonces las
distribuciones de sus medias muestrales, son también
independientemente.
Por lo tanto, la distribución de la diferencia de medias
muestrales es:
)(:),,.........,(
)(:),......,,(
);(
);(
221
121
2
22
2
11
2
1
nMATYYY
nMATXXX
NY
NX
n
n
2
2
2
1
2
1
21 ;)(
nn
NYX
30. DOCIMA DE DIFERENCIA DE MEDIAS.-
De modo que cuando y las varianzas poblacionales son
conocidas, el estadístico a probar en la dócima es:
(1)
En tanto que si las varianzas poblacionales son desconocidas, y
los tamaños muestrales , el estadístico a utilizar es:
(2)
1;0
2
2
2
1
2
1
21
N
nn
YX
Z
2
21
21
21
2
12
2
11
21
21
2
11
nnt
nn
nn
nn
snsn
YX
31. DOCIMA DE DIFERENCIA DE MEDIAS.-
Por último y a manera de aclaración diremos que los
denominadores de las anteriores expresiones se refieren a las
desviaciones típicas de la diferencia de medias, o sea:
(3)
Por otro lado, si las varianzas son desconocidas, pero los
tamaños , entonces e estadístico a probar es:
2
2
2
2
1
2
1
21
21
nnt
n
s
n
s
YX
3y2enˆy1en YXYX
32. Ejemplo: (Se conocen las varianzas poblacionales)
En un estudio sobre el impacto de las escuelas sin ventanas
sobre el desarrollo psicológico de los estudiantes, se sometió a
una misma prueba de ansiedad a un grupo de 40 niños de una
escuela sin ventanas y a otro grupo de 30 niños de una escuela
con ventanas, los resultados son:
Si un investigador está dispuesto a rechazar una hipótesis
verdadera en no más de 5 veces sobre 100. ¿Podrá concluir
que el impacto de los dos tipos de escuelas, respecto a la
ansiedad de los estudiantes no es el mismo?
Escuela sin
ventanas
Escuela con
ventanas
30
12
112
2
2
n
Y
40
10
117
1
1
n
X
34. D. Como;
tc ZZ
1,85>1,64
Entonces Se “RECHAZA Ho”
E. El impacto sobre la ansiedad de los niños no es el mismo, existe
un efecto en la escuela sin ventanas.
35. DOCIMA DE VARIANZAS
Sabemos;
De modo que;
O dicho de otro modo
Y
Consecuentemente
O sea;
2
)1(
1
2
1
n
Z
2
)1(
2
)1,0(
x
N
x
2
)1(
2
Z1;0 NZ
2
)1(
2
1
n
x
2
)1(
2
1
n
n
Xx
2
)1(
2
1
n
n
Xx
(1)
36. Ejemplo de aplicación
Se posee cierta información sobre la estatura
(pulgadas) de 100 estudiantes universitarios, en base
al cual se pretende docimar la hipótesis de que la
desviación típica es igual a 3 pulgadas. ¿Existirá
alguna razón para rechazar la hipótesis al nivel del
5% de significación?
ESTATURAS ESTUDIANTES
60-62
63-65
66-68
69-71
72-74
5
18
42
27
8
38. Donde, n es el número de grados de libertad y la variable
tipificada de la distribución normal
3
2
99
999
2
96,1
999
2
19995,0
42488,12895,02
99
3
2
1
9
2
9
2
1
n
Z
n
n
Z
4,1284,12895,0 2
t
2
99
R.C
R.A.
0.95
0.05
39. Utilizando (1)
Por regla general, si entonces se rechaza Ho.
Pero en el caso concreto
94,75>128,4
entonces se “ACEPTA Ho”
No existe razón para rechazar la hipótesis nula al nivel
del 5% de significación
75,94
9
75,852)(
2
2
2
XXf
c
C)
22
tc
22
tc
E)
D)
40. DOCIMA DE DIFERENCIA DE VARIANZAS
Se puede demostrar que si son variables aleatorias
independientes, con distribución con n y m grados de
libertad respectivamente, entonces:
mnF
m
n
,""
2
)1(2
2
2
2
)1(2
2
2
22
2
2
22
2
)1(2
1
2
2
)1(2
1
2
11
1
2
11
22
11
)X
-
-(X
tambien
)MAT(n);(
)X
-
-(X
tambien
)MAT(n);(
nn
nn
o
Sn
yNY
o
Sn
yNX
y
2
Recordando que sí;
Por otra parte;
41. Del análisis anterior y si en vez de S2 se utilizara s2, sigue que;
2
)1(2
2
2
2
)1(2
2
2
22
2
)1(2
1
2
2
)1(2
1
2
11
22
11
)X
-
-(X
ó
)1(
)X
-
-(X
ó
)1(
nn
nn
sn
sn
)1();1(
)1(
)1(
)1(
)1(
1
)1(
1
)1(
21
2
2
2
2
2
1
2
1
2
2
2
2
22
1
2
1
2
11
2
2
2
2
22
1
2
1
2
11
nnF
s
s
n
sn
n
sn
n
sn
n
sn
Consecuentemente;
En resumen, en el caso de docimas de diferencia de varianzas
)1();1(
),0:(
21
2
2
2
1
2
2
2
1
nnF
Ho
2
2
2
1
s
s
:espruebaaoestadisticel:Homaneraotradedichoo
42. Ejemplo de aplicación:
La Corporación de Desarrollo del Sudoeste (CORDES), dentro de su programa
pecuario ha venido utilizando un sistema de engorde al que desea sustituir por
otro. Para este propósito, y debido a que se tiene que realizar inversiones en
obras de infraestructura para el nuevo sistema, el personal Técnico del
Departamento de Planificación, decide tomar una muestra aleatoria de 31
cabezas de ganado, de modo que pasado cierto lapso de tiempo se mide los
resultados obtenidos con el sistema tradicional, arrojando los siguientes datos,
una media de engorde por mes de 15 kilos, con una desviación típica de 5 kilos.
Por otra parte, se sabe que con una muestra aleatoria de tamaño 61 del hato de la
Corporación de Desarrollo del Norte (CORDENO), que practica el nuevo
método, dio como resultado una media de 16 kilos, con una desviación de 4
kilos. Suponiendo que ambos hatos son criados en regiones de similares
condiciones, temperatura, humedad, etc. ¿habrá alguna razón para pensar que el
nuevo sistema es mejor, al nivel del 5% de significación?
44. La regla de decisión dice que sí:
0Hrechazasetc FF
HaceptaseEntonces
1,741,56
0
tc FF
Pero en nuestro caso:
No existe razón suficiente para rechazar la hipótesis nula. Por lo tanto,
se puede considerar que ambos sistemas de engorde don iguales
D)
E)