1. Sesión 5Sesión 5
Dos Poblaciones yDos Poblaciones y
ANOVAANOVA
Estadística en las
organizaciones CD4001
Dr. Jorge Ramírez Medina
2. De la sesión pasada
Dr. Jorge Ramírez Medina
EGADE Business School
3. Distribución muestral de x1-x2 y su
relación con las distribuciones individuales
de x1 y x2
2x
µ1
µ2
µ1- µ2
1x
2x
1x
1
1
1
n
x
σ
σ =
2
2
2
nx
σ
σ =
2
2
2
1
2
1
21
nnxx
σσ
σ +−
E( )=µ1- µ22x1x
Dr. Jorge Ramírez Medina
EGADE Business School
4. Resumen estadístico de las pruebas
que se deben usar en una prueba de
hipótesis
2
2
2
1
2
1
21
nnxx
σσ
σ +−
2
2
2
1
2
1
21
nnxx
σσ
σ +−
( ) ( )
21
2121
xx
xx
z
−
−−−
=
σ
µµ
Es n grande?
(n≥30)
Se puede tomar
σ como conocida
?
Es
aproximadamente
normal la población?
Se puede tomar
σ como conocida
?
Use la desviación
estándar de la muestra
s para estimar σ Use la desviación
estándar de la muestra
s para estimar σ
( ) ( )
21
2121
xxs
xx
z
−
−−−
=
µµ
Aumente el tamaño
De muestra a n≥30
SI
SI
SI
SI
NO
NO
NO
2
2
2
1
2
1
21
n
s
n
s
s xx +−
NO
+−
21
2 11
21
nn
ss xx
)1()1(
)1()1(
21
2
22
2
112
−+−
−+−
=
nn
snsn
s
( ) ( )
21
2121
xx
xx
z
−
−−−
=
σ
µµ ( ) ( )
21
2121
xxs
xx
t
−
−−−
=
µµ
5. Es
aproximadamente
normal la población?
Para muestas apareadas
n
d
z
d
d
σ
µ−
=
n
d
z
d
d
σ
µ−
=
n
s
d
z
d
dµ−
=
Es n grande?
(n≥30)
Se puede tomar
σ como conocida
?
Se puede tomar
σ como conocida
?
Use la desviación
estándar de la muestra
s para estimar σ Use la desviación
estándar de la muestra
s para estimar σ Aumente el tamaño
De muestra a n≥30
SI
SI
SI
SI
NO
NO
NO
SI
n
s
d
t
d
dµ−
=
Dr. Jorge Ramírez Medina
EGADE Business School
6. Establecimiento de
prueba de hipótesis
Dr. Jorge Ramírez Medina
EGADE Business School
Ho: µ1-µ2 = 0 Z<Zα/2
Ha: µ1-µ2 ≠ 0 Z>Zα/2
Ho: µ1-µ2 ≥ 0 Z<Zα
Ha: µ1-µ2 < 0
Ho: µ1-µ2 ≤ 0 Z>Zα
Ha: µ1-µ2 > 0
7. Inferencia con 2
poblaciones
• Caso 1: WallMart de Atizapán vende menos que
WallMart Esmeralda. El gerente cree que se puede deber
a la diferencia del tipo de clientes (distinta edad, ingresos,
etc.) y decide investigar la diferencia de las medias de los
ingresos de los clientes de cada tienda.
• Caso 2: El Tec quiere demostrar que un nuevo programa
en el Laboratorio de Mecatrónica ayuda a los estudiantes a
reducir el tiempo requerido de diseño. Para esto se
selecciona a un grupo de estudiantes usa la tecnología
actual y otro que usa el nuevo programa.
• Caso 3: El profesor de estadística quiere probar la
diferencia entre dos métodos de enseñanza. Cada alumno
toma los dos métodos y toma un examen al finalizar cada
método.
Dr. Jorge Ramírez Medina
EGADE Business School
8. Datos de los casos
• Caso 1. Ingresos mensuales (en miles de pesos m.n.)
Esmeralda Atizapan
n1=30 n2=40
x1=82.5 x2=78
S1=8 s2=10
α= 0.05
• Caso 2. Tiempos de terminación
Estudiantes Estudiantes
Tecnología actual Nuevo programa
n1=12 n2=12
x1=325 x2=288
S1=40 s2=44
α= 0.05
• Caso3. Calificaciones
Estudiante Método 1 Método 2
1 6.0 5.4
2 5.0 5.2
3 7.0 6.5
4 6.2 5.9
5 6.0 6.0
6 6.4 5.8Dr. Jorge Ramírez Medina
EGADE Business School
9. Respuestas a los casos
• Caso 1. Ingresos mensuales (en miles de pesos m.n.)
– H0: µ1-µ2 = 0
– Ha: µ1-µ2 ≠ 0
– Rechazar H0 si z<-1.99, z>1.99 (z=2.09)
• Caso 2. Tiempos de terminación
– H0: µ1-µ2 ≤ 0
– Ha: µ1-µ2 > 0
– Rechazar H0 si t>1.72 (t=2.16)
• Caso3. Calificaciones
– H0: µd = 0
– Ha: µd ≠ 0
– Rechazar H0 si t<-2.571, z>2.571 (t=2.20)
10. Análisis de VarianzaAnálisis de Varianza
• Analysis of variance (ANOVA) . Es utilizado para probar la
media de dos o más poblaciones. La hipótesis nula, típicamente, es que
todas las medias son iguales.
• Esta técnica es una extensión de la prueba t de dos muestras.
• Adicional a conocer las diferencias entre las medias, puede ser de
interés conocer cuál media difiere.
• El análisis de varianza y covarianza se examinan diferencias en los
valores medios de la variable dependiente asociados con el efecto de las
variables controladas, después de tomar en cuenta la influencia de las
variables independientes no controladas
Dr Jorge Ramírez Medina
EGADE Business School
11. Tomemos un ejemploTomemos un ejemplo
• Convenience
Dr Jorge Ramírez Medina
EGADE Business School
¿Cómo promocionar un
nuevo producto
(concentrado de
manzana)
14. NotaciónNotación
Dr Jorge Ramírez Medina
EGADE Business School
Muestras independientes tomadas de k poblaciones (tratamientos).
1 2 k
X11
x21
.
.
.
Xn1,1
1
1
x
n
X12
x22
.
.
.
Xn2,2
2
2
x
n
X1k
x2k
.
.
.
Xnj,k
j
j
x
nTamaño de la muestra
Media de la muestra
Primera observación,
Primera muestra
Segunda observación,
Segunda muestra
X es la “variable de respuesta”. Los valores son llamados “observaciones”
15. NotaciónNotación
En el contexto de este Problema:
Variable de respuesta: Las ventas semanales
Observaciones: valor de las venta real
Unidad de análisis: Las tres ciudades
Tratamiento :Criterio por el cual se clasifican las poblaciones (los
tratamientos). En este problemas el factor es la estrategia de
mercadotecnia.
Niveles de los tratamientos: Las diferentes estrategias de
mercadotecnia; Conveniencia, Precio, Calidad.
Dr Jorge Ramírez Medina
EGADE Business School
16. Análisis de VarianzaAnálisis de Varianza
Dr Jorge Ramírez Medina
EGADE Business School
2
2
x
n
σ
σ =
2x3x µ 1x
Las medias de las muestras están “cercanas entre
sí”, porque sólo hay una distribución muestral cuando
H0 es verdadera
17. Análisis de VarianzaAnálisis de Varianza
Dr Jorge Ramírez Medina
EGADE Business School
2x3x µ2 1x
Las medias de las muestras provienen de distintas
distribuciones muestrales y no están tan cercanas
entre sí cuando H0 no verdadera
µ1µ3
18. Descomposición deDescomposición de
la variaciónla variación
Dr Jorge Ramírez Medina
EGADE Business School
• SSentre. Estimación de la variabilidad entre tratamientos, también se le
denota por SSx, esta es la variación en X relacionada a la variación en
las medias de cada muestra. Se le conoce como SCTR suma de los
cuadrados debido a los tratamientos.
• SSdentro. variación dentro de cada una de las muestras, también
denotada como SSerror, es la variación en X debido a la variación
dentro de cada una de las muestras. Se le conoce como SCE, suma
de cuadrados debido al error
• SSy. Es la variación total. Se le conoce como STC, suma de
cuadrados del total
STC = SCTR + SCE
19. El estadístico FEl estadístico F
Dr Jorge Ramírez Medina
EGADE Business School
Hipótesis:
H0: µ1 = µ2 = µ3 = . . . = µk
Ha: No todas las medias de la
población son iguales
Estadístico de prueba:
Regla de rechazo:
Rechazar H0 if F > Fα
Donde el valor de Fα esta basado en una
distribución F con k - 1 grados de libertad
en el numerador y nT - 1 grados de libertad
en el denominador
20. Distribución de muestreoDistribución de muestreo
de CMTR/CMEde CMTR/CME
Dr Jorge Ramírez Medina
EGADE Business School
No rechazar H0 Rechazar H0
CMTR/CME
Valor Crítico
Fα
22. Acerca de los gradosAcerca de los grados
de libertadde libertad
Dr Jorge Ramírez Medina
EGADE Business School
• Distribución χ2
• Demostración de grados de libertad
( )
2
2
1
σ
−ns
25. ANOVA dos factores
Dr. Jorge Ramírez Medina
EGADE Business School
Curso de 10 semanas
Programa de un día
Repaso de tres horas
Administración
Ciencias
Ingeniería
26. Qué tipoQué tipo
de relaciónde relación
se examina?se examina?
Cuántas sonCuántas son
las variableslas variables
a predecir?a predecir?
Dependencia Interdependencia
Cuál es la escalaCuál es la escala
de medición dede medición de
la variablela variable
dependiente?dependiente?
Cuál es la escalaCuál es la escala
de medición dede medición de
la variablela variable
dependiente?dependiente?
Cuál es la escalaCuál es la escala
de medición dede medición de
la variablela variable
predictora?predictora?
SEMSEM
Múltiples relaciones de
Variables dependientes e
independientes Varias variables
dependientes en
una sola relación
Una variable
dependientes en
una sola relación
CorrelaciónCorrelación
canónicacanónica
AnálisisAnálisis
MultivariadoMultivariado
de varianzade varianza
(Manova)(Manova)
CorrelaciónCorrelación
canónicacanónica
con variablescon variables
dummydummy
Regresión múltipleRegresión múltiple
Análisis ConjointAnálisis Conjoint
Análisis discriminanteAnálisis discriminante
múltiplemúltiple
Modelos deModelos de
probabilidad linealprobabilidad lineal
(logit Analysis)(logit Analysis)
Métrica
No Métrica
Métrica No Métrica
No MétricaMétrica
27. Correlación canónica
Y1+Y2+Y3+…+Yn = X1+X2+X3+…+Xn
métrica, no métrica métrica, no métrica
Manova
Y1+Y2+Y3+…+Yn = X1+X2+X3+…+Xn
métrica no métrica
Análisis de Varianza
Y1 = X1+X2+X3+…+Xn
métrica no métrica
Análisis discriminante múltiple
Y1= X1+X2+X3+…+Xn
no métrica (dicotómica) métrica
Análisis de regresión múltiple
Y1= X1+X2+X3+…+Xn
métrica métrica, no métrica
Análisis Cojoint
Y1= X1+X2+X3+…+Xn
métrica, no métrica no métrica
SEM
Y1 =
Y2 =
Ym =
X11+X12+X13+…+X1n
X21+X22+X23+…+X2n
Xm1+Xm2+Xm3+…+Xmn
Relación entre los
métodos de
dependencia
multivariados
28. Modelo de regresiónModelo de regresión
lineal simplelineal simple
• Modelo de regresión lineal simple
y = β0 + β1x+ ε
• Ecuación de regresión lineal simple
E(y) = β0 + β1x
• Ecuación estimada de regresión lineal simple
y = b0 + b1x
^
Dr Jorge Ramírez Medina
EGADE Business School
29. Método deMétodo de
mínimos cuadradosmínimos cuadrados
Criterio de mínimos cuadrados
en donde:
yi = es el valor observado de la variable
dependiente para la ith observación
yi = es el valor estimado de la variable
dependiente para la ith observación
min (y yi i−∑ )2
^
Dr Jorge Ramírez Medina
EGADE Business School
30. Pendiente de Ecuación estimada de regresión lineal simple
Intercepto en y de la Ecuación estimada de regresión lineal
simple
Calculando bCalculando b11 y by b00
Dr Jorge Ramírez Medina
EGADE Business School
32. • Sample Correlation Coefficient
where:
b1 = the slope of the estimated
regression equation
El coeficiente deEl coeficiente de
correlacióncorrelación
2
1)of(sign rbrxy =
ionDeterminatoftCoefficien)of(sign 1brxy =
xbby 10
ˆ +=
Dr Jorge Ramírez Medina
EGADE Business School
33. EjemploEjemplo
• Sample Correlation Coefficient
The sign of b1 in the equation
is “+”.
rrxyxy = +.9366= +.9366
2
1)of(sign rbrxy =
ˆ 10 5y x= +
= + .8772xyr
Dr Jorge Ramírez Medina
EGADE Business School
34. Diferencias y similitudesDiferencias y similitudes
Dr. Jorge Ramírez Medina
ITESM EGADE
Pruebas de
asociación
Pruebas de
diferencias
Pruebas de hipótesis
ANOVA REGRESSION DISCRIMINANT/LOGIT
Similarities
Number of One One One
dependent
variables
Number of
independent Multiple Multiple Multiple
variables
Differences
Nature of the
dependent Metric Metric Categorical
variables
Nature of the
independent Categorical Metric Metric
variables
35. When ANOVA is theWhen ANOVA is the
Correct TestCorrect Test