1. Sesión 8
Dos Poblaciones y
ANOVA
Estadística en las
organizaciones CD4001
Dr. Jorge Ramírez Medina
2. Análisis de Varianza
• Analysis of variance (ANOVA) . Es utilizado para probar la
media de dos o más poblaciones. La hipótesis nula, típicamente, es que
todas las medias son iguales.
• Esta técnica es una extensión de la prueba t de dos muestras.
• Adicional a conocer las diferencias entre las medias, puede ser de
interés conocer cuál media difiere.
• El análisis de varianza y covarianza se examinan diferencias en los
valores medios de la variable dependiente asociados con el efecto de las
variables controladas, después de tomar en cuenta la influencia de las
variables independientes no controladas
Dr Jorge Ramírez Medina
EGADE Business School
3. Tomemos un ejemplo
¿Cómo promocionar un
nuevo producto
(concentrado de
manzana)
• Convenience
Dr Jorge Ramírez Medina
EGADE Business School
5. Solución
H0: µ1 = µ2= µ3
H1: At least two means differ
Dr Jorge Ramírez Medina
EGADE Business School
6. Notación
Muestras independientes tomadas de k poblaciones (tratamientos).
1
Segunda observación,
Segunda muestra
Tamaño de la muestra
k
X11
x21
.
.
.
Xn1,1
n1
Primera observación,
Primera muestra
2
X12
x22
.
.
.
Xn2,2
X1k
x2k
.
.
.
Xnj,k
n2
nj
x1
Media de la muestra
x2
xj
X es la “variable de respuesta”. Los valores son llamados “observaciones”
Dr Jorge Ramírez Medina
EGADE Business School
11. El estadístico F
Hipótesis:
H0: µ1 = µ2 = µ3 = . . . = µk
Ha: No todas las medias de la
población son iguales
Estadístico de prueba:
Regla de rechazo:
Rechazar H0 if F > Fα
Donde el valor de Fα esta basado en una
distribución F con k - 1 grados de libertad
en el numerador y nT - 1 grados de libertad
en el denominador
Dr Jorge Ramírez Medina
EGADE Business School
12. Distribución de muestreo
de CMTR/CME
No rechazar H0
Rechazar H0
Fα
Valor Crítico
Dr Jorge Ramírez Medina
EGADE Business School
CMTR/CME
14. Acerca de los grados
de libertad
• Distribución χ2
s 2 ( n − 1)
σ2
•
Demostración de grados de libertad
Dr Jorge Ramírez Medina
EGADE Business School
15. Tabla ANOVA
s 2 ( n − 1)
σ2
Dr Jorge Ramírez Medina
EGADE Business School
17. ANOVA dos factores
ía
un d
de R
ma
epa
ra
so
rog
P
de
so
Cur
n
sema
0
de 1
as
tre
s
hor
Ingeniería
Cie
ncia
s
ón
i
ra c
t
inis
dm
A
Dr. Jorge Ramírez Medina
EGADE Business School
as
18. Qué tipo
de relación
se examina?
Dependencia
Interdependencia
Cuántas son
las variables
a predecir?
Múltiples relaciones de
Variables dependientes e
independientes
Varias variables
dependientes en
una sola relación
Métrica
Correlación
canónica
Cuál es la escala
de medición de
la variable
dependiente?
Cuál es la escala
de medición de
la variable
dependiente?
SEM
Métrica
Una variable
dependientes en
una sola relación
No Métrica
Cuál es la escala
de medición de
la variable
predictora?
No Métrica
Análisis
Multivariado
de varianza
(Manova)
Correlación
canónica
con variables
dummy
Métrica
Regresión múltiple
Análisis Conjoint
No Métrica
Análisis discriminante
múltiple
Modelos de
probabilidad lineal
(logit Analysis)
19. Correlación canónica
Y1+Y2+Y3+…+Yn =
métrica, no métrica
X1+X2+X3+…+Xn
métrica, no métrica
Manova
Y1+Y2+Y3+…+Yn =
métrica
X1+X2+X3+…+Xn
no métrica
Análisis de Varianza
Y1 =
Relación entre los
métodos de
dependencia
multivariados
métrica
X1+X2+X3+…+Xn
no métrica
Análisis discriminante múltiple
Y1=
no métrica (dicotómica)
X1+X2+X3+…+Xn
métrica
Análisis de regresión múltiple
Y1=
métrica
X1+X2+X3+…+Xn
métrica, no métrica
Análisis Cojoint
Y1=
métrica, no métrica
X1+X2+X3+…+Xn
no métrica
SEM
Y1 =
Y2 =
Ym =
X11+X12+X13+…+X1n
X21+X22+X23+…+X2n
Xm1+Xm2+Xm3+…+Xmn
20. Modelo de regresión
lineal simple
• Modelo de regresión lineal simple
y = β0 + β1x + ε
• Ecuación de regresión lineal simple
E(y) = β0 + β1x
• Ecuación estimada de regresión lineal simple
^
y = b0 + b1x
Dr Jorge Ramírez Medina
EGADE Business School
An apple juice manufacturer is planning to develop a new product -a liquid concentrate.
The marketing manager has to decide how to market the new product.
Three strategies are considered
Emphasize convenience of using the product.
Emphasize the quality of the product.
Emphasize the product’s low price.
An experiment was conducted as follows:
In three cities an advertisement campaign was launched .
In each city only one of the three characteristics (convenience, quality, and price) was emphasized.
The weekly sales were recorded for twenty weeks following the beginning of the campaigns.
The weekly sales were recorded for twenty weeks following the beginning of the campaigns
The problem objective is to compare sales in three cities.
We hypothesize that the three population means are equal
The weekly sales were recorded for twenty weeks following the beginning of the campaigns
The problem objective is to compare sales in three cities.
We hypothesize that the three population means are equal
To build the statistic needed to test thehypotheses use the following notation:
Variable de respuesta: Las ventas semanales
Observaciones: valor de las venta real
Unidad de análisis: Las tres ciudades
Tratamiento :Criterio por el cual se clasifican las poblaciones (los tratamientos). En este problemas el factor es la estrategia de mercadotecnia.Niveles de los tratamientos: Las diferentes estrategias de mercadotecnia; Conveniencia, Precio, Calidad.
Si las medias de tres poblaciones son iguales cabe esperar que las tres medias de las muestras se aproximen entre si. De hecho mientras más próximas estén la medias de las tres muestras habrá más evidencia para concluir que las medias poblacionales son iguales. En forma alternativa, cuanto más distintas sean las medias muestrales, más evidencias tendremos para llegar a la conclusión de que las medias poblacionales no son iguales.
Si la variabilidad entre las medias de las muestras es “pequeña” se respalda H0; si es “grande” Ha se respalda.
Si Ho es cierta podemos usar la variabilidad entre las medias de las muestra para determinar un estimado de la varianza poblacional 2.
Media general de la muestra
2=(n*(estimación de sx2) estimación de 2 entre tratamientos
Estimación de la variabilidad entre tratamientos
Cuando las medias de la población no son iguales , la estimación entre tratamientos agrandará o sobreestimará la varianza poblacional s2. La variación dentro de cada una de las muestras también tiene un efecto sobre la conclusión a la que se puede llegar en un análisis de la varianza. Cuando se toma una muestra aleatoria simple de cada población, cada una de las varianzas de la muestra es una estimación insesgada de s2 (poblacional). Por consiguiente podemos combinar las estimaciones individuales de s2 , en una estimación general , la cual se denomina estimación combinada o dentro de tratamientos de s2.
variación dentro de cada una de las muestras,
En resumen , la racionalidad del análisis de varianza se basa en el cálculo de dos estimaciones independientes de la varianza poblacional s2 común. Una estimación se basa en la variabilidad entre las medias de las muestras mismas(entre las muestras), y la otra en la variabilidad de los datos dentro de cada muestra. Si se comparan ambas, se podrá determinar si las medias de la población son iguales.
The total variation in Y, denoted by SSy, can be decomposed into two components:
SSy = SSbetween + SSwithin
where the subscripts between and within refer to the categories of X.
SSbetween is the variation in Y related to the variation in the means of the categories of X. For this reason, SSbetween is also denoted as SSx.
SSwithin is the variation in Y related to the variation within each category of X. SSwithin is not accounted for by X. Therefore it is referred to as SSerror.
The figure shows the rejection region associated with a level of significance equal to where F denotes the critical value
La idea gral. en ANOVA es que cuando las medias de las muestras están muy aparte significa que las medias de la población no son iguales.
Cuando los diagramas de caja no se sobreimponen mucho el valor p tiende a ser pequeño
1- Ponga todos los tamaños de muestra en 10. Ponga todas las medias iguales y presione el botón de Sample. Repita varias veces grabando el valor de p de la última columna en la caja en la parte baja de la pantalla. Con p<0.05 rechazamos H0. ¿fallá el rechazar la hipótesis nula la mayor parte de las veces?
2- Ponga la media de las tres curvas en 5 y repita el ejercicio 1. debemos esperar que nuestra respuesta cambie cuando el valor de la media de la población común cambia?
3- Incremente el tamaño de la muestra a 50 y repita el ejercicio. Cambia la respuesta cuando cambia el tamaño de la muestra?
4- Ahora intente hacerlo moviendo las medias lejos de las otras. (rechazamos H0 cuando p<0.05)
la racionalidad del análisis de varianza se basa en el cálculo de dos estimaciones independientes de la varianza poblacional s2 común.
Una estimación se basa en la variabilidad entre las medias de las muestras mismas, SSbetween
y la otra en la variabilidad de los datos dentro de cada muestra. Sswithin
Para presentar de manera adecuada los cálculos anteriores se usa una tabla conocida como ANOVA
(presentación depende del paquete estadístico usado)
HACER AQUÍ EL EJEMPLO DE LA PLANTA CON ANOVA USANDO EXCEL
Tres propuestas para reducir el estrés en el trabajo
Pero cada quién lo maneja a su modo
CME fuente de variación del grupo depende de las variaciones individuales de los empleados también
Quitar estas diferencias con diseño de bloque aleatorizado
Ejercicios en clase/Estrés
Un experimento factorial es un diseño experimental que permite obtener simultáneamente conclusiones de dos o más facotres.
El termino factorial se debe a que incluye todas las posibles combinaciones
Estudiantes de tres licenciaturas aplican un examen en donde hay tres apoyos
Suponga que se toma una muestra de dos estudiantes para cada una de las combinaciones de tratamientos (dos replicaciones)
De cada licenciatura se tomarán seis estudiantes
-- a dependent variable -- is generally predicted or explained by means of the other(s) -- independent variables and covariates. These are called dependence methods. Ejemplo: multiple regression and analysis of variance
Multiple regression analysis enables the researcher to predict the level of magnitude of a dependent variable based on the levels of more than one
independent variable.
Multiple discriminant analysis enables the researcher to predict group membership on the basis of two or more independent variables.
Conjoint analysis provides a basis to estimate the utility that consumers associate with different product features or attributes.
http://onlinestatbook.com/stat_sim/reg_by_eye/index.html
El truco es minimizar las desviaciones a la media => se usa……