1. Sesión 5
Anova y Pruebas de
Hipótesis de dos
poblaciones
Fundamentos Estadísticos
para Finanzas
FZ4013
Dr. Jorge Ramírez Medina
2. • Pruebas de normalidad
• Diferencias de dos poblaciones
• Ejemplos de dos poblaciones
• Pruebas de Anova
• Selección de pruebas de Hipótesis
Agenda del día de hoy
Dr. Jorge Ramírez Medina
EGADE Business School
3. Pruebas de normalidad
Dr. Jorge Ramírez Medina
EGADE Business School
Tomadop de; The Cartoon guide to Statistics. Larry Gonick and Woollcott Smith
Normal01=Rest[Import[FileNameJoin[{NotebookDirectory[],"EjemplosS05.xlsx"}],{"Data",2}]];
Normal02=Normal01[[All,1]];
G1=SmoothHistogram[Normal02, PlotStyle->Red, PlotRange->{{55,78},{Automatic,Automatic}},AxesOrigin->{55,0}];
G2=Histogram[Normal02, Automatic,"PDF", PlotRange->{{55,78},{Automatic,Automatic}},AxesOrigin->{55,0}];
Show[G2,G1];
4. Margen de error
Dr. Jorge Ramírez Medina
EGADE Business School
Para realizar la prueba de normalidad, ejecutamos la prueba de Kolmogorov Smirnov (nada que ver con
Vodka)
SV010=KolmogorovSmirnovTest[Normal02];
O bien realizamos una prueba de Hipótesis comparando las dos distribuciones
H0: (Contorno Distribución bajo prueba) = (Contorno Distribución Normal)
Ha: (Contorno Distribución bajo prueba) ≠ (Contorno Distribución Normal)
en Mathematica utilizamos DistributionFitTest (en lugar de LocacionTest)
SV012=DistributionFitTest[Normal02,Automatic, "HypothesisTestData"];
SV012[{{"TestDataTable",All},"ShortTestConclusion"}]
En ambos casos podemos asumir normalidad de los datos
5. Datos financieros de la sesión
pasada
Dr. Jorge Ramírez Medina
EGADE Business School
AccMexchem=FinancialData["MX:MEXCHEM","CumulativeReturn",{{2012,1,1},{2016,1,31}}];
Normal03=AccMexchem[[All,2]];
Through[{Max,Min}[Normal03]];
G3=SmoothHistogram[Normal03, PlotStyle->Red, AxesOrigin->{0,0}, PlotRange->{{-1,1},{Automatic,Automatic}}];
G4=Histogram[Normal03,10,"PDF",AxesOrigin->{0,0}, PlotRange->{{-1,1},{Automatic,Automatic}}];
Show[G4,G3];
6. Datos financieros de la sesión
pasada
Dr. Jorge Ramírez Medina
EGADE Business School
SV010=KolmogorovSmirnovTest[Normal03]
KolmogorovSmirnovTest::ties: Ties exist in the data and will be ignored for the {KolmogorovSmirnov} test, which assumes unique values. >>
0
Ya que KS no funcionó aplicamos DistributionFitTest
SV013=DistributionFitTest[Normal03,Automatic, "HypothesisTestData"];
SV013[{{"TestDataTable",All},"ShortTestConclusion"}]
El rechazar la H0 nos indica que la muestra no viene de una población normal.
7. Ejemplo cuando no se cumplen las
suposiciones de normalidad
Dr. Jorge Ramírez Medina
EGADE Business School
datosNoCumplen=BlockRandom[SeedRandom[1234];RandomVariate[StudentTDistribution[5],100]];
dnc=LocationTest[datosNoCumplen,0,"HypothesisTestData"];
dnc["TestDataTable"];
Nota el estadístico que proporciona la prueba, no es el estadístico t. De hecho al correo la prueba t
TTest[datosNoCumplen,0]
TTest::nortst: At least one of the p-values in {0.0398685}, resulting from a test for normality, is below 0.05`. The tests in {T} require that the data is
normally distributed. >>
0.218742
8. Ejemplo cuando no se cumplen las
suposiciones de normalidad
Dr. Jorge Ramírez Medina
EGADE Business School
La prueba indica que se requiere que los datos estén normalmente distribuidos. Al correr KS y DistTesFit
obtenemos
KolmogorovSmirnovTest[datosNoCumplen];
SV015=DistributionFitTest[datosNoCumplen,Automatic, "HypothesisTestData"];
SV015[{{"TestDataTable",All},"ShortTestConclusion"}]
Con lo que concluimos que los datos no siguen una distribución normal. Verifiquemos ahora la distribución
de los datos
9. Ejemplo cuando no se cumplen las
suposiciones de normalidad
Dr. Jorge Ramírez Medina
EGADE Business School
G5=SmoothHistogram[datosNoCumplen,Automatic, PlotStyle->Red];
G6=Histogram[datosNoCumplen,15, "PDF"];
Show[G6, G5]
Aplicando la cancelación de la restricción
Pruebat= TTest[datosNoCumplen,0,"HypothesisTestData",VerifyTestAssumptions->None];
Pruebat[{"TestStatistic","PValue","ShortTestConclusion"}]
{1.23773,0.218742,Do not reject}
10. Ejercicio en clase
Por equipos.
• Llena 30 vasos con Agua y pesa cada uno de ellos (no olvides quitar el peso del vaso).
Aplica las herramientas estadísticas vistas en clase para verificar la hipótesis
establecida por el profesor en clase.
• De manera individual.
• Sube los resultados del archivo nb con su explicación en la plataforma.
Dr. Jorge Ramírez Medina
EGADE Business School
11. Inferencia con dos poblaciones
Dr. Jorge Ramírez Medina
EGADE Business School
12. Tabla de selección
de estadístico a utilizar
Dr. Jorge Ramírez Medina
EGADE Business School
13. Caso 1
Sams de Tlanepantla vende menos que Sams Santa Fe. El
director regional cree que se puede deber a la diferencia del
tipo de clientes (distinta edad, ingresos, etc.) y decide
investigar la diferencia de las medias de los ingresos de los
clientes de cada tienda.
Dr. Jorge Ramírez Medina
EGADE Business School
15. Caso 1
<< HypothesisTesting`;
Sams01 = LocationTest[{SamsS, SamsT}, 0, "HypothesisTestData",
AlternativeHypothesis -> "Unequal", SignificanceLevel -> .05];
Sams01[{"TestStatistic", "PValue", "ShortTestConclusion"}]
{2.41623, 0.0188508, "Reject"}
Podemos concluir que ganan diferente las personas en Santa Fe que en Tlanepantla.
Dr. Jorge Ramírez Medina
EGADE Business School
16. Caso 2
Un estudiante de la MAF de EGADE BS, sólo cuenta con una
muestra de los precios de la acción del Grupo ICA y quiere
demostrar que el rendimiento ha sido inferior al desempeño de
las emisoras mexicanas cuyo valor de mercado mínimo sea de
$100 millones de dólares y con los niveles más altos de
bursatilidad
Nota;
El índice INMEX es el Índice México de la Bolsa Mexicana de Valores,
es un índice bursátil con una muestra de 20 a 25 emisoras en sus series
más representativas y con los niveles más altos de bursatilidad, se
consideran solamente series accionarias de emisoras cuyo valor de
mercado mínimo sea de $100 millones de dólares. La fórmula para
calcular el INMEX es la misma que para calcular el IPC. Tome el índice
del IPC ^MXX para resolver este ejercicio.
Dr. Jorge Ramírez Medina
EGADE Business School
19. Caso 2
NICA=Text[Style["Rentabilidad ICA",FontFamily-> "Verdana",Bold,12, Darker@Blue]];
NBMV=Text[Style["Rentabilidad BMV",FontFamily-> "Verdana",Bold,12, Darker@Red]];
LDos=NBMV NICA
Labeled[Show[GR02,GR04],LDos]
Dr. Jorge Ramírez Medina
EGADE Business School
20. Caso 2
Se requiere investigar si μICA < μBMV , despejando μICA - μBMV < 0, pero esto es lo que se quiere investigar por lo que se pone en la
hipótesis alternativa.
H0: μICA - μBMV ⩾ 0
Ha: μICA - μBMV < 0,
por lo que esta es una prueba de cola Inferior. En este caso μ0 =0
Dr. Jorge Ramírez Medina
EGADE Business School
21. Caso 2
<<HypothesisTesting`;
Table[LocationTest[{AccICA,AccBMV},0, AlternativeHypothesis->p, SignificanceLevel>.1],
{p,{"Less","Greater","Unequal"}}];
hh=LocationTest[{AccICA,AccBMV},0, "HypothesisTestData",AlternativeHypothesis->"Less",
SignificanceLevel->.1];
hh[{"TestDataTable",All},"ShortTestConclusion"];
Rend=DistributionFitTest[AccBMV,Automatic, "HypothesisTestData"];
Rend["KolmogorovSmirnov"];
Rend[{{"TestDataTable",All},"ShortTestConclusion"}];
DistributionFitTest::ties: Ties exist in the data and will be ignored for the {KolmogorovSmirnov} test, which assumes unique values. >>
Rend=DistributionFitTest[AccICA,Automatic, "HypothesisTestData"];
Rend["KolmogorovSmirnov"];
Rend[{{"TestDataTable",All},"ShortTestConclusion"}];
DistributionFitTest::ties: Ties exist in the data and will be ignored for the {KolmogorovSmirnov} test, which assumes unique values. >>
Dr. Jorge Ramírez Medina
EGADE Business School
24. Caso 3
Una empresa de investigación de mercados obtuvo una
muestra de personas para evaluar el potencial de compra de
cierto producto, antes y después de que esas personas vieran
un nuevo comercial en televisión sobre el producto. Las
calificaciones de potencial de compra se basaron en una escala
de 0 a 10, en donde los valores mayores indicaban un mayor
potencial de compra. Se quiere investigar la hipótesis de que el
comercial mejorará la media de la calificación de potencial de
compra.
Dr. Jorge Ramírez Medina
EGADE Business School
25. Solución al caso 3
<<HypothesisTesting`;
Comercial=Rest[Import[FileNameJoin[{NotebookDirectory[],"DatosS05.xlsx"}],{"Data",5}]]
;
ComercialA=Comercial[[All,2]]
ComercialD=Comercial[[All,3]]
{6.,5.,7.,6.2,6.,6.4}
{5.4,5.2,6.5,5.9,6.,5.8}
Se quiere investigar que µD> µA
por lo que µD - µA > 0
o lo que es lo mismo µA - µD < 0
Para evitar caer en el error tipo II
H0: µA - µD >= 0
Ha: µA - µD < 0
por lo que es una prueba de cola inferior.
Type: PairedTTest
p Value: 0.96
26. Solución al caso 3
ComercialO=PairedTTest[{ComercialA, ComercialD},0,"HypothesisTestData",
AlternativeHypothesis->"Less"]
HypothesisTestData[
Type: PairedTTest
p Value: 0.96
]
ComercialO["Properties"]
{DegreesOfFreedom,HypothesisTestData,PairedT,Properties,PValue,PValue
Table,ShortTestConclusion,TestConclusion,TestData,TestDataTable,TestE
ntries,TestStatistic,TestStatisticTable}
ComercialO["TestStatistic","PairedT","PValue","ShortTestConclusion"]
{2.19578,0.960242,0.960242,Do not reject}
No hay suficiente evidencia estadística para afirmar que con el comercial
mejora la percepción.
28. Descomposición de
la variación
Dr Jorge Ramírez Medina
EGADE Business School
• SSentre. Estimación de la variabilidad entre tratamientos, también se
le denota por SSx, esta es la variación en X relacionada a la variación
en las medias de cada muestra. Se le conoce como SCTR suma de
los cuadrados debido a los tratamientos.
• SSdentro. variación dentro de cada una de las muestras, también
denotada como SSerror, es la variación en X debido a la variación
dentro de cada una de las muestras. Se le conoce como SCE, suma
de cuadrados debido al error
• SSy. Es la variación total. Se le conoce como STC, suma de
cuadrados del total
STC = SCTR + SCE
30. Empresa
• Un empresa estudia los tiempos de entrega de dos proveedores de materia prima. En
general está satisfecha con el proveedor A, y lo conservará si la media de su tiempo de
entrega es igual o menor que la del proveedor B. Sin embargo, si observa que la media
del tiempo de entrega del proveedor B es menor que la del proveedor A, comenzará a
comprar con el proveedor B.
Dr. Jorge Ramírez Medina
EGADE Business School
36. Qué tipo
de relación
se examina?
Cuántas son
las variables
a predecir?
Dependencia Interdependencia
Cuál es la escala
de medición de
la variable
dependiente?
Cuál es la escala
de medición de
la variable
dependiente?
Cuál es la escala
de medición de
la variable
predictora?
SEM
Múltiples relaciones de
Variables dependientes e
independientes Varias variables
dependientes en
una sola relación
Una variable
dependientes en
una sola relación
Correlación
canónica
Análisis
Multivariado
de varianza
(Manova)
Correlación
canónica
con variables
dummy
Regresión múltiple
Análisis Conjoint
Análisis discriminante
múltiple
Modelos de
probabilidad lineal
(logit Analysis)
Métrica
No Métrica
Métrica No Métrica
No MétricaMétrica
37. Correlación canónica
Y1+Y2+Y3+…+Yn = X1+X2+X3+…+Xn
métrica, no métrica métrica, no métrica
Manova
Y1+Y2+Y3+…+Yn = X1+X2+X3+…+Xn
métrica no métrica
Análisis de Varianza
Y1 = X1+X2+X3+…+Xn
métrica no métrica
Análisis discriminante múltiple
Y1= X1+X2+X3+…+Xn
no métrica (dicotómica) métrica
Análisis de regresión múltiple
Y1= X1+X2+X3+…+Xn
métrica métrica, no métrica
Análisis Cojoint
Y1= X1+X2+X3+…+Xn
métrica, no métrica no métrica
SEM
Y1 =
Y2 =
Ym =
X11+X12+X13+…+X1n
X21+X22+X23+…+X2n
Xm1+Xm2+Xm3+…+Xmn
métrica métrica, no métrica
Relación entre los
métodos de
dependencia
multivariados
Qué es estadística
Datos Cualitativos y Cuantitativos
Construcción de modelos
3 formas de trabajar con Datos: Tabular, Gráficas, fórmula
Estadística Inferencial y Estadística Descriptiva
Sufragio Universal Fisher
Estadísticos y parámetros
En resumen , la racionalidad del análisis de varianza se basa en el cálculo de dos estimaciones independientes de la varianza poblacional s2 común. Una estimación se basa en la variabilidad entre las medias de las muestras mismas(entre las muestras), y la otra en la variabilidad de los datos dentro de cada muestra. Si se comparan ambas, se podrá determinar si las medias de la población son iguales.
The total variation in Y, denoted by SSy, can be decomposed into two components:
SSy = SSbetween + SSwithin
where the subscripts between and within refer to the categories of X.
SSbetween is the variation in Y related to the variation in the means of the categories of X. For this reason, SSbetween is also denoted as SSx.
SSwithin is the variation in Y related to the variation within each category of X. SSwithin is not accounted for by X. Therefore it is referred to as SSerror.
Para presentar de manera adecuada los cálculos anteriores se usa una tabla conocida como ANOVA
(presentación depende del paquete estadístico usado)
HACER AQUÍ EL EJEMPLO DE LA PLANTA CON ANOVA USANDO EXCEL
Tres propuestas para reducir el estrés en el trabajo
Pero cada quién lo maneja a su modo
CME fuente de variación del grupo depende de las variaciones individuales de los empleados también
Quitar estas diferencias con diseño de bloque aleatorizado
Ejercicios en clase/Estrés
Un experimento factorial es un diseño experimental que permite obtener simultáneamente conclusiones de dos o más facotres.
El termino factorial se debe a que incluye todas las posibles combinaciones
Estudiantes de tres licenciaturas aplican un examen en donde hay tres apoyos
Suponga que se toma una muestra de dos estudiantes para cada una de las combinaciones de tratamientos (dos replicaciones)
De cada licenciatura se tomarán seis estudiantes
Un experimento factorial es un diseño experimental que permite obtener simultáneamente conclusiones de dos o más facotres.
El termino factorial se debe a que incluye todas las posibles combinaciones
Estudiantes de tres licenciaturas aplican un examen en donde hay tres apoyos
Suponga que se toma una muestra de dos estudiantes para cada una de las combinaciones de tratamientos (dos replicaciones)
De cada licenciatura se tomarán seis estudiantes
-- a dependent variable -- is generally predicted or explained by means of the other(s) -- independent variables and covariates. These are called dependence methods. Ejemplo: multiple regression and analysis of variance
Multiple regression analysis enables the researcher to predict the level of magnitude of a dependent variable based on the levels of more than one
independent variable.
Multiple discriminant analysis enables the researcher to predict group membership on the basis of two or more independent variables.
Conjoint analysis provides a basis to estimate the utility that consumers associate with different product features or attributes.
Subir ejercicio. Traer vasos desechables
Pesa electrónica