S05

Sesión 5
Anova y Pruebas de
Hipótesis de dos
poblaciones
Fundamentos Estadísticos
para Finanzas
FZ4013
Dr. Jorge Ramírez Medina

• Pruebas de normalidad
• Diferencias de dos poblaciones
• Ejemplos de dos poblaciones
• Pruebas de Anova
• Selección de pruebas de Hipótesis
Agenda del día de hoy
EGADE Business School

Pruebas de normalidad
Tomadop de; The Cartoon guide to Statistics. Larry Gonick and Woollcott Smith
Normal01=Rest[Import[FileNameJoin[{NotebookDirectory[],"EjemplosS05.xlsx"}],{"Data",2}]];
Normal02=Normal01[[All,1]];
G1=SmoothHistogram[Normal02, PlotStyle->Red, PlotRange->{{55,78},{Automatic,Automatic}},AxesOrigin->{55,0}];
G2=Histogram[Normal02, Automatic,"PDF", PlotRange->{{55,78},{Automatic,Automatic}},AxesOrigin->{55,0}];
Show[G2,G1];

Margen de error
Para realizar la prueba de normalidad, ejecutamos la prueba de Kolmogorov Smirnov (nada que ver con
Vodka)
SV010=KolmogorovSmirnovTest[Normal02];
O bien realizamos una prueba de Hipótesis comparando las dos distribuciones
H0: (Contorno Distribución bajo prueba) = (Contorno Distribución Normal)
Ha: (Contorno Distribución bajo prueba) ≠ (Contorno Distribución Normal)
en Mathematica utilizamos DistributionFitTest (en lugar de LocacionTest)
SV012=DistributionFitTest[Normal02,Automatic, "HypothesisTestData"];
SV012[{{"TestDataTable",All},"ShortTestConclusion"}]
En ambos casos podemos asumir normalidad de los datos

Datos financieros de la sesión
pasada
AccMexchem=FinancialData["MX:MEXCHEM","CumulativeReturn",{{2012,1,1},{2016,1,31}}];
Normal03=AccMexchem[[All,2]];
Through[{Max,Min}[Normal03]];
G3=SmoothHistogram[Normal03, PlotStyle->Red, AxesOrigin->{0,0}, PlotRange->{{-1,1},{Automatic,Automatic}}];
G4=Histogram[Normal03,10,"PDF",AxesOrigin->{0,0}, PlotRange->{{-1,1},{Automatic,Automatic}}];
Show[G4,G3];

Datos financieros de la sesión
pasada
SV010=KolmogorovSmirnovTest[Normal03]
KolmogorovSmirnovTest::ties: Ties exist in the data and will be ignored for the {KolmogorovSmirnov} test, which assumes unique values. >>
0
Ya que KS no funcionó aplicamos DistributionFitTest
SV013=DistributionFitTest[Normal03,Automatic, "HypothesisTestData"];
El rechazar la H0 nos indica que la muestra no viene de una población normal.

Ejemplo cuando no se cumplen las
suposiciones de normalidad
datosNoCumplen=BlockRandom[SeedRandom[1234];RandomVariate[StudentTDistribution[5],100]];
dnc=LocationTest[datosNoCumplen,0,"HypothesisTestData"];
dnc["TestDataTable"];
Nota el estadístico que proporciona la prueba, no es el estadístico t. De hecho al correo la prueba t
TTest[datosNoCumplen,0]
TTest::nortst: At least one of the p-values in {0.0398685}, resulting from a test for normality, is below 0.05`. The tests in {T} require that the data is
normally distributed. >>
0.218742

La prueba indica que se requiere que los datos estén normalmente distribuidos. Al correr KS y DistTesFit
obtenemos
KolmogorovSmirnovTest[datosNoCumplen];
SV015=DistributionFitTest[datosNoCumplen,Automatic, "HypothesisTestData"];
Con lo que concluimos que los datos no siguen una distribución normal. Verifiquemos ahora la distribución
de los datos

G5=SmoothHistogram[datosNoCumplen,Automatic, PlotStyle->Red];
G6=Histogram[datosNoCumplen,15, "PDF"];
Show[G6, G5]
Aplicando la cancelación de la restricción
Pruebat= TTest[datosNoCumplen,0,"HypothesisTestData",VerifyTestAssumptions->None];
Pruebat[{"TestStatistic","PValue","ShortTestConclusion"}]
{1.23773,0.218742,Do not reject}

Ejercicio en clase
Por equipos.
• Llena 30 vasos con Agua y pesa cada uno de ellos (no olvides quitar el peso del vaso).
Aplica las herramientas estadísticas vistas en clase para verificar la hipótesis
establecida por el profesor en clase.
• De manera individual.
• Sube los resultados del archivo nb con su explicación en la plataforma.

Inferencia con dos poblaciones

Tabla de selección
de estadístico a utilizar

Caso 1
Sams de Tlanepantla vende menos que Sams Santa Fe. El
director regional cree que se puede deber a la diferencia del
tipo de clientes (distinta edad, ingresos, etc.) y decide
investigar la diferencia de las medias de los ingresos de los
clientes de cada tienda.

Caso 1
Sams=Rest[Import[FileNameJoin[{NotebookDirectory[],"EjemplosS05.xlsx"}],{"Data",4}]];
SamsS=Sams[[All,1]];
SamsT=Sams[[All,2]];
Se requiere investigar si μSanta Fe ≠ μTlanepantla ,
H0: μSanta Fe - μTlanepantla =0
por lo que esta es una prueba dos colas. En este caso μ0 =0

Caso 1
<< HypothesisTesting`;
Sams01 = LocationTest[{SamsS, SamsT}, 0, "HypothesisTestData",
AlternativeHypothesis -> "Unequal", SignificanceLevel -> .05];
Sams01[{"TestStatistic", "PValue", "ShortTestConclusion"}]
{2.41623, 0.0188508, "Reject"}
Podemos concluir que ganan diferente las personas en Santa Fe que en Tlanepantla.

Caso 2
Un estudiante de la MAF de EGADE BS, sólo cuenta con una
muestra de los precios de la acción del Grupo ICA y quiere
demostrar que el rendimiento ha sido inferior al desempeño de
las emisoras mexicanas cuyo valor de mercado mínimo sea de
$100 millones de dólares y con los niveles más altos de
bursatilidad
Nota;
El índice INMEX es el Índice México de la Bolsa Mexicana de Valores,
es un índice bursátil con una muestra de 20 a 25 emisoras en sus series
más representativas y con los niveles más altos de bursatilidad, se
consideran solamente series accionarias de emisoras cuyo valor de
mercado mínimo sea de $100 millones de dólares. La fórmula para
calcular el INMEX es la misma que para calcular el IPC. Tome el índice
del IPC ^MXX para resolver este ejercicio.

Caso 2
FinancialData["MX:ICA","Name"];
FinancialData["^MXX","Name"];
InteractiveTradingChart["MX:ICA",{{2015,1,1},{2016,1,31}}]
InteractiveTradingChart["^MXX",{{2015,1,1},{2016,1,31}}];

Caso 2
Veamos el comportamiento de ambas
AccICA = FinancialData["MX:ICA", "Return", {{2015, 1, 1}, {2015, 12, 31}}, "Value"];
AccBMV = FinancialData["^MXX", "Return", {{2015, 1, 1}, {2015, 12, 31}}, "Value"];
Y sus gráficas
Min[AccICA];
GR01 = Histogram[AccICA, 30, PlotRange -> {{-.24, .24}, {0, 100}}, Ticks -> Automatic, ChartStyle ->
Lighter@Yellow];
GR02 = SmoothHistogram[AccICA, PlotRange -> {{-.24, .24}, {0, 100}}, Ticks -> Automatic];
GH = Labeled[Show[GR01, GR02], Style["Rentabilidad ICA, 2015", FontFamily -> "Verdana", Bold, 12,
Darker@Blue]];
GR03 = Histogram[AccBMV, PlotRange -> {{-.24, .24}, {0, 100}}, Ticks -> Automatic, ChartStyle ->
LightGray];
GR04 = SmoothHistogram[AccBMV, PlotRange -> {{-.24, .24}, {0, 100}}, Ticks -> Automatic, PlotStyle ->
Red];
GB = Labeled[Show[GR03, GR04],
Style["Rentabilidad BMV, 2015", FontFamily -> "Verdana", Bold, 12, Darker@Red]];

Caso 2
NICA=Text[Style["Rentabilidad ICA",FontFamily-> "Verdana",Bold,12, Darker@Blue]];
NBMV=Text[Style["Rentabilidad BMV",FontFamily-> "Verdana",Bold,12, Darker@Red]];
LDos=NBMV NICA
Labeled[Show[GR02,GR04],LDos]

Caso 2
Se requiere investigar si μICA < μBMV , despejando μICA - μBMV < 0, pero esto es lo que se quiere investigar por lo que se pone en la
hipótesis alternativa.
H0: μICA - μBMV ⩾ 0
Ha: μICA - μBMV < 0,
por lo que esta es una prueba de cola Inferior. En este caso μ0 =0

Caso 2
<<HypothesisTesting`;
Table[LocationTest[{AccICA,AccBMV},0, AlternativeHypothesis->p, SignificanceLevel>.1],
{p,{"Less","Greater","Unequal"}}];
hh=LocationTest[{AccICA,AccBMV},0, "HypothesisTestData",AlternativeHypothesis->"Less",
SignificanceLevel->.1];
hh[{"TestDataTable",All},"ShortTestConclusion"];
Rend=DistributionFitTest[AccBMV,Automatic, "HypothesisTestData"];
Rend["KolmogorovSmirnov"];
Rend[{{"TestDataTable",All},"ShortTestConclusion"}];
DistributionFitTest::ties: Ties exist in the data and will be ignored for the {KolmogorovSmirnov} test, which assumes unique values. >>
Rend=DistributionFitTest[AccICA,Automatic, "HypothesisTestData"];
Rend["KolmogorovSmirnov"];
Rend[{{"TestDataTable",All},"ShortTestConclusion"}];
DistributionFitTest::ties: Ties exist in the data and will be ignored for the {KolmogorovSmirnov} test, which assumes unique values. >>

Caso 2
hh=LocationTest[{AccICA,AccBMV},0, "HypothesisTestData",AlternativeHypothesis->
"Less",VerifyTestAssumptions->None,SignificanceLevel->.1];
hh[{"TestDataTable",All},"ShortTestConclusion"]
Concluimos que el rendimiento de ICA ha sido inferior al desempeño de la BMV

Hablemos de transnacionales

Caso 3
Una empresa de investigación de mercados obtuvo una
muestra de personas para evaluar el potencial de compra de
cierto producto, antes y después de que esas personas vieran
un nuevo comercial en televisión sobre el producto. Las
calificaciones de potencial de compra se basaron en una escala
de 0 a 10, en donde los valores mayores indicaban un mayor
potencial de compra. Se quiere investigar la hipótesis de que el
comercial mejorará la media de la calificación de potencial de
compra.

Solución al caso 3
<<HypothesisTesting`;
Comercial=Rest[Import[FileNameJoin[{NotebookDirectory[],"DatosS05.xlsx"}],{"Data",5}]]
;
ComercialA=Comercial[[All,2]]
ComercialD=Comercial[[All,3]]
{6.,5.,7.,6.2,6.,6.4}
{5.4,5.2,6.5,5.9,6.,5.8}
Se quiere investigar que µD> µA
por lo que µD - µA > 0
o lo que es lo mismo µA - µD < 0
Para evitar caer en el error tipo II
H0: µA - µD >= 0
Ha: µA - µD < 0
por lo que es una prueba de cola inferior.
Type: PairedTTest
p Value: 0.96

Solución al caso 3
ComercialO=PairedTTest[{ComercialA, ComercialD},0,"HypothesisTestData",
AlternativeHypothesis->"Less"]
HypothesisTestData[
Type: PairedTTest
p Value: 0.96
]
ComercialO["Properties"]
{DegreesOfFreedom,HypothesisTestData,PairedT,Properties,PValue,PValue
Table,ShortTestConclusion,TestConclusion,TestData,TestDataTable,TestE
ntries,TestStatistic,TestStatisticTable}
ComercialO["TestStatistic","PairedT","PValue","ShortTestConclusion"]
{2.19578,0.960242,0.960242,Do not reject}
No hay suficiente evidencia estadística para afirmar que con el comercial
mejora la percepción.

Anova

Descomposición de
la variación
Dr Jorge Ramírez Medina
• SSentre. Estimación de la variabilidad entre tratamientos, también se
le denota por SSx, esta es la variación en X relacionada a la variación
en las medias de cada muestra. Se le conoce como SCTR suma de
los cuadrados debido a los tratamientos.
• SSdentro. variación dentro de cada una de las muestras, también
denotada como SSerror, es la variación en X debido a la variación
dentro de cada una de las muestras. Se le conoce como SCE, suma
de cuadrados debido al error
• SSy. Es la variación total. Se le conoce como STC, suma de
cuadrados del total
STC = SCTR + SCE

Tabla ANOVA
Dr Jorge Ramírez Medina
 
2
2
1

ns

Empresa
• Un empresa estudia los tiempos de entrega de dos proveedores de materia prima. En
general está satisfecha con el proveedor A, y lo conservará si la media de su tiempo de
entrega es igual o menor que la del proveedor B. Sin embargo, si observa que la media
del tiempo de entrega del proveedor B es menor que la del proveedor A, comenzará a
comprar con el proveedor B.

Empresa

Estrés laboral
ITESM EGADE
Sistema A
Sistema B
Sistema C

Estrés laboral
Sistema A
Sistema B
Sistema C

ANOVA dos factores
Ingeniería

Qué tipo
de relación
se examina?
Cuántas son
las variables
a predecir?
Dependencia Interdependencia
Cuál es la escala
de medición de
la variable
dependiente?
Cuál es la escala
de medición de
la variable
dependiente?
Cuál es la escala
de medición de
la variable
predictora?
SEM
Múltiples relaciones de
Variables dependientes e
independientes Varias variables
dependientes en
una sola relación
Una variable
dependientes en
una sola relación
Correlación
canónica
Análisis
Multivariado
de varianza
(Manova)
Correlación
canónica
con variables
dummy
Regresión múltiple
Análisis Conjoint
Análisis discriminante
múltiple
Modelos de
probabilidad lineal
(logit Analysis)
Métrica
No Métrica
Métrica No Métrica
No MétricaMétrica

Correlación canónica
Y1+Y2+Y3+…+Yn = X1+X2+X3+…+Xn
métrica, no métrica métrica, no métrica
Manova
Y1+Y2+Y3+…+Yn = X1+X2+X3+…+Xn
métrica no métrica
Análisis de Varianza
Y1 = X1+X2+X3+…+Xn
métrica no métrica
Análisis discriminante múltiple
Y1= X1+X2+X3+…+Xn
no métrica (dicotómica) métrica
Análisis de regresión múltiple
Y1= X1+X2+X3+…+Xn
métrica métrica, no métrica
Análisis Cojoint
Y1= X1+X2+X3+…+Xn
métrica, no métrica no métrica
SEM
Y1 =
Y2 =
Ym =
X11+X12+X13+…+X1n
X21+X22+X23+…+X2n
Xm1+Xm2+Xm3+…+Xmn
métrica métrica, no métrica
Relación entre los
métodos de
dependencia
multivariados

Asignación para
la siguiente sesión

S05

Recomendados

Recomendados

Más contenido relacionado

La actualidad más candente

La actualidad más candente (20)

Destacado

Destacado (18)

Similar a S05

Similar a S05 (20)

Más de Jorge Ramírez

Más de Jorge Ramírez (20)

Último

Último (20)

S05

Notas del editor