SlideShare una empresa de Scribd logo
1 de 114
ANALISIS DE
DATOS
CATEGORICOS
ESTADISTICA
INDUSTRIAL
Ing. William León Velásquez
TEMA 10
PRUEBA
DEL
CHI-CUADRADO
Ing William León Velásquez 2
INTRODUCCIÓN
PRUEBA DE BODAD DE AJUSTE
PRUEBA DE INDEPENDENCIA
PRUEBA DE HOMOGENIDAD
4
 Comprender las dos técnicas estadísticas empleadas
para analizar datos categóricos*, con lo cual se podrá:
 Comprender la prueba Chi cuadrado de bondad de
ajuste y cómo usarla.
 Analizar datos usando la prueba de Chi cuadrado de
independencia (aleatoriedad) y para homogeneidad
(misma distribución)
INTRODUCCIÓN. OBJETIVO
• Los datos categóricos son variables que mide
en una escala un número limitado de grupos.
• Ejemplo: una encuesta donde se
recoge información sobre variables
como sexo, estado civil y afiliación
política.
• También a la variable categórica se le llama
cualitativa
5
INTRODUCCIÓN. ESTRUCTURA
6
INTRODUCCIÓN
Muchos estudios tienen resultados expresados en datos
que son categóricos o cualitativos en vez de cuantitativos
y que admiten más de dos resultados posibles:
• Nuevos Obreros clasificados según evolución
(mejora, sin cambios, empeora)
• Trabajadores clasificados según su desempeño
(regulares, buenos, excelentes)
• Votantes clasificados según intención de voto
Estos datos tienen las características
de un experimento multinomial
7
EL EXPERIMENTO
MULTINOMIAL
 El experimento consiste de n ensayos idénticos
 El resultado de cada repetición es una de k
categorías
 La probabilidad de que el resultado sea una
determinada categoría i se denomina pi y
permanece constante de ensayo en ensayo
• La suma de las k
probabilidades:
p1+ p2+.. + pk = 1
• Los ensayos son
independientes
8
PRUEBAS DE BONDAD DE
AJUSTE
 Se mide una única variable categórica,
por lo tanto cada elemento de la
población se asigna a una y sólo una de
varias categorías k
• Para cada categoría se
posee un valor
preconcebido o
supuesto o histórico de
pi y usamos información
muestral para determinar
si dichos valores son
correctos
 Dado que se cuenta solo con una muestra y se
desea inferir sobre toda la población, la pregunta
se resuelve mediante una prueba de hipótesis
 Las hipótesis puestas a prueba son:
9
Formulación de la hipótesis
Ho: Las proporciones de la
muestra no difieren de la
población
H1: Las proporciones la
muestra sí difieren al menos
en una de la población.
10
 Varían según la aplicación
 Se comienza con el número de categorías o celdas k
 Se le resta un GL por cada restricción sobre las
probabilidades (siempre se perderá un GL ya que p1
+ p2 + … +pk = 1)
 Se pierde un GL por cada parámetro que se debe
estimar para calcular FEi
 Es decir
Cálculo del valor crítico
Grados de libertad
GL= k-m-1
Siendo k = cantidad de categorías
m= números de parámetros estimados
11
Cálculo del valor crítico
GL= 4-0-1=3
Siendo k, cantidad de categorías
 = nivel de significación
χ2 = 7.8147
χ2 = 7.8147
m es la cantidad estimada de parámetro
Gl=k-m-1
( = 0.05)
Ejemplo si k=0, m=0 y =0.05
 Se calculan las frecuencias esperadas con las
proporciones:
 ¿Las diferencias son lo suficientemente grandes
como para afirmar que las preferencias en la
población han cambiado? ( = 0.05)
Clase 1 Clase 2 …….. Clase i TOTAL
FOi
O1 O2 ……. Oi n
Pi
P(O1) P(O2) ……. P(Oi) 1
FEi E1 E2 Ei
12
ESTADÍSTICO Chi-cuadrado
Frecuencias esperadas
FEi=n*P(xi)
13
ESTADÍSTICO Chi-cuadrado
 Para cuantificar las diferencias en un único número se utiliza el
estadístico
 Cuando Ho es verdadera, las diferencias entre FOi y FEi serán
pequeñas,
 Cuando Ho es falsa, las diferencias serán grandes
 Para determinar si la discrepancia entre FO y FE es lo
suficientemente grande, se utiliza la distribución chi-cuadrado
con cierta cantidad de grados de libertad
 Sin embargo este estadístico tiene una distribución que se
aproxima a la chi-cuadrado
 



i
ii
muestral
FE
FEFO
2
2

14
Conclusión
 Si se rechaza la Ho
 Se puede afirmar con un nivel de significancia α
Que las proporciones de la muestra difieren al menos
en una de la población.
χ2
muestral > χ2
Se rechaza la Ho χ2
muestral
χ2
15
EJEMPLO 01: grupos sanguíneos
 La distribución en la ciudad de
Lima de los grupos
sanguíneos es de un 35%,
10%, 6% y un 49% para los
grupos A, B, AB y O
respectivamente.
 Se desea saber si la
distribución de los grupos
sanguíneos en el distrito de
San Martin de Porres difiere
de toda la ciudad de Lima
 Para determinar si la distribución de los
grupos sanguíneos en el distrito de San
Martin difiere de toda la ciudad de Lima se
extrajo una muestra aleatoria de 200
pobladores del distrito de San Martin de
Porres y se les determinó el grupo
sanguíneo.
 Los resultados fueron:
16
Grupo A Grupo B Grupo AB Grupo 0
61 15 6 118
frecuencias
observadas
FO
En este caso, la población es
multinomial: cada poblador se
clasifica según su grupo
sanguíneo en 4 categorías (k= 4)
EJEMPLO 01: grupos sanguíneos
 Dado que se cuenta solo con una muestra y se desea
inferir sobre toda la población, la pregunta se resuelve
mediante una prueba de hipótesis
 Las hipótesis puestas a prueba son:
Ho: Las proporciones de cada grupo sanguíneo en el
distrito de San Martín de Porres no difieren de toda la
ciudad capital;
H1: Las proporciones de cada grupo sanguíneo sí difieren
al menos en una.
17
EJEMPLO 01:
Formulación de la hipótesis
¿Cómo se resuelve?
Se contrastaran las frecuencias observadas FOi
en la muestra con las frecuencias que se
esperaría observar FEi
Se probaran si las proporciones cambian o no
cambian (es decir si Ho es verdadera)
18
EJEMPLO 01:
Cálculo del valor crítico
GL= 4-0-1=3
Siendo k = 4, cantidad de categorías
( = 0.05)
χ2 = 7.8147
χ2 = 7.8147
m=0 porque no se esta estimando ningún
parámetro
p1=0.35, p2= 0.10, p3=0.06, p4=0.49
 Se calculan las frecuencias esperadas con las
proporciones:
 ¿Las diferencias son lo suficientemente grandes como
para afirmar que las preferencias en la población han
cambiado? ( = 0.05)
Grupo A Grupo B Grupo AB Grupo 0 TOTAL
FOi
61 15 6 118 200
Pi
0.35 0.10 0.06 0.49 1
FEi
19
Frecuencias esperadas
FEi=200*P(xi)
EJEMPLO 01:
Cálculo del estadístico de la
muestra
 



i
ii
muestral
FE
FEFO
2
2

20
Grupo
A
Grupo
B
Grupo
AB
Grupo
0
TOTAL
FOi 61 15 6 118 200
Pi 0.35 0.1 0.06 0.49 1
FEi 70 20 12 98 200
fo fe (fo-fe)2 (fo-fe)2/fe
61 70 81 1.15714286
15 20 25 1.25
6 12 36 3
118 98 400 4.08163265
 200 200 9.48877551
EJEMPLO 01:
Cálculo del estadístico de la
muestra
 



i
ii
muestral
FE
FEFO
2
2

21
χ2
muestral = 9.488
χ2
muestral = 9.488
22
EJEMPLO 01: Conclusión
 Se rechaza la Ho
 Se puede afirmar con un nivel de significancia del 5%
• Que Las proporciones de cada grupo sanguíneo sí difieren al menos
en una.
 Por lo tanto la distribución de los grupos sanguíneos en el distrito de
San Martin de Porres difiere de toda la ciudad de Lima
Conclusión:
χ2
muestral > χ2
9.488 > 7.8147
χ2
muestral = 9.488
χ2 = 7.8147
23
Para que la aproximación χ2 de la distribución del
estadístico del contraste sea válida:
 El tamaño muestral debe ser suficientemente grande
(p.e. n>30).
 La muestra debe ser una muestra aleatoria simple.
 En caso de que haya que estimar parámetros, los
parámetros deben estimarse por el procedimiento de
máxima verosimilitud.
 Las frecuencias esperadas ei=n *pi deberían ser todas
>5.
Condiciones necesarias para la validez
de la prueba
24
Si la frecuencia esperada de alguna clase es < 5, se agrupa con
otra clase (o con varias si no fuese suficiente con una) para obtener
una frecuencia esperada >=5.
 Cuando la variable es nominal (no hay una ordenación única) se
suele agrupar con la(s) que tiene(n) menor valor de ei.
 Si la variable es ordinal (o continua) debe juntarse la que causó
el problema con una de las adyacentes.
Condiciones necesarias para la validez
de la prueba
25
OTRAS APLICACIONES
 Las pruebas de bondad de ajuste pueden utilizarse
para determinar si una variable se ajusta a una
determinada distribución de probabilidades, como
por ejemplo:
– Normal
– Binomial
– Poisson
 En estos casos se deben estimar algunos
parámetros a partir de la muestra:
– Normal: el promedio  y el desvío estándar 
– Binomial: la probabilidad de éxito p
– Poisson: la cantidad esperada de eventos en un
continuo 
26
 Los procedimientos de prueba de hipótesis que se
han estudiado hasta ahora, están diseñados para
problemas en los que se conoce la población o la
distribución de probabilidad, y la hipótesis involucra
los parámetros de la distribución.
 Existe otra clase de hipótesis: no se sabe cuál es la
distribución de la población, y se desea probar la
hipótesis de que una distribución en particular será
un modelo satisfactorio de la población.
 Por ejemplo:
 Probar la hipótesis de que la población tiene
comportamiento normal, Poisson, exponencial etc.
PRUEBA DE BONDAD DE
AJUSTE
27
– Se utiliza para la comparación de la distribución de
una muestra con alguna distribución teórica que se
supone describe a la población de la cual se
extrajo.
– Ejemplo:
• Ho : La variable tiene comportamiento normal
• H1 : La variable no tiene comportamiento normal
LA PRUEBA DE BONDAD DE AJUSTE
28
 Es considerada como una prueba no
paramétrica que mide la discrepancia entre una
distribución observada y otra teórica, indicando
en qué medida las diferencias existentes entre
ambas, de haberlas, se deben al azar.
LA PRUEBA DE BONDAD DE AJUSTE
LA PRUEBA DE BONDAD DE AJUSTE
 La fórmula que da el estadístico es la siguiente:
29
Oi = Valor observado en la i-ésimo dato.
Ei = Valor esperado en la i-ésimo dato.
K = Categorías o celdas.
𝜒2 =
𝑓𝑂 𝑖
− 𝑓𝐸 𝑖
2
𝑓𝐸 𝑖
𝐾
𝐼=1
30
 Los grados de libertad vienen dados por : gl= K-m-1.
 m = Parámetros estimados sobre la base de los
datos de la muestra
 Criterio de decisión es el siguiente:
 Se rechaza H0 cuando 𝜒2 ≥ 𝜒2
𝑡; 𝑘 − 1
. En caso
contrario no se rechaza.
 Donde t representa el valor proporcionado por las
tablas, según el nivel de significación elegido.
LA PRUEBA DE BONDAD DE AJUSTE
Cuanto más se aproxima a cero el valor de chi-cuadrado, más
ajustadas están ambas distribuciones.
EL PROCEDIMIENTO GENERAL
PARA REALIZAR LA PRUEBA ES:
31
 1.- Formulación de la hipótesis
Ho: Los datos de la muestra se ajustan a
la distribución teórica escogida
H1: Los datos de la muestra no se ajustan
a la distribución teórica escogida
 2.- Fijar el nivel de significación



k
i Ei
EiOi
1
2
2 )(

EL PROCEDIMIENTO GENERAL
PARA REALIZAR LA PRUEBA ES:
32
 3.- La estadística de prueba donde:
Ei = npi
Oi = observado
p = número de parámetros estimados
a partir de la muestra
K = número de categorías o clases
pi = probabilidad
4.- Determinar la región crítica:
rechazar Ho si:
caso contrario no se rechaza
5.- Decisión y conclusión
Nota: si alguna frecuencia esperada es menor
que 5, se debe eliminar esa clase, Y sumar la
frecuencia observada a una clase contigua.
2
1,1
2
 mkcalc 
EL PROCEDIMIENTO GENERAL
PARA REALIZAR LA PRUEBA ES:
33
34
Un ingeniero de control de calidad toma una
muestra de 10 neumáticos que salen de una línea
de ensamblaje y desea verificar sobre la base de
los datos la cantidad de llantas con defectos
observados en 200 días, y comprobar si es cierto
que el 5% de todos los neumáticos tienen defecto.
Distribución binomial
• Se tiene conocimiento
que la muestra
proviene de una
población binomial
con n = 10 y p = 0.05
Ejemplo 02
Número de unidades
con defecto
Número de muestras
0 138
1 53
2 ó más 9
35
DATOS
REPORTE DE UNIDADES DEFECTUOSAS
Ejemplo 02
36
FOi = Valor observado en la i-ésimo dato.
 FEi = Valor esperado en la i-ésimo dato.
 k = Categorías o celdas.

EL ESTADÍSTICO DE
PRUEBA
𝜒 2
=
𝐹𝑂 𝑖
− 𝐹𝐸 𝑖
2
𝐹𝐸 𝑖
𝑘
𝑖=1
37
DEFINIR EL NIVEL DE SIGNIFICANCIA Y
LA ZONA DE RECHAZO
Ejemplo 02
Gl:k-m-1= 3-0-1=2
5.99
Nivel de significancia=0.05
Regla de decisión:
Se rechazara la Ho si χ2
calculado >=5.99:
m=0 porque no se necesita
estimar ningún
parámetro
38
Para poder calcular las frecuencias esperadas
tenemos que calcular las probabilidades
utilizaremos la formula de la binomial
CALCULO DEL ESTADÍSTICO DE PRUEBA
y la probabilidad de 2 ó más = 1.0 -0.599 -0 .315 = 0.086
Ejemplo 02
𝑓 𝑥 = 𝑃 𝑥 =
𝑛
𝑥
𝑝 𝑥(1 − 𝑝) 𝑛−𝑥
Donde n=10 p=0.05
𝑃 0 =
10
0
0.050(1 − 0.05)10−0=0.599
𝑃 1 =
10
1
0.051(1 − 0.05)10−1= 0.315
39
CÁLCULO DE LAS FRECUENCIAS
ESPERADAS:
Ejemplo 02
Número
de
unidades
con
defecto
Número
de
muestras
Observad
as
Probabilid
ad
Valor
Esperado
0 138 0.599 119.8
1 53 0.315 63.0
2 ó más 9 0.086 17.2
Total 200 200.0
40
APLICANDO LA FORMULA
Como 8.26 es mayor que 5.99, se rechaza la
hipótesis nula con un nivel de significancia de
0.05.
Conclusión
Se concluye que el porcentaje verdadero de
neumáticos con defecto no es el 5%.
Ejemplo 02
41
 Un distribuidor de equipos electrónicos a subdividido su región
en cuatro zonas.
 A un posible comprador de los equipos se le asegura que las
ventas de los equipos están distribuidos de manera
aproximadamente igual en las cuatro zonas.
Distribución uniforme
• Se extrae una muestra de los
archivos de la empresa de 40
ventas realizadas el año
pasado y encuentra que el
numero de ventas por zona
son: 6, 12, 14, 8
respectivamente.
• Realice la prueba de bondad de
ajuste.
Ejemplo 03
Ho : las ventas están igualmente distribuidas.
Ha: las ventas no están igualmente distribuidas
gl = k-m-1 = 4-0-1 = 3 Alfa = 0.05
42
Formulación de las Hipótesis
Ejemplo 03
El Ch² critico = 7.81
Hallar el valor crítico
43
Ejemplo 03
Elaborar la tabla de fo y fe y calcular el Ch².
Ch² observado=
Frecuenc
ia
observad
a (fo)
Probabili
dad
Frecuenc
ia
esperada
(fe)
(fo-fe)2
A 6 0.25 10 16 1.6
B 12 0.25 10 4 0.4
C 14 0.25 10 16 1.6
D 8 0.25 10 4 0.4
40 40 4
𝐅𝐎𝐢 − 𝐅𝐄𝐢
𝟐
𝐅𝐄𝐢
44
La decisión:
 Como: Ch² observado es menor que Ch² critico
,entonces no se rechaza la Ho.
 No se puede afirmar con un nivel de
significancia del 5% que las ventas no están
igualmente distribuidas
 Es decir las ventas siguen una distribución
uniforme
Ejemplo 03
7.81Χ2=4
Número de caras
Número de series
(frecuencia
observada)
0 38
1
144
2 342
3 287
4 164
5 25
Total 1000 45
 Una moneda fue lanzada al aire 1000 series, de 5 veces cada
serie y se observó el número de caras de cada serie.
 El número de series en los que se presentaron 0, 1, 1, 3, 4 y 5
caras se muestra en la siguiente tabla.
 Se desea saber si los resultados se ajustan una distribución
binomial.
 Con un nivel de significancia del = 0.05.
Distribución binomial (con parámetro estimado)
Ejemplo 04
46
 H0 :Los datos se ajustan a una
distribución binomial.
 H1: Los datos no se ajustan a una
distribución binomial
Paso 1 Formulación de las hipótesis
Ejemplo 04
47
 Calculo de la probabilidad de éxito
 Para obtener los valores esperados se tiene que
utilizar la formula de la distribución binomial:

donde n =5, p y q son las probabilidades respectivas de cara
y sello en un solo lanzamiento de la moneda.
Paso 2: Obtención del estadístico de la prueba
Para calcular el valor de p, se sabe que μ = np en
una distribución binomial, por lo que μ = 5p.
𝑛 𝐶 𝑥 𝑝 𝑥
𝑞(𝑛−𝑥)
Ejemplo 04
48
 Calculo de la probabilidad de éxito
 Para la distribución de frecuencias observada,
la media del número de caras es:
Paso 2: Obtención del estadístico de la prueba
Como μ = 5p
Entonces:
Ejemplo 04
Númer
o de
caras
Número
de
series
(fo)
X*f
0 38 0
1 144 144
2 342 684
3 287 861
4 164 656
5 25 125
Total 1000 2470
𝑋 =
2470
1000
= 2.47
𝜇 = 𝑋 𝑒𝑛𝑡𝑜𝑛𝑐𝑒𝑠 𝑚 = 1
𝑝 =
2.47
5
= 0.494
Calculo de la frecuencia esperada
Con la formula binomial.
La distribución binomial ajustada viene dada por
Paso 2: Obtención del estadístico de la prueba
49
𝑛 𝐶 𝑥 𝑝 𝑥 𝑞(𝑛−𝑥)
p(x)=5 𝐶 𝑥(0.494) 𝑥
(0.506)(5−𝑥)
Ejemplo 04
Número de
caras
Número de
series (fo)
P(x caras)
0 38 0.03317054
1 144 0.16191945
2 342 0.31615893
3 287 0.30866109
4 164 0.15067053
5 25 0.02941946
Total 1000 1
Calculo de la frecuencia esperada
Con la fórmula se calcula la probabilidad de
obtener caras, según el valor de la variable
aleatoria.
La probabilidad multiplicada por 1000 nos dará el
valor esperado.
Se resumen los resultados en la tabla siguiente:
Paso 2: Obtención del estadístico de la prueba
50
Ejemplo 04
Número
de caras
(x)
Frecuencia
observada
P(x caras)
Frecuencia
esperada
0 38 0.0332 33.00
1 144 0.1619 161.92
2 342 0.3162 316.16
3 287 0.3087 308.66
4 164 0.1507 150.67
5 25 0.0294 29.42
1000 1 1000.00
51
 Calculo del Chi2
Paso 2: Obtención del estadístico de la prueba
Ejemplo 04
Número
de caras
(x)
Frecuencia
observada
P(x caras)
Frecuencia
esperada
(fo-fe)2
0 38 0.0332 33.17 23.33 0.7033
1 144 0.1619 161.92 321.13 1.9832
2 342 0.3162 316.16 667.71 2.1119
3 287 0.3087 308.66 469.16 1.5200
4 164 0.1507 150.67 177.69 1.1793
5 25 0.0294 29.42 19.54 0.6641
1000 1 1000.00 8.1618
𝐹𝑂𝑖 − 𝐹𝐸𝑖
2
𝐹𝐸𝑖
52
 Calculo del Chi2 de la tabla
 Para los grados de libertad el valor de m será
uno, ya que se tuvo que estimar la media de la
población para poder obtener el valor de p y así
poder calcular los valores esperados.
 Grados de libertad: k-1-m = 6-1-1 = 4
 Alfa=0.05
Chi2= 9.49
Paso 3: Obtención del estadístico de la tabla
Ejemplo 04
53
 Como el 8.16 no es mayor a 9.49, no se
rechaza H0
 No se puede afirmar con un nivel de
significancia del5% que los datos no se
ajustan a una distribución binomial
 Por lo tanto el ajuste de los datos a una
distribución binomial es bueno.
Paso 4:Justificación y decisión:
Ejemplo 04
9.498.16
• Se quiere saber si los pesos de los
pescados tiene un comportamiento
normal, para ello se pesan 253
pescados de una especie muy
consumida en el mercado.
• Los pesos están en gramos.
• Utilice un alfa del 5%
Distribución normal
54
Li Ls f
112 222 3
222 332 4
332 442 10
442 552 18
552 662 29
662 772 37
772 882 54
882 992 44
992 1102 26
1102 1212 16
1212 1322 7
1322 1432 3
1432 1542 2
• Los datos se
muestran en la
siguiente tabla de
frecuencia
Ejemplo 05
Ho : los pesos de los pescados tienen un
comportamiento normal.
Ha: los pesos de los pescados no tienen un
comportamiento normal
Alfa = 0.05
Ing. William león Velásquez 55
Paso 1:Se formula la Hipótesis
Ejemplo 05
18287 206151 2
varianza = -------------- - -------------- = 58869.187
253 253
desv est = 242.6297
 Obtención
de los
parámetros
56
Paso 2: Calculo el estadístico de la prueba
ii is f mc f mc f mc2
112 222 3 167 501 83667
222 332 4 277 1108 306916
332 442 10 387 3870 1497690
442 552 18 497 8946 4446162
552 662 29 607 17603 10685021
662 772 37 717 26529 19021293
772 882 54 827 44658 36932166
882 992 44 937 41228 38630636
992 1102 26 1047 27222 28501434
1102 1212 16 1157 18512 21418384
1212 1322 7 1267 8869 11237023
1322 1432 3 1377 4131 5688387
1432 1542 2 1487 2974 4422338
∑ 253 206151 182871117
206151
media = ------------- = 814.826087
253
Ejemplo 05
 Obtención de la frecuencia esperada
Ing. William león Velásquez 57
Paso 2: Calculo el estadístico de la prueba
xi xs Zi zs P(Z<=zi) P(Z<=zs)
P(Z<=zs)-
P(Z<=zi) fe fe'
112 222 -2.89670223 -2.44333652 0 0.00727608 0.00727608 1.84084834
222 332 -2.44333652 -1.98997082 0.00727608 0.02329708 0.01602099 4.05331168 5.89416003
332 442 -1.98997082 -1.53660511 0.02329708 0.06219502 0.03889794 9.84118008 9.84118008
442 552 -1.53660511 -1.0832394 0.06219502 0.13935109 0.07715607 19.5204849 19.5204849
552 662 -1.0832394 -0.6298737 0.13935109 0.26438861 0.12503752 31.6344937 31.6344937
662 772 -0.6298737 -0.17650799 0.26438861 0.42994744 0.16555882 41.8863825 41.8863825
772 882 -0.17650799 0.27685771 0.42994744 0.60905532 0.17910788 45.3142944 45.3142944
882 992 0.27685771 0.73022342 0.60905532 0.76737319 0.15831787 40.0544204 40.0544204
992 1102 0.73022342 1.18358913 0.76737319 0.88171213 0.11433894 28.9277521 28.9277521
1102 1212 1.18358913 1.63695483 0.88171213 0.94918005 0.06746792 17.0693837 17.0693837
1212 1322 1.63695483 2.09032054 0.94918005 0.98170549 0.03252545 8.22893785 12.8574483
1322 1432 2.09032054 2.54368624 0.98170549 0.99451552 0.01281003 3.2409375
1432 1542 2.54368624 2.99705195 0.99451552 1 0.00548448 1.38757298
253 253
Ejemplo 05
 Obtención del Chi2 de la muestra
Ing. William león Velásquez 58
Paso 2: Calculo el estadístico de la prueba
fo' fe' Chi2
7 5.89416003 0.20747351
10 9.84118008 0.00256308
18 19.5204849 0.11843324
29 31.6344937 0.21939838
37 41.8863825 0.5700357
54 45.3142944 1.66484952
44 40.0544204 0.38866119
26 28.9277521 0.29631519
16 17.0693837 0.06699606
12 12.8574483 0.05718224
253 253 3.59190811
Ejemplo 05
Para los grados de libertad el valor de m será uno, ya que se
tuvo que estimar la media de la población para poder obtener
el valor de p y así poder calcular los valores esperados.
Grados de libertad:
10-1-m = 10-1-1 = 8 Alfa = 0.05
59
Paso 3: Calculo del valor critico
Obtención del Chi2 de la tabla
Ch2= 15.5073
Ejemplo 05
Ing. William león Velásquez 60
 Como el 3.59 no es mayor a 15.5, no se rechaza H0
 y se concluye con un α= 0.05 que el ajuste de los datos a una
distribución normal es bueno.
 Por lo tanto el peso de los pescados tiene un comportamiento
normal
X2=1
5.5
Paso 4: Justificación y decisión:
Ejemplo 05
3.59
61
 Las tablas de contingencia (tablas de doble
entrada) son una herramienta fundamental para
el análisis bivariado.
 Están compuestas por filas (horizontales), para
la información de una variable y columnas
(verticales) para la información de otra variable.
 Estas filas y columnas delimitan celdas donde
se ubican las frecuencias de cada combinación
de las variables analizadas
TABLAS DE
CONTINGENCIA
62
Una tabla de contingencia resume
de manera simultanea dos variable
de interés de escala nominal
Ejemplo:
Una muestra de estudiantes por
genero y por ciclo académico
En este ejemplo las dos variable
son cualitativas, una de ellas es
nominal (genero) y la otra ordinal
(ciclo académico)
TABLAS DE
CONTINGENCIA
Una Tabla de contingencia con r filas y c
columnas tiene la siguiente forma:
63
 Los datos de variables cualitativa o categóricas
representan atributos o categorías y se organizan
en tablas llamadas tablas de contingencia o tablas
de clasificación cruzada.
TABLA DE CONTINGENCIA
64
 Donde:
 Oi j : es el número de sujetos que tienen las características Ai y
Bj a la vez.
 Ri : (i = 1,…,r) es la suma de la i-ésima fila de la tabla. Es decir,
es el total de sujetos que poseen la característica Ai.
 Cj :(j = 1,…,c) es la suma de la j-ésima columna de la tabla. Es
decir, es el total de sujetos que poseen la característica Bj.
 n : representa el total de observaciones tomadas.
TABLA DE CONTINGENCIA
65
 La independencia de dos variables consiste en que la
distribución de una de las variables es similar sea
cual sea el nivel que examinemos de la otra.
 Esto se traduce en una tabla de contingencia en que
las frecuencias de las filas (y las columnas) son
aproximadamente proporcionales.
 Posiblemente sea mas cómodo reconocer lo usado
en la tabla de contingencias los porcentajes por filas
(o columnas) y observando si estos son similares
 La prueba de independencia Ji-cuadrada (chi-
cuadrado) contrasta la hipótesis de que las variables
son independientes, frente a la hipótesis alternativa
de que una variable se distribuye de modo diferente
para diversos niveles de la otra
PRUEBA DE INDEPENDENCIA
66
 Consiste en comprobar si dos características
cualitativas están relacionadas entre sí
 Ejemplo:
– ¿el color de ojos está relacionado con el color
de los cabellos?.
PRUEBA DE INDEPENDENCIA
• Este tipo de contrastes se
aplica cuando se desea
comparar una variable en
dos situaciones o
poblaciones diferentes,
• Es decir, se desea estudiar
si existen diferencias en las
dos poblaciones respecto a
la variable de estudio.
67
 Se usa para analizar la frecuencia de dos variables
con categorías múltiples para determinar si las dos
variables son independientes o no.
Ejemplo:
PRUEBA DE INDEPENDENCIA
¿El tipo de refresco preferido por
un consumidor es independiente
de su grupo de la misma edad?
¿El estado nutricional esta
asociado con el desempeño
académico?
¿determinar si la región
geográfica es independiente del
tipo de inversión financiera?
Formulación de hipótesis:
Hipótesis nula (H0) : Las variables X e Y son
independientes, ( X e Y no están relacionadas)
Hipótesis alternativa (H1) : Las variables X e Y no son
independientes, (X e Y están relacionadas)
68
 La pregunta es:
 ¿Existirá o no relación entre las variables A y
B?, es decir,
 Si A y B son o no independientes.
PRUEBA DE INDEPENDENCIA
 El estadístico Ji-Cuadrado esta dado por:
donde
 Oij : es la frecuencia observada de la celda que está en
la fila i, columna j,
 es la frecuencia esperada de la
celda (i, j).
 La frecuencia esperada tiene que ser >=5
n
CR
E ji
ij
*

69
PRUEBAS DE INDEPENDENCIA
𝜒2
=
𝑂𝑖𝑗 − 𝐸𝑖𝑗
2
𝐸𝑖𝑗
𝑐
𝑗=1
𝑟
𝑖=1
 La frecuencia esperada es aquella que debe
ocurrir para que la hipótesis nula no sea
rechazada.
 La prueba estadística se distribuye como una Ji-
Cuadrado con (r-1)*(c-1) grados de libertad.
 La hipótesis Nula se rechaza si ,
 o equivalentemente si el “p-value” es menor que
α (prefijado)
2
1
2
 calc
70
PRUEBAS DE INDEPENDENCIA
71
 Otra de las aplicaciones interesantes de la prueba
chi-cuadrado de independencia consiste en la
comprobación de la homogeneidad de distintas
muestras de una variable.
 Suponga que se ha obtenido J muestras de
tamaño nj de una misma variable aleatoria (X) y se
quiere comprobar si son homogéneas, es decir, si
la variable tiene la misma distribución de
probabilidad en todas ellas, bien para utilizarlas
conjuntamente, o bien porque se trate de identificar
diferencias entre las poblaciones de procedencia
de las distintas muestras.
PRUEBAS DE HOMOGENIDAD
72
Las hipótesis de la prueba serán:
 Hipótesis nula: Las muestras son
homogéneas
 Hipótesis alternativa: Las muestras no son
homogéneas.
PRUEBAS DE HOMOGENIDAD
73
 La Prueba de Homogeneidad de varias
muestras cualitativas, consiste en comprobar
si varias muestras de un carácter cualitativo
proceden de la misma población
 Ejemplo:
 ¿Las tres muestras de alumnos
provienen de poblaciones con igual
distribución de aprobados?.
 Es necesario que las dos variables medibles
estén representadas mediante categorías con
las cuales se construye una tabla de
contingencia.
PRUEBAS DE HOMOGENIDAD
EJEMPLO 01
74
• Un analista supone que el uso de
cinturón de seguridad, en los
conductores, está relacionado con el
género. Toma una muestra de 160
personas de las cuales 75 son mujeres y
85 son hombres
• Los resultados son los siguientes:
SI NO
F 50 25
M 40 45
EJEMPLO 01
75
H0: El uso del cinturón de seguridad es
independiente del género.
H1: El uso del cinturón de seguridad no es
independiente del género.
• Formulación de las Hipótesis:
76
 Para calcular todos y cada uno de los valores
de la tabla de frecuencias esperadas se
realiza:
Calculo de las FE
𝐹𝑒 =
𝑇𝑜𝑡𝑎𝑙 𝑐𝑜𝑙𝑢𝑚𝑛𝑎 ∗ 𝑇𝑜𝑡𝑎𝑙 𝐹𝑖𝑙𝑎
𝑆𝑢𝑚𝑎 𝑇𝑜𝑡𝑎𝑙
77
50 25 75
40 45 85
90 70 160
SUMA DE FILAS
SUMA DE COLUMNAS SUMA TOTAL
Se realiza una tabla con los valores
Se calcula las sumas por filas, por columnas y la suma
total
FRECUENCIAS
DE VALORES
OBSERVADOS
EJEMPLO 1
F
M
SI NO
78
42.1875 32.8125
47.8125 37.1875
 90 75
160
 90 85
160
 70 75
160
 70 85
160
Usar la fórmula para obtener las frecuencias esperadas.
FRECUENCIAS DE VALORES ESPERADOS
EJEMPLO 1
F
M
SI NO
SI NO
F 50 25 75
M 40 45 85
90 70 160
𝐹𝑒 =
𝑇𝑜𝑡𝑎𝑙 𝑐𝑜𝑙𝑢𝑚𝑛𝑎 ∗ 𝑇𝑜𝑡𝑎𝑙 𝐹𝑖𝑙𝑎
𝑆𝑢𝑚𝑎 𝑇𝑜𝑡𝑎𝑙
CHI – CUADRADO CALCULADO
79
 Para obtener el valor de Chi-Cuadrado
Calculado se tiene la fórmula
 2
02
0 : .
: .
e
calc
e
e
f f
f
f Frecuencia del valor observado
f Frecuencia del valor esperado


 
80
42.1875 32.8125
47.8125 37.1875
50 25
40 45
TABLA DE VALORES
OBSERVADOS
TABLA DE VALORES
ESPERADOS
 
       
2
02
2 2 2 2
2
2
50 42.1875 25 32.8125 40 47.8125 45 37.1875
42.1875 32.8125 47.8125 37.1875
1.4468 1.8601 1.2766 1.6413 6.2248
e
calc
e
calc
calc
f f
f





   
   
    

SI NOSI NO
F
M
F
M
EJEMPLO
Para calcular el grado de libertad (ν) se
realiza:
GRADO DE LIBERTAD 𝜐
81
  1 1v Cantidad de filas Cantidad decolumnas  
82
50 25
40 45
TABLA DE VALORES OBSERVADOS
  
 
2 1 2 1
1 1 1
v
v
  
 
EJEMPLO 1
F
M
SI NO
NIVEL DE SIGNIFICANCIA
83
• Es el error que se puede cometer al rechazar
la hipótesis nula siendo verdadera.
• Por lo general se trabaja con un nivel de
significancia de 0.05, que indica que hay una
probabilidad del 0.95 de que la hipótesis nula
sea verdadera.
84
 Para calcular el valor de p de tablas >= Chi2 se busca
directamente con los gl respectivos:
  
 
2 1 2 1
1 1 1
v
v
  
 
EJEMPLO 1
Para obtener el Chi2 crítico
Ejemplo:
p=nivel de significancia
p=0.01
Para obtener el Chi2 crítico
85
 Para calcular el valor de p en una tabla de <=
Chi2 se realiza la siguiente operación:
1p Nivel designificancia 
86
1 0.01 0.99p   
Ejemplo:   
 
2 1 2 1
1 1 1
v
v
  
 
EJEMPLO 1
Para obtener el Chi2 crítico
COMPARACIÓN ENTRE LOS VALORES
DEL CHI2
CALCULADO Y EL CHI2
CRÍTICO
87
 Si el valor del chi-cuadrado calculado es menor
o igual que el chi-cuadrado crítico entonces no
se rechaza la hipótesis nula, caso contrario se
rechaza.
 Ejemplo:
Entonces no se rechaza la hipótesis nula, la
cual es “El uso del cinturón de seguridad es
independiente del género”.
2
6.2248 6.635
calc Valor crítico 

88
 Se quiere saber si existe una
relación entre el sexo y la edad
de las clientes que visitan a una
tienda de ropas
 Se tiene la siguiente tabla de
contingencia para realizar una
prueba de independencia para las
variables al 1% de significancia
EJEMPLO 2 :
Sexo
Hombre Mujer
edad
Menos de 25 60 50
Mas de 25 80 10
89
SOLUCIÓN
 Ho: El sexo y la edad de los clientes son
independientes.
 Ha : El sexo y la edad son dependientes.
 Gl= (m-1)(n-1) = (2-1)(2-1)= 1
Alfa: 0.01
EJEMPLO 2 :
Chi2 critico=6.6349
Ing William León Velásquez 90
EJEMPLO 2 :
Edad Hombre Mujer Total
Menos
de 25
60 50 110
Mas
de 25
80 10 90
Total 140 60 200
Hombre Mujer
fo fe fo fe
60 77 50 33 110
80 63 10 27 90
140 60 200
Solución: Las frecuencias esperadas se calculan con:
Tabla de los Ch² individuales
Ch2 observado
91
EJEMPLO 2 :
Hombre Mujer
fo fe fo fe
Menos
de 25
60 77 50 33 110
Chi2
3.753246753 8.757575758
Mas de
25
80 63 10 27 90
Chi2 4.587301587 10.7037037
140 60 200
27.8018278
92
 Ch2 critico = 6.63
 Ch2 observado = 27.80
 Como el observado es mayor que el critico,
rechazamos la Ho.
 Para un nivel del 1% esta relación no se puede
atribuir ala causalidad .
EJEMPLO 2 :
93
 Se tiene interés en estudiar la
fiabilidad de cierto componente
informático con relación al
distribuidor que lo suministra.
 Para ello, se toma una muestra
de 100 componentes de cada
uno de los 3 distribuidores que
proporcionan el producto
comprobando el número de
defectuosos en cada lote.
EJEMPLO 3 :
La siguiente tabla muestra el número de defectuosos en para
cada uno de los distribuidores.
Comp. def Comp. Correctos
Distribuidor 1 16 94
Distribuidor 2 24 76
Distribuidor 3 9 81
94
SOLUCIÓN:
 Debemos realizar un contraste de
homogeneidad para concluir si entre los
distribuidores existen diferencias de
fiabilidad referente al mismo
componente.
 Ho: existe homogeneidad entre los
distribuidores
 H1: No existe homogeneidad
EJEMPLO 3 :
El valor crítico Chi-cuadrado es (5.99)
La regla de decisión será:
Se rechazará la Ho si Chi2 es mayor que 5.99
95
EJEMPLO 3 :
Nivel de significación del 5% y GL:2
Las frecuencias esperadas
bajo homogeneidad son las
representadas en crema
96
EJEMPLO 3 :
Se calcula las frecuencias esperadas
Comp. def
Comp.
Correctos
Dist 1 16 94 110
Dist 2 24 76 100
Dist 3 9 81 90
49 251 300
Comp. Defectuosos Comp. Correctos
fo fe fo fe
Distribuidor
1
16 17.96666667 94 92.0333333 110
Distribuidor
2
24 16.33333333 76 83.6666667 100
Distribuidor
3
9 14.7 81 75.3 90
49 251 300
El estadístico del contraste será:
97
EJEMPLO 3 :
Comp.
Defec
tuosos
Comp.
Correc
tos
fo fe fo fe
Distribuidor
1 16 17.96666667 94 92.033333 110
0.215275201 0.042025836
Distribuidor
2 24 16.33333333 76 83.666667 100
3.598639456 0.70252324
Distribuidor
3 9 14.7 81 75.3 90
2.210204082 0.431474104
49 251 300
7.20014192
El valor del estadístico Chi-cuadrado (7.20) es mayor que
el valor Chi-cuadrado para el nivel de significación del 5%
y GL:2, (5.99) por lo tanto se rechaza la Ho.
Se concluye con un nivel de significancia del 5% que no
existe homogeneidad. Por lo tanto hay diferencias entre los
tres distribuidores.
98
EJEMPLO 3 :
5.99
7.20
Se toma una muestra aleatoria de 2200
familias y se les clasifica en una tabla de
doble entrada según su nivel de ingresos
(alto, medio o bajo) y el tipo de colegio a
la que envían sus hijos.
• ¿A un nivel de significancia del 1% hay razón para creer que el
ingreso y el tipo de colegio no son variables independientes? 99
Ejemplo 4:
La siguiente tabla muestra los resultados obtenidos:
TIPO DE
COLEGIO
PRIVADO PUBLICO
INGRESOS
ALTO 506 494
MEDIO 438 162
BAJO 215 385
Solución:
Las hipótesis a plantearse son las siguientes:
Ho: No hay relación entre el ingreso y el tipo de
colegio
H1: Si hay relación entre el ingreso y el tipo de
colegio.
100
Ejemplo 4:
TIPO DE COLEGIO
PRIVADO PUBLICO
INGRESOS
ALTO 506.00 494.00 1000.00
MEDIO 438.00 162.00 600.00
BAJO 215.00 385.00 600.00
1159.00 1041.00 2200.00
Este valor crítico Chi-cuadrado (9.21)
La regla de decisión será:
Se rechazará la Ho si Chi2 es mayor que 9.21
101
EJEMPLO 4 :
Nivel de significación del 1% y GL:2
Se calcula el estadístico Chi2
102
Ejemplo 4:
TIPO DE COLEGIO
PRIVADO PUBLICO
INGRESOS
ALTO
FO 506.00 494.00 1000.00
FE 526.82 473.18
CHI2 0.82 0.92
MEDI
O
FO 438.00 162.00 600.00
FE 316.09 283.91
CHI2 47.02 52.35
BAJO
FO 215.00 385.00 600.00
FE 316.09 283.91
CHI2 32.33 36.00
1159.00 1041.00 2200.00
Suma Ch2 169.43
FO
FE
CHI2
Este valor del estadístico Chi-cuadrado (169.23) es mayor
que el valor para el nivel de significación del 1% y GL:2,
(9.21) se rechaza la Ho
Se concluye con un nivel de significancia del 5%
que si hay relación entre el ingreso y el tipo de colegio
103
EJEMPLO 4 :
9.21
169
104
 El uso de bebida ordenado con
alimentos en un restaurante ¿es
independiente de la edad del
consumidor?
 Se toma una muestra aleatoria de 289
clientes del restaurante de donde
resulta el siguiente cuadro de valores
observados.
 Utilice alfa = 0.01 para determinar si
las dos variedades son independientes
Ejemplo 5
Bebida
Café/té Refresco Leche
Edad
21-34 26 95 18
35-55 41 40 20
>55 24 13 12
Solución
105
1.- Planteamiento de hipótesis
Ho :El tipo de bebida preferida es independiente de la
edad
H1 :El tipo de bebida preferida esta relacionada con la
edad
Ejemplo 5
106
Ejemplo 5
2.- Valor critico
Nivel de significación: α = 0.01
GL: (3-1)(3-1)=4
Chi2=13.27
La regla de decisión será:
Se rechazará la Ho si Chi2 es mayor que 13.27
e
eo
f
ff 

2
2
)(

107
Ejemplo 5
3.- Estadístico de Prueba
Bebida
Café/té Refresco Leche
FO FE Chi2 FO FE Chi2 FO FE Chi2
E
d
a
d
21-34 26 40.9353 5.4491 95 66.576112.1353 18 31.4887 5.7781 139
35-55 41 29.7443 4.2593 40 48.3754 1.4501 20 22.8803 0.3626 101
>55 24 20.3204 0.6663 13 33.048512.1622 12 15.6311 0.8435 69
91 148 70 309
S Chi2 30.278
Este valor del estadístico Chi-cuadrado (30.27) es mayor
que el valor para el nivel de significación del 1% y GL:4,
(9.21) se rechaza la Ho
Se concluye con un nivel de significancia del 5%
Que las dos variables, bebida preferida y edad, no son
independientes.
Es decir el tipo de bebida que un cliente ordena con alimentos
está relacionada con la edad y depende de está.
108
EJEMPLO 5 :
13.27 30.27
Presentan los datos evidencia
suficiente como para indicar que la
proporción de personas vacunadas
que contrajeron la enfermedad no es la
misma que la proporción de personas
que no se vacunaron y que contrajeron
la enfermedad
109
Ejemplo 6
Los resultados obtenidos se muestran en el siguiente cuadro.
Con el fin de probar la efectividad de una vacuna
contra cierta enfermedad, se realizo un experimento
observando a 200 personas, 110 de ellas vacunadas y
las otras 90 sin vacunar.
Contrajeron la
enfermedad
No contrajeron la
enfermedad
Vacunados 9 101
No vacunados 4 86
110
 1.- Planteamiento de hipótesis
 Ho: P1 = P2
Las proporciones son homogéneas
 H1 : P1 diferente de P2
Las proporciones no son homogéneas
donde:
 P1 = Proporción de vacunados que contraen la
enfermedad
 P2 = Proporción de no vacunados que contraen la
enfermedad
Ejemplo 6
2.- El estadístico de la prueba
111
Ejemplo 6
Contrajeron la
enfermedad
No contrajeron la
enfermedad
Vacunados
FO FE FO FE
9 7.15 101 102.85 110
Chi2 Chi2
0.478671329 0.033276616
No
vacunados
FO FE FO FE
4 5.85 86 84.15 90
Chi2 Chi2
0.585042735 0.04067142
13 187 200
Chi2= 1.1376621
Decisión
Como p-valor =0.286 es mayor que 0.05 (alfa)
podemos indicar que no existe suficiente
evidencia para aceptar que hay diferencias
entre las proporciones P1 y P2
112
Ejemplo 6
Chi2= 1.1376621GL:1
FIN
wjleonv@yahoo.com
Ing. William León Velásquez 114

Más contenido relacionado

La actualidad más candente

Prueba de hipotesis sobre la media con varianza desconocida
Prueba de hipotesis sobre la media con varianza desconocidaPrueba de hipotesis sobre la media con varianza desconocida
Prueba de hipotesis sobre la media con varianza desconocidaKarina Ruiz
 
Intervalos de confianza para la diferencia de proporciones
Intervalos de confianza para la diferencia de proporcionesIntervalos de confianza para la diferencia de proporciones
Intervalos de confianza para la diferencia de proporcionesYazmin Venegas
 
2. ejercicios de prueba de hipótesis
2. ejercicios de prueba de hipótesis2. ejercicios de prueba de hipótesis
2. ejercicios de prueba de hipótesisluiisalbertoo-laga
 
Pruebas de bondad de ajuste
Pruebas de bondad de ajustePruebas de bondad de ajuste
Pruebas de bondad de ajusteCarlos Becerra
 
Prueba de Hipótesis para una media y proporción-estadistica
Prueba de Hipótesis para una media y proporción-estadisticaPrueba de Hipótesis para una media y proporción-estadistica
Prueba de Hipótesis para una media y proporción-estadisticaYanina C.J
 
Pruebas de bondad de ajuste y pruebas no parametricas
Pruebas de bondad de ajuste y pruebas no parametricasPruebas de bondad de ajuste y pruebas no parametricas
Pruebas de bondad de ajuste y pruebas no parametricasAlez Escandón
 
Ejercicios prueba de hipótesis estadística
Ejercicios prueba de hipótesis estadísticaEjercicios prueba de hipótesis estadística
Ejercicios prueba de hipótesis estadísticaMark Ardiles Alegre
 
Prueba de hipótesis
Prueba de hipótesisPrueba de hipótesis
Prueba de hipótesisCarol Ramos
 
Chi Cuadrado
Chi CuadradoChi Cuadrado
Chi Cuadradoaramirez
 
Tarea 15 de PROBABILIDAD Y ESTADISTICA CON RESPUESTAS
Tarea 15 de PROBABILIDAD Y ESTADISTICA CON RESPUESTASTarea 15 de PROBABILIDAD Y ESTADISTICA CON RESPUESTAS
Tarea 15 de PROBABILIDAD Y ESTADISTICA CON RESPUESTASIPN
 
control estadistico de procesos-prueba de hipotesis
control estadistico de procesos-prueba de hipotesiscontrol estadistico de procesos-prueba de hipotesis
control estadistico de procesos-prueba de hipotesisSonia Ynés Huaripaucar G
 
Tamaño Optimo de la muestra
Tamaño Optimo de la muestraTamaño Optimo de la muestra
Tamaño Optimo de la muestraAnthony Maule
 
Tarea 17 de probabilidad y estadistica con respuestas
Tarea 17 de probabilidad y estadistica con respuestasTarea 17 de probabilidad y estadistica con respuestas
Tarea 17 de probabilidad y estadistica con respuestasIPN
 

La actualidad más candente (20)

Prueba de hipotesis sobre la media con varianza desconocida
Prueba de hipotesis sobre la media con varianza desconocidaPrueba de hipotesis sobre la media con varianza desconocida
Prueba de hipotesis sobre la media con varianza desconocida
 
Intervalos de confianza para la diferencia de proporciones
Intervalos de confianza para la diferencia de proporcionesIntervalos de confianza para la diferencia de proporciones
Intervalos de confianza para la diferencia de proporciones
 
Prueba de hipotesis para proporciones Est ind clase02
Prueba de hipotesis para proporciones Est ind clase02Prueba de hipotesis para proporciones Est ind clase02
Prueba de hipotesis para proporciones Est ind clase02
 
2. ejercicios de prueba de hipótesis
2. ejercicios de prueba de hipótesis2. ejercicios de prueba de hipótesis
2. ejercicios de prueba de hipótesis
 
Prueba de hipotesis
Prueba de hipotesisPrueba de hipotesis
Prueba de hipotesis
 
Pruebas de bondad de ajuste
Pruebas de bondad de ajustePruebas de bondad de ajuste
Pruebas de bondad de ajuste
 
Resueltos estimacion
Resueltos estimacionResueltos estimacion
Resueltos estimacion
 
Análisis de Varianza (ANOVA)
Análisis de Varianza (ANOVA)Análisis de Varianza (ANOVA)
Análisis de Varianza (ANOVA)
 
Distribución muestral de la media
Distribución muestral de la mediaDistribución muestral de la media
Distribución muestral de la media
 
Prueba de Hipótesis para una media y proporción-estadistica
Prueba de Hipótesis para una media y proporción-estadisticaPrueba de Hipótesis para una media y proporción-estadistica
Prueba de Hipótesis para una media y proporción-estadistica
 
Pruebas de hipotesis
Pruebas de hipotesisPruebas de hipotesis
Pruebas de hipotesis
 
Pruebas de bondad de ajuste y pruebas no parametricas
Pruebas de bondad de ajuste y pruebas no parametricasPruebas de bondad de ajuste y pruebas no parametricas
Pruebas de bondad de ajuste y pruebas no parametricas
 
Ejercicios prueba de hipótesis estadística
Ejercicios prueba de hipótesis estadísticaEjercicios prueba de hipótesis estadística
Ejercicios prueba de hipótesis estadística
 
Prueba de hipótesis
Prueba de hipótesisPrueba de hipótesis
Prueba de hipótesis
 
Chi Cuadrado
Chi CuadradoChi Cuadrado
Chi Cuadrado
 
Tarea 15 de PROBABILIDAD Y ESTADISTICA CON RESPUESTAS
Tarea 15 de PROBABILIDAD Y ESTADISTICA CON RESPUESTASTarea 15 de PROBABILIDAD Y ESTADISTICA CON RESPUESTAS
Tarea 15 de PROBABILIDAD Y ESTADISTICA CON RESPUESTAS
 
control estadistico de procesos-prueba de hipotesis
control estadistico de procesos-prueba de hipotesiscontrol estadistico de procesos-prueba de hipotesis
control estadistico de procesos-prueba de hipotesis
 
Análisis de Regresión Múltiple
Análisis de Regresión MúltipleAnálisis de Regresión Múltiple
Análisis de Regresión Múltiple
 
Tamaño Optimo de la muestra
Tamaño Optimo de la muestraTamaño Optimo de la muestra
Tamaño Optimo de la muestra
 
Tarea 17 de probabilidad y estadistica con respuestas
Tarea 17 de probabilidad y estadistica con respuestasTarea 17 de probabilidad y estadistica con respuestas
Tarea 17 de probabilidad y estadistica con respuestas
 

Destacado

Prueba t varianzas combinadas
Prueba t varianzas combinadasPrueba t varianzas combinadas
Prueba t varianzas combinadasjagi100
 
Prueba de homogeneidad de varianza
Prueba de homogeneidad de varianzaPrueba de homogeneidad de varianza
Prueba de homogeneidad de varianzaRaul Flores Mara
 
Prueba de hipotesis para dos muestra
Prueba de hipotesis para dos muestraPrueba de hipotesis para dos muestra
Prueba de hipotesis para dos muestraDomingo de la Cerda
 
La prueba o estadístico chi cuadrado se utiliza para comprobar si la diferenc...
La prueba o estadístico chi cuadrado se utiliza para comprobar si la diferenc...La prueba o estadístico chi cuadrado se utiliza para comprobar si la diferenc...
La prueba o estadístico chi cuadrado se utiliza para comprobar si la diferenc...fatima_m_p
 
Ejercicio ejemplo de chi cuadrado
Ejercicio ejemplo de chi cuadradoEjercicio ejemplo de chi cuadrado
Ejercicio ejemplo de chi cuadradomerysunny
 

Destacado (7)

Prueba t varianzas combinadas
Prueba t varianzas combinadasPrueba t varianzas combinadas
Prueba t varianzas combinadas
 
Prueba de homogeneidad de varianza
Prueba de homogeneidad de varianzaPrueba de homogeneidad de varianza
Prueba de homogeneidad de varianza
 
Test de independencia chi cuadrado
Test de independencia chi cuadradoTest de independencia chi cuadrado
Test de independencia chi cuadrado
 
Prueba de hipotesis para dos muestra
Prueba de hipotesis para dos muestraPrueba de hipotesis para dos muestra
Prueba de hipotesis para dos muestra
 
La prueba o estadístico chi cuadrado se utiliza para comprobar si la diferenc...
La prueba o estadístico chi cuadrado se utiliza para comprobar si la diferenc...La prueba o estadístico chi cuadrado se utiliza para comprobar si la diferenc...
La prueba o estadístico chi cuadrado se utiliza para comprobar si la diferenc...
 
Ejercicio ejemplo de chi cuadrado
Ejercicio ejemplo de chi cuadradoEjercicio ejemplo de chi cuadrado
Ejercicio ejemplo de chi cuadrado
 
Odds ratio
Odds ratioOdds ratio
Odds ratio
 

Similar a Pruebas de Bondad de Ajuste. Independencia y Homogenidad. Est ind clase10

Similar a Pruebas de Bondad de Ajuste. Independencia y Homogenidad. Est ind clase10 (20)

Trabajo estadistica
Trabajo estadisticaTrabajo estadistica
Trabajo estadistica
 
Trabajo hipotesis
Trabajo hipotesisTrabajo hipotesis
Trabajo hipotesis
 
el chi cuadrado
el chi cuadradoel chi cuadrado
el chi cuadrado
 
Estadistica 8
Estadistica 8Estadistica 8
Estadistica 8
 
Prueba de chi cuadrado y pruebas no paraetricas
Prueba de chi cuadrado y pruebas no paraetricasPrueba de chi cuadrado y pruebas no paraetricas
Prueba de chi cuadrado y pruebas no paraetricas
 
Trabajo 11
Trabajo 11Trabajo 11
Trabajo 11
 
Estadistica chi cuadrado
Estadistica chi cuadradoEstadistica chi cuadrado
Estadistica chi cuadrado
 
GRUPO D (1).pptx
GRUPO D (1).pptxGRUPO D (1).pptx
GRUPO D (1).pptx
 
Chi cuadrada
Chi cuadradaChi cuadrada
Chi cuadrada
 
Pruebas de Hipótesis
Pruebas de HipótesisPruebas de Hipótesis
Pruebas de Hipótesis
 
Pruebas no parametricas
Pruebas no parametricasPruebas no parametricas
Pruebas no parametricas
 
GRUPO 4 - Tstudent 1 (5).pptx
GRUPO 4 - Tstudent 1 (5).pptxGRUPO 4 - Tstudent 1 (5).pptx
GRUPO 4 - Tstudent 1 (5).pptx
 
Elementos del muestreo
Elementos del muestreoElementos del muestreo
Elementos del muestreo
 
Estaditica deber varios
Estaditica deber variosEstaditica deber varios
Estaditica deber varios
 
Mic sesión 7
Mic sesión 7Mic sesión 7
Mic sesión 7
 
Clase 2 estadistica
Clase 2 estadisticaClase 2 estadistica
Clase 2 estadistica
 
Estadistica ecologia(3)
Estadistica ecologia(3)Estadistica ecologia(3)
Estadistica ecologia(3)
 
Deber chi cuadrado (2)
Deber chi cuadrado (2)Deber chi cuadrado (2)
Deber chi cuadrado (2)
 
Prueba de normalidad
Prueba de normalidadPrueba de normalidad
Prueba de normalidad
 
Deber chi cuadrado
Deber chi cuadradoDeber chi cuadrado
Deber chi cuadrado
 

Más de Universidad Nacional Mayor de San Marcos (15)

Clase05 eyp
Clase05 eypClase05 eyp
Clase05 eyp
 
Clase04 eyp
Clase04 eypClase04 eyp
Clase04 eyp
 
Clase03 eyp
Clase03 eypClase03 eyp
Clase03 eyp
 
Clase02 eyp
Clase02 eypClase02 eyp
Clase02 eyp
 
Clase01 eyp
Clase01 eypClase01 eyp
Clase01 eyp
 
Distribuciones muestrales
Distribuciones muestralesDistribuciones muestrales
Distribuciones muestrales
 
Distribuciones continuas
Distribuciones continuasDistribuciones continuas
Distribuciones continuas
 
Distribuciones discretas
Distribuciones discretasDistribuciones discretas
Distribuciones discretas
 
Análisis de Regresión Lineal
Análisis de Regresión LinealAnálisis de Regresión Lineal
Análisis de Regresión Lineal
 
Análisis de Correlacion Lineal
Análisis de Correlacion LinealAnálisis de Correlacion Lineal
Análisis de Correlacion Lineal
 
Serie de tiempo
Serie de tiempoSerie de tiempo
Serie de tiempo
 
Metodos No Parametricos Parte II. Est ind clase12
Metodos No Parametricos Parte II. Est ind clase12Metodos No Parametricos Parte II. Est ind clase12
Metodos No Parametricos Parte II. Est ind clase12
 
Metodos No Parametricos Parte I. Est ind clase11
Metodos No Parametricos Parte I. Est ind clase11Metodos No Parametricos Parte I. Est ind clase11
Metodos No Parametricos Parte I. Est ind clase11
 
Analisis de la varianza Est ind clase04
Analisis de la varianza Est ind clase04Analisis de la varianza Est ind clase04
Analisis de la varianza Est ind clase04
 
Prueba de Hipotesis Est ind clase01
Prueba de Hipotesis Est ind clase01Prueba de Hipotesis Est ind clase01
Prueba de Hipotesis Est ind clase01
 

Último

QUIMICA ORGANICA I ENOLES Y ENAMINAS LIBR
QUIMICA ORGANICA I ENOLES Y ENAMINAS LIBRQUIMICA ORGANICA I ENOLES Y ENAMINAS LIBR
QUIMICA ORGANICA I ENOLES Y ENAMINAS LIBRyanimarca23
 
NOM-002-STPS-2010, combate contra incendio.pptx
NOM-002-STPS-2010, combate contra incendio.pptxNOM-002-STPS-2010, combate contra incendio.pptx
NOM-002-STPS-2010, combate contra incendio.pptxJairReyna1
 
S454444444444444444_CONTROL_SET_A_GEOMN1204.pdf
S454444444444444444_CONTROL_SET_A_GEOMN1204.pdfS454444444444444444_CONTROL_SET_A_GEOMN1204.pdf
S454444444444444444_CONTROL_SET_A_GEOMN1204.pdffredyflores58
 
Trabajo en altura de acuerdo a la normativa peruana
Trabajo en altura de acuerdo a la normativa peruanaTrabajo en altura de acuerdo a la normativa peruana
Trabajo en altura de acuerdo a la normativa peruana5extraviado
 
Físicas 1: Ecuaciones Dimensionales y Vectores
Físicas 1: Ecuaciones Dimensionales y VectoresFísicas 1: Ecuaciones Dimensionales y Vectores
Físicas 1: Ecuaciones Dimensionales y VectoresSegundo Silva Maguiña
 
CLASE 2 MUROS CARAVISTA EN CONCRETO Y UNIDAD DE ALBAÑILERIA
CLASE 2 MUROS CARAVISTA EN CONCRETO  Y UNIDAD DE ALBAÑILERIACLASE 2 MUROS CARAVISTA EN CONCRETO  Y UNIDAD DE ALBAÑILERIA
CLASE 2 MUROS CARAVISTA EN CONCRETO Y UNIDAD DE ALBAÑILERIAMayraOchoa35
 
Peligros de Excavaciones y Zanjas presentacion
Peligros de Excavaciones y Zanjas presentacionPeligros de Excavaciones y Zanjas presentacion
Peligros de Excavaciones y Zanjas presentacionOsdelTacusiPancorbo
 
SEMANA 6 MEDIDAS DE TENDENCIA CENTRAL.pdf
SEMANA  6 MEDIDAS DE TENDENCIA CENTRAL.pdfSEMANA  6 MEDIDAS DE TENDENCIA CENTRAL.pdf
SEMANA 6 MEDIDAS DE TENDENCIA CENTRAL.pdffredyflores58
 
Estacionamientos, Existen 3 tipos, y tienen diferentes ángulos de inclinación
Estacionamientos, Existen 3 tipos, y tienen diferentes ángulos de inclinaciónEstacionamientos, Existen 3 tipos, y tienen diferentes ángulos de inclinación
Estacionamientos, Existen 3 tipos, y tienen diferentes ángulos de inclinaciónAlexisHernandez885688
 
5.1 MATERIAL COMPLEMENTARIO Sesión 02.pptx
5.1 MATERIAL COMPLEMENTARIO Sesión 02.pptx5.1 MATERIAL COMPLEMENTARIO Sesión 02.pptx
5.1 MATERIAL COMPLEMENTARIO Sesión 02.pptxNayeliZarzosa1
 
Edificio residencial Tarsia de AEDAS Homes Granada
Edificio residencial Tarsia de AEDAS Homes GranadaEdificio residencial Tarsia de AEDAS Homes Granada
Edificio residencial Tarsia de AEDAS Homes GranadaANDECE
 
Conservatorio de danza Kina Jiménez de Almería
Conservatorio de danza Kina Jiménez de AlmeríaConservatorio de danza Kina Jiménez de Almería
Conservatorio de danza Kina Jiménez de AlmeríaANDECE
 
Biología molecular ADN recombinante.pptx
Biología molecular ADN recombinante.pptxBiología molecular ADN recombinante.pptx
Biología molecular ADN recombinante.pptxluisvalero46
 
Como de produjo la penicilina de manera masiva en plena guerra mundial Biotec...
Como de produjo la penicilina de manera masiva en plena guerra mundial Biotec...Como de produjo la penicilina de manera masiva en plena guerra mundial Biotec...
Como de produjo la penicilina de manera masiva en plena guerra mundial Biotec...ssuser646243
 
VIRUS FITOPATÓGENOS (GENERALIDADES EN PLANTAS)
VIRUS FITOPATÓGENOS (GENERALIDADES EN PLANTAS)VIRUS FITOPATÓGENOS (GENERALIDADES EN PLANTAS)
VIRUS FITOPATÓGENOS (GENERALIDADES EN PLANTAS)ssuser6958b11
 
Descubrimiento de la penicilina en la segunda guerra mundial
Descubrimiento de la penicilina en la segunda guerra mundialDescubrimiento de la penicilina en la segunda guerra mundial
Descubrimiento de la penicilina en la segunda guerra mundialyajhairatapia
 
Espontaneidad de las reacciones y procesos espontáneos
Espontaneidad de las reacciones y procesos espontáneosEspontaneidad de las reacciones y procesos espontáneos
Espontaneidad de las reacciones y procesos espontáneosOscarGonzalez231938
 
SOLIDOS DE REVOLUCION, aplicaciones de integrales definidas
SOLIDOS DE REVOLUCION, aplicaciones de integrales definidasSOLIDOS DE REVOLUCION, aplicaciones de integrales definidas
SOLIDOS DE REVOLUCION, aplicaciones de integrales definidasLeonardoMendozaDvila
 
Electricidad y electronica industrial unidad 1
Electricidad y electronica industrial unidad 1Electricidad y electronica industrial unidad 1
Electricidad y electronica industrial unidad 1victorrodrigues972054
 
Parámetros de Perforación y Voladura. para Plataformas
Parámetros de  Perforación y Voladura. para PlataformasParámetros de  Perforación y Voladura. para Plataformas
Parámetros de Perforación y Voladura. para PlataformasSegundo Silva Maguiña
 

Último (20)

QUIMICA ORGANICA I ENOLES Y ENAMINAS LIBR
QUIMICA ORGANICA I ENOLES Y ENAMINAS LIBRQUIMICA ORGANICA I ENOLES Y ENAMINAS LIBR
QUIMICA ORGANICA I ENOLES Y ENAMINAS LIBR
 
NOM-002-STPS-2010, combate contra incendio.pptx
NOM-002-STPS-2010, combate contra incendio.pptxNOM-002-STPS-2010, combate contra incendio.pptx
NOM-002-STPS-2010, combate contra incendio.pptx
 
S454444444444444444_CONTROL_SET_A_GEOMN1204.pdf
S454444444444444444_CONTROL_SET_A_GEOMN1204.pdfS454444444444444444_CONTROL_SET_A_GEOMN1204.pdf
S454444444444444444_CONTROL_SET_A_GEOMN1204.pdf
 
Trabajo en altura de acuerdo a la normativa peruana
Trabajo en altura de acuerdo a la normativa peruanaTrabajo en altura de acuerdo a la normativa peruana
Trabajo en altura de acuerdo a la normativa peruana
 
Físicas 1: Ecuaciones Dimensionales y Vectores
Físicas 1: Ecuaciones Dimensionales y VectoresFísicas 1: Ecuaciones Dimensionales y Vectores
Físicas 1: Ecuaciones Dimensionales y Vectores
 
CLASE 2 MUROS CARAVISTA EN CONCRETO Y UNIDAD DE ALBAÑILERIA
CLASE 2 MUROS CARAVISTA EN CONCRETO  Y UNIDAD DE ALBAÑILERIACLASE 2 MUROS CARAVISTA EN CONCRETO  Y UNIDAD DE ALBAÑILERIA
CLASE 2 MUROS CARAVISTA EN CONCRETO Y UNIDAD DE ALBAÑILERIA
 
Peligros de Excavaciones y Zanjas presentacion
Peligros de Excavaciones y Zanjas presentacionPeligros de Excavaciones y Zanjas presentacion
Peligros de Excavaciones y Zanjas presentacion
 
SEMANA 6 MEDIDAS DE TENDENCIA CENTRAL.pdf
SEMANA  6 MEDIDAS DE TENDENCIA CENTRAL.pdfSEMANA  6 MEDIDAS DE TENDENCIA CENTRAL.pdf
SEMANA 6 MEDIDAS DE TENDENCIA CENTRAL.pdf
 
Estacionamientos, Existen 3 tipos, y tienen diferentes ángulos de inclinación
Estacionamientos, Existen 3 tipos, y tienen diferentes ángulos de inclinaciónEstacionamientos, Existen 3 tipos, y tienen diferentes ángulos de inclinación
Estacionamientos, Existen 3 tipos, y tienen diferentes ángulos de inclinación
 
5.1 MATERIAL COMPLEMENTARIO Sesión 02.pptx
5.1 MATERIAL COMPLEMENTARIO Sesión 02.pptx5.1 MATERIAL COMPLEMENTARIO Sesión 02.pptx
5.1 MATERIAL COMPLEMENTARIO Sesión 02.pptx
 
Edificio residencial Tarsia de AEDAS Homes Granada
Edificio residencial Tarsia de AEDAS Homes GranadaEdificio residencial Tarsia de AEDAS Homes Granada
Edificio residencial Tarsia de AEDAS Homes Granada
 
Conservatorio de danza Kina Jiménez de Almería
Conservatorio de danza Kina Jiménez de AlmeríaConservatorio de danza Kina Jiménez de Almería
Conservatorio de danza Kina Jiménez de Almería
 
Biología molecular ADN recombinante.pptx
Biología molecular ADN recombinante.pptxBiología molecular ADN recombinante.pptx
Biología molecular ADN recombinante.pptx
 
Como de produjo la penicilina de manera masiva en plena guerra mundial Biotec...
Como de produjo la penicilina de manera masiva en plena guerra mundial Biotec...Como de produjo la penicilina de manera masiva en plena guerra mundial Biotec...
Como de produjo la penicilina de manera masiva en plena guerra mundial Biotec...
 
VIRUS FITOPATÓGENOS (GENERALIDADES EN PLANTAS)
VIRUS FITOPATÓGENOS (GENERALIDADES EN PLANTAS)VIRUS FITOPATÓGENOS (GENERALIDADES EN PLANTAS)
VIRUS FITOPATÓGENOS (GENERALIDADES EN PLANTAS)
 
Descubrimiento de la penicilina en la segunda guerra mundial
Descubrimiento de la penicilina en la segunda guerra mundialDescubrimiento de la penicilina en la segunda guerra mundial
Descubrimiento de la penicilina en la segunda guerra mundial
 
Espontaneidad de las reacciones y procesos espontáneos
Espontaneidad de las reacciones y procesos espontáneosEspontaneidad de las reacciones y procesos espontáneos
Espontaneidad de las reacciones y procesos espontáneos
 
SOLIDOS DE REVOLUCION, aplicaciones de integrales definidas
SOLIDOS DE REVOLUCION, aplicaciones de integrales definidasSOLIDOS DE REVOLUCION, aplicaciones de integrales definidas
SOLIDOS DE REVOLUCION, aplicaciones de integrales definidas
 
Electricidad y electronica industrial unidad 1
Electricidad y electronica industrial unidad 1Electricidad y electronica industrial unidad 1
Electricidad y electronica industrial unidad 1
 
Parámetros de Perforación y Voladura. para Plataformas
Parámetros de  Perforación y Voladura. para PlataformasParámetros de  Perforación y Voladura. para Plataformas
Parámetros de Perforación y Voladura. para Plataformas
 

Pruebas de Bondad de Ajuste. Independencia y Homogenidad. Est ind clase10

  • 3. INTRODUCCIÓN PRUEBA DE BODAD DE AJUSTE PRUEBA DE INDEPENDENCIA PRUEBA DE HOMOGENIDAD
  • 4. 4  Comprender las dos técnicas estadísticas empleadas para analizar datos categóricos*, con lo cual se podrá:  Comprender la prueba Chi cuadrado de bondad de ajuste y cómo usarla.  Analizar datos usando la prueba de Chi cuadrado de independencia (aleatoriedad) y para homogeneidad (misma distribución) INTRODUCCIÓN. OBJETIVO • Los datos categóricos son variables que mide en una escala un número limitado de grupos. • Ejemplo: una encuesta donde se recoge información sobre variables como sexo, estado civil y afiliación política. • También a la variable categórica se le llama cualitativa
  • 6. 6 INTRODUCCIÓN Muchos estudios tienen resultados expresados en datos que son categóricos o cualitativos en vez de cuantitativos y que admiten más de dos resultados posibles: • Nuevos Obreros clasificados según evolución (mejora, sin cambios, empeora) • Trabajadores clasificados según su desempeño (regulares, buenos, excelentes) • Votantes clasificados según intención de voto Estos datos tienen las características de un experimento multinomial
  • 7. 7 EL EXPERIMENTO MULTINOMIAL  El experimento consiste de n ensayos idénticos  El resultado de cada repetición es una de k categorías  La probabilidad de que el resultado sea una determinada categoría i se denomina pi y permanece constante de ensayo en ensayo • La suma de las k probabilidades: p1+ p2+.. + pk = 1 • Los ensayos son independientes
  • 8. 8 PRUEBAS DE BONDAD DE AJUSTE  Se mide una única variable categórica, por lo tanto cada elemento de la población se asigna a una y sólo una de varias categorías k • Para cada categoría se posee un valor preconcebido o supuesto o histórico de pi y usamos información muestral para determinar si dichos valores son correctos
  • 9.  Dado que se cuenta solo con una muestra y se desea inferir sobre toda la población, la pregunta se resuelve mediante una prueba de hipótesis  Las hipótesis puestas a prueba son: 9 Formulación de la hipótesis Ho: Las proporciones de la muestra no difieren de la población H1: Las proporciones la muestra sí difieren al menos en una de la población.
  • 10. 10  Varían según la aplicación  Se comienza con el número de categorías o celdas k  Se le resta un GL por cada restricción sobre las probabilidades (siempre se perderá un GL ya que p1 + p2 + … +pk = 1)  Se pierde un GL por cada parámetro que se debe estimar para calcular FEi  Es decir Cálculo del valor crítico Grados de libertad GL= k-m-1 Siendo k = cantidad de categorías m= números de parámetros estimados
  • 11. 11 Cálculo del valor crítico GL= 4-0-1=3 Siendo k, cantidad de categorías  = nivel de significación χ2 = 7.8147 χ2 = 7.8147 m es la cantidad estimada de parámetro Gl=k-m-1 ( = 0.05) Ejemplo si k=0, m=0 y =0.05
  • 12.  Se calculan las frecuencias esperadas con las proporciones:  ¿Las diferencias son lo suficientemente grandes como para afirmar que las preferencias en la población han cambiado? ( = 0.05) Clase 1 Clase 2 …….. Clase i TOTAL FOi O1 O2 ……. Oi n Pi P(O1) P(O2) ……. P(Oi) 1 FEi E1 E2 Ei 12 ESTADÍSTICO Chi-cuadrado Frecuencias esperadas FEi=n*P(xi)
  • 13. 13 ESTADÍSTICO Chi-cuadrado  Para cuantificar las diferencias en un único número se utiliza el estadístico  Cuando Ho es verdadera, las diferencias entre FOi y FEi serán pequeñas,  Cuando Ho es falsa, las diferencias serán grandes  Para determinar si la discrepancia entre FO y FE es lo suficientemente grande, se utiliza la distribución chi-cuadrado con cierta cantidad de grados de libertad  Sin embargo este estadístico tiene una distribución que se aproxima a la chi-cuadrado      i ii muestral FE FEFO 2 2 
  • 14. 14 Conclusión  Si se rechaza la Ho  Se puede afirmar con un nivel de significancia α Que las proporciones de la muestra difieren al menos en una de la población. χ2 muestral > χ2 Se rechaza la Ho χ2 muestral χ2
  • 15. 15 EJEMPLO 01: grupos sanguíneos  La distribución en la ciudad de Lima de los grupos sanguíneos es de un 35%, 10%, 6% y un 49% para los grupos A, B, AB y O respectivamente.  Se desea saber si la distribución de los grupos sanguíneos en el distrito de San Martin de Porres difiere de toda la ciudad de Lima
  • 16.  Para determinar si la distribución de los grupos sanguíneos en el distrito de San Martin difiere de toda la ciudad de Lima se extrajo una muestra aleatoria de 200 pobladores del distrito de San Martin de Porres y se les determinó el grupo sanguíneo.  Los resultados fueron: 16 Grupo A Grupo B Grupo AB Grupo 0 61 15 6 118 frecuencias observadas FO En este caso, la población es multinomial: cada poblador se clasifica según su grupo sanguíneo en 4 categorías (k= 4) EJEMPLO 01: grupos sanguíneos
  • 17.  Dado que se cuenta solo con una muestra y se desea inferir sobre toda la población, la pregunta se resuelve mediante una prueba de hipótesis  Las hipótesis puestas a prueba son: Ho: Las proporciones de cada grupo sanguíneo en el distrito de San Martín de Porres no difieren de toda la ciudad capital; H1: Las proporciones de cada grupo sanguíneo sí difieren al menos en una. 17 EJEMPLO 01: Formulación de la hipótesis ¿Cómo se resuelve? Se contrastaran las frecuencias observadas FOi en la muestra con las frecuencias que se esperaría observar FEi Se probaran si las proporciones cambian o no cambian (es decir si Ho es verdadera)
  • 18. 18 EJEMPLO 01: Cálculo del valor crítico GL= 4-0-1=3 Siendo k = 4, cantidad de categorías ( = 0.05) χ2 = 7.8147 χ2 = 7.8147 m=0 porque no se esta estimando ningún parámetro
  • 19. p1=0.35, p2= 0.10, p3=0.06, p4=0.49  Se calculan las frecuencias esperadas con las proporciones:  ¿Las diferencias son lo suficientemente grandes como para afirmar que las preferencias en la población han cambiado? ( = 0.05) Grupo A Grupo B Grupo AB Grupo 0 TOTAL FOi 61 15 6 118 200 Pi 0.35 0.10 0.06 0.49 1 FEi 19 Frecuencias esperadas FEi=200*P(xi)
  • 20. EJEMPLO 01: Cálculo del estadístico de la muestra      i ii muestral FE FEFO 2 2  20 Grupo A Grupo B Grupo AB Grupo 0 TOTAL FOi 61 15 6 118 200 Pi 0.35 0.1 0.06 0.49 1 FEi 70 20 12 98 200
  • 21. fo fe (fo-fe)2 (fo-fe)2/fe 61 70 81 1.15714286 15 20 25 1.25 6 12 36 3 118 98 400 4.08163265  200 200 9.48877551 EJEMPLO 01: Cálculo del estadístico de la muestra      i ii muestral FE FEFO 2 2  21 χ2 muestral = 9.488 χ2 muestral = 9.488
  • 22. 22 EJEMPLO 01: Conclusión  Se rechaza la Ho  Se puede afirmar con un nivel de significancia del 5% • Que Las proporciones de cada grupo sanguíneo sí difieren al menos en una.  Por lo tanto la distribución de los grupos sanguíneos en el distrito de San Martin de Porres difiere de toda la ciudad de Lima Conclusión: χ2 muestral > χ2 9.488 > 7.8147 χ2 muestral = 9.488 χ2 = 7.8147
  • 23. 23 Para que la aproximación χ2 de la distribución del estadístico del contraste sea válida:  El tamaño muestral debe ser suficientemente grande (p.e. n>30).  La muestra debe ser una muestra aleatoria simple.  En caso de que haya que estimar parámetros, los parámetros deben estimarse por el procedimiento de máxima verosimilitud.  Las frecuencias esperadas ei=n *pi deberían ser todas >5. Condiciones necesarias para la validez de la prueba
  • 24. 24 Si la frecuencia esperada de alguna clase es < 5, se agrupa con otra clase (o con varias si no fuese suficiente con una) para obtener una frecuencia esperada >=5.  Cuando la variable es nominal (no hay una ordenación única) se suele agrupar con la(s) que tiene(n) menor valor de ei.  Si la variable es ordinal (o continua) debe juntarse la que causó el problema con una de las adyacentes. Condiciones necesarias para la validez de la prueba
  • 25. 25 OTRAS APLICACIONES  Las pruebas de bondad de ajuste pueden utilizarse para determinar si una variable se ajusta a una determinada distribución de probabilidades, como por ejemplo: – Normal – Binomial – Poisson  En estos casos se deben estimar algunos parámetros a partir de la muestra: – Normal: el promedio  y el desvío estándar  – Binomial: la probabilidad de éxito p – Poisson: la cantidad esperada de eventos en un continuo 
  • 26. 26  Los procedimientos de prueba de hipótesis que se han estudiado hasta ahora, están diseñados para problemas en los que se conoce la población o la distribución de probabilidad, y la hipótesis involucra los parámetros de la distribución.  Existe otra clase de hipótesis: no se sabe cuál es la distribución de la población, y se desea probar la hipótesis de que una distribución en particular será un modelo satisfactorio de la población.  Por ejemplo:  Probar la hipótesis de que la población tiene comportamiento normal, Poisson, exponencial etc. PRUEBA DE BONDAD DE AJUSTE
  • 27. 27 – Se utiliza para la comparación de la distribución de una muestra con alguna distribución teórica que se supone describe a la población de la cual se extrajo. – Ejemplo: • Ho : La variable tiene comportamiento normal • H1 : La variable no tiene comportamiento normal LA PRUEBA DE BONDAD DE AJUSTE
  • 28. 28  Es considerada como una prueba no paramétrica que mide la discrepancia entre una distribución observada y otra teórica, indicando en qué medida las diferencias existentes entre ambas, de haberlas, se deben al azar. LA PRUEBA DE BONDAD DE AJUSTE
  • 29. LA PRUEBA DE BONDAD DE AJUSTE  La fórmula que da el estadístico es la siguiente: 29 Oi = Valor observado en la i-ésimo dato. Ei = Valor esperado en la i-ésimo dato. K = Categorías o celdas. 𝜒2 = 𝑓𝑂 𝑖 − 𝑓𝐸 𝑖 2 𝑓𝐸 𝑖 𝐾 𝐼=1
  • 30. 30  Los grados de libertad vienen dados por : gl= K-m-1.  m = Parámetros estimados sobre la base de los datos de la muestra  Criterio de decisión es el siguiente:  Se rechaza H0 cuando 𝜒2 ≥ 𝜒2 𝑡; 𝑘 − 1 . En caso contrario no se rechaza.  Donde t representa el valor proporcionado por las tablas, según el nivel de significación elegido. LA PRUEBA DE BONDAD DE AJUSTE Cuanto más se aproxima a cero el valor de chi-cuadrado, más ajustadas están ambas distribuciones.
  • 31. EL PROCEDIMIENTO GENERAL PARA REALIZAR LA PRUEBA ES: 31  1.- Formulación de la hipótesis Ho: Los datos de la muestra se ajustan a la distribución teórica escogida H1: Los datos de la muestra no se ajustan a la distribución teórica escogida  2.- Fijar el nivel de significación
  • 32.    k i Ei EiOi 1 2 2 )(  EL PROCEDIMIENTO GENERAL PARA REALIZAR LA PRUEBA ES: 32  3.- La estadística de prueba donde: Ei = npi Oi = observado p = número de parámetros estimados a partir de la muestra K = número de categorías o clases pi = probabilidad
  • 33. 4.- Determinar la región crítica: rechazar Ho si: caso contrario no se rechaza 5.- Decisión y conclusión Nota: si alguna frecuencia esperada es menor que 5, se debe eliminar esa clase, Y sumar la frecuencia observada a una clase contigua. 2 1,1 2  mkcalc  EL PROCEDIMIENTO GENERAL PARA REALIZAR LA PRUEBA ES: 33
  • 34. 34 Un ingeniero de control de calidad toma una muestra de 10 neumáticos que salen de una línea de ensamblaje y desea verificar sobre la base de los datos la cantidad de llantas con defectos observados en 200 días, y comprobar si es cierto que el 5% de todos los neumáticos tienen defecto. Distribución binomial • Se tiene conocimiento que la muestra proviene de una población binomial con n = 10 y p = 0.05 Ejemplo 02
  • 35. Número de unidades con defecto Número de muestras 0 138 1 53 2 ó más 9 35 DATOS REPORTE DE UNIDADES DEFECTUOSAS Ejemplo 02
  • 36. 36 FOi = Valor observado en la i-ésimo dato.  FEi = Valor esperado en la i-ésimo dato.  k = Categorías o celdas.  EL ESTADÍSTICO DE PRUEBA 𝜒 2 = 𝐹𝑂 𝑖 − 𝐹𝐸 𝑖 2 𝐹𝐸 𝑖 𝑘 𝑖=1
  • 37. 37 DEFINIR EL NIVEL DE SIGNIFICANCIA Y LA ZONA DE RECHAZO Ejemplo 02 Gl:k-m-1= 3-0-1=2 5.99 Nivel de significancia=0.05 Regla de decisión: Se rechazara la Ho si χ2 calculado >=5.99: m=0 porque no se necesita estimar ningún parámetro
  • 38. 38 Para poder calcular las frecuencias esperadas tenemos que calcular las probabilidades utilizaremos la formula de la binomial CALCULO DEL ESTADÍSTICO DE PRUEBA y la probabilidad de 2 ó más = 1.0 -0.599 -0 .315 = 0.086 Ejemplo 02 𝑓 𝑥 = 𝑃 𝑥 = 𝑛 𝑥 𝑝 𝑥(1 − 𝑝) 𝑛−𝑥 Donde n=10 p=0.05 𝑃 0 = 10 0 0.050(1 − 0.05)10−0=0.599 𝑃 1 = 10 1 0.051(1 − 0.05)10−1= 0.315
  • 39. 39 CÁLCULO DE LAS FRECUENCIAS ESPERADAS: Ejemplo 02 Número de unidades con defecto Número de muestras Observad as Probabilid ad Valor Esperado 0 138 0.599 119.8 1 53 0.315 63.0 2 ó más 9 0.086 17.2 Total 200 200.0
  • 40. 40 APLICANDO LA FORMULA Como 8.26 es mayor que 5.99, se rechaza la hipótesis nula con un nivel de significancia de 0.05. Conclusión Se concluye que el porcentaje verdadero de neumáticos con defecto no es el 5%. Ejemplo 02
  • 41. 41  Un distribuidor de equipos electrónicos a subdividido su región en cuatro zonas.  A un posible comprador de los equipos se le asegura que las ventas de los equipos están distribuidos de manera aproximadamente igual en las cuatro zonas. Distribución uniforme • Se extrae una muestra de los archivos de la empresa de 40 ventas realizadas el año pasado y encuentra que el numero de ventas por zona son: 6, 12, 14, 8 respectivamente. • Realice la prueba de bondad de ajuste. Ejemplo 03
  • 42. Ho : las ventas están igualmente distribuidas. Ha: las ventas no están igualmente distribuidas gl = k-m-1 = 4-0-1 = 3 Alfa = 0.05 42 Formulación de las Hipótesis Ejemplo 03 El Ch² critico = 7.81 Hallar el valor crítico
  • 43. 43 Ejemplo 03 Elaborar la tabla de fo y fe y calcular el Ch². Ch² observado= Frecuenc ia observad a (fo) Probabili dad Frecuenc ia esperada (fe) (fo-fe)2 A 6 0.25 10 16 1.6 B 12 0.25 10 4 0.4 C 14 0.25 10 16 1.6 D 8 0.25 10 4 0.4 40 40 4 𝐅𝐎𝐢 − 𝐅𝐄𝐢 𝟐 𝐅𝐄𝐢
  • 44. 44 La decisión:  Como: Ch² observado es menor que Ch² critico ,entonces no se rechaza la Ho.  No se puede afirmar con un nivel de significancia del 5% que las ventas no están igualmente distribuidas  Es decir las ventas siguen una distribución uniforme Ejemplo 03 7.81Χ2=4
  • 45. Número de caras Número de series (frecuencia observada) 0 38 1 144 2 342 3 287 4 164 5 25 Total 1000 45  Una moneda fue lanzada al aire 1000 series, de 5 veces cada serie y se observó el número de caras de cada serie.  El número de series en los que se presentaron 0, 1, 1, 3, 4 y 5 caras se muestra en la siguiente tabla.  Se desea saber si los resultados se ajustan una distribución binomial.  Con un nivel de significancia del = 0.05. Distribución binomial (con parámetro estimado) Ejemplo 04
  • 46. 46  H0 :Los datos se ajustan a una distribución binomial.  H1: Los datos no se ajustan a una distribución binomial Paso 1 Formulación de las hipótesis Ejemplo 04
  • 47. 47  Calculo de la probabilidad de éxito  Para obtener los valores esperados se tiene que utilizar la formula de la distribución binomial:  donde n =5, p y q son las probabilidades respectivas de cara y sello en un solo lanzamiento de la moneda. Paso 2: Obtención del estadístico de la prueba Para calcular el valor de p, se sabe que μ = np en una distribución binomial, por lo que μ = 5p. 𝑛 𝐶 𝑥 𝑝 𝑥 𝑞(𝑛−𝑥) Ejemplo 04
  • 48. 48  Calculo de la probabilidad de éxito  Para la distribución de frecuencias observada, la media del número de caras es: Paso 2: Obtención del estadístico de la prueba Como μ = 5p Entonces: Ejemplo 04 Númer o de caras Número de series (fo) X*f 0 38 0 1 144 144 2 342 684 3 287 861 4 164 656 5 25 125 Total 1000 2470 𝑋 = 2470 1000 = 2.47 𝜇 = 𝑋 𝑒𝑛𝑡𝑜𝑛𝑐𝑒𝑠 𝑚 = 1 𝑝 = 2.47 5 = 0.494
  • 49. Calculo de la frecuencia esperada Con la formula binomial. La distribución binomial ajustada viene dada por Paso 2: Obtención del estadístico de la prueba 49 𝑛 𝐶 𝑥 𝑝 𝑥 𝑞(𝑛−𝑥) p(x)=5 𝐶 𝑥(0.494) 𝑥 (0.506)(5−𝑥) Ejemplo 04 Número de caras Número de series (fo) P(x caras) 0 38 0.03317054 1 144 0.16191945 2 342 0.31615893 3 287 0.30866109 4 164 0.15067053 5 25 0.02941946 Total 1000 1
  • 50. Calculo de la frecuencia esperada Con la fórmula se calcula la probabilidad de obtener caras, según el valor de la variable aleatoria. La probabilidad multiplicada por 1000 nos dará el valor esperado. Se resumen los resultados en la tabla siguiente: Paso 2: Obtención del estadístico de la prueba 50 Ejemplo 04 Número de caras (x) Frecuencia observada P(x caras) Frecuencia esperada 0 38 0.0332 33.00 1 144 0.1619 161.92 2 342 0.3162 316.16 3 287 0.3087 308.66 4 164 0.1507 150.67 5 25 0.0294 29.42 1000 1 1000.00
  • 51. 51  Calculo del Chi2 Paso 2: Obtención del estadístico de la prueba Ejemplo 04 Número de caras (x) Frecuencia observada P(x caras) Frecuencia esperada (fo-fe)2 0 38 0.0332 33.17 23.33 0.7033 1 144 0.1619 161.92 321.13 1.9832 2 342 0.3162 316.16 667.71 2.1119 3 287 0.3087 308.66 469.16 1.5200 4 164 0.1507 150.67 177.69 1.1793 5 25 0.0294 29.42 19.54 0.6641 1000 1 1000.00 8.1618 𝐹𝑂𝑖 − 𝐹𝐸𝑖 2 𝐹𝐸𝑖
  • 52. 52  Calculo del Chi2 de la tabla  Para los grados de libertad el valor de m será uno, ya que se tuvo que estimar la media de la población para poder obtener el valor de p y así poder calcular los valores esperados.  Grados de libertad: k-1-m = 6-1-1 = 4  Alfa=0.05 Chi2= 9.49 Paso 3: Obtención del estadístico de la tabla Ejemplo 04
  • 53. 53  Como el 8.16 no es mayor a 9.49, no se rechaza H0  No se puede afirmar con un nivel de significancia del5% que los datos no se ajustan a una distribución binomial  Por lo tanto el ajuste de los datos a una distribución binomial es bueno. Paso 4:Justificación y decisión: Ejemplo 04 9.498.16
  • 54. • Se quiere saber si los pesos de los pescados tiene un comportamiento normal, para ello se pesan 253 pescados de una especie muy consumida en el mercado. • Los pesos están en gramos. • Utilice un alfa del 5% Distribución normal 54 Li Ls f 112 222 3 222 332 4 332 442 10 442 552 18 552 662 29 662 772 37 772 882 54 882 992 44 992 1102 26 1102 1212 16 1212 1322 7 1322 1432 3 1432 1542 2 • Los datos se muestran en la siguiente tabla de frecuencia Ejemplo 05
  • 55. Ho : los pesos de los pescados tienen un comportamiento normal. Ha: los pesos de los pescados no tienen un comportamiento normal Alfa = 0.05 Ing. William león Velásquez 55 Paso 1:Se formula la Hipótesis Ejemplo 05
  • 56. 18287 206151 2 varianza = -------------- - -------------- = 58869.187 253 253 desv est = 242.6297  Obtención de los parámetros 56 Paso 2: Calculo el estadístico de la prueba ii is f mc f mc f mc2 112 222 3 167 501 83667 222 332 4 277 1108 306916 332 442 10 387 3870 1497690 442 552 18 497 8946 4446162 552 662 29 607 17603 10685021 662 772 37 717 26529 19021293 772 882 54 827 44658 36932166 882 992 44 937 41228 38630636 992 1102 26 1047 27222 28501434 1102 1212 16 1157 18512 21418384 1212 1322 7 1267 8869 11237023 1322 1432 3 1377 4131 5688387 1432 1542 2 1487 2974 4422338 ∑ 253 206151 182871117 206151 media = ------------- = 814.826087 253 Ejemplo 05
  • 57.  Obtención de la frecuencia esperada Ing. William león Velásquez 57 Paso 2: Calculo el estadístico de la prueba xi xs Zi zs P(Z<=zi) P(Z<=zs) P(Z<=zs)- P(Z<=zi) fe fe' 112 222 -2.89670223 -2.44333652 0 0.00727608 0.00727608 1.84084834 222 332 -2.44333652 -1.98997082 0.00727608 0.02329708 0.01602099 4.05331168 5.89416003 332 442 -1.98997082 -1.53660511 0.02329708 0.06219502 0.03889794 9.84118008 9.84118008 442 552 -1.53660511 -1.0832394 0.06219502 0.13935109 0.07715607 19.5204849 19.5204849 552 662 -1.0832394 -0.6298737 0.13935109 0.26438861 0.12503752 31.6344937 31.6344937 662 772 -0.6298737 -0.17650799 0.26438861 0.42994744 0.16555882 41.8863825 41.8863825 772 882 -0.17650799 0.27685771 0.42994744 0.60905532 0.17910788 45.3142944 45.3142944 882 992 0.27685771 0.73022342 0.60905532 0.76737319 0.15831787 40.0544204 40.0544204 992 1102 0.73022342 1.18358913 0.76737319 0.88171213 0.11433894 28.9277521 28.9277521 1102 1212 1.18358913 1.63695483 0.88171213 0.94918005 0.06746792 17.0693837 17.0693837 1212 1322 1.63695483 2.09032054 0.94918005 0.98170549 0.03252545 8.22893785 12.8574483 1322 1432 2.09032054 2.54368624 0.98170549 0.99451552 0.01281003 3.2409375 1432 1542 2.54368624 2.99705195 0.99451552 1 0.00548448 1.38757298 253 253 Ejemplo 05
  • 58.  Obtención del Chi2 de la muestra Ing. William león Velásquez 58 Paso 2: Calculo el estadístico de la prueba fo' fe' Chi2 7 5.89416003 0.20747351 10 9.84118008 0.00256308 18 19.5204849 0.11843324 29 31.6344937 0.21939838 37 41.8863825 0.5700357 54 45.3142944 1.66484952 44 40.0544204 0.38866119 26 28.9277521 0.29631519 16 17.0693837 0.06699606 12 12.8574483 0.05718224 253 253 3.59190811 Ejemplo 05
  • 59. Para los grados de libertad el valor de m será uno, ya que se tuvo que estimar la media de la población para poder obtener el valor de p y así poder calcular los valores esperados. Grados de libertad: 10-1-m = 10-1-1 = 8 Alfa = 0.05 59 Paso 3: Calculo del valor critico Obtención del Chi2 de la tabla Ch2= 15.5073 Ejemplo 05
  • 60. Ing. William león Velásquez 60  Como el 3.59 no es mayor a 15.5, no se rechaza H0  y se concluye con un α= 0.05 que el ajuste de los datos a una distribución normal es bueno.  Por lo tanto el peso de los pescados tiene un comportamiento normal X2=1 5.5 Paso 4: Justificación y decisión: Ejemplo 05 3.59
  • 61. 61  Las tablas de contingencia (tablas de doble entrada) son una herramienta fundamental para el análisis bivariado.  Están compuestas por filas (horizontales), para la información de una variable y columnas (verticales) para la información de otra variable.  Estas filas y columnas delimitan celdas donde se ubican las frecuencias de cada combinación de las variables analizadas TABLAS DE CONTINGENCIA
  • 62. 62 Una tabla de contingencia resume de manera simultanea dos variable de interés de escala nominal Ejemplo: Una muestra de estudiantes por genero y por ciclo académico En este ejemplo las dos variable son cualitativas, una de ellas es nominal (genero) y la otra ordinal (ciclo académico) TABLAS DE CONTINGENCIA
  • 63. Una Tabla de contingencia con r filas y c columnas tiene la siguiente forma: 63  Los datos de variables cualitativa o categóricas representan atributos o categorías y se organizan en tablas llamadas tablas de contingencia o tablas de clasificación cruzada. TABLA DE CONTINGENCIA
  • 64. 64  Donde:  Oi j : es el número de sujetos que tienen las características Ai y Bj a la vez.  Ri : (i = 1,…,r) es la suma de la i-ésima fila de la tabla. Es decir, es el total de sujetos que poseen la característica Ai.  Cj :(j = 1,…,c) es la suma de la j-ésima columna de la tabla. Es decir, es el total de sujetos que poseen la característica Bj.  n : representa el total de observaciones tomadas. TABLA DE CONTINGENCIA
  • 65. 65  La independencia de dos variables consiste en que la distribución de una de las variables es similar sea cual sea el nivel que examinemos de la otra.  Esto se traduce en una tabla de contingencia en que las frecuencias de las filas (y las columnas) son aproximadamente proporcionales.  Posiblemente sea mas cómodo reconocer lo usado en la tabla de contingencias los porcentajes por filas (o columnas) y observando si estos son similares  La prueba de independencia Ji-cuadrada (chi- cuadrado) contrasta la hipótesis de que las variables son independientes, frente a la hipótesis alternativa de que una variable se distribuye de modo diferente para diversos niveles de la otra PRUEBA DE INDEPENDENCIA
  • 66. 66  Consiste en comprobar si dos características cualitativas están relacionadas entre sí  Ejemplo: – ¿el color de ojos está relacionado con el color de los cabellos?. PRUEBA DE INDEPENDENCIA • Este tipo de contrastes se aplica cuando se desea comparar una variable en dos situaciones o poblaciones diferentes, • Es decir, se desea estudiar si existen diferencias en las dos poblaciones respecto a la variable de estudio.
  • 67. 67  Se usa para analizar la frecuencia de dos variables con categorías múltiples para determinar si las dos variables son independientes o no. Ejemplo: PRUEBA DE INDEPENDENCIA ¿El tipo de refresco preferido por un consumidor es independiente de su grupo de la misma edad? ¿El estado nutricional esta asociado con el desempeño académico? ¿determinar si la región geográfica es independiente del tipo de inversión financiera?
  • 68. Formulación de hipótesis: Hipótesis nula (H0) : Las variables X e Y son independientes, ( X e Y no están relacionadas) Hipótesis alternativa (H1) : Las variables X e Y no son independientes, (X e Y están relacionadas) 68  La pregunta es:  ¿Existirá o no relación entre las variables A y B?, es decir,  Si A y B son o no independientes. PRUEBA DE INDEPENDENCIA
  • 69.  El estadístico Ji-Cuadrado esta dado por: donde  Oij : es la frecuencia observada de la celda que está en la fila i, columna j,  es la frecuencia esperada de la celda (i, j).  La frecuencia esperada tiene que ser >=5 n CR E ji ij *  69 PRUEBAS DE INDEPENDENCIA 𝜒2 = 𝑂𝑖𝑗 − 𝐸𝑖𝑗 2 𝐸𝑖𝑗 𝑐 𝑗=1 𝑟 𝑖=1
  • 70.  La frecuencia esperada es aquella que debe ocurrir para que la hipótesis nula no sea rechazada.  La prueba estadística se distribuye como una Ji- Cuadrado con (r-1)*(c-1) grados de libertad.  La hipótesis Nula se rechaza si ,  o equivalentemente si el “p-value” es menor que α (prefijado) 2 1 2  calc 70 PRUEBAS DE INDEPENDENCIA
  • 71. 71  Otra de las aplicaciones interesantes de la prueba chi-cuadrado de independencia consiste en la comprobación de la homogeneidad de distintas muestras de una variable.  Suponga que se ha obtenido J muestras de tamaño nj de una misma variable aleatoria (X) y se quiere comprobar si son homogéneas, es decir, si la variable tiene la misma distribución de probabilidad en todas ellas, bien para utilizarlas conjuntamente, o bien porque se trate de identificar diferencias entre las poblaciones de procedencia de las distintas muestras. PRUEBAS DE HOMOGENIDAD
  • 72. 72 Las hipótesis de la prueba serán:  Hipótesis nula: Las muestras son homogéneas  Hipótesis alternativa: Las muestras no son homogéneas. PRUEBAS DE HOMOGENIDAD
  • 73. 73  La Prueba de Homogeneidad de varias muestras cualitativas, consiste en comprobar si varias muestras de un carácter cualitativo proceden de la misma población  Ejemplo:  ¿Las tres muestras de alumnos provienen de poblaciones con igual distribución de aprobados?.  Es necesario que las dos variables medibles estén representadas mediante categorías con las cuales se construye una tabla de contingencia. PRUEBAS DE HOMOGENIDAD
  • 74. EJEMPLO 01 74 • Un analista supone que el uso de cinturón de seguridad, en los conductores, está relacionado con el género. Toma una muestra de 160 personas de las cuales 75 son mujeres y 85 son hombres • Los resultados son los siguientes: SI NO F 50 25 M 40 45
  • 75. EJEMPLO 01 75 H0: El uso del cinturón de seguridad es independiente del género. H1: El uso del cinturón de seguridad no es independiente del género. • Formulación de las Hipótesis:
  • 76. 76  Para calcular todos y cada uno de los valores de la tabla de frecuencias esperadas se realiza: Calculo de las FE 𝐹𝑒 = 𝑇𝑜𝑡𝑎𝑙 𝑐𝑜𝑙𝑢𝑚𝑛𝑎 ∗ 𝑇𝑜𝑡𝑎𝑙 𝐹𝑖𝑙𝑎 𝑆𝑢𝑚𝑎 𝑇𝑜𝑡𝑎𝑙
  • 77. 77 50 25 75 40 45 85 90 70 160 SUMA DE FILAS SUMA DE COLUMNAS SUMA TOTAL Se realiza una tabla con los valores Se calcula las sumas por filas, por columnas y la suma total FRECUENCIAS DE VALORES OBSERVADOS EJEMPLO 1 F M SI NO
  • 78. 78 42.1875 32.8125 47.8125 37.1875  90 75 160  90 85 160  70 75 160  70 85 160 Usar la fórmula para obtener las frecuencias esperadas. FRECUENCIAS DE VALORES ESPERADOS EJEMPLO 1 F M SI NO SI NO F 50 25 75 M 40 45 85 90 70 160 𝐹𝑒 = 𝑇𝑜𝑡𝑎𝑙 𝑐𝑜𝑙𝑢𝑚𝑛𝑎 ∗ 𝑇𝑜𝑡𝑎𝑙 𝐹𝑖𝑙𝑎 𝑆𝑢𝑚𝑎 𝑇𝑜𝑡𝑎𝑙
  • 79. CHI – CUADRADO CALCULADO 79  Para obtener el valor de Chi-Cuadrado Calculado se tiene la fórmula  2 02 0 : . : . e calc e e f f f f Frecuencia del valor observado f Frecuencia del valor esperado    
  • 80. 80 42.1875 32.8125 47.8125 37.1875 50 25 40 45 TABLA DE VALORES OBSERVADOS TABLA DE VALORES ESPERADOS           2 02 2 2 2 2 2 2 50 42.1875 25 32.8125 40 47.8125 45 37.1875 42.1875 32.8125 47.8125 37.1875 1.4468 1.8601 1.2766 1.6413 6.2248 e calc e calc calc f f f                    SI NOSI NO F M F M EJEMPLO
  • 81. Para calcular el grado de libertad (ν) se realiza: GRADO DE LIBERTAD 𝜐 81   1 1v Cantidad de filas Cantidad decolumnas  
  • 82. 82 50 25 40 45 TABLA DE VALORES OBSERVADOS      2 1 2 1 1 1 1 v v      EJEMPLO 1 F M SI NO
  • 83. NIVEL DE SIGNIFICANCIA 83 • Es el error que se puede cometer al rechazar la hipótesis nula siendo verdadera. • Por lo general se trabaja con un nivel de significancia de 0.05, que indica que hay una probabilidad del 0.95 de que la hipótesis nula sea verdadera.
  • 84. 84  Para calcular el valor de p de tablas >= Chi2 se busca directamente con los gl respectivos:      2 1 2 1 1 1 1 v v      EJEMPLO 1 Para obtener el Chi2 crítico Ejemplo: p=nivel de significancia p=0.01
  • 85. Para obtener el Chi2 crítico 85  Para calcular el valor de p en una tabla de <= Chi2 se realiza la siguiente operación: 1p Nivel designificancia 
  • 86. 86 1 0.01 0.99p    Ejemplo:      2 1 2 1 1 1 1 v v      EJEMPLO 1 Para obtener el Chi2 crítico
  • 87. COMPARACIÓN ENTRE LOS VALORES DEL CHI2 CALCULADO Y EL CHI2 CRÍTICO 87  Si el valor del chi-cuadrado calculado es menor o igual que el chi-cuadrado crítico entonces no se rechaza la hipótesis nula, caso contrario se rechaza.  Ejemplo: Entonces no se rechaza la hipótesis nula, la cual es “El uso del cinturón de seguridad es independiente del género”. 2 6.2248 6.635 calc Valor crítico  
  • 88. 88  Se quiere saber si existe una relación entre el sexo y la edad de las clientes que visitan a una tienda de ropas  Se tiene la siguiente tabla de contingencia para realizar una prueba de independencia para las variables al 1% de significancia EJEMPLO 2 : Sexo Hombre Mujer edad Menos de 25 60 50 Mas de 25 80 10
  • 89. 89 SOLUCIÓN  Ho: El sexo y la edad de los clientes son independientes.  Ha : El sexo y la edad son dependientes.  Gl= (m-1)(n-1) = (2-1)(2-1)= 1 Alfa: 0.01 EJEMPLO 2 : Chi2 critico=6.6349
  • 90. Ing William León Velásquez 90 EJEMPLO 2 : Edad Hombre Mujer Total Menos de 25 60 50 110 Mas de 25 80 10 90 Total 140 60 200 Hombre Mujer fo fe fo fe 60 77 50 33 110 80 63 10 27 90 140 60 200 Solución: Las frecuencias esperadas se calculan con:
  • 91. Tabla de los Ch² individuales Ch2 observado 91 EJEMPLO 2 : Hombre Mujer fo fe fo fe Menos de 25 60 77 50 33 110 Chi2 3.753246753 8.757575758 Mas de 25 80 63 10 27 90 Chi2 4.587301587 10.7037037 140 60 200 27.8018278
  • 92. 92  Ch2 critico = 6.63  Ch2 observado = 27.80  Como el observado es mayor que el critico, rechazamos la Ho.  Para un nivel del 1% esta relación no se puede atribuir ala causalidad . EJEMPLO 2 :
  • 93. 93  Se tiene interés en estudiar la fiabilidad de cierto componente informático con relación al distribuidor que lo suministra.  Para ello, se toma una muestra de 100 componentes de cada uno de los 3 distribuidores que proporcionan el producto comprobando el número de defectuosos en cada lote. EJEMPLO 3 : La siguiente tabla muestra el número de defectuosos en para cada uno de los distribuidores. Comp. def Comp. Correctos Distribuidor 1 16 94 Distribuidor 2 24 76 Distribuidor 3 9 81
  • 94. 94 SOLUCIÓN:  Debemos realizar un contraste de homogeneidad para concluir si entre los distribuidores existen diferencias de fiabilidad referente al mismo componente.  Ho: existe homogeneidad entre los distribuidores  H1: No existe homogeneidad EJEMPLO 3 :
  • 95. El valor crítico Chi-cuadrado es (5.99) La regla de decisión será: Se rechazará la Ho si Chi2 es mayor que 5.99 95 EJEMPLO 3 : Nivel de significación del 5% y GL:2
  • 96. Las frecuencias esperadas bajo homogeneidad son las representadas en crema 96 EJEMPLO 3 : Se calcula las frecuencias esperadas Comp. def Comp. Correctos Dist 1 16 94 110 Dist 2 24 76 100 Dist 3 9 81 90 49 251 300 Comp. Defectuosos Comp. Correctos fo fe fo fe Distribuidor 1 16 17.96666667 94 92.0333333 110 Distribuidor 2 24 16.33333333 76 83.6666667 100 Distribuidor 3 9 14.7 81 75.3 90 49 251 300
  • 97. El estadístico del contraste será: 97 EJEMPLO 3 : Comp. Defec tuosos Comp. Correc tos fo fe fo fe Distribuidor 1 16 17.96666667 94 92.033333 110 0.215275201 0.042025836 Distribuidor 2 24 16.33333333 76 83.666667 100 3.598639456 0.70252324 Distribuidor 3 9 14.7 81 75.3 90 2.210204082 0.431474104 49 251 300 7.20014192
  • 98. El valor del estadístico Chi-cuadrado (7.20) es mayor que el valor Chi-cuadrado para el nivel de significación del 5% y GL:2, (5.99) por lo tanto se rechaza la Ho. Se concluye con un nivel de significancia del 5% que no existe homogeneidad. Por lo tanto hay diferencias entre los tres distribuidores. 98 EJEMPLO 3 : 5.99 7.20
  • 99. Se toma una muestra aleatoria de 2200 familias y se les clasifica en una tabla de doble entrada según su nivel de ingresos (alto, medio o bajo) y el tipo de colegio a la que envían sus hijos. • ¿A un nivel de significancia del 1% hay razón para creer que el ingreso y el tipo de colegio no son variables independientes? 99 Ejemplo 4: La siguiente tabla muestra los resultados obtenidos: TIPO DE COLEGIO PRIVADO PUBLICO INGRESOS ALTO 506 494 MEDIO 438 162 BAJO 215 385
  • 100. Solución: Las hipótesis a plantearse son las siguientes: Ho: No hay relación entre el ingreso y el tipo de colegio H1: Si hay relación entre el ingreso y el tipo de colegio. 100 Ejemplo 4: TIPO DE COLEGIO PRIVADO PUBLICO INGRESOS ALTO 506.00 494.00 1000.00 MEDIO 438.00 162.00 600.00 BAJO 215.00 385.00 600.00 1159.00 1041.00 2200.00
  • 101. Este valor crítico Chi-cuadrado (9.21) La regla de decisión será: Se rechazará la Ho si Chi2 es mayor que 9.21 101 EJEMPLO 4 : Nivel de significación del 1% y GL:2
  • 102. Se calcula el estadístico Chi2 102 Ejemplo 4: TIPO DE COLEGIO PRIVADO PUBLICO INGRESOS ALTO FO 506.00 494.00 1000.00 FE 526.82 473.18 CHI2 0.82 0.92 MEDI O FO 438.00 162.00 600.00 FE 316.09 283.91 CHI2 47.02 52.35 BAJO FO 215.00 385.00 600.00 FE 316.09 283.91 CHI2 32.33 36.00 1159.00 1041.00 2200.00 Suma Ch2 169.43 FO FE CHI2
  • 103. Este valor del estadístico Chi-cuadrado (169.23) es mayor que el valor para el nivel de significación del 1% y GL:2, (9.21) se rechaza la Ho Se concluye con un nivel de significancia del 5% que si hay relación entre el ingreso y el tipo de colegio 103 EJEMPLO 4 : 9.21 169
  • 104. 104  El uso de bebida ordenado con alimentos en un restaurante ¿es independiente de la edad del consumidor?  Se toma una muestra aleatoria de 289 clientes del restaurante de donde resulta el siguiente cuadro de valores observados.  Utilice alfa = 0.01 para determinar si las dos variedades son independientes Ejemplo 5 Bebida Café/té Refresco Leche Edad 21-34 26 95 18 35-55 41 40 20 >55 24 13 12
  • 105. Solución 105 1.- Planteamiento de hipótesis Ho :El tipo de bebida preferida es independiente de la edad H1 :El tipo de bebida preferida esta relacionada con la edad Ejemplo 5
  • 106. 106 Ejemplo 5 2.- Valor critico Nivel de significación: α = 0.01 GL: (3-1)(3-1)=4 Chi2=13.27 La regla de decisión será: Se rechazará la Ho si Chi2 es mayor que 13.27
  • 107. e eo f ff   2 2 )(  107 Ejemplo 5 3.- Estadístico de Prueba Bebida Café/té Refresco Leche FO FE Chi2 FO FE Chi2 FO FE Chi2 E d a d 21-34 26 40.9353 5.4491 95 66.576112.1353 18 31.4887 5.7781 139 35-55 41 29.7443 4.2593 40 48.3754 1.4501 20 22.8803 0.3626 101 >55 24 20.3204 0.6663 13 33.048512.1622 12 15.6311 0.8435 69 91 148 70 309 S Chi2 30.278
  • 108. Este valor del estadístico Chi-cuadrado (30.27) es mayor que el valor para el nivel de significación del 1% y GL:4, (9.21) se rechaza la Ho Se concluye con un nivel de significancia del 5% Que las dos variables, bebida preferida y edad, no son independientes. Es decir el tipo de bebida que un cliente ordena con alimentos está relacionada con la edad y depende de está. 108 EJEMPLO 5 : 13.27 30.27
  • 109. Presentan los datos evidencia suficiente como para indicar que la proporción de personas vacunadas que contrajeron la enfermedad no es la misma que la proporción de personas que no se vacunaron y que contrajeron la enfermedad 109 Ejemplo 6 Los resultados obtenidos se muestran en el siguiente cuadro. Con el fin de probar la efectividad de una vacuna contra cierta enfermedad, se realizo un experimento observando a 200 personas, 110 de ellas vacunadas y las otras 90 sin vacunar. Contrajeron la enfermedad No contrajeron la enfermedad Vacunados 9 101 No vacunados 4 86
  • 110. 110  1.- Planteamiento de hipótesis  Ho: P1 = P2 Las proporciones son homogéneas  H1 : P1 diferente de P2 Las proporciones no son homogéneas donde:  P1 = Proporción de vacunados que contraen la enfermedad  P2 = Proporción de no vacunados que contraen la enfermedad Ejemplo 6
  • 111. 2.- El estadístico de la prueba 111 Ejemplo 6 Contrajeron la enfermedad No contrajeron la enfermedad Vacunados FO FE FO FE 9 7.15 101 102.85 110 Chi2 Chi2 0.478671329 0.033276616 No vacunados FO FE FO FE 4 5.85 86 84.15 90 Chi2 Chi2 0.585042735 0.04067142 13 187 200 Chi2= 1.1376621
  • 112. Decisión Como p-valor =0.286 es mayor que 0.05 (alfa) podemos indicar que no existe suficiente evidencia para aceptar que hay diferencias entre las proporciones P1 y P2 112 Ejemplo 6 Chi2= 1.1376621GL:1
  • 114. Ing. William León Velásquez 114