2. PRUEBAS DE LA BONDAD DEL
AJUSTE Y ANÁLISIS DE LA
VARIANZA.
2.1 ANÁLISIS JI-CUADRADA.
La prueba estadística de X2 para una muestra se emplea frecuentemente como
prueba de bondad de ajuste, sin embargo, en un plan experimental, en el que
se cuenta con un grupo muestral, con diversas subclases y las mediciones
están en escala nominal, resulta muy útil este procedimiento.
La eficacia de la prueba está de acuerdo con el tamaño de la muestra, pues
con un grado de libertad, si hay dos subclases, algunos autores consideran que
la prueba es insensible, no obstante la información que aporta más de dos
categorías es satisfactoria en función de la fórmula:
Donde:
X2 = valor estadístico de ji cuadrada.
F0 = frecuencia observada.
Fe = frecuencia esperada.
La ji cuadrada se utiliza cuando:
3. Cuando los datos puntualizan a las escalas nominal u ordinal.
Se utiliza solo la frecuencia.
Poblaciones pequeñas.
Cuando se desconocen los parámetros media, moda, etc.
Cuando los datos son independientes.
Cuando se quiere contrastar o comparar hipótesis.
Investigaciones de tipo social - muestras pequeñas no representativas
>5.
Cuando se requiere de establecer el nivel de confianza o significatividad
en las diferencias.
Cuando la muestra es seleccionada no probabilísticamente.
X2 permite establecer diferencias entre f y se utiliza solo en escala
nominal.
Población > a 5 y < a 20.
Pasos:
1. Arreglar las categorías y las frecuencias observadas.
2. Calcular los valores teóricos esperados para el modelo experimental o tipo
de distribución muestral: normal, binomial y de Poisson.
3. Calcular las diferencias de las frecuencias observadas en el experimento con
respecto a las frecuencias esperadas.
4. Elevar al cuadrado las diferencias y dividirlas entre los valores esperados de
cada categoría.
5. Efectuar la sumatoria de los valores calculados.
6. Calcular los grados de libertad (gl) en función de número de categorías
[K]: gl = K - 1.
7. Comparar el estadístico X2 con los valores de la distribución de ji cuadrada
en la tabla.
8. Decidir si se acepta o rechaza la hipótesis X2c ³ X2t se rechaza Ho.
4. 2.1.1 PRUEBA DE INDEPENDENCIA.
El procedimiento de la JI-CUADRADA puede utilizarse para probar la hipótesis
de independencia de dos variables de clasificación.
Las frecuencias observadas que se presentan en una tabla de contingencia
(Tabla de contingencia con r renglones y c columnas se le conoce como una
tabla de r x c), a los totales de los renglones y columnas se les denomina
Frecuencias Marginales.
La decisión de aceptar o rechazar la hipótesis nula H 0 de independencia, es
debido a las frecuencias observadas de cada caso y poder encontrar las
frecuencias esperadas.
2.1.2 PRUEBA DE LA BONDAD DEL AJUSTE.
PRUEBA CHI-CUADRADA PARA LA BONDAD DEL AJUSTE
A lo largo de este curso nos ocupamos de la prueba de hipótesis estadísticas acerca de
parámetros de una población como y P. Ahora se considera una prueba
para determinar si una población tiene una distribución teórica específica. La
prueba se basa en qué tan buen ajuste se tiene entre la frecuencia de
ocurrencia de las observaciones en una muestra observada y las frecuencias
esperadas que se obtienen a partir de la distribución hipotética.
La formula que se utilizará para calcular el valor de chi-cuadrada es igual a la
de la sección anterior, con el mismo concepto de grados de libertad.
Ejemplo:
1. Una moneda fue lanzada al aire 1000 series, de 5 veces cada serie y se
observó el número de caras de cada serie. El número de series en los
que se presentaron 0, 1, 1, 3, 4 y 5 caras se muestra en la siguiente
tabla.
Número de series
Número de
caras (frecuencia
observada)
0 38
1 144
2 342
3 287
4 164
5. 5 25
Total 1000
2. Ajustar una distribución binomial a los datos con un = 0.05.
3. Solución:
4. H0; Los datos se ajustan a una distribución binomial.
5. H1; Los datos no se ajustan a una distribución binomial.
6. Para obtener los valores esperados se tiene que utilizar la formula de la
distribución binomial: , donde n en este ejercicio vale 5, p
y q son las probabilidades respectivas de cara y sello en un solo
lanzamiento de la moneda. Para calcular el valor de p, se sabe que
=np en una distribución binomial, por lo que = 5p.
7. Para la distribución de frecuencias observada, la media del número de
caras es:
8.
9. Por lo tanto . Así pues, la distribución binomial
ajustada viene dada por p(x) = .
10. Al seguir esta fórmula se calcula la probabilidad de obtener caras, según
el valor de la variable aleatoria. La probabilidad multiplicada por 1000
nos dará el valor esperado. Se resumen los resultados en la tabla
siguiente:
Número de caras Frecuencia Frecuencia
P(x caras)
(x) esperada observada
0 0.0332 33.2 38
1 0.1619 161.9 144
2 0.3162 316.2 342
3 0.3087 308.7 287
4 0.1507 150.7 164
5 0.0294 29.4 25
11. Para los grados de libertad el valor de m será uno, ya que se tuvo que
estimar la media de la población para poder obtener el valor de p y así
poder calcular los valores esperados.
12. Grados de libertad: k-1-m = 6-1-1 = 4
6. 13.
14. Regla de decisión:
15. Si X2R 9.49 no se rechaza Ho.
16. Si X2R >9.49 se rechaza Ho.
2.1.3 TABLAS DE CONTIGENCIA.
La tabla de información tendrá I Filas (1≥2) y J Columnas, por lo tanto IJ
Celdas.
1. Hay I poblaciones de interés, cada una correspondiente a una fila
diferente de la tabla, y cada población está dividida en las mismas J
categorías. Se toma una muestra de la i – ésima población (i= 1,…,I) y
las cantidades se introducen en las celdas de la i – ésima fila de la tabla.
2. Hay una sola población de interés, con cada individuo de la población
clasificado con respecto a dos factores diferentes. I Categorías
asociadas con el primer factor, y J categorías asociadas con el segundo
factor; se toma una solo muestra, y el numero de individuos
pertenecientes tanto a la categoría i del factor 1 como la categoría j del
factor 2 se introduce en la celda de la fila i, columna (i= 1,…,I; j= 1,…, J).
Nota:
nij el numero de individuos de la(s) muestra(s) que caen en la (i, j) – ésima
celda (fila i, columna j) de la tabla, es decir, la (i, j) cantidad de celda
nijTabla de contingencia mutua.
1 2 … j … J
1 n 11 n12 … n1j … n1J
2 n21 ⁞
⁞ ⁞
i ni1 … nij …
⁞ ⁞
I nI1 … nIJ
7. Tipo 1, se desea investigar si las proporciones de las diferentes categorías son
iguales para todas las poblaciones. La hipótesis nula expresa que las
poblaciones son homogéneas con respecto a estas categorías.
Tipo 2, se investiga si las categorías de los factores se presentan
independientemente una de otra en la población.
2.2 ANÁLISIS DE LA VARIANZA.
La inferencia de dos muestras representa el problema de una solo factor,
ejemplo para dos muestras de ratones, los que de una muestra recibió un
tratamiento de suero contra la leucemia y la otra no recibió. En este caso
decimos que hay un factor, llamado tratamiento, y el factor se halla en dos
niveles. Si en el proceso de muestreo se utilizaran varios tratamientos en
competencia, serian necesarias mas muestras de ratón.
En el problema de k>2 muestras, se supone que hay k muestras provenientes
de k poblaciones. Un procedimiento muy común que se utiliza cuando se
prueban medidas poblacionales se denomina Análisis de varianza o ANOVA.
El análisis de varianza no es una técnica, pues se usa el enfoque para hacer
una partición de la suma total de cuadrados en una parte que se deba a la
regresión, y otra que se deba al error.
IDENTIDAD DE LA SUMA DE CUADRADOS:
K K__K __ __ K n __
Σ Σ(yij – y…)2 = n Σ (yi – y…)2 + Σ Σ (yij – yi)2.
i=1 j=1 i=j i=1 j=1
2.2.1 INFERENCIA SOBRE UNA VARIANZA DE POBLACIÓN (ANOVA).
A veces, los analistas investigan la variabilidad de una población, en lugar de
su media o proporción.
Esto es debido a que la uniformidad de la producción muchas veces es crítica
en la práctica industrial.
La variabilidad excesiva es el peor enemigo de la alta calidad y la prueba de
hipótesis está diseñada para determinar si la varianza de una población es
igual a algún valor predeterminado.
8. La desviación estándar de una colección de datos se usa para describir la
variabilidad en esa colección y se puede definir como la diferencia estándar
entre los elementos de una colección de datos y su media.
La varianza de un conjunto de datos se define como el cuadrado de su
desviación estándar; y la varianza muestral se utiliza para probar la hipótesis
nula que se refiere a la variabilidad y es útil para entender el procedimiento de
análisis de la varianza.
La hipótesis nula; para la prueba de la varianza, es que la varianza poblacional
es igual a algún valor previamente especificado. Como el aspecto de interés,
por lo general es si la varianza de la población es mayor que este valor,
siempre se aplica una de una cola.
Para probar la hipótesis nula, se toma una muestra aleatoria de elementos de
una población que se investiga; y a partir de esos datos, se calcula el
estadístico de prueba.
Para este cálculo se utiliza la siguiente ecuación:
(n - 1 ) s2
2 = ----------------
2
Donde:
* n-1 = Grados de libertad para la prueba de tamaño n.
* s2 = Varianza muestral.
* 2 = Varianza poblacional si y solo si suponemos que la hipótesis nula es
cierta.
2.2.2 INFERENCIA SOBRE LA VARIANZA DE DOS POBLACIONES
(ANOVA).
En ocasiones es importante comparar dos poblaciones para ver si una es más
variable que la otra en alguna medida específica. La hipótesis nula es que las
dos poblaciones tienen la misma varianza, y la hipótesis alternativa es que una
tiene mayor varianza que la otra. Se obtienen muestras aleatorias de cada
población y se calculan las varianzas muéstrales. Estos valores se usan
entonces en la ecuación siguiente para calcular el estadístico de la muestra:
Cociente F
S12
9. F = ---------
S22
Donde:
S12 = Varianza de la muestra 1
S22 = Varianza de la muestra 2
Nota:
Por convivencia, para encontrar los valores de F, por lo general se pone en el
numerador la varianza muestral más grande.
El estadístico de prueba dado por la ecuación anteriormente nombrado,es el
cociente F. Si la hipótesis nula de varianzas poblacionales iguales escierta, la
razón de las varianzas muéstrales se obtiene de la distribución Fteórica. Al
consultar la tabla F se puede evaluar la probabilidad de este suceso.
Si parece probable que el cociente F pueda haberse obtenido de la distribución
muestral supuesta, la hipótesis nula no se rechaza. Si es poco probable que el
cociente F se haya obtenido de la distribución supuesta, la hipótesis nula se
rechaza.
La distribución F específica que se aplica a una prueba en particular queda
determinada por dos parámetros: los grados de libertad para el numerador y los
grados de libertad para el denominador. Cada uno de estos valores es n-1. Si
se conocen estos valores y se elige un valor alfa, al valor crítico de F se puede
encontrar en la tabla F.
Probabilidad y Estadística
Para ingeniería y ciencias. (Jay L. Devore)
Séptima Edición, Editorial Pearson
Probabilidad y Estadística (Myers Myers Ye)
Para ingeniería y ciencias
Octava Edición, Editorial Pearson