1. PRUEBAS DE BONDAD DE AJUSTE
Cuando se desea conocer a qué distribución de probabilidad se
apega un conjunto de datos, se emplea la prueba de bondad de
ajuste.
Para ajustar un modelo de probabilidad a un conjunto de datos
empíricos, el procedimiento general es primero seleccionar una
clase general de distribuciones de probabilidad y entonces
encontrar los valores de los parámetros de la distribución que mejor
ajusta los valores observados.
En la estimación de los parámetros de entre un número potencial de
distribuciones de probabilidad, eventualmente necesitaremos decidir
entre cuáles, si es que los hay, los mejores parámetros que
representan nuestros datos.
Hay dos procedimientos básicos que se pueden aplicar:
El primero es un método gráfico conocido como diagrama de
probabilidad.
El segundo involucra un cálculo formal mediante el empleo de
pruebas de hipótesis estadísticas.
DIAGRAMA DE PROBABILIDAD.
Esta es una técnica gráfica que nos permite determinar si una
muestra de datos proviene de una distribución de probabilidad
específica.
Se trata de graficar los cuartiles (o porcentajes) de puntos bajo un
valor dado de la muestra contra los cuartiles de una distribución de
probabilidad propuesta.
Se grafica también una línea recta conocida como línea de
referencia. Si la muestra proviene de la distribución propuesta, los
datos graficados se ubicarán sobre dicha línea de referencia.
Desviaciones de la línea de referencia nos indica desviaciones de la
distribución especificada.
2. EJEMPLO
Suponga que los siguientes datos se han tomado de un proceso de
mantenimiento industrial:
PROCESO MANTENIMIENTO
CORRECTIVO
FAS
E QUIEN DONDE COMO TP TC
MIN. MIN.
1
2
OFICINA
ORDEN DE
TRABAJO 1,98 2,00
3
59,4 60,00
4
LUGAR DE
MANTENIMIENT
O
INSPECCIO
N FISICA 19,8 20,00
5
LUGAR DE
MANTENIMIENT
O SERVICIO 14,85 15,00
6
7 LUGAR DE
MANTENIMIENT
O
VIA
TELEFONIC
A 1,98 2,00
8
LUGAR DE
MANTENIMIENT
O CON TEST 9,9 10,00
9
0
10
LUGAR DE
MANTENIMIENT
O
VIA
TELEFONIC
A 4,95 5,00
112,8
6
114,0
0
DATOS
71 66 61 65 54 93
60 86 70 70 73 73
55 63 56 62 76 54
82 79 76 68 53 58
85 80 56 61 61 64
65 62 90 69 76 79
77 54 64 74 65 65
61 56 63 80 56 71
79 84
MANTENIMIENTO CORRECTIVO
SECRETARIATECNICO
RECIBIR ORDEN DE
MANTENIMIENTO
CORRECTIVO
TRASLADARSE AL
SITIO DEL
MANTENIMIENTO
INSPECCIONAR EL
SISTEMA
ARREGLAR EL
SISTEMA
REVISAR EL BUEN
FUNCIONAMIENTO
DEL SISTEMA
NECESITO
REPUESTOS
COMUNICARSE
A LAS OFICINAS
PARA SOLICITAR
REPUESTOS
NO
SI
ESTA
CORRECTO
SI
NO
COMPRAS
INICIO
VENTAS
DETALLA Y
COMUNICA A
OFICINAS
DETALLES DE
SERVICIO
3. Como se puede observar se trata de una distribución continua.
SOLUCION:
Primero probaremos una distribución Exponencial:
90807060
9
8
7
6
5
4
3
2
1
0
DATOS
Frequency
Histogram of DATOS
31527022518013590450
9
8
7
6
5
4
3
2
1
0
DATOS
Frequency
Mean 68,42
N 50
Histogram of DATOS
Exponential
1000100101
99,9
99
90
80
70
60
50
40
30
20
10
5
3
2
1
DATOS
Percent
Mean 68,42
N 50
AD 16,685
P-Value <0,003
Probability Plot of DATOS
Exponential - 95% CI
4. MEDIA Y VARIANZA.
Para el caso de datos discretos y agrupados en una
distribución de frecuencia, la media y la varianza se calculan
de la siguiente manera:
Media:
1
k
j j
j
f X
X
n
Varianza:
2 2
12
1
k
j j
j
f X nX
S
n
TEST ESTADISTICO FORMAL
Hay numerosas pruebas de bondad de ajuste tales como:
Prueba Chi-cuadrado: para distribuciones discretas y
continuas.
Prueba de Kolmogorov-Smirnov: para distribuciones
continuas unicamente.
Prueba de Anderson-Darling.
Etc.
PRUEBA CHI-CUADRADO
Un procedimiento para verificar si un conjunto de datos de tamaño n
se ajusta una distribución de probabilidad específica es el test chi-
5. cuadrado. Esta prueba formaliza la idea intuitiva de comparar el
histograma de los datos con la forma de la densidad de una
distribución candidata. El test es válido tamaños de muestra
grandes tanto para distribuciones discretas como continuas. El
procedimiento inicia con el arreglo de las n observaciones en un
conjunto m clases o intervalos.
El estadístico de prueba se calcula con la siguiente ecuación:
2
2
1
m
i i
i i
FE FO
x
FE
Donde:
m = es el número de intervalos en los que se ha dividido los
datos.
FOi = es la frecuencia observada en el i-ésimo intervalo.
FEi = es la frecuencia esperada en el i-ésimo intervalo, la
misma que se calcula con:
ii pnFE
Donde pi es la probabilidad teórica asociada con el i-
ésimo intervalo.
El estadístio x2
sigue aproximadamente unas distribución chi-
cuadrado con (m-k-1) grados de libertad, donde k representa el
número de parámetros de la distribución teórica considerada.
Esta prueba básicamente compara los resultados observados con
los resultados esperados. Plantea la siguiente prueba de hipótesis a
partir de los datos:
Ho: los datos siguen la distribución teórica especificada.
H1: los datos no siguen la distribución teórica especificada.
en la cual compara el estadístico de prueba x2
con un valor crítico:
x2
critico (
2
, 1m k
x )
en donde:
α = el nivel de confianza especificado.
m = es el número de intervalos en los que se ha dividido los
datos.
6. k = es el número de parámetros estimados en la distribución
propuesta.
CONCLUSION: Si el estadístico de prueba es menor que el
valor crítico, no se puede rechazar la hipótesis nula de que los
datos se comportan según la distribución de probabilidad
propuesta.
EJEMPLO:
Se ha tomado información respecto al número de clientes que ingresan a una institución
financiera en la hora de almuerzo. La idea es modelar los datos de tal forma que se
pueda tomar decisiones respecto al número de cajas que deben atender en esa hora.
CLIENTES
2
4
5
0
6
3
7
5
7
8
6
1
7
5
6
2
7
6
8
5
9
6
3
8
4
3
7
4
9
5
2
6
9