2. Los conceptos básicos de Probabilidad y de Distribuciones Muestrales
sirven como introducción al método de Inferencia Estadística; esta se
compone en dos áreas:
• Estimación
• Pruebas de Hipótesis
La estimación busca evaluar los valores de los parámetros de la población
(por ejemplo la media y la desviación estándar) basados en una muestra.
Las pruebas de Hipótesis constituyen un proceso relacionado con aceptar
o rechazar alguna afirmación acerca de los parámetros de la población.
3. Ejemplo.
Supóngase que un fabricante de lápices compra a un proveedor borradores para
pegarlos a los lápices. El fabricante tiene que decidir si cada lote de borradores del
proveedor es de calidad aceptable. Para ello necesita que contenga el 15% o menos
de borradores defectuosos.
Desde luego, no puede inspeccionar cada borrador del lote. Debido a esto, obtiene
una muestra de 20 borradores de cada lote y la inspecciona. Decide que si hay 3 o
menos borradores defectuosos en la muestra, aceptará un lote; si hay más de 3
defectuoso rechazará el lote y lo de volverá al proveedor.
Sin embargo, si acepta un lote cuando éste contiene más del 15% de borradores
defectuosos, ha cometido un error. Por otra parte si rechaza un lote cuando
contiene menos del 15% de borradores defectuosos, también ha cometido un error.
Con base en la evidencia proporcionada por la muestra, el fabricante ha tratado de
responder a la pregunta ¿tiene el lote una proporción de lápices defectuoso tan
grande que sea necesario rechazarlo?
4. Al responder a lo anterior, el fabricante de lápices ha tomado una decisión acerca
de la proporción de defectos en la población general, ya que la proporción en la
población es un parámetro de la población y las decisiones acerca de los parámetros
de la población constituyen el proceso de pruebas de hipótesis, en realidad el
fabricante ha realizado la tarea de probar una hipótesis.
tesis
Si el fabricante está interesado en estimar la verdadera proporción de defectos con
base a su información muestral, tendrá que intentar responder a la pregunta
Con base en la muestra ¿Qué
afirmación puedo hacer acerca
de la proporción de la
población que es defectuosa ?
Esta pregunta corresponde a lo que se llama Estimación.
5. ¿Porqué es normal la distribución Normal?
Al hacer mediciones de cualquier tipo y distribuir nuestros resultados
bajo algún criterio, es muy común encontrar que los datos se agrupen
de manera muy característica.
En muchos de estos casos veremos que dichas distribuciones siguen
una forma muy particular en la que tenemos un mayor número de
observaciones para cierto valor, disminuyendo la cantidad de
observaciones a ambos lados de la observación más frecuente.
Un ejemplo es al dejar caer
canicas por entre una serie
clavos como lo muestra la
figura, al final del experimento
con muchas canicas
tendremos que las canicas se
han agrupado como se ve en
la figura.
Ejemplo interactivo: http://www.ms.uky.edu/~mai/java/stat/GaltonMachine.html
6. A este tipo de distribución se le conoce como Distribución Gaussiana, ya
que el matemático alemán Karl F. Gauss (1799-1830) fue quien la
describió de manera analítica.
La forma de ésta función es parecida a la de una campana, por eso
también se conoce como “campana de Gaus”.
7. Es tan común encontrar esta distribución en tan diversas ramas del
conocimiento, que también se le da el nombre de Distribución Normal.
La aportación de Gauss se honraba en los billetes de los marcos
alemanes (antes de los Euros) como uno de sus descubrimientos más
trascendentales.
8. La distribución Gaussiana se aplica a una gran gama de observaciones en
ramas como la biología, la geografía, la astronomía y por supuesto la
economía.
Muchos ejemplos de la naturaleza se pueden aproximar con una
distribución normal.
En general esto se puede pensar como resultado de la interacción de
muchos (o un gran número) efectos aleatorios en la variable que se estudia.
Por ejemplo, si medimos el tamaño de las hojas de un árbol, veremos que
tienden a distribuirse en forma gaussiana.
Ejercicio interactivo: Máquina de Galton
Muestra como se va formando una distribución normal a partir de una combinación
de parámetros (8 en este caso)
http://www.shodor.org/interactivate/activities/NormalDistribution/?version=1.6.0_03&browser=Mozilla&vendor=Sun_Microsystems_Inc.
9. Pero ¿a qué se debe esta aparentemente sorprendente resultado?
Estas distribuciones son el resultado del agregado de muchos procesos
azarosos o fortuitos que podrían no ser observables individualmente.
Matemáticamente esta distribución obedece a lo que se conoce como el
Teorema del Límite Central.
Central
Este teorema estipula que si tomamos muestras de una población que
tenga cualquier tipo de distribución, pero una media y varianza finitas,
entonces, la distribución de las medias tiende a la distribución normal.
Entre mayor sea el número de muestras mejor será la aproximación a
una distribución normal.
10. Otro motivo por el cual as distribuciones normales son muy utilizadas es
que tienen muchas propiedades muy convenientes. Por eso, si las
variables aleatorias que nos interesan tienen distribuciones
desconocidas, podemos hacer inferencias iniciales suponiendo
distribuciones normales.
Entre las propiedades agradables de la distribución normal, están
• La de la distribución normal de suma. La suma de dos variables con
distribuciones normales es también normal.
• La de la distribución normal de diferencias. La diferencia de dos
variables con distribuciones normales es también normal..
Debido a todo lo anterior esta distribución es muchas veces el modelo
de partida de los análisis de los datos. Aunque cuando no podemos
generalizar, en la mayoría de los casos la podremos utilizar como una
buena aproximación a la realidad.
11. Distribución Normal Estándar o tipificada. Calificación Z.
Una de las consecuencias del Teorema del Límite Central es que dada una
población con media μ y para n lo bastante grande, la distribución de la
variable
x −x
Z= i
s
es una distribución normal.
donde:
xi es la observación que estamos queriendo analizar
x es el valor de la media de la muestra
s es el valor de la desviación estándar de la muestra
Si nos fijamos en la fórmula el valor de Z es la distancia de la observación
a la media en unidades de desviación estándar, es decir, a cuántas
ndar
desviaciones estándar está alejada nuestra observación de la media.
12. Veamos a qué corresponde esto para una distribución normal:
z=s
z = 2s
z = 0.5s
13. Actividad 1 Si nos dicen que una población tiene una media de 23 y
una desviación estándar de 3.5, encontrar la calificación Z de
a)26.6, b) 16, c)19.5 d) 29:
a) 26.6 − 23 lo que significa que 26.6 está a 1.03
Z= = 1.03
3.5
desviaciones estándar a la derecha de la media (porque es positivo).
b) Z=
16 - 23
= -2 lo que significa que la observación está
3.5
a 2 desviaciones estándar a la izquierda de la media (porque es
negativo).
c) Z=
19.5 - 23
= -1 ¿Qué significa este resultado?
3.5
d) 29 − 23 ¿Qué significa este resultado?
Z= = 1.72
3 .5
14. Si cambiamos todos los valores observados a calificaciones Z, entonces
podemos crear una distribución normal genérica llamada distribución
normal estándar o tipificada en donde
• la media, que está en el centro de la curva, nos queda en el valor 0
• la desviación estándar es ahora igual a 1 y
• el área bajo la curva también es igual a la unidad lo que equivale al
total de los casos de la población estudiada, es decir,
El área es = 1 corresponde al 100% de los casos, y porciones del área
son proporcionales a porcentajes parciales de la muestra.
De este modo, la porción de área bajo la curva, limitada por dos
ordenadas o perpendiculares levantadas en puntos del eje X, expresan
el porcentaje de casos que quedan comprendidos entre las
calificaciones Z correspondientes a los puntos sobre los que se trazan
las ordenadas. Veámoslo en el siguiente diagrama.
15. Porcentajes del Área total o
porcentajes de la población o
probabilidad
2.15% 13.59% 34.13% 34.13% 13.59% 2.15%
-3 -2 -1 0 1 2 3
Valores o calificaciones z El área correspondiente a
una distancia de 1
desviación estándar de la
media (a ambos lados) es
de aproximadamente 68%
16. De acuerdo a lo especificado anteriormente entonces entre 0 y 1 se
encuentra el 34.13% de los casos, es decir que el área bajo la curva es
0.3413, o lo que significa que el 68.26% de la población está alejada de la
media a lo más una desviación estándar. O que solamente el 4.30% de los
casos están más allá de dos desviaciones estándar de la media.
Existen tablas que nos ayudan a obtener los porcentajes de casos entre
diferentes calificaciones Z y la media.
Sin embargo se debe tener mucho cuidado de ver cuál es el área bajo la curva
que nos dan, porque se tabula de forma diferente en los libros, algunos la dan
a partir de 0 y otros a partir de - ∞. R e g l a e m p ír i c a
f(z) -4 -3 -2 -1 0 1 2 3 4
z
Ejemplos:
1.Si queremos encontrar el área bajo la curva comprendida entre las
calificaciones estándar de los incisos a) y d) anteriores, buscamos en la tabla
los valores que corresponden:
17. para Z = 1.03 el área bajo la curva es 0.8485
para Z = 1.72 el área bajo la curva es 0.9564
lo que nos da un área de 0.9564-0.8485 = 0.1079
Esto quiere decir que el 10.79% está entre los valores 26.6 y 29 (recordar que
el área total =1 equivale al 100% de los casos).
10.79%
1.03 1.72 Z
18. Que porcentaje de datos podríamos esperar con valores mayores a 29?
para Z = 1.72 el área bajo la curva es 0.9564
lo que nos da 1 – 0.9564 = 0.0436 o sea 4.36%
10.79%
1.03 1.72 Z
19. 2. Encontrar el área bajo la curva entre las calificaciones z = -2 y z = -1
Como la tabla no nos da el área del lado izquierdo tomamos los mismos
valores del lado derecho y el área es la misma porque es simétrica.
Para Z = 2 el área bajo la curva es 0.9772
para Z = 1 el área bajo la curva es 0.8413
lo que nos da un área entre medio de ellas de 0.9772-0.8413 = 0.1359
13.59% 13.59%
-2 -1 0 1 2 Z
20. Cálculo de Probabilidades
Antes de pasar a usar los conceptos anteriores tenemos que definir qué
es la probabilidad. Podemos pensar en este concepto de dos maneras:
1. Si conocemos todos los resultados posibles de un experimento u
observación, y queremos saber el porcentaje de que ocurra un cierto
tipo de resultado, entonces llamamos probabilidad a:
Número ⋅ de ⋅ resultados ⋅ de ⋅ un ⋅ cierto ⋅ tipo n
P( A) = =
Número ⋅ de ⋅ resultados ⋅ totales N
Actividad No. 1:
Al tirar dos dados queremos ver la probabilidad de que salga el número 4
al sumar los puntos.
21. En este caso el número total de resultados es 36, por lo tanto N=36
El número de resultados que cumplen el criterio es 1+3, 2+2, 3+1, n=3
n 3 1
P( A) = = =
N 36 12
Es la probabilidad de que la suma de los puntos de dos dados sea = 4
22. Si embargo, algunas de estas sumas se repiten, por lo que podemos
hacer una tabla como la siguiente
Valores Número Probabilidad
de la suma de P(x)
(x) casos
2 1 1/36
3 2 2/36
4 3 3/36
5 4 4/36
6 5 5/36
7 6 6/36
8 5 5/36
9 4 4/36
10 3 3/36
11 2 2/36
12 1 1/26
Total 36 1.0
23. Si ahora hacemos un histograma con los valores de las sumas y sus
probabilidades, tendremos lo siguiente
Esto es lo que llamaríamos a una distribución de probabilidad para la
suma de dos dados. La cual, por cierto, en este caso se aproxima a una
distribución normal.
24. 2. Por medio de la frecuencia. Si realizamos un experimento muchas
veces (tantas como sea posible) entonces
Número ⋅ de ⋅ resultados ⋅ de ⋅ un ⋅ cierto ⋅ tipo n
P( A) = =
Número ⋅ de ⋅ resultados ⋅ totales N
La diferencia con la forma anterior es que ahora no conocemos todos los
posibles casos, sino que los “medimos”. Como puede pensarse, en esta
situación tendremos una “aproximación” a la probabilidad buscada, la
cual es mejor mientras mayor sea el número de experimentos.
25. Tarea 3. Si se tiene una media de 156 y una desviación estándar de 15,
encontrar las calificaciones Z para:
a) 144
b) 167
c) 173
d) 136
Encontrar el área bajo la curva entre las calificaciones Z de:
a) y b)
b) y c)
b) y d)
Nota: se puede consultar cualquier tabla de calificaciones Z en un libro de
estadística pero hay que fijarse si se tabula la curva completa o sólo la
mitad.