1. INSTITUTO TECNOLOGICO DE
TORREÓN
PROBABILIDAD Y ESTADISTICA
INVESTIGACION
UNIDAD 4
TERCER SEMESTRE EN INGENIERIA EN INFORMATICA
2. CONTENIDO
INVESTIGACIÓN
CONCEPTO DE LAS DISTRIBUCIONES BINOMIAL,
HIPERGEOMÉTRICA, POISSON, NORMAL, T-STUDENT,
CHI CUADRADA, Y F DE FISHER.
3. CONCEPTO DE LAS
DISTRIBUCIONES BINOMIAL
En estadística, la distribución binomial es una distribución de probabilidad
discreta que mide el número de éxitos en una secuencia de n ensayos de
Bernoulli independientes entre sí, con una probabilidad fija p de ocurrencia
del éxito entre los ensayos. Un experimento de Bernoulli se caracteriza por
ser dicotómico, esto es, sólo son posibles dos resultados. A uno de estos se
denomina éxito y tiene una probabilidad de ocurrencia p y al otro, fracaso,
con una probabilidad q = 1 - p. En la distribución binomial el anterior
experimento se repite n veces, de forma independiente, y se trata de
calcular la probabilidad de un determinado número de éxitos. Para n = 1, la
binomial se convierte, de hecho, en una distribución de Bernoulli.
Para representar que una variable aleatoria X sigue una distribución
binomial de parámetros n y p, se escribe:
La distribución binomial es la base del test binomial de significación
estadística.
4. EJEMPLOS
Las siguientes situaciones son ejemplos de experimentos
que pueden modelizarse por esta distribución:
Se lanza un dado diez veces y se cuenta el número X de
treses obtenidos: entonces X ~ B(10, 1/6)
Se lanza una moneda dos veces y se cuenta el número X de
caras obtenidas: entonces X ~ B(2, 1/2)
Una partícula se mueve unidimensionalmente con
probabilidad p de moverse de aquí para allá y 1-q de
moverse de allá para acá
5. EXPERIMENTO BINOMIAL
Existen muchas situaciones en las que se presenta una experiencia
binomial. Cada uno de los experimentos es independiente de los
restantes (la probabilidad del resultado de un experimento no
depende del resultado del resto). El resultado de cada experimento
ha de admitir sólo dos categorías (a las que se denomina éxito y
fracaso). Las probabilidades de ambas posibilidades han de ser
constantes en todos los experimentos (se denotan como p y q o p y
1-p).
Se designa por X a la variable que mide el número de éxitos que se
han producido en los n experimentos.
Cuando se dan estas circunstancias, se dice que la variable X sigue
una distribución de probabilidad binomial, y se denota B(n,p).
6. A partir de un ejemplo. Desarrollaremos una fórmula que nos permita
cualquier problema que tenga este tipo de distribución.
Ejemplo:
Se lanza al aire una moneda normal 3 veces, determine la probabilidad
de que aparezcan 2 águilas.
Solución:
Antes de empezar a resolver este problema, lo primero que hay que
hacer es identificarlo como un problema que tiene una distribución
binomial, y podemos decir que efectivamente así es, ya que se trata de
un experimento en donde solo se pueden esperar dos tipos de
resultados al lanzar la moneda, águila o sello, cutas probabilidades de
ocurrencia son constantes, cada uno de los lanzamientos es
independiente de los demás y el número de ensayos o repeticiones del
experimento son constantes, n = 3.
Para dar solución a este problema, lo primero que hay que hacer es un
diagrama de árbol, en donde representaremos los tres lanzamientos, de
ahí se obtendrá el espacio muestral y posteriormente la probabilidad
pedida, usando la fórmula correspondiente.
7. A = águila, S = sello
1/2 A
1/2 A
1/2 S
A
1/2 A
1/2 1/2 S
S
1/2 A
1/2 A
1/2 1/2 S
S
1/2 A
1/2 S
1/2 S
d={AAA, AAS, ASA, ASS, SAA, SAS, SSA, SSS}
9. HIPERGEOMÉTRICA
En teoría de la probabilidad la distribución
hipergeométrica es una distribución discreta
relacionada con muestreos aleatorios y sin remplazo.
Supóngase que se tiene una población de N
elementos de los cuales, d pertenecen a la categoría
A y N-d a la B. La distribución hipergeométrica mide la
probabilidad de obtener x () elementos de la
categoría A en una muestra de n elementos de la
población original.
10. propiedades
La función de probabilidad de una variable aleatoria
con distribución hipergeométrica puede deducirse a
través de razonamientos combinatorios y es igual a
11. donde es el tamaño de población, es el tamaño de la
muestra extraída, es el número de elementos en la
población original que pertenecen a la categoría deseada
y es el número de elementos en la muestra que pertenecen
a dicha categoría.
12. La notación hace referencia al coeficiente binomial, es
decir, el número de combinaciones posibles al seleccionar
elementos de un total .
El valor esperado de una variable aleatoria X que sigue la
distribución hipergeométrica es
13. y
y su variancia
En la fórmula anterior, definiendo
14. Se obtiene
La distribución hipergeométrica es aplicable a muestreos sin
reemplazo y la binomial a muestreos con reemplazo. En
situaciones en las que el número esperado de repeticiones
en el muestreo es presumiblemente bajo, puede
aproximarse la primera por la segunda. Esto es así cuando N
es grande y el tamaño relativo de la muestra
extraída, n/N, es pequeño.
15. Hasta ahora hemos analizado distribuciones que modelizaban
situaciones en las que se realizaban pruebas que entrañaban una
dicotomía (proceso de Bernouilli) de manera que en cada
experiencia la probabilidad de obtener cada uno de los dos
posibles resultados se mantenía constante. Si el proceso consistía
en una serie de extracciones o selecciones ello implicaba la
reposición de cada extracción o selección , o bien la consideración
de una población muy grande. Sin embargo si la población es
pequeña y las extracciones no se remplazan las probabilidades no
se mantendrán constantes . En ese caso las distribuciones
anteriores no nos servirán para la modelizar la situación. La
distribución hipergeométrica viene a cubrir esta necesidad de
modelizar procesos de Bernouilli con probabilidades no
constantes (sin reemplazamiento) .
La distribución hipergeométrica es especialmente útil en todos
aquellos casos en los que se extraigan muestras o se realizan
experiencias repetidas sin devolución del elemento extraído o sin
retornar a la situación experimental inicial.
16. POISSON
En teoría de probabilidad y estadística, la distribución de
Poisson es una distribución de probabilidad discreta que
expresa, a partir de una frecuencia de ocurrencia media, la
probabilidad que ocurra un determinado número de
eventos durante cierto periodo de tiempo.
Fue descubierta por Siméon-Denis Poisson, que la dio a
conocer en 1838 en su trabajo Recherches sur la
probabilité des jugements en matières criminelles et
matière civile (Investigación sobre la probabilidad de los
juicios en materias criminales y civiles).
17. PROPIEDADES
La función de masa de la distribución de Poisson es
donde
k es el número de ocurrencias del evento o fenómeno (la función nos da la
probabilidad de que el evento suceda precisamente k veces).
λ es un parámetro positivo que representa el número de veces que se
espera que ocurra el fenómeno durante un intervalo dado. Por ejemplo, si el
suceso estudiado tiene lugar en promedio 4 veces por minuto y estamos
interesados en la probabilidad de que ocurra k veces dentro de un intervalo
de 10 minutos, usaremos un modelo de distribución de Poisson con λ = 10×4
= 40.
e es la base de los logaritmos naturales (e = 2,71828...)
18. Tanto el valor esperado como la varianza de una variable aleatoria con
distribución de Poisson son iguales a λ. Los momentos de orden superior
son polinomios de Touchard en λ cuyos coeficientes tienen una
interpretación combinatorio. De hecho, cuando el valor esperado de la
distribución de Poisson es 1, entonces según la fórmula de Dobinski, el n-
ésimo momento iguala al número de particiones de tamaño n.
La moda de una variable aleatoria de distribución de Poisson con un λ no
entero es igual a , el mayor de los enteros menores que λ (los símbolos
representan la función parte entera). Cuando λ es un entero positivo, las
modas son λ y λ − 1.
19. NORMAL
En estadística y probabilidad se llama distribución normal, distribución de
Gauss o distribución gaussiana, a una de las distribuciones de probabilidad
de variable continua que con más frecuencia aparece aproximada en
fenómenos reales.
La gráfica de su función de densidad tiene una forma acampanada y es
simétrica respecto de un determinado parámetro estadístico. Esta curva se
conoce como campana de Gauss y es el gráfico de una función gaussiana.
La importancia de esta distribución radica en que permite modelar
numerosos fenómenos naturales, sociales y psicológicos. Mientras que los
mecanismos que subyacen a gran parte de este tipo de fenómenos son
desconocidos, por la enorme cantidad de variables incontrolables que en
ellos intervienen, el uso del modelo normal puede justificarse asumiendo
que cada observación se obtiene como la suma de unas pocas causas
independientes.
20. De hecho, la estadística es un modelo matemático que
sólo permite describir un fenómeno, sin explicación
alguna. Para la explicación causal es preciso el diseño
experimental, de ahí que al uso de la estadística en
psicología y sociología sea conocido como método
correlacional.
La distribución normal también es importante por su
relación con la estimación por mínimos cuadrados, uno
de los métodos de estimación más simples y antiguos.
21. Algunos ejemplos de variables asociadas a
fenómenos naturales que siguen el modelo de
la normal son
caracteres morfológicos de individuos como la estatura;
caracteres fisiológicos como el efecto de un fármaco;
caracteres sociológicos como el consumo de cierto
producto por un mismo grupo de individuos;
caracteres psicológicos como el cociente intelectual;
nivel de ruido en telecomunicaciones;
errores cometidos al medir ciertas magnitudes;
etc.
22. La distribución normal también aparece en muchas áreas de la
propia estadística. Por ejemplo, la distribución muestral de las
medias muéstrales es aproximadamente normal, cuando la
distribución de la población de la cual se extrae la muestra no es
normal.1 Además, la distribución normal maximiza la entropía
entre todas las distribuciones con media y varianza conocidas, lo
cual la convierte en la elección natural de la distribución
subyacente a una lista de datos resumidos en términos de media
muestral y varianza. La distribución normal es la más extendida
en estadística y muchos test estadísticos están basados en una
supuesta "normalidad".
En probabilidad, la distribución normal aparece como el límite de
varias distribuciones de probabilidad continuas y discretas.
24. T-STUDENT
En probabilidad y estadística, la distribución t (de Student)
es una distribución de probabilidad que surge del
problema de estimar la media de una población
normalmente distribuida cuando el tamaño de la muestra
es pequeño.
Aparece de manera natural al realizar la prueba t de
Student para la determinación de las diferencias entre dos
medias muestrales y para la construcción del intervalo de
confianza para la diferencia entre las medias de dos
poblaciones cuando se desconoce la desviación típica de
una población y ésta debe ser estimada a partir de los
datos de una muestra.
25.
26. CARACTERIZACIÓN
La distribución t de Student es la distribución de
probabilidad del cociente.
donde
Z tiene una distribución normal de media nula y
varianza 1
V tiene una distribución ji-cuadrado con grados de
libertad
Z y V son independientes.
27. Si μ es una constante no nula, el cociente es una
variable aleatoria que sigue la distribución t de
Student no central con parámetro de no-centralidad
28. Intervalos de confianza derivados de
la distribución t de Student
El procedimiento para el cálculo del intervalo de
confianza basado en la t de Student consiste en
estimar la desviación típica de los datos S y calcular el
error estándar de la media , siendo entonces el
intervalo de confianza para la media =
29. CHI CUADRADA
Esta prueba puede utilizarse incluso con datos medibles en una
escala nominal. La hipótesis nula de la prueba Chi-cuadrado postula
una distribución de probabilidad totalmente especificada como el
modelo matemático de la población que ha generado la muestra.
Para realizar este contraste se disponen los datos en una tabla de
frecuencias. Para cada valor o intervalo de valores se indica la
frecuencia absoluta observada o empírica (Oi). A continuación, y
suponiendo que la hipótesis nula es cierta, se calculan para cada
valor o intervalo de valores la frecuencia absoluta que cabría
esperar o frecuencia esperada (Ei=n·pi , donde n es el tamaño de la
muestra y pi la probabilidad del i-ésimo valor o intervalo de valores
según la hipótesis nula). El estadístico de prueba se basa en las
diferencias entre la Oi y Ei y se define como:
30. Este estadístico tiene una distribución Chi-cuadrado con k-1
grados de libertad si n es suficientemente grande, es decir,
si todas las frecuencias esperadas son mayores que 5. En la
práctica se tolera un máximo del 20% de frecuencias
inferiores a 5.
Si existe concordancia perfecta entre las frecuencias
observadas y las esperadas el estadístico tomará un valor
igual a 0; por el contrario, si existe una gran discrepancias
entre estas frecuencias el estadístico tomará un valor
grande y, en consecuencia, se rechazará la hipótesis nula.
Así pues, la región crítica estará situada en el extremo
superior de la distribución Chi-cuadrado con k-1 grados de
libertad.
Para realizar un contraste Chi-cuadrado la secuencia es:
32. En el cuadro de diálogo Prueba chi-cuadrado se indica la variable
a analizar en Contrastar variables.
En Valores esperados se debe especificar la distribución teórica
activando una de las dos alternativas. Por defecto está activada
Todas la categorías iguales que recoge la hipótesis de que la
distribución de la población es uniforme discreta. La opción
Valores requiere especificar uno a uno los valores esperados de
las frecuencias relativas o absolutas correspondientes a cada
categoría, introduciéndolos en el mismo orden en el que se han
definido las categorías.
El recuadro Rango esperado presenta dos opciones: por defecto
está activada Obtener de los datos que realiza el análisis para
todas las categorías o valores de la variable; la otra alternativa,
Usar rango especificado, realiza el análisis sólo para un
deteminado rango de valores cuyos límites Inferior y Superior se
deben especificar en los recuadros de texto correspondientes.
33. F DE FISHER.
En estadística se denomina prueba F de Snedecor a
cualquier prueba en la que el estadístico utilizado sigue una
distribución F si la hipótesis nula no puede ser rechazada.
El nombre fue acuñado en honor a Ronald Fisher.
En estadística aplicada se prueban muchas hipótesis
mediante el test F, entre ellas:
La hipótesis de que las medias de múltiples poblaciones
normalmente distribuidas y con la misma desviación
estándar son iguales. Esta es, quizás, la más conocida de
las hipótesis verificada mediante el test F y el problema
más simple del análisis de varianza.
34. La hipótesis de que las desviaciones estándar de dos
poblaciones normalmente distribuidas son iguales, lo
cual se cumple.
En muchos casos, el test F puede resolverse mediante
un proceso directo. Se requieren dos modelos de
regresión, uno de los cuales restringe uno o más de
los coeficientes de regresión conforme a la hipótesis
nula. El test entonces se basa en un cociente
modificado de la suma de cuadrados de residuos de
los dos modelos como sigue:
35. Dadas n observaciones, donde el modelo 1 tiene k
coeficientes no restringidos, y el modelo 0 restringe
m coeficientes, el test F puede calcularse como