1. CHI-CUADRADO
T-STUDENT
F DE FISHER
TEOREMA DEL LIMITE
CENTRAL
DISTRIBUCIONES
MUESTRALES
Ing. Daniel David
Mantilla
Ing. Jean Carlos
Pasqualeo
2. DISTRIBUCIÓN CHI CUADRADO
• Se utiliza para analizar la variabilidad de un conjunto de datos y determinar si la diferencia entre los
datos observados y los esperados se debe al azar o a una verdadera diferencia.
• Consiste en encontrar la diferencia al cuadrado entre los valores de los
datos reales y los esperados, y dividir esa diferencia entre los valores de los
datos esperados. Esto se hace para cada punto de datos y se suman los
valores. Luego, se compara la estadística de la prueba con un valor teórico
de la distribución chi-cuadrado. El valor teórico depende tanto del valor alfa
o nivel de significancia, así como de los grados de libertad de los datos.
• Es una distribución de probabilidad que surge cuando se suman los cuadrados de variables aleatorias
independientes y estándar. Esta distribución se utiliza ampliamente en la estadística inferencial para
realizar pruebas de hipótesis y construir intervalos de confianza
3. SUPUESTOS
– Se considera que los datos provienen de una muestra aleatoria extraída de la población de interés.
– La muestra debe ser lo suficientemente grande para que se puedan obtener resultados precisos. Se
recomienda que el tamaño de la muestra sea mayor o igual a 30.
HIPÓTESIS
𝐻𝑜: No hay asociación entre las variables A|B (Las variables son independientes) -Nula
𝐻1: Si hay asociación entre las variables A|B (Las variables no son independientes)-Alterna
Donde:
Oi: Valor observado
Ei: Valor esperado
PRUEBA ESTADISTICA
𝑖=1
𝑘
𝑂𝑖 − 𝐸𝑖
2
𝐸𝑖
4. EJEMPLO
Supongamos que se quiere estudiar la posible
asociación entre el hecho de que una gestante
fume durante el embarazo y que el niño
presente bajo peso al nacer. Por lo tanto, se
trata de ver si la probabilidad de tener bajo
peso es diferente en gestantes que fumen o en
gestantes que no fumen durante la gestación.
Para responder a esta pregunta se realiza un
estudio de seguimiento sobre una cohorte de
2000 gestantes, a las que se interroga sobre su
hábito tabáquico durante la gestación y se
determina además el peso del recién nacido.
Para obtener los valores esperados 𝑬𝒊 , estos se
calculan a través del producto de los totales marginales
dividido por el número total de casos (n)
Tabla de contingencia para estudiar la asociación entre
fumar durante la gestación y el bajo peso del niño al
nacer. Estudio de seguimiento de 2000 gestantes.
Recién nacido de bajo peso
Gestante Sí No Total
Fumadora 43 207 250
No fumadora 105 1645 1750
Total 148 1852 2000
5. Tabla de contingencia para estudiar la asociación entre
fumar durante la gestación y el bajo peso del niño al
nacer. Valores observados y valores esperados (entre
paréntesis)
Recién nacido de bajo peso
Gestante Sí No Total
Fumadora 43 (18.5) 207 (231.5) 250
No fumadora 105 (129.5) 1645 (1620.5) 1750
El Valor estadístico 𝑋2para este ejemplo en
concreto, vendría dado como:
A la vista del resultado, planteamos un contraste de hipótesis entre la hipótesis nula:
H0: No hay asociación entre las variables (en el ejemplo, el bajo peso del niño y el hecho de fumar
durante la gestación son independientes, no están asociados).
Y la hipótesis alternativa:
H1: Sí hay asociación entre las variables, es decir, el bajo peso y el fumar durante la gestación están
asociados.
6. Calculemos el parámetro llamado “grados de libertad” (g.l.). Para el caso de una tabla de contingencia de r
filas y k columnas, los g.l. son igual al producto del número de filas menos 1 (r-1) por el número de
columnas menos 1 (k-1), para nuestro caso: (2-1)(2-1)= 1
Así, para una seguridad del 95% (α =0.05) el valor teórico de una distribución chi-cuadrado con una grado de
libertad es 3,84.
En el ejemplo obtuvimos un valor de 40,04 para χ 2 ,
entonces podemos concluir que las dos variables no
son independientes, sino que están asociadas. Por lo
tanto, a la vista de los resultados, rechazamos la
hipótesis nula ( 𝐻0 ) y aceptamos la hipótesis
alternativa (𝐻1) como probablemente cierta (el bajo
peso del recién nacido y el fumar durante la gestación
están asociados)
7. DISTRIBUCIÓN T STUDENT
La distribución T o de Student es una función de probabilidad con
forma tipo campana simétrica.
Suponer que se toma una muestra aleatoria de tamaño n<30 de
una población con distribución normal con media m y varianza
desconocida. En este caso ya no se puede usar la variable
aleatoria Z.
En su lugar debe usarse otro estadístico denominado T o de Student.
Este estadístico es útil cuando por consideraciones prácticas no se puede tomar una muestra aleatoria
grande y se desconoce la varianza poblacional. Pero es necesario que la población tenga distribución
normal.
8. LOS USOS PARA LO CUAL ES IDÓNEA ESTA DISTRIBUCIÓN
1) Para determinar el intervalo de confianza dentro del cual se
puede estimar Ia media de una población a partir de muestras
pequeña (n < 30)
2) Para probar hipótesis cuando una investigación se basa en
muestreo pequeño.
3) Para probar si dos muestras provienen de una misma población.
9. COMO DIFERENCIAR DE LAS OTRAS DISTRIBUCIONES
La distribución de T es similar a la distribución de Z, pues ambas son simétricas alrededor de
una media de cero. Ambas tiene distribuciones de campana pero la distribución t es más
variable debido a que tienen fluctuaciones en 2 cantidades. La distribución de T difiere de la de
Z en que la varianza de T depende del tamaño de la muestra n y siempre es mayor a 1,
únicamente cuando n tiende a ∞ las dos distribuciones serán iguales.
CARACTERISTICAS DE LA DISTRIBUCION “T” DE STUDENT
En muchas ocasiones no se conoce σ y el número de observaciones en la muestra n < 30. En
estos casos, se puede utilizar la desviación estándar de la muestra s como una estimación de σ,
pero no es posible usar la distribución Z como estadístico de prueba. El estadístico de prueba
adecuado es la distribución t. Sus aplicaciones en la inferencia estadística son para estimar y
probar una media y una diferencia de medias (independiente y pareada).
10. 𝑡 =
𝑥 − µ
𝑠/ 𝑛
EJERCICIO:
Se aplica una prueba de autoestima a 25 personas quienes obtienen una calificación promedio de 62.1
con una desviación estándar de 5.83. Se sabe que el valor correcto de la prueba debe ser mayor a 60.
¿Existe suficiente evidencia para comprobar que no hay problemas de autoestima en el grupo
seleccionado? Considera un nivel de significancia de 0.05
DATOS:
N = 25
X= 62.1
S= 5.83
α = 0,05
µ = 60
HIPÓTESIS:
Ho = El grupo no tiene problemas de autoestima.
Hi = El grupo tiene problemas de autoestima
PARAMETRO
ESTADISTICO:
𝑡 =
62,1 − 60
5,83/ 25
𝑡 = 1,80
11. Ahora se determina los grados de libertad.
Gl = 𝑛 − 1 Gl = 25 − 1 Gl = 24
Ahora, con los grados de libertad calculados
y el índice de significancia (0,05) se
determina en las tablas el percentil t α.
t α = 1, 711
t > t α
Por lo tanto.
12. Ahora comparamos el valor estadístico con el percentil determinado en tabla. Como el problema nos
señala una condición afirmativa cuando el valor sea superior a 60, esto nos indica un comportamiento
de aceptación a la derecha del valor critico. Entonces, como el valor T calculado es mayor al valor
critico concluimos que Existe suficiente evidencia para demostrar que el grupo no tiene problemas de
autoestima.
CONCLUSIÓN: