SlideShare una empresa de Scribd logo
1 de 124
Renny Barrios M. (M. Sc.)
Ramón Silva-Acuña (Ph. D)
Maturín, Mayo 2015
Inferencia Estadística:
Estimación y Prueba de Hipótesis
Núcleo Monagas
Campus Juanico
Postgrado en Agricultura Tropical
Universidad de Oriente
Definición de Estadística
La Estadística es la ciencia de la
• sistematización, recogida, ordenación y
presentación de los datos referentes a un
fenómeno que presenta variabilidad o
incertidumbre para su estudio metódico, con
objeto de
• deducir las leyes que rigen esos fenómenos
• y poder hacer previsiones sobre los mismos,
tomar decisiones u obtener conclusiones.
Estadística
Descriptiva
Probabilidad
Estadística
Inferencial
Estadística inferencial
Proporciona métodos para estimar las
características de un grupo
(población) basándose en los datos
de un conjunto pequeño (muestra).
Población y muestra
• Población: es el conjunto sobre el que
estamos interesados en obtener
conclusiones (hacer inferencia).
Normalmente es demasiado grande
para poder abarcarlo.
• Muestra: es un subconjunto suyo al que
tenemos acceso y sobre el que realmente
hacemos las observaciones (mediciones)
 Debería ser “representativo”
 Formado por miembros “seleccionados” de la
población (individuos, unidades
experimentales).
Parámetros y estadísticos
• Parámetro: Es una cantidad numérica
calculada sobre una población.
– La altura media de los individuos de un país.
– La idea es resumir toda la información que hay en
la población en unos pocos números (parámetros).
• Estadístico: Es una cantidad numérica
calculada sobre una muestra.
– La altura media de los que estamos en este
aula.
– Si un estadístico se usa para aproximar un
parámetro también se le suele llamar estimador.
Propiedades de un buen estimador
• Insesgado: La esperanza del estimador es
igual al valor del parámetro que se desea
estimar.
• Consistente: A medida que el tamaño de la
muestra aumenta el estimador debe tender al
valor del parámetro y su variancia debe tender a
cero
Una situación supuesta
• Contamos con una población integrada por 100
individuos; es decir N=100
• La media de la población es 50; es decir μ=50
• La variabilidad de la población es de 10; es decir  = 10
N = 100
μ = 50
 = 10
¿Y si tomamos una muestra?
• El promedio de la muestra no coincide
con el de la población…
• La diferencia entre el valor muestral y el
poblacional se denomina error muestral.
En este caso, EM = 43,6 – 50 = - 6,4
• Es el costo que pagamos por no haber
efectuado un censo
N = 100; μ = 50;  = 10
¿Y si tomáramos otra muestra?
• Los parámetros se calculan sobre los N valores
de la población, no cambian a menos que
cambie la población, son constantes.
• Los estimadores se calculan sobre n valores
muestrales, por lo tanto varían de muestra en
muestra y por lo tanto son variables aleatorias.
N = 100; μ = 50;  = 10
Si repitiésemos este proceso muchas veces, ¿Qué comportamiento
esperaríamos para los 75 287 520 promedios muestrales posibles?
N = 100; μ = 50;  = 10
Distribuciones muestrales
• Definición: La distribución muestral de un
estimador es la distribución de probabilidades de
todos los posibles valores de un estimador que se
pueden obtener extrayendo infinitas muestras
aleatorias de tamaño n de la población.
• La distribución de un estimador, como la de
cualquier variable aleatoria, se pueden caracterizar
por:
– tendencia central
– variabilidad
– función de probabilidad
Distribución muestral de
Distribución muestral de
• ¿Y si promediamos todas las medias muestrales?
• ¿Cuál será la variabilidad de las medias
muestrales?
La desviación estándar de un estimador se conoce como
error estándar y da idea de la precisión en la estimación
Estimador
Insesgado
Distribución muestral de
¿Y si los datos originales no siguen una distribución normal?
• La distribución de las medias muestrales sí tiene distribución
aproximadamente normal.
• La media de esta nueva variable (promedio muestral) es
muy parecida a la de la variable original.
• Las observaciones de la nueva variable están menos
dispersas.
Distribución muestral de la media
En Resumen
• Si la variable original es normal, entonces será
normal, para cualquier n
• Si la variable original es aproximadamente simétrica y
unimodal, entonces tenderá a una distribución
aproximadamente normal para n relativamente bajos
• Si la variable original es marcadamente asimétrica,
entonces n deberá ser de mayor para que la distribución
de sea normal
Distribuciones para muestras grandes
Si de una población con distribución no normal o
desconocida con media µ y desviación estándar  se
extraen infinitas muestras aleatorias de tamaño n y a
cada una de ellas se le calcula el promedio, se
demuestra que éste se comporta según una
distribución normal si n es lo suficientemente grande.
LEY DE LOS GRANDES NUMEROS
TEOREMA DEL LIMITE CENTRAL
Distribuciones para muestras grandes:
teorema del límite central
Dada una variable aleatoria cualquiera, si
extraemos muestras de tamaño n, y calculamos
los promedios muestrales, entonces:
– Dichos promedios tienen distribución aproximadamente
normal.
– La media de los promedios muestrales es la misma que
la de la variable original.
– La desviación típica de los promedios disminuye en un
factor “raíz de n” (desviación estándar).
Teorema del límite central
 Sea x1, x2, ..., xn una muestra aleatoria de observaciones
tomadas de la misma distribución y sea E(Xi) =  y
Var(Xi) = 2.
 Entonces la distribución muestral de la variable aleatoria:
n
x
Z n
/
)(



El TLC se cumple aún cuando la distribución desde la que se toman las
observaciones no sea normal, siempre que nos aseguramos que el tamaño de
la muestra es grande, entonces podemos usar la variable Zn para responder
preguntas acerca de la población de la cual provienen las observaciones.
converge a la normal standard N (0, 1) cuando n tiende a
infinito.
Distribución muestral de cuando la desviación
estándar poblacional es desconocida
• En la práctica, los parámetros poblacionales son
desconocidos…
• Como se desconoce µ se utiliza su estimador s
→ mayor incertidumbre
• No es correcto utilizar la distribución normal para
• La media muestral en estos casos ajusta a una distribución
conocida como t de Student
n
x
Z n
/
)(



ns
x
tGL
/
)( 

Distribución t de Student
• Tiene forma acampanada como la normal estándar, pero su
dispersión es mayor (es más aplanada). Esto se debe a que al
desconocer  hay mayor incertidumbre
• Es simétrica con respecto al cero, es decir que µ=0
• No se trata de una única curva, sino de infinitas curvas, cada una
caracterizada por un parámetro denominado grados de libertad
(GL)
• Los GL indican el número de comparaciones posibles. Dependen
del tamaño de la muestra y en este caso valen n-1
• A medida que aumentan los GL más se asemeja a la normal
estándar (porque s converge a )
Distribución muestral de cuando no se conoce 
• Si el tamaño de la muestra es lo suficientemente
grande o x es normal, la distribución de es t de
Student, con n-1 grados de libertad
• Por lo tanto es posible calcular probabilidades
utilizando:
ns
x
tn
/
)(
1


• La media de es:
• La desviación estándar de es:
A partir de los valores de una variable,
proveniente de una muestra aleatoria, se
obtiene una valor o un conjunto de valores para
el parámetro de la población, o se comprueba
un supuesto acerca de dicha población.
Estadística Inferencial
¿Qué necesitamos para hacer inferencia?
• Una muestra aleatoria
• Observaciones independientes
• Un tamaño de muestra lo suficientemente grande
Algunas dudas que surgen…
• ¿Es necesario sacar muchas (infinitas)
muestras para poder aplicar el TCL?
• ¿A mayor n más cerca del parámetro
estará mi estimador?
• ¿A mayor n menor variabilidad de los
datos?
Estimación
• Las poblaciones son descritas mediante
parámetros
– Para variables cuantitativas, las poblaciones son
descritas mediante μ y .
– Para variables cualitativas, las poblaciones son
descritas mediante p.
• Si los valores de los parámetros son
desconocidos, podemos estimarlos en base a
muestras y esperamos que sean una buena
aproximación al valor exacto
Estimación
Estimación puntual:
Se calcula un valor simple a partir de la muestra a
fin de estimar el parámetro
Estimación por intervalo de confianza:
Se calculan dos números para crear un rango de
valores que se espera contenga al parámetro con
una cierta probabilidad o nivel de confianza
¿Qué tan buena es la estimación?
• El promedio de la muestra no coincide
con el de la población…
• La diferencia entre el valor muestral y el
poblacional se denomina error muestral.
En este caso, EM = 43,6 – 50 = - 6,4
• Es el costo que pagamos por no haber
efectuado un censo
N = 100; μ = 50;  = 10
¿Qué tan buena es la
estimación?
Error muestral
• Distancia entre el estimador puntual y el verdadero valor del
parámetro
• Error que surge por estudiar a una parte de la población
• Posee las mismas unidades que la variable en estudio
• Magnitud desconocida y por lo tanto imposible de calcular
con certeza
• Disminuye cuando aumenta el tamaño de la muestra
¿Qué son los errores no
muestrales?
• Otros errores ajenos al muestreo: Diseño
sesgado, problemas de codificación,
encuestador, encuestado, lógicos, de
concepción, etc.
• No disminuyen cuando el tamaño de la muestra
aumenta
Muy difíciles de medir!!!
¿Qué tan buena es la estimación?
Nivel de confianza
• Es la probabilidad de que el intervalo contenga al
parámetro
• Se lo simboliza como 1- α
• Lo fija el investigador. Valores típicos de 1-α =0,90;
0,95; 0,99
• Es la probabilidad de error (no contener al parámetro) y
se la denomina también riesgo
• Es el porcentaje de intervalos que se espera contengan
al parámetro (para ese tamaño de muestra)
Para que las estimaciones sean confiables
se debe cumplir:
• Muestreo aleatorio
• Muestreo con reposición o bien n/N < 0,05
• La variable x debe tener distribución normal
• Tamaño de muestra suficientemente grande (n≥30)
• El desvío estándar poblacional s debe ser conocido
ESTIMACIÓN DE PARÁMETROS
A partir de los valores de
una variable, proveniente
de una muestra aleatoria,
se obtiene una valor
(estimación puntual),
o un conjunto de valores
(estimación por
intervalos) para el
parámetro de la población
estudiada, con cierto
nivel de confianza
PRUEBA DE HIPÓTESIS
A partir de los valores de
una variable, proveniente
de una muestra aleatoria,
se decide si se rechaza o
no el supuesto que
plantea el investigador
para el parámetro de la
población estudiada, con
cierta probabilidad de
error
Inferencia Estadística
• Estimación:
– Estimar o predecir el valor del parámetro.
– “Cuáles son los valores más probables de o ?”
• Prueba de Hipótesis:
– Decidir acerca del valor de un parámetro basado en
una idea preconcebida.
– “La muestra provino de una población con = 5 o 
=0,2?”
Tipos de Inferencia
• Ejemplo:
–Un consumidor quiere estimar el precio
promedio de casas similares en su
ciudad antes de poner la suya en venta.
Estimación:
Estimar , el precio promedio de una casa
Tipos de Inferencia
Prueba de hipótesis:
¿Es el promedio de resistencia del acero nuevo, N ,
mayor que la resistencia promedio del acero viejo, V?
• Ejemplo:
Un fabricante quiere saber si un nuevo tipo de
acero es más resistente a altas temperaturas
que el tipo de acero viejo.
Tipos de Inferencia
• Si vamos a estimar parámetros o a probar
hipótesis, la estadística suministra:
– Métodos para hacer la inferencia.
– Una medida numérica de la bondad o
confiabilidad de la inferencia.
Tipos de Inferencia
Problema de estimación:
¿Por qué una encuesta de 1500 personas
permite predecir bastante bien el resultado
de una elección con 10 millones de
votantes?
¿Cómo se consigue?
¿Cómo se mide la precisión del resultado?
Problema de prueba de hipótesis:
• Las normas de calidad exigen que, en un lote
de 5000 bombillas, a lo sumo el 3% pueden
durar menos de 1000 horas.
• En un estudio de control de calidad de una
fabrica de bombillas sería muy costoso
examinar cada una. Se decide usar una
muestra de 500 bombillas. Si obtenemos el
3,2% de bombillas defectuosas, ¿deberíamos
declarar el lote completo defectuoso?
Problema de estimación:
Se busca precisar una característica
totalmente desconocida de la población a
partir de los datos obtenidos sobre una
muestra.
– Estimar el porcentaje de la población (10
millones) que votará por Popeye como diputado
a partir de una muestra de 1500 votantes.
– O estimar la duración promedio de las bombillas
del lote de 5000, a partir de una muestra de 500.
Problema de prueba de hipótesis:
Se busca comprobar alguna información
sobre la población a partir de los datos
obtenidos de una muestra.
– Popeye obtendrá más del 65% de los votos.
– Menos del 3% de las bombillas del lote de 5000
duran menos de 1000 horas.
El método es importante!!!
Inferencia Estadística
para una media
Estimación
Distribuciones para muestras grandes:
teorema del límite central
Dada una variable aleatoria cualquiera, si
extraemos muestras de tamaño n, y calculamos
los promedios muestrales, entonces:
– Dichos promedios tienen distribución aproximadamente
normal.
– La media de los promedios muestrales es la misma que
la de la variable original.
– La desviación típica de los promedios disminuye en un
factor “raíz de n” (desviación estándar).
Intervalo de Confianza
• Un par de números entre los cuales se estima que estará
cierto valor desconocido con una determinada probabilidad
de acierto.
• Estos números determinan un intervalo, que se calcula a
partir de datos de una muestra, y el valor desconocido es un
parámetro poblacional.
• La probabilidad de éxito en la estimación se representa con
1 - α y se denomina nivel de confianza. En estas
circunstancias, α es el llamado error aleatorio o nivel de
significación, y representa una medida de las posibilidades
de fallar en la estimación mediante tal intervalo.
Estimación de una Media
>>> Estimador
• z >>> Nivel de confianza
– 95% = 1,96
– 99% = 2,58
• σ >>> Desviación estándar
• n >>> Tamaño de la muestra
Intervalos de Confianza
• Ejemplo :
Distribución de los niveles de colesterol en
sangre de todos los varones que son
hipertensos y que fuman.
– Esta distribución es:
• aproximadamente normal,
• con una media desconocida:  = ?,
• y una desviación estándar  = 46 mg / 100 ml.
• Interesa calcular el nivel medio de colesterol en
sangre.
• Antes de elegir una muestra aleatoria, la
probabilidad de que el intervalo contenga la
verdadera media poblacional es de  = 0,95.
Intervalos de Confianza
)
n
46
1,96X,
n
46
1,96X( 

Intervalos de Confianza
• En el caso de tomar una muestra tamaño 12 de la
población de fumadores hipertensos y que además
poseen un nivel medio de colesterol en sangre de x =
217 mg / 100 ml.
• El intervalo de confianza de 95% para  es
)243191(
o
)
12
46
96,1217
12
46
96,1217(


Intervalos de Confianza
• Este intervalo contiene el valor de 211 mg /100
ml, el nivel medio de colesterol en la sangre de
todos los hombres de 20 a 74 años de edad sin
importar si son hipertensos o fumadores.
Interpretación 1
Se está 95 % seguro de que los límites 191 y 243
cubren la verdadera media .
Intervalos de Confianza
Interpretación 2: en términos de frecuencia.
Si se tomaran 100 muestras aleatorias de tamaño 12
de esta población y utilizaran cada muestra para
construir un intervalo de confianza de 95 %, se
espera que:
– 95 de los intervalos cubrirán la verdadera media
poblacional  = 211
– 5 de los intervalos no cubrirán la verdadera media
poblacional.
Intervalos de Confianza
Con la misma muestra de 12 hipertensos, se encuentra
que los límites son
)251183(
ó
)
12
46
2,58217;
12
46
2,58(217


Para calcular un intervalo de confianza
de 99% para .
Intervalos de Confianza
Interpretación:
• Un 99% de confianza de este intervalo cubre el
verdadero nivel medio de colesterol en sangre de la
población.
• La amplitud de intervalo de confianza de 99% es de
251 - 183 = 68 mg/ 100 ml.
• Este intervalo es más amplio que el correspondiente
intervalo de confianza de 95%.
Intervalos de Confianza
Analizando en el sentido del tamaño muestral:
¿Qué dimensiones debe tener una muestra para
que la amplitud del intervalo se reduzca a solo 20
mg/100 ml?
Intervalos de Confianza
Consideraciones:
Ya que el intervalo se centra en la media de
muestreo x=217 mg/ 100 ml, interesa el tamaño
de la muestra necesario para generar el
intervalo (217-10, 217+10)
ó
(207, 227)
Intervalos de Confianza
• Para determinar el tamaño n que se
requiere de la muestra, se debe resolver
la ecuación
n = 140,8
Intervalos de Confianza
• Se necesita una muestra de 141 hombres para
reducir la amplitud del intervalo de confianza de
99% a 20 mg/100 ml.
• Aunque la media de muestreo de 217 mg/100
ml se ubica en el centro del intervalo, no
desempeña ningún papel en la determinación
de su amplitud; la amplitud es función de , n y
el nivel de confianza.
Intervalos de Confianza
• Importante:
Cuando las muestras aleatorias son cada
vez más grandes, la variabilidad de X se
torna más pequeño.
Sin embargo la variabilidad inherente de la
población estudiada, medida por ,
siempre se encuentra presente.
Cálculo del Intervalo de Confianza
Un supervisor de control de calidad de “Sardinas La Gaviota” sabe
que la cantidad exacta en cada lata varía, pues hay ciertos factores
imposibles de controlar que afectan a la cantidad de llenado. El
contenido estipulado en la etiqueta es de 80 g.
El llenado promedio por lata es importante, pero igualmente
importante es la variación s2 de la cantidad de llenado.
Si s2 es grande, algunas latas contendrán muy poco, y otras,
demasiado. A fin de estimar la variación del llenado en la
enlatadora, el supervisor escoge al azar 10 latas y pesa el
contenido de cada una, obteniendo el siguiente pesaje (en gramos):
78,6 80,5 76,0 77,8 84,1 74,7 83,3 81,2 85,4 80,2
Establezca un intervalo de confianza de 95% para la verdadera
variación del llenado de latas en la enlatadora.
Cálculo del Intervalo de Confianza
Una empresa dedicada a la fabricación de alimento concentrado
para cerdos tiene un contrato para suministrar 5 toneladas de
alimento con 21% de proteínas. Debido a la baja ganancia en peso
de los cerdos, el productor contratante sospecha que el alimento
concentrado no tiene el contenido de proteína contratado.
Para analizar este aspecto se tomaron muestras de 15 sacos
distintos y se obtuvo lo siguiente:
21,2 20,4 21,3 21,9 19,2
20,4 20,8 21,9 21,1 20,8
19,3 19,8 20,7 19,9 21,1
Cálculo del Intervalo de Confianza
1. Calcular un intervalo de confianza del 99% para el contenido de
proteína muestreados.
2. Sin realizar los cálculos, determinar si un intervalo de confianza del
95% para la media poblacional tendría mayor, menor o la misma
longitud que el caso anterior.
3. Hallar el tamaño muestral necesario para calcular un intervalo de
confianza del 99% para el diámetro de ejes medio, cuya amplitud a
cada lado de la media muestral sea igual a 0,5.
Inferencia Estadística
para una muestra
Prueba de Hipótesis
Formulación de Hipótesis
Hipótesis estadística:
• Proposición sobre los parámetros de una o
más poblaciones
Hipótesis nula:
• Especifica el valor que toma el parámetro de la
población en estudio. Se simboliza por H0
Hipótesis alternativa:
• Conclusión que se acepta cuando los datos no
apoyan la hipótesis nula. Se simboliza por H1
Ejemplo 1: Se juzga a un individuo por la presunta comisión de un delito
Riesgos al tomar decisiones
H0: Hipótesis nula
 Es inocente
Los datos pueden refutarla
La que se acepta si las
pruebas no indican lo
contrario
Rechazarla por error tiene
graves consecuencias.
No debería ser aceptada sin
una gran evidencia a favor.
Rechazarla por error tiene
consecuencias consideradas
menos graves que la anterior.
H1: Hipótesis alternativa
 Es culpable
Ejemplo 2: Se cree que un nuevo tratamiento ofrece buenos resultados
Ejemplo 3: Pareciera que hay mayor incidencia de una enfermedad
Riesgos al contrastar hipótesis
H0: Hipótesis nula
 (Ej.1) Es inocente
 (Ej. 2) El nuevo tratamiento no tiene efecto
 (Ej. 3) La incidencia no ha cambiado
No especulativa
EspeculativaH1: Hipótesis alternativa
 (Ej. 1) Es culpable
 (Ej. 2) El nuevo tratamiento es útil
 (Ej. 3) Hay mayor incidencia de la enfermedad
Nivel de Significancia (α)
Valor que indica el porcentaje de valores muestrales
que se encuentran fuera de ciertos límites,
suponiendo que la hipótesis nula sea correcta.
Probabilidad de rechazar la hipótesis
nula cuando es verdadera.
Tipos de error al contrastar hipótesis
Error de tipo I
• Rechazo de una hipótesis nula cuando es verdadera.
• Probabilidad de cometer este error: Nivel de
significancia
• Se denota con la letra griega α
• Valores fijados de antemano: α = 0,05 α = 0,01
Tipos de error al contrastar hipótesis
Error de tipo II
• No rechazo una hipótesis nula siendo falsa.
• La probabilidad de cometer este error se denota
con la letra griega β
Tipos de error al contrastar hipótesis
Distribución t de Student
• Es una prueba estadística para evaluar si
dos grupos difieren entre sí de manera
significativa respecto a sus medias.
• Se simboliza por la letra “t”.
Es análoga a la distribución Z
Sx corresponde al error estándar de la muestra, el
que puede ser definido por el error en el muestreo, o
la desviación promedio de un estimado de los
valores reales de la población.



Xi
Z
xS
X
t


xS
X
t


n
S
S x
2

n
S
S x
2

“Dependiendo de lo que estemos
interesados en probar o inferir
sobre la población, la prueba de
hipótesis va a ser una o dos colas”
• Nos interesa determinar si existe o no
diferencia entre dos medias:
H0: Media A = Media B
H1: Media A  Media B
Hipótesis de dos colas (/2)
Áreas de aceptación y rechazo en
t-test de dos colas.
H0: Media A = Media B
H1: Media A  Media B
Región de rechazo Región de rechazo
Región de aceptación
1 – /2 /2
• Se aplica cuando existe una presunción de que
no solo existen diferencia entre las muestras.
• Inferimos si el tratamiento producirá una
diferencia orientada en alguna dirección en
particular.
• La región de rechazo corresponde a un lado de
la distribución.
Hipótesis de una cola (/1)
Áreas de aceptación y rechazo en
t-test de una cola.
H0: Media A ≥ Media B
H1: Media A  Media B
Región de rechazo
Región de aceptación
1 –  
Áreas de aceptación y rechazo en
t-test de dos colas.
H0: Media A  Media B
H1: Media A  Media B
Región de rechazo
Región de aceptación
1 – 
Ejemplo
• Mediciones de la concentración de monóxido de
carbono en el aire mg/m3 realizadas dentro de un taller
mecánico.
• La concentración máxima permitida es de 10,00 mg/m3
¿Las mediciones se diferencian del valor permitido?
10,25 10,37 10,66 10,47 10,56 10,22 10,44 10,38 10,48
10,63 10,40 10,39 10,26 10,32 10,35 10,54 10,33 10,68
Ejemplo
¿Cual sería la hipótesis?:
Ho: Media = 10,00 mg/m3
Ha: Media  10,00 mg/m3
10,25 10,37 10,66 10,47 10,56 10,22 10,44 10,38 10,48
10,63 10,40 10,39 10,26 10,32 10,35 10,54 10,33 10,68
T-test:
Calcular media, varianza, Error estándar (Sx)
xS
X
t


xS
X
t


n
S
Sx
2

n
S
Sx
2

Ejemplo
Resultados
Media = 10,43 mg/m3
Varianza = 0,019 mg/m3
Sx= 0,033 mg/m3
• Grados de libertad = n – 1 = 20 – 1 = 19
• El valor crítico se busca en la tabla
t 0,05 (2), 17 = 2,110
t =
10,43 − 10,00
0,033
= 13,43
Conclusión
• Se rechaza la Ho.
• Existen diferencias significativas entre la
concentración de dióxido de carbono
máxima permitida y los valores estimados
en el taller mecánico (t test P < 0,05)
¿La concentración de dióxido de
carbono es más alta que los
valores permitidos?
• Hipótesis:
Ho: Media Control (10,00 mg/m3)  Media del tratamiento
Ha: Media Control (10,00 mg/m3) < Media del tratamiento
t = 13,43
t 0,05 (1), 19 = 1,740
¿Conclusión?
“Las concentraciones de dióxido
de carbono estimadas en el taller
mecánico, son significativamente
mayores a la concentración de
dióxido de carbono máxima
permitida (t test P < 0,05)”
Ciencia:
Dormir la siesta eleva la inteligencia
Se concluyó tras un experimento que los estudiantes
resolvían mucho mejor los ejercicios si antes dormían
una siesta de 40 minutos.
La siesta "limpia" la memoria de corto plazo (nuestra
memoria RAM) dejando espacio para nueva
información y facilitando el aprendizaje.
La mejora es de un 40%, mientras que el efecto es
opuesto al quedarse toda la noche estudiando. Esto
sucede antes de comenzar a soñar, por lo cual es
suficiente dormir una hora.
Inferencia Estadística
para dos medias
Requisitos para aplicar el t-test:
• Ambas muestras son obtenidas al azar.
• Las muestras son independientes unas de otras.
• La variable debe ser continua.
• Las variables deber tener distribución normal.
• Las varianzas deben ser homocedásticas.
Independencia de las observaciones
• La ausencia de independencia
usualmente ocurre porque las
observaciones están
correlacionadas en el tiempo
o espacio.
>>> Mediciones de
concentración de arsénico río
arriba y río abajo desde el
punto donde se piensa que es
la fuente.
• La ausencia de independencia
usualmente ocurre porque las
observaciones están
correlacionadas en el tiempo
o espacio.
>>> Mediciones de
concentración de arsénico río
arriba y río abajo desde el
punto donde se piensa que es
la fuente.
Río arriba
Río abajo
Homocedásticidad de varianzas:
TEST DE FISHER (F)
• Trabaja verificando si las varianzas de los
grupos que estamos comparando son
significativamente iguales o distintas.
• Las hipótesis son:
– Ho: Existe homocedásticidad de varianzas
entre el grupo 1 y el grupo 2.
– Ha: No Existe homocedásticidad de varianzas
entre el grupo 1 y el grupo 2.
Cálculo de Fisher (F):
• Siempre se debe tener presente que la varianza
mayor debe ir en el numerador, y la menor en el
denominador.
• Los grados de libertad son: Gl= n1, n2
• El valor critico se busca en la tabla Fisher como :
F0.05 (2) n1,n2
2
2
2
1
S
S
F  2
2
2
1
S
S
F  2
1
2
2
S
S
F  2
1
2
2
S
S
F 
Para tener presente:
• El test de Fisher es un prerrequisito del
test de Student.
• Primero debemos determinar si las
varianzas son homocedásticas para
luego realizar la prueba de t
Otros datos…
• La capacidad del t-test se relaciona
directamente con el cumplimiento de sus
requisitos.
• Si éstos no se cumplen existen otras
alternativas (pruebas no paramétricas).
• En general, si se aumenta el tamaño de las
muestras el test tiende a ser más robusto.
PRUEBA DE DOS MEDIAS
ECUACIÓN BÁSICA
t
X
s n

 
/
PRUEBA DE DOS MEDIAS
ECUACIÓN BÁSICA
21
21
YYS
YY
t



PRUEBA DE DOS MEDIAS
El cálculo de SY1-Y2, depende de los
siguientes aspectos:
1. Si las dos poblaciones tienen una
varianza común 2.
2. Los valores de los 2, o el 2 común, se
conocen o se estiman.
3. Las dos muestras son del mismo tamaño
PRUEBA DE DOS MEDIAS
Comparación de dos medias muestrales,
Muestras independientes y varianzas iguales
21
)()( 2211
YYS
YY
t




21
)()( 2121
YYS
YY
t




21
21
YYS
YY
t



PRUEBA DE DOS MEDIAS
Caso 1: Prueba de t cuando n1  n2
• Calcúlese S Y1 – Y2 mediante:
21
2
2
21
2
1
21
nn
nsns
S YY


En este caso los grados de libertad son n1+ n2 - 2)
PRUEBA DE DOS MEDIAS
Caso 2: Prueba de t cuando n1 = n2 = n
Se aplica el mismo procedimiento señalado en el caso
1, SY1 – Y2
n
s
YYS
2
21
2

s2 es el promedio de las varianzas muestrales.
En este caso los grados de libertad son 2(n – 1)
PRUEBA DE DOS MEDIAS
Caso 3: Prueba de t cuando  es conocida
• En este caso el criterio de la prueba se convierte
en:
21
21
2
21
)(
nn
nn
YY
zt




Prueba de dos medias: Ejemplo
• La duración media de una muestra aleatoria de
10 bombillos es x = 1250 horas, con una
desviación típica muestral de sX = 115.
• Se cambia el material del filamento por otro nuevo
y entonces de una nueva muestra aleatoria de 12
bombillos se obtuvo una duración media de y =
1340 con sY = 106.
¿Ha aumentado la duración media de los bombillos?
Prueba de dos medias: Ejemplo
• La actividad agrícola induce cambios en las propiedades
del suelo, por lo cual un investigador evaluó la
macroporosidad del suelo bajo dos tipos de uso de la
tierra y obtuvo los siguientes resultados:
TUT - 1 10,9 10,2 11,0 10,7 9,5 11,2 10,4 9,6 10,7 10,9 10,0 9,3 10,4 10,1 10,6
TUT - 2 12,6 11,5 12,9 12,7 11,1 12,2 12,2 12,4 11,5 12,2 12,5 12,6 12,4 11,7 12,6
Plantear hipótesis.
Realizar el test.
Conclusión.
Plantear hipótesis.
Realizar el test.
Conclusión.
• Un viverista, desea utilizar un nuevo tipo de
fertilizante aparecido en el mercado que
promociona un mejor crecimiento que el
fertilizante que ha utilizado siempre.
• El viverista era un genio en estadística y
diseñó un experimento para probar si el nuevo
fertilizante produce plantas más grandes que el
antiguo.
Prueba de dos medias: Ejemplo
Los datos son: Crecimiento de plantas (cm) después
de dos meses de plantadas:
Fertilizante viejo Fertilizante nuevo
48,2 52,3
54,6 57,4
58,3 55,6
47,8 53,2
51,4 61,3
52,0 58,0
55,2 59,8
49,1 54,8
49,9
52,6
Plantear hipótesis.
Realizar el test.
Conclusión.
Plantear hipótesis.
Realizar el test.
Conclusión.
t-test para muestras independientes
• En el test de muestras
independientes, no existe una
correlación experimental o
“asociación” entre las
observaciones (muestras) de
los dos grupos.
• Ejemplo: Peso a los 6 meses
de una muestra aleatoria de
diferentes cerdos alimentados
con dos dietas distintas.
• En el test de muestras
independientes, no existe una
correlación experimental o
“asociación” entre las
observaciones (muestras) de
los dos grupos.
• Ejemplo: Peso a los 6 meses
de una muestra aleatoria de
diferentes cerdos alimentados
con dos dietas distintas.
1 2
Dieta
t-test para muestras agrupadas
• En los test de muestras
pareadas, las observaciones
(muestras) en un grupo se
encuentran relacionadas con las
observaciones en el otro grupo.
• Ejemplo: Peso a los 6 meses de
2 cerdos, ambos de la misma
madre, alimentados con
diferentes dietas.
• En los test de muestras
pareadas, las observaciones
(muestras) en un grupo se
encuentran relacionadas con las
observaciones en el otro grupo.
• Ejemplo: Peso a los 6 meses de
2 cerdos, ambos de la misma
madre, alimentados con
diferentes dietas.
1 2
Dieta
Progenitora
Test student para muestras agrupadas
• En este tipo de test, las muestras del grupo
1 se encuentran relacionadas con las del
grupo 2.
• Es decir se encuentran “Pareados”.
• Aquí no se analizan los datos originales,
sino que se trabaja con las diferencias
entre los miembros de cada par.
Queremos verificar la hipótesis nula de que el largo de la pata
delantera y la pata trasera de los venados del Parque “La Guaricha”,
es el mismo, De esta manera los datos son tabulados en pares
Venado
Pata Delantera
(X1)
Pata Trasera
(X2)
Diferencia
(d = X1 – X2)
1 142 138 4
2 140 136 4
3 144 147 -3
4 144 139 5
5 142 143 -1
6 146 141 5
7 149 143 6
8 150 145 5
9 142 136 6
10 148 146 2
Ejemplo:
Cálculo del test:
• Las hipótesis estadísticas son:
• Ho: μ1 – μ2 = 0 o Ho: μd = 0
• Ha: μ1 – μ2  0 o Ha: μd  0
• Las formulas del test son:
donde Sd (error estándar) es:
• Los grados de libertad son: Gl= n-1
d
s
d
t 
d
s
d
t 
n
n
ddi
Sd
1
)( 2




n
n
ddi
Sd
1
)( 2




A que se
parece esto?
Para el ejemplo:
Venado
Pata Delantera
(X1)
Pata Trasera
(X2)
Diferencia
(d = X1 – X2)
1 142 138 4
2 140 136 4
3 144 147 -3
4 144 139 5
5 142 143 -1
6 146 141 5
7 149 143 6
8 150 145 5
9 142 136 6
10 148 146 2
n = 10
Gl = 10-1 = 9
d media= 3,3 cm
S2
d = 9,34 cm2
cmSd
97,0
10
3444,9
 cmSd
97,0
10
3444,9
 402,3
97,0
3,3

cm
t 402,3
97,0
3,3

cm
t t0,05(2),9= 2,262t0,05(2),9= 2,262
¿CONCLUSIÓN?
Se rechaza Ho.
Se determinó que el largo de las
patas delanteras de los venados
del Parque “La Guaricha” difiere
significativamente con el largo
de las patas traseras
(t-test 0,005 < P < 0,01),
Prueba de t – medias agrupadas:
Ejemplo
Ejemplo:
Se esta probando la efectividad de una droga que permite bajar
de peso. El medicamento se le administró a 9 voluntarios a los
que se les midió la cantidad de grasa corporal (kg) antes y
después de dos semanas de iniciado el tratamiento.
Plantear hipótesis.
Realizar el test.
Conclusión.
Plantear hipótesis.
Realizar el test.
Conclusión.
Antes Después
1 22,50 19,20
2 24,10 20,20
3 22,60 20,60
4 22,00 19,60
5 23,60 19,60
6 23,20 21,40
7 22,40 19,80
8 23,00 19,40
9 20,90 17,90
Para tener en cuenta:
• El t-test de pares agrupados no asume
normalidad de los datos.
• Tampoco asume homocedásticidad de las
varianzas.
• Pero si asume que las diferencias de los
pares si se distribuyen de forma normal.
Un poco mas del t-test.
• Solo se han analizado casos desde
comparamos dos grupos.
• ¿Porque no comparar mas de dos
grupos?
Riesgo de cometer un error de tipo I
Corrección de Bonferroni:
– Se aplica para realizar este tipo
de comparaciones múltiples.
– Produce un cambio en el valor
de  (0,05).
– Para corregir se divide el valor
de  por el número (P) de
comparaciones.
– De esta manera ´=  / P.
Número de
Comparaciones
% Riesgo de
cometer error
Tipo I
2 5
3 12
4 20
6 37
8 51
10 63
Para 5 comparaciones:
´=0,05/5 = 0,01
4.  estadistica inferencial
4.  estadistica inferencial

Más contenido relacionado

La actualidad más candente

Cálculo del tamaño de muestra (con ejemplos)
Cálculo del tamaño de muestra  (con ejemplos)Cálculo del tamaño de muestra  (con ejemplos)
Cálculo del tamaño de muestra (con ejemplos)
Filomeno Carvajal
 
Ensayo de estadística inferencial
Ensayo de estadística inferencialEnsayo de estadística inferencial
Ensayo de estadística inferencial
thomas669
 

La actualidad más candente (20)

Tipos de muestreos
Tipos de muestreosTipos de muestreos
Tipos de muestreos
 
Población y Muestra
Población y MuestraPoblación y Muestra
Población y Muestra
 
Distribuciones Continuas de Probabilidad
Distribuciones Continuas de ProbabilidadDistribuciones Continuas de Probabilidad
Distribuciones Continuas de Probabilidad
 
Estadística Inferencial
Estadística Inferencial Estadística Inferencial
Estadística Inferencial
 
Presentacion estadistica descriptiva
Presentacion estadistica descriptivaPresentacion estadistica descriptiva
Presentacion estadistica descriptiva
 
Estadística descriptiva e inferencial
Estadística descriptiva e inferencialEstadística descriptiva e inferencial
Estadística descriptiva e inferencial
 
DISTRIBUCION DE FRECUENCIAS
DISTRIBUCION DE FRECUENCIASDISTRIBUCION DE FRECUENCIAS
DISTRIBUCION DE FRECUENCIAS
 
Prueba de hipotesis estadistica
Prueba de hipotesis estadisticaPrueba de hipotesis estadistica
Prueba de hipotesis estadistica
 
Medidas de Tendencia Central
Medidas de Tendencia CentralMedidas de Tendencia Central
Medidas de Tendencia Central
 
Cálculo del tamaño de muestra (con ejemplos)
Cálculo del tamaño de muestra  (con ejemplos)Cálculo del tamaño de muestra  (con ejemplos)
Cálculo del tamaño de muestra (con ejemplos)
 
Escalas o Niveles de medición (estadística)
Escalas o Niveles de medición (estadística)Escalas o Niveles de medición (estadística)
Escalas o Niveles de medición (estadística)
 
PoblacióN Y Muestra
PoblacióN Y MuestraPoblacióN Y Muestra
PoblacióN Y Muestra
 
Tipos de Muestreo
Tipos de MuestreoTipos de Muestreo
Tipos de Muestreo
 
Medidas de dispersion
Medidas de dispersionMedidas de dispersion
Medidas de dispersion
 
Análisis de correlación y regresión lineal simple
Análisis de correlación y regresión lineal simpleAnálisis de correlación y regresión lineal simple
Análisis de correlación y regresión lineal simple
 
INFERENCIA REFERENTE A MEDIAS Y VARIANZAS
INFERENCIA REFERENTE A MEDIAS Y VARIANZASINFERENCIA REFERENTE A MEDIAS Y VARIANZAS
INFERENCIA REFERENTE A MEDIAS Y VARIANZAS
 
Medidas de Tendencia Central, Posición y Dispersión
Medidas de Tendencia Central, Posición y DispersiónMedidas de Tendencia Central, Posición y Dispersión
Medidas de Tendencia Central, Posición y Dispersión
 
Muestreo Estadístico
Muestreo EstadísticoMuestreo Estadístico
Muestreo Estadístico
 
Ensayo de estadística inferencial
Ensayo de estadística inferencialEnsayo de estadística inferencial
Ensayo de estadística inferencial
 
Muestreo Probabilístico y sus Métodos
Muestreo Probabilístico y sus MétodosMuestreo Probabilístico y sus Métodos
Muestreo Probabilístico y sus Métodos
 

Destacado

CONTRATACIÓN INFORMÁTICA
CONTRATACIÓN INFORMÁTICACONTRATACIÓN INFORMÁTICA
CONTRATACIÓN INFORMÁTICA
GRECIAGALLEGOS
 
La escuela en la sociedad de la información. La escuela 2.0
La escuela en la sociedad de la información. La escuela 2.0La escuela en la sociedad de la información. La escuela 2.0
La escuela en la sociedad de la información. La escuela 2.0
adromera
 
Presentacion de prezi
Presentacion de preziPresentacion de prezi
Presentacion de prezi
Maria Rojas
 

Destacado (20)

taller 2 algoritmos
taller 2 algoritmostaller 2 algoritmos
taller 2 algoritmos
 
LOS PLANETAS LJTL
LOS PLANETAS LJTLLOS PLANETAS LJTL
LOS PLANETAS LJTL
 
Blogger
BloggerBlogger
Blogger
 
La drogadicción 2
La drogadicción 2La drogadicción 2
La drogadicción 2
 
Poder ciudadano-UFT-2015-
Poder ciudadano-UFT-2015-Poder ciudadano-UFT-2015-
Poder ciudadano-UFT-2015-
 
Trabajo de diapositivas lecutra
Trabajo de diapositivas lecutraTrabajo de diapositivas lecutra
Trabajo de diapositivas lecutra
 
CONTRATACIÓN INFORMÁTICA
CONTRATACIÓN INFORMÁTICACONTRATACIÓN INFORMÁTICA
CONTRATACIÓN INFORMÁTICA
 
La escuela en la sociedad de la información. La escuela 2.0
La escuela en la sociedad de la información. La escuela 2.0La escuela en la sociedad de la información. La escuela 2.0
La escuela en la sociedad de la información. La escuela 2.0
 
Encuesta
Encuesta Encuesta
Encuesta
 
Educación ambiental
Educación ambientalEducación ambiental
Educación ambiental
 
La tecnología en la educación del siglo xxi
La tecnología en la educación del siglo xxiLa tecnología en la educación del siglo xxi
La tecnología en la educación del siglo xxi
 
diseño curricular
diseño curriculardiseño curricular
diseño curricular
 
Importancia de la lectura y momentos
Importancia de la lectura y momentosImportancia de la lectura y momentos
Importancia de la lectura y momentos
 
CARIÑO
CARIÑOCARIÑO
CARIÑO
 
Que es la encuadernacion
Que es la encuadernacionQue es la encuadernacion
Que es la encuadernacion
 
Power point tema 1
Power point tema 1Power point tema 1
Power point tema 1
 
Scratch
ScratchScratch
Scratch
 
Google
GoogleGoogle
Google
 
Tutorial writer
Tutorial writerTutorial writer
Tutorial writer
 
Presentacion de prezi
Presentacion de preziPresentacion de prezi
Presentacion de prezi
 

Similar a 4. estadistica inferencial

Intervalos de confianza-1
Intervalos de confianza-1Intervalos de confianza-1
Intervalos de confianza-1
Hector Funes
 

Similar a 4. estadistica inferencial (20)

PRUEBA DE LA MEDIA.pptx
PRUEBA DE LA MEDIA.pptxPRUEBA DE LA MEDIA.pptx
PRUEBA DE LA MEDIA.pptx
 
Distribución muéstrales y estimación
Distribución muéstrales y estimaciónDistribución muéstrales y estimación
Distribución muéstrales y estimación
 
Segunda actividad estadistica ii
Segunda actividad estadistica iiSegunda actividad estadistica ii
Segunda actividad estadistica ii
 
Estimación de parámetros para muestras grandes
Estimación de parámetros para muestras grandes Estimación de parámetros para muestras grandes
Estimación de parámetros para muestras grandes
 
Clase 5- Población y muestra.pdf
Clase 5- Población y muestra.pdfClase 5- Población y muestra.pdf
Clase 5- Población y muestra.pdf
 
Teoria y tecnicas de decision
Teoria y tecnicas de decisionTeoria y tecnicas de decision
Teoria y tecnicas de decision
 
Distribución muestral (3)
Distribución muestral (3)Distribución muestral (3)
Distribución muestral (3)
 
Distribuciones Muestrales y Estimación de los Parámetros de una Población
Distribuciones Muestrales y Estimación de los Parámetros de una PoblaciónDistribuciones Muestrales y Estimación de los Parámetros de una Población
Distribuciones Muestrales y Estimación de los Parámetros de una Población
 
Semana de la estadistica 8vo
Semana de la estadistica 8voSemana de la estadistica 8vo
Semana de la estadistica 8vo
 
Estimar con estadística v1
Estimar con estadística v1Estimar con estadística v1
Estimar con estadística v1
 
Distribuciones muestrales y estimación de los parámetros poblacionales
Distribuciones muestrales y estimación de los parámetros poblacionalesDistribuciones muestrales y estimación de los parámetros poblacionales
Distribuciones muestrales y estimación de los parámetros poblacionales
 
8 muestreo aleatorio
8 muestreo aleatorio8 muestreo aleatorio
8 muestreo aleatorio
 
Muestreo estadistico corregido_con_muestra
Muestreo estadistico corregido_con_muestraMuestreo estadistico corregido_con_muestra
Muestreo estadistico corregido_con_muestra
 
1ra clase.ppt
1ra clase.ppt 1ra clase.ppt
1ra clase.ppt
 
Estimacion puntual
Estimacion puntualEstimacion puntual
Estimacion puntual
 
Esta di stica descriptiva
Esta di stica descriptivaEsta di stica descriptiva
Esta di stica descriptiva
 
Unidad 5 Inferencia estadística
Unidad 5 Inferencia estadísticaUnidad 5 Inferencia estadística
Unidad 5 Inferencia estadística
 
Hipotesis Estadistica
Hipotesis EstadisticaHipotesis Estadistica
Hipotesis Estadistica
 
Intervalos de confianza-1
Intervalos de confianza-1Intervalos de confianza-1
Intervalos de confianza-1
 
Distribucion muestrales y estimacion presentacion
Distribucion muestrales y estimacion presentacionDistribucion muestrales y estimacion presentacion
Distribucion muestrales y estimacion presentacion
 

Más de rbarriosm

Mariana Ghassibe - Estado del arte del orden Lepidóptera - Familia Noctuidae ...
Mariana Ghassibe - Estado del arte del orden Lepidóptera - Familia Noctuidae ...Mariana Ghassibe - Estado del arte del orden Lepidóptera - Familia Noctuidae ...
Mariana Ghassibe - Estado del arte del orden Lepidóptera - Familia Noctuidae ...
rbarriosm
 
8 arreglos en parcelas divididas 2015
8   arreglos en parcelas divididas 20158   arreglos en parcelas divididas 2015
8 arreglos en parcelas divididas 2015
rbarriosm
 
7 arreglos factoriales 2015
7   arreglos factoriales 20157   arreglos factoriales 2015
7 arreglos factoriales 2015
rbarriosm
 
6 diseños completamente aleatorizado y bloques al azar
6   diseños completamente aleatorizado y bloques al azar6   diseños completamente aleatorizado y bloques al azar
6 diseños completamente aleatorizado y bloques al azar
rbarriosm
 
5. diseño de experimentos - principios
5.  diseño de experimentos - principios5.  diseño de experimentos - principios
5. diseño de experimentos - principios
rbarriosm
 
3 medidas de tendencia central y de dispersion
3   medidas de tendencia central y de dispersion3   medidas de tendencia central y de dispersion
3 medidas de tendencia central y de dispersion
rbarriosm
 
1 introducción. curso estadistica 2015
1   introducción. curso estadistica 20151   introducción. curso estadistica 2015
1 introducción. curso estadistica 2015
rbarriosm
 
2 organizacion de la data estadistica
2   organizacion de la data estadistica2   organizacion de la data estadistica
2 organizacion de la data estadistica
rbarriosm
 

Más de rbarriosm (10)

Mariana Ghassibe - Estado del arte del orden Lepidóptera - Familia Noctuidae ...
Mariana Ghassibe - Estado del arte del orden Lepidóptera - Familia Noctuidae ...Mariana Ghassibe - Estado del arte del orden Lepidóptera - Familia Noctuidae ...
Mariana Ghassibe - Estado del arte del orden Lepidóptera - Familia Noctuidae ...
 
2. limitaciones y usos de la tierra en venezuela 2015
2.  limitaciones y usos de la tierra en venezuela 20152.  limitaciones y usos de la tierra en venezuela 2015
2. limitaciones y usos de la tierra en venezuela 2015
 
Manejo de suelos - principios y estrategias - pdf
Manejo de suelos - principios y estrategias - pdfManejo de suelos - principios y estrategias - pdf
Manejo de suelos - principios y estrategias - pdf
 
8 arreglos en parcelas divididas 2015
8   arreglos en parcelas divididas 20158   arreglos en parcelas divididas 2015
8 arreglos en parcelas divididas 2015
 
7 arreglos factoriales 2015
7   arreglos factoriales 20157   arreglos factoriales 2015
7 arreglos factoriales 2015
 
6 diseños completamente aleatorizado y bloques al azar
6   diseños completamente aleatorizado y bloques al azar6   diseños completamente aleatorizado y bloques al azar
6 diseños completamente aleatorizado y bloques al azar
 
5. diseño de experimentos - principios
5.  diseño de experimentos - principios5.  diseño de experimentos - principios
5. diseño de experimentos - principios
 
3 medidas de tendencia central y de dispersion
3   medidas de tendencia central y de dispersion3   medidas de tendencia central y de dispersion
3 medidas de tendencia central y de dispersion
 
1 introducción. curso estadistica 2015
1   introducción. curso estadistica 20151   introducción. curso estadistica 2015
1 introducción. curso estadistica 2015
 
2 organizacion de la data estadistica
2   organizacion de la data estadistica2   organizacion de la data estadistica
2 organizacion de la data estadistica
 

4. estadistica inferencial

  • 1. Renny Barrios M. (M. Sc.) Ramón Silva-Acuña (Ph. D) Maturín, Mayo 2015 Inferencia Estadística: Estimación y Prueba de Hipótesis Núcleo Monagas Campus Juanico Postgrado en Agricultura Tropical Universidad de Oriente
  • 2. Definición de Estadística La Estadística es la ciencia de la • sistematización, recogida, ordenación y presentación de los datos referentes a un fenómeno que presenta variabilidad o incertidumbre para su estudio metódico, con objeto de • deducir las leyes que rigen esos fenómenos • y poder hacer previsiones sobre los mismos, tomar decisiones u obtener conclusiones. Estadística Descriptiva Probabilidad Estadística Inferencial
  • 3. Estadística inferencial Proporciona métodos para estimar las características de un grupo (población) basándose en los datos de un conjunto pequeño (muestra).
  • 4. Población y muestra • Población: es el conjunto sobre el que estamos interesados en obtener conclusiones (hacer inferencia). Normalmente es demasiado grande para poder abarcarlo. • Muestra: es un subconjunto suyo al que tenemos acceso y sobre el que realmente hacemos las observaciones (mediciones)  Debería ser “representativo”  Formado por miembros “seleccionados” de la población (individuos, unidades experimentales).
  • 5. Parámetros y estadísticos • Parámetro: Es una cantidad numérica calculada sobre una población. – La altura media de los individuos de un país. – La idea es resumir toda la información que hay en la población en unos pocos números (parámetros). • Estadístico: Es una cantidad numérica calculada sobre una muestra. – La altura media de los que estamos en este aula. – Si un estadístico se usa para aproximar un parámetro también se le suele llamar estimador.
  • 6. Propiedades de un buen estimador • Insesgado: La esperanza del estimador es igual al valor del parámetro que se desea estimar. • Consistente: A medida que el tamaño de la muestra aumenta el estimador debe tender al valor del parámetro y su variancia debe tender a cero
  • 7. Una situación supuesta • Contamos con una población integrada por 100 individuos; es decir N=100 • La media de la población es 50; es decir μ=50 • La variabilidad de la población es de 10; es decir  = 10 N = 100 μ = 50  = 10
  • 8. ¿Y si tomamos una muestra? • El promedio de la muestra no coincide con el de la población… • La diferencia entre el valor muestral y el poblacional se denomina error muestral. En este caso, EM = 43,6 – 50 = - 6,4 • Es el costo que pagamos por no haber efectuado un censo N = 100; μ = 50;  = 10
  • 9. ¿Y si tomáramos otra muestra? • Los parámetros se calculan sobre los N valores de la población, no cambian a menos que cambie la población, son constantes. • Los estimadores se calculan sobre n valores muestrales, por lo tanto varían de muestra en muestra y por lo tanto son variables aleatorias. N = 100; μ = 50;  = 10
  • 10. Si repitiésemos este proceso muchas veces, ¿Qué comportamiento esperaríamos para los 75 287 520 promedios muestrales posibles? N = 100; μ = 50;  = 10
  • 11. Distribuciones muestrales • Definición: La distribución muestral de un estimador es la distribución de probabilidades de todos los posibles valores de un estimador que se pueden obtener extrayendo infinitas muestras aleatorias de tamaño n de la población. • La distribución de un estimador, como la de cualquier variable aleatoria, se pueden caracterizar por: – tendencia central – variabilidad – función de probabilidad
  • 13. Distribución muestral de • ¿Y si promediamos todas las medias muestrales? • ¿Cuál será la variabilidad de las medias muestrales? La desviación estándar de un estimador se conoce como error estándar y da idea de la precisión en la estimación Estimador Insesgado
  • 15. ¿Y si los datos originales no siguen una distribución normal?
  • 16. • La distribución de las medias muestrales sí tiene distribución aproximadamente normal. • La media de esta nueva variable (promedio muestral) es muy parecida a la de la variable original. • Las observaciones de la nueva variable están menos dispersas. Distribución muestral de la media
  • 17. En Resumen • Si la variable original es normal, entonces será normal, para cualquier n • Si la variable original es aproximadamente simétrica y unimodal, entonces tenderá a una distribución aproximadamente normal para n relativamente bajos • Si la variable original es marcadamente asimétrica, entonces n deberá ser de mayor para que la distribución de sea normal
  • 18. Distribuciones para muestras grandes Si de una población con distribución no normal o desconocida con media µ y desviación estándar  se extraen infinitas muestras aleatorias de tamaño n y a cada una de ellas se le calcula el promedio, se demuestra que éste se comporta según una distribución normal si n es lo suficientemente grande. LEY DE LOS GRANDES NUMEROS TEOREMA DEL LIMITE CENTRAL
  • 19. Distribuciones para muestras grandes: teorema del límite central Dada una variable aleatoria cualquiera, si extraemos muestras de tamaño n, y calculamos los promedios muestrales, entonces: – Dichos promedios tienen distribución aproximadamente normal. – La media de los promedios muestrales es la misma que la de la variable original. – La desviación típica de los promedios disminuye en un factor “raíz de n” (desviación estándar).
  • 20. Teorema del límite central  Sea x1, x2, ..., xn una muestra aleatoria de observaciones tomadas de la misma distribución y sea E(Xi) =  y Var(Xi) = 2.  Entonces la distribución muestral de la variable aleatoria: n x Z n / )(    El TLC se cumple aún cuando la distribución desde la que se toman las observaciones no sea normal, siempre que nos aseguramos que el tamaño de la muestra es grande, entonces podemos usar la variable Zn para responder preguntas acerca de la población de la cual provienen las observaciones. converge a la normal standard N (0, 1) cuando n tiende a infinito.
  • 21. Distribución muestral de cuando la desviación estándar poblacional es desconocida • En la práctica, los parámetros poblacionales son desconocidos… • Como se desconoce µ se utiliza su estimador s → mayor incertidumbre • No es correcto utilizar la distribución normal para • La media muestral en estos casos ajusta a una distribución conocida como t de Student n x Z n / )(    ns x tGL / )(  
  • 22. Distribución t de Student • Tiene forma acampanada como la normal estándar, pero su dispersión es mayor (es más aplanada). Esto se debe a que al desconocer  hay mayor incertidumbre • Es simétrica con respecto al cero, es decir que µ=0 • No se trata de una única curva, sino de infinitas curvas, cada una caracterizada por un parámetro denominado grados de libertad (GL) • Los GL indican el número de comparaciones posibles. Dependen del tamaño de la muestra y en este caso valen n-1 • A medida que aumentan los GL más se asemeja a la normal estándar (porque s converge a )
  • 23. Distribución muestral de cuando no se conoce  • Si el tamaño de la muestra es lo suficientemente grande o x es normal, la distribución de es t de Student, con n-1 grados de libertad • Por lo tanto es posible calcular probabilidades utilizando: ns x tn / )( 1   • La media de es: • La desviación estándar de es:
  • 24. A partir de los valores de una variable, proveniente de una muestra aleatoria, se obtiene una valor o un conjunto de valores para el parámetro de la población, o se comprueba un supuesto acerca de dicha población. Estadística Inferencial
  • 25. ¿Qué necesitamos para hacer inferencia? • Una muestra aleatoria • Observaciones independientes • Un tamaño de muestra lo suficientemente grande
  • 26. Algunas dudas que surgen… • ¿Es necesario sacar muchas (infinitas) muestras para poder aplicar el TCL? • ¿A mayor n más cerca del parámetro estará mi estimador? • ¿A mayor n menor variabilidad de los datos?
  • 27. Estimación • Las poblaciones son descritas mediante parámetros – Para variables cuantitativas, las poblaciones son descritas mediante μ y . – Para variables cualitativas, las poblaciones son descritas mediante p. • Si los valores de los parámetros son desconocidos, podemos estimarlos en base a muestras y esperamos que sean una buena aproximación al valor exacto
  • 28. Estimación Estimación puntual: Se calcula un valor simple a partir de la muestra a fin de estimar el parámetro Estimación por intervalo de confianza: Se calculan dos números para crear un rango de valores que se espera contenga al parámetro con una cierta probabilidad o nivel de confianza
  • 29. ¿Qué tan buena es la estimación? • El promedio de la muestra no coincide con el de la población… • La diferencia entre el valor muestral y el poblacional se denomina error muestral. En este caso, EM = 43,6 – 50 = - 6,4 • Es el costo que pagamos por no haber efectuado un censo N = 100; μ = 50;  = 10
  • 30. ¿Qué tan buena es la estimación? Error muestral • Distancia entre el estimador puntual y el verdadero valor del parámetro • Error que surge por estudiar a una parte de la población • Posee las mismas unidades que la variable en estudio • Magnitud desconocida y por lo tanto imposible de calcular con certeza • Disminuye cuando aumenta el tamaño de la muestra
  • 31. ¿Qué son los errores no muestrales? • Otros errores ajenos al muestreo: Diseño sesgado, problemas de codificación, encuestador, encuestado, lógicos, de concepción, etc. • No disminuyen cuando el tamaño de la muestra aumenta Muy difíciles de medir!!!
  • 32. ¿Qué tan buena es la estimación? Nivel de confianza • Es la probabilidad de que el intervalo contenga al parámetro • Se lo simboliza como 1- α • Lo fija el investigador. Valores típicos de 1-α =0,90; 0,95; 0,99 • Es la probabilidad de error (no contener al parámetro) y se la denomina también riesgo • Es el porcentaje de intervalos que se espera contengan al parámetro (para ese tamaño de muestra)
  • 33. Para que las estimaciones sean confiables se debe cumplir: • Muestreo aleatorio • Muestreo con reposición o bien n/N < 0,05 • La variable x debe tener distribución normal • Tamaño de muestra suficientemente grande (n≥30) • El desvío estándar poblacional s debe ser conocido
  • 34. ESTIMACIÓN DE PARÁMETROS A partir de los valores de una variable, proveniente de una muestra aleatoria, se obtiene una valor (estimación puntual), o un conjunto de valores (estimación por intervalos) para el parámetro de la población estudiada, con cierto nivel de confianza PRUEBA DE HIPÓTESIS A partir de los valores de una variable, proveniente de una muestra aleatoria, se decide si se rechaza o no el supuesto que plantea el investigador para el parámetro de la población estudiada, con cierta probabilidad de error Inferencia Estadística
  • 35. • Estimación: – Estimar o predecir el valor del parámetro. – “Cuáles son los valores más probables de o ?” • Prueba de Hipótesis: – Decidir acerca del valor de un parámetro basado en una idea preconcebida. – “La muestra provino de una población con = 5 o  =0,2?” Tipos de Inferencia
  • 36. • Ejemplo: –Un consumidor quiere estimar el precio promedio de casas similares en su ciudad antes de poner la suya en venta. Estimación: Estimar , el precio promedio de una casa Tipos de Inferencia
  • 37. Prueba de hipótesis: ¿Es el promedio de resistencia del acero nuevo, N , mayor que la resistencia promedio del acero viejo, V? • Ejemplo: Un fabricante quiere saber si un nuevo tipo de acero es más resistente a altas temperaturas que el tipo de acero viejo. Tipos de Inferencia
  • 38. • Si vamos a estimar parámetros o a probar hipótesis, la estadística suministra: – Métodos para hacer la inferencia. – Una medida numérica de la bondad o confiabilidad de la inferencia. Tipos de Inferencia
  • 39. Problema de estimación: ¿Por qué una encuesta de 1500 personas permite predecir bastante bien el resultado de una elección con 10 millones de votantes? ¿Cómo se consigue? ¿Cómo se mide la precisión del resultado?
  • 40. Problema de prueba de hipótesis: • Las normas de calidad exigen que, en un lote de 5000 bombillas, a lo sumo el 3% pueden durar menos de 1000 horas. • En un estudio de control de calidad de una fabrica de bombillas sería muy costoso examinar cada una. Se decide usar una muestra de 500 bombillas. Si obtenemos el 3,2% de bombillas defectuosas, ¿deberíamos declarar el lote completo defectuoso?
  • 41. Problema de estimación: Se busca precisar una característica totalmente desconocida de la población a partir de los datos obtenidos sobre una muestra. – Estimar el porcentaje de la población (10 millones) que votará por Popeye como diputado a partir de una muestra de 1500 votantes. – O estimar la duración promedio de las bombillas del lote de 5000, a partir de una muestra de 500.
  • 42. Problema de prueba de hipótesis: Se busca comprobar alguna información sobre la población a partir de los datos obtenidos de una muestra. – Popeye obtendrá más del 65% de los votos. – Menos del 3% de las bombillas del lote de 5000 duran menos de 1000 horas.
  • 43. El método es importante!!!
  • 44. Inferencia Estadística para una media Estimación
  • 45. Distribuciones para muestras grandes: teorema del límite central Dada una variable aleatoria cualquiera, si extraemos muestras de tamaño n, y calculamos los promedios muestrales, entonces: – Dichos promedios tienen distribución aproximadamente normal. – La media de los promedios muestrales es la misma que la de la variable original. – La desviación típica de los promedios disminuye en un factor “raíz de n” (desviación estándar).
  • 46. Intervalo de Confianza • Un par de números entre los cuales se estima que estará cierto valor desconocido con una determinada probabilidad de acierto. • Estos números determinan un intervalo, que se calcula a partir de datos de una muestra, y el valor desconocido es un parámetro poblacional. • La probabilidad de éxito en la estimación se representa con 1 - α y se denomina nivel de confianza. En estas circunstancias, α es el llamado error aleatorio o nivel de significación, y representa una medida de las posibilidades de fallar en la estimación mediante tal intervalo.
  • 47. Estimación de una Media >>> Estimador • z >>> Nivel de confianza – 95% = 1,96 – 99% = 2,58 • σ >>> Desviación estándar • n >>> Tamaño de la muestra
  • 48. Intervalos de Confianza • Ejemplo : Distribución de los niveles de colesterol en sangre de todos los varones que son hipertensos y que fuman. – Esta distribución es: • aproximadamente normal, • con una media desconocida:  = ?, • y una desviación estándar  = 46 mg / 100 ml.
  • 49. • Interesa calcular el nivel medio de colesterol en sangre. • Antes de elegir una muestra aleatoria, la probabilidad de que el intervalo contenga la verdadera media poblacional es de  = 0,95. Intervalos de Confianza ) n 46 1,96X, n 46 1,96X(  
  • 50. Intervalos de Confianza • En el caso de tomar una muestra tamaño 12 de la población de fumadores hipertensos y que además poseen un nivel medio de colesterol en sangre de x = 217 mg / 100 ml. • El intervalo de confianza de 95% para  es )243191( o ) 12 46 96,1217 12 46 96,1217(  
  • 51. Intervalos de Confianza • Este intervalo contiene el valor de 211 mg /100 ml, el nivel medio de colesterol en la sangre de todos los hombres de 20 a 74 años de edad sin importar si son hipertensos o fumadores. Interpretación 1 Se está 95 % seguro de que los límites 191 y 243 cubren la verdadera media .
  • 52. Intervalos de Confianza Interpretación 2: en términos de frecuencia. Si se tomaran 100 muestras aleatorias de tamaño 12 de esta población y utilizaran cada muestra para construir un intervalo de confianza de 95 %, se espera que: – 95 de los intervalos cubrirán la verdadera media poblacional  = 211 – 5 de los intervalos no cubrirán la verdadera media poblacional.
  • 53. Intervalos de Confianza Con la misma muestra de 12 hipertensos, se encuentra que los límites son )251183( ó ) 12 46 2,58217; 12 46 2,58(217   Para calcular un intervalo de confianza de 99% para .
  • 54. Intervalos de Confianza Interpretación: • Un 99% de confianza de este intervalo cubre el verdadero nivel medio de colesterol en sangre de la población. • La amplitud de intervalo de confianza de 99% es de 251 - 183 = 68 mg/ 100 ml. • Este intervalo es más amplio que el correspondiente intervalo de confianza de 95%.
  • 55. Intervalos de Confianza Analizando en el sentido del tamaño muestral: ¿Qué dimensiones debe tener una muestra para que la amplitud del intervalo se reduzca a solo 20 mg/100 ml?
  • 56. Intervalos de Confianza Consideraciones: Ya que el intervalo se centra en la media de muestreo x=217 mg/ 100 ml, interesa el tamaño de la muestra necesario para generar el intervalo (217-10, 217+10) ó (207, 227)
  • 57. Intervalos de Confianza • Para determinar el tamaño n que se requiere de la muestra, se debe resolver la ecuación n = 140,8
  • 58. Intervalos de Confianza • Se necesita una muestra de 141 hombres para reducir la amplitud del intervalo de confianza de 99% a 20 mg/100 ml. • Aunque la media de muestreo de 217 mg/100 ml se ubica en el centro del intervalo, no desempeña ningún papel en la determinación de su amplitud; la amplitud es función de , n y el nivel de confianza.
  • 59. Intervalos de Confianza • Importante: Cuando las muestras aleatorias son cada vez más grandes, la variabilidad de X se torna más pequeño. Sin embargo la variabilidad inherente de la población estudiada, medida por , siempre se encuentra presente.
  • 60. Cálculo del Intervalo de Confianza Un supervisor de control de calidad de “Sardinas La Gaviota” sabe que la cantidad exacta en cada lata varía, pues hay ciertos factores imposibles de controlar que afectan a la cantidad de llenado. El contenido estipulado en la etiqueta es de 80 g. El llenado promedio por lata es importante, pero igualmente importante es la variación s2 de la cantidad de llenado. Si s2 es grande, algunas latas contendrán muy poco, y otras, demasiado. A fin de estimar la variación del llenado en la enlatadora, el supervisor escoge al azar 10 latas y pesa el contenido de cada una, obteniendo el siguiente pesaje (en gramos): 78,6 80,5 76,0 77,8 84,1 74,7 83,3 81,2 85,4 80,2 Establezca un intervalo de confianza de 95% para la verdadera variación del llenado de latas en la enlatadora.
  • 61. Cálculo del Intervalo de Confianza Una empresa dedicada a la fabricación de alimento concentrado para cerdos tiene un contrato para suministrar 5 toneladas de alimento con 21% de proteínas. Debido a la baja ganancia en peso de los cerdos, el productor contratante sospecha que el alimento concentrado no tiene el contenido de proteína contratado. Para analizar este aspecto se tomaron muestras de 15 sacos distintos y se obtuvo lo siguiente: 21,2 20,4 21,3 21,9 19,2 20,4 20,8 21,9 21,1 20,8 19,3 19,8 20,7 19,9 21,1
  • 62. Cálculo del Intervalo de Confianza 1. Calcular un intervalo de confianza del 99% para el contenido de proteína muestreados. 2. Sin realizar los cálculos, determinar si un intervalo de confianza del 95% para la media poblacional tendría mayor, menor o la misma longitud que el caso anterior. 3. Hallar el tamaño muestral necesario para calcular un intervalo de confianza del 99% para el diámetro de ejes medio, cuya amplitud a cada lado de la media muestral sea igual a 0,5.
  • 63.
  • 64. Inferencia Estadística para una muestra Prueba de Hipótesis
  • 65. Formulación de Hipótesis Hipótesis estadística: • Proposición sobre los parámetros de una o más poblaciones Hipótesis nula: • Especifica el valor que toma el parámetro de la población en estudio. Se simboliza por H0 Hipótesis alternativa: • Conclusión que se acepta cuando los datos no apoyan la hipótesis nula. Se simboliza por H1
  • 66. Ejemplo 1: Se juzga a un individuo por la presunta comisión de un delito Riesgos al tomar decisiones H0: Hipótesis nula  Es inocente Los datos pueden refutarla La que se acepta si las pruebas no indican lo contrario Rechazarla por error tiene graves consecuencias. No debería ser aceptada sin una gran evidencia a favor. Rechazarla por error tiene consecuencias consideradas menos graves que la anterior. H1: Hipótesis alternativa  Es culpable
  • 67. Ejemplo 2: Se cree que un nuevo tratamiento ofrece buenos resultados Ejemplo 3: Pareciera que hay mayor incidencia de una enfermedad Riesgos al contrastar hipótesis H0: Hipótesis nula  (Ej.1) Es inocente  (Ej. 2) El nuevo tratamiento no tiene efecto  (Ej. 3) La incidencia no ha cambiado No especulativa EspeculativaH1: Hipótesis alternativa  (Ej. 1) Es culpable  (Ej. 2) El nuevo tratamiento es útil  (Ej. 3) Hay mayor incidencia de la enfermedad
  • 68.
  • 69. Nivel de Significancia (α) Valor que indica el porcentaje de valores muestrales que se encuentran fuera de ciertos límites, suponiendo que la hipótesis nula sea correcta. Probabilidad de rechazar la hipótesis nula cuando es verdadera.
  • 70. Tipos de error al contrastar hipótesis Error de tipo I • Rechazo de una hipótesis nula cuando es verdadera. • Probabilidad de cometer este error: Nivel de significancia • Se denota con la letra griega α • Valores fijados de antemano: α = 0,05 α = 0,01
  • 71. Tipos de error al contrastar hipótesis Error de tipo II • No rechazo una hipótesis nula siendo falsa. • La probabilidad de cometer este error se denota con la letra griega β
  • 72. Tipos de error al contrastar hipótesis
  • 73.
  • 74.
  • 75. Distribución t de Student • Es una prueba estadística para evaluar si dos grupos difieren entre sí de manera significativa respecto a sus medias. • Se simboliza por la letra “t”.
  • 76. Es análoga a la distribución Z Sx corresponde al error estándar de la muestra, el que puede ser definido por el error en el muestreo, o la desviación promedio de un estimado de los valores reales de la población.    Xi Z xS X t   xS X t   n S S x 2  n S S x 2 
  • 77. “Dependiendo de lo que estemos interesados en probar o inferir sobre la población, la prueba de hipótesis va a ser una o dos colas”
  • 78. • Nos interesa determinar si existe o no diferencia entre dos medias: H0: Media A = Media B H1: Media A  Media B Hipótesis de dos colas (/2)
  • 79. Áreas de aceptación y rechazo en t-test de dos colas. H0: Media A = Media B H1: Media A  Media B Región de rechazo Región de rechazo Región de aceptación 1 – /2 /2
  • 80. • Se aplica cuando existe una presunción de que no solo existen diferencia entre las muestras. • Inferimos si el tratamiento producirá una diferencia orientada en alguna dirección en particular. • La región de rechazo corresponde a un lado de la distribución. Hipótesis de una cola (/1)
  • 81. Áreas de aceptación y rechazo en t-test de una cola. H0: Media A ≥ Media B H1: Media A  Media B Región de rechazo Región de aceptación 1 –  
  • 82. Áreas de aceptación y rechazo en t-test de dos colas. H0: Media A  Media B H1: Media A  Media B Región de rechazo Región de aceptación 1 – 
  • 83. Ejemplo • Mediciones de la concentración de monóxido de carbono en el aire mg/m3 realizadas dentro de un taller mecánico. • La concentración máxima permitida es de 10,00 mg/m3 ¿Las mediciones se diferencian del valor permitido? 10,25 10,37 10,66 10,47 10,56 10,22 10,44 10,38 10,48 10,63 10,40 10,39 10,26 10,32 10,35 10,54 10,33 10,68
  • 84. Ejemplo ¿Cual sería la hipótesis?: Ho: Media = 10,00 mg/m3 Ha: Media  10,00 mg/m3 10,25 10,37 10,66 10,47 10,56 10,22 10,44 10,38 10,48 10,63 10,40 10,39 10,26 10,32 10,35 10,54 10,33 10,68
  • 85. T-test: Calcular media, varianza, Error estándar (Sx) xS X t   xS X t   n S Sx 2  n S Sx 2  Ejemplo
  • 86. Resultados Media = 10,43 mg/m3 Varianza = 0,019 mg/m3 Sx= 0,033 mg/m3 • Grados de libertad = n – 1 = 20 – 1 = 19 • El valor crítico se busca en la tabla t 0,05 (2), 17 = 2,110 t = 10,43 − 10,00 0,033 = 13,43
  • 87. Conclusión • Se rechaza la Ho. • Existen diferencias significativas entre la concentración de dióxido de carbono máxima permitida y los valores estimados en el taller mecánico (t test P < 0,05)
  • 88. ¿La concentración de dióxido de carbono es más alta que los valores permitidos? • Hipótesis: Ho: Media Control (10,00 mg/m3)  Media del tratamiento Ha: Media Control (10,00 mg/m3) < Media del tratamiento t = 13,43 t 0,05 (1), 19 = 1,740 ¿Conclusión?
  • 89. “Las concentraciones de dióxido de carbono estimadas en el taller mecánico, son significativamente mayores a la concentración de dióxido de carbono máxima permitida (t test P < 0,05)”
  • 90. Ciencia: Dormir la siesta eleva la inteligencia Se concluyó tras un experimento que los estudiantes resolvían mucho mejor los ejercicios si antes dormían una siesta de 40 minutos. La siesta "limpia" la memoria de corto plazo (nuestra memoria RAM) dejando espacio para nueva información y facilitando el aprendizaje. La mejora es de un 40%, mientras que el efecto es opuesto al quedarse toda la noche estudiando. Esto sucede antes de comenzar a soñar, por lo cual es suficiente dormir una hora.
  • 92. Requisitos para aplicar el t-test: • Ambas muestras son obtenidas al azar. • Las muestras son independientes unas de otras. • La variable debe ser continua. • Las variables deber tener distribución normal. • Las varianzas deben ser homocedásticas.
  • 93. Independencia de las observaciones • La ausencia de independencia usualmente ocurre porque las observaciones están correlacionadas en el tiempo o espacio. >>> Mediciones de concentración de arsénico río arriba y río abajo desde el punto donde se piensa que es la fuente. • La ausencia de independencia usualmente ocurre porque las observaciones están correlacionadas en el tiempo o espacio. >>> Mediciones de concentración de arsénico río arriba y río abajo desde el punto donde se piensa que es la fuente. Río arriba Río abajo
  • 94. Homocedásticidad de varianzas: TEST DE FISHER (F) • Trabaja verificando si las varianzas de los grupos que estamos comparando son significativamente iguales o distintas. • Las hipótesis son: – Ho: Existe homocedásticidad de varianzas entre el grupo 1 y el grupo 2. – Ha: No Existe homocedásticidad de varianzas entre el grupo 1 y el grupo 2.
  • 95. Cálculo de Fisher (F): • Siempre se debe tener presente que la varianza mayor debe ir en el numerador, y la menor en el denominador. • Los grados de libertad son: Gl= n1, n2 • El valor critico se busca en la tabla Fisher como : F0.05 (2) n1,n2 2 2 2 1 S S F  2 2 2 1 S S F  2 1 2 2 S S F  2 1 2 2 S S F 
  • 96. Para tener presente: • El test de Fisher es un prerrequisito del test de Student. • Primero debemos determinar si las varianzas son homocedásticas para luego realizar la prueba de t
  • 97. Otros datos… • La capacidad del t-test se relaciona directamente con el cumplimiento de sus requisitos. • Si éstos no se cumplen existen otras alternativas (pruebas no paramétricas). • En general, si se aumenta el tamaño de las muestras el test tiende a ser más robusto.
  • 98. PRUEBA DE DOS MEDIAS ECUACIÓN BÁSICA t X s n    /
  • 99. PRUEBA DE DOS MEDIAS ECUACIÓN BÁSICA 21 21 YYS YY t   
  • 100. PRUEBA DE DOS MEDIAS El cálculo de SY1-Y2, depende de los siguientes aspectos: 1. Si las dos poblaciones tienen una varianza común 2. 2. Los valores de los 2, o el 2 común, se conocen o se estiman. 3. Las dos muestras son del mismo tamaño
  • 101.
  • 102.
  • 103. PRUEBA DE DOS MEDIAS Comparación de dos medias muestrales, Muestras independientes y varianzas iguales 21 )()( 2211 YYS YY t     21 )()( 2121 YYS YY t     21 21 YYS YY t   
  • 104. PRUEBA DE DOS MEDIAS Caso 1: Prueba de t cuando n1  n2 • Calcúlese S Y1 – Y2 mediante: 21 2 2 21 2 1 21 nn nsns S YY   En este caso los grados de libertad son n1+ n2 - 2)
  • 105. PRUEBA DE DOS MEDIAS Caso 2: Prueba de t cuando n1 = n2 = n Se aplica el mismo procedimiento señalado en el caso 1, SY1 – Y2 n s YYS 2 21 2  s2 es el promedio de las varianzas muestrales. En este caso los grados de libertad son 2(n – 1)
  • 106. PRUEBA DE DOS MEDIAS Caso 3: Prueba de t cuando  es conocida • En este caso el criterio de la prueba se convierte en: 21 21 2 21 )( nn nn YY zt    
  • 107. Prueba de dos medias: Ejemplo • La duración media de una muestra aleatoria de 10 bombillos es x = 1250 horas, con una desviación típica muestral de sX = 115. • Se cambia el material del filamento por otro nuevo y entonces de una nueva muestra aleatoria de 12 bombillos se obtuvo una duración media de y = 1340 con sY = 106. ¿Ha aumentado la duración media de los bombillos?
  • 108. Prueba de dos medias: Ejemplo • La actividad agrícola induce cambios en las propiedades del suelo, por lo cual un investigador evaluó la macroporosidad del suelo bajo dos tipos de uso de la tierra y obtuvo los siguientes resultados: TUT - 1 10,9 10,2 11,0 10,7 9,5 11,2 10,4 9,6 10,7 10,9 10,0 9,3 10,4 10,1 10,6 TUT - 2 12,6 11,5 12,9 12,7 11,1 12,2 12,2 12,4 11,5 12,2 12,5 12,6 12,4 11,7 12,6 Plantear hipótesis. Realizar el test. Conclusión. Plantear hipótesis. Realizar el test. Conclusión.
  • 109. • Un viverista, desea utilizar un nuevo tipo de fertilizante aparecido en el mercado que promociona un mejor crecimiento que el fertilizante que ha utilizado siempre. • El viverista era un genio en estadística y diseñó un experimento para probar si el nuevo fertilizante produce plantas más grandes que el antiguo. Prueba de dos medias: Ejemplo
  • 110. Los datos son: Crecimiento de plantas (cm) después de dos meses de plantadas: Fertilizante viejo Fertilizante nuevo 48,2 52,3 54,6 57,4 58,3 55,6 47,8 53,2 51,4 61,3 52,0 58,0 55,2 59,8 49,1 54,8 49,9 52,6 Plantear hipótesis. Realizar el test. Conclusión. Plantear hipótesis. Realizar el test. Conclusión.
  • 111. t-test para muestras independientes • En el test de muestras independientes, no existe una correlación experimental o “asociación” entre las observaciones (muestras) de los dos grupos. • Ejemplo: Peso a los 6 meses de una muestra aleatoria de diferentes cerdos alimentados con dos dietas distintas. • En el test de muestras independientes, no existe una correlación experimental o “asociación” entre las observaciones (muestras) de los dos grupos. • Ejemplo: Peso a los 6 meses de una muestra aleatoria de diferentes cerdos alimentados con dos dietas distintas. 1 2 Dieta
  • 112. t-test para muestras agrupadas • En los test de muestras pareadas, las observaciones (muestras) en un grupo se encuentran relacionadas con las observaciones en el otro grupo. • Ejemplo: Peso a los 6 meses de 2 cerdos, ambos de la misma madre, alimentados con diferentes dietas. • En los test de muestras pareadas, las observaciones (muestras) en un grupo se encuentran relacionadas con las observaciones en el otro grupo. • Ejemplo: Peso a los 6 meses de 2 cerdos, ambos de la misma madre, alimentados con diferentes dietas. 1 2 Dieta Progenitora
  • 113. Test student para muestras agrupadas • En este tipo de test, las muestras del grupo 1 se encuentran relacionadas con las del grupo 2. • Es decir se encuentran “Pareados”. • Aquí no se analizan los datos originales, sino que se trabaja con las diferencias entre los miembros de cada par.
  • 114. Queremos verificar la hipótesis nula de que el largo de la pata delantera y la pata trasera de los venados del Parque “La Guaricha”, es el mismo, De esta manera los datos son tabulados en pares Venado Pata Delantera (X1) Pata Trasera (X2) Diferencia (d = X1 – X2) 1 142 138 4 2 140 136 4 3 144 147 -3 4 144 139 5 5 142 143 -1 6 146 141 5 7 149 143 6 8 150 145 5 9 142 136 6 10 148 146 2 Ejemplo:
  • 115. Cálculo del test: • Las hipótesis estadísticas son: • Ho: μ1 – μ2 = 0 o Ho: μd = 0 • Ha: μ1 – μ2  0 o Ha: μd  0 • Las formulas del test son: donde Sd (error estándar) es: • Los grados de libertad son: Gl= n-1 d s d t  d s d t  n n ddi Sd 1 )( 2     n n ddi Sd 1 )( 2     A que se parece esto?
  • 116. Para el ejemplo: Venado Pata Delantera (X1) Pata Trasera (X2) Diferencia (d = X1 – X2) 1 142 138 4 2 140 136 4 3 144 147 -3 4 144 139 5 5 142 143 -1 6 146 141 5 7 149 143 6 8 150 145 5 9 142 136 6 10 148 146 2 n = 10 Gl = 10-1 = 9 d media= 3,3 cm S2 d = 9,34 cm2 cmSd 97,0 10 3444,9  cmSd 97,0 10 3444,9  402,3 97,0 3,3  cm t 402,3 97,0 3,3  cm t t0,05(2),9= 2,262t0,05(2),9= 2,262 ¿CONCLUSIÓN?
  • 117. Se rechaza Ho. Se determinó que el largo de las patas delanteras de los venados del Parque “La Guaricha” difiere significativamente con el largo de las patas traseras (t-test 0,005 < P < 0,01),
  • 118. Prueba de t – medias agrupadas: Ejemplo
  • 119. Ejemplo: Se esta probando la efectividad de una droga que permite bajar de peso. El medicamento se le administró a 9 voluntarios a los que se les midió la cantidad de grasa corporal (kg) antes y después de dos semanas de iniciado el tratamiento. Plantear hipótesis. Realizar el test. Conclusión. Plantear hipótesis. Realizar el test. Conclusión. Antes Después 1 22,50 19,20 2 24,10 20,20 3 22,60 20,60 4 22,00 19,60 5 23,60 19,60 6 23,20 21,40 7 22,40 19,80 8 23,00 19,40 9 20,90 17,90
  • 120. Para tener en cuenta: • El t-test de pares agrupados no asume normalidad de los datos. • Tampoco asume homocedásticidad de las varianzas. • Pero si asume que las diferencias de los pares si se distribuyen de forma normal.
  • 121. Un poco mas del t-test. • Solo se han analizado casos desde comparamos dos grupos. • ¿Porque no comparar mas de dos grupos?
  • 122. Riesgo de cometer un error de tipo I Corrección de Bonferroni: – Se aplica para realizar este tipo de comparaciones múltiples. – Produce un cambio en el valor de  (0,05). – Para corregir se divide el valor de  por el número (P) de comparaciones. – De esta manera ´=  / P. Número de Comparaciones % Riesgo de cometer error Tipo I 2 5 3 12 4 20 6 37 8 51 10 63 Para 5 comparaciones: ´=0,05/5 = 0,01