Estas son las escuelas y colegios que tendrán modalidad no presencial este lu...
Inferencia estadística
1. Inferencia Estadística. Conceptos básicos.
Puede definirse la Inferencia Estadística como
“El conjunto de métodos estadísticos que permiten deducir (inferir) como se
distribuye la población en estudio o las relaciones estocásticas entre varias variables de
interés a partir de la información que proporciona una muestra”.
Para que un método de inferencia estadística proporcione buenos resultados debe de:
Basarse en una técnica estadístico-matemática adecuada al problema y suficientemente
validada.
Utilizar una muestra que realmente sea representativa de la población y de un tamaño
suficiente.
Conceptos básicos que se utilizarán en este texto son los siguientes:
Población: es un conjunto homogéneo de individuos sobre los que se estudia una o varias
características que son, de alguna forma, observables.
Muestra: es un subconjunto de la población. El número de elementos de la muestra se
denomina tamaño muestral.
Muestreo aleatorio simple: es aquel en el que todos los individuos de la población tienen la
misma probabilidad de ser elegidos.
Muestra aleatoria simple, de una variable aleatoria X, con distribución F, de tamaño n, es un
conjunto de nvariables aleatorias X1,X2,...,Xn, independientes e igualmente distribuídas (i.i.d.)
con distribución F.
Espacio muestral: es el conjunto de muestras posibles que pueden obtenerse al seleccionar
una muestra aleatoria, de tamaño n, de una cierta población.
Parámetro: es cualquier característica medible de la función de distribución de la variable en
estudio (media, varianza,..).
Estadístico: es una función de la muestra T . Por tanto, es una variable
aleatoria que tiene una función de distribución que se denomina distribución en el muestreo
de T. Los estadísticos independientes del parámetro a estimar se denominan estimadores.
Propiedades de los estimadores.
Sea n = n un estimador del parámetro . Propiedades del estimador
son las siguientes
1. Estimador centrado o insesgado, tiene sesgo cero,
2. Estimador asintóticamente centrado o insesgado, verifica
2. 3. Error Cuadrático Medio de n, es
4. Estimador consistente en media cuadrática, verifica
por tanto
5. La precisión o eficacia del estimador n es
Si el estimador es insesgado
6. Estimador de la media poblacional, se utiliza la media muestral definida por
(1.1)
Si X sigue una distribución N , se verifica que
(1.2)
3. 7. Estimador de la varianza poblacional, se utiliza la cuasivarianzamuestral definida por
(1.3)
Si X sigue una distribución N , se verifica que
(1.4)
Dado que normalmente la varianza poblacional se desconoce y es necesario estimarla, es
de interés el siguiente resultado
Razones del muestreo
1) Naturaleza destructiva del proceso de investigación
2) Imposibilidad de revisar todos los elementos de la población.
3) Costo: al obtener los datos de una pequeña porción del total.
4) Tiempo: al considerar solo una parte del total, su recolección y resumen se hará con mayor
rapidez.
5) Precisión: las posibilidades de usar personal más capacitado y supervisar cuidadosamente
el trabajo de campo y el procesamiento de la información
4. Muestreo aleatorio:
En el cual todos los elementos de la población tienen la oportunidad de ser escogidos para la
muestra. Este procedimiento da a cada elemento de la población una probabilidad de ser
seleccionado. Dentro de este tipo se encuentran:
a) muestreo aleatorio simple:
Permite que cada muestra posible pueda ser elegida con la misma probabilidad. Por su parte
cada elemento de la población tiene la misma oportunidad igual de ser incluido en la muestra.
b) muestreo sistemático:
En el cual los elementos que se muestrearan se seleccionan de la población en un intervalo
uniforme que se mide con respecto al tiempo, al orden o al espacio.
c) Muestreo estratificado:
Método en el que la población se divide en grupos homogéneos, o estratos. Aquí la variabilidad
dentro de cada grupo es pequeña y entre los grupos es grande.
Método de muestreo
-Muestreo probabilístico ((En inglés: probabilitysampling )): aquel en el que cada individuo de
la población tiene una probabilidad dada y diferente de cero de pertenecer a la muestra.
-Muestreo no probabilístico ((En inglés: non-probabilitysampling )): basado en una opinión
subjetiva, ya que en él se desconoce la probabilidad de que un individuo concreto de la
población sea incluido en la muestra.
-Muestreo fijo ((En inglés: fixedsampling )): aquel en el que el tamaño de la muestra es fijo y
determinado a priori.
-Muestreo secuencial ((En inglés: sequentialsampling )): a diferencia del muestreo fijo, aquel
en el que el tamaño de la muestra va variando en función de la información que se va
obteniendo.
-Muestreo aleatorio simple ((En inglés: simple randomsampling )): muestreo probabilístico en
el que la probabilidad de estar incluido en la muestra de determinado elemento o conjunto de
elementos es la misma que la de otro conjunto con el mismo número de elementos.
-Muestreo estratificado ((En inglés: stratifiedsampling )): muestreo probabilístico en el que la
población se clasifica en estratos excluyentes entre sí, sobre los cuales se realiza un muestreo
aleatorio simple.
-Muestreo por conglomerados o áreas ((En inglés: areasampling )): muestreo probabilístico en
el que se establecen determinadas áreas geográficas y, de entre ellas, se elige al azar aquella
que servirá de muestra.
5. -Muestreo mediante itinerarios aleatorios ((En inglés: randomroutesampling )): muestreo no
probabilístico en el que se fuerza al entrevistador a elegir la muestra de forma totalmente
aleatoria.
Objetivos de un muestreo
El objetivo principal de cualquier operación de muestreo es colectar muestras representativas
del medio que se está investigando. Más específicamente, el propósito del muestreo en un
sitio contaminado es adquirir información que ayude a determinar la presencia e identidad de
los contaminantes presentes y el grado en el que estos podrían entrar en el ambiente
circundante (Ford et al. 1984). El muestreo de un suelo se diseña y conduce para cumplir con
uno o varios de los siguientes objetivos (Barth et al. 1989):
. Determinar el riesgo a la salud humana y/o al ambiente debido a la contaminación del suelo
por contaminantes específicos.
. Determinar la presencia y concentración de contaminantes específicos, con respecto a niveles
de fondo (concentraciones naturales en el sitio).
. Determinar la concentración de contaminantes y su distribución espacial y temporal.
. Medir la eficiencia de acciones de control o de limpieza (remediación).
. Obtener mediciones para validación o uso de modelos de transporte y deposición de
contaminantes en el suelo.
. Determinar el riesgo potencial a la fiora y fauna por contaminantes específicos.
. Identificar fuentes de contaminación, mecanismos o rutas de transporte y receptores
potenciales.
¿Estadístico = Parámetro?
Parámetro: es una cantidad numérica calculada sobre una población y resume los valores que
esta toma en algún atributo.
Intenta resumir toda la información que hay en la población en unos pocos números
(parámetros). La altura media de los sujetos.
Estadístico: es una cantidad numérica calculada sobre una muestra que resume su información
sobre algún aspecto
Si un estadístico se usa para aproximar un parámetro también se le suele llamar
<<estimador>>.
Normalmente nos interesa conocer un parámetro, pero por la dificultad que conlleva estudiar
a *toda* la población, calculamos un estimador sobre una muestra y “confiamos” en que sean
próximos.
6. Teorema del límite central
Al hacerse lo bastante grande el tamaño de muestra (número de observaciones en cada
muestra), la distribución de muestreo de la media puede aproximarse mediante la distribución
normal. Esto es cierto no importando la forma de la distribución de los valores individuales de
la población.
Distribución de Muestreo
Es la distribución de probabilidad de una estadística; es una función de las variables aleatorias
que se observan en la muestra, que resulta de un número infinito de muestras aleatorias de
tamaño, mutuamente independientes; provenientes de la población de interés.
Distribución de Muestreo de la Media. Un estadístico está distribuido normalmente cuando
la muestra que se toma es grande, conocido como el teorema del límite central. Cuando el
tamaño de la muestra es grande y la varianza de la población es conocida se toma la
distribución normal estándar como estadístico de prueba. Pero cuando el tamaño de la muestra
no es grande y a su vez se desconoce la varianza de la población, es aconsejable aplicar la
Distribución de students. Estas condiciones se conocen como el TEOREMA DEL LIMITE
CENTRAL
Distribución de Muestreo de la Varianza. La estadística, es empleada para inferir la varianza
de la población, mediante la distribución de muestreo de la ji-cuadrado, que tiene como
formulación. Y la estadística apropiada para inferir las varianzas de dos poblaciones con
distribuciones normales se conoce con la Distribución F, con grados de libertad para la primera
población y, para la segunda población.
Distribución muestral para medias σ conocidas
Distribución Muestral Para Medias, σ desconocida, la distribución “t” de student.
Si recordamos a la distribución normal, esta es una distribución continua, en forma de
campana en donde la media, la mediana y la moda tienen un mismo valor y es
simétrica.
Con esta distribución podíamos calcular la probabilidad de algún evento relacionado
con la variable aleatoria, mediante la siguiente fórmula:
7. En donde z es una variable estandarizada con media igual a cero y varianza igual a
uno. Con esta fórmula se pueden a hacer los cálculos de probabilidad para cualquier
ejercicio, utilizando la tabla de la distribución z.
Sabemos que cuando se extraen muestras de tamaño mayor a 30 o bien de cualquier
tamaño de una población normal, la distribución muestral de medias tiene un
comportamiento aproximadamente normal, por lo que se puede utilizar la formula de la
distribución normal con y , entonces la fórmula para calcular la
probabilidad del comportamiento del estadístico, en este caso la media de la muestra ,
quedaría de la siguiente manera:
y para poblaciones finitas y muestro con reemplazo:
Distribución t-Student
En probabilidad y estadística, la distribución t-Student es una distribución de probabilidad que
surge del problema de estimar la media de una población normalmente distribuida cuando el
tamaño de la muestra es pequeño.
Una variable aleatoria se distribuye según el modelo de t-Student con n grados de libertad,
donde n es un entero positivo, si su función de densidad es la siguiente:
f(t)=
)1(
2
12
)1(
)
2
(
)
2
1
( n
n
t
n
n
n
, - t ,
0
1
)( dxexp xp
siendo p>0
La gráfica de esta función de densidad es simétrica respecto del eje de ordenadas, con
independencia del valor de n, y de forma semejante a la distribución normal.
Propiedades:
8. 1. La media es 0 y su varianza
2n
n
, n>2.
2. La gráfica de la función de densidad es en forma de campana.
3. Los datos están más disperso que la curva normal estándar.
4. A medida que n aumenta, la gráfica se aproxima a la normal N(0,1).
5. La gráfica es muy parecida a la de la normal estándar diferenciándose en que las colas
de t están por encima de la normal, y el centro se encuentra por debajo del de la
normal.
6. Cuando los grados de libertad son altos, los valores de t coinciden con los de la normal.