Presentación Distribuciones de Muestreo para Estimadores Lineales

Distribuciones De Muestreo Para Estimadores Lineales Curso de Estadística ProfesorBalbinoGarcía Bernal WadiAdamesRomán

Confiabilidad del 95% y su relación a la familia t

Cada intervalo de confiabilidad que se construye es Acertado (un “Hit”) o Errado (“Miss”). Si se considera un modelo ideal de ANOVA como una especie de mecanismo de “chance” para crear conjuntos de datos, donde los posibles resultados sean Acertado o Errado, entonces para un intervalo propiamente construido, un 95% de confiablidad significa que hay un chance del 95% de que el resultado sea Acertado.

Recordemos que en la realidad esto significa que si utilizáramos el mismo modelo y suposiciones para crear muchos conjuntos de datos e intervalos, entonces “a largo plazo”, el 95% de los intervalos sería Acertado.

O sea Mecanismo: Modelo ANOVA Summary: Acertado o Errado, para un intervalo con un 95% de confiabilidad Distribución: “Chance” de que sea Acertado = 95%; “Chance” de que sea Errado = 5%

Todo esto se refiere en cierta medida a una proposición mucho más básica. Mecanismo: Modelo ANOVA Summary: (Estimador Lineal – Verdadero Valor)/SE Distribución: familia t (Estimador Lineal se abreviará por Est)

Este SummaryOutcome se parece al Estandarizado visto en la sección 3: (Outcome – EV)/SD* donde Verdadero Valor sería el EV y SE el SD*.

Hay diferencias pues el SD* es un verdadero valor del modelo, mientras que el SE es un estimado SE = SD(SSWeights)1/2 donde SD = (MSRes)1/2 (este último se calcula a partir de la data)

Nota: Llamaremos Distancia Estándar Estimada a la expresión (Estimador Lineal – Verdadero Valor)/SE Diremos por esto que el estimador lineal se ha convertido a Unidades Estándares Estimadas.

O sea: Las Unidades Estándares Estimadas indican la distancia del EV, medida en SE’s. Distancia = Valor – EV Distancia Estándar = Distancia/Verdadero SE* Distancia Estándar Estimada = Distancia/SE Estimado

Si usamos este lenguaje entonces se puede decir que: Para cualquier estimador lineal de un modelo ideal ANOVA, la Distancia Estándar Estimada tiene una distribución t.

Entonces, si observamos lo que significa “apuntarse” un “Hit” (acertar), se tiene que: Para cualquier número positivo t: El intervalo Est ± SE·t cubre el verdadero valor si y solo si |(Est – Verdadero Valor)/SE| < t

Esto quiere decir que el “chance acertar es igual al chance de que |(Est – Verdadero Valor)/SE| < t. Entonces, si (Est – Verdadero Valor)/SE tiene una distribución t, se puede determinar el número t que hace que el “chance” de un “Hit” sea igual a 95%. ¿Cómo? Solo hay que tomar t igual al percentil 97.5ésimo de la distribución t.

En resumen: Si (Est – Verdadero Valor)/SE tiene una distribución t, entonces hay un chance del 95% de que un intervalo de la forma Est ± SE·(elpercentil 97.5ésimo de la distribución t)contenga el verdadero valor.

Distribuciones De Muestreo Aproximadas Para Razones-f

Siempre que comparamos una razón-F de “mean squares” con una tabla de valores para así examinar una hipótesis nula, se está asumiendo que la razón de “mean squares” posee una distribución de muestreo que pertenece a la familia F. ¿Bajo qué condiciones es razonable asumir esto?

En breve se puede decir que: Si un modelo es correcto de manera exacta (i.e., la estructura de factores y las suposiciones de Fisher describen el experimento exactamente) y la hipótesis nula es verdadera, entonces la razón-F tiene una distribución F. Sin embargo, para que esto ocurra hay dos requisitos:

“Mean Squares” Esperados El primer requisito es que las dos “mean squares” en la razón deben tener los mismos valores esperados. El valor esperado de cualquier “mean square” se puede escribir como una suma de partes, donde cada parte es un número que mide la variabilidad asociada con alguno de los factores en el diseño que ha preparado el investigador. Si la razón de dos “mean squares” debe tener una distribución F entonces ambos “mean squares” deben tener exactamente las mismas partes en sus valores esperados.

Si la hipótesis nula es falsa, los Valores Esperados no serán iguales, y la razón de los “mean squares” no seguirá una distribución F. Luego, la prueba F se reduce a determinar si una razón observada proviene o no de una distribución F. Si se entiende que no, se rechaza la hipótesis nula.

El rol del modelo El segundo requisito se refiere al modelo en sí. Las razones-F que se calculan para una prueba ANOVA siempre son distintas, pues provienen de la descomposición lineal, y no de resultados independientes que son estándares y normales.

Sin embargo, es posible demostrar que Si el modelo es correcto de manera exacta (i.e., la estructura de factores y las suposiciones de Fisher están de acuerdo con la data), si además se posee el denominador MS correcto y si la hipótesis nula es verdadera, entonces la razón-F tiene una distribución F.

El problema es que no hay modelos que sean exactamente correctos. Por tanto, para llegar de un experimento de la vida real a una distribución F, hay que superar dos obstáculos, primero del experimento al modelo ideal ANOVA, y segundo del modelo ANOVA a la distribución F. Nos ocuparemos del segundo obstáculo, a modo de “sketch” de una demostración, pues lo concerniente al otro se explicó ya con anterioridad.

El mecanismo ideal crea valores observados como tiradas independientes de una “caja” de error normal estándar. Hay 4 cosas importantes para desarrollar esta prueba. La misma debe mostrar que los “mean squares” que se calculen en una ANOVA se comportan como si se hubieran construidos a partir de términos que posean esas 4 propiedades.

1. EV = 0 En un diseño balanceado, los efectos estimados para cada factor aparte de la media siempre suman a cero. Entonces, la manera en que la descomposición lineal se lleva a cabo hace que al cuadrar los números, estos se comporten como si EV = 0.

2. Dispersión: SD* = 1 En la práctica la SD* de un conjunto de datos es desconocido y lo más seguro que no es 1. Ahora, si los errores debidos al chance se comportan como si SD* fuera constante, entonces no hace falta que esa constante sea 1. Esto se debe a que podemos calcular una razón de “mean squares” para así conseguir la F-estadística (o estadístico-F). Ya que el verdadero SD* aparece tanto en el numerador como el denominador y por tanto se cancela, podemos prescindir de saber su verdadero valor.

3. Forma: La Normal En la realidad la forma no es la normal, pero se acerca lo suficiente. Inclusive si los residuales individuales no se aproximan a un patrón normal, mientras más observaciones se tengan, menos hace falta preocuparse por que los errores debidos al chance sean normales.

4. Relación: Independencia Por definición, las “tiradas” deberían ser independientes. Sin embargo, en general los números de una descomposición que se cuadran y suman para conseguir una suma de cuadrados suelen no ser independientes, pero están correlacionados. Esta correlación refleja una especie de superposición en la información que está contenida de por sí en los números que se cuadran y suman. Al dividir la suma de cuadrados por los grados de libertad df, en vez de por la cantidad de números que se cuadran, permite hacer el ajuste necesario para la superposición.

Además, en la definición, debido a que las “tiradas” son independientes, así también los dos “mean squares”. Ahora, en la práctica, si el diseño es balanceado entonces los “mean squares” que se calculen serán independientes el uno del otro, tal como se requiere.

Relación con las Suposiciones de Fisher: Utilizaremos las 4 propiedades antes descritas para establecer la relación entre las suposiciones de Fisher y la forma de la prueba-F.

[Z]: Si los errores debidos al chance no cumplen EV = 0, entonces los efectos estimados que se obtienen al descomponer la data estarán sesgados. Esto hará el correspondiente “mean square” mayor de lo que debería ser. De esta forma se corre el riesgo de concluir como “real” un efecto que en realidad es parte del sesgo.

[S]: Si los errores debidos al chance no poseen la misma SD*, la cancelación de las SD*’s que se necesita al determinar la razón-F no ocurrirá, y por consiguiente la razón no se comportará como si SD* = 1.

[I]: Si los errores debidos al chance no son independientes, entonces los “mean squares” no alcanzarán los valores esperados correctos. Inclusive, podría darse que el numerador y denominador no sean independientes, lo cual es requerido por la definición. Por tanto, los valores críticos de una tabla F no serán los correctos para el conjunto de datos.

[N]: Si los residuales no tienen una forma que se asemeje a la normal, los números que cuadremos para obtener las SS’s (sumas de cuadrados) no tendrán la forma de la curva normal. Además, si los por cientos de residuales grandes son mayores que los provistos por la regla basada en la curva normal, los cuadrados de estos residuales tendrán un efecto grandísimo en el comportamiento de los “mean squares” y así la distribución de la razón no será lo suficientemente cercana a una distribución-F real como para hacer confiables los valores críticos.

[A & C]: Si los efectos verdaderos no son constantes o aditivos, la descomposición que se lleve a cabo para determinar los “mean squares” no repartirá las observaciones en las partes correctas. Así, las tablas en la descomposición tendrán contribuciones de factores que no se supone contribuyan. En particular, los residuales quedarán contaminados por dichos factores, proveyendo estimados pobres para los errores que se deben al chance.

¿Por Qué (Y Cuándo) Son Razonables Los Modelos?

Ahora veremos algunos ejemplos de tres de las justificaciones para los modelos de cajas y las suposiciones de Fisher: Muestreo de una población Medidas de error Aleatorización

Muestreo de una población (“Samplingfrom a population”) Primero recordemos que: Población es todo el grupo de individuos que son de interés en el experimento. Muestra es el grupo de individuos que son observados en realidad. Para una muestra simple aleatoria, cada individuo en la población tiene el mismo chance de ser seleccionado. Todas las posibles muestras son igualmente probables.

El ejemplo más idóneo de un muestreo simple aleatorio es el modelo de cajas. La población es una caja de boletos enumerados. La muestra es el conjunto de tiradas (aquí nos referimos por tiradas al proceso de sacar el boleto de la caja). Si se saca un boleto al azar, devolviéndolo de nuevo a la caja luego de observar qué número salió (reemplazo), y mezclando (barajeando) los boletos antes de cada tirada, se obtiene una muestra simple aleatoria.

Cuando un diseño exige que los individuos sean seleccionados, entonces mientras más se pueda lograr que el proceso de selección se comporte como el proceso antes descrito, mejor concordarán el modelo estándar y las suposiciones con la data obtenida.

Nota: Supóngase que se desean seleccionar 100 estudiantes de esta universidad para que formen parte de un experimento. Sería fácil buscar 100 estudiantes entre los que uno conoce y los que amigos de estos. También podríamos publicar un anuncio invitando al experimento y escoger los primeros 100 voluntarios, etc. Sin embargo, estos métodos de selección no son como el modelo de cajas, y no suponen necesariamente una buena selección.

En realidad haría falta (para que sea una muestra simple aleatoria) tener la lista de todos los estudiantes de la universidad, enumerarlos, y entonces usar una tabla de números aleatorios para escoger los 100 estudiantes que participarán del estudio.

Este último ejemplo envolvía solo una población. ¿Cómo el muestreo simple aleatorio (al azar) conduce al modelo y a las suposiciones estándar?

Ejemplo: Supongamos que se tienen dos poblaciones, cada una con 4 individuos. Asumamos también que no hay aleatorización o ambigüedad en el proceso de medición (para el modelo de muestreo ideal, toda aleatoriedad provine del proceso de seleccionar individuos de las poblaciones).

El factor de interés tiene dos niveles, A y B, correspondiendo a las dos poblaciones. La población A tiene 4 individuos cuyos valores de respuesta son 3, 4, 4 y 5. La población B tiene 4 individuos también, con valores 5, 6, 6 y 7.

En la figura se ve una ANOVA de una dirección (muestreo simple aleatorio de dos poblaciones). Si las observaciones se escogen (al azar y CON REEMPLAZO)de las poblaciones A y B, entonces la data concuerda con el modelo ANOVA estándar que se ve a la derecha en la figura, el cual satisface las suposiciones de EV = 0, de iguales SD*’s, independencia, aditividad y efectos que son constantes. Si la distribución de valores de respuesta en cada población es normal, entonces las seis suposiciones son satisfechas.

Observaciones importantes: En la mayoría de las ocasiones no ocurre que las poblaciones tengan el mismo tamaño. Sin embargo, en la mayoría de los casos estas son muy grandes, lo que hace que su tamaño real sea sin importancia en lo que concierne al modelo estándar.

¿Por qué se insiste en el muestreo con reemplazo? ¿No se corre el riesgo de seleccionar más de una vez el mismo individuo?

Si las poblaciones son bien grandes, como ocurre en la mayoría de los estudios, no hace gran diferencia si se realiza el muestreo con o sin reemplazo. Claro, si se lleva a cabo el muestreo sin reemplazo, el chance de escoger el mismo individuo más de una vez es cero. Sin embargo, cuando las poblaciones son grandes, el chance de seleccionar el mismo individuo más de una vez estará tan cerca de cero, que llevar a cabo el muestreo con reemplazo hará poca diferencia.

¿Qué se gana entonces utilizando la técnica de reemplazo? Permite hacer sencilla la teoría.

Ya que en la práctica no se pueden realizar las mediciones a cada individuo en la población, no es posible conocer cómo están distribuidos los valores de esta. Hay un problema: una de las suposiciones de Fisher es precisamente que los errores debidos al chance deben seguir una distribución normal.¿Cómo resolvemos esto?

En primer lugar si se escoge la escala correcta para la respuesta, la distribución en la población será aproximadamente la de la normal. En segundo lugar, aún si la distribución no sigue una curva normal, las suposiciones estándar llevan por lo general a aproximaciones de los valores críticos que son razonables (para conjuntos de datos no pequeños).

Es importante notar que en el ejemplo antes visto, las desviaciones de la media son iguales. Por lo general esto no ocurre. Lo importantes es que las SD’s sean aproximadamente iguales.

Población y Marco Muestral Ahora, cuando las poblaciones son tan grandes, ¿hace sentido realizar el muestreo con la población misma? El problema no es solo el tamaño de las poblaciones, sino que a veces estas son difíciles de determinar.

Por ejemplo, supongamos que se desea preparar una prueba para seleccionar donantes de sangre y se quiere determinar aquellos que tengan hepatitis (y por tanto no puedan donar sangre). Resulta que aquellos que padecen la enfermedad tienden a tener una alta concentración de una enzima, la Transaminasa SeroGlutamínicaPirúvica (SGTP por sus siglas en inglés).

Si estamos en particular interesados en aquellas personas por encima de 18 años que sean portadores de la enfermedad en Puerto Rico, ¿quién tiene la lista completa de estas personas? Si tal lista existiera, entonces no haría falta siquiera medir los niveles de SGPT.

Incluso si la lista existiera, y se decidiera pasar el trabajo de usar números aleatorios (“randomnumbers”) para seleccionar personas al azar, sería posible rastrear cada uno de ellos.

Ejemplos similares abundan: ¿quién tiene la lista de todos los usuarios de crack en Ponce, o la lista de todas los coquíes en San Sebastián, etc?

En resumen veamos los problemas que conlleva el modelo ideal de llevar a cabo un muestreo simple aleatorio partiendo directamente de la población (estos están más allá de lo que es posible en la práctica).

El Marco no es igual a la Población (en términos representativos): Aquí el problema son los posibles sesgos. El grupo de individuos que es más fácil de listar y de dónde es más sencillo seleccionar puede ser atípico del grupo del que en realidad se quiere conocer.

Las Muestras no son aleatorias: Por ejemplo, los estudios en Psicología utilizan muchas veces voluntarios. Estudios de laboratorios que envuelven animales muchas veces los toman de suplidoras de animales y por lo tanto no se seleccionan al azar.

Los estudios de campo también presentan problemas, pues dependen de aquellos animales que está lo suficientemente hambrientos o que han sido poco cuidadosos y por eso han caído en la trampa, etc.

Problemas más técnicos: SD’s no iguales y distribuciones no normales. Aquí hay solución, pues en muchas ocasiones es suficiente llevarlo todo a otra escala.

Poblaciones pequeñas: Hemos enfatizado mucho sobre como las poblaciones grandes nos permiten acercarnos al modelo ideal teórico. Ahora, cuando las poblaciones son pequeñas, en realidad lo que tenemos es una ventaja (visto desde un cierto punto de vista). La razón es que entonces podemos llevar a cabo un muestreo que no envuelva reemplazo y se pueden utilizar muestras pequeñas.

Claro, habría que hacer ajustes a la teoría, los cuales no se discutirán, pero que cualquier libro que trate de muestreo puede facilitar.

Estos problemas nos muestran la importancia de distinguir entre Población y Marco Muestral. Población: Grupo completo de individuos sobre los que se desea conocer. Marco Muestral: Lista de todos los individuos de donde en realidad se hará la selección.

En fin, si se usa un Marco Muestral para llevar a cabo un muestreo aleatorio, los métodos de estadística formal proveen una base lógica para hacer una generalización de la muestra al marco muestral.

Ahora, no hay métodos formales para realizar tal generalización del marco a la población como tal. Para esto solo queda utilizar el juicio personal del investigador acerca de qué tan bien el marco representa a la población.

Medidas de Error y el Modelo basado en ellas

En la práctica son pocas las medidas que no conllevan cierta incertidumbre. En muchos caso el proceso de llevar acabo medidas se comporta como el de realizar el muestreo con la población. Para la versión pura del modelo basado en medidas de error, pensaremos a los individuos como ya escogidos de antemano, y en ese sentido son fijos.

La aleatoriedad proviene del proceso de medir y no de la selección de individuos. O sea, visto de modo abstracto, los modelos para el muestreo y el proceso de mediciones son el mismo.

En ambos casos: los objetos de interés son colecciones fijas de números el proceso de obtener la información tiene que ver con escoger al azar de esas colecciones Para este modelo, que se basa en las medidas de error, la colección fija de números será el conjunto hipotético de todos los posibles valores para el proceso de medición.

Hay dos versiones extremas de este modelo el conjunto de valores proviene de cambios impredecibles en el individuo los valores provienen de cambios impredecibles en el proceso mismo de llevar a cabo las medidas

Ejemplos: Si se está estudiando la presión sanguínea, los cambios en las medidas provienen del individuo, pues la presión cambia todo el tiempo. Si se consideran las Olimpiadas, los cambios proceden de los instrumentos que llevan a cabo las medidas, en este caso los jueces.

Para la tercera justificación, la cual se basa solo en la aleatorización, consideraremos como dados (y por tanto fijos) tanto a los individuos como a los errores de medida. El chance provendrá del uso de un diseño o mecanismo de chance para asignar los individuos a los niveles del factor de interés.

Las suposiciones que aseguran esta justificación son distintas de las suposiciones usuales de Fisher. Aún así hay suficiente evidencia de que los valores críticos de una tabla F proveen por lo general buenas aproximaciones para los valores críticos basados solo en la aleatorización.

Ejemplo: Imaginemos un experimento donde lo que nos interesa son los niveles de bacterias en el piso de una sala. Hay dos posibilidades, el piso tiene alfombra o no tiene. Supongamos que se tiene 4 cuartos solamente y que mediante un mecanismo de chance se seleccionan dos cuartos a los que ponerle alfombra mientras que los otros se quedan sin ella. Vamos a asumir que se miden los niveles de bacteria y que obtenemos lo siguiente:

Si se asume la estructura de factores usual y se descompone la data para luego calcular las razones F, se obtiene lo que sigue:

Nuestra hipótesis nula es que los verdaderos efectos para “Con Alfombra” y “Sin Alfombra” son ambos cero. Si esto es así, cada valor observado iguala sigue la regla de Benchmark + Error.

Además la cubierta del piso no afecta los valores observados. Supongamos que se ignora el proceso que crea los errores y que debido a que las alfombras no tienen efectos, el Cuarto 201 produce un cero (independientemente de lo que se le haga al piso. Similarmente el Cuarto 202 produce un 0, el 203 un 2 y el 204 un 8.

Entonces, aún asumiendo que la hipótesis nula es verdadera, los valores que se obtienen para las razones F estarán completamente determinados por el mecanismo de chance que se use para signar los cuartos a los dos grupos (con Alfombra, sin Alfombra).

De acuerdo a todo esto, el chance no proviene de los errores mismos, sino del proceso de aleatorización. Hay seis distintas maneras de sortear los 4 cuartos mediante un mecanismo de chance. Recuerde que así cada una de las 6 es igualmente probable.

Este simple ejemplo ilustra dos propiedades muy importantes acerca de este tipo de muestreo que se basa puramente en la aleatorización: 1) SSCond + SSRes es constante (en el ejemplo ambas sumas son iguales a 68) 2) EMSCond = EMSRes (en este ejemplo ambos son 22.67)

En fin tenemos una distribución de muestreo para la razón-F sin asumir nada acerca de cómo los errores se producen. Solo utilizamos la hipótesis nula y el proceso de asignar los cuartos mediante el chance.

RESUMEN Hemos visto tres justificaciones para los modelos estándares de cajas. En la primera, la aleatorización se asume proviene del proceso de selección de individuos a ser medidos. En la segunda, la aleatorización se debe del proceso de medir los individuos (de las mediciones) sin importar cómo se escogen estos. En la tercera la aleatorización nos llega del proceso de asignar individuos a las condiciones (lo que vimos con las cuarto con alfombras o sin ellas) sin preocuparnos de cómo los individuos fuero escogidos o como se realizaron las medidas.

Bibliografía: George W. Cobb (1998) Introduction to Design and Analysis of Experiments; Secciones 15.4-15.6; Springer

Presentación Distribuciones de Muestreo para Estimadores Lineales

Recomendados

Recomendados

Más contenido relacionado

La actualidad más candente

La actualidad más candente (20)

Similar a Presentación Distribuciones de Muestreo para Estimadores Lineales

Similar a Presentación Distribuciones de Muestreo para Estimadores Lineales (20)

Último

Último (20)

Presentación Distribuciones de Muestreo para Estimadores Lineales