Este documento compara el muestreo probabilístico clásico y el remuestreo basado en la técnica del bootstrap. Explica que el muestreo probabilístico clásico implica extraer una muestra aleatoria de un marco muestral más grande, mientras que el remuestreo permite simular múltiples muestreos y obtener intervalos de confianza. También discute cómo el número de muestras posibles es enormemente grande, y cómo el teorema del límite central predice que los resultados seguirán una distribución normal.
1. COMPARACION ENTRE
EL MUESTREO
PROBABILÍSTICO
Se explica el
Remuestreo en base
a las técnicas del
CLÁSICO Y EL Bootstrap
REMUESTREO
Este artículo trata principalmente sobre la diferencia entre el Muestreo
Aleatorio Simple y el Muestreo por Bootstrap en el cálculo de los
márgenes de error muestral en las encuestas por Muestreo Probabilístico
2. COMPARACIÓN ENTRE EL MUESTREO CLÁSICO Y EL
REMUESTREO
BASADO EN LA TÉCNICA DEL BOOTSTRAP
El bootstrap es un tipo de técnica de remuestreo de datos que permite resolver
problemas relacionados con la estimación de intervalos de confianza o la prueba de
significación estadística. Este enfoque puede resultar de interés para los investigadores
en Estudios de Mercado y de Opinión Pública, no sólo porque es menos restrictivo que
el enfoque estadístico clásico, sino también porque es más general en su formulación y
más simple de comprender en lo referente al procedimiento básico que subyace al
método. En lugar de fórmulas o modelos matemáticos abstractos, el bootstrap
simplemente requiere un computador capaz de simular diversos procesos de muestreo
aleatorio de los datos. Sin embargo, y debido quizás a la escasa difusión de la técnica,
los investigadores aún no han incorporado el bootstrap al repertorio habitual de
herramientas de análisis de datos.
Las computadoras modernas han abierto las puertas para un tratamiento en
profundidadde las bases de datos y análisis de datos, algo que antes era inconcebible. La
visualización dinámica de datos, la simulación y los métodos de remuestreo son
algunos ejemplos de enfoques que, apoyados en las capacidades de los computadores
modernos, han enriquecido el trabajo de exploración y análisis estadístico de datos. La
relación entre computadores y la inferencia estadística además del análisis científico de
datos es patente para el caso de las llamadas técnicas de remuestreo de datos („data
resampling‟), entre las que encontramos en primer lugar de importancia ( cuando nos
referimos a las encuestas probabilísticas), el Bootstrap.
La diferencia fundamental entre el muestreo clásico y el “Remuestreo por Bootstrap”,
se aclara a continuación, con un ejemplo simple basado en el diseño básico
denominado“muestreo aleatorio simple.”
MUESTREO PROBABILÍSTICO CLÁSICO
En este simple diseño muestral, se extrae una muestra de tamaño “n” , de una lista
(Marco Muestral) de tamaño “N”, utilizando para ello números aleatorios.
La selección puede ser con reposición (es decir un mismo número puede ser extraído en
más de una ocasión y con ello, la muestra puede contener elementos repetidos ), o sin
reposición (es decir, todos los integrantes de la muestra serán distintos).
Generalmente el tamaño del Marco Muestral, que representa lo que se suele llamar el
Universo de Estudio, es mucho mayor que el tamaño muestral. Por ejemplo, podemos
seleccionar una muestra de tamaño 400, ó 1000, o cualquier otro tamaño, de un Marco
Muestral que puede contener centenares de miles de unidades muestrales (elementos de
la lista que constituye el Marco Muestral), o incluso millones de unidades.muestrales.
Para que la muestra se considere probabilística y con capacidad de inferir a partir de sus
resultados, al Universo de Estudio, las unidades muestrales deben ser extraídas
utilizando números aleatorios. Cualquier otro tipo de extracción que no comprenda
números aleatorios en alguna etapa de la selección ( en diseños muestrales
multietápicos, por ejemplo), no será probabilístico, y en consecuencia la inferencia será
de exclusiva responsabilidad del investigador, y éste no podrá ( mejor dicho : no deberá)
1
3. calcular límites de error muestral a sus resultados, y obviamente, no podrá reclamar que
su muestra es probabilística., Si lo hace, se estará vistiendo con ropajes ajenos.
Este tipo de muestreo, el probabilístico, permite el cálculo de la precisión de las
estimaciones que se obtienen de su muestra, para todas las variables estudiadas. Para
estos cálculos el investigador se basará en las consecuencias del “Teorema del Límite
Central”, teorema importantísimo y que subyace toda la Teoría del Muestreo.
En pocas palabras, y muy simple y someramente, lo que este Teorema nos entrega, es el
conocimiento de la forma que asume la Distribución de Muestreo, conformada por todas
las muestras de igual tamaño e igual diseño muestral, que se pueden extraer de este
Universo. A la distribución a la que nos referimos, es a la distribución defrecuencias
relativas de los distintos valores que puede asumir la variable bajo estudio entre todas
las muestras que, en teoría al menos, se podrían extraer del Marco Muestral.
En pocas palabras, podemos decir que la forma que asume esta Distribución es la
llamada Distribución Normal , conocida también como Distribución de Gauss. Esta
distribución Normal se obtiene exactamente cuando la distribución de frecuencias de la
variable en el Universo de Estudio es Normal. Cuando la distribución de frecuencias de
la variable bajo estudio no es Normal en el Universo, la Distribución de Muestreo es
asintóticamente Normal, es decir, a medida que el tamaño muestral “n” aumenta y
tiende a infinito, la curva dela Distribución de Muestreo se aproxima a la Distribución
Normal. En realidad no es necesario llegar a tamaños muestrales tan grandes, pues con
tamaños muestrales que sean superiores a 60 casos ya tenemos una Distribución de
Muestreo bastante cercana a la curva Normal.
Además, cuando hablamos de la Distribución de Muestreo, que comprende todos los
resultados posibles de obtener de todas las muestras posibles de extraer del Marco
Muestral, debemos detenernos a evaluar cuán grande puede llegar a ser este número de
muestras distintas posibles de ser extraídas del Marco Muestral.
Nuevamente, y recordando que estamos hablando de Muestreo Aleatorio Simple, el
número de muestras distintas posibles de extraer del Marco Muestral es
N!
K
n! N n !
Por ejemplo, supongamos que N, el tamaño del Universo, sea solamente 25 casos, y
“n”, el tamaño muestral, sea de 5. En este caso, tenemos
25!
K
5! 20 !
Lo que nos da
2
4. 21*22*23*24*25
K 53,130
1*2*3*4*5
Y suponiendo una muestra de 15 casos, tenemos
25!
K 3, 268, 760
15! 10 !
Como vemos, con tamaños tan pequeños de Universo y de muestra, vemos la enorme
cantidad de muestras distintas que podemos extraer del Universo. Imaginémonos ahora,
por un momento, ( y si podemos ), calcular cuantas muestras distintas de tamaño 1000
podríamos extraer de un Universo de 8,000,000 de casos. Para nuestra tranquilidad y
poder satisfacer nuestra curiosidad, presentamos el resultado a continuación
Aquí está la respuesta :
2872270770989777733513734946002202734272230463999015522186727447384084
2331597445519579147021302828804433302175119626455664253588422815952931
3898708387303192189853214307319814799501609560073615849667635283706208
6910717829981827876233387329770018964077871612695823786069048416780661
5904257130390672566848252237583635415591887816407305524793998989790528
8062770719709478621448858424331237596887234735860384908775303798841391
0136658183198764873546385694998970807853230317299723293328524166503518
8678741510232080225786108246422397574582602739471553454059583762203668
9577141575738255915893565407791670281008139739967113966926401961787333
7747331229638462891540052543339565637077712350132585870889432438578010
4202208892991439538476399990687161771892922959690937795277702403110659
0085708188123225488490596405659978587499269805458773531030203015265823
0261794909639399962431857514806957314684561451460429824304912143866595
3522119538985311794473122000247962840168460668650039478594870984298172
7632604322361949497260366374818505889413868715389785466179490006567091
4328154652131530904717598643652136735808078909694731411327722587042647
4771856405333153207858392876356359210439728863322436112347270191276068
6699663320902920224961411754386792748887203491782122476995928397467346
4725113657775117877750757664527193673090784065525647432353050156726203
9329930499927281889974905796552173524498560986701571402300633033834191
1258452647379758869199543723820067982784667929030887482680453481856631
9793237448807954985512094894990634842572749096860695326078166928731842
4483707506352283220427200011898862186639365224354363810559736098228906
2987388014863917403551185395993984726942438715990150992276935954798315
7322043510346723751125789223036007859419555633854715316337822744934318
4942480738963923963802304368219248687811633685505987974705757827387592
1235479393426283975133163552850427569245198004435370328264092450302641
3143421911981780431516632585106856678148399192405097170935275715168094
2710282868835397468254924805419463376266483897175520483748080807000907
8049445252142525299630272362641894631685342726028031836071935849854018
3
6. personas y efectuar este cálculo 2,87 x 104335 veces . Si graficáramos los resultados
obtenidos para un número limitado de muestras aleatorias posibles, ( digamos unas
10.000), obtendríamos un histograma similar al presentado en el gráfico siguiente, pero
si pudiéramos efectuar el cálculo para TODAS las muestras posibles, obtendríamos una
curva Normal, tal como lo demuestra el Teorema del Límite Central y se observa en el
gráfico siguiente,, y obtendríamos así todos los resultados, desde el valor(edad
promedio ) mínimo que podríamos obtenerde una muestra compuesta por las 1000
personas más jóvenes de las 8 millones de personas que componen el Universo de
Estudio, y el promedio máximo obtenido de las 1000 personas de más edad de las 8
millones de personas que componen el Universo de Estudio. Entre estos 2 valores
extremos, estarían los valores ( edades promedio ) de las 2,87x104335 muestras restantes,
ordenadas de menor a mayor ( según la edad promedio calculada en cada muestra) en el
eje de las abscisas del gráfico siguiente
Este ejemplo fue basado en un Universo hipotético con edad promedio de 36 años y
unavarianza de 49 años.
De esta forma, la Distribución de Muestreo, suponiendo una muestra aleatoria simple,
tendría como parámetros una media de 36 años y un Desvío Standard (llamado Error
Standard por tratarse de la Distribución de Muestreo) de
2
49
n 1000 0.221.
En esta Distribución de Muestreo, que contiene todos los resultados que se podrían
haber obtenido de haber realizado nuestra encuesta 2,87x104335 veces con muestras
aleatorias simples de tamaño 1000 cada una, el 95% de los resultados estarían entre
z * e.s. y +z*e.s. , donde “e.s.” simboliza el “Error Standard”. En nuestro ejemplo
estos límites serían 36 1.96*0.221 y 36 1.96*0.221 , es decir, entre la Media del
Universo menos 1.96 veces el Error Standard y la Media más 1.96 veces el Error
Standard. Efectuando los cálculos correspondientes, estos límites serían 35,57 y 36,43.
5
7. Si en lugar del 95% hubiéramos deseado obtener un intervalo que contenga el 99% de
los resultados de todas las muestras posibles, tendríamos que usar 2,58 en lugar de 1,96
como coeficiente. Y si quisiéramos obtener un intervalo que contenga el 99,73% de los
resultados, tendríamos que utilizar como coeficiente el valor de 3 en lugar de 1,96.
Como en la realidad desconocemos el valor real de la Media y del Error Standard,
nosotros utilizamos lo que denominamos Intervalo de Confianza, conformado por la
Media de nuestra única muestra a la cual luego le restamos y le sumamos,
simultáneamente, tal como lo hicimos con la Distribución de Muestreo, 1,96 veces el
Error Standard estimado, si queremos obtener un Nivel de Confianza del 95%, es decir,
si queremos tener una probabilidad del 95% de que el parámetro (valor real de la Media
en el Universo ) esté al interior de dicho intervalo (llamado Intervalo de Confianza). No
siempre desearemos obtener la estimación de la Media, pero en dichos casos, y si
quisiéramos obtener una estimación del Total de la variable en el Universo, sólo
debemos multiplicar la estimación de la Media obtenida de nuestra muestra por “N”, el
tamaño del Universo, el cual siempre es conocido cuando trabajamos con el diseño
denominado “Muestreo Aleatorio Simple.”.
Una última observación que deseamos plantear, es que el error standard que calculamos
a partir de nuestra única muestra, lo obtenemos utilizando en la fórmula correspondiente
al Error Standard
2
e.s.
n
el estimador insesgado “s2”de la varianza poblacional “ 2 ”, valor que obtenemos de
nuestra muestra, obteniendo por lo tanto, como fórmula extimada del Error Standard
s2
e.s.
n
La diferencia entre ambas varianzas es que mientras la varianza poblacional se obtiene
con la fórmula simple de la varianza
N
(Xi X )2
2 1
N
La varianza poblacional estimada a partir de una muestra se estima en base a la varianza
muestral insesgada, la cual se define como
6
8. n 2
xi x
s2 1
n 1
Este es el valor que se obtiene de nuestra muestra y se utiliza en la fórmula de cálculo
2
del Error Standard en lugar de σ
En el caso de variables dicotómicas ( o multicotómicas dicotomizadas ), el valor de la
varianza muestral insesgada “s2” es de
np (1 p )
s2
n 1
Si aceptamos que
n
1
n 1
Y reemplazamos a (1-p) por la letra q, tenemos que el Error Standard estimado de “p”
( la proporción de nuestra variable X en el Universo), sería de
pq
e.s.
n
La cual es la fórmula generalmente utilizada para estos efectos en la literatura
estadística. Conviene sí señalar que esta fórmula sólo es válida para el caso del
Muestreo Aleatorio Simple y muchas veces se la utiliza, erróneamente, en el caso de
muestras obtenidas en base a otros diseños muestrales.
REMUESTREO POR BOOTSTRAP
7