BootStrap

COMPARACION ENTRE
EL MUESTREO
PROBABILÍSTICO
Se explica el
Remuestreo en base
a las técnicas del

CLÁSICO Y EL Bootstrap

REMUESTREO

Este artículo trata principalmente sobre la diferencia entre el Muestreo
Aleatorio Simple y el Muestreo por Bootstrap en el cálculo de los
márgenes de error muestral en las encuestas por Muestreo Probabilístico

COMPARACIÓN ENTRE EL MUESTREO CLÁSICO Y EL
REMUESTREO
BASADO EN LA TÉCNICA DEL BOOTSTRAP

El bootstrap es un tipo de técnica de remuestreo de datos que permite resolver
problemas relacionados con la estimación de intervalos de confianza o la prueba de
significación estadística. Este enfoque puede resultar de interés para los investigadores
en Estudios de Mercado y de Opinión Pública, no sólo porque es menos restrictivo que
el enfoque estadístico clásico, sino también porque es más general en su formulación y
más simple de comprender en lo referente al procedimiento básico que subyace al
método. En lugar de fórmulas o modelos matemáticos abstractos, el bootstrap
simplemente requiere un computador capaz de simular diversos procesos de muestreo
aleatorio de los datos. Sin embargo, y debido quizás a la escasa difusión de la técnica,
los investigadores aún no han incorporado el bootstrap al repertorio habitual de
herramientas de análisis de datos.

Las computadoras modernas han abierto las puertas para un tratamiento en
profundidadde las bases de datos y análisis de datos, algo que antes era inconcebible. La
visualización dinámica de datos, la simulación y los métodos de remuestreo son
algunos ejemplos de enfoques que, apoyados en las capacidades de los computadores
modernos, han enriquecido el trabajo de exploración y análisis estadístico de datos. La
relación entre computadores y la inferencia estadística además del análisis científico de
datos es patente para el caso de las llamadas técnicas de remuestreo de datos („data
resampling‟), entre las que encontramos en primer lugar de importancia ( cuando nos
referimos a las encuestas probabilísticas), el Bootstrap.

La diferencia fundamental entre el muestreo clásico y el “Remuestreo por Bootstrap”,
se aclara a continuación, con un ejemplo simple basado en el diseño básico
denominado“muestreo aleatorio simple.”

MUESTREO PROBABILÍSTICO CLÁSICO

En este simple diseño muestral, se extrae una muestra de tamaño “n” , de una lista
(Marco Muestral) de tamaño “N”, utilizando para ello números aleatorios.
La selección puede ser con reposición (es decir un mismo número puede ser extraído en
más de una ocasión y con ello, la muestra puede contener elementos repetidos ), o sin
reposición (es decir, todos los integrantes de la muestra serán distintos).
Generalmente el tamaño del Marco Muestral, que representa lo que se suele llamar el
Universo de Estudio, es mucho mayor que el tamaño muestral. Por ejemplo, podemos
seleccionar una muestra de tamaño 400, ó 1000, o cualquier otro tamaño, de un Marco
Muestral que puede contener centenares de miles de unidades muestrales (elementos de
la lista que constituye el Marco Muestral), o incluso millones de unidades.muestrales.
Para que la muestra se considere probabilística y con capacidad de inferir a partir de sus
resultados, al Universo de Estudio, las unidades muestrales deben ser extraídas
utilizando números aleatorios. Cualquier otro tipo de extracción que no comprenda
números aleatorios en alguna etapa de la selección ( en diseños muestrales
multietápicos, por ejemplo), no será probabilístico, y en consecuencia la inferencia será
de exclusiva responsabilidad del investigador, y éste no podrá ( mejor dicho : no deberá)

1

calcular límites de error muestral a sus resultados, y obviamente, no podrá reclamar que
su muestra es probabilística., Si lo hace, se estará vistiendo con ropajes ajenos.

Este tipo de muestreo, el probabilístico, permite el cálculo de la precisión de las
estimaciones que se obtienen de su muestra, para todas las variables estudiadas. Para
estos cálculos el investigador se basará en las consecuencias del “Teorema del Límite
Central”, teorema importantísimo y que subyace toda la Teoría del Muestreo.
En pocas palabras, y muy simple y someramente, lo que este Teorema nos entrega, es el
conocimiento de la forma que asume la Distribución de Muestreo, conformada por todas
las muestras de igual tamaño e igual diseño muestral, que se pueden extraer de este
Universo. A la distribución a la que nos referimos, es a la distribución defrecuencias
relativas de los distintos valores que puede asumir la variable bajo estudio entre todas
las muestras que, en teoría al menos, se podrían extraer del Marco Muestral.

En pocas palabras, podemos decir que la forma que asume esta Distribución es la
llamada Distribución Normal , conocida también como Distribución de Gauss. Esta
distribución Normal se obtiene exactamente cuando la distribución de frecuencias de la
variable en el Universo de Estudio es Normal. Cuando la distribución de frecuencias de
la variable bajo estudio no es Normal en el Universo, la Distribución de Muestreo es
asintóticamente Normal, es decir, a medida que el tamaño muestral “n” aumenta y
tiende a infinito, la curva dela Distribución de Muestreo se aproxima a la Distribución
Normal. En realidad no es necesario llegar a tamaños muestrales tan grandes, pues con
tamaños muestrales que sean superiores a 60 casos ya tenemos una Distribución de
Muestreo bastante cercana a la curva Normal.

Además, cuando hablamos de la Distribución de Muestreo, que comprende todos los
resultados posibles de obtener de todas las muestras posibles de extraer del Marco
Muestral, debemos detenernos a evaluar cuán grande puede llegar a ser este número de
muestras distintas posibles de ser extraídas del Marco Muestral.

Nuevamente, y recordando que estamos hablando de Muestreo Aleatorio Simple, el
número de muestras distintas posibles de extraer del Marco Muestral es

N!
K
n! N n !
Por ejemplo, supongamos que N, el tamaño del Universo, sea solamente 25 casos, y
“n”, el tamaño muestral, sea de 5. En este caso, tenemos

25!
K
5! 20 !
Lo que nos da

2

21*22*23*24*25
K 53,130
1*2*3*4*5

Y suponiendo una muestra de 15 casos, tenemos

25!
K 3, 268, 760
15! 10 !
Como vemos, con tamaños tan pequeños de Universo y de muestra, vemos la enorme
cantidad de muestras distintas que podemos extraer del Universo. Imaginémonos ahora,
por un momento, ( y si podemos ), calcular cuantas muestras distintas de tamaño 1000
podríamos extraer de un Universo de 8,000,000 de casos. Para nuestra tranquilidad y
poder satisfacer nuestra curiosidad, presentamos el resultado a continuación

Aquí está la respuesta :

2872270770989777733513734946002202734272230463999015522186727447384084
2331597445519579147021302828804433302175119626455664253588422815952931
3898708387303192189853214307319814799501609560073615849667635283706208
6910717829981827876233387329770018964077871612695823786069048416780661
5904257130390672566848252237583635415591887816407305524793998989790528
8062770719709478621448858424331237596887234735860384908775303798841391
0136658183198764873546385694998970807853230317299723293328524166503518
8678741510232080225786108246422397574582602739471553454059583762203668
9577141575738255915893565407791670281008139739967113966926401961787333
7747331229638462891540052543339565637077712350132585870889432438578010
4202208892991439538476399990687161771892922959690937795277702403110659
0085708188123225488490596405659978587499269805458773531030203015265823
0261794909639399962431857514806957314684561451460429824304912143866595
3522119538985311794473122000247962840168460668650039478594870984298172
7632604322361949497260366374818505889413868715389785466179490006567091
4328154652131530904717598643652136735808078909694731411327722587042647
4771856405333153207858392876356359210439728863322436112347270191276068
6699663320902920224961411754386792748887203491782122476995928397467346
4725113657775117877750757664527193673090784065525647432353050156726203
9329930499927281889974905796552173524498560986701571402300633033834191
1258452647379758869199543723820067982784667929030887482680453481856631
9793237448807954985512094894990634842572749096860695326078166928731842
4483707506352283220427200011898862186639365224354363810559736098228906
2987388014863917403551185395993984726942438715990150992276935954798315
7322043510346723751125789223036007859419555633854715316337822744934318
4942480738963923963802304368219248687811633685505987974705757827387592
1235479393426283975133163552850427569245198004435370328264092450302641
3143421911981780431516632585106856678148399192405097170935275715168094
2710282868835397468254924805419463376266483897175520483748080807000907
8049445252142525299630272362641894631685342726028031836071935849854018

3

4290231089286264116164464551894337480746343976026933476852767982874464
3101624457930795924898692041232895578434312127134708218876710895032768
4145673796303139918965835206241455927496524554892848163968497173687443
6110376523264438036361311100233916303723390447846143306988919201410335
8829583361775341264910181089284582033885832902983126990038948504583041
8690968438016742275073820977881726341731033418218611622333182805663929
0040841233190401341103468737765779453009971427325689711096377752598861
3083428765870955407603638563889252340753286268769390781065015963201007
5326728757828098344938611265231747765880070413693840053417174208552777
8027301578273378826361055251170079053146995494003435975651204161400849
8032723230359983604991447057685318412218822852181831162516841814003601
3858284658257580004909087044224568727685552850732782329057656214438305
4806595389451824256880944062576937799919464633089065227502556143677916
4507022197852224190265134841250770053445389539695651011729467078577779
5382724181463805442320719524089607360632659575428715940277964829096030
4801710753489722253208358956578934108527675431419173059981121932246460
4381803854755514047261004016743498491276762140561655110235274941394815
4195587060396960303907367842288315660112548468250132070906447504235629
5825409098149835025309856605945982069220808000147479170096819111995400
0219106808277563644503785675640372745313168920684267440328166126988428
2021391615525016792294746428915216421429148714412812173763432382978645
4450451336587597629983292508938969328202993748155351297331167173707785
9598136316348697082930483038517729438963526702084262296844285896847173
5015086374257271139099860776710296890057471060892765476305036219843798
9942239464078017019022745711081043010044097072003258978237518569946368
9909822269739274743490012877924242181816470667458406099530486149155294
0166785274302492677030950338966071186678233352999532496365403245116905
3186483605937534582534643023945880802606824441140942035178249686430347
5927579777103573397570313407520295161602327980816232980750583537759874
7658780370415720776113471451319964110412882745707065410232568387055702
1808698433578838886978365881063135161639782921831249077062906710524637
545525998626601614346662901485130359254503632739813845320195392000

(Afortunadamente, nuestro programa “ Mathematica” pudo resolverlo)

Si recordamos que 2,87 millones se escribiría como 2,87x106 imaginemos a lo que
equivale la cantidad recién calculada, pues tenemos ahora un número con 4335 ceros en
lugar de 6 ceros.
Sólo imaginemos que si existen 300.000.000.000 (trescientos mil millones) de estrellas
en promedio por galaxia, y se estima que hay 250.000.000.000 (doscientos cincuenta
mil millones) de galaxias en el universo, entonces tendríamos aproximadamente
7,5 x 1022estrellas en el Universo completo. (comparemos este exponente de 22 con
4335). Cuesta imaginarse la enormidad de esta cifra.
Volviendo al tema que nos preocupa, si pudiéramos efectuar todas las encuestas
posibles, y suponiendo que nuestra variable de interés es la edad promedio del universo
de 8 millones de personas, tendríamos que promediar la edad en cada encuesta de 1000

4

personas y efectuar este cálculo 2,87 x 104335 veces . Si graficáramos los resultados
obtenidos para un número limitado de muestras aleatorias posibles, ( digamos unas
10.000), obtendríamos un histograma similar al presentado en el gráfico siguiente, pero
si pudiéramos efectuar el cálculo para TODAS las muestras posibles, obtendríamos una
curva Normal, tal como lo demuestra el Teorema del Límite Central y se observa en el
gráfico siguiente,, y obtendríamos así todos los resultados, desde el valor(edad
promedio ) mínimo que podríamos obtenerde una muestra compuesta por las 1000
personas más jóvenes de las 8 millones de personas que componen el Universo de
Estudio, y el promedio máximo obtenido de las 1000 personas de más edad de las 8
millones de personas que componen el Universo de Estudio. Entre estos 2 valores
extremos, estarían los valores ( edades promedio ) de las 2,87x104335 muestras restantes,
ordenadas de menor a mayor ( según la edad promedio calculada en cada muestra) en el
eje de las abscisas del gráfico siguiente

Este ejemplo fue basado en un Universo hipotético con edad promedio de 36 años y
unavarianza de 49 años.
De esta forma, la Distribución de Muestreo, suponiendo una muestra aleatoria simple,
tendría como parámetros una media de 36 años y un Desvío Standard (llamado Error
Standard por tratarse de la Distribución de Muestreo) de
2
49
n 1000 0.221.
En esta Distribución de Muestreo, que contiene todos los resultados que se podrían
haber obtenido de haber realizado nuestra encuesta 2,87x104335 veces con muestras
aleatorias simples de tamaño 1000 cada una, el 95% de los resultados estarían entre
z * e.s. y +z*e.s. , donde “e.s.” simboliza el “Error Standard”. En nuestro ejemplo
estos límites serían 36 1.96*0.221 y 36 1.96*0.221 , es decir, entre la Media del
Universo menos 1.96 veces el Error Standard y la Media más 1.96 veces el Error
Standard. Efectuando los cálculos correspondientes, estos límites serían 35,57 y 36,43.
5

Si en lugar del 95% hubiéramos deseado obtener un intervalo que contenga el 99% de
los resultados de todas las muestras posibles, tendríamos que usar 2,58 en lugar de 1,96
como coeficiente. Y si quisiéramos obtener un intervalo que contenga el 99,73% de los
resultados, tendríamos que utilizar como coeficiente el valor de 3 en lugar de 1,96.
Como en la realidad desconocemos el valor real de la Media y del Error Standard,
nosotros utilizamos lo que denominamos Intervalo de Confianza, conformado por la
Media de nuestra única muestra a la cual luego le restamos y le sumamos,
simultáneamente, tal como lo hicimos con la Distribución de Muestreo, 1,96 veces el
Error Standard estimado, si queremos obtener un Nivel de Confianza del 95%, es decir,
si queremos tener una probabilidad del 95% de que el parámetro (valor real de la Media
en el Universo ) esté al interior de dicho intervalo (llamado Intervalo de Confianza). No
siempre desearemos obtener la estimación de la Media, pero en dichos casos, y si
quisiéramos obtener una estimación del Total de la variable en el Universo, sólo
debemos multiplicar la estimación de la Media obtenida de nuestra muestra por “N”, el
tamaño del Universo, el cual siempre es conocido cuando trabajamos con el diseño
denominado “Muestreo Aleatorio Simple.”.
Una última observación que deseamos plantear, es que el error standard que calculamos
a partir de nuestra única muestra, lo obtenemos utilizando en la fórmula correspondiente
al Error Standard

2
e.s.
n
el estimador insesgado “s2”de la varianza poblacional “ 2 ”, valor que obtenemos de
nuestra muestra, obteniendo por lo tanto, como fórmula extimada del Error Standard

s2
e.s.
n
La diferencia entre ambas varianzas es que mientras la varianza poblacional se obtiene
con la fórmula simple de la varianza

N
(Xi X )2
2 1
N
La varianza poblacional estimada a partir de una muestra se estima en base a la varianza
muestral insesgada, la cual se define como

6

n 2

xi x
s2 1
n 1
Este es el valor que se obtiene de nuestra muestra y se utiliza en la fórmula de cálculo
2
del Error Standard en lugar de σ
En el caso de variables dicotómicas ( o multicotómicas dicotomizadas ), el valor de la
varianza muestral insesgada “s2” es de

np (1 p )
s2
n 1
Si aceptamos que
n
1
n 1
Y reemplazamos a (1-p) por la letra q, tenemos que el Error Standard estimado de “p”
( la proporción de nuestra variable X en el Universo), sería de

pq
e.s.
n
La cual es la fórmula generalmente utilizada para estos efectos en la literatura
estadística. Conviene sí señalar que esta fórmula sólo es válida para el caso del
Muestreo Aleatorio Simple y muchas veces se la utiliza, erróneamente, en el caso de
muestras obtenidas en base a otros diseños muestrales.

REMUESTREO POR BOOTSTRAP

7

BootStrap

Recomendados

Recomendados

Más contenido relacionado

Similar a BootStrap

Similar a BootStrap (20)

BootStrap