COMPARACION ENTRE      EL MUESTREO    PROBABILÍSTICO                                                                      ...
COMPARACIÓN ENTRE EL MUESTREO CLÁSICO Y EL                   REMUESTREO        BASADO EN LA TÉCNICA DEL BOOTSTRAPEl bootst...
calcular límites de error muestral a sus resultados, y obviamente, no podrá reclamar quesu muestra es probabilística., Si ...
21*22*23*24*25K                              53,130        1*2*3*4*5Y suponiendo una muestra de 15 casos, tenemos         ...
42902310892862641161644645518943374807463439760269334768527679828744643101624457930795924898692041232895578434312127134708...
personas y efectuar este cálculo 2,87 x 104335 veces . Si graficáramos los resultadosobtenidos para un número limitado de ...
Si en lugar del 95% hubiéramos deseado obtener un intervalo que contenga el 99% delos resultados de todas las muestras pos...
n                 2                   xi    xs2         1                   n 1Este es el valor que se obtiene de nuestra ...
Próxima SlideShare
Cargando en…5
×

BootStrap

2.216 visualizaciones

Publicado el

0 comentarios
2 recomendaciones
Estadísticas
Notas
  • Sé el primero en comentar

Sin descargas
Visualizaciones
Visualizaciones totales
2.216
En SlideShare
0
De insertados
0
Número de insertados
38
Acciones
Compartido
0
Descargas
0
Comentarios
0
Recomendaciones
2
Insertados 0
No insertados

No hay notas en la diapositiva.

BootStrap

  1. 1. COMPARACION ENTRE EL MUESTREO PROBABILÍSTICO Se explica el Remuestreo en base a las técnicas del CLÁSICO Y EL Bootstrap REMUESTREO Este artículo trata principalmente sobre la diferencia entre el Muestreo Aleatorio Simple y el Muestreo por Bootstrap en el cálculo de los márgenes de error muestral en las encuestas por Muestreo Probabilístico
  2. 2. COMPARACIÓN ENTRE EL MUESTREO CLÁSICO Y EL REMUESTREO BASADO EN LA TÉCNICA DEL BOOTSTRAPEl bootstrap es un tipo de técnica de remuestreo de datos que permite resolverproblemas relacionados con la estimación de intervalos de confianza o la prueba designificación estadística. Este enfoque puede resultar de interés para los investigadoresen Estudios de Mercado y de Opinión Pública, no sólo porque es menos restrictivo queel enfoque estadístico clásico, sino también porque es más general en su formulación ymás simple de comprender en lo referente al procedimiento básico que subyace almétodo. En lugar de fórmulas o modelos matemáticos abstractos, el bootstrapsimplemente requiere un computador capaz de simular diversos procesos de muestreoaleatorio de los datos. Sin embargo, y debido quizás a la escasa difusión de la técnica,los investigadores aún no han incorporado el bootstrap al repertorio habitual deherramientas de análisis de datos.Las computadoras modernas han abierto las puertas para un tratamiento enprofundidadde las bases de datos y análisis de datos, algo que antes era inconcebible. Lavisualización dinámica de datos, la simulación y los métodos de remuestreo sonalgunos ejemplos de enfoques que, apoyados en las capacidades de los computadoresmodernos, han enriquecido el trabajo de exploración y análisis estadístico de datos. Larelación entre computadores y la inferencia estadística además del análisis científico dedatos es patente para el caso de las llamadas técnicas de remuestreo de datos („dataresampling‟), entre las que encontramos en primer lugar de importancia ( cuando nosreferimos a las encuestas probabilísticas), el Bootstrap.La diferencia fundamental entre el muestreo clásico y el “Remuestreo por Bootstrap”,se aclara a continuación, con un ejemplo simple basado en el diseño básicodenominado“muestreo aleatorio simple.”MUESTREO PROBABILÍSTICO CLÁSICOEn este simple diseño muestral, se extrae una muestra de tamaño “n” , de una lista(Marco Muestral) de tamaño “N”, utilizando para ello números aleatorios.La selección puede ser con reposición (es decir un mismo número puede ser extraído enmás de una ocasión y con ello, la muestra puede contener elementos repetidos ), o sinreposición (es decir, todos los integrantes de la muestra serán distintos).Generalmente el tamaño del Marco Muestral, que representa lo que se suele llamar elUniverso de Estudio, es mucho mayor que el tamaño muestral. Por ejemplo, podemosseleccionar una muestra de tamaño 400, ó 1000, o cualquier otro tamaño, de un MarcoMuestral que puede contener centenares de miles de unidades muestrales (elementos dela lista que constituye el Marco Muestral), o incluso millones de unidades.muestrales.Para que la muestra se considere probabilística y con capacidad de inferir a partir de susresultados, al Universo de Estudio, las unidades muestrales deben ser extraídasutilizando números aleatorios. Cualquier otro tipo de extracción que no comprendanúmeros aleatorios en alguna etapa de la selección ( en diseños muestralesmultietápicos, por ejemplo), no será probabilístico, y en consecuencia la inferencia seráde exclusiva responsabilidad del investigador, y éste no podrá ( mejor dicho : no deberá) 1
  3. 3. calcular límites de error muestral a sus resultados, y obviamente, no podrá reclamar quesu muestra es probabilística., Si lo hace, se estará vistiendo con ropajes ajenos.Este tipo de muestreo, el probabilístico, permite el cálculo de la precisión de lasestimaciones que se obtienen de su muestra, para todas las variables estudiadas. Paraestos cálculos el investigador se basará en las consecuencias del “Teorema del LímiteCentral”, teorema importantísimo y que subyace toda la Teoría del Muestreo.En pocas palabras, y muy simple y someramente, lo que este Teorema nos entrega, es elconocimiento de la forma que asume la Distribución de Muestreo, conformada por todaslas muestras de igual tamaño e igual diseño muestral, que se pueden extraer de esteUniverso. A la distribución a la que nos referimos, es a la distribución defrecuenciasrelativas de los distintos valores que puede asumir la variable bajo estudio entre todaslas muestras que, en teoría al menos, se podrían extraer del Marco Muestral.En pocas palabras, podemos decir que la forma que asume esta Distribución es lallamada Distribución Normal , conocida también como Distribución de Gauss. Estadistribución Normal se obtiene exactamente cuando la distribución de frecuencias de lavariable en el Universo de Estudio es Normal. Cuando la distribución de frecuencias dela variable bajo estudio no es Normal en el Universo, la Distribución de Muestreo esasintóticamente Normal, es decir, a medida que el tamaño muestral “n” aumenta ytiende a infinito, la curva dela Distribución de Muestreo se aproxima a la DistribuciónNormal. En realidad no es necesario llegar a tamaños muestrales tan grandes, pues contamaños muestrales que sean superiores a 60 casos ya tenemos una Distribución deMuestreo bastante cercana a la curva Normal.Además, cuando hablamos de la Distribución de Muestreo, que comprende todos losresultados posibles de obtener de todas las muestras posibles de extraer del MarcoMuestral, debemos detenernos a evaluar cuán grande puede llegar a ser este número demuestras distintas posibles de ser extraídas del Marco Muestral.Nuevamente, y recordando que estamos hablando de Muestreo Aleatorio Simple, elnúmero de muestras distintas posibles de extraer del Marco Muestral es N!K n! N n !Por ejemplo, supongamos que N, el tamaño del Universo, sea solamente 25 casos, y“n”, el tamaño muestral, sea de 5. En este caso, tenemos 25!K 5! 20 !Lo que nos da 2
  4. 4. 21*22*23*24*25K 53,130 1*2*3*4*5Y suponiendo una muestra de 15 casos, tenemos 25!K 3, 268, 760 15! 10 !Como vemos, con tamaños tan pequeños de Universo y de muestra, vemos la enormecantidad de muestras distintas que podemos extraer del Universo. Imaginémonos ahora,por un momento, ( y si podemos ), calcular cuantas muestras distintas de tamaño 1000podríamos extraer de un Universo de 8,000,000 de casos. Para nuestra tranquilidad ypoder satisfacer nuestra curiosidad, presentamos el resultado a continuaciónAquí está la respuesta :287227077098977773351373494600220273427223046399901552218672744738408423315974455195791470213028288044333021751196264556642535884228159529313898708387303192189853214307319814799501609560073615849667635283706208691071782998182787623338732977001896407787161269582378606904841678066159042571303906725668482522375836354155918878164073055247939989897905288062770719709478621448858424331237596887234735860384908775303798841391013665818319876487354638569499897080785323031729972329332852416650351886787415102320802257861082464223975745826027394715534540595837622036689577141575738255915893565407791670281008139739967113966926401961787333774733122963846289154005254333956563707771235013258587088943243857801042022088929914395384763999906871617718929229596909377952777024031106590085708188123225488490596405659978587499269805458773531030203015265823026179490963939996243185751480695731468456145146042982430491214386659535221195389853117944731220002479628401684606686500394785948709842981727632604322361949497260366374818505889413868715389785466179490006567091432815465213153090471759864365213673580807890969473141132772258704264747718564053331532078583928763563592104397288633224361123472701912760686699663320902920224961411754386792748887203491782122476995928397467346472511365777511787775075766452719367309078406552564743235305015672620393299304999272818899749057965521735244985609867015714023006330338341911258452647379758869199543723820067982784667929030887482680453481856631979323744880795498551209489499063484257274909686069532607816692873184244837075063522832204272000118988621866393652243543638105597360982289062987388014863917403551185395993984726942438715990150992276935954798315732204351034672375112578922303600785941955563385471531633782274493431849424807389639239638023043682192486878116336855059879747057578273875921235479393426283975133163552850427569245198004435370328264092450302641314342191198178043151663258510685667814839919240509717093527571516809427102828688353974682549248054194633762664838971755204837480808070009078049445252142525299630272362641894631685342726028031836071935849854018 3
  5. 5. 4290231089286264116164464551894337480746343976026933476852767982874464310162445793079592489869204123289557843431212713470821887671089503276841456737963031399189658352062414559274965245548928481639684971736874436110376523264438036361311100233916303723390447846143306988919201410335882958336177534126491018108928458203388583290298312699003894850458304186909684380167422750738209778817263417310334182186116223331828056639290040841233190401341103468737765779453009971427325689711096377752598861308342876587095540760363856388925234075328626876939078106501596320100753267287578280983449386112652317477658800704136938400534171742085527778027301578273378826361055251170079053146995494003435975651204161400849803272323035998360499144705768531841221882285218183116251684181400360138582846582575800049090870442245687276855528507327823290576562144383054806595389451824256880944062576937799919464633089065227502556143677916450702219785222419026513484125077005344538953969565101172946707857777953827241814638054423207195240896073606326595754287159402779648290960304801710753489722253208358956578934108527675431419173059981121932246460438180385475551404726100401674349849127676214056165511023527494139481541955870603969603039073678422883156601125484682501320709064475042356295825409098149835025309856605945982069220808000147479170096819111995400021910680827756364450378567564037274531316892068426744032816612698842820213916155250167922947464289152164214291487144128121737634323829786454450451336587597629983292508938969328202993748155351297331167173707785959813631634869708293048303851772943896352670208426229684428589684717350150863742572711390998607767102968900574710608927654763050362198437989942239464078017019022745711081043010044097072003258978237518569946368990982226973927474349001287792424218181647066745840609953048614915529401667852743024926770309503389660711866782333529995324963654032451169053186483605937534582534643023945880802606824441140942035178249686430347592757977710357339757031340752029516160232798081623298075058353775987476587803704157207761134714513199641104128827457070654102325683870557021808698433578838886978365881063135161639782921831249077062906710524637545525998626601614346662901485130359254503632739813845320195392000(Afortunadamente, nuestro programa “ Mathematica” pudo resolverlo)Si recordamos que 2,87 millones se escribiría como 2,87x106 imaginemos a lo queequivale la cantidad recién calculada, pues tenemos ahora un número con 4335 ceros enlugar de 6 ceros.Sólo imaginemos que si existen 300.000.000.000 (trescientos mil millones) de estrellasen promedio por galaxia, y se estima que hay 250.000.000.000 (doscientos cincuentamil millones) de galaxias en el universo, entonces tendríamos aproximadamente7,5 x 1022estrellas en el Universo completo. (comparemos este exponente de 22 con4335). Cuesta imaginarse la enormidad de esta cifra.Volviendo al tema que nos preocupa, si pudiéramos efectuar todas las encuestasposibles, y suponiendo que nuestra variable de interés es la edad promedio del universode 8 millones de personas, tendríamos que promediar la edad en cada encuesta de 1000 4
  6. 6. personas y efectuar este cálculo 2,87 x 104335 veces . Si graficáramos los resultadosobtenidos para un número limitado de muestras aleatorias posibles, ( digamos unas10.000), obtendríamos un histograma similar al presentado en el gráfico siguiente, perosi pudiéramos efectuar el cálculo para TODAS las muestras posibles, obtendríamos unacurva Normal, tal como lo demuestra el Teorema del Límite Central y se observa en elgráfico siguiente,, y obtendríamos así todos los resultados, desde el valor(edadpromedio ) mínimo que podríamos obtenerde una muestra compuesta por las 1000personas más jóvenes de las 8 millones de personas que componen el Universo deEstudio, y el promedio máximo obtenido de las 1000 personas de más edad de las 8millones de personas que componen el Universo de Estudio. Entre estos 2 valoresextremos, estarían los valores ( edades promedio ) de las 2,87x104335 muestras restantes,ordenadas de menor a mayor ( según la edad promedio calculada en cada muestra) en eleje de las abscisas del gráfico siguienteEste ejemplo fue basado en un Universo hipotético con edad promedio de 36 años yunavarianza de 49 años.De esta forma, la Distribución de Muestreo, suponiendo una muestra aleatoria simple,tendría como parámetros una media de 36 años y un Desvío Standard (llamado ErrorStandard por tratarse de la Distribución de Muestreo) de 2 49 n 1000 0.221.En esta Distribución de Muestreo, que contiene todos los resultados que se podríanhaber obtenido de haber realizado nuestra encuesta 2,87x104335 veces con muestrasaleatorias simples de tamaño 1000 cada una, el 95% de los resultados estarían entre z * e.s. y +z*e.s. , donde “e.s.” simboliza el “Error Standard”. En nuestro ejemploestos límites serían 36 1.96*0.221 y 36 1.96*0.221 , es decir, entre la Media delUniverso menos 1.96 veces el Error Standard y la Media más 1.96 veces el ErrorStandard. Efectuando los cálculos correspondientes, estos límites serían 35,57 y 36,43. 5
  7. 7. Si en lugar del 95% hubiéramos deseado obtener un intervalo que contenga el 99% delos resultados de todas las muestras posibles, tendríamos que usar 2,58 en lugar de 1,96como coeficiente. Y si quisiéramos obtener un intervalo que contenga el 99,73% de losresultados, tendríamos que utilizar como coeficiente el valor de 3 en lugar de 1,96.Como en la realidad desconocemos el valor real de la Media y del Error Standard,nosotros utilizamos lo que denominamos Intervalo de Confianza, conformado por laMedia de nuestra única muestra a la cual luego le restamos y le sumamos,simultáneamente, tal como lo hicimos con la Distribución de Muestreo, 1,96 veces elError Standard estimado, si queremos obtener un Nivel de Confianza del 95%, es decir,si queremos tener una probabilidad del 95% de que el parámetro (valor real de la Mediaen el Universo ) esté al interior de dicho intervalo (llamado Intervalo de Confianza). Nosiempre desearemos obtener la estimación de la Media, pero en dichos casos, y siquisiéramos obtener una estimación del Total de la variable en el Universo, sólodebemos multiplicar la estimación de la Media obtenida de nuestra muestra por “N”, eltamaño del Universo, el cual siempre es conocido cuando trabajamos con el diseñodenominado “Muestreo Aleatorio Simple.”.Una última observación que deseamos plantear, es que el error standard que calculamosa partir de nuestra única muestra, lo obtenemos utilizando en la fórmula correspondienteal Error Standard 2e.s. nel estimador insesgado “s2”de la varianza poblacional “ 2 ”, valor que obtenemos denuestra muestra, obteniendo por lo tanto, como fórmula extimada del Error Standard s2e.s. nLa diferencia entre ambas varianzas es que mientras la varianza poblacional se obtienecon la fórmula simple de la varianza N (Xi X )2 2 1 NLa varianza poblacional estimada a partir de una muestra se estima en base a la varianzamuestral insesgada, la cual se define como 6
  8. 8. n 2 xi xs2 1 n 1Este es el valor que se obtiene de nuestra muestra y se utiliza en la fórmula de cálculo 2del Error Standard en lugar de σEn el caso de variables dicotómicas ( o multicotómicas dicotomizadas ), el valor de lavarianza muestral insesgada “s2” es de np (1 p )s2 n 1Si aceptamos que n 1n 1Y reemplazamos a (1-p) por la letra q, tenemos que el Error Standard estimado de “p”( la proporción de nuestra variable X en el Universo), sería de pqe.s. nLa cual es la fórmula generalmente utilizada para estos efectos en la literaturaestadística. Conviene sí señalar que esta fórmula sólo es válida para el caso delMuestreo Aleatorio Simple y muchas veces se la utiliza, erróneamente, en el caso demuestras obtenidas en base a otros diseños muestrales.REMUESTREO POR BOOTSTRAP 7

×