prof__investigador1_diseno_muestral_ed2_29_05_2015_01_30 (3).pdf

MÓDULO III: APLICACIONES PRÁCTICAS DEL DISEÑO MUESTRAL
EN LAS ENCUESTAS ECONÓMICAS
DISEÑO MUESTRAL DE LAS ENCUESTAS DE POBLACIÓN Y
ECONÓMICAS. Ed.2

Módulo 3: Aplicaciones prácticas del Diseño Muestral en las Encuestas Económicas 2
DISEÑO MUESTRAL DE LAS ENCUESTAS DE POBLACIÓN Y ECONÓMICAS. Ed. 2
ÍNDICE
ÍNDICE......................................................................................................... 2
INTRODUCCIÓN Y OBJETIVOS......................................................................... 4
Unidad 8. Diseño Muestral de Encuestas Económicas en el INE............................ 5
Introducción............................................................................................... 5
8.1. Comparación con el diseño de Encuestas a Hogares.................................. 5
8.2. Diseño Muestral de La Encuesta Industrial Anual de Empresas ................... 8
8.2.1. Objetivos....................................................................................... 8
8.2.2. Ámbito de la encuesta ..................................................................... 9
8.2.3. Marco............................................................................................ 9
8.2.4. Tipo de muestreo...........................................................................10
8.2.5. Variables de estratiﬁcación .............................................................10
8.2.6. Tamaño de la muestra....................................................................12
8.2.7. Estudio de outliers .........................................................................20
8.2.8. Selección de la muestra aleatoria.....................................................23
8.2.9. Estimadores..................................................................................23
8.2.10. Errores de muestreo.....................................................................31
8.3. Resumen............................................................................................34
Unidad 9. Diseños muestrales de las encuestas agrarias del INE.........................35
9.1. Diseño de la Encuesta sobre la Estructura de las Explotaciones Agrícolas....36
9.1.1. Un poco de historia ........................................................................36
9.1.2. Método de las explotaciones hijas ....................................................37
9.1.3. Marco muestral: Selección de las variables clave para el diseño...........40
9.1.4. Determinación de las explotaciones exhaustivas ................................41
9.1.5. Estratificación ...............................................................................43
9.1.6. Asignación muestral.......................................................................46

9.1.7. Selección muestral.........................................................................49
9.1.8. Incidencias y estimadores...............................................................49
9.2. Diseño de la Encuesta sobre Métodos de Producción en las Explotaciones
Agrícolas...................................................................................................52
9.2.1. Diseño muestral ............................................................................52
9.2.2. Estimadores calibrados...................................................................53
9.3. Resumen............................................................................................57
Unidad 10. La falta de respuesta e Indicadores de Calidad de las encuestas
Económicas..................................................................................................58
10.1. Calidad Estadística.............................................................................58
10.1.1. Dimensiones de la calidad estadística .............................................58
10.1.2. Indicadores de calidad para la acuracidad .......................................59
10.2. La Falta de Respuesta ........................................................................60
10.2.1. La Falta de Respuesta por Ilocalizable o Negativa.............................62
10.2.2. La Falta de Respuesta por Baja (Exceso de cobertura) ......................72
10.3. Indicadores de Calidad .......................................................................73
10.3.1. Indicadores de la Falta de Respuesta..............................................73
10.3.2. Indicadores de Exceso de Cobertura y Clasificación Errónea ..............76
10.4. Resumen ..........................................................................................77

INTRODUCCIÓN Y OBJETIVOS
El objetivo de este módulo es presentar los diseños muestrales de las principales
encuesta ecónomicas que realizamos junto con las dificultades que se presentan y
la forma de resolverlas. Se estructura en tres unidades en las que se describen con
detalle los diseños muestrales de las encuestas que realiza el INE.
En la unidad 8 se presenta el diseño de la Encuesta Industrial Anual, como modelo
de encuesta dirigida a las empresas y de más tradición entre las encuestas
económicas que realiza el INE. En este tema se remarcan las diferencias
fundamentales que hay entre los diseños muestrales de las encuestas de hogares y
económicas.
En la unidad 9 se presenta el diseño muestral de las encuestas agrarias,
completándose este módulo con la unidad 10 en la que se analiza la falta de
respuesta en las encuestas económicas, su tratamiento y efecto sobre las
estimaciones junto con un análisis de los indicadores utilizados para medir la
calidad de los datos en las mismas.

UNIDAD 8. DISEÑO MUESTRAL DE ENCUESTAS ECONÓMICAS EN EL INE
Introducción
El diseño de encuestas dirigidas a empresas tiene su propia casuística y para
entender bien el porqué de las herramientas utilizadas vamos a empezar realizando
una comparación del muestreo dirigido a empresas frente al de hogares. En el
segundo punto abordaremos el diseño muestral de las encuestas económicas
centrándonos en su aplicación a la Encuesta Industrial Anual de Empresas.
8.1. Comparación con el diseño de Encuestas a Hogares
Veamos las diferencias entre los dos tipos de encuestas.
Encuestas a Hogares Encuestas Económicas
Marco de áreas y de lista Marco de lista
Muestreo multietápico Muestreo monoetápico
Recogida de datos: Recogida de datos:
Entrevista personal Correo, teléfono, fax, web
Coste elevado Menor Coste
Variables Cualitativas Variables Cuantitativas
Afijación de compromiso entre uniforme y proporcional Afijación óptima
Incidencias más comunes: Incidencias más comunes:
Falta de Respuesta Unidades mal clasificadas
Tabla 1. Características generales de las encuestas

A continuación se comentan los distintos puntos de la tabla
 Un marco puede ser un listado de unidades, bien elementales o bien
compuestas, dependiendo de las unidades que se vayan a seleccionar. En el
caso de las unidades compuestas lo normal es tener varios marcos.
En las encuestas económicas se dispone de un marco de unidades
elementales de empresas. En concreto el marco es el directorio central de
empresas DIRCE, que trata de reunir en un directorio único todas las
empresas españolas.
En encuestas de hogares, se dispone de un marco compuesto, en primer
lugar un marco de secciones censales y en segundo lugar se mantiene un
marco de viviendas para las secciones seleccionadas.
 Muestreo Multiétapico vs Muestreo Monoétapico
¿Por qué en las encuestas de hogares se utiliza un muestreo multiétapico y en
encuestas económicas un muestreo monoétapico? ¿Qué es más efectivo un
muestreo multietápico o monoetápico?
La teoría del muestreo establece que el muestreo aleatorio estratiﬁcado es más
efectivo que el muestreo multiétapico (por conglomerados). Sin embargo muchas
veces, como es el caso de las encuestas a hogares la primera opción es
inabordable.
La recogida de datos en las encuestas económicas se lleva a cabo por correo y con
apoyo telefónico, lo cual implica un coste menor que en las encuestas a hogares
donde existe entrevista personal, con el consiguiente coste de contratación de un
agente y su desplazamiento hasta el hogar. Por esa razón, en hogares interesa que
las viviendas en la muestra estén cercanas geográﬁcamente, por ello se seleccionan
secciones censales y luego viviendas dentro de las secciones. Si hiciéramos un
muestreo aleatorio directamente, la dispersión de las viviendas sería mayor, con el
consiguiente incremento del coste.

¿Sería posible hacer un muestreo estratificado en empresas dado que la recogida
de datos es menos costosa?
La respuesta es afirmativa, puesto que en la recogida de datos en empresas en
menos costosa, podemos abordar un muestreo aleatorio estratificado
 Como se ha comentado antes, la recogida de datos en las encuestas de
hogares es presencial y en entrevistas sucesivas telefónica, sin embargo en
encuestas económicas la recogida de datos se realiza por correo o fax en
sitios no informatizados, pero también vía web con apoyo telefónico.
 Como consecuencia de lo anterior el coste es menor en encuestas
económicas que en hogares.
 También existen diferencias en el tipo de variables. En las encuestas
económicas, normalmente, se utilizan variables cuantitativas y su
variabilidad debe ser tenida en cuenta a la hora de decidir por ejemplo los
tamaños muestrales.
 Tipo de afijación
¿Qué tipo de afijación es más conveniente: afijación uniforme, proporcional,
óptima?
Se utiliza la afijación óptima. Dicha afijación, elige los tamaños de manera que
minimicen la varianza para un coste fijo. Si el coste es igual en todos los estratos,
la expresión que se obtiene en la afijación óptima coincide con la expresión de la
afijación de Neyman.
 Incidencias más comunes
Al igual que en las encuestas de hogares, existe falta de respuesta, pero en este
caso es menor, por las sanciones impuestas a las empresas que no contestan.

El problema fundamental que se aborda es el de las unidades que están mal
clasificadas. Esto es, el DIRCE tiene una clasificación que ha servido para
estratificar y, sin embargo, en la recogida puede que la empresa haya cambiado de
actividad, o tenga otro tamaño por lo tanto pertenecerían a un estrato distinto al de
la selección.
Una empresa puede realizar varias actividades a la vez; su actividad
principal es aquella actividad que genera mayor valor añadido bruto. Esto puede
cambiar de un año a otro.
8.2. Diseño Muestral de La Encuesta Industrial Anual de Empresas
Antes de trabajar con los conceptos fundamentales de muestreo, como cálculo de
tamaños muestrales, variables de estratificación etc... vamos a definir las
características y requerimientos de esta encuesta para entender mejor las
herramientas utilizadas.
8.2.1. Objetivos
 La Encuesta Industrial Anual de Empresas permite disponer de una
información básica para el conocimiento de la realidad industrial y el análisis
de las principales características estructurales.
 Se implanta en el año 1993 y proporciona anualmente una visión general de
la estructura industrial.
 Su última adaptación fue en el año 2008 Su metodología se atiene a las
recomendaciones de Eurostat, especificadas en los Reglamentos y directivas
europeas:SBS (Structural Business Statistics)
Consultar la página web del INE donde se puede descargar el manual de la
encuesta:
http://www.ine.es/jaxi/menu.do?type=pcaxis&path=%2Ft05%2Fp048&file=inebase
&L=0

Consultar la página Web de Eurostat donde además se puede descargar el
reglamento:
http://epp.eurostat.ec.europa.eu/portal/page/portal/european_business/introductio
n
8.2.2. Ámbito de la encuesta
Podemos hablar de dos ámbitos: Geográfico y temporal.
 Geográfico:Todo el territorio nacional excepto Ceuta y Melilla.
Próximamente se extenderá a estas ciudades autónomas. La encuesta está
diseñada para obtener estimaciones a nivel de comunidad autónoma. Más
adelante, al explicar las variables de estratificación, se hará énfasis en esta
idea.
 Temporal: La encuesta tiene una periodicidad anual. Los datos solicitados
se refieren al año natural objeto de la encuesta.
8.2.3. Marco
Como ya se ha comentado antes, el marco es el DIRCE, que es un marco de lista
que constituye la referencia para la mayoría de las encuestas económicas. Se
actualiza una vez al año, generándose un nuevo sistema de información a 1 de
enero de cada período.
La actividad de una empresa se clasifica según la CNAE09 (Clasificación Nacional de
Actividades Económicas). Una empresa puede realizar varias actividades a la vez, la
que marca su clasificación es la actividad principal, que es aquella actividad que
genera mayor valor añadido bruto. La CNAE es una clasificación jerárquica, basada
en niveles, con rúbricas identificativas mediante un código alfanumérico de uno,
dos, tres o cuatro dígitos. A mayor número de dígitos mayor nivel de desagre-
gación.
Las variables estadísticas del marco utilizadas son el código de actividad a 4 dígitos
(clase), la cifra de negocios, y el número de trabajadores de la empresa.

Algunas de las variables estadísticas utilizadas sirven como variables de
estratificación en el diseño de la muestra, otras sirven para fijar las unidades
exhaustivas (unidades que son seleccionadas de manera obligatoria, y que, por
tanto, quedan fuera del proceso de selección de la muestra)
8.2.4. Tipo de muestreo
El muestreo que se utiliza en la encuesta industrial anual es un muestreo aleatorio
estratificado
¿Cuáles son las razones para utilizar este tipo de muestreo?
 Aumenta la precisión, pues al dividir una población heterogénea en estratos
homogéneos, la estimación en estos estratos tiene menor error debido a la
homogeneidad. Al estudiar variables de cantidad, que tienen una gran
dispersión según el tamaño de la empresa, es conveniente estratificar.
 Debido a los requerimientos de difusión, es necesario estratificar para
asegurar datos a un cierto nivel de desagregación.
Si hay que proporcionar estimaciones a nivel de comunidad autónoma,
tenemos que estratificar por comunidades, y así se garantiza que siempre hay
muestra en cada comunidad. Si no realizamos estratificación, al realizar un
muestreo aleatorio simple directamente, podría suceder que en una determinada
región no tuviéramos muestra ó muy poca.
8.2.5. Variables de estratificación
Para decidir las variables de estratificación hay que tener en cuenta varias cosas:
 Dispersión de las variables a estimar.
 Precisión y fiabilidad establecida por el responsable del diseño de la encuesta
 Difusión establecida en el Reglamento

Para cumplir con los requerimientos de difusión y precisión es necesario estratificar
a nivel de comunidad autónoma y CNAE a 4 dígitos, ya que se piden tablas con esa
desagregación.
¿Además de las dos variables anteriores, habría que incluir alguna otra
variable más?
Sí, para conseguir el primer punto y lograr que la estratificación haga que los
estratos sean homogéneos y así reducir las varianzas dentro de los mismos y por
tanto el tamaño muestral necesario, es fundamental estratificar también por el
tamaño de la empresa medido por el número de personas asalariadas.
A efectos del muestreo, del proceso posterior de estimación y del tratamiento de
incidencias se han considerado los siguientes intervalos de tamaño:
Tamaño Personas Asalariadas
1 1-3
2 4-9
3 10-19
4 20-49
5 50-99
6 100-199
7 200-499
8 500-999
9 1000 y más

En la formación de los estratos se utilizan las siguientes variables:
 Clase de actividad (Código CNAE09, a 4 dígitos)
 Comunidad Autónoma
 Tamaño (Número de asalariados)
En consecuencia, cada estrato viene determinado por el cruce de las variables:
clase de actividad, comunidad autónoma y tamaño de la empresa.
8.2.6. Tamaño de la muestra
Una vez que se han construido los estratos, se debe decidir cuántas unidades se
seleccionan dentro de cada estrato. Existen estratos asociados a tamaños grandes
que se investigan de forma exhaustiva dado que las empresas son importantes y
sus niveles de facturación muy signiﬁcativos. Por lo tanto hacemos una distinción
entre estratos:
Estratos exhaustivos: Tamaños 5, 6, 7, 8, 9
Estratos no exhaustivos: Tamaños 1, 2, 3, 4
Como la propia palabra indica, en los estratos exhaustivos se investigan todas las
unidades. En los estratos no exhaustivos se selecciona una muestra. No obstante,
dentro de los estratos no exhaustivos se realiza un estudio de outliers previo, esto
es, un estudio de empresas importantes respecto a la variable facturación o cifra de
negocios, de manera que aunque pertenezcan a estratos no exhaustivos se deben
seleccionar directamente debido a su importancia en cuanto a facturación, y
además se consigue homogeneizar más la población a muestrear en dicho estrato.
Apartado posterior sobre selección de outliers
Otro de los factores a tener en cuenta a la hora de decidir el tamaño muestral es el
error de muestreo relativo preﬁjado.
RESUMEN

En la encuesta industrial anual se utiliza la afijación óptima, que minimiza el coste
para una precisión fija. Al realizarse la recogida de los datos por correo, teléfono o
web, el coste es constante en todos los estratos.
La afijación óptima cuando el coste por unidad es el mismo en todos los estratos,
se puede entender desde dos ópticas:
 Determinar el número de unidades que se deben seleccionar en cada estrato,
de forma que para un tamaño de muestra fijo (n), la varianza sea mínima. A
este enfoque se le conoce como afijación de varianza mínima o de Neyman.
 Para una precisión fija determinar los tamaños muestrales por estrato (nh) de
forma que el tamaño muestral global (n) sea mínimo.
En nuestro caso utilizamos la segunda óptica, puesto que las condiciones a cumplir
vienen expresadas en términos de precisión y no de un tamaño de muestra fijo.
Los errores prefijados son los siguientes:
1 % por actividad
5 % por actividad y comunidad autónoma
20 % por actividad, comunidad y tamaño
¿Qué es el error prefijado?
Se refiere al error relativo de muestreo o coeficiente de variación que se está
dispuesto a asumir a la hora de calcular el tamaño muestral. El error relativo
presenta la ventaja de ser una medida relativa que no tiene unidades y por lo tanto
válida para hacer comparaciones. Por otra parte, recoge la variabilidad. Se define
como:

La igualdad se cumple puesto que el estimador que se utiliza es un estimador
insesgado. Recordamos que en las encuestas económicas, los estratos son el cruce
de las variables comunidad autónoma, actividad y tamaño de la empresa Para
obtener la fórmula final, hay que tener en cuenta lo siguiente:
 Se utiliza afijación óptima para los estratos no exhaustivos, cuya fórmula,
cuando el coste es igual en todos los estratos, coincide con las expresión de
la afijación de Neyman. Así pues la expresión para el cálculo del tamaño
muestral en cada estrato (nh) es la siguiente:
donde
Nh : Número de unidades en la población que pertenecen al estrato h
Sh :Cuasivarianza poblacional en dicho estrato.
 De la definición de error relativo se obtiene que la varianza de estimador
tiene la siguiente expresión:
 Por otro lado, según se ha visto en teoría en un muestreo aleatorio
estratificado la varianza del estimador de expansión de un total es:
Operando y Sustituyendo el valor de quedaría

Despejando n
 Si se sustituye ahora en la fórmula de la Aﬁjación óptima, que como hemos
comentado al ser los costes constantes por estrato coincide con la expresión
de la afijación de Neyman, quedaría:
Simpliﬁcando queda la siguiente fórmula
En esta fórmula el sumatorio de estratos, depende de la restricción de error
relativo que estemos considerando.
Si se establece que el error relativo para la actividad es de un 1 %, para
calcular el tamaño muestral de un determinado estrato (que tiene asociado una
comunidad, actividad y tamaño), en la fórmula, en el numerador habría que sumar
el producto NhSh para todos los estratos que tienen la misma actividad, y lo mismo
en el sumatorio del denominador habría que sumar el producto NhS
2
h
para todos
los estratos que tienen la misma actividad

En nuestro caso tenemos que cumplir con el requisito de satisfacer 3 errores
relativos a la vez, por lo que se utilizará el máximo de los tres tamaños muestrales
(nh) obtenidos.
¿El error relativo sobre qué variable se aplica? ¿quién es θ?
Una de las variables que se quieren estimar es la cifra de negocios o facturación.
Podíamos pensar en utilizar dicha variable de fuentes administrativas, sin embargo,
no se conoce para todos los registros del directorio, por tanto se preﬁere utilizar el
número de personas asalariadas, ya que es una variable que se tiene disponible
para todos los registros del directorio, y está correlada con la variable cifra de
negocios.
Calcularíamos un nh distinto para cada error relativo especiﬁcado:
V1 = (0,01 . Xa)
2
V2 = (0,05 . Xac)
2
V3 = (0,20 . Xact)
2
Siendo:
Xa= Nº de personas asalariadas en cada clase de actividad
Xac= Nº de personas asalariadas en cada clase de actividad y comunidad autónoma
Xact = Nº de personas asalariadas en cada clase de actividad, comunidad autónoma
y tamaño de la empresa.

El número de empresas, clasificadas en la actividad de descontaminación y
otros servicios de gestión de recursos, es de 156. La información disponible en el
marco es el número de asalariados. Las empresas se distribuyen entre dos estratos
identificados por un código de tamaño, definidos como se indica en el cuadro. El
coste de muestrear en ambos estratos es el mismo. Para simplificar el ejemplo se
considera que solo existe una comunidad autónoma o región. Los datos
poblacionales son los siguientes:
Calcular el tamaño muestral, usando afijación óptima, con un error relativo
prefijado del estimador del número de asalariados de:
- 3% por actividad
- 5% por actividad y tamaño
Recuerda que la expresión a utilizar para el cálculo del tamaño muestral viene
Donde para el primer caso, 0
V se calcula como:
Código Tramo de Tamaño X=Total Desviación
Tamaño asalariados población asalariados típica (X)
1 [1,3] 101 166 0,74
2 [4,9] 55 326 1,63
∑
∑
+
=
h
h
h
h
h
h
h
h
h
S
N
V
S
N
S
N
n
2
0
)
(
2
0 (0.03 )
a
V X
= ×

a
X Representa el número de asalariados en la actividad. En nuestro ejemplo habrá
que sumar los asalariados de los dos estratos, puesto que ambos tienen la misma
actividad.
En este caso, en la fórmula para el cálculo de nh, en el sumatorio del numerador y
denominador, el sumatorio es el valor de los dos estratos.
y para el segundo caso
act
X Representa el número de asalariados en cada actividad, comunidad autónoma
y tamaño, esto es en cada estrato. En nuestro caso, puesto que tanto actividad
como comunidad autónoma son únicas, el estrato lo marca el tamaño de la
empresa.
En este caso, en la fórmula para el cálculo de nh, en el sumatorio del numerador y
denominador, el sumatorio es el valor del estrato que estemos calculando.
• Primero prefijamos un 3% de error por actividad para el estimador del
número de asalariados. Entonces
Para calcular nh necesitamos conocer las siguientes cantidades:
h
h h
N S 2
h h
N S
1 74,74 55,308
2 89,65 146,13
TOTAL 164,39 201,43
2
0 (0.05 )
act
V X
= ×
2 2 2
0 (0,03 ) (0,03 (166 326)) 14,76 217,85
a
V X
= × = × + = =

1
74,74 164,39
29,30
217,85 201,43
n
×
= =
+
Recordamos que estamos fijando un error del 0,03 por actividad, y ambos
estratos tienen la misma actividad, así pues en el sumatorio de estratos hay
que incluir los dos.
2
89,65 164,39
35,14
217,85 201,43
n
×
= =
+
• Segundo se exige un error del 5% por actividad y tamaño, entonces:
1
74,74 74,74
44,9
68,89 55,308
n
×
= =
+
2
89,65 89,65
19,5
265,69 146,13
n
×
= =
+
Para cumplir con los dos errores simultáneamente, nos quedamos con el entero
más próximo al máximo de los tamaños muestrales calculados:
1 max(29,30;44,9) 45
n
= =
2 max(35,14;19,5) 35
n
= =
69
,
265
)
326
05
,
0
(
)
05
,
0
(
)
ˆ
(
89
,
68
)
166
05
,
0
(
)
05
,
0
(
)
ˆ
(
2
2
2
2
0
0
2
2
1
1
0
0
=
×
=
×
=
=
=
×
=
×
=
=
X
X
V
V
X
X
V
V

El tamaño muestral en el estrato 1 es de 45 empresas y en el estrato 2 es de 35.
Con estos tamaños nos aseguramos que el error del estimador de número de
asalariados por actividad y tamaño no supere el 5% y por actividad no supere el
3%.
8.2.7. Estudio de outliers
Antes de seleccionar la muestra es necesario realizar un estudio de los valores
extremos. Como ya hemos comentado hay estratos que son exhaustivos debido a
su tamaño, sin embargo en los estratos no exhaustivos puede haber empresas con
facturación importante y que sea necesario incluirlas directamente, de esta forma
nos aseguramos que las empresas de gran calado están en la muestra y además
una vez que quitemos los exhaustivos los estratos quedan más homogóneos con lo
cual los tamaños muestrales necesarios serán menores. Por tanto no hay que
perder de vista, que para decidir el número de empresas exhaustivas a considerar
en la muestra hay que conseguir estos objetivos:
 Incluir empresas que sean importantes.
 Incluir el número mínimo de exhaustivos que sea posible. Si incluimos todos
estaríamos haciendo un censo, y no sólo sería muy costoso sino que
estaríamos provocando una carga estadística a las empresas innecesaria.
 Una vez eliminados, las poblaciones han de ser más homogéneas.
Se utiliza la Regla de la Desviación Sigma junto con el método de Hidiroglou-
Berthelot. Se aplican los dos métodos de forma secuencial, a continuación se
explican:
1. Regla de la desviación sigma
La idea intuitiva de esta regla es buscar saltos en la variable facturación que
superen una discrepancia media, medida precisamente por la desviación típica.
Para ello:
 Se ordenan las unidades de menor a mayor, en cada actividad y tamaño,
según una cierta variable, en este caso la facturación.
 Se calcula la diferencia con la anterior

 Se marca la primera cuya diferencia es mayor que la desviación típica y a
partir de ahí se seleccionan todos.
Así se reduce la varianza poblacional en el estrato.
Para conocer más sobre la regla de la desviación sigma se puede
consultar
Julien y Maranda:Le plan de sondage de l’enquête nationale sur les fermes de 1988,
Techniques d’enquête 1990, vol.16, nº 1,pp 127-139
Para una determinada actividad del sector industrial y un tamaño dado, la
desviación típica de la variable facturación es de 291. Se ordenan las empresas de
menor a mayor según esta variable y las 10 mayores toman los valores que se
detallan en la siguiente tabla.
La primera columna sería la facturación y en la segunda columna aparece la
diferencia con la anterior.
Facturación Diferencia
378
426 48
448 22
464 16
506 42
580 74
853 273
1316 463
1744 428
1751 7

¿Cuáles serían exhaustivas según la regla de la desviación sigma?
A partir del registro cuya facturación es 1316, serían todos exhaustivos, ya que en
dicho registro la diferencia de facturación con respecto al anterior excede la
desviación típica. Así pues los tres últimos registros serían exhaustivos.
En ciertas poblaciones heterogéneas, este método puede dejar algunos
outliers sin seleccionar, es por lo que se completa con el Método de Hidiroglou-
Berthelot. Si por ejemplo tenemos una población heterogénea, por tanto con una
desviación típica total elevada, es posible que las diferencias sean más pequeñas
que la desviación total y no podamos detectar con la regla de la desviación sigma
los valores extremos, por ello después de aplicar dicho método aplicamos también
el método de Hidiroglou-Berthelot que se explica a continuación.
2. Método de Hidiroglou-Berthelot
Este método selecciona aquellas empresas cuya facturación sea superior al valor:
M +c(Q3- M )siendo M la mediana, Q3 el tercer cuartil y c un coeficiente. La
determinación de este coeficiente se hace viendo la reducción de varianza vs
aumento de outliers seleccionados. Este método básicamente busca aquellas
observaciones que están en la cola de la distribución. Si c =1 estaríamos cogiendo
todos aquellos mayores al tercer cuartil, tras simulaciones se ajusta el valor de la
constante c, de manera que nos vayamos más a la derecha y disminuyamos el
número de outliers que cogemos.
Hidiroglou, M.A., and Berthelot, J.M.(1986).Statistical Editing and
Imputation for Periodic Business Surveys// Survey Methodology, 12 pp., 73-83,
1986.
Aplicando los dos métodos se consiguen disminuir los coeficientes de variación en la
población restante con menos exhaustivos.

8.2.8. Selección de la muestra aleatoria
Se realizan las siguientes acciones, para conseguir una muestra aleatoria y para
disminuir la carga a las empresas.
 A cada empresa se le asigna un número aleatorio ﬁjo durante todo el año,
que permite la coordinación de la muestra con otras encuestas.
 El proceso de selección es independiente de un año a otro, es decir, para un
determinado estrato, la probabilidad de que una empresa sea seleccionada
en el año t es independiente de que haya o no sido seleccionada en el año t-
1.
 Se establecen condiciones para reducir la carga de las empresas
Para reducir la carga de las empresas se imponen restricciones como:
 Se intenta que si una empresas ha contestado la encuesta dos años
consecutivos no entre en la muestra al año siguiente. Esto siempre y cuando
sea posible, hay ocasiones en la que los estratos tienen muy poca población
y no se puede cumplir dicha restricción
 Contabilizar si salen en otras encuestas del INE e intentar siempre que sea
posible que no salgan (coordinación negativa)
8.2.9. Estimadores
El estimador utilizado, es el estimador de expansión simple en un muestreo
estratiﬁcado, la fórmula sería
Nh: Número total de empresas en el directorio en el estrato h
nh: Número de empresas seleccionadas para la muestra en el estrato h
yhi: Valor de la variable observada Y en la empresa i del estrato h

Estimador Corregido El estimador corregido es el estimador que se obtiene por la
corrección introducida en el factor de elevación.
debido a la existencia de diversos tipos de incidencias:
1. Bajas, duplicados... Producen una disminución del tamaño muestral con el
consiguiente incremento del error de muestreo.
2. No respuesta (negativas, ilocalizables). Producen disminución de la muestra
efectiva y aparición de sesgos.
3. Cambios de estratos. Implica una redistribución de las unidades del marco y
aumento de la varianza.
 El factor de elevación ﬁnal sería:
 Si la unidad ha cambiado de estrato, se movería con su factor original:
 Si la unidad no ha cambiado de estrato el factor de elevación se reajustaría
de la siguiente forma:
: Representa el número de empresas de la muestra efectiva que no han
cambiado de estrato.
: Número de empresas en el directorio en el estrato h obtenido al deﬂactar en
función de las bajas y cambios de estratos.

: Número de empresas que son baja en la muestra.
: Número de empresas seleccionadas en el estrato h y que realmente
pertenecen al estrato k.
Con la actualización del directorio, cuando se tengan disponible las altas (ah),
habrá que incluirlas y actualizar el valor de
La expresión ﬁnal del estimador quedaría
 El primer sumando representa la aportación de las empresas que no han
cambiado de estrato.
 El segundo sumando representa la aportación de las empresas seleccionadas
en el estrato k y que realmente pertenecen al h.
Como se puede observar en la fórmula, dentro de cada estrato el factor de
elevación ya no tiene por qué ser constante, dependerá de si se han producido o no
cambios de estrato.
Este método, ante un cambio de estrato, trata de preservar los factores de
elevación originales. Esto es, las unidades que se cambian de estrato, se mueven
con los factores de elevación donde fueron seleccionados.

Este ejemplo ilustra el cálculo de la estimación del total de asalariados en el
caso ideal de que la muestra teórica no presenta ningún tipo de incidencias y en el
caso más práctico, cuando aparecen incidencias de falta de respuesta y cambios de
estrato durante la recogida de información.
La población la constituye las empresas de Comercio al por mayor de frutas y
hortalizas de los estratos de tamaño 1 y 2. Los tamaños de población y muestra
son los siguientes:
Estrato
h
N h
n
1 20 8
2 30 6

La información muestral disponible: Identificación de la empresa, estrato de
tamaño y número de asalariados, se especifica en la siguiente tabla:
IDENT Estrato Asalariados
Falta de
Respuesta CambioClasif
1 1 1 1
2 1 1 2
3 1 2 1
4 1 1
5 1 1
6 1 2 2
7 1 2
8 1 2
9 2 1
10 2 3
11 2 3
12 2 2 1
13 2 2 1
14 2 2
Se incluyen dos columnas que representan:
• “Falta de Respuesta”: Si es 1, dicho registro no ha contestado, tiene falta de
respuesta. Suponemos que la falta de respuesta se debe a que la empresa
se ha negado a colaborar.
• “CambioClasif”: si dicho campo está relleno indica que la empresa ha
cambiado de estrato y especifica el estrato donde ha cambiado.

Con los datos de este fichero, se calcula:
1. Estimación del total de asalariados suponiendo que NO ha
ocurrido ninguna incidencia.
Primero se calculan los factores de elevación, para ello se necesita saber los
tamaños de población y muestra por estratos. En la siguiente tabla se detallan:
Estrato
h
N h
n h
h
N
n
1 20 8 2,5
2 30 6 5
Segundo, se multiplica el factor de elevación por la variable asalariados de cada
empresa y se suma obteniendo la estimación del total de asalariados.
Y=Total de asalariados
2. Estimación del total de asalariados suponiendo que ha
ocurrido Cambios de clasificación y Falta de respuesta.
¿Cómo quedarían los factores de elevación? ¿Cúal sería la estimación del total de
asalariados en este caso ?
• Hay dos empresas del estrato 1 que pasan al estrato 2 y 1 empresa del
estrato 2 que cambia al 1. Además hay que tener en cuenta que existe falta
de respuesta.
20 30
ˆ ( 12 13) 30 65 95
8 6
h
hi
h i
h
N
Y y
n
= = + = + =
∑ ∑

• Los cambios de estrato provocan que haya más de un factor de elevación
por estrato. Siguiendo el apartado 8.2.9 tenemos:
Estrato Pobla nIni nRes nEfecCambioEstr Fdiseño FNoCambian Fcambian
1 20 8 6 4 2,5 3,75 2,5
2 30 6 5 4 5 6,25 5
• nIni: Muestra inicial
• nRes: Muestra efectiva descontando los registros que no han contestado.
• nEfecCambioEstr: Muestra efectiva descontando los registros que no han
contestado y los que se han ido a otro estrato (
*
h
n )
• Fdiseño: Factor de diseño o factor original
• FNoCambian: Factor que acompaña a los registros que no cambian
• Fcambian: Factor que acompaña a los registros que cambian, que es igual al
factor de diseño.
Para las unidades que NO cambian de estrato, el factor de elevación viene dado
por:
Donde nh
*
corresponde a la muestra efectiva en el estrato h;
bh el número de bajas, que en este caso es cero y nh
k
el número de empresas
seleccionadas en el estrato h que han pasado al estrato k
*
* *
(1 )
ˆ
k
h h
h h
h k
h h h
h h
b N
N n
N n n
n n
≠
− −
= =
∑

• Entonces tenemos:
*
1
*
1
20
(20 2)
ˆ
8 3,75
4
N
n
− ×
= =
*
2
*
2
30
(30 1)
ˆ
6 6,25
4
N
n
− ×
= =
• Para las unidades que cambian de estrato el factor de elevación coincide con
su factor inicial o de diseño, esto es: h
h
N
n
1
1
20
2,5
8
N
n
= =
2
2
30
5
6
N
n
= =
La Estimación del total de Asalariados viene dada por la expresión:
Esto es, la estimación en cada estrato, viene determinada por la contribución de las
empresas que no cambian por su respectivo factor más las empresas que habiendo
sido seleccionadas en otro estrato, en la recogida cambian al estrato en cuestión,
por su factor inicial.
Entonces tenemos:
Y= Total de asalariados
1 2
ˆ ˆ ˆ
Y Y Y
= +
∑
∑
∑ ∑ ≠
+
=
h
k
h n
i
i
h
k k
k
i
h
n
i h
h
y
n
N
y
n
N
Y )
ˆ
(
ˆ
*
*
*

Y lo mismo para 2
ˆ
Y
8.2.10. Errores de muestreo
Se calcula el error de muestreo relativo (coeficiente de variación)en %, que se
define como:
La varianza se puede calcular por distintos métodos, que se detallan a continuación.
ˆ 32,5 63,75 96,25
Y = + =
*
1
*
1
1 *
1
ˆ
ˆ (3,75 (1 1 2 2)) (5 2) (3,75 6) 10
h
k
n
n
k
i i
i k h i
k
N
N
Y y y
n n
≠
= + = × + + + + ×= × +
∑ ∑ ∑
*
2
*
2
2 *
2
ˆ
ˆ (6,25 (1 3 3 2)) (2,5 (1 2)) 6,25 9 2,5 3
h
k
n
n
k
i i
i k h i
k
N
N
Y y y
n n
≠
= + = × + + + + × + = × + ×
∑ ∑ ∑

1. Método Directo
En este caso la fórmula de varianza quedaría
donde:
• : Cuasivarianza muestral de las empresas que pasan de un estrato k
cualquiera, al estrato h
• : Representa el número de empresas de la muestra efectiva en dicho
estrato
• : Número de empresas en el directorio en el estrato h obtenido al
deflactar en función de las bajas y cambios de estratos.
• : Número de empresas seleccionadas en el estrato h y que realmente
pertenecen al estrato k

Como podemos observar la fórmula de la varianza tiene tres componentes
(sumandos), el primero debido a la variación de la variable en estudio, el segundo
debido a la variación del y el tercero debido a los cambios de estrato.
2. Método Aproximado. Fórmula de E. Raulin
Se explica a continuación una fórmula para el cálculo de la varianza que produce
una buena aproximación de la fórmula directa de la varianza cuando hay
incidencias. Esta fórmula es más
sencilla y esta escrita en términos de los factores de elevación. Esta fórmula es
general, por lo que es válida tanto para muestro con probabilidades iguales como
desiguales
Si el estimador en un dominio m es:
donde
j = Cuestionario
h = Estrato (cruce de comunidad autónoma, actividad y tamaño)
= Factor de elevación.
es una variable aleatoria que toma los valores 1 si y 0
en caso contrario
La varianza estimada de es:
siendo

Criteria for the Quality Measurement in Statistical Business
Statistics-explanatory document- E.Raulin(Eurostat-D2-31/03/99)
3. Método indirecto. Jackknife
La varianza en este caso, se calcula a través del método de Jackknife, que es una
técnica de remuestreo que consiste en la generación de submuestras (Jackknife)
que se obtienen suprimiendo de la muestra original un elemento cada vez (o
varios).
8.3. Resumen
 En encuestas económicas se utiliza un muestreo aleatorio estratificado.
 Para calcular el tamaño de la muestra se utiliza la afijación óptima con coste
constante en todos los estratos.
 El diseño de la encuesta permite dar resultados desagregados por actividad
a 4 dígitos de la CNAE y comunidad autónoma.
 Se utiliza el estimador de expansión simple para muestreo aleatorio
estratificado y se corrigen los factores de elevación por bajas, altas, falta de
respuesta y cambios de estrato.
 Existen varias alternativas para el cálculo del error de muestreo que tienen
en cuenta las incidencias que tienen lugar en la recogida de datos.

UNIDAD 9. DISEÑOS MUESTRALES DE LAS ENCUESTAS AGRARIAS DEL INE
El INE tiene el cometido de realizar un censo agrario cada 10 años y en período
intercensal, encuestas sobre la estructura de las explotaciones agrícolas y métodos
de producción. El resto de operaciones estadísticas, agrícolas y ganaderas, son
llevadas a cabo por el Ministerio de Agricultura, Alimentación y Medio Ambiente.
En España, el primer censo agrario se realizó en el año 1962. Después siguieron los
censos de 1972, 1982, 1989, 1999 y el último disponible, 2009.
La encuesta sobre la estructura de las explotaciones agrícolas se efectúa en todos
los países miembros de la Unión Europea de acuerdo a la normativa comunitaria.
España participó por primera vez en este programa comunitario con la encuesta del
año 1987. Con posterioridad se han realizado las encuestas con periodicidad bienal.
Las últimas realizadas, antes del censo del 2009, fueron las de los años 2003, 2005
y 2007. A partir del 2009, la normativa comunitaria cambia, estableciendo la
realización de dos encuestas sobre estructura de las explotaciones agrícolas y una
sobre métodos de producción. La primera encuesta sobre métodos de producción
fue realizada en el año 2009 coincidiendo con la operación censal.
En todas estas operaciones estadísticas, la unidad de muestreo es la explotación
agrícola, y el jefe de la explotación proporciona los datos sobre el aprovechamiento
de la tierra, tipos de cultivos, ganado, mano de obra, maquinaria etc.
En este capítulo se expone los diseños muestrales de estas dos encuestas agrarias.
Se presenta el método de las explotaciones hijas, el cual nos permite abordar el
problema de la actualización del marco muestral y se detalla las etapas más
relevantes del diseño.

9.1. Diseño de la Encuesta sobre la Estructura de las Explotaciones
Agrícolas
9.1.1. Un poco de historia
Para la primera encuesta sobre estructura de las explotaciones agrícolas 1987 se
diseñó un muestreo en dos etapas. En la primera etapa, se obtuvo una muestra de
municipios y en la segunda etapa, se extrajo una muestra de explotaciones
agrícolas en los municipios que habían sido seleccionados en la primera etapa.
A partir del año 1993, el diseño de la encuesta cambió a un muestreo aleatorio
simple, seleccionado directamente una muestra aleatoria de explotaciones
agrícolas.
Este cambio se debió a que el muestreo aleatorio simple era más eficiente
que el muestreo en dos etapas.
Cuánto mayor heterogeneidad presenten las características que se quieren
investigar en las unidades de primera etapa (municipios), mayor ventaja tendrá el
muestreo en dos etapas frente al muestreo aleatorio simple.
En España, al igual que en el resto de países europeos, existe una tendencia
creciente a la especialización de las explotaciones agrícolas. Los tipos de cultivo y
de ganado se concentran por áreas geográficas, dando lugar a homogeneidad
dentro del municipio. La correlación intra-conglomerados de estas variables es
positiva y por lo tanto, la varianza del muestreo en dos etapas es superior a la del
muestreo aleatorio simple, para un tamaño muestral dado.
Como ejemplo de especialización se destaca el cultivo del olivar. España es
el primer productor y exportador mundial de aceite de oliva y de aceitunas de
mesa, con la mayor superficie de olivar y el mayor número de olivos. Del total de
hectáreas dedicadas al olivar, el 60% se encuentra en Andalucía.
IMPORTANTE

¿Qué ventajas presenta el muestreo en dos etapas frente al
muestreo aleatorio simple?
Una ventaja es el ahorro en dietas y viajes del entrevistador. Al estar las
explotaciones muestrales más cercanas , hay menos municipios que visitar.
La otra es la actualización del marco muestral. En un muestreo en dos etapas es
más fácil actualizar el marco pues sólo necesitamos actualizar las explotaciones
agrarias de los municipios que han sido seleccionados en la primera etapa.
9.1.2. Método de las explotaciones hijas
La muestra de la encuesta agraria es una muestra de explotaciones agrícolas. Esta
se define como la unidad técnico-económica de la que se obtienen productos
agrarios, bajo la responsabilidad de un titular. Dicha unidad se caracteriza
generalmente por la utilización de los mismos medios de producción como mano de
obra o maquinaria.
El marco muestral de la encuesta agraria es un listado de todas las explotaciones
agrarias del país. Este listado sólo estará disponible después de la realización de un
censo agrario, el cual tiene una periodicidad decenal.
Los ficheros administrativos contienen mucha información agrícola y ganadera
sobre titulares de explotaciones agrícolas y sobre cualquier cosa relacionada con el
sector agrario. La política comunitaria otorga ayudas a los agricultores y ganaderos
a cambio de cumplir con unos requisitos establecidos por la legislación comunitaria
y todas estas ayudas se encuentran recogidas en ficheros administrativos. Pero
estos ficheros ni son exhaustivos, pues no todos los cultivos o ganado reciben
ayudas comunitarias, ni representan a explotaciones agrícolas.

Por ahora, no existe un listado o registro de explotaciones agrícolas completo
excepto cuando se realiza un censo agrario. El inconveniente que tiene este listado,
como marco muestral de las encuestas agrarias, es su falta de actualización.
El problema de la actualización del marco recae sobre todo en el hecho de reflejar
las nuevas explotaciones, las altas. Las bajas o explotaciones desaparecidas se
podrían estimar a partir de los datos de la encuesta pero para las altas
necesitamos, o un listado de explotaciones actualizado, o un método donde se
tenga en cuenta a las explotaciones dadas de alta entre el momento después del
censo y la realización de la encuesta.
Como la elaboración de un censo es una operación muy costosa y por tanto sólo se
realiza cada diez años, para la actualización del marco se ha optado por el método
de las explotaciones hijas aplicado en Francia desde 1975.
La idea clave del método de las explotaciones hijas es que la tierra para
usos agrícolas de un país es fija, esto es, no aparecen nuevas tierras dedicadas
a usos agrícolas, por lo que si aparece una nueva explotación, las tierras de las que
disfruta debían pertenecer a explotaciones que ya existían en el momento del
censo.
A partir de esta idea se establece unas ‘reglas de filiación’ que asignan una
probabilidad de selección a las nuevas explotaciones ligadas a la tierra y permiten
relacionar cada explotación existente en el momento de realizar la encuesta con
una explotación anteriormente censada.
Entre las explotaciones que han cedido tierra a la nueva explotación, a la que
aporta mayor cantidad de tierra le llamamos explotación ‘madre’ y a la nueva le
llamamos explotación ‘hija’.

Todas las explotaciones ‘hijas’ de las unidades muestrales se incluyen en la muestra
con el mismo factor de elevación (por tener la misma probabilidad de selección) de
su ‘madre’.
Este método nos permite aplicar un diseño en una etapa donde la misma muestra
se investiga en cada ocasión hasta el próximo censo. Por ejemplo, entre el censo
1999 y 2009 tenemos:
 Encuesta del 2003: se investiga una muestra obtenida del censo agrario
1999 más todas las altas (hijas) de la muestra.
 Encuesta del 2005: se investiga la muestra del 2003 más todas las altas
(hijas) de la muestra.
 Encuesta del 2007: se investiga la muestra del 2005 más todas las altas
(hijas) de la muestra
En resumen, nos encontramos con la siguiente situación:
La población en el momento de realizar la encuesta esta formada por:
• Las explotaciones existentes en el censo
• Las explotaciones creadas después del censo
Se investiga en la encuesta:
• Una muestra obtenida del censo
• Las explotaciones hijas de la muestra
¿Cuáles son los inconvenientes principales de este método?
Primero, se debe cumplir la idea clave de dicho método. Es decir, no se puede
generar nuevas tierras para uso agrícola de un país; podrían desaparecer pero
nunca aparecer nuevas de manera que antes no estuvieran censadas dentro de una
explotación agrícola.
RESUMEN

Segundo, este método sólo es válido para las explotaciones ligadas a la tierra. Las
explotaciones ganaderas sin tierra quedan fuera del método y por tanto se necesita
otra forma de actualizar el marco.
9.1.3. Marco muestral: Selección de las variables clave para el diseño
El marco muestral de las encuestas agrarias es el censo agrario. La gran cantidad
de información que contiene permite la elaboración de un diseño muestral más
complejo de lo que habitualmente se realiza en las encuestas económicas.
La primera información relevante que nos encontramos en el censo es que las
explotaciones vienen clasificadas según su Orientación Técnico Económica, OTE.
Estas OTEs representan una partición de la población que agrupa a las
explotaciones en clases homogéneas y disjuntas, según el tipo de cultivo o ganado
predominante.
Selección de las variables clave para el diseño:
La selección de las variables censales a tener en cuenta durante el diseño es un
paso determinante. Por una parte, seleccionamos variables agregadas para
controlar los cultivos, los pastos, el ganado y la mano de obra. Estas son:
-Tierra Labrada (TL): Tierra que comprende los cultivos herbáceos, los
barbechos, los huertos familiares y los cultivos leñosos.
-Superficie Agrícola Útil (SAU): La tierra labrada y los pastos permanentes.
-Unidades ganaderas (UG): Se obtiene aplicando un coeficiente a cada especie y
tipo, para agregar en una unidad común diferentes especies.
-Unidades de Trabajo-Año (UTA): Una UTA equivale al trabajo que realiza una
persona a tiempo completo a lo largo de un año
Por otra parte, también se van a considerar en el diseño las características agrícolas
o ganaderas más relevantes de cada región o comunidad autónoma. Por ejemplo, el
olivar en Andalucía o los cítricos en Valencia.

9.1.4. Determinación de las explotaciones exhaustivas
La distribución de las variables agrícolas y ganaderas, al igual que la mayor parte
de las distribuciones asociadas a variables económicas, presenta bastante
asimetría. Ocurre que con unas pocas explotaciones, obtenemos una gran parte de
las características que queremos investigar. Por ejemplo, si consideramos la SAU de
las explotaciones del censo agrario 2009, medida en Hectáreas (Has), tenemos el
siguiente gráfico:
EXPLOTACIONES DEL CENSO AGRARIO 2009 SEGÚN HAS DE SAU
0
100000
200000
300000
400000
500000
600000
[0,5) [5,10) [10,20) [20,50) [50,100) [100,500) [500,1000) [1000, )
SAU en Has
explotaciones
Con las explotaciones mayores de 500 Has, que representan el 0,4 % del total de
unidades, se obtiene el 17,5% del total de la SAU y con las mayores de 100 Has,
5,1% del total de unidades, se obtiene el 54,9% del total de la SAU.
Esto marca una gran diferencia con respecto al diseño muestral de las encuestas
dirigidas a hogares. La determinación de las explotaciones exhaustivas, aquellas
que se van a investigar de manera censal, es la primera etapa del diseño.
En primer lugar, las explotaciones exhaustivas son las que cumplen alguna de estas
condiciones: SAU>=5.000 Has, TL >= 1000 Has, UG>=5000 ó UTA>=50.
Dependiendo de las características de cada región, estos límites se rebajan.

El objetivo es hacer exhaustivas las explotaciones más grandes de cada región, de
manera que con un número muy reducido de ellas, tengamos una parte importante
de las características a investigar.
Por otra parte, también queremos seleccionar como explotaciones exhaustivas,
aquellas explotaciones grandes que, una vez separadas del marco, reduzcan la
dispersión de las características a investigar. Esto se consigue aplicando la regla
de la desviación sigma, ya vista en el tema anterior.
Esta regla se aplica en cada grupo formado por el cruce de región y OTE a 2 dígitos
(OTE2) y para cada una de las variables agregadas: SAU, TL, UG y UTA.
Para recordar, la regla de la desviación sigma consiste en ordenar las
explotaciones, de menor a mayor, según una variable y tomar como exhaustivas
las que sigan a la primera en cumplir que la diferencia con la anterior, sea mayor
que la desviación típica de dicha variable.
Para conocer más sobre la regla de la desviación sigma consulten a Julien y
Maranda: Le plan de sondage de l’enquête nationale sur les fermes de 1988,
Techniques d’enquête 1990, vol.16, nº 1, pp 127-139).
RESUMEN
SABER +

9.1.5. Estratificación
¿A que nivel de detalle o desagregación se necesitan los resultados
de la encuesta?
Esta es la primera cuestión que nos tenemos que plantear antes de la formación de
los estratos.
El reglamento comunitario exige que los resultados sean representativos a nivel de
región y OTE2. Entonces, lo que le queda al diseño es la formación de estratos o
grupos de tamaño dentro de cada población formada por el cruce de región y OTE2.
Para definir el tamaño de una explotación, volvemos a tener en cuenta las variables
SAU, TL y UG. El objetivo es conseguir estratos homogéneos que presenten poca
dispersión respecto a ellas. También queremos conseguir que cuando una
explotación sea grande por alguna de estas variables, considerarla en un estrato
de explotaciones grandes y cuando sea pequeña por todas ellas, considerarla en un
estrato de explotaciones pequeñas
Para conseguir este doble objetivo hacemos lo siguiente. Primero, formamos 5
grupos de tamaño para cada una de las variables SAU, TL y UG aplicando la regla
de la acumulativa de la raíz cuadrada de la frecuencia, en cada población
formada por el cruce de región y OTE2.
Esta regla consiste en lo siguiente:
Sea xo
, xL
, el menor y mayor valor de la variable x en la población. La regla nos da
los límites intermedios entre los estratos x1
, x 2
...,xL-1 de manera que la varianza
del estimador estratificado de la media de x sea mínima.

i
L
acumulada
x
f
Máx
xi ×
= )
)
(
(
Los límites vienen dados por la siguiente expresión:
Aplicamos la regla con L=5 y x=SAU, x=TL y x=UG. Una vez calculados los límites,
definimos tres variables categóricas, GSAU, GTL y GUG, que toman valores del 1 al
5 indicando el grupo de tamaño de pertenencia. Por ejemplo, GSAU=1 representa a
las explotaciones más pequeñas de SAU del grupo 1 y GSAU=5 a las más grandes
del grupo 5.
Segundo, definimos el siguiente grupo de tamaño:
- para la OTE2 de predominancia agrícola:
TAMAÑO= MAX(GSAU, GTL)
- para la OTE2 de predominancia ganadera:
TAMAÑO= MAX(GSAU, GUG)
Ahora tenemos 5 grupos de tamaño que cumplen nuestro objetivo. Una explotación
estará entre las ‘mayores’ por alguna de las variables consideradas y entre las
‘menores’ por todas ellas.
Por último, buscando más homogeneidad dentro de los estratos, definimos un
grupo de tamaño más, el 6, formado a partir del 5. Cuando todas las variables
categóricas toman el valor máximo, el 5, el grupo de tamaño pasa a ser el grupo 6.
Al final tenemos 6 grupos de tamaño dentro de cada región y OTE2. El número total
de estratos vendrá dado por el producto:
tamaño
de
grupo
OTE
región ×
× 2

Región: Castilla_León. OTE2= Cereales
Límites (Has): L1 L2 L3 L4
SAU 22 57 118 221
TL 18,6 47,1 94,4 169,9
Explotaciones SAU TL
E1 107,86 98,3
E2 5,51 1
E3 286,64 246,5
E4 433,13 43,85









<
≤
<
≤
<
≤
<
≤
=









<
≤
<
≤
<
≤
<
≤
=
TL
TL
TL
TL
TL
GTL
SAU
SAU
SAU
SAU
SAU
GSAU
9
,
169
5
9
,
169
4
,
94
4
4
,
94
1
,
47
3
1
,
47
6
,
18
2
6
,
18
1
221
5
221
118
4
118
57
3
57
22
2
22
1
Explotaciones GSAU GTL TAMAÑO (Paso2 ) ESTRATO FINAL
E1 4 3 4 4
E2 1 1 1 1
E3 5 5 5 6
E4 5 2 5 5
Al aplicar la regla de la acumulativa a las variables SAU y TL en la población
formada por la región de Castilla-León y la OTE2 de cereales, obtenemos los
siguientes límites:
Las variables categóricas GSAU y GTL se definen como sigue:
¿A qué estrato de tamaño pertenecen las siguientes explotaciones?
Siguiendo lo anterior tenemos:

∑
6
1
:
cot
t
n
Min
2
cov
2
cov
cov )
ˆ
(
C
X
X
V
≤
Para conocer más sobre la regla de la acumulativa de la raíz cuadrada de la
frecuencia consulten a W.G. Cochran, Técnicas de muestreo, Compañía Editorial
Continental, 1980.
9.1.6. Asignación muestral
En la mayor parte de las encuestas económicas con información auxiliar se aplica la
asignación o afijación óptima. Esta nos calcula los tamaños muestrales de los
estratos que minimizan una función de coste, sujeto a que el error muestral del
estimador de una determinada variable sea menor o igual que una cantidad
previamente fijada.
Cuando nos interesa fijar los errores de los estimadores de más de una variable,
como en el caso de la encuesta agraria, estamos ante un problema de asignación
óptima multivariante.
Para resolverlo existen varias alternativas, que se pueden englobar en dos grandes
categorías. La primera consiste en construir una media ponderada de las varianzas
de los estimadores y entonces calcular la asignación óptima sujeta a que esa
varianza media no supere un determinado valor. La segunda requiere que cada
varianza satisfaga una restricción de desigualdad y usa técnicas de programación
convexa para obtener el tamaño muestral mínimo que satisface todas las
restricciones. Esta es la que utiliza la encuesta agraria.
Para cada región y OTE2, resolvemos el siguiente problema de optimización:
sujeto a
SABER +

2
/
1
)
/
( H
X
X
C
C
CV
COV
COV =
donde el subíndice ‘c’ indica la región, ‘o’ la OTE2 , ‘t’ los estratos de tamaño, y ‘v’
cada variable relevante que varía según la región. Por último, ‘ncot’ representa el
tamaño muestral en el estrato indicado por el subíndice.
Para resolver este problema de optimización se ha aplicado el Algoritmo de
Bethel.
Para conocer los detalles del algoritmo de Bethel consulten el artículo de J. Bethel:
‘Sample Allocation in Multivariante Surveys’, Survey Methodology , June 1989, vol
15, pp 47-57.
¿Cómo se determina los coeficientes Ccov?
Nos queda ver como se determinan los coeficientes Ccov, límites superiores de las
restricciones. Estos representan los errores muestrales relativos o coeficientes de
variación máximos que estamos dispuestos a admitir en el momento de determinar
el tamaño muestral. Su valor depende de la región ‘c’, la OTE2 ‘o’ y la variable ‘v’.
Para la determinación de estos coeficientes buscamos un doble objetivo. Por un
lado, ser más precisos con las variables agrícolas y ganaderas más importantes de
cada región y por otro, cumplir con los requisitos de precisión del reglamento
europeo, que exige un error muestral relativo máximo del 5% para las variables
relevantes, por región.
Sea Xcv el total de la variable ‘v’ en la región ‘c’, Xcvo el subtotal de la misma
variable en la OTE2 ‘o’, H el número de OTE2s en la región ‘c’ y C una constante.
Definimos:
SABER +

2
2
)
ˆ
(
C
X
X
V
CV
CV
≤
( ) ( )
2
2
1
:
2
2
2
1
:
2
2
/
ˆ CV
H
o CV
COV
COV
H
o
COV
COV
CV X
C
H
X
X
X
C
X
C
X
V =
=
≤ ∑
∑
Se cumple:
La demostración viene dada por lo siguiente:
Si tomamos C igual a 0,05 ya tendríamos cumplido el segundo objetivo. El primero
también lo está simplemente con la forma de establecer el CCOV. Cuando la variable
v en la OTE2 sea importante, el cociente XCOV/XCV será grande, con lo cual CCOV será
pequeño y por lo tanto seremos más precisos a la hora de estimar la variable ‘v’ en
la región ‘c’.
Ajuste de los tamaños muestrales
Aún queda un paso adicional para llegar a los tamaños definitivos. Este consiste en
realizar una serie de ajustes para conseguir que los factores de elevación no
superen unos valores máximos. Recordar que el factor de elevación se determina
como el cociente del tamaño de la población entre el tamaño muestral.
Estos valores máximos, establecidos por estratos de tamaño, son los siguientes.

Sea la región c=Andalucía, la OTE2=Olivar y el estrato de tamaño t=1. La
población es Nco1
=80.212 explotaciones. El tamaño muestral, resultante del
algoritmo de Bethel, es nco1
=150.
Tenemos que Nco1
/nco1
>500 (80.212/150=534,7). Entonces el tamaño ajustado
será n*
co1
=Parte Entera(80.212/500)=160.
9.1.7. Selección muestral
La muestra de la encuesta agraria 2013 se ha seleccionado de manera aleatoria. El
período de recogida de la información comprende de septiembre a diciembre del
2013. La muestra resultante, eliminando las bajas y añadiendo las altas
(explotaciones hijas), se volverá a investigar en la encuesta agraria 2016.
9.1.8. Incidencias y estimadores
La incidencia de una explotación es el resultado obtenido en la recogida de
información. Se distinguen las siguientes:
 R: Responde, existe un cuestionario con datos
 NR: No responde, no existe cuestionario. Causas de No-respuesta
• IL: Ilocalizable o inaccesible
• NE: Negativa
• EI: Erróneamente Incluida
• DU: Duplicada
• CE: Cesión
Estrato Factor máximo
1 500
2 250
3 150
4 50
5 10
6 10

• AB: Abandono
• OF: Otros fines
Las explotaciones con incidencias IL o NE no alteran la población inicial pero si la
muestra, que disminuye y por tanto, los pesos reponderados serán mayores a los
iniciales para compensar esa falta de respuesta.
Las explotaciones con incidencias EI o DU, además de reducir la muestra, reducen
la población inicial. Las incidencias de CE (el titular de la explotación ha cedido o
vendido todas sus tierras o ganado), AB (el titular de la explotación ha abandonado
sus tierras) y OF (el titular de la explotación ha pasado a dedicar sus tierras a otros
fines no agrarios) reducen la población pero también pueden incrementarla, en el
caso de generar explotaciones hijas.
Definimos las siguientes cantidades que usaremos en el cálculo de los estimadores:
 -dh: Número de explotaciones de la muestra en el estrato h que han dado
alguna de las siguientes incidencias: EI, DU, CE y no ha dado lugar a
explotaciones hijas, AB y no ha dado lugar a explotaciones hijas, OF y no ha
dado lugar a explotaciones hijas.
 -eh: Número de explotaciones de la muestra en el estrato h que han dado
alguna de las siguientes incidencias: CE y si ha dado lugar a explotaciones
hijas, AB y si ha dado lugar a explotaciones hijas, OF y si ha dado lugar a
explotaciones hijas.
 -Nh: Tamaño de la población del marco en el estrato h.
 -nh: Tamaño de la muestra inicial en el estrato h.
 -ne
h: Número de unidades de la muestra del estrato h que no son
explotaciones hijas.
 nv
h: Número de explotaciones hijas en el estrato h.

)
e
+
n
(
)
n
+
n
(
)
n
d
-
(1
N
=
N
h
e
h
v
h
e
h
h
h
h
h
ˆ
)
e
+
n
(
)
n
d
-
(1
N
n
n
N
=
F
h
e
h
h
h
h
v
h
e
h
h
h
1
)
(
ˆ
ˆ =
+
y
F
=
Y hi
h
n
+
n
1
=
i
h
v
h
e
h
ˆ
ˆ ∑
∑
=
=
hi
m
K
m
hi
hi Y
Y
0
'
La población y el factor de elevación estimados vienen definidos como
sigue:
El estimador del total de una variable Y en el estrato h será:
donde yhi es el valor que toma la variable Y en la explotación i del estrato h.
La estimación del total de Y en una región determinada viene dada por la suma de
las estimaciones de todos los estratos de esa región. La estimación del total
nacional se obtendrá sumando las estimaciones de todos los estratos.
Estimaciones de los errores de muestreo
Sea Y la variable para la que deseamos estimar la varianza del estimador del total
en el estrato h. Definamos la variable:
donde:
−Khi representa el número de explotaciones hijas de la explotación i del estrato
h.
−Yhim representa el valor de la variable Y para la m-ésima explotación hija de la
explotación i en el estrato h. En particular Yhi0 representa el valor de la variable
Y para la explotación madre i.
−i varía entre 1 y ne
h + dh + eh =nt
h

( )
( )
t
h
n
i
hi
h
h
t
h
h
t
h
n
i
h
hi
t
h
h
h
h
h
n
y
y
N
n
f
con
n
y
y
n
f
N
Y
V
Y
V
t
h
t
h
∑
∑
=
=
=
=
−
−
−
=
=
1
'
1
2
2
'
1
'
'
1
)
'
ˆ
(
ˆ
)
ˆ
(
ˆ
En tal caso:
El estimador de la varianza para una determinada suma de estratos vendrá dado
por la suma de los estimadores de las varianzas de los estratos.
9.2. Diseño de la Encuesta sobre Métodos de Producción en las
Explotaciones Agrícolas
9.2.1. Diseño muestral
La encuesta sobre métodos de producción se realiza por primera vez en el año
2009 y coincide con la realización del censo. El marco disponible para elaborar el
diseño muestral es el censo agrario 1999, actualizado por las encuestas realizadas
en ese período y por ficheros administrativos, procedentes principalmente del
Ministerio de Agricultura.
Este marco lo compone aproximadamente 1.500.000 explotaciones, que van a
recibir por correo un cuestionario censal y una muestra recibe un cuestionario
adicional de la encuesta de métodos de producción.
Para obtener la muestra de esta encuesta distinguimos entre explotaciones
procedentes del Censo Agrario 1999 y nuevas explotaciones o ‘altas’ procedentes
de ficheros administrativos. Las consideramos altas debido a que el Número de
Identificación Fiscal (NIF) del titular de la explotación o del registro administrativo
no aparece entre los titulares de explotaciones del censo agrario 1999.

Explotaciones del Censo Agrario 1999
El diseño muestral para las explotaciones del Censo Agrario 1999, casi el 80% del
marco, es análogo al diseño de la encuesta agraria sobre estructura, vista en el
apartado anterior. En primer lugar se determina las explotaciones exhaustivas,
usando la regla de la desviación sigma. Luego se estratifica la población por región,
OTE2 y 6 grupos de tamaño, usando la regla de la acumulativa de la raíz cuadrada
de la frecuencia. Por último, se calcula el tamaño muestral en cada uno de los
estratos usando una asignación óptima multivariante.
Explotaciones nuevas de ficheros administrativos
Para las nuevas explotaciones o ‘altas’ tenemos información parcial y variada,
dependiendo del fichero de procedencia. Entonces, seleccionamos como
explotaciones exhaustivas las más grandes de cada fichero administrativo, en el
caso de que haya alguna información sobre tamaño, hasta alcanzar un porcentaje
similar al de las explotaciones exhaustivas del Censo Agrario 1999.
La estratificación se realiza por región, fichero administrativo y grupo de tamaño.
La definición de tamaño varía según la información auxiliar disponible.
Para la asignación muestral usamos afijación de Neyman o aplicamos la misma
fracción de muestreo obtenida con las explotaciones del Censo Agrario 1999.
Una vez recogida la información del censo y la de la muestra, se realiza una post-
estratificación y se usan estimadores calibrados.
9.2.2. Estimadores calibrados
Esta encuesta tiene la peculiaridad de que se ha realizado a la vez que un censo
agrario. La fecha de referencia de la información de ambas operaciones estadísticas
es la misma. Además, las variables que se solicitan para la encuesta están
relacionadas con algunas de las variables del censo agrario. Entonces, se estudia la
posibilidad de pasar de unos estimadores de expansión simple, como los de la
encuesta anterior, a unos estimadores calibrados.

∑
∑ =
=
h
N
i
hi
h
L
h
h y
Y
Y
Y
1
:
1
:
∑
∑ =
=
h
n
i
hi
hi
hw
L
h
hw
w y
w
Y
Y
Y
1
:
1
:
ˆ
ˆ
ˆ
h
n
i
hi
h
h
L
h
h
n
y
y
y
N
Y
h
∑
∑ =
= 1
:
1
:
exp
ˆ
Sea Y la variable de interés de la cual se quiere estimar su total poblacional:
donde L denota el número de estratos, yhi el valor que toma la variable Y en la
explotación i del estrato h y Nh el tamaño de la población en h.
El estimador de expansión simple, usado cuando no se dispone de información
auxiliar correlacionada con las variables que se quieren estimar, viene dado por:
donde nh es el tamaño muestral en el estrato h.
Para esta encuesta tenemos la información recogida en el censo agrario, que está
correlacionada con las variables que se quieren estimar, por lo que hacemos uso de
ella y calculamos estimaciones calibradas. El estimador calibrado viene dado por:
Los factores o pesos calibrados whi se calculan resolviendo el siguiente problema de
optimización:
J
j
X
x
w
a
sujeto
d
w
G
d
Min
cj
hji
s
i
hi
hi
hi
s
i
hi
w
c
c
hi
...
1
)
/
(
=
∀
=
∑
∑
∈
∈

)
1
)(
1
(
1
1
)
(
1
)
(
)
(
)
/
(
−
−
−
=
<
<






−
−
−
+
−
−
−
=
=
U
I
I
U
A
donde
U
r
I
si
A
U
r
U
Log
r
U
I
I
r
Log
I
r
r
G
hi
d
hi
w
G
cj
s
i
jhi
hi
cjw X
x
w
X
c
=
= ∑
∈
ˆ
donde sc indica la muestra en la región c, dhi corresponden a los pesos iniciales o de
diseño, inversos de las probabilidades de selección (dhi=Nh/nh), G(whi/dhi) es una
función distancia entre los pesos calibrados y los de diseño y las variables Xj j:1…J
son las J variables censales usadas para calibrar. Xcj es el total de la variable Xj en
la región c y xhji es el valor que toma la variable Xj en la explotación i del estrato h.
La macro CALMAR, hecha en el software SAS por el INSEE francés para resolver
este problema, dispone de cuatro funciones distancia. En esta encuesta utilizamos
la del método logit, que equivale a la del método raking ratio pero truncada en
el sentido de que establece unos límites, superior e inferior, al cociente whi/dhi y
viene dada por la siguiente expresión:
Las constantes I y U son los límites inferior y superior respectivamente del cociente
whi/dhi, que toman los valores I=1/3 y U=3.
Con los estimadores calibrados, además de conseguir estimaciones más eficientes
que con los de expansión simple, conseguimos consistencia, en el sentido de que
las estimaciones calibradas de las variables auxiliares Xj j:1...J, usadas para
calibrar, coinciden con sus totales poblacionales. Es decir:
Se cumple pues son las restricciones impuestas en el cálculo de los pesos
calibrados whi en el problema de optimización.

∑
∑
∑
−
∈
=
−
=
=
−
−
=
h
h
h
s
hi
hi
hi
s
hi
hi
hi
hw
hw
hi
hi
hi
h
h
h
h
s
k
hi
h
hi
h
h
h
hw
y
x
w
x
x
w
B
B
x
y
e
N
n
f
donde
n
e
f
w
n
f
N
Y
V
1
'
'
2
2
)
(
ˆ
ˆ
ˆ
1
)
(
1
)
ˆ
(
ˆ
En cada región se construye estimadores calibrados, usando como información
auxiliar las variables más relevantes del Censo Agrario 2009 y correlacionadas con
las variables de la encuesta.
En la página Web del INSEE francés se puede conseguir gratuitamente la macro
CALMAR y su documentación.
Estimadores de los errores de muestreo
El estimador de la varianza del estimador calibrado se calcula aplicando la técnica
de los residuos ponderados. En el caso de muestreo aleatorio estratificado, este
estimador viene dado por la siguiente expresión:
Aquí xhi representa el valor que toma el vector de las J variables auxiliares en la
explotación i del estrato h.
El estimador de la varianza del estimador calibrado del total, para una determinada
suma de estratos, viene dado por la suma de los estimadores de las varianzas de
los estratos.
RESUMEN
SABER +

Para conocer la técnica de los residuos ponderados consulten en
Särndal et al: The weighted residual technique for estimating the variance of the
general regression estimator of the finite population total, Biometrika 1989, 76,3,
pp 527-37.
9.3. Resumen
En este capítulo se expone de una manera detallada el diseño aplicado a las
encuestas agrarias del INE. Las ideas principales que se deducen son:
 El uso del método de las explotaciones hijas para resolver el problema de
la actualización del marco muestral de las explotaciones agrícolas.
 La importancia de la selección de las variables auxiliares del marco para
el diseño muestral. Cuánta más información dispongamos en el marco, más
complejo puede resultar el diseño.
 La determinación de las explotaciones exhaustivas como primer paso
del diseño muestral. Aunque las etapas del diseño están interrelacionadas,
por las características especiales de las variables agrícolas y ganaderas, es
conveniente determinar en primer lugar a las explotaciones exhaustivas.
 La definición de estrato de tamaño. Con ella conseguimos que las
explotaciones que sean pequeñas por todas las variables consideradas,
pertenezcan al estrato 1 (con fracción de muestreo pequeña) y si son grandes
por alguna de esas variables, pertenezcan a un estrato de explotaciones
grandes con una fracción de muestreo mayor.
 La asignación multivariante nos permite calcular el tamaño muestral
mínimo prefijando los errores de los estimadores de más de una variable
agrícola o ganadera simultáneamente.
 El uso de estimadores calibrados, cuando se dispone de la información
auxiliar conveniente, es una buena alternativa a los estimadores de expansión
simple.
En la página web del INE, en INEbase y en formato CD-Rom podéis encontrar la
metodología de las encuestas y del Censo Agrario 2009.
SABER +

UNIDAD 10. LA FALTA DE RESPUESTA E INDICADORES DE CALIDAD DE LAS
ENCUESTAS ECONÓMICAS
Este capítulo se centra en una parte de la acuracidad, una de las dimensiones de
la calidad estadística. Vamos a comentar los problemas que se presentan en los
estimadores por la falta de respuesta y trataremos algunos de los indicadores de
calidad que calculamos para medir la falta de respuesta y los errores de cobertura.
10.1. Calidad Estadística
10.1.1. Dimensiones de la calidad estadística
La calidad estadística es un concepto multidimensional que abarca todas las fases
del proceso de producción de datos estadísticos y su resultado final. Las
dimensiones o componentes de la calidad de un producto estadístico son las
siguientes:
 Relevancia: Grado en que el producto satisface las necesidades de los
usuarios.
 Acuracidad: Proximidad entre el valor verdadero y el valor estimado.
 Oportunidad y puntualidad: La oportunidad se refiere al lapso de tiempo
entre la disponibilidad de los datos y el periodo de referencia de los mismos.
La puntualidad se refiere al lapso de tiempo que transcurre entre la fecha
real de entrega de los datos y la fecha prevista para dicha entrega.
 Comparabilidad: Grado en que los datos pueden compararse entre áreas
geográficas, dominios no geográficos y a lo largo del tiempo.
 Coherencia: Grado de similitud de los datos, que referidos al mismo
periodo de tiempo, se obtienen de fuentes y métodos distintos.
 Accesibilidad y claridad: La accesibilidad se refiere a las condiciones
físicas en que los usuarios pueden acceder a los datos. La claridad se refiere
a la información que acompaña a los datos y metadatos.
En este capítulo nos vamos a centrar en una parte de la acuracidad, una de las
dimensiones de la calidad del producto estadístico o resultado final.

2
2
2
2
))
ˆ
(
ˆ
(
)
)
ˆ
(
(
)
ˆ
(
)
ˆ
(
)
ˆ
(
)
ˆ
( Y
E
Y
E
Y
Y
E
Y
V
Y
B
Y
Y
E
Y
ECM −
+
−
=
+
=
−
=
10.1.2. Indicadores de calidad para la acuracidad
Tradicionalmente se consideraba el Error Cuadrático Medio (ECM) como el
indicador de la acuracidad. Este se descompone en el sesgo al cuadrado y la
varianza.
Ahora la acuracidad tiene un sentido más amplio, englobando muchos
aspectos relacionados con los errores ajenos al muestreo.
Eurostat ha establecido, en colaboración con los países miembros, unos indicadores
para cada una de las dimensiones de la calidad. Los principales indicadores de
calidad para la acuracidad, que intentan medir tanto los errores de muestreo como
los ajenos al mismo, son los siguientes:
 Coeficiente de variación
 Tasa de respuesta por unidad, ponderada y sin ponderar
 Tasa de respuesta por ítem, ponderada y sin ponderar
 Tasa de imputación y proporción imputada
 Tasas de exceso de cobertura y de clasificación errónea
 Tasa de falta de cobertura
Aquí vamos a ver los indicadores de las tasas de respuesta por unidad, de exceso
de cobertura y de clasificación errónea.
Se ha generado mucha documentación en los últimos años sobre la
calidad estadística, convirtiéndose en uno de los temas primordiales de las oficinas
de estadística. Para leer más sobre el tema pueden consultar Eurostat (2003b):
Handbook “How to make a Quality Report”. Methodological Documents, Working
Group “Assessment of quality in statistics”, Luxembourg, 2-3 October, 2003.
SABER +

10.2. La Falta de Respuesta
Los estimadores usados en la mayor parte de los diseños muestrales de las
encuestas económicas son insesgados, es decir con sesgo cero y por tanto, el error
cuadrático medio coincide con la varianza del estimador. Pero debido a la falta de
respuesta, los estimadores ya no tienen que ser necesariamente insesgados.
¿Cuáles son las principales consecuencias de la falta de respuesta
en los estimadores?
El incremento de la varianza y la aparición del sesgo.
La primera consecuencia puede tener solución. La varianza aumenta por que el
tamaño muestral se reduce. Entonces, conociendo el porcentaje de falta de
respuesta que habitualmente se da en las encuestas, el tamaño muestral teórico,
es decir, el obtenido en el diseño, se incrementa hasta compensar la reducción de
muestra debida a esa falta de respuesta.
La segunda ni se reduce ni desaparece con el incremento del tamaño muestral. Si
los que no contestan sistemáticamente difieren de los que contestan, los
estimadores inicialmente insesgados pueden resultar sesgados debido a esa falta de
respuesta.
En muestras grandes con falta de respuesta, el valor predominante en el ECM suele
ser el sesgo.
Se distingue dos tipos de falta de respuesta:
 Falta de respuesta por unidad: Ocurre cuando falta el cuestionario.
 Falta de respuesta por ítem: Ocurre cuando se dispone del cuestionario pero
faltan algunos datos o ítems.

El tratamiento estadístico de cada uno de ellos suele ser distinto. Para la falta de
respuesta por unidad se suele aplicar técnicas de reponderación y para la falta de
respuesta por ítem se aplica técnicas de imputación y de esta forma se aprovecha
el resto de datos del cuestionario.
Existen excepciones en el caso de las encuestas económicas, caracterizadas por
poblaciones marcadamente asimétricas. Para la falta de respuesta por unidad de las
grandes empresas se suele preferir el uso de técnicas de imputación más que de
reponderación.
La reponderación consiste en ajustar o calibrar los pesos o factores de elevación
iniciales para compensar la falta de respuesta. La imputación es el procedimiento
de sustituir el valor erróneo o la falta de dato en el cuestionario por un valor
plausible, el cual puede ser calculado de muy diversas maneras.
Cuando se repondera para compensar la falta de respuesta, los factores de
elevación iniciales se suelen incrementar, de manera que las unidades que
responden representan a más unidades en la población, incluidas las que no
responden. Si la unidad que no responde es una gran empresa, que aporta un
elevado porcentaje de las características que investiga la encuesta, es preferible
imputar esa falta de respuesta usando, por ejemplo, el valor de la empresa un
período anterior actualizado con la información del período actual.
En el siguiente apartado vamos a tratar la falta de respuesta por unidad debido a la
negativa a colaborar o la imposibilidad de contactar con la unidad (ilocalizable)
usando la reponderación.

hi
n
i h
h
hi
n
i
h
h Y
n
N
Y
F
Y
h
h
∑
∑ =
=
=
=
1
1
ˆ
10.2.1. La Falta de Respuesta por Ilocalizable o Negativa
Supongamos un muestreo aleatorio estratificado y estimadores de expansión
simple, como se suele usar en las encuestas estructurales dirigidas a empresas. El
estimador del total de la variable Y en el estrato h viene dado por la siguiente
expresión:
donde Yhi es el valor que toma Y en la unidad i del estrato h, Nh es el tamaño de la
población en h y nh es el tamaño de la muestra en h. Este estimador es insesgado,
cumple: h
h Y
Y
E =
)
ˆ
(
Supongamos ahora que existe falta de respuesta por que las empresas se han
negado a colaborar o han sido ilocalizadas. Entonces, con menor muestra
tendremos que estimar Yh. Supongamos también que no disponemos de ninguna
información auxiliar extra para usarla en la reponderación.
¿Cuál sería el estimador ajustado bajo estos supuestos?
El estimador reponderado siguiente:
donde nhr corresponde al número de unidades que responden en el estrato h.
Este estimador ya no es insesgado ( h
hr Y
Y
E ≠
)
ˆ
( ). Cochran demuestra que un sesgo
aproximado viene dado por:
∑
=
=
hr
n
i
hi
hr
h
hr Y
n
N
Y
1
ˆ

donde los subíndices r y nr significan responde y no responde. Se deduce que el
sesgo por falta de respuesta será mayor cuanto mayor sea la diferencia entre la
media de los que responden y la de los que no responden y cuanto mayor sea el
número de estos últimos.
El sesgo de un estimador sólo se conoce con exactitud cuando disponemos de los
valores poblacionales, como por ejemplo, cuando se realiza un censo. Por lo que no
lo podremos eliminar, pero con una adecuada información auxiliar y aplicando
técnicas de calibrado o reponderación, se podrá reducir bastante.
Ejemplo 10.2.1. Falta de respuesta por ilocalizable y negativa
A. Sin falta de respuesta
Consideramos dos estratos (h=1,2) de la Encuesta Anual de Comercio al por Menor.
Los tamaños poblacionales son N1=32 y N2=41 y los tamaños muestrales teóricos
son n1=8 y n2=9. La muestra aleatoria obtenida en cada estrato ha sido la
siguiente:
)
)(
(
)
(
)
ˆ
(
)
ˆ
( hnr
hr
hr
h
h
hr
h
h
hr
r
h Y
Y
N
N
Y
Y
N
Y
Y
E
Y
SESGO −
−
=
−
=
−
=

asalariados asalariados
estratoidentyi estratoidentyi
1 1 37 2 9 19
1 2 11 2 10 11
1 3 19 2 11 28
1 4 26 2 12 11
1 5 15 2 13 26
1 6 28 2 14 29
1 7 25 2 15 19
1 8 11 2 16 16
total 172 2 17 10
total 169
Calcular
- Estimación del total de asalariados
- Error de muestreo relativo

Los factores de elevación son:
El estimador para el total de asalariados viene dado por:
El error de muestreo relativo o coeficiente de variación estimado viene dado por:
Donde la varianza estimada es
5556
,
4
9
41
4
8
32
2
2
2
1
1
1 =
=
=
=
=
=
n
N
F
n
N
F
9
,
1457
8964
,
1457
8964
,
769
688
169
5556
,
4
172
4
ˆ
ˆ
2
1
2
1
1
:
2
2
2
1
:
1
1
1
2
1
: 2
2
2
1
: 1
:
1
1
1
≈
=
+
=
×
+
×
=
=
+
=
+
=
= ∑
∑
∑
∑ ∑
n
i
i
n
i
i
i
n
i
h
n
i
i
h y
n
N
y
n
N
y
n
N
y
n
N
Y
Y
Y
Y
V
Y
V
C
ˆ
)
ˆ
(
ˆ
)
ˆ
(
ˆ =
h
n
i
hi
h
h
n
i
h
hi
h
h
h
h
h
h
h
h
h
h
h
n
y
y
n
y
y
s
N
n
f
donde
n
s
f
N
Y
V
Y
V
h
h
∑
∑
∑
∑
=
−
−
=
=
−
=
=
1
:
1
:
2
2
2
2
1
:
2
2
1
:
1
)
(
)
1
(
)
ˆ
(
ˆ
)
ˆ
(
ˆ

Realizamos los cálculos en hoja Excel:
Para el estrato h=1:
asalariadoscálculos
estrato ident yi (yi-mediay)
2
1 1 37 240,25
1 2 11 110,25
1 3 19 6,25
1 4 26 20,25
1 5 15 42,25
1 6 28 42,25
1 7 25 12,25
1 8 11 110,25
total 172 584
medias= 172/8= 584/7=
21,50 83,43

Para el estrato h=2:
estrato ident yi (yi-mediax)
2
2 9 19 0,05
2 10 11 60,53
2 11 28 85,01
2 12 11 60,53
2 13 26 52,13
2 14 29 104,45
2 15 19 0,05
2 16 16 7,73
2 17 10 77,09
total 169 447,56
medias= 169/9= 447,56/8=
18,78 55,95
Entonces para la variable Y=asalariados tenemos

B. Con falta de respuesta (aleatoria)
En la fase de recogida de la información se han producido 2 ilocalizables en el
estrato h=1 y otra ilocalizable y 1 negativa en el estrato h=2. La muestra efectiva
ha sido la siguiente:
asalariados asalariados
estratoident yi estratoident yi
1 1 37 2 9 19
1 2 11 2 10 11
1 3 19 2 11 28
1 4 26 2 14 29
1 5 15 2 15 19
1 8 11 2 16 16
total 119 2 17 10
total 132
Calcular
- Estimación del total de asalariados
- Error de muestreo relativo
Los factores de elevación son:
8571
,
5
7
41
3333
,
5
6
32
2
2
2
1
1
1 =
=
=
=
=
=
r
r n
N
F
n
N
F

Donde n1r y n2r son el número de unidades que responden en el estrato 1 y 2
respectivamente. La población Nh no cambia pero si el factor de elevación que
aumenta al disminuir el número de unidades en la muestra que responden. Ahora
hay menos unidades muestrales que representan a un mayor número de unidades
en la población.
El estimador reponderado para el total de asalariados viene dado por:
El error de muestreo relativo o coeficiente de variación estimado viene dado por:
Aquí estamos suponiendo que la falta de respuesta es aleatoria, de manera que el
sesgo es cero y por tanto r
r Y
Y
E ˆ
)
ˆ
(
ˆ = . Esta suposición generalmente es la que se
realiza en la práctica cuando no se dispone de información auxiliar adecuada. La
varianza estimada viene dada por la expresión ya conocida:
8
,
1407
7999
,
1407
1372
,
773
6627
,
634
132
8571
,
5
119
3333
,
5
ˆ
ˆ
2
1
2
1
1
:
2
2
2
1
:
1
1
1
2
1
: 2
2
2
1
: 1
:
1
1
1
≈
=
+
=
×
+
×
=
=
+
=
+
=
= ∑
∑
∑
∑ ∑
r
r
r
r n
i
i
r
n
i
i
r
i
n
i r
h
n
i
i
r
hr
r y
n
N
y
n
N
y
n
N
y
n
N
Y
Y
r
r
r
r
r
Y
Y
V
Y
E
Y
V
Y
V
C
ˆ
)
ˆ
(
ˆ
)
ˆ
(
ˆ
)
ˆ
(
ˆ
)
ˆ
(
ˆ =
=
hr
n
i
hi
hr
hr
n
i
hr
hi
hr
h
hr
hr
hr
hr
hr
h
h
h
hr
r
n
y
y
n
y
y
s
N
n
f
donde
n
s
f
N
Y
V
Y
V
hr
hr
∑
∑
∑
∑
=
−
−
=
=
−
=
=
1
:
1
:
2
2
2
2
1
:
2
2
1
:
1
)
(
)
1
(
)
ˆ
(
ˆ
)
ˆ
(
ˆ

Realizamos los cálculos en hoja Excel:
Para h=1:
2
1 1 37 294,81
1 2 11 77,97
1 3 19 0,69
1 4 26 38,07
1 5 15 23,33
1 8 11 77,97
total 119 512,83
medias= 119/6= 512,83/5=
19,83 102,57

Para h=2:
2
2 9 19 0,02
2 10 11 61,78
2 11 28 83,54
2 14 29 102,82
2 15 19 0,02
2 16 16 8,18
2 17 10 78,50
total 132 334,86
medias= 132/7= 334,86/6=
18,86 55,81
Entonces para la variable Y=asalariados tenemos
Con falta de respuesta se ha incrementado el error muestral relativo.
%
11
1131
,
0
8
,
1407
20
,
25337
)
ˆ
(
ˆ
20
,
25337
16
,
11114
04
,
14223
7
81
,
55
)
41
7
1
(
41
6
57
,
102
)
32
6
1
(
32
)
ˆ
(
ˆ
)
ˆ
(
)
ˆ
(
ˆ 2
2
2
1
≈
=
=
=
+
=
=
×
−
×
+
×
−
×
=
+
=
r
r
r
r
Y
V
C
Y
V
Y
V
Y
V


En este ejemplo hemos supuesto que la pérdida de datos ha sido aleatoria,
entonces los que no responden se comportan igual a los que responden y por tanto
el sesgo por falta de respuesta es cero.
10.2.2. La Falta de Respuesta por Baja (Exceso de cobertura)
En el apartado anterior la población inicial del marco muestral Nh no varía, sólo
cambia el factor de elevación pues el tamaño muestral teórico nh se reduce al
tamaño muestral efectivo nhr (las unidades muestrales que contestan) y por tanto el
factor de elevación reponderado se incrementa.
Ahora vamos a suponer que se producen altas y bajas como ocurre en las
encuestas agrarias (apart 9.1.8). Entonces Nh cambia, las bajas reducen la
población inicial y las altas la incrementa, de la siguiente manera:
Donde dh =número de unidades con incidencias que reducen la población, tales
como bajas o abandonos,
e
h
n =número de unidades que responden y no han dado
lugar a un alta,
v
h
n =número de altas y eh =número de unidades con incidencia de
baja y si han dado lugar a altas.
Ejemplo 10.2.2. Falta de respuesta por baja
En la comunidad de Valencia, el estrato de tamaño 4 de cítricos de la encuesta
agraria contiene N4=4302 explotaciones agrícolas. La muestra teórica es n4=314.
Durante la recogida de información tenemos que 8 explotaciones agrícolas han sido
bajas por abandono y cesiones sin dar lugar a altas, una explotación ha dado lugar
a 3 altas y el resto han contestado.
Con estos datos, calcular la población estimada en dicho estrato
)
e
+
n
(
)
n
+
n
(
)
n
d
-
(1
N
=
N
h
e
h
v
h
e
h
h
h
h
h
ˆ

Tenemos d4=8,
e
n4 =314-8-1=305,
v
n4 =3, e4=1, entonces
Para conocer más de este tema os recomiendo el libro de Särndal y Lundström:
Estimation in Surveys with Nonresponse, New York, Wiley (2005).
10.3. Indicadores de Calidad
10.3.1. Indicadores de la Falta de Respuesta
El indicador más elemental de la falta de respuesta de una encuesta es la tasa de
respuesta. Este indicador es insuficiente para medir el efecto del sesgo debido a
ella. Usando información auxiliar, Särndal, Schouten y otros construyen indicadores
que intentan medir ese sesgo.
En las encuestas económicas del INE, el número de asalariados y la actividad
económica, constituyen la información auxiliar disponible. Usando dicha
información, se construye tablas por tipo de incidencia y grupo de tamaño y
actividad económica, de cada una de las encuestas.
Por ejemplo, para la Encuesta Anual de Servicios 2011 se presenta la siguiente
tabla:
SABER +
4220
5489
,
4219
0065
,
1
9745
,
0
4302
1
305
3
305
314
8
4302
ˆ 4 ≈
=
×
×
=
×
×
)
+
(
)
+
(
)
-
(1
=
N

prof__investigador1_diseno_muestral_ed2_29_05_2015_01_30 (3).pdf

prof__investigador1_diseno_muestral_ed2_29_05_2015_01_30 (3).pdf

Recomendados

Recomendados

Más contenido relacionado

Similar a prof__investigador1_diseno_muestral_ed2_29_05_2015_01_30 (3).pdf

Similar a prof__investigador1_diseno_muestral_ed2_29_05_2015_01_30 (3).pdf (20)

Último

Último (20)

prof__investigador1_diseno_muestral_ed2_29_05_2015_01_30 (3).pdf