REGRESIÓN LOGÍSTICA CON PROC SURVEYLOGISTIC DE SAS

REGRESIÓN LOGÍSTICA CON PROC SURVEYLOGISTIC DE SAS
Integrantes: Luz Mery Pumacayo Manuelo
Héctor Oses Rosa
Angelo Miguel Eca Romero

Regresión Logística
Análisis de datos categóricos 2
ÍNDICE
1. INTRODUCCIÓN.............................................................................................. 3
2. METODOLOGÍA DE ENCUESTAS POR MUESTREO.................................... 4
3. REGRESIÓN LOGÍSTICA EN ENCUESTAS................................................... 5
4. SINTAXIS DE PROC SURVEYLOGISTIC ....................................................... 6
5. EJEMPLO DE USO DE PROC SURVEYLOGISTIC ........................................ 8
5.1. CODIGO SAS ................................................................................................................................. 9
5.2. RESULTADOS............................................................................................................................. 12
6. METODO COMPUTACIONAL PROC SURVEYLOGISTIC ........................... 19
6.1. GENERALES................................................................................................................................ 19
6.2. ESTIMADOR DE MÁXIMA VEROSIMILITUD ......................................................................... 20
6.3. ESTIMACIÓN DE LA MATRÍZ DE COVARIANZA ................................................................. 21
6.4. ESTUDIO MONTE CARLO PARA LA COMPARACION DEL METODO DE MOREL CON
MLE Y TAYLOR ........................................................................................................................................ 22
7. CONCLUSIONES........................................................................................... 25
8. ANEXOS......................................................................................................... 26
9. BIBLIOGRAFIA.............................................................................................. 35

1. INTRODUCCIÓN
El presente trabajo fue desarrollado como trabajo final de la asignatura: “Análisis de datos
Categóricos”, cursada dentro del plan de estudios del “Máster en Tratamiento Estadístico
Computacional de la Información”.
En este trabajo desarrollamos una revisión de los papers “Performing Logistic Regression
on Survey Data with the New SURVEYLOGISTIC Procedure” por Anthony B. An de SAS
Institute Inc., Cary, North Carolina, USA publicado el año 2002 y “Logistic Regression
Under Complex Survey Designs” por Jorge G. Morel, Survey Methodology, Statistics
Canada publicado el año 1989, entre otros libros y materiales de trabajo especificados en
la bibliografía.
El primer paper describe el enfoque metodológico y las aplicaciones del procedimiento
PROC SURVEYLOGISTIC, inicia comentando la importancia del procedimiento, presenta
un ejemplo de aplicación y finaliza con la sintaxis y bases matemáticas del procedimiento.
Los puntos más importantes de este paper se encuentran en los capítulos 2 al 5 del
presente trabajo.
Por otro lado, el segundo paper detalla el procedimiento numérico para estimar el vector
de parámetros y su correspondiente matriz de covarianzas asintótica para una función
logística generalizada considerando un diseño muestral complejo. Así también realiza un
ajuste a la matriz de covarianza estimada por el método de expansión de la Serie de
Taylor cuando el tamaño de la muestra es pequeño, denominado procedimiento CPLX en
un contexto de muestreo por conglomerados. En un primer momento desarrolla el
procedimiento propuesto para la regresión logística con datos obtenidos de un muestreo
por conglomerados, en uno segundo realiza un estudio de Monte Carlo con el que
compara los resultados usando la estimación por máxima verosimilitud, el método de
expansión de la Serie de Taylor y su método (procedimiento CPLX) y finalmente realiza
una extensión del procedimiento CPLX para un muestreo estratificado, menciona también
que la estimación puede ser extendida a diseños muestrales multietapicos. El capítulo 6
contiene los puntos relacionados principalmente a este paper.
Variables de respuesta binarias, ordinales y nominales se estudian con frecuencia en
investigaciones por encuestas. La regresión logística modela la relación entre tales
variables de respuesta categórica y un conjunto de variables explicativas. SAS tiene el
PROC LOGISTIC para ajustar modelos de regresión logística para datos provenientes de
una muestra aleatoria. Sin embargo, este enfoque no es válido si los datos provienen de
otros diseños muestrales complejos con estratificación, agrupamiento, y/o tienen pesos
diferentes. En estos casos, se deben aplicar técnicas especializadas para producir las
estimaciones adecuadas.
El procedimiento PROC SURVEYLOGISTIC, permite ajustar una regresión logística a
datos de encuesta tomando como base el procedimiento LOGISTIC ya existente.

2. METODOLOGÍA DE ENCUESTAS POR MUESTREO
La investigación por encuestas permite obtener y elaborar datos de modo rápido y eficaz
(Anguita et al. 2002). En este tipo de investigación se realizan preguntas a personas que
conforman la población de interés para conocer sus actitudes respecto a un tema de
estudio determinado. Cuando se trata de un grupo numeroso de personas, una forma de
proceder puede ser entrevistar a todos los elementos del grupo, sin embargo puede
resultar inviable tanto por los costos como por el tiempo que requeriría. Por ello se recurre
a una muestra y se entrevista solo a un subgrupo representativo y los resultados son
extrapolados al resto de la población. Ante ello surge la metodología de encuestas por
muestreo, la cual contiene un conjunto de procedimientos sistemáticos que garantiza la
objetividad de los datos recogidos y es usada para obtener información de una población
grande seleccionando y midiendo una muestra.
Durante el proceso de selección de la muestra, los investigadores aplican diseños
muestrales para representar adecuadamente a la población y hacer inferencias válidas.
Debido a la variabilidad de características o de la estructura de la población se recurre a
diseños del tipo complejo con la finalidad de obtener representatividad estructural de la
misma, de tal manera que la muestra sea un fiel reflejo de la población que se desea
estudiar.
Los procedimientos de SAS para analizar información de encuestas (a la fecha de la
elaboración del paper) son:
 PROC SURVEYSELECT proporciona métodos para seleccionar muestras.
 PROC SURVEYMEANS realiza análisis descriptivos de las muestras.
 PROC SURVEYREG realiza análisis de regresión con muestras complejas.
PROC SURVEYLOGISTIC se presenta como un procedimiento experimental de SAS 9.0
el cual ajusta modelos de regresión logística con datos de encuestas que no provienen de
un muestreo aleatorio simple.

3. REGRESIÓN LOGÍSTICA EN ENCUESTAS
Como se mencionó anteriormente, en investigaciones por encuestas es frecuente usar la
regresión logística para modelar la relación entre variables respuesta del tipo categórico y
un conjunto de variables explicativas. Cuando se utiliza un diseño de muestra complejo,
debe incorporarse el diseño de la muestra en el análisis de los datos de la encuesta para
hacer inferencias estadísticamente válidas.
PROC LOGISTIC asume que la muestra es extraída de una población infinita bajo
muestreo aleatorio simple. Sin embargo, para datos provenientes de encuestas por
muestreo con diseño complejo y de población finita, este procedimiento no es adecuado.
Morel (1989) demuestra vía un estudio de Monte carlo que el sesgo relativo del Error de
Tipo I estimado es más alto en muestras pequeñas y grandes cuando se ignora el diseño
muestral (siempre y cuando la correlación intraclase sea distinta de 0). Así pues, para
hacer inferencias validas acerca de los parámetros del modelo, el diseño muestral debe
ser incorporado al análisis, lo cual puede realizarse a partir del PROC
SURVEYLOGISTIC.
La sintaxis de es similar al de PROC LOGISTIC y utiliza los mismos algoritmos iterativos
para estimar los coeficientes de regresión por máxima verosimilitud que en PROC
LOGISTIC (Fisher-Scoring o Newton Raphson).
Las funciones de enlace también son comunes en ambos procedimientos: logit acumulada
(CLOGIT o PROPODD), logit generalizada (GLOGIT), la función probit (PROBIT) y la log-
log complementaria (CLOGLOG), ver en el anexo II las expresiones matemáticas.
La diferencia entre ambas está en la estimación de la matriz de covarianza de los
parámetros del modelo logístico, en concreto, PROC SURVEYLOGISTIC: (para mayor
detalle ver sección 6):
 Utiliza una aproximación de la expansión de Taylor para estimar la matriz de
covarianza del vector de parámetros del modelo e incorpora información del
diseño de la muestra tomando en cuenta la estratificación, el clustering y los pesos
muestrales a partir de las sentencias STRATA, CLÚSTER y WEIGHT
respectivamente.
 Usa el ajuste debido Morel (1989) en la estimación de la matriz de covarianza
mencionada para reducir el sesgo cuando la muestra es pequeña.
 Incluye también el factor de corrección por población finita en la estimación de la
matriz de covarianza, si la muestra es seleccionada sin reemplazo y el ratio de
muestreo no es lo suficientemente pequeño como para ignorarlo.

4. SINTAXIS DE PROC SURVEYLOGISTIC
A continuación, se muestran las principales sentencias disponibles en PROC
SURVEYLOGISTIC: (para mayor detalle revisar SAS/STAT(R) 9.3 User’ Guide).
PROC SURVEYLOGISTIC <options>; /*invoca el procedimiento SURVEYLOGISTIC. Si el
análisis se incluye un factor de corrección de población finita, se puede incluir la opción de
ratio de la muestra Rate o R, o del total poblacional con la opción Total o N. Total
especifica los totales de la población en los estratos y son usados para calcular la
corrección por población finita en la estimación de la varianza*/
BY variables; /*Para obtener análisis separados de grupos de observaciones*/
CLASS variable <(v-options)><variable <(v-options)>... ></v-options>; /*nombra
las variables de clasificación usadas en el análisis. Pueden ser variables de clase
o numéricas*/
CLUSTER variables; /*nombra las variables que identifican los clústeres en un
diseño muestral agrupado. Si hay una sentencia STRATA, los clústeres son
anidados dentro del estrato*/
CONTRAST ’label’ effect values <effectvalues, ...> </options>; /*proporciona la
customización de los test de hipótesis. Es similar al CONTRAST del PROC
LOGISTIC*/
FREQ variable; /*identifica una variable que contiene la frecuencia de ocurrencia
de cada observación*/
MODEL /*nombra a la variable respuesta, así como efectos explicativos. Las
opciones MODEL pueden ser especificadas después de un /. Dos tipos de
sentencias MODEL pueden ser explicitadas, single-trial y events/trials:*/
 MODEL variable <(variable-options)> = <effects> </options>; /*es aplicable
exclusivamente a datos de respuesta binarios. Se usa cuando cada
observación en el data set contiene información de sólo una prueba, por
ejemplo, un solo sujeto en un experimento. Se especifica una variable como la
variable respuesta*/
 MODEL events / trials = <effects> </options>; /*se usa cuando cada
observación en el data set contiene información de varias pruebas de
respuesta binaria, como el número de sujetos observados y contestados. Se
especifica dos variables separadas por /. La primera variable es el número de
respuestas positivas y la segunda el número de pruebas*/
LINK (opción de la sentencia MODEL): con esta opción se puede especificar la
función de linkage:
 LOGIT o CLOGIT, función logit acumulada. Es la función por
defecto.
 CLOGLOG, función log-log complementaria.

 GLOGIT, función logit generalizada.
 PROBIT, función inversa de la distribución normal estándar.
STRATA variables </options>; /*nombra las variables que forman los estratos
(variables de estratificación) en una muestra estratificada. Las cuales pueden ser
numéricas o categóricas*/
<label:> TEST equation1 <equation2, ...> </option>; /*realiza contrastes de
hipótesis sobre los coeficientes de regresión. El test de Wald se usa para
conjuntamente testear la hipótesis nula (H0:Lβ=c)*/
UNITS independent1 = list1 <independent2 = list2 ... > </option>; /*especifica las
unidades de cambio para las variables explicativas continuas para que así el odds
ratio pueda ser estimado. Independent es el nombre de la variable explicativa y
list es la lista de unidades de cambio separados por espacios que son de interés
para esa variable. Cada unidad de cambio en la lista tiene una de las siguientes
formas: number, SD o -SD, número*SD; donde number es cualquier número
distinto de cero y SD es la desviación estándar de la muestra de la
correspondiente a la variable independiente*/
WEIGHT variable </option>; /*nombra la variable que contiene los pesos de la
muestra. Esta variable debe ser numérica. Si no se especifica ninguna variable
WEIGHT, se asigna a todas las observaciones un peso de 1 por defecto*/
MODEL y WEIGHT sólo pueden utilizarse una vez, mientras que CLASS, CLUSTER,
STRATA, y CONTRAST pueden utilizarse varias veces.

5. EJEMPLO DE USO DE PROC SURVEYLOGISTIC
El siguiente ejemplo ilustra cómo usar el PROC SURVEYLOGISTIC. Una firma de
investigación de mercado realiza una encuesta entre estudiantes de pregrado de la
Universidad de Carolina del Norte en Chapel Hill (UNC) para evaluar tres nuevos diseños
webs de un Sitio Web comercial, cuya población objetivo son los estudiantes de pregrado.
El diseño muestral es estratificado, donde los estratos corresponden a la “clase de
estudiantes”: Freshman (1er año), Sophomore (2do año), Junior y Senior. Dentro de
cada estrato, se seleccionaron 100 estudiantes al azar usando un muestreo aleatorio
simple sin reemplazo.
El total de estudiantes en cada estrato (semestre de otoño del 2001) y la muestra
seleccionada en cada una, se muestra en la tabla 1:
Tabla 1.
Class Enrollment Sample
Freshman 3 734 100
Sophomore 3 565 100
Junior 3 903 100
Senior 4 196 100
Cada estudiante de la muestra evaluó los tres nuevos diseños web A, B y C en una
escala ordinal donde la puntuación estuvo en el rango de me disgusta mucho hasta me
gusta mucho, tal y como se muestra en el tabla 2:
Tabla 2.
Scale Label
1 dislike very much
2 Dislike
3 Neutral
4 Like
5 like very much
Y finalmente en la tabla 3 se muestra la cantidad de estudiantes que evaluaron cada uno
de los tres diseños (A, B y C) dentro de cada estrato.
Tabla 3.
Evaluation of New Web Designs
Rating Counts
Strata Design 1 2 3 4 5
Freshman A 10 34 25 16 15

B 5 10 24 30 21
C 11 14 20 34 21
Sophomore A 19 12 26 18 25
B 10 18 32 23 17
C 15 22 34 9 20
Junior A 8 21 23 26 22
B 1 14 25 23 37
C 16 19 30 23 12
Senior A 11 14 24 33 18
B 8 15 35 30 12
C 2 34 27 18 16
5.1. CODIGO SAS
A continuación, se muestra el código SAS utilizado en el ejemplo:
En Enrollment se guarda la población total de cada estrato.
Los datos son guardados en WebSurvey, el cual contiene las variables class, design,
rating, counts y weight:
 CLASS, indica las cuatro clases de estudiantes (los 4 estratos): freshman,
sophomore, junior y senior.
 DESIGN, especifica los tres diseños web: A, B y C.
 RATING, contiene las calificaciones de los estudiantes para los nuevos diseños
web.
 COUNTS, indica la frecuencia de calificaciones que cada diseño web recibió
dentro de cada estrato.
El autor señala que si una muestra es realizada sin reemplazo y el factor de muestreo
no es lo suficientemente pequeño para ser ignorado, debe incluirse un factor de
corrección por población finita en el análisis. Para este diseño complejo, se incluyen
los pesos muestrales para asegurar un análisis apropiado.

 En el código SAS que se muestra a continuación, WEIGHT, contiene los pesos
muestrales, que son los recíprocos de las probabilidades de selección en este
ejemplo.
El siguiente código etiqueta a las variables class, design y rating.

Finalmente se llama a PROC SURVEYLOGISTIC para especificar el modelo:
 TOTAL especifica la población total de cada estrato guardada en la variable
Enrollment. Los totales poblacionales son usados para calcular el factor de
corrección por población finita en las estimaciones de la varianza.
 FORMAT, renombra a las variables con las etiquetas señaladas.
 La sentencia STRATA especifica la variable de estratificación denominada class.
 En CLASS se coloca la variable predictora, en este caso categorica: design. El
disenio web C fue usado como nivel de referencia.
 Con la sentencia MODEL se especifica el modelo, RATING es la variable de
respuesta, escalada ordinalmente, y dos variables indicadoras para el diseño A
son las variables explicativas con el diseño C como nivel de referencia. Dado que
la empresa de investigación está interesada en el diseño web que reciba las
calificaciones más positivas, se especifica la opción DESCENDING.
 El autor utiliza el modelo logit acumulado conocido también como el proportional
odds model. La función de enlace utilizado es el CLOGIT. No es necesario
especificarlo pues el modelo por default del procedimiento (SAS/STAT(R) 9.3
User’ Guide).
 WEIGHT, contiene los pesos muestrales.
Cabe indicar que para que el procedimiento corriera en la versión actual del SAS V9.4 la
opción DESCENDING para la variable respuesta es especificada en la sentencia MODEL
y no fuera como se muestra en el paper. Ante ello, el autor advirtió al inicio del ejemplo
señalando que la versión V9.0 utilizada para ilustrar el uso del PROC SURVEYLOGISTIC
en el paper es experimental y los resultados mostrados podrían cambiar posteriormente.

5.2. RESULTADOS
A continuación se muestran las salidas de PROC SURVEYLOGISTIC para el modelo
logístico ordinal, con la sintaxis especificada por el autor. La tabla 4 detalla la cantidad de
categorías de la variable respuesta: 5, el modelo usado: Logit acumulado o llamado
también modelo odds proporcional, la técnica de optimización usada para estimar los
parámetros de máxima verosimilitud: Algoritmo de Fisher, la inclusión de la corrección por
población finita en la estimación de la varianza, así como el uso de pesos muestrales.
También se especifica el método usado por default para la estimación de la varianza:
Método de expansión de la Serie de Taylor con el ajuste por grados de libertad1.
Tabla 4.
1
Cabe indicar que para usar el ajuste de Morel (1989) este debe especificarse con la sentencia
VADAJUST=MOREL (SAS/STAT(R) 9.3 User’ Guide).

El autor inicia el análisis evaluando un supuesto importante del modelo Logit acumulado o
modelo odds proporcional) a través del score test que se observa en la tabla 5. Con los
datos proporcionados y utilizando la versión SAS V9.4 (a la fecha de presentación de este
trabajo), el test estadístico es significativo con un p-value < 0.0001, con lo que
rechazamos la hipótesis nula de que el odds ratio es invariante a donde se dicotomicen
las categorías de la variable respuesta e indicaría que el modelo Logit acumulado podría
no ser adecuado2
(para mayor detalle sobre el modelo Logit acumulado y el supuesto de
invarianza de odds ratio, revisar el anexo I).
Tabla 5.
Dado que el supuesto para este modelo no se cumple, se especifica un modelo logístico
politomico, un modelo alternativo sugerido por Kleinbaum, 2010 página 481 cuando el
supuesto no se cumple. Para ello se cambia en el procedimiento la función de enlace a:
GLOGIT, con esto se ajustara un modelo Logit generalizado e indicamos el ajuste de
Morel para la varianza estimada. Especificar el orden de las categorías de las variables
respuesta en este modelo es innecesario.
El modelo queda planteado como sigue, usando la notación de Kleinbaum, 2010:
( = / )
( = 3: / )
= + +
Donde: g=1: dislike very much, 2: dislike, 4: like, 5: like very much.
El diseño C, es el nivel de referencia.
2
Cabe indicar que en el paper, el modelo Logit acumulado ajustado, si supera el test de invarianza de odds
ratio. Creemos que la razón del cambio es la versión de SAS V9.0 usada en ese entonces, pues tal y como el
autor explico se trataba de un PROC SURVEYLOGISTIC aun en etapa experimental y los resultados podrían
cambiar con una versión posterior.

La tabla 6 indica que el modelo Logit generalizado es usado en el análisis. En este caso
se ha usado como técnica de optimización el algoritmo de Newton-Raphson y el método
de estimación de varianza por default es el método de expansión de la Serie de Taylor
con el ajuste de Morel (1989).
Tabla 6.
Para plantear el modelo debe especificarse la categoría de referencia de la variable
respuesta con la que se realizaran las comparaciones del resto de categorías. Al no ser
indicado, el procedimiento ordena internamente las etiquetas de forma ascendente y
selecciona el orden más alto, en este caso a rating=neutral, precisamente con el que
queremos se realice las comparaciones, ver tabla 7.

Tabla 7.
En la tabla 8, se especifican las dos variables indicadoras que ingresaron al modelo
(diseño A y diseño B). El diseño C es considerado como nivel de referencia. Las tablas 9 y
10 muestran la significancia del modelo.
Tabla 8.
Tabla 9.
Tabla 10.
La estimación de los parámetros del modelo y los odds ratio son mostrados en las tablas
11 y 12.

En la tabla 11, se muestran los parámetros estimados, 4 parámetros estimados de
intercepto, 4 parámetros estimados para el diseño A y 4 parámetros estimados para el
diseño B. Tanto para el diseño A y B, el primer parámetro estimado compara rating=dislike
vs. rating=neutral, el segundo parámetro estimado compara rating=dislike very much vs.
rating=neutral, el tercero compara rating=like vs. rating=neutral y el cuarto, rating=like very
much vs. rating=neutral
Tabla 11.
En la tabla 12, los intervalos al 95% de confianza para los odds ratio del diseño A vs C
contienen a 1, por lo que no se puede afirmar con estos datos sobre la preferencia de A.
El diseño B comparado con el diseño C, es significativamente menos probable que
obtenga una puntuación negativa (dislike o dislike very much) que neutral, al tener odds
ratio menores que 1.

Tabla 12.
Con la tabla 13, obtenemos una conclusión similar de B pero ahora respecto a A.
Tabla 13.
Cuando se comparan el diseño A y C con el B, se logra más información, pues es
significativamente más probable que A y C obtengan una puntuación negativa (dislike o
dislike very much) que neutral, al tener odds ratio superiores a 1 en estas dos categorías,
ver tabla 14.

Tabla 14.
Finalmente, el modelo logístico generalizado aplicado a estos datos de encuesta, no
muestra evidencia que algún Diseño Web sea el preferido, pero sí podemos decir que los
diseños A y C gustan menos que B (tabla 14).

6. METODO COMPUTACIONAL PROC SURVEYLOGISTIC
A continuación, se resume los principales puntos que definen la base matemática detrás
del procedimiento PROC SURVEYLOGISTIC de SAS.
6.1. GENERALES
a) Diferencia entre muestreo estratificado y por conglomerados:
 En el muestreo estratificado hay homogeneidad de elementos dentro del estrato y
heterogeneidad entre estratos. Se realiza una selección aleatoria de los elementos
dentro de cada estrato.
 En el muestro por conglomerados hay heterogeneidad de elementos dentro del
conglomerado y homogeneidad entre conglomerados. Se realiza una selección
aleatoria de conglomerados.
b) Se considera una muestra estratificada y por conglomerados:
Primero se realiza la estratificación (por ejemplo, con fraude o sin fraude) y después el
muestreo por conglomerados (por ejemplo, vive en Alcalá, Alcobendas o Villaverde).
 Y es la variable respuesta con categorías 1, 2, ..., D, D + 1.
 Las p covarianzas se denotan por un vector fila p-dimensional.
c) Cada observación se representa con un vector fila:
Vector fila: ( , ′ , ( ), )
 ℎ = 1,2 , . . . , es el número del estrato con un total de estratos.
 = 1 ,2 , . . . , es el número del conglomerado con un total de conglomerados.
 ñ = ∑ es el número total de conglomerados en la muestra.
 = 1 ,2 , . . . , es el número de unidad dentro del estrato ℎ y conglomerado ,
con un total de unidades.
 = ∑ ∑ es el tamaño total de la muestra.
 es el peso muestral.
 es un vector columna − . Si la respuesta del − é miembro
del − é conglomerado en el estrato ℎ cae en la categoría , la − é fila
del vector es igual a 1, siendo 0 el resto de los elementos del vector.
 ( ) es la variable indicadora para la categoría ( + 1) de la variable .
 es el vector − de las variables explicativas para el − é
miembro del − é conglomerado en el estrato ℎ. Si hay un término
independiente entonces ≡ 1.
 es la tasa muestral para el estrato ℎ.

 es el vector esperanza de la variable respuesta.
 = ( | ) = ( , , . . . , )′
 ( ) = ( ( )| ) = 1 − ′ siendo un vector columna −
cuyos elementos son 1.
d) Función link:
 La función link queda representada por (·) = = ( , ) donde es un vector
columna − para los coeficientes de regresión.
 La función logarítmica de pseudo – verosimilitud es:
( ) = (( ( ))′ + ( ( )) ( ))
6.2. ESTIMADOR DE MÁXIMA VEROSIMILITUD
a) Proceso iterativo:
El estimador de máxima verosimilitud es una solución a las ecuaciones estimadas:
( ( ) − ) − = 0
 es la matriz de derivadas parciales de la función link con respecto a .
 Para obtener el estimador de máxima verosimilitud , el procedimiento utiliza
iteraciones con un valor de comienzo ( )
para .
 En el paso − é se obtiene el estimador ( )
.
 En el paso ( + 1) − é el estimador ( )
= ( )
+ ( ) ( )
donde:
- ( )
= ∑ ∑ ∑ ( )
( ( ( )
) − ( ) ( )
) ′
( )
- ( )
= ∑ ∑ ∑ ( )
( ( ( )
) − ( ) ( )
) − ( )
Donde ( )
, ( )
son evaluados en ( )
.
 El proceso iterativo continúa hasta que el algoritmo alcanza, en el paso − é ,
el criterio de convergencia
b) Criterio de convergencia del gradiente:
Por defecto, en SAS la iteración converge en el − é paso si

( ( )
)′ ( ( )
) ( ( )
)
( ( )) + 10
<
 Siendo por defecto = 10 o el indicado a través de la opción GCONV.
 y son, respectivamente, el vector gradiente y la matriz Hessiana esperada
negativa de la función logarítmica de pseudo – verosimilitud.
c) Criterio de la función de convergencia:
Alternativamente, se puede establecer que la iteración converja cuando el cambio en la
función logarítmica de verosimilitud se reduzca en el paso ( + 1) – é hasta
( ( )
) − ( ( )
)
| ( ( ))| + 10
<
 Donde se establece en SAS en la opción FCONV
Otros dos criterios de convergencia ABSFCONV y XCONV son permitidos en SAS
6.3. ESTIMACIÓN DE LA MATRÍZ DE COVARIANZA
Estimación de la matriz de covarianza de (utilizada para realizar test de hipótesis).
a) Usando la aproximación de Taylor:
( ) =
Donde:
 = ∑ ∑ ∑ ( ( ) − ) ′
 = ∑
( )
∑ (ℯ − ℯ ..) (ℯ − ℯ ..)
 ℯ = ∑ ( ( ) − ) ( − )
 ℯ .. = ∑ ℯ
 y son evaluadas en .
b) Usando el ajuste de Morel a la fórmula de Taylor:
( ) = +
Donde:

 = ( , ( + 1) ( ))
 tiene a como límite inferior, el cual se puede indicar mediante la opción
DEFFBOUND = , o si no, el procedimiento utiliza = 1 por defecto.
 Si ñ – + 1 > 3 ( + 1) – 2 entonces =
ñ ( )
 Si ñ – + 1 ≤ 3 ( + 1) – 2 entonces =
 converge a 0 cuando el tamaño de la muestra es grande y tiene a como límite
superior, el cual se puede especificar mediante la opción ADJBOUND = , o si
no, el procedimiento utiliza = 0,5 por defecto.
 y son constantes positivas dadas.
Sobre el ajuste de Morel:
 Reducirá el sesgo por muestra pequeña reflejado en tasas de Error de Tipo I
inflados.
 Garantizara una matriz de covarianza estimada definida positiva siempre que
exista.
 El ajuste de Morel tenderá a cero cuando el tamaño de la muestra es grande, es
decir, que ambos métodos (Taylor y Morel) son asintóticamente equivalentes.
6.4. ESTUDIO MONTE CARLO PARA LA COMPARACION DEL METODO DE
MOREL CON MLE Y TAYLOR
Morel realizó una comparación de tres procedimientos de estimación: MLE, estimación
por máxima verosimilitud donde se ignora el efecto del clustering, TAYLOR el cual usa el
método de expansión de la Serie de Taylor y el procedimiento CPLX en el que realiza un
ajuste al de TAYLOR (ajuste de Morel). El estudio Monte Carlo se realizó con datos
generados a partir de dos tipos de esquema de muestreo:
a) Esquema de muestreo 1: Todos los elementos dentro de un clúster tienen el
mismo vector de variables explicativas. Y, por tanto, el modelo contiene pesos que
indican el porcentaje de observaciones de un mismo vector respecto al total.
Diferentes grados de correlación intraclase son inducidos para las variables
respuestas dentro de un mismo segmento.
b) Esquema de muestreo 2: Los elementos dentro de un clúster tienen vectores de
variables explicativas distintos. Diferentes grados de correlación intraclase son
controlados.
El estudio comparativo de los tres modelos consistió en lo siguiente:
1. Estimar mediante cada uno de los tres procedimientos el sesgo relativo de los
Errores Tipo I obtenidos al comparar al 5% de significación : = mediante F-
tests contra F(12, ∞; 0.05) = 1.753. Los resultados se muestran en las tablas 3.1 y
3.5 del anexo III.

Conclusiones:
 El método de Taylor para muestras pequeñas suele presentar
resultados muy alejados de aquellos proporcionados usando el ajuste
de Morel (CPLX).
 Para datos en los que no hay correlación intraclase Ϛ = 0 y el efecto
de diseño ∅ = 0 , el procedimiento MLE proporciona menor sesgo
relativo a la estimación del error de tipo I, seguido por el de CPLX y el
de Taylor (en el esquema 2 no se cumple para n=20, n=100)
 El MLE muestra mayor distorsión del error de tipo I estimado cuando la
correlación intraclase es positiva. Esta distorsión se va incrementando
a medida que la correlación intraclase también va creciendo.
 En general el procedimiento CPLX produce sesgos más pequeños que
el de TAYLOR tanto en muestras pequeñas como grandes.
2. Si los estadísticos F usados para el test : = se multiplican por el número de
parámetros usados, el estadístico resultante se distribuye mediante una variable
aleatoria Chi-cuadrado. Las medias y varianzas para estos estadísticos Chi-
cuadrado se muestran en las tablas 3.2 y 3.6 del anexo III.
Conclusiones:
 El método de Taylor para muestras pequeñas produce valores medios
altos y varianzas muy elevadas en comparación con los otros dos
métodos.
 Para datos en los que no hay correlación intraclase Ϛ = 0, el
procedimiento MLE proporciona resultados aceptables.
 A medida que aumenta la correlación intraclase, las medias y las
varianzas tienden a aumentar con los tres métodos, sin embargo, es el
método CPLX el que es capaz de mantenerlos en valores no
demasiado elevados.
 El método de Taylor y CPLX proporcionan resultados similares para
muestras grandes.
3. Se estimó el efecto diseño para los procedimientos CPLX y TAYLOR y se
obtuvieron resultados para el esquema de muestreo 1 y 2. Los resultados se
muestran en las tablas 3.3 y 3.7 del anexo III.
 En el esquema 1 ambos métodos dieron buenos resultados. El método
CPLX mostro menor sesgo y errores estándar ligeramente más altos.
 En el esquema 2 Taylor produce menor sesgo que CPLX en muestras
pequeñas. Sin embargo en muestras grandes tienen similar resultado.
4. Se estimaron los sesgos para los percentiles 5 y 95 del estadístico t de Student
t =
.
− de las estimaciones de los coeficientes individuales,
sólo para los modelos MLE y CPLX. Los resultados se muestran en las tablas 3.4
y 3.8.

Conclusiones:
 MLE tiene un sesgo relativo cercano a cero en ausencia de correlación
intraclase. El sesgo se incrementa a medida que esta correlación
crece.
 En general CPLX tiene sesgos pequeños y para muestras grandes es
despreciable.

7. CONCLUSIONES
 Existen varios procedimientos en SAS disponibles que permiten realizar análisis
relacionados con encuestas de investigación, tales como: PROC
SURVEYSELECT, PROC SURVEYMEANS, PROC SURVEYREG, PROC
LOGISTIC y PROC SURVEYLOGISTIC.
 El procedimiento LOGISTIC se utiliza para ajustar modelos de regresión logística
para datos de una muestra aleatoria. Si los datos provienen de diseños complejos,
se deben aplicar técnicas especializadas para generar estimaciones adecuadas.
Los cuales están incluidos en el procedimiento PROC SURVEYLOGISTIC.
 En futuras versiones de SAS, se agregarán más funciones (por ejemplo,
selecciones de modelos) a PROC SURVEYLOGISTIC, así como más
procedimientos para el análisis de datos de encuestas.
SOBRE EL PROCEDIMIENTO DE MOREL:
 Para datos en los que no hay correlación intraclase Ϛ = 0, el procedimiento MLE
proporciona buenos resultados, seguido por el de Morel y el de Taylor.
 Los métodos de Taylor y Morel son asintóticamente equivalentes para muestras
grandes. Para muestras pequeñas, el procedimiento de Morel proporciona siempre
mejores resultados que el método de Taylor.
 El método de Morel se comporta mejor tanto para muestras grandes como
pequeñas.

8. ANEXOS
ANEXO I
MODELOS LOGIT ACUMULADO (AGRESTI, 2007 SEGUNDA EDICION PAGINAS 180-
182)
Cuando las categorías de la variable respuesta son ordenadas, los Logits pueden utilizar
este ordenamiento. Estos modelos resultan tener interpretaciones más simples y con un
poder potencialmente más grande que modelos Logit categóricos-baseline.
Una probabilidad acumulada para Y es la probabilidad que Y se encuentre en o por
debajo de un punto particular. Para una categoría de respuesta j, la probabilidad
acumulada es:
( ≤ ) = + ⋯ + , = 1, … ,
Las probabilidades acumuladas reflejan el ordenamiento, con ( ≤ 1) ≤ ( ≤ 2)
≤ ⋯ ≤ ( ≤ ) = 1. Los modelos para probabilidades acumuladas no usan la
probabilidad final ( ≤ ) pues este es necesariamente igual a 1.
Los Logits de las probabilidades acumuladas son:
( ≤ ) =
( ≤ )
1 − ( ≤ )
=
+ ⋯ +
+ ⋯ +
= 1, … , − 1
Estos son llamados los Logits acumulados. Para J=3, por ejemplo, los modelos usan
ambos [ ( ≤ 1)] = y [ ( ≤ 2)] =
( + )
. Cada
logit acumulado usa todas las categorías de la variable respuesta.
Modelos Logit acumulado: Propiedad de odds proporcionales.
Un modelo para el logit acumulado j luce como un modelo de regresión logística binario
en el cual las categorías 1 a j se combinan para formar una sola categoría y las categorías
j+1 a J forman una segunda categoría. Para una variable explicativa x, el modelo
[ ( ≤ )] = + , = 1, … , − 1 (1)
tiene el parámetro describiendo el efecto de x en el log odds de la categoría j de
respuesta o por debajo. En esta fórmula, no tiene un subíndice j. Así, el modelo asume
que el efecto de x es idéntico para todos los J-1 Logits acumulados. Cuando este modelo
ajusta bien, requiere un solo parámetro en lugar de J-1 parámetros para describir el efecto
de x.

La siguiente figura representa este modelo para cuatro categorías de respuesta con x
cuantitativa. Cada probabilidad acumulada tiene su propia curva, describiendo su cambio
como una función de x. La curva para ( ≤ ) luce como una curva de regresión logística
para una respuesta binaria con un par de resultados ( ≤ ) y ( > ). El efecto común
para cada j implica que las tres curvas tienen la misma forma. Cualquier curva es idéntica
a cualquiera de los otros desplazados a la derecha o desplazados a la izquierda.
Interpretaciones del modelo pueden usar odds ratios para las probabilidades acumuladas
y sus complementos. Para dos valores y de x, un odds ratio que compara las
probabilidades acumuladas es:
( ≤ / = )
( > / = )
( ≤ / = )
( > / = )
El log de este odds ratio es la diferencia entre los Logits acumulados para aquellos dos
valores de x. Esto es igual a ( − ), proporcional a la distancia entre los valores de x.
En particular, para − = 1, el odds ratio de la respuesta por debajo de cualquier
categoría dada, multiplica por cada unidad de incremento en x.
Para este log odds ratio ( − ), la misma constante de proporcionalidad( ) aplica
para cada probabilidad acumulada. Esta propiedad es llamada “supuesto de odds
proporcional” del modelo (1)
Para Kleinbaum, 2010 pagina 467, esta propiedad implica que el odds ratio es invariante a
donde se dicotomicen las categorías de la variable respuesta. Si se cumple este
supuesto, entonces el modelo odds proporcional nos permite resumir la relación entre la
respuesta y cada variable independiente con un solo parámetro y no con varios.
Kleinbaum, 2010 en la página 480, indica como sería el procedimiento al correr varios
modelos de regresión logística como alternativa al modelo odds proporcional. En
específico, para verificar el supuesto de proporcionalidad de odds con los modelos
estimados por separado, señala que el método más simple seria calcular los odds ratios
‘crudos’ con cada modelo y compararlos. Para un modelo de cuatro niveles por ejemplo,

se verificaría si los coeficientes de las variables independientes son similares unas a otras
(solo en este tipo de modelamiento).

ANEXO II.
Modelos para variables de respuesta binarias y de varias categorías ( = 1, 2, … , )
Modelo Logístico Generalizado
(siendo D + 1 la categoría de
referencia para Y)
Modelo Logit Acumulado
(Modelo de Odds Proporcionales)
Función
link
Donde: Donde:
suma acumulada de
las proporciones
esperadas para las
1eras categorías de
la variable .
Matriz 1eras
derivadas
parciales
Donde:
es el Producto de
Kronecker
Donde:
es un vector columna D-
dimensional
es una matriz D x D
Evaluado en
el estimador
de máxima
verosimilitud Donde:

Modelos para variables de respuesta binaria ( = 1)
Modelo clog-log Modelo Probit
Función
link
Donde:
es el vector de parámetros.
Donde:
es el vector de
parámetros.
es la función de distribución
acumulada de la
distribución normal estándar
Matriz 1eras
derivadas
parciales
Evaluado en
el estimador
de máxima
verosimilitud

ANEXO III.

9. BIBLIOGRAFIA
1. An, Anthony B. Performing Logistic Regression on Survey Data with the New
SURVEYLOGISTIC. Procedure. SAS Institute Inc. Cary, North Carolina. Paper.
258-27.
2. Agresti, A. (2007). An introduction to categorical data analysis. 2nd ed. pp.180-182.
3. Anguita et. al. (2002). La encuesta como tecnica de investigacion. Elaboracion de
cuestionarios y tratamiento estadistico de los datos (I). Aten Primaria 2003. 31(8):
527-38.
http://www.unidaddocentemfyclaspalmas.org.es/resources/9+Aten+Primaria+2003.+La+E
ncuesta+I.+Custionario+y+Estadistica.pdf
4. Kleinbaum, D. (2010). Logistic Regression. 3rd ed. New York, NY: Springer,
pp.467/480-481.
5. Morel, G. (1989). Logistic Regression under Complex Survey Designs. Survey
Methodology. 15. 203-223.
6. SAS/STAT(R) 9.3 User's Guide
https://support.sas.com/documentation/cdl/en/statug/63962/HTML/default/viewer.htm#
surveylogistic_toc.htm

REGRESIÓN LOGÍSTICA CON PROC SURVEYLOGISTIC DE SAS

Recomendados

Recomendados

Más contenido relacionado

La actualidad más candente

La actualidad más candente (20)

Similar a REGRESIÓN LOGÍSTICA CON PROC SURVEYLOGISTIC DE SAS

Similar a REGRESIÓN LOGÍSTICA CON PROC SURVEYLOGISTIC DE SAS (20)

Último

Último (20)

REGRESIÓN LOGÍSTICA CON PROC SURVEYLOGISTIC DE SAS