La regresión logística permite predecir la probabilidad de ocurrencia de un evento categórico y determinar la relación entre variables independientes y dependientes. Algunas similitudes con la regresión lineal son que ambas determinan la relación entre variables y requieren variables independientes continuas, pero la variable dependiente en la regresión logística es cualitativa. Supuestos básicos incluyen un tamaño de muestra elevado, variables independientes relevantes, ausencia de colinealidad, y que los efectos de las variables independientes se puedan sumar para
2. ¿Qué es la
regresión
logística?
Constituye una alternativa idónea al análisis de variables
dependientes categóricas (o cualitativas). En este tipo de regresión
se quiere predecir la probabilidad de ocurrencia de un
determinado evento (Y=1); así mismo es posible determinar el
grado de relación existente entre las variables independientes y la
dependiente y su significatividad.
3. Similitudes y
deferencias
entre regresión
logística y
lineal
Similitudes
El objetivo: ambas pretenden determinar el grado de
relación entre variables
Las variables independientes deben de ser continuas (en la
logística aquellas variables categóricas utilizadas se
transforman a ficticias)
Diferencias
La variable dependiente en la regresión logística es
cualitativa.
La regresión logística permite variables categóricas.
En la logística no hay linealidad y los valores oscilan de 0 a
1
El método de estimación en la lineal es el de mínimos
cuadrados, mientras que en la logística es máxima
verosimilitud
5. Supuestos
básicos
Supuestos básicos que se comparten con la regresión lineal:
a) Tamaño de muestra elevado.
b) Incluir variables independientes relevantes en la predicción de la
variable dependiente.
c) Variables predictoras continuas.
d) Ausencia de colinealidad entre las variables predictoras.
e) Aditividad.
Supuestos básicos propios de la regresión logística:
f) No linealidad de la variable dependiente.
g) Celdillas de “no cero”.
h) Heterocedasticidad.
6. Tamaño de
muestra
elevado
La razón mínima recomendada de casos por cada
variable predictora para lograr un análisis fiable, es de
15 casos por cada variable independiente. Cuanto más
se supere esta proporción, mayor es la estabilidad de
los coeficientes de regresión logística.
7. Variables
independientes
relevantes
La inclusión de variables predictoras relevantes – en
regresión logística- supone, concretamente, no sólo
que la forma del modelo en su conjunto sea correcta,
sino, ante todo que las variables independientes
incluidas en el modelo sean relevantes en la predicción
de la variable dependiente. Esto exige la omisión de
toda variable que se crea “irrelevante” en la predicción
de la variable dependiente.
8. Variables
predictoras
continuas
En la regresión logística, como en regresión lineal, las
variables predictoras pueden ser continuas (en
intervalo) y/o (o categóricas). La incorporación de estas
últimas exige, no obstante, su previa transformación en
variables ficticias, para poderlas tratar a modo de
variables continuas.
9. Ausencia de
colinealidad
entre las
variables
predictoras
a) Matriz de correlaciones: toda correlación bivariable
(entre dos variables independientes) superior a 0.60
es indicativa de un grado de colinealidad importante.
b) Un valor de tolerancia mayor o igual a 0.01 o, su
homólogo, un valor FIV igual o superior a 10.0,
indican, así mismo la existencia multicolinealidad
grave. Si un valor de tolerancia es menor a .20 y de
FIV mayor a 5.0 se recomienda adoptar una medida
preventiva.
c) Se puede observar si existen coeficientes de
regresión logística estandarizados superiores a 1.
También se recomienda comprobar todo coeficiente
no estandarizado superior a 2, lo que indicaría
multicolinealidad elevada.
10. Aditividad
Los efectos de las distintas variables independientes
pueden sumarse en la predicción de la variable
dependiente.
El marco teórico de la investigación puede
fundamentar la creencia de que se está ante un modelo
aditivo.
11. No linealidad
de la variable
dependiente
Este problema suele relacionarse con el tamaño
muestral cuando se incluyen muchas variables
predictoras en el análisis, y con variables categóricas
(nominales, principalmente). Se presenta cuando la
variable dependiente no varía para uno o más valores
de una variable independiente categórica
12. Heterocedasticidad
En regresión logística, se asume, que las propiedades
distribucionales de la variable dependiente restringen
la varianza a ser una función a ser una función fija de la
media.
14. Referencias
Cea, M. (2004). Análisis multivariable.Teoría y
práctica en la investigación social. España:
Síntesis
Field, A. (2009). Discovering statistic using
SPSS. USA: SAGE