Regresión lineal: introducción, historia y conceptos clave en
1. REGRESION
Notas
Índice
ÍNDICE 1
1. OBJETIVOS DEL TEMA 1
2. CONCEPTOS BÁSICOS PREVIOS 1
3. INTRODUCCIÓN: MODELOS ESTADÍSTICOS 1
4. APUNTE HISTÓRICO 2
5. REGRESIÓN LINEAL 3
6. REGRESIÓN NO LINEAL 7
7. REGRESIÓN ROBUSTA 7
8. REGRESIÓN MÚLTIPLE 8
9. ANÁLISIS DE RESIDUALES 8
BIBLIOGRAFÍA 9
1. Objetivos del tema
• Entender el concepto de modelo estadístico
• Conocer y comprender el concepto de análisis de la regresión lineal
• Conocer las etapas a seguir para realizar un análisis de la regresión
• Conocer los procedimientos de estimación de los estadísticos de regresión, como el método de los
mínimos cuadrados
• Saber calcular los coeficientes de confianza
• Conocer y comprender el concepto de análisis de la regresión no-lineal
2. Conceptos básicos previos
Covarianza
Correlación
Distribución bivariada
Diagramas descriptivos
3. Introducción: modelos estadísticos
Un modelo matemático es un conjunto de ecuaciones utilizados para definir cambios entre dos estados
(ecuaciones diferenciales) y las relaciones de dependencia entre variables (ecuaciones de estado). Un
modelos se denomina numérico cuando utiliza un procedimiento aritmético para por ejemplo modelar un
comportamiento futuro, expresándose en forma de tabla o diagrama. Un modelo analítico obtiene una
expresión (ecuación, función) que proporciona una solución específica.
Un modelo estadístico incluye además la caracterización de datos numéricos, el cálculo de errores o
desviaciones de las observaciones, la predicción de la conducta de un sistema basada en el
comportamiento previo, la extrapolación de datos basada en el mejor ajuste posible, o el análisis espectral.
2. El modelo lineal es uno de los modelos estadísticos más sencillos y útiles. Trata de resumir en la ecuación
de una línea (recta) las relaciones entre dos variables con la finalidad de caracterizar esta relación, calcular
las desviaciones de las observaciones respecto del modelo, predecir de la conducta de una variable basada
en el comportamiento de la otra, o extrapolar datos basándose en el mejor ajuste posible.
4. Apunte histórico
Adrien Marie Legendre (1752-1833)
Describió el método de los mínimos cuadrados en 1805 como un apéndice de su libro Nouvelles méthodes
pour la détermination des orbites des comètes.
Carl Friedrich Gauss (1777-1855)
Gauss, uno de los matemáticos más influyentes de todos los tiempos. Polemizó con Legendre al asegurar
haber inventado el método de los mínimos cuadrados en 1795, cuando publicó en 1809 su solución del
problema de predecir la órbita de Ceres (descubierto en 1801) en Theoria Motus Corporum Coelestium in
Sectionibus Conicis Solem Ambientum.
Pierre François Verhulst (1804-1849)
Por indicación de F. Quetelet, investigó el tema ya sugerido por Malthus en 1789, de la extrapolación
geométricas. En una serie de publicaciones aparecidas entre 1838 y 1947 desarrolló lo que denominó
“curva logística” y que luego sería reconocido como regresión logística (1, 2).
Francis Galton (1822-1911)
Buscando una ley matemática al fenómeno descrito por Darwin sobre el mecanismo hereditario por el cual
los descendientes presentaban rasgos que los aproximaban más a la media de la población que los
antecesores, Galton desarrolló el modelo que el denominó “reversión”, y que se popularizó como de la
regresión a la mediocridad. (3). En 1885 aplicó el nombre de regresión. Sin embargo, para Galton era un
concepto, como el de correlación, aplicable únicamente al ámbito biológico.
Karl Pearson (1857-1936)
El concepto de regresión y las ideas sobre la herencia de Galton fueron continuados por K. Pearson y
George U. Yule, basándose en la distribución multivariada normal. Pearson también compartía la noción
biológica de regresión de Galton, aunque empezó a hablar de “coeficientes de regresión” en 1896 (4). En
1903 introduce el concepto de regresión múltiple (5).
2
3. George U. Yule (1871-1951)
La notación de la correlación regresión son aportaciones de Yule (6).
Raymond Pearl (1879-1940)
Colaborador y luego disidente de K. Pearson. Re-descubrió la regresión logística.
Ronald A. Fisher (1890-1962)
R. A. Fisher refundó en los años 1920 (7) la regresión utilizando el modelo que Gauss había propuesto para
la teoría de errores y el método de los mínimos cuadrados. Las nociones de Pearson–Yule y de Gauss–
Fisher aún mantienen su vigencia. En la primera edición de Statistical Methods for Research Workers (1925)
Fisher utiliza los símbolos y y x y los términos "variable dependiente" y "variable independiente." Para la
interceptación y la pendiente poblacionales utiliza los símbolos α y β y para los muestrales , a y b .
5. Regresión lineal
5.1. El modelo lineal
Para cada valor xi de X se habrá observado un valor yi de la variable aleatoria dependiente Y . Es decir,
se dispone de n pares de datos ( x1 , y1 ) , ( x2 , y2 ) , , ( xn , yn ) que constituyen una muestra aleatoria de
Y ( xi , yi )
X
los valores ( x1 , x2 , , xn ) dados.
En el modelo lineal, la representación gráfica de las observaciones se dispone en línea recta, es decir
siguen la ecuación de una recta:
Y = β X +α + ε
donde: α, β son constantes desconocidas
3
4. X es la variables independiente
Y es la variables dependiente
ε es una variable aleatoria tal que
E (ε ) = 0
var ( ε ) = σ ε2
covar ( ε i , ε j ) = 0 ∀ i≠ j
es decir, que ni el valor esperado ni la varianza de ε dependen del valor xi ∈ X .
Y ( xi , yi )
E (Y ) = β X + α
X
xi
5.2. Estimación por el método de los mínimos cuadrados
El objetivo de la regresión es ajustar la mejor recta posible. Es decir, aquella recta que las distancias entre
los puntos observados ( xi , yi ) y los puntos correspondientes sobre esta recta ( xi , yi )
ˆ sean mínimas.
Estas distancias (proyecciones) pueden ser de varios tipos, aunque en el caso ordinario se busca un
mínimo de proyección (perpendicular) sobre el eje de las abscisas:
Y ( xi , yi )
( xi , yi )
ˆ
X
xi
n
La línea para la cual (a) la suma de las diferencias ∑y −y
ˆ
i =1
i i sea nula y (b) la suma de las diferencias al
( yi − yi ) sea mínima, es la recta de mínimos cuadrados buscada. Esto se hace así para evitar
2
cuadrado ˆ
que diferencias yi − yi con signos positivos cancelen diferencias con signos negativos. De esta segunda
ˆ
propiedad este procedimiento recibe el nombre de “cuadrados” mínimos1:
1
Existen otras alternativas, como por ejemplo considerar los valores absolutos de las diferencias yi − yi
4
5. n
∑( y − y )
2
ˆ i i
i =1
n
∑ ( y − ( β x + α ))
2
i i
i =1
Las soluciones analíticas para estimar β y α son:
n
∑ y (x − x)
i =1
i i
b= n
∑(x − x )
2
i
i =1
a = y −b x
5.3. Estimación de otros parámetros
Varianza de la regresión σ
1 n
∑ ( yi − ( β xi + α ) )
2
s2 =
n − 2 i =1
scd
s2 =
n−2
Varianza del estadístico de interceptación
n
∑x 2
i
var ( a ) =
i =1
n
s2
∑( x − x )
2
n i
i =1
Varianza del estadístico de pendiente
s2
var ( b ) = n
∑( x − x )
2
i
i =1
Límites de confianza de los estadísticos de interceptación y pendiente
n
∑x
i =1
i
2
a ± tα s n
∑(x − x )
2
2 n i
i =1
1
b ± tα s n
∑(x − x )
2
2
i
i =1
5.4. Supuestos
El análisis de la regresión por el método de los mínimos cuadrados implica asumir que:
5
6. (a) Para cada valor xi de X existe una distribución normal de valores de Y , de los que se ha
obtenido aleatoriamente el valor yi ;
(b) El valor yi pertenece a esta distribución normal con media yi . Los diferentes valores de yi se
disponen sobre la línea recta denominada de regresión poblacional; y
(c) Las desviaciones ε de los puntos de la línea ajustada se distribuyen normalmente con media 0 y
varianza constante σ ε2
5.5. Regresión de X sobre Y
Es totalmente incorrecto despejar X de la ecuación
1
ˆ ( y − a)
y = b x+a ⇒ x =
ˆ
b
ˆ
La regresión de X sobre Y se hace aproximando X por x :
x = b y+a
ˆ
donde: a = x − b y
sX Y
b= 2
sY
porque se minimiza los errores entre xi y xi = b yi + a , es decir las cantidades ei = ( xi − xi )
2 2
ˆ ˆ
5.6. El coeficiente de determinación, coeficiente de determinación ajustado, y coeficiente
de alienación
5.6.1. Sinónimos
Coefficient of determination, adjusted coefficient of determinatiion; coeficiente de indeterminación.
5.6.2. Definiciones
2
El coeficiente de determinación R indica la proporción de varianza común entre una variable dependiente
y una(s) variable(s) independientes.
2
El coeficiente de determinación R se define como el cuadrado del coeficiente de correlación r de
Pearson:
R2 = r 2
Sus valores están, pues incluidos en el intervalo 0,1 . [ ]
2 2
El coeficiente de determinación ajustado Ra 2es una modificación del coeficiente de determinación R que
2
toma en cuenta el número de variables explicativas. Al contrario de R , el coeficiente de determinación
2
ajustado R sólo aumenta si la nueva variable mejora el modelo sobre lo esperable si sólo fuera por causas
a
2
aleatorias. Puede adoptar valores negativos y por tanto, menores que R .
El coeficiente de determinación ajustado se define como:
n −1
Ra = 1 − (1 − R 2 )
2
n − p −1
donde: p es el número de variables explicativas (independientes) en el modelo lineal; y
2
Puede encontrase una calculadora on line de este coeficiente en
http://www.danielsoper.com/statcalc/calc25.aspx.
6
7. n es el tamaño muestral.
El coeficiente de alienación R′ (o de indeterminación) atribuido a Fred Kerlinger, es complementario del
2
coeficiente de determinación indica la proporción de varianza no compartida entre dos variables.
El coeficiente de alienación R′ se define como:
2
R′2 = 1 − R 2 = 1 − r 2
2
5.6.3.Utilización del coeficiente de determinación R
Se utiliza ocasionalmente para medir la significación de r . Mide la cantidad de variación compartida por
ambas variables, es decir la cantidad (o porcentaje, si así se expresa) de variación atribuible a X .
5.6.4. Interpretación
El coeficiente de determinación se interpreta como la proporción de variación en la respuesta (variable Y )
que está explicada por la regresión, esto es por la(s) variables(s) independiente(s):
varianza residual
R2 = 1 −
varianza Y
Si R = 1 indicará que el modelo explicará toda la variabilidad en Y . Si R = 0 indicará que el modelo de
2 2
e Y no es apropiado. Y un valor intermedio, por ejemplo R = 0, 64 se
2
relación lineal entre X
interpretaría como que el modelo de las variable(s) independiente(s) X escogidas explica un 64 % de la
variación en la variable dependiente Y y el 36 % restante se explicaría por otros mecanismos (otras
variables, variación inherente etc.).
La interpretación del coeficiente de determinación ajustado es diferente de la del coeficiente de
determinación. El coeficiente de determinación ajustado es útil en la etapa de selección de variables cuando
se construye un modelo.
5.6.5. Limitaciones
El coeficiente de determinación no informará sin embargo de si se ha seleccionado el mejor conjunto de
variables independientes (en el caso multivariado), si esta o estas son la causa de la variación observada en
la variable dependiente, ni si hay sesgo debido a la omisión de alguna variable.
6. Regresión no lineal
La regresión no lineal trata de ajustar un modelo bivariado o multivariado en el que los parámetros
β 0 , β1 , no están en forma lineal, es decir su exponente es ≠ 1 .
Expresiones como
yi = bi xik + a + e ∀ k∈
son lineales, mientras que
yi = b1k xi + a + e ∀ k ≠1
es no lineal
Por lo general, la estimación de parámetros requiere algoritmos o paquetes estadísticos específicos. Sin
embargo algunas expresiones son fáciles de manejar, “linealizando” a través de transformaciones
logarítmicas por ejemplo.
7. Regresión robusta
La presencia de datos extremos u otras violaciones de los supuestos de la regresión hace que el método de
los mínimos cuadrados no sea un procedimiento apropiado. Una alternativa es utilizar una estimación no
paramétrica, en la que los datos numéricos son substituidos por sus ordinales respectivos o en la que la
7
8. estimación del coeficiente de regresión (pendiente) se realiza a través de seleccionar la mediana de todos
los posibles coeficientes. Otra alternativa es utilizar los denominados métodos robustos.
Se denomina heterocedástico un modelo en el que la varianza depende del valor de X .
La fórmula que utilizan los paquetes informáticos para calcular la varianza del modelo de regresión es la
presentada en el punto 5.3. basada en modelos homoscedáticos (en los que la varianza es independiente
de X ). Una fórmula alternativa que tiene en cuenta la heterocedasticidad es:
2
1 2
a(x− x)
1 n−2
s2 =
n 1
n a(x− x)
2
Otros procedimientos son:
• mínimos absolutos (LAR);
• regresión de datos recortados (trimmed regression);
1
• regresión ponderada (ponderación: );
varianza
• regresión no paramétrica (de Bablok y Passing, atenuada, a trozos o splines, nuclear o kernel);
• regresión ordinal (rank regression);
• bootstrap.
Ya que la aplicación principal de algunos de estos procedimientos está en la comparación de métodos
estadísticos, serán tratados en este contexto.
8. Regresión múltiple
(Véase Módulo 3)
9. Análisis de residuales
Se conoce como residual la diferencia entre las respuestas observadas de la variable explicativa y la
correspondiente respuesta obtenida al aplicar la función de regresión:
ei = yi − f ( xi ; β )
El punto clave en el proceso de modelar la relación entre dos variables es tomar la decisión de validar tal
2
modelo. El cálculo del coeficiente de correlación r y del coeficiente de determinación R son necesarios
pero insuficientes. Para tener un juicio mejor fundamentado debe procederse a analizar el comportamiento
de los residuales. Los métodos gráficos proporcionan una perspectiva más amplia que los métodos
numéricos, en ocasiones demasiados centrados en aspectos puntuales. Un ejemplo de método numérico es
el test de bondad de ajuste3.
Los métodos gráficos incluyen los siguientes diagramas:
(a) diagrama de residuos frente a la variable predictiva;
(b) diagrama de residuos frente a los parámetros de la regresión;
(c) diagrama de residuos ordenados;
(d) diagrama de desfase de los residuales;
(e) histograma de los residuales; y
(f) diagrama de probabilidad normal.
3
El estudio de los tests de bondad de ajuste se hará en el contexto del diseño de experimentos
8
9. Bibliografía
1. Verhulst PF. Notice sur la loi que la population pursuit dans son accroissement. Correspondance
mathématique et physique 1838;10:113-121.
2. Verhulst PF. Recherches mathematiques sur la loi d'accroissement de la population. Nouveaux Memoires
de l'Academie Royale des Sciences et Belles-Lettres de Bruxelles 1845;18:1-45.
3. Galton F. Typical laws of heredity. Nature 1877;15:492-495, 512-514, y 532-533.
4. Pearson K. Regression, heredity, and panmixia. Phil Trans R Soc. Ser A 1896;187:253-318.
5. Pearson K, Yule GU, Blanchard N, Lee A. The law of ancestral heredity. Biometrika 1903;2(2):211-236.
6. Yule GU. On the theory of correlation for any number of variables, treated by a new system of notation.
Proc R Soc, Ser A 1907;79:182-193.
7. Fisher RA. The goodness of fit of regression formulae, and the distribution of regression coefficients. J
Royal Statist Soc 1922;85:597-612.
SPSS
http://www.ats.ucla.edu/STAT/spss/webbooks/reg/chapter3/spssreg3.htm
http://www.ats.ucla.edu/STAT/spss/library/catreg.htm
http://www.ats.ucla.edu/stat/spss/examples/chp/chp2.html
9