SlideShare una empresa de Scribd logo
1 de 9
Descargar para leer sin conexión
REGRESION
Notas
Índice
ÍNDICE                                                                                                    1
1. OBJETIVOS DEL TEMA                                                                                     1
2. CONCEPTOS BÁSICOS PREVIOS                                                                              1
3. INTRODUCCIÓN: MODELOS ESTADÍSTICOS                                                                     1
4. APUNTE HISTÓRICO                                                                                       2
5. REGRESIÓN LINEAL                                                                                       3
6. REGRESIÓN NO LINEAL                                                                                    7
7. REGRESIÓN ROBUSTA                                                                                      7
8. REGRESIÓN MÚLTIPLE                                                                                     8
9. ANÁLISIS DE RESIDUALES                                                                                 8
BIBLIOGRAFÍA                                                                                              9




1. Objetivos del tema
•   Entender el concepto de modelo estadístico
•   Conocer y comprender el concepto de análisis de la regresión lineal
•   Conocer las etapas a seguir para realizar un análisis de la regresión
•   Conocer los procedimientos de estimación de los estadísticos de regresión, como el método de los
    mínimos cuadrados
•   Saber calcular los coeficientes de confianza
•   Conocer y comprender el concepto de análisis de la regresión no-lineal


2. Conceptos básicos previos
Covarianza
Correlación
Distribución bivariada
Diagramas descriptivos


3. Introducción: modelos estadísticos
Un modelo matemático es un conjunto de ecuaciones utilizados para definir cambios entre dos estados
(ecuaciones diferenciales) y las relaciones de dependencia entre variables (ecuaciones de estado). Un
modelos se denomina numérico cuando utiliza un procedimiento aritmético para por ejemplo modelar un
comportamiento futuro, expresándose en forma de tabla o diagrama. Un modelo analítico obtiene una
expresión (ecuación, función) que proporciona una solución específica.
Un modelo estadístico incluye además la caracterización de datos numéricos, el cálculo de errores o
desviaciones de las observaciones, la predicción de la conducta de un sistema basada en el
comportamiento previo, la extrapolación de datos basada en el mejor ajuste posible, o el análisis espectral.
El modelo lineal es uno de los modelos estadísticos más sencillos y útiles. Trata de resumir en la ecuación
de una línea (recta) las relaciones entre dos variables con la finalidad de caracterizar esta relación, calcular
las desviaciones de las observaciones respecto del modelo, predecir de la conducta de una variable basada
en el comportamiento de la otra, o extrapolar datos basándose en el mejor ajuste posible.


4. Apunte histórico




                Adrien Marie Legendre (1752-1833)
Describió el método de los mínimos cuadrados en 1805 como un apéndice de su libro Nouvelles méthodes
pour la détermination des orbites des comètes.




               Carl Friedrich Gauss (1777-1855)
Gauss, uno de los matemáticos más influyentes de todos los tiempos. Polemizó con Legendre al asegurar
haber inventado el método de los mínimos cuadrados en 1795, cuando publicó en 1809 su solución del
problema de predecir la órbita de Ceres (descubierto en 1801) en Theoria Motus Corporum Coelestium in
Sectionibus Conicis Solem Ambientum.




         Pierre François Verhulst (1804-1849)
Por indicación de F. Quetelet, investigó el tema ya sugerido por Malthus en 1789, de la extrapolación
geométricas. En una serie de publicaciones aparecidas entre 1838 y 1947 desarrolló lo que denominó
“curva logística” y que luego sería reconocido como regresión logística (1, 2).




                Francis Galton (1822-1911)
Buscando una ley matemática al fenómeno descrito por Darwin sobre el mecanismo hereditario por el cual
los descendientes presentaban rasgos que los aproximaban más a la media de la población que los
antecesores, Galton desarrolló el modelo que el denominó “reversión”, y que se popularizó como de la
regresión a la mediocridad. (3). En 1885 aplicó el nombre de regresión. Sin embargo, para Galton era un
concepto, como el de correlación, aplicable únicamente al ámbito biológico.




                Karl Pearson (1857-1936)
El concepto de regresión y las ideas sobre la herencia de Galton fueron continuados por K. Pearson y
George U. Yule, basándose en la distribución multivariada normal. Pearson también compartía la noción
biológica de regresión de Galton, aunque empezó a hablar de “coeficientes de regresión” en 1896 (4). En
1903 introduce el concepto de regresión múltiple (5).




                                                       2
George U. Yule (1871-1951)
La notación de la correlación regresión son aportaciones de Yule (6).




                Raymond Pearl (1879-1940)
Colaborador y luego disidente de K. Pearson. Re-descubrió la regresión logística.




                  Ronald A. Fisher (1890-1962)
R. A. Fisher refundó en los años 1920 (7) la regresión utilizando el modelo que Gauss había propuesto para
la teoría de errores y el método de los mínimos cuadrados. Las nociones de Pearson–Yule y de Gauss–
Fisher aún mantienen su vigencia. En la primera edición de Statistical Methods for Research Workers (1925)
Fisher utiliza los símbolos y y x y los términos "variable dependiente" y "variable independiente." Para la
interceptación y la pendiente poblacionales utiliza los símbolos                   α   y   β   y para los muestrales , a y b .


5. Regresión lineal

5.1. El modelo lineal
Para cada valor xi de X se habrá observado un valor yi de la variable aleatoria dependiente Y . Es decir,
se dispone de n pares de datos            ( x1 , y1 ) , ( x2 , y2 ) ,       , ( xn , yn ) que constituyen una muestra aleatoria de


                                                     Y              ( xi , yi )


                                                                                                      X




los valores ( x1 , x2 ,   , xn ) dados.
En el modelo lineal, la representación gráfica de las observaciones se dispone en línea recta, es decir
siguen la ecuación de una recta:
                                                          Y = β X +α + ε
donde:   α, β     son constantes desconocidas


                                                                        3
X           es la variables independiente
          Y           es la variables dependiente
          ε           es una variable aleatoria tal que
                                                              E (ε ) = 0
                                                            var ( ε ) = σ ε2
                                                   covar ( ε i , ε j ) = 0                     ∀ i≠ j
                      es decir, que ni el valor esperado ni la varianza de                        ε   dependen del valor xi ∈ X .


                                                        Y             ( xi , yi )

                                                                                          E (Y ) = β X + α

                                                                                                               X
                                                                                 xi




5.2. Estimación por el método de los mínimos cuadrados
El objetivo de la regresión es ajustar la mejor recta posible. Es decir, aquella recta que las distancias entre
los puntos observados          ( xi , yi )   y los puntos correspondientes sobre esta recta                         ( xi , yi )
                                                                                                                           ˆ      sean mínimas.
Estas distancias (proyecciones) pueden ser de varios tipos, aunque en el caso ordinario se busca un
mínimo de proyección (perpendicular) sobre el eje de las abscisas:



                                               Y            ( xi , yi )

                                                                          ( xi , yi )
                                                                                 ˆ
                                                                                                        X
                                                                xi
                                                                           n
La línea para la cual (a) la suma de las diferencias                  ∑y −y
                                                                          ˆ
                                                                          i =1
                                                                                      i    i    sea nula y (b) la suma de las diferencias al


              ( yi   − yi ) sea mínima, es la recta de mínimos cuadrados buscada. Esto se hace así para evitar
                          2
cuadrado               ˆ
que diferencias yi − yi con signos positivos cancelen diferencias con signos negativos. De esta segunda
                     ˆ
propiedad este procedimiento recibe el nombre de “cuadrados” mínimos1:




1
    Existen otras alternativas, como por ejemplo considerar los valores absolutos de las diferencias yi − yi


                                                                          4
n

                                                 ∑( y − y )
                                                                                 2
                                                        ˆ   i            i
                                                 i =1
                                                  n

                                                 ∑ ( y − ( β x + α ))
                                                                                                             2
                                                            i                        i
                                                 i =1

Las soluciones analíticas para estimar   β   y   α      son:
                                                                 n

                                                            ∑ y (x − x)
                                                                i =1
                                                                             i           i

                                                  b=               n

                                                                ∑(x − x )
                                                                                                         2
                                                                                 i
                                                                 i =1

                                                  a = y −b x

5.3. Estimación de otros parámetros

Varianza de la regresión   σ
                                                   1 n
                                                       ∑ ( yi − ( β xi + α ) )
                                                                               2
                                     s2 =
                                                 n − 2 i =1
                                                 scd
                                     s2 =
                                                 n−2
Varianza del estadístico de interceptación
                                                                                     n

                                                                                 ∑x              2
                                                                                                 i

                                         var ( a ) =
                                                                                 i =1
                                                                             n
                                                                                                                     s2
                                                                        ∑( x − x )
                                                                                                                 2
                                                                 n                           i
                                                                         i =1


Varianza del estadístico de pendiente

                                                                                             s2
                                              var ( b ) =                    n

                                                                        ∑( x − x )
                                                                                                                 2
                                                                                             i
                                                                         i =1


Límites de confianza de los estadísticos de interceptación y pendiente
                                                                                         n

                                                                                     ∑x
                                                                                     i =1
                                                                                                     i
                                                                                                         2


                                             a ± tα s                            n

                                                                             ∑(x − x )
                                                                                                                     2
                                                        2            n                           i
                                                                              i =1

                                                                                         1
                                             b ± tα s                   n

                                                                     ∑(x − x )
                                                                                                             2
                                                        2
                                                                                         i
                                                                       i =1



5.4. Supuestos
El análisis de la regresión por el método de los mínimos cuadrados implica asumir que:




                                                                         5
(a) Para cada valor xi de X existe una distribución normal de valores de Y , de los que se ha
         obtenido aleatoriamente el valor yi ;

    (b) El valor yi pertenece a esta distribución normal con media yi . Los diferentes valores de yi se
        disponen sobre la línea recta denominada de regresión poblacional; y
    (c) Las desviaciones ε de los puntos de la línea ajustada se distribuyen normalmente con media 0 y
         varianza constante     σ ε2

5.5. Regresión de X sobre Y
Es totalmente incorrecto despejar X de la ecuación
                                                      1
                                               ˆ        ( y − a)
                                               y = b x+a ⇒ x =
                                                          ˆ
                                                      b
                                                     ˆ
La regresión de X sobre Y se hace aproximando X por x :
                                           x = b y+a
                                           ˆ
donde: a = x − b y
                sX Y
         b=      2
                sY
porque se minimiza los errores entre xi y xi = b yi + a , es decir las cantidades ei = ( xi − xi )
                                                                                   2                  2
                                          ˆ                                                   ˆ

5.6. El coeficiente de determinación, coeficiente de determinación ajustado, y coeficiente
de alienación
5.6.1. Sinónimos
Coefficient of determination, adjusted coefficient of determinatiion; coeficiente de indeterminación.

5.6.2. Definiciones
                                       2
El coeficiente de determinación R indica la proporción de varianza común entre una variable dependiente
y una(s) variable(s) independientes.
                                           2
El coeficiente de determinación R              se define como el cuadrado del coeficiente de correlación r de
Pearson:
                                                         R2 = r 2
Sus valores están, pues incluidos en el intervalo 0,1 . [ ]
                                                   2                                                      2
El coeficiente de determinación ajustado Ra 2es una modificación del coeficiente de determinación R que
                                                                                     2
toma en cuenta el número de variables explicativas. Al contrario de R , el coeficiente de determinación
            2
ajustado R sólo aumenta si la nueva variable mejora el modelo sobre lo esperable si sólo fuera por causas
            a
                                                                                 2
aleatorias. Puede adoptar valores negativos y por tanto, menores que R .
El coeficiente de determinación ajustado se define como:
                                                                        n −1
                                                Ra = 1 − (1 − R 2 )
                                                 2

                                                                      n − p −1
donde:     p         es el número de variables explicativas (independientes) en el modelo lineal; y


2
 Puede encontrase una calculadora on line de este coeficiente en
http://www.danielsoper.com/statcalc/calc25.aspx.


                                                             6
n     es el tamaño muestral.
El coeficiente de alienación R′ (o de indeterminación) atribuido a Fred Kerlinger, es complementario del
                                    2

coeficiente de determinación indica la proporción de varianza no compartida entre dos variables.
El coeficiente de alienación R′ se define como:
                                2


                                                R′2 = 1 − R 2 = 1 − r 2
                                                                  2
5.6.3.Utilización del coeficiente de determinación R
Se utiliza ocasionalmente para medir la significación de r . Mide la cantidad de variación compartida por
ambas variables, es decir la cantidad (o porcentaje, si así se expresa) de variación atribuible a X .

5.6.4. Interpretación
El coeficiente de determinación se interpreta como la proporción de variación en la respuesta (variable Y )
que está explicada por la regresión, esto es por la(s) variables(s) independiente(s):
                                                       varianza residual
                                           R2 = 1 −
                                                          varianza Y
Si R = 1 indicará que el modelo explicará toda la variabilidad en Y . Si R = 0 indicará que el modelo de
    2                                                                              2


                             e Y no es apropiado. Y un valor intermedio, por ejemplo R = 0, 64 se
                                                                                               2
relación lineal entre X
interpretaría como que el modelo de las variable(s) independiente(s) X escogidas explica un 64 % de la
variación en la variable dependiente Y y el 36 % restante se explicaría por otros mecanismos (otras
variables, variación inherente etc.).
La interpretación del coeficiente de determinación ajustado es diferente de la del coeficiente de
determinación. El coeficiente de determinación ajustado es útil en la etapa de selección de variables cuando
se construye un modelo.

5.6.5. Limitaciones
El coeficiente de determinación no informará sin embargo de si se ha seleccionado el mejor conjunto de
variables independientes (en el caso multivariado), si esta o estas son la causa de la variación observada en
la variable dependiente, ni si hay sesgo debido a la omisión de alguna variable.


6. Regresión no lineal
La regresión no lineal trata de ajustar un modelo bivariado o multivariado en el que los parámetros
β 0 , β1 , no están en forma lineal, es decir su exponente es ≠ 1 .
Expresiones como
                                        yi = bi xik + a + e           ∀ k∈
son lineales, mientras que
                                        yi = b1k xi + a + e               ∀ k ≠1
es no lineal
Por lo general, la estimación de parámetros requiere algoritmos o paquetes estadísticos específicos. Sin
embargo algunas expresiones son fáciles de manejar, “linealizando” a través de transformaciones
logarítmicas por ejemplo.


7. Regresión robusta
La presencia de datos extremos u otras violaciones de los supuestos de la regresión hace que el método de
los mínimos cuadrados no sea un procedimiento apropiado. Una alternativa es utilizar una estimación no
paramétrica, en la que los datos numéricos son substituidos por sus ordinales respectivos o en la que la




                                                              7
estimación del coeficiente de regresión (pendiente) se realiza a través de seleccionar la mediana de todos
los posibles coeficientes. Otra alternativa es utilizar los denominados métodos robustos.
Se denomina heterocedástico un modelo en el que la varianza depende del valor de X .
La fórmula que utilizan los paquetes informáticos para calcular la varianza del modelo de regresión es la
presentada en el punto 5.3. basada en modelos homoscedáticos (en los que la varianza es independiente
de X ). Una fórmula alternativa que tiene en cuenta la heterocedasticidad es:
                                                                          2
                                               1           2 
                                                   a(x− x) 
                                             1 n−2 
                                         s2 =                 
                                             n 1             
                                                n a(x− x) 
                                                            2


                                                             
Otros procedimientos son:
      •   mínimos absolutos (LAR);
      •   regresión de datos recortados (trimmed regression);
                                                     1
      •   regresión ponderada (ponderación:               );
                                                 varianza
      •   regresión no paramétrica (de Bablok y Passing, atenuada, a trozos o splines, nuclear o kernel);
      •   regresión ordinal (rank regression);
    • bootstrap.
Ya que la aplicación principal de algunos de estos procedimientos está en la comparación de métodos
estadísticos, serán tratados en este contexto.


8. Regresión múltiple
(Véase Módulo 3)


9. Análisis de residuales
Se conoce como residual la diferencia entre las respuestas observadas de la variable explicativa y la
correspondiente respuesta obtenida al aplicar la función de regresión:
                                                 ei = yi − f ( xi ; β )
El punto clave en el proceso de modelar la relación entre dos variables es tomar la decisión de validar tal
                                                                                            2
modelo. El cálculo del coeficiente de correlación r y del coeficiente de determinación R son necesarios
pero insuficientes. Para tener un juicio mejor fundamentado debe procederse a analizar el comportamiento
de los residuales. Los métodos gráficos proporcionan una perspectiva más amplia que los métodos
numéricos, en ocasiones demasiados centrados en aspectos puntuales. Un ejemplo de método numérico es
el test de bondad de ajuste3.
Los métodos gráficos incluyen los siguientes diagramas:
     (a) diagrama de residuos frente a la variable predictiva;
     (b) diagrama de residuos frente a los parámetros de la regresión;
     (c) diagrama de residuos ordenados;
     (d) diagrama de desfase de los residuales;
     (e) histograma de los residuales; y
     (f) diagrama de probabilidad normal.




3
    El estudio de los tests de bondad de ajuste se hará en el contexto del diseño de experimentos


                                                           8
Bibliografía
1. Verhulst PF. Notice sur la loi que la population pursuit dans son accroissement. Correspondance
mathématique et physique 1838;10:113-121.
2. Verhulst PF. Recherches mathematiques sur la loi d'accroissement de la population. Nouveaux Memoires
de l'Academie Royale des Sciences et Belles-Lettres de Bruxelles 1845;18:1-45.
3. Galton F. Typical laws of heredity. Nature 1877;15:492-495, 512-514, y 532-533.
4. Pearson K. Regression, heredity, and panmixia. Phil Trans R Soc. Ser A 1896;187:253-318.
5. Pearson K, Yule GU, Blanchard N, Lee A. The law of ancestral heredity. Biometrika 1903;2(2):211-236.
6. Yule GU. On the theory of correlation for any number of variables, treated by a new system of notation.
Proc R Soc, Ser A 1907;79:182-193.
7. Fisher RA. The goodness of fit of regression formulae, and the distribution of regression coefficients. J
Royal Statist Soc 1922;85:597-612.


SPSS
http://www.ats.ucla.edu/STAT/spss/webbooks/reg/chapter3/spssreg3.htm
http://www.ats.ucla.edu/STAT/spss/library/catreg.htm
http://www.ats.ucla.edu/stat/spss/examples/chp/chp2.html




                                                     9

Más contenido relacionado

La actualidad más candente (20)

Pdf 10 movimientos-semejanza
Pdf 10 movimientos-semejanzaPdf 10 movimientos-semejanza
Pdf 10 movimientos-semejanza
 
Clase4 Test de hipótesis en el modelo de regresión
Clase4 Test de hipótesis en el modelo de regresiónClase4 Test de hipótesis en el modelo de regresión
Clase4 Test de hipótesis en el modelo de regresión
 
Crist lleisobservacio p2
Crist lleisobservacio p2Crist lleisobservacio p2
Crist lleisobservacio p2
 
T6
T6T6
T6
 
Matematicas
MatematicasMatematicas
Matematicas
 
Estadística y probabilidad
Estadística y probabilidadEstadística y probabilidad
Estadística y probabilidad
 
Clase13 Modelos de variables dependientes limitadas
Clase13 Modelos de variables dependientes limitadasClase13 Modelos de variables dependientes limitadas
Clase13 Modelos de variables dependientes limitadas
 
T6
T6T6
T6
 
Tema12 ud5
Tema12 ud5Tema12 ud5
Tema12 ud5
 
Clase3 El modelo de regresión múltiple
Clase3 El modelo de regresión múltipleClase3 El modelo de regresión múltiple
Clase3 El modelo de regresión múltiple
 
Integracion multiple
Integracion multipleIntegracion multiple
Integracion multiple
 
Genética cuantitativa2
Genética cuantitativa2Genética cuantitativa2
Genética cuantitativa2
 
Clase6 Selección del modelo y problemas de datos
Clase6 Selección del modelo y problemas de datosClase6 Selección del modelo y problemas de datos
Clase6 Selección del modelo y problemas de datos
 
Comp graf(2) marzo11
Comp graf(2) marzo11Comp graf(2) marzo11
Comp graf(2) marzo11
 
9 funciones
9 funciones9 funciones
9 funciones
 
geometria
geometria geometria
geometria
 
análisis matemático
análisis matemático análisis matemático
análisis matemático
 
Capítulo vii modelos logit y probit
Capítulo vii modelos logit y probitCapítulo vii modelos logit y probit
Capítulo vii modelos logit y probit
 
Lm
LmLm
Lm
 
Cap5
Cap5Cap5
Cap5
 

Destacado

Design & imlementation of tarf
Design & imlementation of tarfDesign & imlementation of tarf
Design & imlementation of tarfmadhavlaqs
 
LibroSIG: Aprendiendo a manejar los SIG en la gestión ambiental
LibroSIG: Aprendiendo a manejar los SIG en la gestión ambientalLibroSIG: Aprendiendo a manejar los SIG en la gestión ambiental
LibroSIG: Aprendiendo a manejar los SIG en la gestión ambientalPedro Roberto Casanova
 
Sistemaoperativo 101120071653-phpapp02
Sistemaoperativo 101120071653-phpapp02Sistemaoperativo 101120071653-phpapp02
Sistemaoperativo 101120071653-phpapp02txetxu12
 
Presentación sobre inventarios nifc 4 (cinif)
Presentación sobre inventarios nifc 4 (cinif)Presentación sobre inventarios nifc 4 (cinif)
Presentación sobre inventarios nifc 4 (cinif)juancrf
 
Recoleccion de datos
Recoleccion de datosRecoleccion de datos
Recoleccion de datos94250809938
 
Segmentacionmercado
SegmentacionmercadoSegmentacionmercado
Segmentacionmercadoaidibeth
 
Manual para la Información y Atención al Usuario del SESCAM
Manual para la Información y Atención al Usuario del SESCAMManual para la Información y Atención al Usuario del SESCAM
Manual para la Información y Atención al Usuario del SESCAMRodrigo Gutiérrez Fernández
 
Manualtecnicadeventas
ManualtecnicadeventasManualtecnicadeventas
Manualtecnicadeventasmiguel lopez
 
Sergio alejandro martinez ortiz microsoft power point
Sergio alejandro martinez ortiz  microsoft power pointSergio alejandro martinez ortiz  microsoft power point
Sergio alejandro martinez ortiz microsoft power pointsergiomartinez456
 
Identificación de peligros e identificación de riesgos y controles -IPERC
Identificación de peligros e identificación de riesgos y controles -IPERCIdentificación de peligros e identificación de riesgos y controles -IPERC
Identificación de peligros e identificación de riesgos y controles -IPERCTVPerú
 
Sistemas operativos
Sistemas operativosSistemas operativos
Sistemas operativosnegradadys
 
Absorption and marginal costing
Absorption and marginal costing Absorption and marginal costing
Absorption and marginal costing Ravindra Sharma
 

Destacado (20)

Design & imlementation of tarf
Design & imlementation of tarfDesign & imlementation of tarf
Design & imlementation of tarf
 
monica
monicamonica
monica
 
LibroSIG: Aprendiendo a manejar los SIG en la gestión ambiental
LibroSIG: Aprendiendo a manejar los SIG en la gestión ambientalLibroSIG: Aprendiendo a manejar los SIG en la gestión ambiental
LibroSIG: Aprendiendo a manejar los SIG en la gestión ambiental
 
Logística y Cadena de Suministro. Introducción
Logística y Cadena de Suministro. IntroducciónLogística y Cadena de Suministro. Introducción
Logística y Cadena de Suministro. Introducción
 
Sistemaoperativo 101120071653-phpapp02
Sistemaoperativo 101120071653-phpapp02Sistemaoperativo 101120071653-phpapp02
Sistemaoperativo 101120071653-phpapp02
 
SEA Open Hack - YAP
SEA Open Hack - YAPSEA Open Hack - YAP
SEA Open Hack - YAP
 
Presentación sobre inventarios nifc 4 (cinif)
Presentación sobre inventarios nifc 4 (cinif)Presentación sobre inventarios nifc 4 (cinif)
Presentación sobre inventarios nifc 4 (cinif)
 
Recoleccion de datos
Recoleccion de datosRecoleccion de datos
Recoleccion de datos
 
sedena
sedenasedena
sedena
 
68071008 ethos-2011
68071008 ethos-201168071008 ethos-2011
68071008 ethos-2011
 
Segmentacionmercado
SegmentacionmercadoSegmentacionmercado
Segmentacionmercado
 
Manual para la Información y Atención al Usuario del SESCAM
Manual para la Información y Atención al Usuario del SESCAMManual para la Información y Atención al Usuario del SESCAM
Manual para la Información y Atención al Usuario del SESCAM
 
Manualtecnicadeventas
ManualtecnicadeventasManualtecnicadeventas
Manualtecnicadeventas
 
Sergio alejandro martinez ortiz microsoft power point
Sergio alejandro martinez ortiz  microsoft power pointSergio alejandro martinez ortiz  microsoft power point
Sergio alejandro martinez ortiz microsoft power point
 
Comercialización de productos y servicios rurales parte 3
Comercialización de productos y servicios rurales parte 3Comercialización de productos y servicios rurales parte 3
Comercialización de productos y servicios rurales parte 3
 
Geoanalitica atualização1
Geoanalitica atualização1Geoanalitica atualização1
Geoanalitica atualização1
 
Identificación de peligros e identificación de riesgos y controles -IPERC
Identificación de peligros e identificación de riesgos y controles -IPERCIdentificación de peligros e identificación de riesgos y controles -IPERC
Identificación de peligros e identificación de riesgos y controles -IPERC
 
Sistemas operativos
Sistemas operativosSistemas operativos
Sistemas operativos
 
Absorption and marginal costing
Absorption and marginal costing Absorption and marginal costing
Absorption and marginal costing
 
Escaleras
EscalerasEscaleras
Escaleras
 

Similar a Regresión lineal: introducción, historia y conceptos clave en

Similar a Regresión lineal: introducción, historia y conceptos clave en (20)

resolucion regresion lineal
resolucion regresion linealresolucion regresion lineal
resolucion regresion lineal
 
Trabajo
TrabajoTrabajo
Trabajo
 
Funciones de Varia Variables
Funciones de Varia VariablesFunciones de Varia Variables
Funciones de Varia Variables
 
Ajuste por mínimos cuadrados
Ajuste por mínimos cuadradosAjuste por mínimos cuadrados
Ajuste por mínimos cuadrados
 
M1 fin
M1 finM1 fin
M1 fin
 
Ecuacion de la recta
Ecuacion de la rectaEcuacion de la recta
Ecuacion de la recta
 
aylin 2.pdf
aylin 2.pdfaylin 2.pdf
aylin 2.pdf
 
que econometra
que econometra que econometra
que econometra
 
Ecuacion de la recta pendiente
Ecuacion de la recta pendienteEcuacion de la recta pendiente
Ecuacion de la recta pendiente
 
Unidad ii introduccion a las ecuciones diferenciales
Unidad ii introduccion a las ecuciones diferencialesUnidad ii introduccion a las ecuciones diferenciales
Unidad ii introduccion a las ecuciones diferenciales
 
Regresion y Correlacion
Regresion y CorrelacionRegresion y Correlacion
Regresion y Correlacion
 
Regresion lineal nancy vasquez
Regresion lineal nancy vasquezRegresion lineal nancy vasquez
Regresion lineal nancy vasquez
 
52721654 limite-y-continuidad-de-funciones-de-varias-variables
52721654 limite-y-continuidad-de-funciones-de-varias-variables52721654 limite-y-continuidad-de-funciones-de-varias-variables
52721654 limite-y-continuidad-de-funciones-de-varias-variables
 
Cinematica F1
Cinematica F1Cinematica F1
Cinematica F1
 
Regresion lineal
Regresion linealRegresion lineal
Regresion lineal
 
Regresión por Mínimos Cuadrados
Regresión por Mínimos CuadradosRegresión por Mínimos Cuadrados
Regresión por Mínimos Cuadrados
 
Regresión Lineal
Regresión LinealRegresión Lineal
Regresión Lineal
 
Capitulo2 vectores
Capitulo2 vectoresCapitulo2 vectores
Capitulo2 vectores
 
Busqueda de Simetrías en S-sistemas
Busqueda de Simetrías en S-sistemasBusqueda de Simetrías en S-sistemas
Busqueda de Simetrías en S-sistemas
 
Regresión lineal,ajuste de curva,tipos de regresión lineal
Regresión lineal,ajuste de curva,tipos de regresión linealRegresión lineal,ajuste de curva,tipos de regresión lineal
Regresión lineal,ajuste de curva,tipos de regresión lineal
 

Último

texto argumentativo, ejemplos y ejercicios prácticos
texto argumentativo, ejemplos y ejercicios prácticostexto argumentativo, ejemplos y ejercicios prácticos
texto argumentativo, ejemplos y ejercicios prácticosisabeltrejoros
 
Clasificaciones, modalidades y tendencias de investigación educativa.
Clasificaciones, modalidades y tendencias de investigación educativa.Clasificaciones, modalidades y tendencias de investigación educativa.
Clasificaciones, modalidades y tendencias de investigación educativa.José Luis Palma
 
GLOSAS Y PALABRAS ACTO 2 DE ABRIL 2024.docx
GLOSAS  Y PALABRAS ACTO 2 DE ABRIL 2024.docxGLOSAS  Y PALABRAS ACTO 2 DE ABRIL 2024.docx
GLOSAS Y PALABRAS ACTO 2 DE ABRIL 2024.docxAleParedes11
 
SINTAXIS DE LA ORACIÓN SIMPLE 2023-2024.pptx
SINTAXIS DE LA ORACIÓN SIMPLE 2023-2024.pptxSINTAXIS DE LA ORACIÓN SIMPLE 2023-2024.pptx
SINTAXIS DE LA ORACIÓN SIMPLE 2023-2024.pptxlclcarmen
 
EXPECTATIVAS vs PERSPECTIVA en la vida.
EXPECTATIVAS vs PERSPECTIVA  en la vida.EXPECTATIVAS vs PERSPECTIVA  en la vida.
EXPECTATIVAS vs PERSPECTIVA en la vida.DaluiMonasterio
 
La Función tecnológica del tutor.pptx
La  Función  tecnológica  del tutor.pptxLa  Función  tecnológica  del tutor.pptx
La Función tecnológica del tutor.pptxJunkotantik
 
30-de-abril-plebiscito-1902_240420_104511.pdf
30-de-abril-plebiscito-1902_240420_104511.pdf30-de-abril-plebiscito-1902_240420_104511.pdf
30-de-abril-plebiscito-1902_240420_104511.pdfgimenanahuel
 
Informatica Generalidades - Conceptos Básicos
Informatica Generalidades - Conceptos BásicosInformatica Generalidades - Conceptos Básicos
Informatica Generalidades - Conceptos BásicosCesarFernandez937857
 
Manual - ABAS II completo 263 hojas .pdf
Manual - ABAS II completo 263 hojas .pdfManual - ABAS II completo 263 hojas .pdf
Manual - ABAS II completo 263 hojas .pdfMaryRotonda1
 
Movimientos Precursores de La Independencia en Venezuela
Movimientos Precursores de La Independencia en VenezuelaMovimientos Precursores de La Independencia en Venezuela
Movimientos Precursores de La Independencia en Venezuelacocuyelquemao
 
Unidad II Doctrina de la Iglesia 1 parte
Unidad II Doctrina de la Iglesia 1 parteUnidad II Doctrina de la Iglesia 1 parte
Unidad II Doctrina de la Iglesia 1 parteJuan Hernandez
 
Plan Año Escolar Año Escolar 2023-2024. MPPE
Plan Año Escolar Año Escolar 2023-2024. MPPEPlan Año Escolar Año Escolar 2023-2024. MPPE
Plan Año Escolar Año Escolar 2023-2024. MPPELaura Chacón
 
programa dia de las madres 10 de mayo para evento
programa dia de las madres 10 de mayo  para eventoprograma dia de las madres 10 de mayo  para evento
programa dia de las madres 10 de mayo para eventoDiegoMtsS
 
PRIMER SEMESTRE 2024 ASAMBLEA DEPARTAMENTAL.pptx
PRIMER SEMESTRE 2024 ASAMBLEA DEPARTAMENTAL.pptxPRIMER SEMESTRE 2024 ASAMBLEA DEPARTAMENTAL.pptx
PRIMER SEMESTRE 2024 ASAMBLEA DEPARTAMENTAL.pptxinformacionasapespu
 
Factores ecosistemas: interacciones, energia y dinamica
Factores ecosistemas: interacciones, energia y dinamicaFactores ecosistemas: interacciones, energia y dinamica
Factores ecosistemas: interacciones, energia y dinamicaFlor Idalia Espinoza Ortega
 
OLIMPIADA DEL CONOCIMIENTO INFANTIL 2024.pptx
OLIMPIADA DEL CONOCIMIENTO INFANTIL 2024.pptxOLIMPIADA DEL CONOCIMIENTO INFANTIL 2024.pptx
OLIMPIADA DEL CONOCIMIENTO INFANTIL 2024.pptxjosetrinidadchavez
 

Último (20)

texto argumentativo, ejemplos y ejercicios prácticos
texto argumentativo, ejemplos y ejercicios prácticostexto argumentativo, ejemplos y ejercicios prácticos
texto argumentativo, ejemplos y ejercicios prácticos
 
Clasificaciones, modalidades y tendencias de investigación educativa.
Clasificaciones, modalidades y tendencias de investigación educativa.Clasificaciones, modalidades y tendencias de investigación educativa.
Clasificaciones, modalidades y tendencias de investigación educativa.
 
GLOSAS Y PALABRAS ACTO 2 DE ABRIL 2024.docx
GLOSAS  Y PALABRAS ACTO 2 DE ABRIL 2024.docxGLOSAS  Y PALABRAS ACTO 2 DE ABRIL 2024.docx
GLOSAS Y PALABRAS ACTO 2 DE ABRIL 2024.docx
 
SINTAXIS DE LA ORACIÓN SIMPLE 2023-2024.pptx
SINTAXIS DE LA ORACIÓN SIMPLE 2023-2024.pptxSINTAXIS DE LA ORACIÓN SIMPLE 2023-2024.pptx
SINTAXIS DE LA ORACIÓN SIMPLE 2023-2024.pptx
 
Power Point: "Defendamos la verdad".pptx
Power Point: "Defendamos la verdad".pptxPower Point: "Defendamos la verdad".pptx
Power Point: "Defendamos la verdad".pptx
 
EXPECTATIVAS vs PERSPECTIVA en la vida.
EXPECTATIVAS vs PERSPECTIVA  en la vida.EXPECTATIVAS vs PERSPECTIVA  en la vida.
EXPECTATIVAS vs PERSPECTIVA en la vida.
 
La Función tecnológica del tutor.pptx
La  Función  tecnológica  del tutor.pptxLa  Función  tecnológica  del tutor.pptx
La Función tecnológica del tutor.pptx
 
30-de-abril-plebiscito-1902_240420_104511.pdf
30-de-abril-plebiscito-1902_240420_104511.pdf30-de-abril-plebiscito-1902_240420_104511.pdf
30-de-abril-plebiscito-1902_240420_104511.pdf
 
Informatica Generalidades - Conceptos Básicos
Informatica Generalidades - Conceptos BásicosInformatica Generalidades - Conceptos Básicos
Informatica Generalidades - Conceptos Básicos
 
Manual - ABAS II completo 263 hojas .pdf
Manual - ABAS II completo 263 hojas .pdfManual - ABAS II completo 263 hojas .pdf
Manual - ABAS II completo 263 hojas .pdf
 
Movimientos Precursores de La Independencia en Venezuela
Movimientos Precursores de La Independencia en VenezuelaMovimientos Precursores de La Independencia en Venezuela
Movimientos Precursores de La Independencia en Venezuela
 
Unidad II Doctrina de la Iglesia 1 parte
Unidad II Doctrina de la Iglesia 1 parteUnidad II Doctrina de la Iglesia 1 parte
Unidad II Doctrina de la Iglesia 1 parte
 
Plan Año Escolar Año Escolar 2023-2024. MPPE
Plan Año Escolar Año Escolar 2023-2024. MPPEPlan Año Escolar Año Escolar 2023-2024. MPPE
Plan Año Escolar Año Escolar 2023-2024. MPPE
 
programa dia de las madres 10 de mayo para evento
programa dia de las madres 10 de mayo  para eventoprograma dia de las madres 10 de mayo  para evento
programa dia de las madres 10 de mayo para evento
 
PRIMER SEMESTRE 2024 ASAMBLEA DEPARTAMENTAL.pptx
PRIMER SEMESTRE 2024 ASAMBLEA DEPARTAMENTAL.pptxPRIMER SEMESTRE 2024 ASAMBLEA DEPARTAMENTAL.pptx
PRIMER SEMESTRE 2024 ASAMBLEA DEPARTAMENTAL.pptx
 
Factores ecosistemas: interacciones, energia y dinamica
Factores ecosistemas: interacciones, energia y dinamicaFactores ecosistemas: interacciones, energia y dinamica
Factores ecosistemas: interacciones, energia y dinamica
 
OLIMPIADA DEL CONOCIMIENTO INFANTIL 2024.pptx
OLIMPIADA DEL CONOCIMIENTO INFANTIL 2024.pptxOLIMPIADA DEL CONOCIMIENTO INFANTIL 2024.pptx
OLIMPIADA DEL CONOCIMIENTO INFANTIL 2024.pptx
 
Repaso Pruebas CRECE PR 2024. Ciencia General
Repaso Pruebas CRECE PR 2024. Ciencia GeneralRepaso Pruebas CRECE PR 2024. Ciencia General
Repaso Pruebas CRECE PR 2024. Ciencia General
 
Razonamiento Matemático 1. Deta del año 2020
Razonamiento Matemático 1. Deta del año 2020Razonamiento Matemático 1. Deta del año 2020
Razonamiento Matemático 1. Deta del año 2020
 
La Trampa De La Felicidad. Russ-Harris.pdf
La Trampa De La Felicidad. Russ-Harris.pdfLa Trampa De La Felicidad. Russ-Harris.pdf
La Trampa De La Felicidad. Russ-Harris.pdf
 

Regresión lineal: introducción, historia y conceptos clave en

  • 1. REGRESION Notas Índice ÍNDICE 1 1. OBJETIVOS DEL TEMA 1 2. CONCEPTOS BÁSICOS PREVIOS 1 3. INTRODUCCIÓN: MODELOS ESTADÍSTICOS 1 4. APUNTE HISTÓRICO 2 5. REGRESIÓN LINEAL 3 6. REGRESIÓN NO LINEAL 7 7. REGRESIÓN ROBUSTA 7 8. REGRESIÓN MÚLTIPLE 8 9. ANÁLISIS DE RESIDUALES 8 BIBLIOGRAFÍA 9 1. Objetivos del tema • Entender el concepto de modelo estadístico • Conocer y comprender el concepto de análisis de la regresión lineal • Conocer las etapas a seguir para realizar un análisis de la regresión • Conocer los procedimientos de estimación de los estadísticos de regresión, como el método de los mínimos cuadrados • Saber calcular los coeficientes de confianza • Conocer y comprender el concepto de análisis de la regresión no-lineal 2. Conceptos básicos previos Covarianza Correlación Distribución bivariada Diagramas descriptivos 3. Introducción: modelos estadísticos Un modelo matemático es un conjunto de ecuaciones utilizados para definir cambios entre dos estados (ecuaciones diferenciales) y las relaciones de dependencia entre variables (ecuaciones de estado). Un modelos se denomina numérico cuando utiliza un procedimiento aritmético para por ejemplo modelar un comportamiento futuro, expresándose en forma de tabla o diagrama. Un modelo analítico obtiene una expresión (ecuación, función) que proporciona una solución específica. Un modelo estadístico incluye además la caracterización de datos numéricos, el cálculo de errores o desviaciones de las observaciones, la predicción de la conducta de un sistema basada en el comportamiento previo, la extrapolación de datos basada en el mejor ajuste posible, o el análisis espectral.
  • 2. El modelo lineal es uno de los modelos estadísticos más sencillos y útiles. Trata de resumir en la ecuación de una línea (recta) las relaciones entre dos variables con la finalidad de caracterizar esta relación, calcular las desviaciones de las observaciones respecto del modelo, predecir de la conducta de una variable basada en el comportamiento de la otra, o extrapolar datos basándose en el mejor ajuste posible. 4. Apunte histórico Adrien Marie Legendre (1752-1833) Describió el método de los mínimos cuadrados en 1805 como un apéndice de su libro Nouvelles méthodes pour la détermination des orbites des comètes. Carl Friedrich Gauss (1777-1855) Gauss, uno de los matemáticos más influyentes de todos los tiempos. Polemizó con Legendre al asegurar haber inventado el método de los mínimos cuadrados en 1795, cuando publicó en 1809 su solución del problema de predecir la órbita de Ceres (descubierto en 1801) en Theoria Motus Corporum Coelestium in Sectionibus Conicis Solem Ambientum. Pierre François Verhulst (1804-1849) Por indicación de F. Quetelet, investigó el tema ya sugerido por Malthus en 1789, de la extrapolación geométricas. En una serie de publicaciones aparecidas entre 1838 y 1947 desarrolló lo que denominó “curva logística” y que luego sería reconocido como regresión logística (1, 2). Francis Galton (1822-1911) Buscando una ley matemática al fenómeno descrito por Darwin sobre el mecanismo hereditario por el cual los descendientes presentaban rasgos que los aproximaban más a la media de la población que los antecesores, Galton desarrolló el modelo que el denominó “reversión”, y que se popularizó como de la regresión a la mediocridad. (3). En 1885 aplicó el nombre de regresión. Sin embargo, para Galton era un concepto, como el de correlación, aplicable únicamente al ámbito biológico. Karl Pearson (1857-1936) El concepto de regresión y las ideas sobre la herencia de Galton fueron continuados por K. Pearson y George U. Yule, basándose en la distribución multivariada normal. Pearson también compartía la noción biológica de regresión de Galton, aunque empezó a hablar de “coeficientes de regresión” en 1896 (4). En 1903 introduce el concepto de regresión múltiple (5). 2
  • 3. George U. Yule (1871-1951) La notación de la correlación regresión son aportaciones de Yule (6). Raymond Pearl (1879-1940) Colaborador y luego disidente de K. Pearson. Re-descubrió la regresión logística. Ronald A. Fisher (1890-1962) R. A. Fisher refundó en los años 1920 (7) la regresión utilizando el modelo que Gauss había propuesto para la teoría de errores y el método de los mínimos cuadrados. Las nociones de Pearson–Yule y de Gauss– Fisher aún mantienen su vigencia. En la primera edición de Statistical Methods for Research Workers (1925) Fisher utiliza los símbolos y y x y los términos "variable dependiente" y "variable independiente." Para la interceptación y la pendiente poblacionales utiliza los símbolos α y β y para los muestrales , a y b . 5. Regresión lineal 5.1. El modelo lineal Para cada valor xi de X se habrá observado un valor yi de la variable aleatoria dependiente Y . Es decir, se dispone de n pares de datos ( x1 , y1 ) , ( x2 , y2 ) , , ( xn , yn ) que constituyen una muestra aleatoria de Y ( xi , yi ) X los valores ( x1 , x2 , , xn ) dados. En el modelo lineal, la representación gráfica de las observaciones se dispone en línea recta, es decir siguen la ecuación de una recta: Y = β X +α + ε donde: α, β son constantes desconocidas 3
  • 4. X es la variables independiente Y es la variables dependiente ε es una variable aleatoria tal que E (ε ) = 0 var ( ε ) = σ ε2 covar ( ε i , ε j ) = 0 ∀ i≠ j es decir, que ni el valor esperado ni la varianza de ε dependen del valor xi ∈ X . Y ( xi , yi ) E (Y ) = β X + α X xi 5.2. Estimación por el método de los mínimos cuadrados El objetivo de la regresión es ajustar la mejor recta posible. Es decir, aquella recta que las distancias entre los puntos observados ( xi , yi ) y los puntos correspondientes sobre esta recta ( xi , yi ) ˆ sean mínimas. Estas distancias (proyecciones) pueden ser de varios tipos, aunque en el caso ordinario se busca un mínimo de proyección (perpendicular) sobre el eje de las abscisas: Y ( xi , yi ) ( xi , yi ) ˆ X xi n La línea para la cual (a) la suma de las diferencias ∑y −y ˆ i =1 i i sea nula y (b) la suma de las diferencias al ( yi − yi ) sea mínima, es la recta de mínimos cuadrados buscada. Esto se hace así para evitar 2 cuadrado ˆ que diferencias yi − yi con signos positivos cancelen diferencias con signos negativos. De esta segunda ˆ propiedad este procedimiento recibe el nombre de “cuadrados” mínimos1: 1 Existen otras alternativas, como por ejemplo considerar los valores absolutos de las diferencias yi − yi 4
  • 5. n ∑( y − y ) 2 ˆ i i i =1 n ∑ ( y − ( β x + α )) 2 i i i =1 Las soluciones analíticas para estimar β y α son: n ∑ y (x − x) i =1 i i b= n ∑(x − x ) 2 i i =1 a = y −b x 5.3. Estimación de otros parámetros Varianza de la regresión σ 1 n ∑ ( yi − ( β xi + α ) ) 2 s2 = n − 2 i =1 scd s2 = n−2 Varianza del estadístico de interceptación n ∑x 2 i var ( a ) = i =1 n s2 ∑( x − x ) 2 n i i =1 Varianza del estadístico de pendiente s2 var ( b ) = n ∑( x − x ) 2 i i =1 Límites de confianza de los estadísticos de interceptación y pendiente n ∑x i =1 i 2 a ± tα s n ∑(x − x ) 2 2 n i i =1 1 b ± tα s n ∑(x − x ) 2 2 i i =1 5.4. Supuestos El análisis de la regresión por el método de los mínimos cuadrados implica asumir que: 5
  • 6. (a) Para cada valor xi de X existe una distribución normal de valores de Y , de los que se ha obtenido aleatoriamente el valor yi ; (b) El valor yi pertenece a esta distribución normal con media yi . Los diferentes valores de yi se disponen sobre la línea recta denominada de regresión poblacional; y (c) Las desviaciones ε de los puntos de la línea ajustada se distribuyen normalmente con media 0 y varianza constante σ ε2 5.5. Regresión de X sobre Y Es totalmente incorrecto despejar X de la ecuación 1 ˆ ( y − a) y = b x+a ⇒ x = ˆ b ˆ La regresión de X sobre Y se hace aproximando X por x : x = b y+a ˆ donde: a = x − b y sX Y b= 2 sY porque se minimiza los errores entre xi y xi = b yi + a , es decir las cantidades ei = ( xi − xi ) 2 2 ˆ ˆ 5.6. El coeficiente de determinación, coeficiente de determinación ajustado, y coeficiente de alienación 5.6.1. Sinónimos Coefficient of determination, adjusted coefficient of determinatiion; coeficiente de indeterminación. 5.6.2. Definiciones 2 El coeficiente de determinación R indica la proporción de varianza común entre una variable dependiente y una(s) variable(s) independientes. 2 El coeficiente de determinación R se define como el cuadrado del coeficiente de correlación r de Pearson: R2 = r 2 Sus valores están, pues incluidos en el intervalo 0,1 . [ ] 2 2 El coeficiente de determinación ajustado Ra 2es una modificación del coeficiente de determinación R que 2 toma en cuenta el número de variables explicativas. Al contrario de R , el coeficiente de determinación 2 ajustado R sólo aumenta si la nueva variable mejora el modelo sobre lo esperable si sólo fuera por causas a 2 aleatorias. Puede adoptar valores negativos y por tanto, menores que R . El coeficiente de determinación ajustado se define como: n −1 Ra = 1 − (1 − R 2 ) 2 n − p −1 donde: p es el número de variables explicativas (independientes) en el modelo lineal; y 2 Puede encontrase una calculadora on line de este coeficiente en http://www.danielsoper.com/statcalc/calc25.aspx. 6
  • 7. n es el tamaño muestral. El coeficiente de alienación R′ (o de indeterminación) atribuido a Fred Kerlinger, es complementario del 2 coeficiente de determinación indica la proporción de varianza no compartida entre dos variables. El coeficiente de alienación R′ se define como: 2 R′2 = 1 − R 2 = 1 − r 2 2 5.6.3.Utilización del coeficiente de determinación R Se utiliza ocasionalmente para medir la significación de r . Mide la cantidad de variación compartida por ambas variables, es decir la cantidad (o porcentaje, si así se expresa) de variación atribuible a X . 5.6.4. Interpretación El coeficiente de determinación se interpreta como la proporción de variación en la respuesta (variable Y ) que está explicada por la regresión, esto es por la(s) variables(s) independiente(s): varianza residual R2 = 1 − varianza Y Si R = 1 indicará que el modelo explicará toda la variabilidad en Y . Si R = 0 indicará que el modelo de 2 2 e Y no es apropiado. Y un valor intermedio, por ejemplo R = 0, 64 se 2 relación lineal entre X interpretaría como que el modelo de las variable(s) independiente(s) X escogidas explica un 64 % de la variación en la variable dependiente Y y el 36 % restante se explicaría por otros mecanismos (otras variables, variación inherente etc.). La interpretación del coeficiente de determinación ajustado es diferente de la del coeficiente de determinación. El coeficiente de determinación ajustado es útil en la etapa de selección de variables cuando se construye un modelo. 5.6.5. Limitaciones El coeficiente de determinación no informará sin embargo de si se ha seleccionado el mejor conjunto de variables independientes (en el caso multivariado), si esta o estas son la causa de la variación observada en la variable dependiente, ni si hay sesgo debido a la omisión de alguna variable. 6. Regresión no lineal La regresión no lineal trata de ajustar un modelo bivariado o multivariado en el que los parámetros β 0 , β1 , no están en forma lineal, es decir su exponente es ≠ 1 . Expresiones como yi = bi xik + a + e ∀ k∈ son lineales, mientras que yi = b1k xi + a + e ∀ k ≠1 es no lineal Por lo general, la estimación de parámetros requiere algoritmos o paquetes estadísticos específicos. Sin embargo algunas expresiones son fáciles de manejar, “linealizando” a través de transformaciones logarítmicas por ejemplo. 7. Regresión robusta La presencia de datos extremos u otras violaciones de los supuestos de la regresión hace que el método de los mínimos cuadrados no sea un procedimiento apropiado. Una alternativa es utilizar una estimación no paramétrica, en la que los datos numéricos son substituidos por sus ordinales respectivos o en la que la 7
  • 8. estimación del coeficiente de regresión (pendiente) se realiza a través de seleccionar la mediana de todos los posibles coeficientes. Otra alternativa es utilizar los denominados métodos robustos. Se denomina heterocedástico un modelo en el que la varianza depende del valor de X . La fórmula que utilizan los paquetes informáticos para calcular la varianza del modelo de regresión es la presentada en el punto 5.3. basada en modelos homoscedáticos (en los que la varianza es independiente de X ). Una fórmula alternativa que tiene en cuenta la heterocedasticidad es: 2  1  2   a(x− x)  1 n−2  s2 =    n 1    n a(x− x)  2     Otros procedimientos son: • mínimos absolutos (LAR); • regresión de datos recortados (trimmed regression); 1 • regresión ponderada (ponderación: ); varianza • regresión no paramétrica (de Bablok y Passing, atenuada, a trozos o splines, nuclear o kernel); • regresión ordinal (rank regression); • bootstrap. Ya que la aplicación principal de algunos de estos procedimientos está en la comparación de métodos estadísticos, serán tratados en este contexto. 8. Regresión múltiple (Véase Módulo 3) 9. Análisis de residuales Se conoce como residual la diferencia entre las respuestas observadas de la variable explicativa y la correspondiente respuesta obtenida al aplicar la función de regresión: ei = yi − f ( xi ; β ) El punto clave en el proceso de modelar la relación entre dos variables es tomar la decisión de validar tal 2 modelo. El cálculo del coeficiente de correlación r y del coeficiente de determinación R son necesarios pero insuficientes. Para tener un juicio mejor fundamentado debe procederse a analizar el comportamiento de los residuales. Los métodos gráficos proporcionan una perspectiva más amplia que los métodos numéricos, en ocasiones demasiados centrados en aspectos puntuales. Un ejemplo de método numérico es el test de bondad de ajuste3. Los métodos gráficos incluyen los siguientes diagramas: (a) diagrama de residuos frente a la variable predictiva; (b) diagrama de residuos frente a los parámetros de la regresión; (c) diagrama de residuos ordenados; (d) diagrama de desfase de los residuales; (e) histograma de los residuales; y (f) diagrama de probabilidad normal. 3 El estudio de los tests de bondad de ajuste se hará en el contexto del diseño de experimentos 8
  • 9. Bibliografía 1. Verhulst PF. Notice sur la loi que la population pursuit dans son accroissement. Correspondance mathématique et physique 1838;10:113-121. 2. Verhulst PF. Recherches mathematiques sur la loi d'accroissement de la population. Nouveaux Memoires de l'Academie Royale des Sciences et Belles-Lettres de Bruxelles 1845;18:1-45. 3. Galton F. Typical laws of heredity. Nature 1877;15:492-495, 512-514, y 532-533. 4. Pearson K. Regression, heredity, and panmixia. Phil Trans R Soc. Ser A 1896;187:253-318. 5. Pearson K, Yule GU, Blanchard N, Lee A. The law of ancestral heredity. Biometrika 1903;2(2):211-236. 6. Yule GU. On the theory of correlation for any number of variables, treated by a new system of notation. Proc R Soc, Ser A 1907;79:182-193. 7. Fisher RA. The goodness of fit of regression formulae, and the distribution of regression coefficients. J Royal Statist Soc 1922;85:597-612. SPSS http://www.ats.ucla.edu/STAT/spss/webbooks/reg/chapter3/spssreg3.htm http://www.ats.ucla.edu/STAT/spss/library/catreg.htm http://www.ats.ucla.edu/stat/spss/examples/chp/chp2.html 9