Métodos avanzados de Estadística Aplicada

Diploma de Experto Universitario 2020/2021
Trabajo Final
Métodos Avanzados de Estadı́stica
Aplicada
Igor Garcı́a Atutxa

Índice
1. Análisis de Correspondencias 2
2. Regresión Logı́stica 4
3. Regresión no Lineal. Ajuste a una función Logı́stica de tres
parámetros. 8
4. Estimación clásica vs estimación robusta 13
5. Análisis de la Varianza. Test de Welch y test de Box 16
6. Regresión robusta 18
Referencias 21
1

Métodos Avanzados de Estadı́stica Aplicada Igor Garcia Atutxa
1. Análisis de Correspondencias
Los datos de la siguiente tabla de contingencia (Goldberg, 1972)
recogen las frecuencias absolutas de personas elegidas al azar de
tres grupos (Normales, Enfermedad psiquiátrica leve, Enfermedad
psiquiátrica grave) que respondieron a la pregunta: ¿Ha pensado
recientemente en la idea de suicidarse?
No Casi nunca Alguna vez Sı́
Normales 90 5 3 1
E.P. Leve 43 18 21 15
E.P. Grave 34 8 21 36
Analizar si puede aceptarse la independencia entre estas dos varia-
bles que forman la tabla de contingencia, es decir, la que forma las filas
y la que forma las columnas. Si se rechaza la independencia entre ambas
variables, realizar un Análisis de Correspondencias.
Nota. Para la resolución de este y los demás ejercicios de este trabajo se utili-
zará el software R y el entorno de desarrollo Rstudio. El código que se ha ejecutado
para la realización de los mismos se presenta en el fichero EstadisticaAvanzadaE-
valuacion.R.
En este ejercicio tenemos una tabla de doble entrada. La primera de ellas hace
referencia al número de personas que han tenido la idea de suicidarse y la segunda
al estado mental de los encuestados.
Inicialmente, el ejercicio nos propone que analicemos si podemos o no tomar
como independientes estas dos variables. Para llevar a cabo esta tarea realizaremos
el test chi-cuadrado (χ2
). En él, se contrastará la hipótesis nula de independencia
de las variables frente a la hipótesis alternativa de dependencia de las variables.
Es decir, se contrastarán las siguientes hipótesis:
H0. Los pensamientos suicidas y el estado mental de los encuestados son
independientes.
H1. Los pensamientos suicidas y el estado mental de los encuestados son
dependientes.
En R esta prueba se realiza mediante el comando chisq.test(tabla, correct =
FALSE). El resultado que se obtiene para el p-valor es 1,663815e − 17, un valor
muy próximo a cero por lo que rechazamos la hipótesis nula de independencia de
las dos variables en estudio.
Una vez rechazada la independencia, el segundo apartado nos pide que
realicemos un análisis de correspondencias en tal caso. Para esto, utilizamos el
comando de R ca(tabla) de la librerı́a ca. Los resultados obtenidos se presentan en
la Figura 1.
2

Dimension 1 (85.5%)
Dimension
2
(14.5%)
−0.5 0.0 0.5
−0.4
−0.2
0.0
0.2
Normales
E.P.Leve
E.P.Grave
No
Casi nunca
Alguna vez
Si
Figura 1: Análisis de correspondencias. Relación entre trastornos psiquiátricos y
pensamientos suicidas.
Como se puede ver, el tener alguna enfermedad psiquiátrica grave está vincu-
lada con que esas personas tengan pensamientos suicidas. En el caso de enfermos
psiquiátricos leves, se deduce que puedan tener pensamientos suicidas esporádica-
mente. Para finalizar, observamos que las personas que no han tenido pensamientos
suicidas están relacionadas con las personas que no tienen ninguna enfermedad psi-
quiátrica.
3

2. Regresión Logı́stica
Los datos titanic.txt (o titanic.sav) del apartado Documentos del
Curso Virtual, corresponden a datos de 891 pasajeros que iban en el
famoso transatlántico Titanic que naufragó en el atlántico norte.
En estos datos aparecen valores de 12 variables pero sólo hemos in-
cluido en el fichero datos de 6 variables (además de una primera columna
de identificación): la de respuesta dependiente Survived, que toma sólo
dos valores (1 si el pasajero sobrevivió y 0 si no sobrevivió) y 5 supues-
tas covariables regresoras, Pclass, clase en la que viajaba el pasajero.
Sex, sexo del pasajero. Age, edad del pasajero. SibSp, número de her-
manos, hermanastros o espos@ a bordo. Parch, número de padres, hijos
o hijastros a bordo. Se pide:
a) Analizar mediante una Regresión Logı́stica que covariables son
significativas para predecir la probabilidad p de supervivencia.
La Regresión Logı́stica es un modelo lineal generalizado (GLM) cuya expresión
es la siguiente:
log

p
1 − p

= β0 + β1X1 + β2X2 + β3X3 + ... + βnXn (1)
En la expresión anterior, las X son las variables independientes, las β son los coefi-
cientes de regresión correspondientes a cada una de esas variables independientes
y p es la variable dependiente dicotómica (dos posibles valores, éxito (p=1) o fra-
caso (p=0)). Si despejamos la variable dependiente p, la cual es nuestro objetivo
estimar, obtenemos la siguiente expresión:
p =
eβ0+β1X1+β2X2+...+βnXn
1 + eβ0+β1X1+β2X2+...+βnXn
(2)
Para realizar una Regresión Logı́stica en R, en el caso que nos ocupa, ejecutamos
el siguiente comando: glm(Survived ← SibSp + factor(Sex) + factor(Pclass) +
Parch + Age, family = binomial(logit), data = tablatitanic). La variable
dependiente sobre la que después haremos predicciones es dicotómica. Las variables
independientes pueden ser cuantitativas o categóricas. Como el sexo y la clase en
la que viajaban los pasajeros son variables categóricas, debemos indicarlo en la
instrucción añadiendo factor() delante de cada una de estas variables. Con la
sentencia summary obtendremos la información más destacable de la regresión
realizada.
4

Figura 2: Resumen de la Regresión Logı́stica ejecutada para los datos del fichero
titanic.txt.
Una vez tenemos estos datos, podemos elegir razonadamente que variables son
significativas para estimar la probabilidad de supervivencia de los pasajeros del
Titanic. Para ello, vamos dentro del apartado de Coefficients (Figura 2) a la última
columna, donde se encuentra el p-valor (columna Pr( |z|)). Este valor nos indica
el resultado del siguiente contraste de hipótesis:
H0. El coeficiente de regresión correspondiente a la variable independiente
es 0.
H1. El coeficiente de regresión correspondiente a la variable independiente
NO es 0.
Por lo tanto, para nuestras variables independientes, salvo Parch, rechazamos
la hipótesis nula y aceptamos la hipótesis alternativa. Es decir, Parch es la única
variable no significativa para la estimación de supervivencia en el Titanic.
b) Determinar la estimación de p en función de las covariables que
resulten significativas.
En este apartado, volvemos a hacer otra regresión pero eliminando la variable
no significativa Parch. Por lo que la sentencia que ejecutaremos en R será la
siguiente: glm(Survived ← SibSp+factor(Sex)+factor(Pclass)+Age, family =
binomial(logit), data = tablatitanic).
5

Figura 3: Resumen de la Regresión Logı́stica ejecutada para los datos del fichero
titanic.txt, después de eliminar la variable independiente no significativa Parch.
Si nos fijamos en la última columna de la Figura 3, vemos como los p-valor
son todos muy próximos a cero. Esto corrobora que todas las variables actuales
son significativas (la menos significativa serı́a SibSp). Podemos visualizar que dos
filas hacen referencia a Pclass, esto se debe a que es una variable categórica. En
el caso de este tipo de variables, se crearán en el modelo tantas nuevas variables
como posibles categorı́as tenga esa variable menos uno. Como consecuencia, X2
que es la variable vinculada al sexo será 0 si es una mujer y 1 si hablamos de un
hombre. En el caso de la clase de pasaje que está relacionado con las variables X3
y X4, tenemos que X3 = 0 y X4 = 0 si es clase 1, X3 = 1 y X4 = 0 si es clase 2 y
X3 = 0 y X4 = 1 si es clase 3. En cuanto al resto de variables, X1 hace referencia
al número de familiares del pasajero (SibSp) y X5 a la edad del pasajero (Age).
La estimación de los coeficientes de regresión de cada una de esas variables viene
dado por la columna Estimated, dentro del apartado Coefficients. Es decir, tene-
mos un total de 5 variables independientes (n=5), cuyos valores son: β0 = 4,3342;
β1 = −0,3802; β2 = −2,6277; β3 = −1,4144; β4 = −2,6526 y β5 = −0,0448.
Introduciendo estos valores en nuestro modelo inicial de regresión obtenemos
la siguiente expresión:
p =
e(4,3342−0,3802X1−2,6277X2−1,4144X3−2,6526X4−0,0448X5)
1 + e(4,3342−0,3802X1−2,6277X2−1,4144X3−2,6526X4−0,0448X5)
(3)
c) ¿Qué probabilidad de sobrevivir tenı́a un varón de primera clase
de 30 años sin parientes a bordo?¿y una mujer de tercera clase, con 40
años y con esposo a bordo?
6

Para la primera de las cuestiones sustituimos en la ecuación 3 los siguientes
valores de los coeficientes: X1 = 0; X2 = 1; X3 = 0; X4 = 0 y X5 = 30. Obtenemos
que p = 0,5896, donde p es la probabilidad de sobrevivir.
Para la segunda de las cuestiones sustituimos en la ecuación 3 los siguientes
valores de los coeficientes: X1 = 1; X2 = 0; X3 = 0; X4 = 1 y X5 = 40. En este
caso tenemos que p = 0,3798.
7

3. Regresión no Lineal. Ajuste a una función
Logı́stica de tres parámetros.
a) Los datos coronaEspaña.txt del Curso Virtual, corresponden a
datos acumulados de infectados por coronavirus COVID-19 en España,
desde principios de febrero hasta mediados de mayo, recogidos del De-
partamento de Seguridad Nacional, en donde hay una acumulación a
la baja debido al cambio de sistema de recuento del gobierno el 30 de
abril. Se desea realizar una Regresión no Lineal, ajustando una función
tipo Logı́stica de tres parámetros. Obtener el ajuste y analizarlo.
Primero cargamos y representamos en R los datos del fichero mencionado. Co-
mo podemos ver en la Figura 5, donde están representados por puntos, los datos no
siguen un lı́nea recta sino que más bien forman una especie de S. Por este motivo,
una regresión lineal no serı́a un buen modelo para nuestros datos y fijamos nuestra
mirada en una función Logı́stica de tres parámetros, que es la que nos sugiere el
enunciado. Esta función de regresión no lineal (ecuación 4) ya viene implementada
en R, corresponde al comando SSlogis(data,b1,b2,b3).
η(x, θ) =
b1
1 + exp(b2−x
b3
)
(4)
Introducimos los datos de infectados para cada uno de los diferentes dı́as
dentro del parámetro data y ejecutamos SSlogis(data,b1,b2,b3). Al igual que en
ejercicios previos con la sentencia summary obtenemos una serie de información
de la regresión, entre ella, la estimación de los tres parámetros b1, b2 y b3.
Figura 4: Valores de los parámetros de la función logı́stica de tres parámetros
para los datos de infectados por la COVID-19 en España.
Una vez se han estimado los valores de lo parámetros del modelo obtenemos la
función para nuestro caso particular, a partir de la ecuación 4:
η(x) =
22640
1 + exp(53,52−x
7,233
)
(5)
8

Finalmente, realizamos la gráfica de esta última función (lı́nea continua) junto
con los datos de la muestra del fichero coronaEspaña.txt. Para hacer la gráfica de
la función hemos seleccionado un total de 100 puntos en R.
0 20 40 60 80
0
50000
150000
Dias
Infectados
Figura 5: Datos muestrales (puntos) y estimación realizada mediante una función
logı́stica de tres parámetros (lı́nea continua). Datos empleados coronaEspaña.txt.
Podemos ver como la función parametrizada seleccionada se ajusta conside-
rablemente bien a los datos. Hay alguna pequeña diferencia en torno al dı́a 80,
cuando el número de infectados está ligeramente por encima de la estimación del
modelo generado. En término generales, se puede ver que el ascenso de infectados
por la COVID-19 comienza un ritmo ascendente a partir del dı́a 20. Tras el dı́a 80
se observa que el número de infectados se estabiliza.
b) Los datos coronaMadrid.txtdel Curso Virtual, corresponden al
mismo recuento pero sólo de la Comunidad de Madrid, tomados de la
misma fuente. Por último, los datos coronaChina.txt corresponden a
China tomados de la Universidad John Hopkins. Se pide también hacer
un ajuste de una Regresión no Lineal ajustando una función de tipo
Logı́stica de tres parámetros, de los datos de Madrid multiplicados por
3 y de los de China, también multiplicados por 3 para trabajar con da-
tos comparables. Obtener los ajustes y analizarlos.
El proceso es totalmente análogo al anterior, salvo que ahora multiplicaremos
por tres los datos de infectados del dataset para poder hacer una comparación final
del número de infectados de los diferentes conjuntos de datos. Una vez hecho esto,
ejecutamos la función SSlogis(data,b1,b2,b3) para los datos de Madrid, obteniendo
el siguiente resultado:
9

para los datos de infectados por la COVID-19 en Madrid multiplicados por 3.
Cogemos lo valores de los parámetros y los sustituimos en la ecuación del mode-
lo de regresión que previamente hemos utilizado. Obtenemos la siguiente expresión:
η(x) =
19190
1 + exp(53,23−x
7,737
)
(6)
Por último, visualizamos en la misma gráfica los datos de infectados de Madrid
multiplicados por 3 con la estimación de nuestro modelo.
0 20 40 60 80
0
50000
150000
Dias
Infectados
logı́stica de tres parámetros (lı́nea continua). Datos empleados coronaMadrid.txt.
El modelo se ajusta razonablemente bien a los datos del fichero coronaMa-
drid.txt. Como se puede ver el ascenso de infectados por la COVID-19 comienza
un ritmo ascendente a partir del dı́a 20. Tras el dı́a 80 se observa que el número
10

de infectados se estabiliza. A primera vista, un caso muy similar al de coronaEs-
paña.txt.
Siguiendo el mismo proceso para los datos de coronaChina.txt, tenemos los si-
guientes valores para los parámetros b1, b2 y b3.
para los datos de infectados por la COVID-19 en China multiplicados por 3.
Con estas estimaciones nuestro modelo de regresión quedarı́a de la siguiente
forma:
η(x) =
24640
1 + exp(20,90−x
4,781
)
(7)
Conseguimos la siguiente gráfica para los datos de China:
0 20 40 60 80 100
0
100000
200000
Dias
Infectados
logı́stica de tres parámetros (lı́nea continua). Datos empleados coronaChina.txt.
11

Podemos ver que el aumento de infectados por COVID-19 en China sucede an-
tes que en Madrid y España. A partir del primer dı́a comienza la escalada de casos,
en cambio, en los dos casos anteriores comienza tres semanas después, aproxima-
damente. Después del dı́a 40 el número de infectados se estabiliza completamente,
sin sufrir casi modificaciones.
c) Representar las tres curvas Logı́sticas, obtenidas en los dos apar-
tados anteriores, en un solo gráfico. Comentar el gráfico.
En la siguiente gráfica se unifican todas las gráficas que hemos ido realizan-
do a lo largo de este ejercicio con el objeto de hacer una comparativa más detallada.
0 20 40 60 80 100
0
100000
200000
Dias
Infectados
CORONAVIRUS
China
España
Madrid
Figura 10: Comparativa de infectados de COVID-19 de los tres modelos realizados
con sus respectivos datos muestrales.
Se observa como el ascenso de infectados en China (dı́a 1) ocurrió más de tres
semanas antes que en Madrid y España (en torno al dı́a 30). La curva de ascenso
en el caso chino es mayor que en el de los otros dos casos y llega antes a un estan-
camiento de casos, 30 dı́as después del inicio del aumento. En el caso de España y
Madrid, el ascenso es menos pronunciado y se llega a un estancamiento de casos
en unos 50 dı́as desde el inicio del ascenso (del dı́a 30 al dı́a 80 aproximadamente).
Las gráficas de Madrid y España son similares entre ellas.
12

4. Estimación clásica vs estimación robusta
Se desea estudiar el número de hembras de la mosca tropical ame-
ricana (Dermatobia hominis) en una determinada región. Dicha mosca
se caracteriza por poner sus huevos en un mosquito, pasando las larvas
de la mosca a la piel de la persona cuya sangre ha chupado el mosquito.
Examinada la región en cuestión en 10 dı́as elegidos al azar, se obtuvo
el siguiente número de moscas hembra de la citada especie: 2, 1, 3, 5,
7, 2, 1, 2, 3, 2. Se pide:
a) Determinar la estimación clásica y cuatro estimaciones robustas
del número medio de moscas hembra en la región en estudio. ¿Con qué
estimación concluirı́a?
Como estimador clásico del número medio de moscas utilizaremos la media
muestral:
x =
1
n
n
X
i=1
Xi (8)
Donde Xi es el número de moscas hembra encontradas en cada observación y n
la suma total de dı́as en los que se han realizado las observaciones. Ejecutando el
comando mean(x) de R obtenemos que el valor para este estimador es, x = 2,80.
Entre los estimadores robustos, seleccionamos los siguientes:
Media α-Winsorizada muestral. Obtenemos este estimador en Rmo
con la eje-
cución de la función win(x, α), donde hemos seleccionado α = 0,2. El valor
obtenido ha sido xW
α = 2,44. En las siguientes ecuaciones k es el número de
valores que se winsorizan por encima del lı́mite superior y del lı́mite inferior.
xW
α =
1
n

kX(k+1) + X(k+1) + ... + X(n−k) + kX(n−k)

(9)
Media α-recortada muestral. Ejecutamos la función mean(x, α) en Rmo
para
obtener este estimador, donde hemos seleccionado α = 0,2. El valor obtenido
ha sido xα = 2,33.
xα =
1
n − 2k
X(k+1) + ... + X(n−k)

(10)
Mediana muestral. Ejecutamos la función median(x) en Rmo
para obtener
este estimador. El valor obtenido ha sido Me = 2,00.
Me =
(
X([ n
2
]+1) = X(n+1
2 ), si n/2 no es entero
1
2
Xn
2
+ Xn
2
+1

, si n/2 es entero
(11)
Estimador de Huber. Obtenemos este estimador en Rmo
con la ejecución de
la función mest(x). El valor obtenido ha sido xW
α = 2,56.
13

Tk+1
n = Tk
n +
NMAD · A
B
(12)
La presencia de valores anómalos como 5 o 7 hace que el estimador clásico no
sea adecuado. Entre los estimadores robustos el debate esta más abierto y no hay
una respuesta clara. Podrı́amos escoger el estimador de Huber, ya que nos aporta
una estimación de compromiso. Este estimador tiene un error de muestreo sólo algo
mayor que la media muestral, cuando la distribución modelo es normal, y mantie-
nen esos errores de muestreo casi inalterables aunque la distribución no sea normal.
b) Determinar también la estimación clásica y cuatro estimaciones
robustas de la desviación tı́pica del número de moscas hembra en la
citada región. ¿Con qué estimación concluirı́a?
Como estimador clásico de la desviación tı́pica utilizaremos la cuasidesviación
tı́pica muestral:
S =
v
u
u
t 1
n − 1
n
X
i=1
(Xi − x)2
(13)
Donde Xi es el número de moscas hembra encontradas en cada observación, x la
media muestral y n la suma total de dı́as en los que se han realizado observacio-
nes. Ejecutando el comando sqrt(var(x)) de Rmo
obtenemos que el valor para este
estimador es, x = 1,87.
En cuanto a los estimadores robustos, escogemos los siguientes:
Desviación absoluta mediana estandarizada. Obtenemos este estimador en
Rmo
con la ejecución de la función mad(x). El valor obtenido ha sido
NMAD = 1,48. Me representa la mediana muestral.
NMAD =
MAD
z0,25
= 1, 482602 · Mediana{|Xi − Me|}n
i=1 (14)
Cuasidesviación tı́pica α-Winsorizada muestral. Obtenemos este estimador
en Rmo
con la ejecución de la función sqrt(winvar(x,α)). El valor obtenido
ha sido SW = 0,516.
SW =
v
u
u
t 1
n − 1
n
X
i=1
Xi − xW
α
2
(15)
Raı́z de la Varianza media biponderada. Obtenemos este estimador en Rmo
con la ejecución de la función sqrt(bivar(x)). El valor obtenido ha sido
ˆ
ξbi = 1,59.
ˆ
ξ2
bi(x) =
(
x(1 − x2
)2
, si |x| 1
0, si |x| ≥ 1
(16)
14

Raı́z de Varianza media de porcentaje ajustado. Obtenemos este estimador
en Rmo
con la ejecución de la función sqrt(pbvar(x)). El valor obtenido ha
sido ˆ
ξpa = 1,85.
ˆ
ξ2
pb(x) =





−1, si x −1
x, si − 1 ≤ x ≤ 1
1, si x 1
(17)
La presencia de valores anómalos como 5 o 7 hace que el estimador clásico no
sea adecuado. Entre los estimadores robustos el debate esta más abierto y no hay
una respuesta clara. Podrı́amos escoger el estimador NMAD, ya que nos aporta
una estimación de compromiso. Este estimador tiene un error de muestreo sólo
algo mayor que la cuasidesviación tı́pica, cuando la distribución modelo es normal,
y mantienen esos errores de muestreo casi inalterables aunque la distribución no
sea normal.
15

5. Análisis de la Varianza. Test de Welch y test
de Box
Se quiere averiguar si tres fertilizantes, A, B y C presentan
diferencias significativas en cuanto a sus efectos sobre el aumento de
la cosecha. Con este propósito se eligieron al azar 15 parcelas a las que
se fertilizó aleatoriamente con cada uno de los fertilizantes en cuestión.
Los aumentos de cosecha obtenidos fueron los siguientes:
Fertilizante Aumento de Cosecha
A 39 33 39 35 32
B 36 40 35 30 29
C 33 33 36 26 35
A la vista de los datos y recortando α = 0,1, ¿puede inferirse que
existen diferencias significativas entre los tres fertilizantes?
a) Utilizando la generalización robusta del test de Welch.
Estas dos pruebas se utilizan para comprobar si se cumple o no la hipótesis
nula de igualdad de las medias α-recortadas poblacionales independientes. Por lo
que nuestras dos hipótesis serán las siguientes:
H0. Todas las medias α-recortadas de las diferentes poblaciones en estudio
son iguales: µα,1 = µα,2 = µα,3 = ... = µα,r.
H1. No todas las medias α-recortadas son iguales. Es decir, al menos una de
las anteriores igualdades no se cumple.
El test de Welch generaliza al de Yuen. En Rmo
se puede obtener mediante el
comando t1way(x, α). Se ha escogido α = 0,1, obteniéndose el siguiente resultado:
Estadı́stico FW = 0,806.
Primer grado de libertad, ν1 = 2.
Segundo grado de libertad, ν2 = 7, 86.
p-valor del test, p − valor = 0,480. El cual es suficientemente grande como
para aceptar la hipótesis nula de igualdad de las tres medias 0.1-recortadas
de los fertilizantes.
b) Utilizando la generalización robusta del test de Box.
El test de Box se puede obtener en Rmo
ejecutando el comando box1way(x, α).
Se ha escogido para el valor de α = 0,1, obteniéndose el siguiente resultado:
Estadı́stico FW = 0,725.
16

Primer grado de libertad, ν1 = 1,94.
Segundo grado de libertad, ν2 = 11, 3.
p-valor del test, p − valor = 0,501. El cual es suficientemente grande como
para aceptar la hipótesis nula de igualdad de las tres medias 0.1-recortadas
de los fertilizantes.
17

6. Regresión robusta
Se cree que la duración del revestimiento de un estanque depende de
la cantidad de cal hidráulica que contiene. Para analizar esta relación
se midió, en siete revestimientos, el tiempo, Y, hasta la aparición
de filtraciones, teniendo cada unos de los revestimientos diferentes
porcentajes de cal hidráulica, X. Los resultados obtenidos fueron los
siguientes:
X 4 10 80 45 25 60 90
Y 12 26 180 132 100 200 230
Se pide:
a) La recta de M-regresión óptima.
Esta recta de regresión la obtenemos mediante el comando bmreg(x,y) de Rmo
.
En la siguiente gráfica mostramos los datos del enunciado, la regresión lineal clási-
ca y la recta de M-regresión optima.
Figura 11: Datos muestrales (puntos negros), recta de regresión lineal simple (lı́nea
discontinua roja) y recta de M-regresión óptima (lı́nea continua azul).
18

b) La recta de regresión media biponderada.
El comando a utilizar en Rmo
en este caso es bireg(x,y,bend=1,28). En la si-
guiente gráfica mostramos los datos del enunciado, la regresión lineal clásica y la
recta de regresión media biponderada.
discontinua roja) y recta de regresión media biponderada (lı́nea continua verde).
c) La recta de regresión winsorizada.
Para finalizar usamos el comando winreg(x,y,tr=0,1) en Rmo
para el caso de la
regresión winsorizada. En la siguiente gráfica mostramos los datos del enunciado,
la regresión lineal clásica y la recta de regresión media biponderada.
19

discontinua roja) y recta de regresión winsorizada (lı́nea continua verde).
20

Referencias
[1] Garcı́a Pérez, A. (2005). Métodos avanzados de estadı́stica aplicada.
Técnicas avanzadas. Editorial UNED. (Código 0186080EP02A01).
[2] Garcı́a Pérez, A. (2005). Métodos avanzados de estadı́stica aplicada. Méto-
dos robustos y de remuestreo. Editorial UNED. (Código 0186080EP03A01).
[3] Garcı́a Pérez, A. (2008). Estadı́stica aplicada: Conceptos básicos. Editorial
UNED. (Código 0184011EP01A02).
21

Métodos avanzados de Estadística Aplicada

Recomendados

Recomendados

Más contenido relacionado

Similar a Métodos avanzados de Estadística Aplicada

Similar a Métodos avanzados de Estadística Aplicada (20)

Más de Igor García Atutxa

Más de Igor García Atutxa (14)

Último

Último (17)

Métodos avanzados de Estadística Aplicada