1. Analisis correspondencias
2. Regresión logísitica
3. Regresión no lineal. Ajuste a una función logística de tres parámetros.
4. Estimación clásica vs estimación robusta.
5. Análisis de la varianza. Test de Welch y test
de Box.
6. Regresión robusta.
1. Diploma de Experto Universitario 2020/2021
Trabajo Final
Métodos Avanzados de Estadı́stica
Aplicada
Igor Garcı́a Atutxa
2. Índice
1. Análisis de Correspondencias 2
2. Regresión Logı́stica 4
3. Regresión no Lineal. Ajuste a una función Logı́stica de tres
parámetros. 8
4. Estimación clásica vs estimación robusta 13
5. Análisis de la Varianza. Test de Welch y test de Box 16
6. Regresión robusta 18
Referencias 21
1
3. Métodos Avanzados de Estadı́stica Aplicada Igor Garcia Atutxa
1. Análisis de Correspondencias
Los datos de la siguiente tabla de contingencia (Goldberg, 1972)
recogen las frecuencias absolutas de personas elegidas al azar de
tres grupos (Normales, Enfermedad psiquiátrica leve, Enfermedad
psiquiátrica grave) que respondieron a la pregunta: ¿Ha pensado
recientemente en la idea de suicidarse?
No Casi nunca Alguna vez Sı́
Normales 90 5 3 1
E.P. Leve 43 18 21 15
E.P. Grave 34 8 21 36
Analizar si puede aceptarse la independencia entre estas dos varia-
bles que forman la tabla de contingencia, es decir, la que forma las filas
y la que forma las columnas. Si se rechaza la independencia entre ambas
variables, realizar un Análisis de Correspondencias.
Nota. Para la resolución de este y los demás ejercicios de este trabajo se utili-
zará el software R y el entorno de desarrollo Rstudio. El código que se ha ejecutado
para la realización de los mismos se presenta en el fichero EstadisticaAvanzadaE-
valuacion.R.
En este ejercicio tenemos una tabla de doble entrada. La primera de ellas hace
referencia al número de personas que han tenido la idea de suicidarse y la segunda
al estado mental de los encuestados.
Inicialmente, el ejercicio nos propone que analicemos si podemos o no tomar
como independientes estas dos variables. Para llevar a cabo esta tarea realizaremos
el test chi-cuadrado (χ2
). En él, se contrastará la hipótesis nula de independencia
de las variables frente a la hipótesis alternativa de dependencia de las variables.
Es decir, se contrastarán las siguientes hipótesis:
H0. Los pensamientos suicidas y el estado mental de los encuestados son
independientes.
H1. Los pensamientos suicidas y el estado mental de los encuestados son
dependientes.
En R esta prueba se realiza mediante el comando chisq.test(tabla, correct =
FALSE). El resultado que se obtiene para el p-valor es 1,663815e − 17, un valor
muy próximo a cero por lo que rechazamos la hipótesis nula de independencia de
las dos variables en estudio.
Una vez rechazada la independencia, el segundo apartado nos pide que
realicemos un análisis de correspondencias en tal caso. Para esto, utilizamos el
comando de R ca(tabla) de la librerı́a ca. Los resultados obtenidos se presentan en
la Figura 1.
2
4. Métodos Avanzados de Estadı́stica Aplicada Igor Garcia Atutxa
Dimension 1 (85.5%)
Dimension
2
(14.5%)
−0.5 0.0 0.5
−0.4
−0.2
0.0
0.2
Normales
E.P.Leve
E.P.Grave
No
Casi nunca
Alguna vez
Si
Figura 1: Análisis de correspondencias. Relación entre trastornos psiquiátricos y
pensamientos suicidas.
Como se puede ver, el tener alguna enfermedad psiquiátrica grave está vincu-
lada con que esas personas tengan pensamientos suicidas. En el caso de enfermos
psiquiátricos leves, se deduce que puedan tener pensamientos suicidas esporádica-
mente. Para finalizar, observamos que las personas que no han tenido pensamientos
suicidas están relacionadas con las personas que no tienen ninguna enfermedad psi-
quiátrica.
3
5. Métodos Avanzados de Estadı́stica Aplicada Igor Garcia Atutxa
2. Regresión Logı́stica
Los datos titanic.txt (o titanic.sav) del apartado Documentos del
Curso Virtual, corresponden a datos de 891 pasajeros que iban en el
famoso transatlántico Titanic que naufragó en el atlántico norte.
En estos datos aparecen valores de 12 variables pero sólo hemos in-
cluido en el fichero datos de 6 variables (además de una primera columna
de identificación): la de respuesta dependiente Survived, que toma sólo
dos valores (1 si el pasajero sobrevivió y 0 si no sobrevivió) y 5 supues-
tas covariables regresoras, Pclass, clase en la que viajaba el pasajero.
Sex, sexo del pasajero. Age, edad del pasajero. SibSp, número de her-
manos, hermanastros o espos@ a bordo. Parch, número de padres, hijos
o hijastros a bordo. Se pide:
a) Analizar mediante una Regresión Logı́stica que covariables son
significativas para predecir la probabilidad p de supervivencia.
La Regresión Logı́stica es un modelo lineal generalizado (GLM) cuya expresión
es la siguiente:
log
p
1 − p
= β0 + β1X1 + β2X2 + β3X3 + ... + βnXn (1)
En la expresión anterior, las X son las variables independientes, las β son los coefi-
cientes de regresión correspondientes a cada una de esas variables independientes
y p es la variable dependiente dicotómica (dos posibles valores, éxito (p=1) o fra-
caso (p=0)). Si despejamos la variable dependiente p, la cual es nuestro objetivo
estimar, obtenemos la siguiente expresión:
p =
eβ0+β1X1+β2X2+...+βnXn
1 + eβ0+β1X1+β2X2+...+βnXn
(2)
Para realizar una Regresión Logı́stica en R, en el caso que nos ocupa, ejecutamos
el siguiente comando: glm(Survived ← SibSp + factor(Sex) + factor(Pclass) +
Parch + Age, family = binomial(logit), data = tablatitanic). La variable
dependiente sobre la que después haremos predicciones es dicotómica. Las variables
independientes pueden ser cuantitativas o categóricas. Como el sexo y la clase en
la que viajaban los pasajeros son variables categóricas, debemos indicarlo en la
instrucción añadiendo factor() delante de cada una de estas variables. Con la
sentencia summary obtendremos la información más destacable de la regresión
realizada.
4
6. Métodos Avanzados de Estadı́stica Aplicada Igor Garcia Atutxa
Figura 2: Resumen de la Regresión Logı́stica ejecutada para los datos del fichero
titanic.txt.
Una vez tenemos estos datos, podemos elegir razonadamente que variables son
significativas para estimar la probabilidad de supervivencia de los pasajeros del
Titanic. Para ello, vamos dentro del apartado de Coefficients (Figura 2) a la última
columna, donde se encuentra el p-valor (columna Pr( |z|)). Este valor nos indica
el resultado del siguiente contraste de hipótesis:
H0. El coeficiente de regresión correspondiente a la variable independiente
es 0.
H1. El coeficiente de regresión correspondiente a la variable independiente
NO es 0.
Por lo tanto, para nuestras variables independientes, salvo Parch, rechazamos
la hipótesis nula y aceptamos la hipótesis alternativa. Es decir, Parch es la única
variable no significativa para la estimación de supervivencia en el Titanic.
b) Determinar la estimación de p en función de las covariables que
resulten significativas.
En este apartado, volvemos a hacer otra regresión pero eliminando la variable
no significativa Parch. Por lo que la sentencia que ejecutaremos en R será la
siguiente: glm(Survived ← SibSp+factor(Sex)+factor(Pclass)+Age, family =
binomial(logit), data = tablatitanic).
5
7. Métodos Avanzados de Estadı́stica Aplicada Igor Garcia Atutxa
Figura 3: Resumen de la Regresión Logı́stica ejecutada para los datos del fichero
titanic.txt, después de eliminar la variable independiente no significativa Parch.
Si nos fijamos en la última columna de la Figura 3, vemos como los p-valor
son todos muy próximos a cero. Esto corrobora que todas las variables actuales
son significativas (la menos significativa serı́a SibSp). Podemos visualizar que dos
filas hacen referencia a Pclass, esto se debe a que es una variable categórica. En
el caso de este tipo de variables, se crearán en el modelo tantas nuevas variables
como posibles categorı́as tenga esa variable menos uno. Como consecuencia, X2
que es la variable vinculada al sexo será 0 si es una mujer y 1 si hablamos de un
hombre. En el caso de la clase de pasaje que está relacionado con las variables X3
y X4, tenemos que X3 = 0 y X4 = 0 si es clase 1, X3 = 1 y X4 = 0 si es clase 2 y
X3 = 0 y X4 = 1 si es clase 3. En cuanto al resto de variables, X1 hace referencia
al número de familiares del pasajero (SibSp) y X5 a la edad del pasajero (Age).
La estimación de los coeficientes de regresión de cada una de esas variables viene
dado por la columna Estimated, dentro del apartado Coefficients. Es decir, tene-
mos un total de 5 variables independientes (n=5), cuyos valores son: β0 = 4,3342;
β1 = −0,3802; β2 = −2,6277; β3 = −1,4144; β4 = −2,6526 y β5 = −0,0448.
Introduciendo estos valores en nuestro modelo inicial de regresión obtenemos
la siguiente expresión:
p =
e(4,3342−0,3802X1−2,6277X2−1,4144X3−2,6526X4−0,0448X5)
1 + e(4,3342−0,3802X1−2,6277X2−1,4144X3−2,6526X4−0,0448X5)
(3)
c) ¿Qué probabilidad de sobrevivir tenı́a un varón de primera clase
de 30 años sin parientes a bordo?¿y una mujer de tercera clase, con 40
años y con esposo a bordo?
6
8. Métodos Avanzados de Estadı́stica Aplicada Igor Garcia Atutxa
Para la primera de las cuestiones sustituimos en la ecuación 3 los siguientes
valores de los coeficientes: X1 = 0; X2 = 1; X3 = 0; X4 = 0 y X5 = 30. Obtenemos
que p = 0,5896, donde p es la probabilidad de sobrevivir.
Para la segunda de las cuestiones sustituimos en la ecuación 3 los siguientes
valores de los coeficientes: X1 = 1; X2 = 0; X3 = 0; X4 = 1 y X5 = 40. En este
caso tenemos que p = 0,3798.
7
9. Métodos Avanzados de Estadı́stica Aplicada Igor Garcia Atutxa
3. Regresión no Lineal. Ajuste a una función
Logı́stica de tres parámetros.
a) Los datos coronaEspaña.txt del Curso Virtual, corresponden a
datos acumulados de infectados por coronavirus COVID-19 en España,
desde principios de febrero hasta mediados de mayo, recogidos del De-
partamento de Seguridad Nacional, en donde hay una acumulación a
la baja debido al cambio de sistema de recuento del gobierno el 30 de
abril. Se desea realizar una Regresión no Lineal, ajustando una función
tipo Logı́stica de tres parámetros. Obtener el ajuste y analizarlo.
Primero cargamos y representamos en R los datos del fichero mencionado. Co-
mo podemos ver en la Figura 5, donde están representados por puntos, los datos no
siguen un lı́nea recta sino que más bien forman una especie de S. Por este motivo,
una regresión lineal no serı́a un buen modelo para nuestros datos y fijamos nuestra
mirada en una función Logı́stica de tres parámetros, que es la que nos sugiere el
enunciado. Esta función de regresión no lineal (ecuación 4) ya viene implementada
en R, corresponde al comando SSlogis(data,b1,b2,b3).
η(x, θ) =
b1
1 + exp(b2−x
b3
)
(4)
Introducimos los datos de infectados para cada uno de los diferentes dı́as
dentro del parámetro data y ejecutamos SSlogis(data,b1,b2,b3). Al igual que en
ejercicios previos con la sentencia summary obtenemos una serie de información
de la regresión, entre ella, la estimación de los tres parámetros b1, b2 y b3.
Figura 4: Valores de los parámetros de la función logı́stica de tres parámetros
para los datos de infectados por la COVID-19 en España.
Una vez se han estimado los valores de lo parámetros del modelo obtenemos la
función para nuestro caso particular, a partir de la ecuación 4:
η(x) =
22640
1 + exp(53,52−x
7,233
)
(5)
8
10. Métodos Avanzados de Estadı́stica Aplicada Igor Garcia Atutxa
Finalmente, realizamos la gráfica de esta última función (lı́nea continua) junto
con los datos de la muestra del fichero coronaEspaña.txt. Para hacer la gráfica de
la función hemos seleccionado un total de 100 puntos en R.
0 20 40 60 80
0
50000
150000
Dias
Infectados
Figura 5: Datos muestrales (puntos) y estimación realizada mediante una función
logı́stica de tres parámetros (lı́nea continua). Datos empleados coronaEspaña.txt.
Podemos ver como la función parametrizada seleccionada se ajusta conside-
rablemente bien a los datos. Hay alguna pequeña diferencia en torno al dı́a 80,
cuando el número de infectados está ligeramente por encima de la estimación del
modelo generado. En término generales, se puede ver que el ascenso de infectados
por la COVID-19 comienza un ritmo ascendente a partir del dı́a 20. Tras el dı́a 80
se observa que el número de infectados se estabiliza.
b) Los datos coronaMadrid.txtdel Curso Virtual, corresponden al
mismo recuento pero sólo de la Comunidad de Madrid, tomados de la
misma fuente. Por último, los datos coronaChina.txt corresponden a
China tomados de la Universidad John Hopkins. Se pide también hacer
un ajuste de una Regresión no Lineal ajustando una función de tipo
Logı́stica de tres parámetros, de los datos de Madrid multiplicados por
3 y de los de China, también multiplicados por 3 para trabajar con da-
tos comparables. Obtener los ajustes y analizarlos.
El proceso es totalmente análogo al anterior, salvo que ahora multiplicaremos
por tres los datos de infectados del dataset para poder hacer una comparación final
del número de infectados de los diferentes conjuntos de datos. Una vez hecho esto,
ejecutamos la función SSlogis(data,b1,b2,b3) para los datos de Madrid, obteniendo
el siguiente resultado:
9
11. Métodos Avanzados de Estadı́stica Aplicada Igor Garcia Atutxa
Figura 6: Valores de los parámetros de la función logı́stica de tres parámetros
para los datos de infectados por la COVID-19 en Madrid multiplicados por 3.
Cogemos lo valores de los parámetros y los sustituimos en la ecuación del mode-
lo de regresión que previamente hemos utilizado. Obtenemos la siguiente expresión:
η(x) =
19190
1 + exp(53,23−x
7,737
)
(6)
Por último, visualizamos en la misma gráfica los datos de infectados de Madrid
multiplicados por 3 con la estimación de nuestro modelo.
0 20 40 60 80
0
50000
150000
Dias
Infectados
Figura 7: Datos muestrales (puntos) y estimación realizada mediante una función
logı́stica de tres parámetros (lı́nea continua). Datos empleados coronaMadrid.txt.
El modelo se ajusta razonablemente bien a los datos del fichero coronaMa-
drid.txt. Como se puede ver el ascenso de infectados por la COVID-19 comienza
un ritmo ascendente a partir del dı́a 20. Tras el dı́a 80 se observa que el número
10
12. Métodos Avanzados de Estadı́stica Aplicada Igor Garcia Atutxa
de infectados se estabiliza. A primera vista, un caso muy similar al de coronaEs-
paña.txt.
Siguiendo el mismo proceso para los datos de coronaChina.txt, tenemos los si-
guientes valores para los parámetros b1, b2 y b3.
Figura 8: Valores de los parámetros de la función logı́stica de tres parámetros
para los datos de infectados por la COVID-19 en China multiplicados por 3.
Con estas estimaciones nuestro modelo de regresión quedarı́a de la siguiente
forma:
η(x) =
24640
1 + exp(20,90−x
4,781
)
(7)
Conseguimos la siguiente gráfica para los datos de China:
0 20 40 60 80 100
0
100000
200000
Dias
Infectados
Figura 9: Datos muestrales (puntos) y estimación realizada mediante una función
logı́stica de tres parámetros (lı́nea continua). Datos empleados coronaChina.txt.
11
13. Métodos Avanzados de Estadı́stica Aplicada Igor Garcia Atutxa
Podemos ver que el aumento de infectados por COVID-19 en China sucede an-
tes que en Madrid y España. A partir del primer dı́a comienza la escalada de casos,
en cambio, en los dos casos anteriores comienza tres semanas después, aproxima-
damente. Después del dı́a 40 el número de infectados se estabiliza completamente,
sin sufrir casi modificaciones.
c) Representar las tres curvas Logı́sticas, obtenidas en los dos apar-
tados anteriores, en un solo gráfico. Comentar el gráfico.
En la siguiente gráfica se unifican todas las gráficas que hemos ido realizan-
do a lo largo de este ejercicio con el objeto de hacer una comparativa más detallada.
0 20 40 60 80 100
0
100000
200000
Dias
Infectados
CORONAVIRUS
China
España
Madrid
Figura 10: Comparativa de infectados de COVID-19 de los tres modelos realizados
con sus respectivos datos muestrales.
Se observa como el ascenso de infectados en China (dı́a 1) ocurrió más de tres
semanas antes que en Madrid y España (en torno al dı́a 30). La curva de ascenso
en el caso chino es mayor que en el de los otros dos casos y llega antes a un estan-
camiento de casos, 30 dı́as después del inicio del aumento. En el caso de España y
Madrid, el ascenso es menos pronunciado y se llega a un estancamiento de casos
en unos 50 dı́as desde el inicio del ascenso (del dı́a 30 al dı́a 80 aproximadamente).
Las gráficas de Madrid y España son similares entre ellas.
12
14. Métodos Avanzados de Estadı́stica Aplicada Igor Garcia Atutxa
4. Estimación clásica vs estimación robusta
Se desea estudiar el número de hembras de la mosca tropical ame-
ricana (Dermatobia hominis) en una determinada región. Dicha mosca
se caracteriza por poner sus huevos en un mosquito, pasando las larvas
de la mosca a la piel de la persona cuya sangre ha chupado el mosquito.
Examinada la región en cuestión en 10 dı́as elegidos al azar, se obtuvo
el siguiente número de moscas hembra de la citada especie: 2, 1, 3, 5,
7, 2, 1, 2, 3, 2. Se pide:
a) Determinar la estimación clásica y cuatro estimaciones robustas
del número medio de moscas hembra en la región en estudio. ¿Con qué
estimación concluirı́a?
Como estimador clásico del número medio de moscas utilizaremos la media
muestral:
x =
1
n
n
X
i=1
Xi (8)
Donde Xi es el número de moscas hembra encontradas en cada observación y n
la suma total de dı́as en los que se han realizado las observaciones. Ejecutando el
comando mean(x) de R obtenemos que el valor para este estimador es, x = 2,80.
Entre los estimadores robustos, seleccionamos los siguientes:
Media α-Winsorizada muestral. Obtenemos este estimador en Rmo
con la eje-
cución de la función win(x, α), donde hemos seleccionado α = 0,2. El valor
obtenido ha sido xW
α = 2,44. En las siguientes ecuaciones k es el número de
valores que se winsorizan por encima del lı́mite superior y del lı́mite inferior.
xW
α =
1
n
kX(k+1) + X(k+1) + ... + X(n−k) + kX(n−k)
(9)
Media α-recortada muestral. Ejecutamos la función mean(x, α) en Rmo
para
obtener este estimador, donde hemos seleccionado α = 0,2. El valor obtenido
ha sido xα = 2,33.
xα =
1
n − 2k
X(k+1) + ... + X(n−k)
(10)
Mediana muestral. Ejecutamos la función median(x) en Rmo
para obtener
este estimador. El valor obtenido ha sido Me = 2,00.
Me =
(
X([ n
2
]+1) = X(n+1
2 ), si n/2 no es entero
1
2
Xn
2
+ Xn
2
+1
, si n/2 es entero
(11)
Estimador de Huber. Obtenemos este estimador en Rmo
con la ejecución de
la función mest(x). El valor obtenido ha sido xW
α = 2,56.
13
15. Métodos Avanzados de Estadı́stica Aplicada Igor Garcia Atutxa
Tk+1
n = Tk
n +
NMAD · A
B
(12)
La presencia de valores anómalos como 5 o 7 hace que el estimador clásico no
sea adecuado. Entre los estimadores robustos el debate esta más abierto y no hay
una respuesta clara. Podrı́amos escoger el estimador de Huber, ya que nos aporta
una estimación de compromiso. Este estimador tiene un error de muestreo sólo algo
mayor que la media muestral, cuando la distribución modelo es normal, y mantie-
nen esos errores de muestreo casi inalterables aunque la distribución no sea normal.
b) Determinar también la estimación clásica y cuatro estimaciones
robustas de la desviación tı́pica del número de moscas hembra en la
citada región. ¿Con qué estimación concluirı́a?
Como estimador clásico de la desviación tı́pica utilizaremos la cuasidesviación
tı́pica muestral:
S =
v
u
u
t 1
n − 1
n
X
i=1
(Xi − x)2
(13)
Donde Xi es el número de moscas hembra encontradas en cada observación, x la
media muestral y n la suma total de dı́as en los que se han realizado observacio-
nes. Ejecutando el comando sqrt(var(x)) de Rmo
obtenemos que el valor para este
estimador es, x = 1,87.
En cuanto a los estimadores robustos, escogemos los siguientes:
Desviación absoluta mediana estandarizada. Obtenemos este estimador en
Rmo
con la ejecución de la función mad(x). El valor obtenido ha sido
NMAD = 1,48. Me representa la mediana muestral.
NMAD =
MAD
z0,25
= 1, 482602 · Mediana{|Xi − Me|}n
i=1 (14)
Cuasidesviación tı́pica α-Winsorizada muestral. Obtenemos este estimador
en Rmo
con la ejecución de la función sqrt(winvar(x,α)). El valor obtenido
ha sido SW = 0,516.
SW =
v
u
u
t 1
n − 1
n
X
i=1
Xi − xW
α
2
(15)
Raı́z de la Varianza media biponderada. Obtenemos este estimador en Rmo
con la ejecución de la función sqrt(bivar(x)). El valor obtenido ha sido
ˆ
ξbi = 1,59.
ˆ
ξ2
bi(x) =
(
x(1 − x2
)2
, si |x| 1
0, si |x| ≥ 1
(16)
14
16. Métodos Avanzados de Estadı́stica Aplicada Igor Garcia Atutxa
Raı́z de Varianza media de porcentaje ajustado. Obtenemos este estimador
en Rmo
con la ejecución de la función sqrt(pbvar(x)). El valor obtenido ha
sido ˆ
ξpa = 1,85.
ˆ
ξ2
pb(x) =
−1, si x −1
x, si − 1 ≤ x ≤ 1
1, si x 1
(17)
La presencia de valores anómalos como 5 o 7 hace que el estimador clásico no
sea adecuado. Entre los estimadores robustos el debate esta más abierto y no hay
una respuesta clara. Podrı́amos escoger el estimador NMAD, ya que nos aporta
una estimación de compromiso. Este estimador tiene un error de muestreo sólo
algo mayor que la cuasidesviación tı́pica, cuando la distribución modelo es normal,
y mantienen esos errores de muestreo casi inalterables aunque la distribución no
sea normal.
15
17. Métodos Avanzados de Estadı́stica Aplicada Igor Garcia Atutxa
5. Análisis de la Varianza. Test de Welch y test
de Box
Se quiere averiguar si tres fertilizantes, A, B y C presentan
diferencias significativas en cuanto a sus efectos sobre el aumento de
la cosecha. Con este propósito se eligieron al azar 15 parcelas a las que
se fertilizó aleatoriamente con cada uno de los fertilizantes en cuestión.
Los aumentos de cosecha obtenidos fueron los siguientes:
Fertilizante Aumento de Cosecha
A 39 33 39 35 32
B 36 40 35 30 29
C 33 33 36 26 35
A la vista de los datos y recortando α = 0,1, ¿puede inferirse que
existen diferencias significativas entre los tres fertilizantes?
a) Utilizando la generalización robusta del test de Welch.
Estas dos pruebas se utilizan para comprobar si se cumple o no la hipótesis
nula de igualdad de las medias α-recortadas poblacionales independientes. Por lo
que nuestras dos hipótesis serán las siguientes:
H0. Todas las medias α-recortadas de las diferentes poblaciones en estudio
son iguales: µα,1 = µα,2 = µα,3 = ... = µα,r.
H1. No todas las medias α-recortadas son iguales. Es decir, al menos una de
las anteriores igualdades no se cumple.
El test de Welch generaliza al de Yuen. En Rmo
se puede obtener mediante el
comando t1way(x, α). Se ha escogido α = 0,1, obteniéndose el siguiente resultado:
Estadı́stico FW = 0,806.
Primer grado de libertad, ν1 = 2.
Segundo grado de libertad, ν2 = 7, 86.
p-valor del test, p − valor = 0,480. El cual es suficientemente grande como
para aceptar la hipótesis nula de igualdad de las tres medias 0.1-recortadas
de los fertilizantes.
b) Utilizando la generalización robusta del test de Box.
El test de Box se puede obtener en Rmo
ejecutando el comando box1way(x, α).
Se ha escogido para el valor de α = 0,1, obteniéndose el siguiente resultado:
Estadı́stico FW = 0,725.
16
18. Métodos Avanzados de Estadı́stica Aplicada Igor Garcia Atutxa
Primer grado de libertad, ν1 = 1,94.
Segundo grado de libertad, ν2 = 11, 3.
p-valor del test, p − valor = 0,501. El cual es suficientemente grande como
para aceptar la hipótesis nula de igualdad de las tres medias 0.1-recortadas
de los fertilizantes.
17
19. Métodos Avanzados de Estadı́stica Aplicada Igor Garcia Atutxa
6. Regresión robusta
Se cree que la duración del revestimiento de un estanque depende de
la cantidad de cal hidráulica que contiene. Para analizar esta relación
se midió, en siete revestimientos, el tiempo, Y, hasta la aparición
de filtraciones, teniendo cada unos de los revestimientos diferentes
porcentajes de cal hidráulica, X. Los resultados obtenidos fueron los
siguientes:
X 4 10 80 45 25 60 90
Y 12 26 180 132 100 200 230
Se pide:
a) La recta de M-regresión óptima.
Esta recta de regresión la obtenemos mediante el comando bmreg(x,y) de Rmo
.
En la siguiente gráfica mostramos los datos del enunciado, la regresión lineal clási-
ca y la recta de M-regresión optima.
Figura 11: Datos muestrales (puntos negros), recta de regresión lineal simple (lı́nea
discontinua roja) y recta de M-regresión óptima (lı́nea continua azul).
18
20. Métodos Avanzados de Estadı́stica Aplicada Igor Garcia Atutxa
b) La recta de regresión media biponderada.
El comando a utilizar en Rmo
en este caso es bireg(x,y,bend=1,28). En la si-
guiente gráfica mostramos los datos del enunciado, la regresión lineal clásica y la
recta de regresión media biponderada.
Figura 12: Datos muestrales (puntos negros), recta de regresión lineal simple (lı́nea
discontinua roja) y recta de regresión media biponderada (lı́nea continua verde).
c) La recta de regresión winsorizada.
Para finalizar usamos el comando winreg(x,y,tr=0,1) en Rmo
para el caso de la
regresión winsorizada. En la siguiente gráfica mostramos los datos del enunciado,
la regresión lineal clásica y la recta de regresión media biponderada.
19
21. Métodos Avanzados de Estadı́stica Aplicada Igor Garcia Atutxa
Figura 13: Datos muestrales (puntos negros), recta de regresión lineal simple (lı́nea
discontinua roja) y recta de regresión winsorizada (lı́nea continua verde).
20
22. Métodos Avanzados de Estadı́stica Aplicada Igor Garcia Atutxa
Referencias
[1] Garcı́a Pérez, A. (2005). Métodos avanzados de estadı́stica aplicada.
Técnicas avanzadas. Editorial UNED. (Código 0186080EP02A01).
[2] Garcı́a Pérez, A. (2005). Métodos avanzados de estadı́stica aplicada. Méto-
dos robustos y de remuestreo. Editorial UNED. (Código 0186080EP03A01).
[3] Garcı́a Pérez, A. (2008). Estadı́stica aplicada: Conceptos básicos. Editorial
UNED. (Código 0184011EP01A02).
21