SlideShare una empresa de Scribd logo
1 de 22
Descargar para leer sin conexión
Diploma de Experto Universitario 2020/2021
Trabajo Final
Métodos Avanzados de Estadı́stica
Aplicada
Igor Garcı́a Atutxa
Índice
1. Análisis de Correspondencias 2
2. Regresión Logı́stica 4
3. Regresión no Lineal. Ajuste a una función Logı́stica de tres
parámetros. 8
4. Estimación clásica vs estimación robusta 13
5. Análisis de la Varianza. Test de Welch y test de Box 16
6. Regresión robusta 18
Referencias 21
1
Métodos Avanzados de Estadı́stica Aplicada Igor Garcia Atutxa
1. Análisis de Correspondencias
Los datos de la siguiente tabla de contingencia (Goldberg, 1972)
recogen las frecuencias absolutas de personas elegidas al azar de
tres grupos (Normales, Enfermedad psiquiátrica leve, Enfermedad
psiquiátrica grave) que respondieron a la pregunta: ¿Ha pensado
recientemente en la idea de suicidarse?
No Casi nunca Alguna vez Sı́
Normales 90 5 3 1
E.P. Leve 43 18 21 15
E.P. Grave 34 8 21 36
Analizar si puede aceptarse la independencia entre estas dos varia-
bles que forman la tabla de contingencia, es decir, la que forma las filas
y la que forma las columnas. Si se rechaza la independencia entre ambas
variables, realizar un Análisis de Correspondencias.
Nota. Para la resolución de este y los demás ejercicios de este trabajo se utili-
zará el software R y el entorno de desarrollo Rstudio. El código que se ha ejecutado
para la realización de los mismos se presenta en el fichero EstadisticaAvanzadaE-
valuacion.R.
En este ejercicio tenemos una tabla de doble entrada. La primera de ellas hace
referencia al número de personas que han tenido la idea de suicidarse y la segunda
al estado mental de los encuestados.
Inicialmente, el ejercicio nos propone que analicemos si podemos o no tomar
como independientes estas dos variables. Para llevar a cabo esta tarea realizaremos
el test chi-cuadrado (χ2
). En él, se contrastará la hipótesis nula de independencia
de las variables frente a la hipótesis alternativa de dependencia de las variables.
Es decir, se contrastarán las siguientes hipótesis:
H0. Los pensamientos suicidas y el estado mental de los encuestados son
independientes.
H1. Los pensamientos suicidas y el estado mental de los encuestados son
dependientes.
En R esta prueba se realiza mediante el comando chisq.test(tabla, correct =
FALSE). El resultado que se obtiene para el p-valor es 1,663815e − 17, un valor
muy próximo a cero por lo que rechazamos la hipótesis nula de independencia de
las dos variables en estudio.
Una vez rechazada la independencia, el segundo apartado nos pide que
realicemos un análisis de correspondencias en tal caso. Para esto, utilizamos el
comando de R ca(tabla) de la librerı́a ca. Los resultados obtenidos se presentan en
la Figura 1.
2
Métodos Avanzados de Estadı́stica Aplicada Igor Garcia Atutxa
Dimension 1 (85.5%)
Dimension
2
(14.5%)
−0.5 0.0 0.5
−0.4
−0.2
0.0
0.2
Normales
E.P.Leve
E.P.Grave
No
Casi nunca
Alguna vez
Si
Figura 1: Análisis de correspondencias. Relación entre trastornos psiquiátricos y
pensamientos suicidas.
Como se puede ver, el tener alguna enfermedad psiquiátrica grave está vincu-
lada con que esas personas tengan pensamientos suicidas. En el caso de enfermos
psiquiátricos leves, se deduce que puedan tener pensamientos suicidas esporádica-
mente. Para finalizar, observamos que las personas que no han tenido pensamientos
suicidas están relacionadas con las personas que no tienen ninguna enfermedad psi-
quiátrica.
3
Métodos Avanzados de Estadı́stica Aplicada Igor Garcia Atutxa
2. Regresión Logı́stica
Los datos titanic.txt (o titanic.sav) del apartado Documentos del
Curso Virtual, corresponden a datos de 891 pasajeros que iban en el
famoso transatlántico Titanic que naufragó en el atlántico norte.
En estos datos aparecen valores de 12 variables pero sólo hemos in-
cluido en el fichero datos de 6 variables (además de una primera columna
de identificación): la de respuesta dependiente Survived, que toma sólo
dos valores (1 si el pasajero sobrevivió y 0 si no sobrevivió) y 5 supues-
tas covariables regresoras, Pclass, clase en la que viajaba el pasajero.
Sex, sexo del pasajero. Age, edad del pasajero. SibSp, número de her-
manos, hermanastros o espos@ a bordo. Parch, número de padres, hijos
o hijastros a bordo. Se pide:
a) Analizar mediante una Regresión Logı́stica que covariables son
significativas para predecir la probabilidad p de supervivencia.
La Regresión Logı́stica es un modelo lineal generalizado (GLM) cuya expresión
es la siguiente:
log

p
1 − p

= β0 + β1X1 + β2X2 + β3X3 + ... + βnXn (1)
En la expresión anterior, las X son las variables independientes, las β son los coefi-
cientes de regresión correspondientes a cada una de esas variables independientes
y p es la variable dependiente dicotómica (dos posibles valores, éxito (p=1) o fra-
caso (p=0)). Si despejamos la variable dependiente p, la cual es nuestro objetivo
estimar, obtenemos la siguiente expresión:
p =
eβ0+β1X1+β2X2+...+βnXn
1 + eβ0+β1X1+β2X2+...+βnXn
(2)
Para realizar una Regresión Logı́stica en R, en el caso que nos ocupa, ejecutamos
el siguiente comando: glm(Survived ← SibSp + factor(Sex) + factor(Pclass) +
Parch + Age, family = binomial(logit), data = tablatitanic). La variable
dependiente sobre la que después haremos predicciones es dicotómica. Las variables
independientes pueden ser cuantitativas o categóricas. Como el sexo y la clase en
la que viajaban los pasajeros son variables categóricas, debemos indicarlo en la
instrucción añadiendo factor() delante de cada una de estas variables. Con la
sentencia summary obtendremos la información más destacable de la regresión
realizada.
4
Métodos Avanzados de Estadı́stica Aplicada Igor Garcia Atutxa
Figura 2: Resumen de la Regresión Logı́stica ejecutada para los datos del fichero
titanic.txt.
Una vez tenemos estos datos, podemos elegir razonadamente que variables son
significativas para estimar la probabilidad de supervivencia de los pasajeros del
Titanic. Para ello, vamos dentro del apartado de Coefficients (Figura 2) a la última
columna, donde se encuentra el p-valor (columna Pr( |z|)). Este valor nos indica
el resultado del siguiente contraste de hipótesis:
H0. El coeficiente de regresión correspondiente a la variable independiente
es 0.
H1. El coeficiente de regresión correspondiente a la variable independiente
NO es 0.
Por lo tanto, para nuestras variables independientes, salvo Parch, rechazamos
la hipótesis nula y aceptamos la hipótesis alternativa. Es decir, Parch es la única
variable no significativa para la estimación de supervivencia en el Titanic.
b) Determinar la estimación de p en función de las covariables que
resulten significativas.
En este apartado, volvemos a hacer otra regresión pero eliminando la variable
no significativa Parch. Por lo que la sentencia que ejecutaremos en R será la
siguiente: glm(Survived ← SibSp+factor(Sex)+factor(Pclass)+Age, family =
binomial(logit), data = tablatitanic).
5
Métodos Avanzados de Estadı́stica Aplicada Igor Garcia Atutxa
Figura 3: Resumen de la Regresión Logı́stica ejecutada para los datos del fichero
titanic.txt, después de eliminar la variable independiente no significativa Parch.
Si nos fijamos en la última columna de la Figura 3, vemos como los p-valor
son todos muy próximos a cero. Esto corrobora que todas las variables actuales
son significativas (la menos significativa serı́a SibSp). Podemos visualizar que dos
filas hacen referencia a Pclass, esto se debe a que es una variable categórica. En
el caso de este tipo de variables, se crearán en el modelo tantas nuevas variables
como posibles categorı́as tenga esa variable menos uno. Como consecuencia, X2
que es la variable vinculada al sexo será 0 si es una mujer y 1 si hablamos de un
hombre. En el caso de la clase de pasaje que está relacionado con las variables X3
y X4, tenemos que X3 = 0 y X4 = 0 si es clase 1, X3 = 1 y X4 = 0 si es clase 2 y
X3 = 0 y X4 = 1 si es clase 3. En cuanto al resto de variables, X1 hace referencia
al número de familiares del pasajero (SibSp) y X5 a la edad del pasajero (Age).
La estimación de los coeficientes de regresión de cada una de esas variables viene
dado por la columna Estimated, dentro del apartado Coefficients. Es decir, tene-
mos un total de 5 variables independientes (n=5), cuyos valores son: β0 = 4,3342;
β1 = −0,3802; β2 = −2,6277; β3 = −1,4144; β4 = −2,6526 y β5 = −0,0448.
Introduciendo estos valores en nuestro modelo inicial de regresión obtenemos
la siguiente expresión:
p =
e(4,3342−0,3802X1−2,6277X2−1,4144X3−2,6526X4−0,0448X5)
1 + e(4,3342−0,3802X1−2,6277X2−1,4144X3−2,6526X4−0,0448X5)
(3)
c) ¿Qué probabilidad de sobrevivir tenı́a un varón de primera clase
de 30 años sin parientes a bordo?¿y una mujer de tercera clase, con 40
años y con esposo a bordo?
6
Métodos Avanzados de Estadı́stica Aplicada Igor Garcia Atutxa
Para la primera de las cuestiones sustituimos en la ecuación 3 los siguientes
valores de los coeficientes: X1 = 0; X2 = 1; X3 = 0; X4 = 0 y X5 = 30. Obtenemos
que p = 0,5896, donde p es la probabilidad de sobrevivir.
Para la segunda de las cuestiones sustituimos en la ecuación 3 los siguientes
valores de los coeficientes: X1 = 1; X2 = 0; X3 = 0; X4 = 1 y X5 = 40. En este
caso tenemos que p = 0,3798.
7
Métodos Avanzados de Estadı́stica Aplicada Igor Garcia Atutxa
3. Regresión no Lineal. Ajuste a una función
Logı́stica de tres parámetros.
a) Los datos coronaEspaña.txt del Curso Virtual, corresponden a
datos acumulados de infectados por coronavirus COVID-19 en España,
desde principios de febrero hasta mediados de mayo, recogidos del De-
partamento de Seguridad Nacional, en donde hay una acumulación a
la baja debido al cambio de sistema de recuento del gobierno el 30 de
abril. Se desea realizar una Regresión no Lineal, ajustando una función
tipo Logı́stica de tres parámetros. Obtener el ajuste y analizarlo.
Primero cargamos y representamos en R los datos del fichero mencionado. Co-
mo podemos ver en la Figura 5, donde están representados por puntos, los datos no
siguen un lı́nea recta sino que más bien forman una especie de S. Por este motivo,
una regresión lineal no serı́a un buen modelo para nuestros datos y fijamos nuestra
mirada en una función Logı́stica de tres parámetros, que es la que nos sugiere el
enunciado. Esta función de regresión no lineal (ecuación 4) ya viene implementada
en R, corresponde al comando SSlogis(data,b1,b2,b3).
η(x, θ) =
b1
1 + exp(b2−x
b3
)
(4)
Introducimos los datos de infectados para cada uno de los diferentes dı́as
dentro del parámetro data y ejecutamos SSlogis(data,b1,b2,b3). Al igual que en
ejercicios previos con la sentencia summary obtenemos una serie de información
de la regresión, entre ella, la estimación de los tres parámetros b1, b2 y b3.
Figura 4: Valores de los parámetros de la función logı́stica de tres parámetros
para los datos de infectados por la COVID-19 en España.
Una vez se han estimado los valores de lo parámetros del modelo obtenemos la
función para nuestro caso particular, a partir de la ecuación 4:
η(x) =
22640
1 + exp(53,52−x
7,233
)
(5)
8
Métodos Avanzados de Estadı́stica Aplicada Igor Garcia Atutxa
Finalmente, realizamos la gráfica de esta última función (lı́nea continua) junto
con los datos de la muestra del fichero coronaEspaña.txt. Para hacer la gráfica de
la función hemos seleccionado un total de 100 puntos en R.
0 20 40 60 80
0
50000
150000
Dias
Infectados
Figura 5: Datos muestrales (puntos) y estimación realizada mediante una función
logı́stica de tres parámetros (lı́nea continua). Datos empleados coronaEspaña.txt.
Podemos ver como la función parametrizada seleccionada se ajusta conside-
rablemente bien a los datos. Hay alguna pequeña diferencia en torno al dı́a 80,
cuando el número de infectados está ligeramente por encima de la estimación del
modelo generado. En término generales, se puede ver que el ascenso de infectados
por la COVID-19 comienza un ritmo ascendente a partir del dı́a 20. Tras el dı́a 80
se observa que el número de infectados se estabiliza.
b) Los datos coronaMadrid.txtdel Curso Virtual, corresponden al
mismo recuento pero sólo de la Comunidad de Madrid, tomados de la
misma fuente. Por último, los datos coronaChina.txt corresponden a
China tomados de la Universidad John Hopkins. Se pide también hacer
un ajuste de una Regresión no Lineal ajustando una función de tipo
Logı́stica de tres parámetros, de los datos de Madrid multiplicados por
3 y de los de China, también multiplicados por 3 para trabajar con da-
tos comparables. Obtener los ajustes y analizarlos.
El proceso es totalmente análogo al anterior, salvo que ahora multiplicaremos
por tres los datos de infectados del dataset para poder hacer una comparación final
del número de infectados de los diferentes conjuntos de datos. Una vez hecho esto,
ejecutamos la función SSlogis(data,b1,b2,b3) para los datos de Madrid, obteniendo
el siguiente resultado:
9
Métodos Avanzados de Estadı́stica Aplicada Igor Garcia Atutxa
Figura 6: Valores de los parámetros de la función logı́stica de tres parámetros
para los datos de infectados por la COVID-19 en Madrid multiplicados por 3.
Cogemos lo valores de los parámetros y los sustituimos en la ecuación del mode-
lo de regresión que previamente hemos utilizado. Obtenemos la siguiente expresión:
η(x) =
19190
1 + exp(53,23−x
7,737
)
(6)
Por último, visualizamos en la misma gráfica los datos de infectados de Madrid
multiplicados por 3 con la estimación de nuestro modelo.
0 20 40 60 80
0
50000
150000
Dias
Infectados
Figura 7: Datos muestrales (puntos) y estimación realizada mediante una función
logı́stica de tres parámetros (lı́nea continua). Datos empleados coronaMadrid.txt.
El modelo se ajusta razonablemente bien a los datos del fichero coronaMa-
drid.txt. Como se puede ver el ascenso de infectados por la COVID-19 comienza
un ritmo ascendente a partir del dı́a 20. Tras el dı́a 80 se observa que el número
10
Métodos Avanzados de Estadı́stica Aplicada Igor Garcia Atutxa
de infectados se estabiliza. A primera vista, un caso muy similar al de coronaEs-
paña.txt.
Siguiendo el mismo proceso para los datos de coronaChina.txt, tenemos los si-
guientes valores para los parámetros b1, b2 y b3.
Figura 8: Valores de los parámetros de la función logı́stica de tres parámetros
para los datos de infectados por la COVID-19 en China multiplicados por 3.
Con estas estimaciones nuestro modelo de regresión quedarı́a de la siguiente
forma:
η(x) =
24640
1 + exp(20,90−x
4,781
)
(7)
Conseguimos la siguiente gráfica para los datos de China:
0 20 40 60 80 100
0
100000
200000
Dias
Infectados
Figura 9: Datos muestrales (puntos) y estimación realizada mediante una función
logı́stica de tres parámetros (lı́nea continua). Datos empleados coronaChina.txt.
11
Métodos Avanzados de Estadı́stica Aplicada Igor Garcia Atutxa
Podemos ver que el aumento de infectados por COVID-19 en China sucede an-
tes que en Madrid y España. A partir del primer dı́a comienza la escalada de casos,
en cambio, en los dos casos anteriores comienza tres semanas después, aproxima-
damente. Después del dı́a 40 el número de infectados se estabiliza completamente,
sin sufrir casi modificaciones.
c) Representar las tres curvas Logı́sticas, obtenidas en los dos apar-
tados anteriores, en un solo gráfico. Comentar el gráfico.
En la siguiente gráfica se unifican todas las gráficas que hemos ido realizan-
do a lo largo de este ejercicio con el objeto de hacer una comparativa más detallada.
0 20 40 60 80 100
0
100000
200000
Dias
Infectados
CORONAVIRUS
China
España
Madrid
Figura 10: Comparativa de infectados de COVID-19 de los tres modelos realizados
con sus respectivos datos muestrales.
Se observa como el ascenso de infectados en China (dı́a 1) ocurrió más de tres
semanas antes que en Madrid y España (en torno al dı́a 30). La curva de ascenso
en el caso chino es mayor que en el de los otros dos casos y llega antes a un estan-
camiento de casos, 30 dı́as después del inicio del aumento. En el caso de España y
Madrid, el ascenso es menos pronunciado y se llega a un estancamiento de casos
en unos 50 dı́as desde el inicio del ascenso (del dı́a 30 al dı́a 80 aproximadamente).
Las gráficas de Madrid y España son similares entre ellas.
12
Métodos Avanzados de Estadı́stica Aplicada Igor Garcia Atutxa
4. Estimación clásica vs estimación robusta
Se desea estudiar el número de hembras de la mosca tropical ame-
ricana (Dermatobia hominis) en una determinada región. Dicha mosca
se caracteriza por poner sus huevos en un mosquito, pasando las larvas
de la mosca a la piel de la persona cuya sangre ha chupado el mosquito.
Examinada la región en cuestión en 10 dı́as elegidos al azar, se obtuvo
el siguiente número de moscas hembra de la citada especie: 2, 1, 3, 5,
7, 2, 1, 2, 3, 2. Se pide:
a) Determinar la estimación clásica y cuatro estimaciones robustas
del número medio de moscas hembra en la región en estudio. ¿Con qué
estimación concluirı́a?
Como estimador clásico del número medio de moscas utilizaremos la media
muestral:
x =
1
n
n
X
i=1
Xi (8)
Donde Xi es el número de moscas hembra encontradas en cada observación y n
la suma total de dı́as en los que se han realizado las observaciones. Ejecutando el
comando mean(x) de R obtenemos que el valor para este estimador es, x = 2,80.
Entre los estimadores robustos, seleccionamos los siguientes:
Media α-Winsorizada muestral. Obtenemos este estimador en Rmo
con la eje-
cución de la función win(x, α), donde hemos seleccionado α = 0,2. El valor
obtenido ha sido xW
α = 2,44. En las siguientes ecuaciones k es el número de
valores que se winsorizan por encima del lı́mite superior y del lı́mite inferior.
xW
α =
1
n

kX(k+1) + X(k+1) + ... + X(n−k) + kX(n−k)

(9)
Media α-recortada muestral. Ejecutamos la función mean(x, α) en Rmo
para
obtener este estimador, donde hemos seleccionado α = 0,2. El valor obtenido
ha sido xα = 2,33.
xα =
1
n − 2k
X(k+1) + ... + X(n−k)

(10)
Mediana muestral. Ejecutamos la función median(x) en Rmo
para obtener
este estimador. El valor obtenido ha sido Me = 2,00.
Me =
(
X([ n
2
]+1) = X(n+1
2 ), si n/2 no es entero
1
2
Xn
2
+ Xn
2
+1

, si n/2 es entero
(11)
Estimador de Huber. Obtenemos este estimador en Rmo
con la ejecución de
la función mest(x). El valor obtenido ha sido xW
α = 2,56.
13
Métodos Avanzados de Estadı́stica Aplicada Igor Garcia Atutxa
Tk+1
n = Tk
n +
NMAD · A
B
(12)
La presencia de valores anómalos como 5 o 7 hace que el estimador clásico no
sea adecuado. Entre los estimadores robustos el debate esta más abierto y no hay
una respuesta clara. Podrı́amos escoger el estimador de Huber, ya que nos aporta
una estimación de compromiso. Este estimador tiene un error de muestreo sólo algo
mayor que la media muestral, cuando la distribución modelo es normal, y mantie-
nen esos errores de muestreo casi inalterables aunque la distribución no sea normal.
b) Determinar también la estimación clásica y cuatro estimaciones
robustas de la desviación tı́pica del número de moscas hembra en la
citada región. ¿Con qué estimación concluirı́a?
Como estimador clásico de la desviación tı́pica utilizaremos la cuasidesviación
tı́pica muestral:
S =
v
u
u
t 1
n − 1
n
X
i=1
(Xi − x)2
(13)
Donde Xi es el número de moscas hembra encontradas en cada observación, x la
media muestral y n la suma total de dı́as en los que se han realizado observacio-
nes. Ejecutando el comando sqrt(var(x)) de Rmo
obtenemos que el valor para este
estimador es, x = 1,87.
En cuanto a los estimadores robustos, escogemos los siguientes:
Desviación absoluta mediana estandarizada. Obtenemos este estimador en
Rmo
con la ejecución de la función mad(x). El valor obtenido ha sido
NMAD = 1,48. Me representa la mediana muestral.
NMAD =
MAD
z0,25
= 1, 482602 · Mediana{|Xi − Me|}n
i=1 (14)
Cuasidesviación tı́pica α-Winsorizada muestral. Obtenemos este estimador
en Rmo
con la ejecución de la función sqrt(winvar(x,α)). El valor obtenido
ha sido SW = 0,516.
SW =
v
u
u
t 1
n − 1
n
X
i=1
Xi − xW
α
2
(15)
Raı́z de la Varianza media biponderada. Obtenemos este estimador en Rmo
con la ejecución de la función sqrt(bivar(x)). El valor obtenido ha sido
ˆ
ξbi = 1,59.
ˆ
ξ2
bi(x) =
(
x(1 − x2
)2
, si |x|  1
0, si |x| ≥ 1
(16)
14
Métodos Avanzados de Estadı́stica Aplicada Igor Garcia Atutxa
Raı́z de Varianza media de porcentaje ajustado. Obtenemos este estimador
en Rmo
con la ejecución de la función sqrt(pbvar(x)). El valor obtenido ha
sido ˆ
ξpa = 1,85.
ˆ
ξ2
pb(x) =





−1, si x  −1
x, si − 1 ≤ x ≤ 1
1, si x  1
(17)
La presencia de valores anómalos como 5 o 7 hace que el estimador clásico no
sea adecuado. Entre los estimadores robustos el debate esta más abierto y no hay
una respuesta clara. Podrı́amos escoger el estimador NMAD, ya que nos aporta
una estimación de compromiso. Este estimador tiene un error de muestreo sólo
algo mayor que la cuasidesviación tı́pica, cuando la distribución modelo es normal,
y mantienen esos errores de muestreo casi inalterables aunque la distribución no
sea normal.
15
Métodos Avanzados de Estadı́stica Aplicada Igor Garcia Atutxa
5. Análisis de la Varianza. Test de Welch y test
de Box
Se quiere averiguar si tres fertilizantes, A, B y C presentan
diferencias significativas en cuanto a sus efectos sobre el aumento de
la cosecha. Con este propósito se eligieron al azar 15 parcelas a las que
se fertilizó aleatoriamente con cada uno de los fertilizantes en cuestión.
Los aumentos de cosecha obtenidos fueron los siguientes:
Fertilizante Aumento de Cosecha
A 39 33 39 35 32
B 36 40 35 30 29
C 33 33 36 26 35
A la vista de los datos y recortando α = 0,1, ¿puede inferirse que
existen diferencias significativas entre los tres fertilizantes?
a) Utilizando la generalización robusta del test de Welch.
Estas dos pruebas se utilizan para comprobar si se cumple o no la hipótesis
nula de igualdad de las medias α-recortadas poblacionales independientes. Por lo
que nuestras dos hipótesis serán las siguientes:
H0. Todas las medias α-recortadas de las diferentes poblaciones en estudio
son iguales: µα,1 = µα,2 = µα,3 = ... = µα,r.
H1. No todas las medias α-recortadas son iguales. Es decir, al menos una de
las anteriores igualdades no se cumple.
El test de Welch generaliza al de Yuen. En Rmo
se puede obtener mediante el
comando t1way(x, α). Se ha escogido α = 0,1, obteniéndose el siguiente resultado:
Estadı́stico FW = 0,806.
Primer grado de libertad, ν1 = 2.
Segundo grado de libertad, ν2 = 7, 86.
p-valor del test, p − valor = 0,480. El cual es suficientemente grande como
para aceptar la hipótesis nula de igualdad de las tres medias 0.1-recortadas
de los fertilizantes.
b) Utilizando la generalización robusta del test de Box.
El test de Box se puede obtener en Rmo
ejecutando el comando box1way(x, α).
Se ha escogido para el valor de α = 0,1, obteniéndose el siguiente resultado:
Estadı́stico FW = 0,725.
16
Métodos Avanzados de Estadı́stica Aplicada Igor Garcia Atutxa
Primer grado de libertad, ν1 = 1,94.
Segundo grado de libertad, ν2 = 11, 3.
p-valor del test, p − valor = 0,501. El cual es suficientemente grande como
para aceptar la hipótesis nula de igualdad de las tres medias 0.1-recortadas
de los fertilizantes.
17
Métodos Avanzados de Estadı́stica Aplicada Igor Garcia Atutxa
6. Regresión robusta
Se cree que la duración del revestimiento de un estanque depende de
la cantidad de cal hidráulica que contiene. Para analizar esta relación
se midió, en siete revestimientos, el tiempo, Y, hasta la aparición
de filtraciones, teniendo cada unos de los revestimientos diferentes
porcentajes de cal hidráulica, X. Los resultados obtenidos fueron los
siguientes:
X 4 10 80 45 25 60 90
Y 12 26 180 132 100 200 230
Se pide:
a) La recta de M-regresión óptima.
Esta recta de regresión la obtenemos mediante el comando bmreg(x,y) de Rmo
.
En la siguiente gráfica mostramos los datos del enunciado, la regresión lineal clási-
ca y la recta de M-regresión optima.
Figura 11: Datos muestrales (puntos negros), recta de regresión lineal simple (lı́nea
discontinua roja) y recta de M-regresión óptima (lı́nea continua azul).
18
Métodos Avanzados de Estadı́stica Aplicada Igor Garcia Atutxa
b) La recta de regresión media biponderada.
El comando a utilizar en Rmo
en este caso es bireg(x,y,bend=1,28). En la si-
guiente gráfica mostramos los datos del enunciado, la regresión lineal clásica y la
recta de regresión media biponderada.
Figura 12: Datos muestrales (puntos negros), recta de regresión lineal simple (lı́nea
discontinua roja) y recta de regresión media biponderada (lı́nea continua verde).
c) La recta de regresión winsorizada.
Para finalizar usamos el comando winreg(x,y,tr=0,1) en Rmo
para el caso de la
regresión winsorizada. En la siguiente gráfica mostramos los datos del enunciado,
la regresión lineal clásica y la recta de regresión media biponderada.
19
Métodos Avanzados de Estadı́stica Aplicada Igor Garcia Atutxa
Figura 13: Datos muestrales (puntos negros), recta de regresión lineal simple (lı́nea
discontinua roja) y recta de regresión winsorizada (lı́nea continua verde).
20
Métodos Avanzados de Estadı́stica Aplicada Igor Garcia Atutxa
Referencias
[1] Garcı́a Pérez, A. (2005). Métodos avanzados de estadı́stica aplicada.
Técnicas avanzadas. Editorial UNED. (Código 0186080EP02A01).
[2] Garcı́a Pérez, A. (2005). Métodos avanzados de estadı́stica aplicada. Méto-
dos robustos y de remuestreo. Editorial UNED. (Código 0186080EP03A01).
[3] Garcı́a Pérez, A. (2008). Estadı́stica aplicada: Conceptos básicos. Editorial
UNED. (Código 0184011EP01A02).
21

Más contenido relacionado

Similar a Métodos avanzados de Estadística Aplicada

Pruebas de bondad de ajuste
Pruebas de bondad de ajustePruebas de bondad de ajuste
Pruebas de bondad de ajuste
Carlos Becerra
 
Prueba de independencia
Prueba de independenciaPrueba de independencia
Prueba de independencia
Mey Kaplin
 
Deber chi cuadrado
Deber chi cuadradoDeber chi cuadrado
Deber chi cuadrado
TATHYYYYY
 
Analisis de la_varianza_
Analisis de la_varianza_Analisis de la_varianza_
Analisis de la_varianza_
J M
 
Tabla de contingencia
Tabla de contingenciaTabla de contingencia
Tabla de contingencia
Jordan EJ
 

Similar a Métodos avanzados de Estadística Aplicada (20)

Pruebas de bondad de ajuste
Pruebas de bondad de ajustePruebas de bondad de ajuste
Pruebas de bondad de ajuste
 
Coef Contingencia
Coef ContingenciaCoef Contingencia
Coef Contingencia
 
Cadenas de markov 1
Cadenas de markov 1Cadenas de markov 1
Cadenas de markov 1
 
Seminario 8
Seminario 8Seminario 8
Seminario 8
 
analisis de conglomerados prctica en spss
analisis de conglomerados prctica en spssanalisis de conglomerados prctica en spss
analisis de conglomerados prctica en spss
 
Chi2
Chi2Chi2
Chi2
 
SesióN 2
SesióN 2SesióN 2
SesióN 2
 
Resumen evaluacion grade de un eca, ej pr oactive
Resumen evaluacion grade de un eca, ej  pr oactiveResumen evaluacion grade de un eca, ej  pr oactive
Resumen evaluacion grade de un eca, ej pr oactive
 
Prueba de independencia
Prueba de independenciaPrueba de independencia
Prueba de independencia
 
Deber chi cuadrado
Deber chi cuadradoDeber chi cuadrado
Deber chi cuadrado
 
Modelos discretos en una dimensión
Modelos discretos en una dimensiónModelos discretos en una dimensión
Modelos discretos en una dimensión
 
Seminario 6
Seminario 6Seminario 6
Seminario 6
 
Analisis de la_varianza_
Analisis de la_varianza_Analisis de la_varianza_
Analisis de la_varianza_
 
Tarea chi cuadrado
Tarea chi cuadradoTarea chi cuadrado
Tarea chi cuadrado
 
Recurso 2.3 c de contingencia
Recurso 2.3 c de contingenciaRecurso 2.3 c de contingencia
Recurso 2.3 c de contingencia
 
Chi cuadrado (2) y t de Student
Chi cuadrado (2) y t de StudentChi cuadrado (2) y t de Student
Chi cuadrado (2) y t de Student
 
Deber chi cuadrado
Deber chi cuadradoDeber chi cuadrado
Deber chi cuadrado
 
EIIb-Sistemas Hiperestáticos.pdf
EIIb-Sistemas Hiperestáticos.pdfEIIb-Sistemas Hiperestáticos.pdf
EIIb-Sistemas Hiperestáticos.pdf
 
Seminario 5 de ETICS
Seminario 5 de ETICSSeminario 5 de ETICS
Seminario 5 de ETICS
 
Tabla de contingencia
Tabla de contingenciaTabla de contingencia
Tabla de contingencia
 

Más de Igor García Atutxa

Más de Igor García Atutxa (14)

Impuesto sobre la Renta de las Personas Físicas (ejercicio resuelto)
 Impuesto sobre la Renta de las Personas Físicas (ejercicio resuelto) Impuesto sobre la Renta de las Personas Físicas (ejercicio resuelto)
Impuesto sobre la Renta de las Personas Físicas (ejercicio resuelto)
 
Biología Estructural PEC4
Biología Estructural PEC4Biología Estructural PEC4
Biología Estructural PEC4
 
Biología Estructural PEC3
Biología Estructural PEC3Biología Estructural PEC3
Biología Estructural PEC3
 
Trabajo Fin de Master Modelizacion, Estadistica y Computación. Técnicas de de...
Trabajo Fin de Master Modelizacion, Estadistica y Computación. Técnicas de de...Trabajo Fin de Master Modelizacion, Estadistica y Computación. Técnicas de de...
Trabajo Fin de Master Modelizacion, Estadistica y Computación. Técnicas de de...
 
Trabajo Fin de Grado Ingeniería Electrónica. Aspectos históricos y técnicos d...
Trabajo Fin de Grado Ingeniería Electrónica. Aspectos históricos y técnicos d...Trabajo Fin de Grado Ingeniería Electrónica. Aspectos históricos y técnicos d...
Trabajo Fin de Grado Ingeniería Electrónica. Aspectos históricos y técnicos d...
 
Biología Estructural PEC2
Biología Estructural PEC2Biología Estructural PEC2
Biología Estructural PEC2
 
Biología Estructural PEC1
Biología Estructural PEC1 Biología Estructural PEC1
Biología Estructural PEC1
 
Aspectos históricos y técnicos del RADAR
Aspectos históricos y técnicos del RADARAspectos históricos y técnicos del RADAR
Aspectos históricos y técnicos del RADAR
 
El principio de Huygens-Fresnel y el premio de la Academia de Ciencias de Par...
El principio de Huygens-Fresnel y el premio de la Academia de Ciencias de Par...El principio de Huygens-Fresnel y el premio de la Academia de Ciencias de Par...
El principio de Huygens-Fresnel y el premio de la Academia de Ciencias de Par...
 
Codificación y Criptografía
Codificación y CriptografíaCodificación y Criptografía
Codificación y Criptografía
 
Ecuaciones en Derivadas Parciales
Ecuaciones en Derivadas ParcialesEcuaciones en Derivadas Parciales
Ecuaciones en Derivadas Parciales
 
Contabilidad empresas (ejercicio resuelto)
Contabilidad empresas (ejercicio resuelto)Contabilidad empresas (ejercicio resuelto)
Contabilidad empresas (ejercicio resuelto)
 
La ley de Moore
La ley de MooreLa ley de Moore
La ley de Moore
 
Teoría de difracción de Fresnel
Teoría de difracción de FresnelTeoría de difracción de Fresnel
Teoría de difracción de Fresnel
 

Último

METODOLOGÍA 5S - PRESENTACION DE INICIO DEL PROYECTO
METODOLOGÍA 5S - PRESENTACION DE INICIO DEL PROYECTOMETODOLOGÍA 5S - PRESENTACION DE INICIO DEL PROYECTO
METODOLOGÍA 5S - PRESENTACION DE INICIO DEL PROYECTO
JoselynGoeTmara
 
La Inteligencia Artificial -AnaliticayDatos-BeatrizGarcia-Abril2024-D.pdf
La Inteligencia Artificial -AnaliticayDatos-BeatrizGarcia-Abril2024-D.pdfLa Inteligencia Artificial -AnaliticayDatos-BeatrizGarcia-Abril2024-D.pdf
La Inteligencia Artificial -AnaliticayDatos-BeatrizGarcia-Abril2024-D.pdf
analiticaydatos
 
2. POLITICAS Y LEGISLACION EDUCATIVA.pptx
2. POLITICAS Y LEGISLACION EDUCATIVA.pptx2. POLITICAS Y LEGISLACION EDUCATIVA.pptx
2. POLITICAS Y LEGISLACION EDUCATIVA.pptx
camilasto28
 
REPORTE DE HOMICIDIO DOLOSO IRAPUATO ABRIL 2024
REPORTE DE HOMICIDIO DOLOSO IRAPUATO ABRIL 2024REPORTE DE HOMICIDIO DOLOSO IRAPUATO ABRIL 2024
REPORTE DE HOMICIDIO DOLOSO IRAPUATO ABRIL 2024
IrapuatoCmovamos
 
Anclaje Grupo 5..pptx de todo tipo de anclaje
Anclaje Grupo 5..pptx de todo tipo de anclajeAnclaje Grupo 5..pptx de todo tipo de anclaje
Anclaje Grupo 5..pptx de todo tipo de anclaje
klebersky23
 
Proyectos de investigacion en ciencias sociales 6to - maipue (2).pdf
Proyectos de investigacion en ciencias sociales 6to - maipue (2).pdfProyectos de investigacion en ciencias sociales 6to - maipue (2).pdf
Proyectos de investigacion en ciencias sociales 6to - maipue (2).pdf
nicolas24233
 
Reporte de incidencia delictiva Silao marzo 2024
Reporte de incidencia delictiva Silao marzo 2024Reporte de incidencia delictiva Silao marzo 2024
Reporte de incidencia delictiva Silao marzo 2024
OBSERVATORIOREGIONAL
 
Reporte de incidencia delictiva de Romita marzo 2024
Reporte de incidencia delictiva de Romita marzo 2024Reporte de incidencia delictiva de Romita marzo 2024
Reporte de incidencia delictiva de Romita marzo 2024
OBSERVATORIOREGIONAL
 

Último (17)

5558423-peru-evolucion-de-la-pobreza-monetaria-2014-2023(2).pdf
5558423-peru-evolucion-de-la-pobreza-monetaria-2014-2023(2).pdf5558423-peru-evolucion-de-la-pobreza-monetaria-2014-2023(2).pdf
5558423-peru-evolucion-de-la-pobreza-monetaria-2014-2023(2).pdf
 
METODOLOGÍA 5S - PRESENTACION DE INICIO DEL PROYECTO
METODOLOGÍA 5S - PRESENTACION DE INICIO DEL PROYECTOMETODOLOGÍA 5S - PRESENTACION DE INICIO DEL PROYECTO
METODOLOGÍA 5S - PRESENTACION DE INICIO DEL PROYECTO
 
Mapa concepto sobre la contabilidad de costos
Mapa concepto sobre la contabilidad de costosMapa concepto sobre la contabilidad de costos
Mapa concepto sobre la contabilidad de costos
 
Crecimiento del PIB real revisado sexenios neoliberales y nueva era del sober...
Crecimiento del PIB real revisado sexenios neoliberales y nueva era del sober...Crecimiento del PIB real revisado sexenios neoliberales y nueva era del sober...
Crecimiento del PIB real revisado sexenios neoliberales y nueva era del sober...
 
La Inteligencia Artificial -AnaliticayDatos-BeatrizGarcia-Abril2024-D.pdf
La Inteligencia Artificial -AnaliticayDatos-BeatrizGarcia-Abril2024-D.pdfLa Inteligencia Artificial -AnaliticayDatos-BeatrizGarcia-Abril2024-D.pdf
La Inteligencia Artificial -AnaliticayDatos-BeatrizGarcia-Abril2024-D.pdf
 
2. POLITICAS Y LEGISLACION EDUCATIVA.pptx
2. POLITICAS Y LEGISLACION EDUCATIVA.pptx2. POLITICAS Y LEGISLACION EDUCATIVA.pptx
2. POLITICAS Y LEGISLACION EDUCATIVA.pptx
 
4° UNIDAD DE APRENDIZAJE 2 MAYO 2024.docx
4°  UNIDAD DE APRENDIZAJE 2 MAYO  2024.docx4°  UNIDAD DE APRENDIZAJE 2 MAYO  2024.docx
4° UNIDAD DE APRENDIZAJE 2 MAYO 2024.docx
 
REPORTE DE HOMICIDIO DOLOSO IRAPUATO ABRIL 2024
REPORTE DE HOMICIDIO DOLOSO IRAPUATO ABRIL 2024REPORTE DE HOMICIDIO DOLOSO IRAPUATO ABRIL 2024
REPORTE DE HOMICIDIO DOLOSO IRAPUATO ABRIL 2024
 
Pineda - Metodologia de la investigacion manual para el desarrollo de persona...
Pineda - Metodologia de la investigacion manual para el desarrollo de persona...Pineda - Metodologia de la investigacion manual para el desarrollo de persona...
Pineda - Metodologia de la investigacion manual para el desarrollo de persona...
 
Anclaje Grupo 5..pptx de todo tipo de anclaje
Anclaje Grupo 5..pptx de todo tipo de anclajeAnclaje Grupo 5..pptx de todo tipo de anclaje
Anclaje Grupo 5..pptx de todo tipo de anclaje
 
Proyectos de investigacion en ciencias sociales 6to - maipue (2).pdf
Proyectos de investigacion en ciencias sociales 6to - maipue (2).pdfProyectos de investigacion en ciencias sociales 6to - maipue (2).pdf
Proyectos de investigacion en ciencias sociales 6to - maipue (2).pdf
 
REGISTRO CONTABLE DE CONTABILIDAD 2022..
REGISTRO CONTABLE DE CONTABILIDAD 2022..REGISTRO CONTABLE DE CONTABILIDAD 2022..
REGISTRO CONTABLE DE CONTABILIDAD 2022..
 
PRESENTACION SOBRE LA HOJA DE CALCULO ⠀⠀
PRESENTACION SOBRE LA HOJA DE CALCULO ⠀⠀PRESENTACION SOBRE LA HOJA DE CALCULO ⠀⠀
PRESENTACION SOBRE LA HOJA DE CALCULO ⠀⠀
 
Problemas de programación lineal entera.pptx
Problemas de programación lineal entera.pptxProblemas de programación lineal entera.pptx
Problemas de programación lineal entera.pptx
 
Reporte de incidencia delictiva Silao marzo 2024
Reporte de incidencia delictiva Silao marzo 2024Reporte de incidencia delictiva Silao marzo 2024
Reporte de incidencia delictiva Silao marzo 2024
 
Reporte de incidencia delictiva de Romita marzo 2024
Reporte de incidencia delictiva de Romita marzo 2024Reporte de incidencia delictiva de Romita marzo 2024
Reporte de incidencia delictiva de Romita marzo 2024
 
Asignatura-Optativa-Sociologia-CS-3BGU.pdf
Asignatura-Optativa-Sociologia-CS-3BGU.pdfAsignatura-Optativa-Sociologia-CS-3BGU.pdf
Asignatura-Optativa-Sociologia-CS-3BGU.pdf
 

Métodos avanzados de Estadística Aplicada

  • 1. Diploma de Experto Universitario 2020/2021 Trabajo Final Métodos Avanzados de Estadı́stica Aplicada Igor Garcı́a Atutxa
  • 2. Índice 1. Análisis de Correspondencias 2 2. Regresión Logı́stica 4 3. Regresión no Lineal. Ajuste a una función Logı́stica de tres parámetros. 8 4. Estimación clásica vs estimación robusta 13 5. Análisis de la Varianza. Test de Welch y test de Box 16 6. Regresión robusta 18 Referencias 21 1
  • 3. Métodos Avanzados de Estadı́stica Aplicada Igor Garcia Atutxa 1. Análisis de Correspondencias Los datos de la siguiente tabla de contingencia (Goldberg, 1972) recogen las frecuencias absolutas de personas elegidas al azar de tres grupos (Normales, Enfermedad psiquiátrica leve, Enfermedad psiquiátrica grave) que respondieron a la pregunta: ¿Ha pensado recientemente en la idea de suicidarse? No Casi nunca Alguna vez Sı́ Normales 90 5 3 1 E.P. Leve 43 18 21 15 E.P. Grave 34 8 21 36 Analizar si puede aceptarse la independencia entre estas dos varia- bles que forman la tabla de contingencia, es decir, la que forma las filas y la que forma las columnas. Si se rechaza la independencia entre ambas variables, realizar un Análisis de Correspondencias. Nota. Para la resolución de este y los demás ejercicios de este trabajo se utili- zará el software R y el entorno de desarrollo Rstudio. El código que se ha ejecutado para la realización de los mismos se presenta en el fichero EstadisticaAvanzadaE- valuacion.R. En este ejercicio tenemos una tabla de doble entrada. La primera de ellas hace referencia al número de personas que han tenido la idea de suicidarse y la segunda al estado mental de los encuestados. Inicialmente, el ejercicio nos propone que analicemos si podemos o no tomar como independientes estas dos variables. Para llevar a cabo esta tarea realizaremos el test chi-cuadrado (χ2 ). En él, se contrastará la hipótesis nula de independencia de las variables frente a la hipótesis alternativa de dependencia de las variables. Es decir, se contrastarán las siguientes hipótesis: H0. Los pensamientos suicidas y el estado mental de los encuestados son independientes. H1. Los pensamientos suicidas y el estado mental de los encuestados son dependientes. En R esta prueba se realiza mediante el comando chisq.test(tabla, correct = FALSE). El resultado que se obtiene para el p-valor es 1,663815e − 17, un valor muy próximo a cero por lo que rechazamos la hipótesis nula de independencia de las dos variables en estudio. Una vez rechazada la independencia, el segundo apartado nos pide que realicemos un análisis de correspondencias en tal caso. Para esto, utilizamos el comando de R ca(tabla) de la librerı́a ca. Los resultados obtenidos se presentan en la Figura 1. 2
  • 4. Métodos Avanzados de Estadı́stica Aplicada Igor Garcia Atutxa Dimension 1 (85.5%) Dimension 2 (14.5%) −0.5 0.0 0.5 −0.4 −0.2 0.0 0.2 Normales E.P.Leve E.P.Grave No Casi nunca Alguna vez Si Figura 1: Análisis de correspondencias. Relación entre trastornos psiquiátricos y pensamientos suicidas. Como se puede ver, el tener alguna enfermedad psiquiátrica grave está vincu- lada con que esas personas tengan pensamientos suicidas. En el caso de enfermos psiquiátricos leves, se deduce que puedan tener pensamientos suicidas esporádica- mente. Para finalizar, observamos que las personas que no han tenido pensamientos suicidas están relacionadas con las personas que no tienen ninguna enfermedad psi- quiátrica. 3
  • 5. Métodos Avanzados de Estadı́stica Aplicada Igor Garcia Atutxa 2. Regresión Logı́stica Los datos titanic.txt (o titanic.sav) del apartado Documentos del Curso Virtual, corresponden a datos de 891 pasajeros que iban en el famoso transatlántico Titanic que naufragó en el atlántico norte. En estos datos aparecen valores de 12 variables pero sólo hemos in- cluido en el fichero datos de 6 variables (además de una primera columna de identificación): la de respuesta dependiente Survived, que toma sólo dos valores (1 si el pasajero sobrevivió y 0 si no sobrevivió) y 5 supues- tas covariables regresoras, Pclass, clase en la que viajaba el pasajero. Sex, sexo del pasajero. Age, edad del pasajero. SibSp, número de her- manos, hermanastros o espos@ a bordo. Parch, número de padres, hijos o hijastros a bordo. Se pide: a) Analizar mediante una Regresión Logı́stica que covariables son significativas para predecir la probabilidad p de supervivencia. La Regresión Logı́stica es un modelo lineal generalizado (GLM) cuya expresión es la siguiente: log p 1 − p = β0 + β1X1 + β2X2 + β3X3 + ... + βnXn (1) En la expresión anterior, las X son las variables independientes, las β son los coefi- cientes de regresión correspondientes a cada una de esas variables independientes y p es la variable dependiente dicotómica (dos posibles valores, éxito (p=1) o fra- caso (p=0)). Si despejamos la variable dependiente p, la cual es nuestro objetivo estimar, obtenemos la siguiente expresión: p = eβ0+β1X1+β2X2+...+βnXn 1 + eβ0+β1X1+β2X2+...+βnXn (2) Para realizar una Regresión Logı́stica en R, en el caso que nos ocupa, ejecutamos el siguiente comando: glm(Survived ← SibSp + factor(Sex) + factor(Pclass) + Parch + Age, family = binomial(logit), data = tablatitanic). La variable dependiente sobre la que después haremos predicciones es dicotómica. Las variables independientes pueden ser cuantitativas o categóricas. Como el sexo y la clase en la que viajaban los pasajeros son variables categóricas, debemos indicarlo en la instrucción añadiendo factor() delante de cada una de estas variables. Con la sentencia summary obtendremos la información más destacable de la regresión realizada. 4
  • 6. Métodos Avanzados de Estadı́stica Aplicada Igor Garcia Atutxa Figura 2: Resumen de la Regresión Logı́stica ejecutada para los datos del fichero titanic.txt. Una vez tenemos estos datos, podemos elegir razonadamente que variables son significativas para estimar la probabilidad de supervivencia de los pasajeros del Titanic. Para ello, vamos dentro del apartado de Coefficients (Figura 2) a la última columna, donde se encuentra el p-valor (columna Pr( |z|)). Este valor nos indica el resultado del siguiente contraste de hipótesis: H0. El coeficiente de regresión correspondiente a la variable independiente es 0. H1. El coeficiente de regresión correspondiente a la variable independiente NO es 0. Por lo tanto, para nuestras variables independientes, salvo Parch, rechazamos la hipótesis nula y aceptamos la hipótesis alternativa. Es decir, Parch es la única variable no significativa para la estimación de supervivencia en el Titanic. b) Determinar la estimación de p en función de las covariables que resulten significativas. En este apartado, volvemos a hacer otra regresión pero eliminando la variable no significativa Parch. Por lo que la sentencia que ejecutaremos en R será la siguiente: glm(Survived ← SibSp+factor(Sex)+factor(Pclass)+Age, family = binomial(logit), data = tablatitanic). 5
  • 7. Métodos Avanzados de Estadı́stica Aplicada Igor Garcia Atutxa Figura 3: Resumen de la Regresión Logı́stica ejecutada para los datos del fichero titanic.txt, después de eliminar la variable independiente no significativa Parch. Si nos fijamos en la última columna de la Figura 3, vemos como los p-valor son todos muy próximos a cero. Esto corrobora que todas las variables actuales son significativas (la menos significativa serı́a SibSp). Podemos visualizar que dos filas hacen referencia a Pclass, esto se debe a que es una variable categórica. En el caso de este tipo de variables, se crearán en el modelo tantas nuevas variables como posibles categorı́as tenga esa variable menos uno. Como consecuencia, X2 que es la variable vinculada al sexo será 0 si es una mujer y 1 si hablamos de un hombre. En el caso de la clase de pasaje que está relacionado con las variables X3 y X4, tenemos que X3 = 0 y X4 = 0 si es clase 1, X3 = 1 y X4 = 0 si es clase 2 y X3 = 0 y X4 = 1 si es clase 3. En cuanto al resto de variables, X1 hace referencia al número de familiares del pasajero (SibSp) y X5 a la edad del pasajero (Age). La estimación de los coeficientes de regresión de cada una de esas variables viene dado por la columna Estimated, dentro del apartado Coefficients. Es decir, tene- mos un total de 5 variables independientes (n=5), cuyos valores son: β0 = 4,3342; β1 = −0,3802; β2 = −2,6277; β3 = −1,4144; β4 = −2,6526 y β5 = −0,0448. Introduciendo estos valores en nuestro modelo inicial de regresión obtenemos la siguiente expresión: p = e(4,3342−0,3802X1−2,6277X2−1,4144X3−2,6526X4−0,0448X5) 1 + e(4,3342−0,3802X1−2,6277X2−1,4144X3−2,6526X4−0,0448X5) (3) c) ¿Qué probabilidad de sobrevivir tenı́a un varón de primera clase de 30 años sin parientes a bordo?¿y una mujer de tercera clase, con 40 años y con esposo a bordo? 6
  • 8. Métodos Avanzados de Estadı́stica Aplicada Igor Garcia Atutxa Para la primera de las cuestiones sustituimos en la ecuación 3 los siguientes valores de los coeficientes: X1 = 0; X2 = 1; X3 = 0; X4 = 0 y X5 = 30. Obtenemos que p = 0,5896, donde p es la probabilidad de sobrevivir. Para la segunda de las cuestiones sustituimos en la ecuación 3 los siguientes valores de los coeficientes: X1 = 1; X2 = 0; X3 = 0; X4 = 1 y X5 = 40. En este caso tenemos que p = 0,3798. 7
  • 9. Métodos Avanzados de Estadı́stica Aplicada Igor Garcia Atutxa 3. Regresión no Lineal. Ajuste a una función Logı́stica de tres parámetros. a) Los datos coronaEspaña.txt del Curso Virtual, corresponden a datos acumulados de infectados por coronavirus COVID-19 en España, desde principios de febrero hasta mediados de mayo, recogidos del De- partamento de Seguridad Nacional, en donde hay una acumulación a la baja debido al cambio de sistema de recuento del gobierno el 30 de abril. Se desea realizar una Regresión no Lineal, ajustando una función tipo Logı́stica de tres parámetros. Obtener el ajuste y analizarlo. Primero cargamos y representamos en R los datos del fichero mencionado. Co- mo podemos ver en la Figura 5, donde están representados por puntos, los datos no siguen un lı́nea recta sino que más bien forman una especie de S. Por este motivo, una regresión lineal no serı́a un buen modelo para nuestros datos y fijamos nuestra mirada en una función Logı́stica de tres parámetros, que es la que nos sugiere el enunciado. Esta función de regresión no lineal (ecuación 4) ya viene implementada en R, corresponde al comando SSlogis(data,b1,b2,b3). η(x, θ) = b1 1 + exp(b2−x b3 ) (4) Introducimos los datos de infectados para cada uno de los diferentes dı́as dentro del parámetro data y ejecutamos SSlogis(data,b1,b2,b3). Al igual que en ejercicios previos con la sentencia summary obtenemos una serie de información de la regresión, entre ella, la estimación de los tres parámetros b1, b2 y b3. Figura 4: Valores de los parámetros de la función logı́stica de tres parámetros para los datos de infectados por la COVID-19 en España. Una vez se han estimado los valores de lo parámetros del modelo obtenemos la función para nuestro caso particular, a partir de la ecuación 4: η(x) = 22640 1 + exp(53,52−x 7,233 ) (5) 8
  • 10. Métodos Avanzados de Estadı́stica Aplicada Igor Garcia Atutxa Finalmente, realizamos la gráfica de esta última función (lı́nea continua) junto con los datos de la muestra del fichero coronaEspaña.txt. Para hacer la gráfica de la función hemos seleccionado un total de 100 puntos en R. 0 20 40 60 80 0 50000 150000 Dias Infectados Figura 5: Datos muestrales (puntos) y estimación realizada mediante una función logı́stica de tres parámetros (lı́nea continua). Datos empleados coronaEspaña.txt. Podemos ver como la función parametrizada seleccionada se ajusta conside- rablemente bien a los datos. Hay alguna pequeña diferencia en torno al dı́a 80, cuando el número de infectados está ligeramente por encima de la estimación del modelo generado. En término generales, se puede ver que el ascenso de infectados por la COVID-19 comienza un ritmo ascendente a partir del dı́a 20. Tras el dı́a 80 se observa que el número de infectados se estabiliza. b) Los datos coronaMadrid.txtdel Curso Virtual, corresponden al mismo recuento pero sólo de la Comunidad de Madrid, tomados de la misma fuente. Por último, los datos coronaChina.txt corresponden a China tomados de la Universidad John Hopkins. Se pide también hacer un ajuste de una Regresión no Lineal ajustando una función de tipo Logı́stica de tres parámetros, de los datos de Madrid multiplicados por 3 y de los de China, también multiplicados por 3 para trabajar con da- tos comparables. Obtener los ajustes y analizarlos. El proceso es totalmente análogo al anterior, salvo que ahora multiplicaremos por tres los datos de infectados del dataset para poder hacer una comparación final del número de infectados de los diferentes conjuntos de datos. Una vez hecho esto, ejecutamos la función SSlogis(data,b1,b2,b3) para los datos de Madrid, obteniendo el siguiente resultado: 9
  • 11. Métodos Avanzados de Estadı́stica Aplicada Igor Garcia Atutxa Figura 6: Valores de los parámetros de la función logı́stica de tres parámetros para los datos de infectados por la COVID-19 en Madrid multiplicados por 3. Cogemos lo valores de los parámetros y los sustituimos en la ecuación del mode- lo de regresión que previamente hemos utilizado. Obtenemos la siguiente expresión: η(x) = 19190 1 + exp(53,23−x 7,737 ) (6) Por último, visualizamos en la misma gráfica los datos de infectados de Madrid multiplicados por 3 con la estimación de nuestro modelo. 0 20 40 60 80 0 50000 150000 Dias Infectados Figura 7: Datos muestrales (puntos) y estimación realizada mediante una función logı́stica de tres parámetros (lı́nea continua). Datos empleados coronaMadrid.txt. El modelo se ajusta razonablemente bien a los datos del fichero coronaMa- drid.txt. Como se puede ver el ascenso de infectados por la COVID-19 comienza un ritmo ascendente a partir del dı́a 20. Tras el dı́a 80 se observa que el número 10
  • 12. Métodos Avanzados de Estadı́stica Aplicada Igor Garcia Atutxa de infectados se estabiliza. A primera vista, un caso muy similar al de coronaEs- paña.txt. Siguiendo el mismo proceso para los datos de coronaChina.txt, tenemos los si- guientes valores para los parámetros b1, b2 y b3. Figura 8: Valores de los parámetros de la función logı́stica de tres parámetros para los datos de infectados por la COVID-19 en China multiplicados por 3. Con estas estimaciones nuestro modelo de regresión quedarı́a de la siguiente forma: η(x) = 24640 1 + exp(20,90−x 4,781 ) (7) Conseguimos la siguiente gráfica para los datos de China: 0 20 40 60 80 100 0 100000 200000 Dias Infectados Figura 9: Datos muestrales (puntos) y estimación realizada mediante una función logı́stica de tres parámetros (lı́nea continua). Datos empleados coronaChina.txt. 11
  • 13. Métodos Avanzados de Estadı́stica Aplicada Igor Garcia Atutxa Podemos ver que el aumento de infectados por COVID-19 en China sucede an- tes que en Madrid y España. A partir del primer dı́a comienza la escalada de casos, en cambio, en los dos casos anteriores comienza tres semanas después, aproxima- damente. Después del dı́a 40 el número de infectados se estabiliza completamente, sin sufrir casi modificaciones. c) Representar las tres curvas Logı́sticas, obtenidas en los dos apar- tados anteriores, en un solo gráfico. Comentar el gráfico. En la siguiente gráfica se unifican todas las gráficas que hemos ido realizan- do a lo largo de este ejercicio con el objeto de hacer una comparativa más detallada. 0 20 40 60 80 100 0 100000 200000 Dias Infectados CORONAVIRUS China España Madrid Figura 10: Comparativa de infectados de COVID-19 de los tres modelos realizados con sus respectivos datos muestrales. Se observa como el ascenso de infectados en China (dı́a 1) ocurrió más de tres semanas antes que en Madrid y España (en torno al dı́a 30). La curva de ascenso en el caso chino es mayor que en el de los otros dos casos y llega antes a un estan- camiento de casos, 30 dı́as después del inicio del aumento. En el caso de España y Madrid, el ascenso es menos pronunciado y se llega a un estancamiento de casos en unos 50 dı́as desde el inicio del ascenso (del dı́a 30 al dı́a 80 aproximadamente). Las gráficas de Madrid y España son similares entre ellas. 12
  • 14. Métodos Avanzados de Estadı́stica Aplicada Igor Garcia Atutxa 4. Estimación clásica vs estimación robusta Se desea estudiar el número de hembras de la mosca tropical ame- ricana (Dermatobia hominis) en una determinada región. Dicha mosca se caracteriza por poner sus huevos en un mosquito, pasando las larvas de la mosca a la piel de la persona cuya sangre ha chupado el mosquito. Examinada la región en cuestión en 10 dı́as elegidos al azar, se obtuvo el siguiente número de moscas hembra de la citada especie: 2, 1, 3, 5, 7, 2, 1, 2, 3, 2. Se pide: a) Determinar la estimación clásica y cuatro estimaciones robustas del número medio de moscas hembra en la región en estudio. ¿Con qué estimación concluirı́a? Como estimador clásico del número medio de moscas utilizaremos la media muestral: x = 1 n n X i=1 Xi (8) Donde Xi es el número de moscas hembra encontradas en cada observación y n la suma total de dı́as en los que se han realizado las observaciones. Ejecutando el comando mean(x) de R obtenemos que el valor para este estimador es, x = 2,80. Entre los estimadores robustos, seleccionamos los siguientes: Media α-Winsorizada muestral. Obtenemos este estimador en Rmo con la eje- cución de la función win(x, α), donde hemos seleccionado α = 0,2. El valor obtenido ha sido xW α = 2,44. En las siguientes ecuaciones k es el número de valores que se winsorizan por encima del lı́mite superior y del lı́mite inferior. xW α = 1 n kX(k+1) + X(k+1) + ... + X(n−k) + kX(n−k) (9) Media α-recortada muestral. Ejecutamos la función mean(x, α) en Rmo para obtener este estimador, donde hemos seleccionado α = 0,2. El valor obtenido ha sido xα = 2,33. xα = 1 n − 2k X(k+1) + ... + X(n−k) (10) Mediana muestral. Ejecutamos la función median(x) en Rmo para obtener este estimador. El valor obtenido ha sido Me = 2,00. Me = ( X([ n 2 ]+1) = X(n+1 2 ), si n/2 no es entero 1 2 Xn 2 + Xn 2 +1 , si n/2 es entero (11) Estimador de Huber. Obtenemos este estimador en Rmo con la ejecución de la función mest(x). El valor obtenido ha sido xW α = 2,56. 13
  • 15. Métodos Avanzados de Estadı́stica Aplicada Igor Garcia Atutxa Tk+1 n = Tk n + NMAD · A B (12) La presencia de valores anómalos como 5 o 7 hace que el estimador clásico no sea adecuado. Entre los estimadores robustos el debate esta más abierto y no hay una respuesta clara. Podrı́amos escoger el estimador de Huber, ya que nos aporta una estimación de compromiso. Este estimador tiene un error de muestreo sólo algo mayor que la media muestral, cuando la distribución modelo es normal, y mantie- nen esos errores de muestreo casi inalterables aunque la distribución no sea normal. b) Determinar también la estimación clásica y cuatro estimaciones robustas de la desviación tı́pica del número de moscas hembra en la citada región. ¿Con qué estimación concluirı́a? Como estimador clásico de la desviación tı́pica utilizaremos la cuasidesviación tı́pica muestral: S = v u u t 1 n − 1 n X i=1 (Xi − x)2 (13) Donde Xi es el número de moscas hembra encontradas en cada observación, x la media muestral y n la suma total de dı́as en los que se han realizado observacio- nes. Ejecutando el comando sqrt(var(x)) de Rmo obtenemos que el valor para este estimador es, x = 1,87. En cuanto a los estimadores robustos, escogemos los siguientes: Desviación absoluta mediana estandarizada. Obtenemos este estimador en Rmo con la ejecución de la función mad(x). El valor obtenido ha sido NMAD = 1,48. Me representa la mediana muestral. NMAD = MAD z0,25 = 1, 482602 · Mediana{|Xi − Me|}n i=1 (14) Cuasidesviación tı́pica α-Winsorizada muestral. Obtenemos este estimador en Rmo con la ejecución de la función sqrt(winvar(x,α)). El valor obtenido ha sido SW = 0,516. SW = v u u t 1 n − 1 n X i=1 Xi − xW α 2 (15) Raı́z de la Varianza media biponderada. Obtenemos este estimador en Rmo con la ejecución de la función sqrt(bivar(x)). El valor obtenido ha sido ˆ ξbi = 1,59. ˆ ξ2 bi(x) = ( x(1 − x2 )2 , si |x| 1 0, si |x| ≥ 1 (16) 14
  • 16. Métodos Avanzados de Estadı́stica Aplicada Igor Garcia Atutxa Raı́z de Varianza media de porcentaje ajustado. Obtenemos este estimador en Rmo con la ejecución de la función sqrt(pbvar(x)). El valor obtenido ha sido ˆ ξpa = 1,85. ˆ ξ2 pb(x) =      −1, si x −1 x, si − 1 ≤ x ≤ 1 1, si x 1 (17) La presencia de valores anómalos como 5 o 7 hace que el estimador clásico no sea adecuado. Entre los estimadores robustos el debate esta más abierto y no hay una respuesta clara. Podrı́amos escoger el estimador NMAD, ya que nos aporta una estimación de compromiso. Este estimador tiene un error de muestreo sólo algo mayor que la cuasidesviación tı́pica, cuando la distribución modelo es normal, y mantienen esos errores de muestreo casi inalterables aunque la distribución no sea normal. 15
  • 17. Métodos Avanzados de Estadı́stica Aplicada Igor Garcia Atutxa 5. Análisis de la Varianza. Test de Welch y test de Box Se quiere averiguar si tres fertilizantes, A, B y C presentan diferencias significativas en cuanto a sus efectos sobre el aumento de la cosecha. Con este propósito se eligieron al azar 15 parcelas a las que se fertilizó aleatoriamente con cada uno de los fertilizantes en cuestión. Los aumentos de cosecha obtenidos fueron los siguientes: Fertilizante Aumento de Cosecha A 39 33 39 35 32 B 36 40 35 30 29 C 33 33 36 26 35 A la vista de los datos y recortando α = 0,1, ¿puede inferirse que existen diferencias significativas entre los tres fertilizantes? a) Utilizando la generalización robusta del test de Welch. Estas dos pruebas se utilizan para comprobar si se cumple o no la hipótesis nula de igualdad de las medias α-recortadas poblacionales independientes. Por lo que nuestras dos hipótesis serán las siguientes: H0. Todas las medias α-recortadas de las diferentes poblaciones en estudio son iguales: µα,1 = µα,2 = µα,3 = ... = µα,r. H1. No todas las medias α-recortadas son iguales. Es decir, al menos una de las anteriores igualdades no se cumple. El test de Welch generaliza al de Yuen. En Rmo se puede obtener mediante el comando t1way(x, α). Se ha escogido α = 0,1, obteniéndose el siguiente resultado: Estadı́stico FW = 0,806. Primer grado de libertad, ν1 = 2. Segundo grado de libertad, ν2 = 7, 86. p-valor del test, p − valor = 0,480. El cual es suficientemente grande como para aceptar la hipótesis nula de igualdad de las tres medias 0.1-recortadas de los fertilizantes. b) Utilizando la generalización robusta del test de Box. El test de Box se puede obtener en Rmo ejecutando el comando box1way(x, α). Se ha escogido para el valor de α = 0,1, obteniéndose el siguiente resultado: Estadı́stico FW = 0,725. 16
  • 18. Métodos Avanzados de Estadı́stica Aplicada Igor Garcia Atutxa Primer grado de libertad, ν1 = 1,94. Segundo grado de libertad, ν2 = 11, 3. p-valor del test, p − valor = 0,501. El cual es suficientemente grande como para aceptar la hipótesis nula de igualdad de las tres medias 0.1-recortadas de los fertilizantes. 17
  • 19. Métodos Avanzados de Estadı́stica Aplicada Igor Garcia Atutxa 6. Regresión robusta Se cree que la duración del revestimiento de un estanque depende de la cantidad de cal hidráulica que contiene. Para analizar esta relación se midió, en siete revestimientos, el tiempo, Y, hasta la aparición de filtraciones, teniendo cada unos de los revestimientos diferentes porcentajes de cal hidráulica, X. Los resultados obtenidos fueron los siguientes: X 4 10 80 45 25 60 90 Y 12 26 180 132 100 200 230 Se pide: a) La recta de M-regresión óptima. Esta recta de regresión la obtenemos mediante el comando bmreg(x,y) de Rmo . En la siguiente gráfica mostramos los datos del enunciado, la regresión lineal clási- ca y la recta de M-regresión optima. Figura 11: Datos muestrales (puntos negros), recta de regresión lineal simple (lı́nea discontinua roja) y recta de M-regresión óptima (lı́nea continua azul). 18
  • 20. Métodos Avanzados de Estadı́stica Aplicada Igor Garcia Atutxa b) La recta de regresión media biponderada. El comando a utilizar en Rmo en este caso es bireg(x,y,bend=1,28). En la si- guiente gráfica mostramos los datos del enunciado, la regresión lineal clásica y la recta de regresión media biponderada. Figura 12: Datos muestrales (puntos negros), recta de regresión lineal simple (lı́nea discontinua roja) y recta de regresión media biponderada (lı́nea continua verde). c) La recta de regresión winsorizada. Para finalizar usamos el comando winreg(x,y,tr=0,1) en Rmo para el caso de la regresión winsorizada. En la siguiente gráfica mostramos los datos del enunciado, la regresión lineal clásica y la recta de regresión media biponderada. 19
  • 21. Métodos Avanzados de Estadı́stica Aplicada Igor Garcia Atutxa Figura 13: Datos muestrales (puntos negros), recta de regresión lineal simple (lı́nea discontinua roja) y recta de regresión winsorizada (lı́nea continua verde). 20
  • 22. Métodos Avanzados de Estadı́stica Aplicada Igor Garcia Atutxa Referencias [1] Garcı́a Pérez, A. (2005). Métodos avanzados de estadı́stica aplicada. Técnicas avanzadas. Editorial UNED. (Código 0186080EP02A01). [2] Garcı́a Pérez, A. (2005). Métodos avanzados de estadı́stica aplicada. Méto- dos robustos y de remuestreo. Editorial UNED. (Código 0186080EP03A01). [3] Garcı́a Pérez, A. (2008). Estadı́stica aplicada: Conceptos básicos. Editorial UNED. (Código 0184011EP01A02). 21