Este trabajo consiste en el ajuste de un modelo lineal para predecir el esfuerzo necesario en el desarrollo de proyectos WEB, en función del número de archivos multimedia reutilizados o modificados, con datos tomados del artículo original “A Coparative Study of Cost Estimation Models for Web Hypermedia Applications“. Este documento es totalmente de carácter escolar.
ACERTIJO DE LA BANDERA OLÍMPICA CON ECUACIONES DE LA CIRCUNFERENCIA. Por JAVI...
Construyendo un Modelo de Regresión Lineal Simple
1. Diseño de Experimentos: Tarea 1
26 de agosto de 2012
Universidad Autónoma de
Yucatán
Licenciatura: Ingeniería de Software
Materia: Diseño de Experimentos
Tarea 1: A Comparative Study of Cost
Estimation Models for Web
Hypermedia Applications
Profesor: José Luis Batún/Omar
Gómez Gómez
Alumnos: Andreé Vela Miam
Andree Vela Miam| Licenciatura en Ingeniería de Software
2. Diseño de Experimentos: Tarea 1
26 de agosto de 2012
Tarea 1: A Comparative Study of Cost
Estimation Models for Web Hypermedia
Applications.
Andreé Vela Miam, AndreeVela@gmail.com, AndreeVela@outlook.com
Resumen— Este trabajo consiste en el ajuste del modelo lineal para predecir el esfuerzo lineal necesario en
el desarrollo de proyectos WEB, en función del número de archivos multimedia reutilizados o modificados,
con datos tomados del artículo original “A Coparative Study of Cost Estimation Models for Web
Hypermedia Applications“.
Palabras Clave: Regresión/ Lineal/ Estimación/ Modelos/ Aplicaciones/ Web.
I – PROBAR QUE LOS RESIDUOS TIENEN UNA DISTRIBUCIÓN NORMAL.
Ajuste del Modelo
Primero, para poder hacer pruebas con los residuos,
tenemos que calcular los coeficientes del modelo lineal:
TE = β0 + β1*ReusedMultimediaCode
Al hacer el cálculo, obtuvimos los siguientes valores de β0
y β1 el modelo:
TE = 91.4347 + 0.4866*ReusedMultimediaCode
Prueba de Papel de Normalidad para los residuos
Utilizando el software R, calculamos los residuos y los
estandarizamos y al aplicarles la prueba de normalidad,
obtuvimos la gráfica que se muestra. Como podemos
observar, el patrón de los puntos tiende hacia una línea,
que es lo que nosotros buscamos. Sin embargo, para tener
mayor seguridad, decidimos aplicar la prueba
Kolmogorov-Smirnof , utilizando siempre el software R,
el cuál nos arrojó la siguiente salida:
D = 0.1132, p-value = 0.7338
De este resultado, lo que nos importa es el valor del p-valor, el cual vemos que es muy alto, lo que nos indica que
no encontramos evidencia de que los residuos carecen de normalidad. Por lo anterior, concluimos que los
residuos se distribuyen de manera normal.
Andree Vela Miam| Licenciatura en Ingeniería de Software
3. Diseño de Experimentos: Tarea 1
26 de agosto de 2012
II – ANÁLISIS DE LA HOMOCEDASTICIDAD DE LOS RESIDUOS.
Usando el software R, graficamos los puntos del
modelo ajustado, contra sus residuos correspondientes.
Observando la gráfica, vemos que todos los residuos
caen dentro del rango de valores de (-3,3) y presentan
aleatoriedad, es decir, no se aprecia que los puntos
tiendan hacia algún patrón específico y tampoco se
encuentran puntos muy alejados de la nube, los cuales
representarían datos atípicos.
Por lo anterior, concluimos que no se encontró
evidencia de que los residuos no cumplan con la
homocedasticidad, y por lo tanto concluimos que el
modelo es valido, ya que cumple con los dos supuestos
III – ANALISIS DE LA TABLA ANOVA.
La tabla Anova, es de gran importancia, porque
Analysis of Variance Table
nos ayuda a probar la significancia del modelo
de regresión lineal. Lo anterior, debido a que
Df Sum Sq Mean Sq F value Pr(>F)
los datos que proporciona, nos sirven para rmc 1 7803.3 7803.3 16.358 0.000309 ***
realizar una prueba de hipótesis con el Residuals 32 15265.1 477.0
estadístico F, con la hipótesis H0:β1=0 vs H1:
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
β1/=0. Para calcular el estadístico F, es de la
siguiente manera:
Codes of Variance Table
Df Sum Sq Mean Sq F value
rmc 1 SSR MSR = SSR/1 MSR / MSE
Residuals n-2 SSE MSE = SSE/n-2
Podemos ver en la tabla con la sustitución de los datos, que nuestro estadístico F tiene un valor de 16.358. Si
buscamos el valor del estadístico F1, 8 obtenemos que es igual a 11.3. Por lo tanto con un 99% de confianza se
rechaza la hipótesis nula, además vemos que el p-valor de la prueba de muy pequeño, por lo que es evidencia que
apoya el rechazo de la hipótesis nula. Más adelante se expresaran las conclusiones en términos del problema.
Andree Vela Miam| Licenciatura en Ingeniería de Software
4. Diseño de Experimentos: Tarea 1
26 de agosto de 2012
IV – PROBANDO LA SIGNIFICANCIA DE LA PRUEBA.
Resumen de la Prueba
A continuación, mostraremos el resumen lm(formula = te ~ rmc)
de la prueba, arrojado por el software
estadístico R.
Residuals:
Min 1Q Median 3Q Max
De nuevo, se muestra información valiosa -34.048 -17.056 -2.303 15.813 43.965
para las pruebas de hipótesis. En esta
ocasión, podemos ver el valor del
Coefficients:
estadístico t para la prueba H0:β1=0 vs
Estimate Std. Error t value Pr(>|t|)
H1: β1/=0. Vemos que el valor del (Intercept) 91.4347 6.2957 14.523 1.23e-15 ***
estadístico de prueba es de 4.045, y que el rmc 0.4866 0.1203 4.045 0.000309 ***
valor para una t32, es de 1.3086. Por lo ---
tanto la hipótesis nula se rechaza Además Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
vemos el valor del p-valor es igual a
0.000309, es decir, tenemos un p-valor Residual standard error: 21.84 on 32 degrees of freedom
muy pequeño, por lo que tenemos fuerte Multiple R-squared: 0.3383, Adjusted R-squared: 0.3176
evidencia de que β1 es distinto de cero.
F-statistic: 16.36 on 1 and 32 DF, p-value: 0.000309
Entonces, por todo lo anterior, podemos afirmar con un 99% de seguridad, que la regresión si es significativa, es
decir, que el ReusedMultimediaCode (RMC) ayuda en la estimación del TotalEffort (TE) para el desarrollo de
proyectos web.
V – INTERPRETANDO EL VALOR DEL COEFICIENTE DE DETERMINACIÓN
En la sección IV, se presento el resumen de la prueba, en donde se puede apreciar el valor del coeficiente de
determinación (r-square), que es igual a 0.3383. Observamos que es un valor un poco bajo, lo que seguramente
nos esta sugiriendo que hay mas variables que deberíamos considerar en la estimación del TotalEffort. Aun así es
necesario expresar la interpretación de los resultados, aunque no hayan sido los esperados.
EL 33.8% de la variabilidad del esfuerzo total del desarrollo de proyectos web (TotalEffort), esta explicado por el
numero de archivos multimedia reusados o modificados (ReusedMultimediaCode).
Andree Vela Miam| Licenciatura en Ingeniería de Software