ECOGRAFIA RENAL Y SUS VARIANTES ANATOMICAS NORMALES
Trabajo 1 estadistica
1. Trabajo 1: Estadística II
Equipo #: 37
Integrantes
1. Mónica Alejandra Callejas Lopera
2. Natalia Gómez Pamplona
3. Andrés Alfonso Salgado Roldán
Objetivo: Usar de manera eficiente las herramientas del análisis de regresión para resolver un
problema práctico.
Presentación del Problema. En un estudio a gran escala realizado en EE.UU sobre la eficacia en el
control de infeccioneshospitalariasse recogióinformaciónen113hospitales.A suequipode trabajo
le corresponde analizar una muestra aleatoria de tamaño 45 de esa base. Los datos están
etiquetadosenlaforma EquipoXX.txt,donde XXes el númerode equipoasignadoporel profesor.
Cada base de datos (en formato TXT) contiene las siguientes columnas:
Abr. y nombre de la variable Descripción
ID:Númerode identificación Número de identificación de cada observación (hospital)
Y: Riesgo de infección Probabilidad promedioestimada de adquirir infecciónen el hospital (en porcentaje)
X1: Duración de la estadía Duración promedio de la estadía de todos los pacientes en el hospital (días)
X2: Rutina de cultivos Razón del número de cultivos realizados en pacientes sin síntomas de infección
hospitalaria, por cada 100
X3: Número de camas Número promedio de camas en el hospital durante el período del estudio
X4: Censo promedio diario Número promedio de pacientesenel hospitalpor día durante el período de estudio
X5: Número de enfermeras Número promedio de enfermeras, equivalentes a tiempo completo, durante el período
del estudio
Preguntas a resolver.
1. Estime un modelo de regresión lineal múltiple que explique el Riesgo de Infección en
términosde todas las variablespredictoras.Analice lasignificanciade la regresiónyde los
parámetros individuales. Interprete los parámetros estimados. Calcule e interprete el
coeficiente de determinación múltiple R2. Comente los resultados.
Tabla 1. Tabla de parámetros estimados
2. Modelo de regresión lineal múltiple:
𝑌 = 0.361 + 0.298𝑋1 + 0.060𝑋2 + 0.000774𝑋3 + 0.0005𝑋4 + 0.000198𝑋5 + 1.008
Prueba de significancia de la regresión
𝐻0: 𝛽1 = 𝛽2 = 𝛽3 = 𝛽4 = 𝛽5 = 𝛽0 = 0
𝐻1: 𝐴𝑙 𝑚𝑒𝑛𝑜𝑠 𝑢𝑛𝑜 𝑒𝑠 𝑑𝑖𝑓𝑒𝑟𝑒𝑛𝑡𝑒 𝑑𝑒 0
Tabla 2. Tabla ANOVA
Con:
𝑣𝑝 = 𝑃( 𝐹5,39 > 𝐹𝑜) = ( 𝐹5,39 > 9.09) = 8.56 × 10−6
Como 𝑣𝑝 < 𝛼 = 0.05 rechazo 𝐻0 y se concluye que el modelo es significativo, es decir, al menos
una de las predictoras afecta significativamente el riesgo de infección en el hospital.
Significancia de los parámetros individuales
3. R2 y R2 ajustado
R2 = SSR/SST = 46.20/(46.20+39.64)= 0.5382
R2adj = 1-((n-1)MSE/SST) = 1-(44(1.02)/(46.20+39.64))=0.478
El 53.82 % de lavariabilidadde laeficaciaenel control de infeccioneshospitalariasesexplicadopor
el modelo propuesto.
El 46.18 % de la variabilidad de la eficacia en el control de infeccioneshospitalarias está explicado
por el error.
2. Use la tabla de todas las regresiones posibles, para probar la significancia simultánea del
subconjunto de variables que resultaron no significativas individualmente en el punto
anterior (en caso de no haber o solo tener una variable no significativa tome las dos
variablesconlosvalores p mayoresdel puntoanterior). Segúnel resultadode lapruebaes
posible descartar del modelo las variables del subconjunto?.
Ho: β3=β4=β5=0
H1: al menosuno ≠ 0
Estadísticode prueba:
Fo=
𝑀𝑆𝑒𝑥𝑡𝑟𝑎
𝑀𝑆𝐸
=
𝑆𝑆𝑒𝑥𝑡𝑟𝑎
𝑔𝑙 𝑆𝑆𝑒𝑥𝑡𝑟𝑎
𝑀𝑆𝐸
SSextra= SSE (RM) –SSE (FM) = SSE [βo, β1, β2 ] – SEE [ βo, β1, β2, β3, β4, β5 ]
SSextra= (42,48760) – (39,6478) = 2,8398 Grados de libertad=gl SSextra=3
Tabla 3. Tabla ANOVA
4. Tabla 4. Tabla de todas las regresiones posibles
Fo=
𝑆𝑆𝑒𝑥𝑡𝑟𝑎
𝑔𝑙 𝑆𝑆𝑒𝑥𝑡𝑟𝑎
𝑀𝑆𝐸
=
2,8398
3
1,016612
= 0,93113203
RR: { Fo / Fo> Fα,gl SSextra,n-p} RR: { Fo / Fo> F 0,05, 3, 39} RR: { Fo / Fo> 2,845 }
Como Fo= 0,93113203 ∉ a la Región de rechazo, entonces no rechazo Ho. Por tanto las variables:
Número de camas
Censo promedio diario
Número de enfermeras
No afectan significativamente el riesgo de infección, en presencia de las demás predictoras, y por
ende se pueden descartar del modelo estas variables.
5. 3. Escriba el procedimiento para hacer la prueba de significancia de la regresiónusando una
pruebade hipótesislineal general de laformaH0: Tβ = 0, donde especifique claramentela
matrizT, y losmodeloscompletoyreducido.Escribaendetalle laexpresiónparacalcularel
estadístico de prueba. Es posible en este caso calcular el valor del estadístico?... Si es así,
calcúlelo y usando la región de rechazo tome la decisión correspondiente.
𝐻0: 𝛽1 = 𝛽2 = 𝛽3 = 𝛽4 = 𝛽5 = 0
𝑀𝑎𝑡𝑟𝑖𝑧 Τ:
[(
0 1 0
0 0 1
0 0 0
0 0 0
0 0 0
1 0 0
0 0 0
0 0 0
0 1 0
0 0 1)]
[(
0 1 0
0 0 1
0 0 0
0 0 0
0 0 0
1 0 0
0 0 0
0 0 0
0 1 0
0 0 1)]
β =
[
0
0
0
0
0]
Reescribiendo las hipótesis:
𝐻0: Τ𝛽 = 0
𝐻1: Τ𝛽 ≠ 0
Modelo completo
𝑌𝑖 = 𝛽0 + 𝛽1 𝑋𝑖1 + 𝛽2 𝑋𝑖2 + 𝛽3 𝑋𝑖3 + 𝛽4 𝑋𝑖4 + 𝛽5 𝑋𝑖5 + 𝜀𝑖
Modelo reducido
𝑌𝑖 = 𝛽0 + 𝜀𝑖
Estadístico de prueba
𝑆𝑆𝐻 = 𝑆𝑆𝐸( 𝑅𝑀) − 𝑆𝑆𝐸(𝐹𝑀)
𝑔𝑙( 𝑆𝑆𝐻) = 𝑟 = 5, es el número de filas linealmente independientes de la matriz T.
𝑆𝑆𝐸(𝑅𝑀) = ∑( 𝑌𝑖 − 𝑌𝑖)2
𝑛
𝑖=1
Sin embargo, ya que el modelo reducido es de la siguiente forma:
𝑌𝑖 = 𝛽0 + 𝜀𝑖 se ajustan todos los valores a una recta constante, por lo tanto:
𝑌𝑖 = 𝑌𝑖, lo que equivale a la medio de los datos de Y. De esta forma, la suma de los cuadrados del
error para el modelo reducido es:
𝑆𝑆𝐸 ( 𝑅𝑀) = ∑( 𝑌𝑖 − 𝑌𝑖)2
𝑛
𝑖=1
= 85.852
6. 𝑆𝑆𝐻 = 85.852 − 39.64788 = 46.20412
𝐸𝑠𝑡𝑎𝑑í𝑠𝑡𝑖𝑐𝑜 𝑑𝑒 𝑝𝑟𝑢𝑒𝑏𝑎 = 𝐹𝑜 =
𝑆𝑆𝐻
5⁄
𝑀𝑆𝐸
𝐸𝑃 = 𝐹𝑜 =
46.20412
5⁄
1.016612
= 9,09
Región de rechazo
RR: F0 / F0 > F5, 39, 0.05
RR: F0 / F0 > 2.449
Como Fo = 9,09 pertenece ala regiónde rechazo,por lo que rechazo Ho se puede concluirque al
menos una de las predictoras afecta significativamente al resultado de la prueba.
4. Realice unavalidaciónde lossupuestosenloserroresy examine si hayvaloresatípicos,de
balanceoe influenciales.Qué puede deciracercade lavalidezde éste modelo.Argumente.
Para analizar los puntos atípicos, de balanceo e influénciales se tienen en cuenta las variables: ri
(residualesestudentizados),Di (distanciasde Cook),hii(elementoi de ladiag.Principal) yDffits,los
cuales los arroja la tabla2 de diagnósticos:
- Puntos Atípicos: si hay una observación cuyo |ri|>3 se concluye que es un punto atípico.
Se puede ver que hay observaciones cercanas a 3 (|obs. 22|=2.8472), pero no >3, por lo tanto se
concluye que no hay puntos atípicos.
- Puntos de balanceo: se evalúa el criterio
hii > 2(p/n) = 2(6/45) = 0.266
De la tabla vemos que las observaciones 3, 7, 18, 19, 22, 23 corresponden a puntos de balanceo.
NOTA: los puntos atípicos y de balanceo también se pueden ver en la figura1.
- Puntos influenciales: se evalúan la distancia de Cook y los Dffits
Distancia de Cook: Di>1. Según este criterio, no hay ninguna observación influencial.
Dffits: |dffits|>2√(p/n)=2√(6/45)=0.730. Segúnesta medida las observaciones 3, 7, 18, 22 y 36 son
influenciales.
Así, lospuntosinfluencialessonlauniónde losresultadosindividualesde ladistanciade Cooky los
Dffits, lo cual, pone a las observaciones 3, 7, 18,22 y 36 como puntos influenciales del modelo.
8. Ilustración 1. Residuales estudentizados vs. Elementos de la diagonal principal de H
Validación de los supuestos en los errores
Normalidad: H0: Ei ~ Normal
H1: Ei no~ Normal
De la prueba de Shapiro Wilk vemos que Vp>0.05, entonces no se rechaza Ho.
Ilustración 2. Normal Q-Q Plot
9. Sinembargo,del análisisdelagráficanormalQ-QPlot,si quitamoslosdosprimerosylosdosúltimos
puntos se puede ver que hay observaciones que no se ajustan bien a la recta, por lo tanto el
supuesto no se cumple.
- Varianza constante: V[Ei] = σ^2
V[Ei] ≠ σ^2
Del gráfico de residuales estudentizados vs. Valores Ajustados: si omitimos dos puntos por
encimayunopordebajo(queestánmuyalejados),podemosverque nohayevidenciaencontra
del supuesto de varianza constante.
El modelo no cumple el supuesto de normalidad,pero si la varianza constante, además, tiene
problemas de puntos de balanceo e influenciales; por lo tanto, si no se solucionan dichos
problemas, el modelo no será válido para realizar influencias.