SlideShare una empresa de Scribd logo
1 de 27
Descargar para leer sin conexión
Edgar Acuña Analisis de Regresion 1
CAPÍTULO 5
REGRESIÓN CON VARIABLES
CUALITATIVAS
Edgar Acuña Fernández
Departamento de Matemáticas
Universidad de Puerto Rico
Recinto Universitario de Mayagüez
Edgar Acuña Analisis de Regresion 2
Regresión con variables predictoras
cualitativas
• A veces algunas de las variables predictoras a
considerar son cuantitativas y otras cualitativas.
• Ejemplos de variables cuantitativas son: años de
experiencia, años de educación, edad, etc.
• Ejemplos de variables cualitativas son:
sexo del empleado, estado civil, jerarquía del
empleado, etc.
Edgar Acuña Analisis de Regresion 3
Tipos de Variables cualitativas
Variable “dummy” o variable binaria
• Variables nominales
• Variables ordinales
Edgar Acuña Analisis de Regresion 4
Nota:
En un problema de regresión debe haber por lo
menos una variable predictora cuantitativa.
Si todas las variables predictoras fueran
cualitativas entonces el problema se convierte
en uno de diseños experimentales.
Edgar Acuña Analisis de Regresion 5
Regresión con una sola variable “Dummy”
• Consideremos un modelo de regresión con una sola
variable cualitativa A y una variable cuantitativa X.
Es decir,
Y=β0+β1X+β2A + ε (*)
Consideremos los casos:
Si A=0, Y= β0 + β1X + ε
Si A=1, Y= (β0 + β2) + β1X + ε
Es decir que el modelo (*) considera que las pendientes de
ambas lineas son iguales.
El valor estimado de β2 representa el cambio promedio en la
variable de respuesta al cambiar el valor de la variable “dummy”.
Edgar Acuña Analisis de Regresion 6
Si se desea comparar las pendientes de las línea de regresión de los
dos grupos se puede usar una prueba de t similar a la prueba de
comparación de dos medias y asumiendo que hay homogeneidad de
varianza. También se puede usar una prueba de F parcial o probando
la hipótesis Ho: β3=0 en el siguiente modelo
Y=β0+β1A+β2X+β3AX +e
Cuando la hipótesis nula no es rechazada se concluye que la
pendiente de regresion de ambos grupos son iguales. Si no hubiera
igualdad de varianza de los dos grupos, habria que usar una prueba de
t aproximada similar al problema de Behrens-Fisher. Aquí se usa una t
con grados de libertad aproximados
Edgar Acuña Analisis de Regresion 7
Comparar Lineas de Regresión para
Varios Grupos
Supongamos que se tiene una variable predictora
continua X para explicar el comportamiento de Y en
tres grupos. Surgen tres modelos de regresión:
i) Y= β01+β11X+ ε
ii) Y=β02+β12X+ ε
iii) Y=β03+β13X+ ε
Para relacionar las lineas de regresión hay que introducir 3
variables “dummy” para identificar los grupos G1, G2, y G3 y 3
variables adicionales Z1=G1X, Z2=G2X, y Z3=G3X.
Edgar Acuña Analisis de Regresion 8
Posibles modelos
a) Las lineas se intersecten en un punto cualquiera, ya que
tendrían diferente intersecto y pendiente.
b) Las lineas sean paralelas (homogeneidad de pendientes).
c) Las lineas tengan el mismo intercepto pero distinta pendientes
(homogeneidad de interceptos).
d) Las tres lineas coincidan.
Edgar Acuña Analisis de Regresion 9
Prueba de hipótesis
Ho: el modelo satisface b ) o c) o d) versus
Ha: el modelo satisface a)
Se usa una prueba de F parcial dada por
Fm=[(SSEm-SSEa)/(glm-gla)]/[SSEa/gla]
Donde m, representa los modelos b,c, o d.
grados de libertad.
La F parcial se distribuye como una F con (glm-gla, gla)
Edgar Acuña Analisis de Regresion 10
Regresión Logística
La variable de respuesta Y es una del tipo binario y
que se tiene p variables predictoras x’s (aleatorias)
Se tiene una muestra de tamaño n=n1+n2 ,
con n1 observaciones de la clase C1 y
n2 observaciones de la clase C2 .
La variable predictora Y se define como 0 y 1 para
cada clase.
Edgar Acuña Analisis de Regresion 11
La Curva Logística
Funcion de distribución
logística
)
1
(
1
)
( x
e
x
F −
+
=
Edgar Acuña Analisis de Regresion 12
Suposición en el Modelo Logístico
• Sea f(x/Ci) (i=1,2) la función de densidad del
vector aleatorio p-dimensional x en la clase Ci,
en el modelo logístico se asume que:
Donde, β es un vector de p parámetros y α
representa el intercepto.
x
β'
x
x
+
= α
)
)
/
(
)
/
(
log(
2
1
C
f
C
f
Edgar Acuña Analisis de Regresion 13
Odds Ratio
Sea p=P(Y=1/x) la probabilidad a posteriori de que Y
sea igual a 1 para un valor observado de x
Se define la razón de apuestas (odds ratio) como:
Donde: πi representa la probabilidad a priori de que
Y pertenezca a la clase Ci.
)
/
(
)
/
(
)
(
)
0
/
(
}
0
{
)
(
)
1
/
(
}
1
{
1 2
2
1
1
C
f
C
f
f
y
f
Y
P
f
y
f
Y
P
p
p
x
x
x
x
x
x
π
π
=
=
=
=
=
=
−
Edgar Acuña Analisis de Regresion 14
Transformación logit
• Tomando logaritmos se tiene
• Luego con la suposicion se tiene que:
• Equivalentemente,
)
/
(
)
/
(
log
)
log(
)
1
log(
2
1
2
1
C
f
C
f
p
p
x
x
+
=
− π
π
x
'
)
1
log( β
α +
=
− p
p
)
'
exp(
1
)
'
exp(
x
x
β
α
β
α
+
+
+
=
p
Edgar Acuña Analisis de Regresion 15
Cumplimiento de la suposicion del modelo
Si las variables x en cada clase se distribuyen
normalmente con medias u1, u2 y matríz de
covarianza Σ entonces se satisface la suposición dado
que:
(u1-u2 )' Σ-1(x-1/2(u1+u2))
Donde
La suposición también para otros tipos de
distribuciones distintas de la normal multivariada
tales como distribuciones de Bernoulli, y mezclas de
éstas.
=
)
)
/
(
)
/
(
log(
2
1
C
f
C
f
x
x
2
/
' )
u
(u
Σ
)
u
(u 2
1
1
2
1 +
−
−
= −
α 1
2
1 Σ
)
u
(u
β −
−
= '
Edgar Acuña Analisis de Regresion 16
Estimación del modelo logístico
Método de Máxima Verosimilitud
Dada una observación x, las probabilidades de que ésta
pertenezca a las clases C1 y C2 son :
Considerando una muestra de tamaño n=n1+n2 y un parámetro
binomial p igual a la función de
verosimilitud es de la forma
)
'
exp(
1
)
'
exp(
)
/
( 1
x
x
x
β
α
β
α
+
+
+
=
C
P
)
'
exp(
1
1
)
/
(
1
)
/
( 1
2
x
x
x
β
α +
+
=
−
= C
P
C
P
∏
+
+
⋅
∏
+
+
+
=
+
=
=
n
n
j
n
i
a
L
1
1 1
1
)
exp(
1
1
)
exp(
1
)
exp(
)
,
(
β
'
x
β
'
x
β
'
x
β
j
i
i
α
α
α
)
exp(
1
/(
)
exp( x
β'
x
β' +
+
+ α
α
La solucion de la equacion de verosimilitud es solo numerica
Edgar Acuña Analisis de Regresion 17
Otra forma de estimar los parámetros α y β
Consideramos la regresión lineal múltiple de
logit( ) versus x1,x2,…,xp
luego su varianza será aproximadamente:
Asi se llega a un problema donde la varianza no es
constante y se puede usar mínimos cuadrados
ponderados con pesos wi(x) = n1 (x)(1- (x))
para estimar los parámetros α y β del
modelo logístico.
p̂
)
1
(
1
)
1
(
]
)
1
(
1
[
]
ˆ
1
ˆ
[ln(
1
1
2
p
p
n
n
p
p
p
p
p
p
Var
−
=
−
−
≅
−
p̂ p̂
Edgar Acuña Analisis de Regresion 18
Medidas de Confiabilidad del Modelo
Cuantifican el nivel de ajuste del modelo al conjunto de
datos:
• La Devianza
• El Pseudo-R2
• El Criterio de Información de Akaike (AIC)
• La Prueba de Bondad de Ajuste de Hosmer-
Lemeshov.
Edgar Acuña Analisis de Regresion 19
La Devianza
Es similar a la suma de cuadrados del error de la regresión lineal.
Si la variable de respuesta Y no está grupada se tiene que:
D tiene una distribución Ji-Cuadrado con (n-p-1)gl.
Si D es mayor que una Ji-Cuadrado con (n-p-1)gl
para un nivel de significación dado entonces el modelo logístico
no es confiable.
: 1 : 0
ˆ
2{ log( ) log(1 )}
i i
n n
i i
i y i y
D p p
= =
= − + −
∑ ∑
)
Edgar Acuña Analisis de Regresion 20
El Pseudo-R2
• Es similar al R2 de la regresión lineal se define por:
Donde la DevianzaNula es la devianza considerando solamente
el intercepto y se distribuye como una Ji-Cuadrado con (n-1)gl.
Para hallar la DevianzaNula se hace una regresión logística
considerando que hay una sola variable predictora cuyos valores
son todos unos.
%
100
)
.
1
(
2
Nula
Devianza
Devianza
R
Pseudo −
=
−
Edgar Acuña Analisis de Regresion 21
El Criterio de Información de Akaike
(AIC)
Determina si un modelo es mejor que otro.
Esta dado por:
AIC=D+2(p+1)
Donde, p es el número de variables predictoras.
Un modelo es mejor que otro si su AIC es más pequeño.
Edgar Acuña Analisis de Regresion 22
La Prueba de Bondad de Ajuste de
Hosmer-Lemeshov.
Se aplica cuando los datos son dados en forma agrupada y se
define por
Donde g es el número de grupos, es el número de observaciones
en el i-ésimo grupo
Oi es la suma de las y’s en el i-ésimo grupo y es el promedio de
las pi en el i-ésimo grupo.
∑
= −
−
=
g
i i
i
i
i
i
i
p
p
n
p
n
O
C
1
2
)
1
(
'
)
'
(
i
n'
i
p
Edgar Acuña Analisis de Regresion 23
Estadisticas Influenciales para regresión
logística
• Residuales de Pearson es similar al residual
estudentizado usado en regresión lineal
yi representa el número de veces que y=1 entre las mi
repeticiones de Xi , de lo contrario mi=1 para todo i.
• Residuales de Devianza Esta dado por:
si yi=0 y si yi=1
Una observación será anormal si el residual de devianza es
mayor que 2 en valor absoluto, entonces la observación
correspondiente es anormal.
)
ˆ
1
(
ˆ
ˆ
i
i
i
i
i
i
i
p
p
m
p
m
y
r
−
−
=
|
)
ˆ
1
log(
|
2 i
i p
D −
−
= |
)
ˆ
log(
|
2 i
i p
D =
Edgar Acuña Analisis de Regresion 24
Uso de la regresión logística en
Clasificación:
La forma mas facil de discriminar es considerar que si p>0.5 la
obervación pertenece a la clase que uno está interesado.
Otros metodos son:
i) Plotear el porcentaje de obervaciones que poseen el evento
que han sido correctamente clasificadas (Sensitividad) versus
distintos niveles de probabilidad y el porcentajes de
observaciones de la otra clase que han sido correctamente
clasificadas (especifidad) versus los mismos niveles de
probabilidad anteriormente usados, en la misma gráfica.
La probabilidad que se usará para clasificar las observaciones se
obtienen intersectando las dos curvas.
Edgar Acuña Analisis de Regresion 25
Las gráficas de los dos métodos aparecen en la siguiente figuras y
embos caso el p-óptimo a usarse es p=0.3
0.0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9
0
50
100
Especificidad
Sensitividad
p-optimo
Este es el
hallar el p-optimo
Interseccion de las curvas de sensitividad y de especificidad para
Ejemplo
Edgar Acuña Analisis de Regresion 26
La curva ROC
ii) Usar la curva ROC (Receiver Operating
Characteristic Curva).
En este caso se grafica
la sensitividad versus (1-especifidad)100%,
y se coge como el p ideal aquel que está más cerca a la
esquina superior izquierda, osea al punto (100,0).
Edgar Acuña Analisis de Regresion 27
Ejemplo de curva ROC

Más contenido relacionado

Similar a cap5sl.pdf

Capitulo 04. Medidas de Variabilidad (2).pdf
Capitulo 04. Medidas de Variabilidad (2).pdfCapitulo 04. Medidas de Variabilidad (2).pdf
Capitulo 04. Medidas de Variabilidad (2).pdfJhonFelix3
 
Investigacion hipotesis (ji) rest 1
Investigacion hipotesis (ji) rest 1Investigacion hipotesis (ji) rest 1
Investigacion hipotesis (ji) rest 1guest0e7a0f7
 
Investigacion hipotesis (ji) rest 1
Investigacion hipotesis (ji) rest 1Investigacion hipotesis (ji) rest 1
Investigacion hipotesis (ji) rest 1guest0e7a0f7
 
Estadistica aplicada
Estadistica aplicadaEstadistica aplicada
Estadistica aplicadaNancy Curasi
 
Econometria I: modelo de regresión lineal simple
Econometria I: modelo de regresión lineal simple Econometria I: modelo de regresión lineal simple
Econometria I: modelo de regresión lineal simple ALEX ABURTO MEZA
 
Matemáticas II bimestre
Matemáticas II bimestreMatemáticas II bimestre
Matemáticas II bimestreRaiza Quezada
 
Criterios logit
Criterios logitCriterios logit
Criterios logitulagos
 
Clase 8, modelos_no_lineales_de_regresión
Clase 8, modelos_no_lineales_de_regresiónClase 8, modelos_no_lineales_de_regresión
Clase 8, modelos_no_lineales_de_regresiónHugo Maul
 
Modelos de regresión lineales y no lineales au aplicación en problemas de ing...
Modelos de regresión lineales y no lineales au aplicación en problemas de ing...Modelos de regresión lineales y no lineales au aplicación en problemas de ing...
Modelos de regresión lineales y no lineales au aplicación en problemas de ing...Néstor Valles Villarreal
 
Regresion aplicada a la ingenieria
Regresion aplicada a la ingenieriaRegresion aplicada a la ingenieria
Regresion aplicada a la ingenieriaBryanRoyCordovaGomez
 
2-el modelo de regresion lineal-2.ppt
2-el modelo de regresion lineal-2.ppt2-el modelo de regresion lineal-2.ppt
2-el modelo de regresion lineal-2.pptssuserd9e9ec1
 

Similar a cap5sl.pdf (20)

notas19deagosto
notas19deagostonotas19deagosto
notas19deagosto
 
Clase12 heterocedasticidad
Clase12 heterocedasticidadClase12 heterocedasticidad
Clase12 heterocedasticidad
 
Regresion
RegresionRegresion
Regresion
 
Unidad 2
Unidad 2Unidad 2
Unidad 2
 
Anova
AnovaAnova
Anova
 
2. reg.lin.multiple
2. reg.lin.multiple2. reg.lin.multiple
2. reg.lin.multiple
 
Capitulo 04. Medidas de Variabilidad (2).pdf
Capitulo 04. Medidas de Variabilidad (2).pdfCapitulo 04. Medidas de Variabilidad (2).pdf
Capitulo 04. Medidas de Variabilidad (2).pdf
 
Formulas estadisticas
Formulas estadisticasFormulas estadisticas
Formulas estadisticas
 
Investigacion hipotesis (ji) rest 1
Investigacion hipotesis (ji) rest 1Investigacion hipotesis (ji) rest 1
Investigacion hipotesis (ji) rest 1
 
Investigacion hipotesis (ji) rest 1
Investigacion hipotesis (ji) rest 1Investigacion hipotesis (ji) rest 1
Investigacion hipotesis (ji) rest 1
 
Estadistica aplicada
Estadistica aplicadaEstadistica aplicada
Estadistica aplicada
 
Econometria I: modelo de regresión lineal simple
Econometria I: modelo de regresión lineal simple Econometria I: modelo de regresión lineal simple
Econometria I: modelo de regresión lineal simple
 
Estimacion y desviacion
Estimacion y desviacion Estimacion y desviacion
Estimacion y desviacion
 
Matemáticas II bimestre
Matemáticas II bimestreMatemáticas II bimestre
Matemáticas II bimestre
 
Criterios logit
Criterios logitCriterios logit
Criterios logit
 
Clase 8, modelos_no_lineales_de_regresión
Clase 8, modelos_no_lineales_de_regresiónClase 8, modelos_no_lineales_de_regresión
Clase 8, modelos_no_lineales_de_regresión
 
Modelos de regresión lineales y no lineales au aplicación en problemas de ing...
Modelos de regresión lineales y no lineales au aplicación en problemas de ing...Modelos de regresión lineales y no lineales au aplicación en problemas de ing...
Modelos de regresión lineales y no lineales au aplicación en problemas de ing...
 
Regresion aplicada a la ingenieria
Regresion aplicada a la ingenieriaRegresion aplicada a la ingenieria
Regresion aplicada a la ingenieria
 
Tablas de contingencias
Tablas de contingenciasTablas de contingencias
Tablas de contingencias
 
2-el modelo de regresion lineal-2.ppt
2-el modelo de regresion lineal-2.ppt2-el modelo de regresion lineal-2.ppt
2-el modelo de regresion lineal-2.ppt
 

Más de EDMARLANDAETA

que es la filosofia 2.ppt
que es la filosofia 2.pptque es la filosofia 2.ppt
que es la filosofia 2.pptEDMARLANDAETA
 
Planteamiento_de_un_problema.pptx
Planteamiento_de_un_problema.pptxPlanteamiento_de_un_problema.pptx
Planteamiento_de_un_problema.pptxEDMARLANDAETA
 
planteamiento-del-problema.ppt
planteamiento-del-problema.pptplanteamiento-del-problema.ppt
planteamiento-del-problema.pptEDMARLANDAETA
 
CLASE 5 CEREBRO REPTIL.pdf
CLASE 5 CEREBRO REPTIL.pdfCLASE 5 CEREBRO REPTIL.pdf
CLASE 5 CEREBRO REPTIL.pdfEDMARLANDAETA
 
Ph. D Induction.pptx
Ph. D Induction.pptxPh. D Induction.pptx
Ph. D Induction.pptxEDMARLANDAETA
 
Aular T J Moisês Demostración.pptx
Aular T J Moisês Demostración.pptxAular T J Moisês Demostración.pptx
Aular T J Moisês Demostración.pptxEDMARLANDAETA
 

Más de EDMARLANDAETA (8)

que es la filosofia 2.ppt
que es la filosofia 2.pptque es la filosofia 2.ppt
que es la filosofia 2.ppt
 
Planteamiento_de_un_problema.pptx
Planteamiento_de_un_problema.pptxPlanteamiento_de_un_problema.pptx
Planteamiento_de_un_problema.pptx
 
planteamiento-del-problema.ppt
planteamiento-del-problema.pptplanteamiento-del-problema.ppt
planteamiento-del-problema.ppt
 
CLASE 5 CEREBRO REPTIL.pdf
CLASE 5 CEREBRO REPTIL.pdfCLASE 5 CEREBRO REPTIL.pdf
CLASE 5 CEREBRO REPTIL.pdf
 
CLASE 4.pdf
CLASE 4.pdfCLASE 4.pdf
CLASE 4.pdf
 
Ph. D Induction.pptx
Ph. D Induction.pptxPh. D Induction.pptx
Ph. D Induction.pptx
 
CLASE 4.pdf
CLASE 4.pdfCLASE 4.pdf
CLASE 4.pdf
 
Aular T J Moisês Demostración.pptx
Aular T J Moisês Demostración.pptxAular T J Moisês Demostración.pptx
Aular T J Moisês Demostración.pptx
 

Último

PLAN ANUAL DE PROYECTO 2020. para mejorar
PLAN ANUAL DE PROYECTO 2020. para mejorarPLAN ANUAL DE PROYECTO 2020. para mejorar
PLAN ANUAL DE PROYECTO 2020. para mejorarCelesteRolon2
 
Investigacion cualitativa y cuantitativa....pdf
Investigacion cualitativa y cuantitativa....pdfInvestigacion cualitativa y cuantitativa....pdf
Investigacion cualitativa y cuantitativa....pdfalexanderleonyonange
 
Las familias más ricas de África en el año (2024).pdf
Las familias más ricas de África en el año (2024).pdfLas familias más ricas de África en el año (2024).pdf
Las familias más ricas de África en el año (2024).pdfJC Díaz Herrera
 
Industria musical de EUA vs Industria musical Corea del Sur (2024).pdf
Industria musical de EUA vs Industria musical Corea del Sur (2024).pdfIndustria musical de EUA vs Industria musical Corea del Sur (2024).pdf
Industria musical de EUA vs Industria musical Corea del Sur (2024).pdfJC Díaz Herrera
 
Análisis de datos en acción: Optimizando el crecimiento de Cyclistic
Análisis de datos en acción: Optimizando el crecimiento de CyclisticAnálisis de datos en acción: Optimizando el crecimiento de Cyclistic
Análisis de datos en acción: Optimizando el crecimiento de CyclisticJamithGarcia1
 
Posiciones_del_sionismo_en_los_imperios globales de la humanidad (2024).pdf
Posiciones_del_sionismo_en_los_imperios globales de la humanidad (2024).pdfPosiciones_del_sionismo_en_los_imperios globales de la humanidad (2024).pdf
Posiciones_del_sionismo_en_los_imperios globales de la humanidad (2024).pdfJC Díaz Herrera
 
Alfredo Gabriel Rodriguez Yajure Tarea#1
Alfredo Gabriel Rodriguez Yajure Tarea#1Alfredo Gabriel Rodriguez Yajure Tarea#1
Alfredo Gabriel Rodriguez Yajure Tarea#1alfredo130306
 
Letra de cambio definición y características.ppt
Letra de cambio definición y características.pptLetra de cambio definición y características.ppt
Letra de cambio definición y características.pptssuserbdc329
 
CALENDARIZACIÓN ACTUALIZADA DEL 2024 alt.pdf
CALENDARIZACIÓN ACTUALIZADA DEL 2024 alt.pdfCALENDARIZACIÓN ACTUALIZADA DEL 2024 alt.pdf
CALENDARIZACIÓN ACTUALIZADA DEL 2024 alt.pdfPOULANDERSONDELGADOA2
 
metodo SOAP utilizado para evaluar el estado de un paciente
metodo SOAP utilizado para evaluar el estado de un pacientemetodo SOAP utilizado para evaluar el estado de un paciente
metodo SOAP utilizado para evaluar el estado de un pacienteMedicinaInternaresid1
 
decreto 2090 de 2003.pdf actividades de alto riesgo en Colombia
decreto 2090 de 2003.pdf actividades de alto riesgo en Colombiadecreto 2090 de 2003.pdf actividades de alto riesgo en Colombia
decreto 2090 de 2003.pdf actividades de alto riesgo en Colombiaveronicayarpaz
 
La Guerra Biologica - Emiliano Paico Vilchez.pdf
La Guerra Biologica - Emiliano Paico Vilchez.pdfLa Guerra Biologica - Emiliano Paico Vilchez.pdf
La Guerra Biologica - Emiliano Paico Vilchez.pdfjosellaqtas
 
Porcentaje de población blanca europea en Europa Occidental (1923-2024).pdf
Porcentaje de población blanca europea en Europa Occidental (1923-2024).pdfPorcentaje de población blanca europea en Europa Occidental (1923-2024).pdf
Porcentaje de población blanca europea en Europa Occidental (1923-2024).pdfJC Díaz Herrera
 
REPORTE DE HOMICIDIO DOLOSO IRAPUATO ABRIL 2024
REPORTE DE HOMICIDIO DOLOSO IRAPUATO ABRIL 2024REPORTE DE HOMICIDIO DOLOSO IRAPUATO ABRIL 2024
REPORTE DE HOMICIDIO DOLOSO IRAPUATO ABRIL 2024IrapuatoCmovamos
 
PIB PERÚ datos y análisis de los últimos años
PIB PERÚ datos y análisis de los últimos añosPIB PERÚ datos y análisis de los últimos años
PIB PERÚ datos y análisis de los últimos añosEstefaniaRojas54
 
ETICA EN LA CADENAS la cadena de suministro
ETICA EN LA CADENAS la cadena de suministroETICA EN LA CADENAS la cadena de suministro
ETICA EN LA CADENAS la cadena de suministroIrisMoreno27
 
Cesar Vilchis Vieyra Cesar Vilchis Vieyra
Cesar Vilchis Vieyra  Cesar Vilchis VieyraCesar Vilchis Vieyra  Cesar Vilchis Vieyra
Cesar Vilchis Vieyra Cesar Vilchis Vieyraestudiantes2010
 
EPIDEMIO CANCER PULMON resumen nnn.pptx
EPIDEMIO CANCER PULMON  resumen nnn.pptxEPIDEMIO CANCER PULMON  resumen nnn.pptx
EPIDEMIO CANCER PULMON resumen nnn.pptxJEFFERSONMEDRANOCHAV
 
Principales Retos Demográficos de Puerto Rico
Principales Retos Demográficos de Puerto RicoPrincipales Retos Demográficos de Puerto Rico
Principales Retos Demográficos de Puerto RicoRaúl Figueroa
 
Los más ricos administradores de fondo de cobertura (1968-2024).pdf
Los más ricos administradores de fondo de cobertura (1968-2024).pdfLos más ricos administradores de fondo de cobertura (1968-2024).pdf
Los más ricos administradores de fondo de cobertura (1968-2024).pdfJC Díaz Herrera
 

Último (20)

PLAN ANUAL DE PROYECTO 2020. para mejorar
PLAN ANUAL DE PROYECTO 2020. para mejorarPLAN ANUAL DE PROYECTO 2020. para mejorar
PLAN ANUAL DE PROYECTO 2020. para mejorar
 
Investigacion cualitativa y cuantitativa....pdf
Investigacion cualitativa y cuantitativa....pdfInvestigacion cualitativa y cuantitativa....pdf
Investigacion cualitativa y cuantitativa....pdf
 
Las familias más ricas de África en el año (2024).pdf
Las familias más ricas de África en el año (2024).pdfLas familias más ricas de África en el año (2024).pdf
Las familias más ricas de África en el año (2024).pdf
 
Industria musical de EUA vs Industria musical Corea del Sur (2024).pdf
Industria musical de EUA vs Industria musical Corea del Sur (2024).pdfIndustria musical de EUA vs Industria musical Corea del Sur (2024).pdf
Industria musical de EUA vs Industria musical Corea del Sur (2024).pdf
 
Análisis de datos en acción: Optimizando el crecimiento de Cyclistic
Análisis de datos en acción: Optimizando el crecimiento de CyclisticAnálisis de datos en acción: Optimizando el crecimiento de Cyclistic
Análisis de datos en acción: Optimizando el crecimiento de Cyclistic
 
Posiciones_del_sionismo_en_los_imperios globales de la humanidad (2024).pdf
Posiciones_del_sionismo_en_los_imperios globales de la humanidad (2024).pdfPosiciones_del_sionismo_en_los_imperios globales de la humanidad (2024).pdf
Posiciones_del_sionismo_en_los_imperios globales de la humanidad (2024).pdf
 
Alfredo Gabriel Rodriguez Yajure Tarea#1
Alfredo Gabriel Rodriguez Yajure Tarea#1Alfredo Gabriel Rodriguez Yajure Tarea#1
Alfredo Gabriel Rodriguez Yajure Tarea#1
 
Letra de cambio definición y características.ppt
Letra de cambio definición y características.pptLetra de cambio definición y características.ppt
Letra de cambio definición y características.ppt
 
CALENDARIZACIÓN ACTUALIZADA DEL 2024 alt.pdf
CALENDARIZACIÓN ACTUALIZADA DEL 2024 alt.pdfCALENDARIZACIÓN ACTUALIZADA DEL 2024 alt.pdf
CALENDARIZACIÓN ACTUALIZADA DEL 2024 alt.pdf
 
metodo SOAP utilizado para evaluar el estado de un paciente
metodo SOAP utilizado para evaluar el estado de un pacientemetodo SOAP utilizado para evaluar el estado de un paciente
metodo SOAP utilizado para evaluar el estado de un paciente
 
decreto 2090 de 2003.pdf actividades de alto riesgo en Colombia
decreto 2090 de 2003.pdf actividades de alto riesgo en Colombiadecreto 2090 de 2003.pdf actividades de alto riesgo en Colombia
decreto 2090 de 2003.pdf actividades de alto riesgo en Colombia
 
La Guerra Biologica - Emiliano Paico Vilchez.pdf
La Guerra Biologica - Emiliano Paico Vilchez.pdfLa Guerra Biologica - Emiliano Paico Vilchez.pdf
La Guerra Biologica - Emiliano Paico Vilchez.pdf
 
Porcentaje de población blanca europea en Europa Occidental (1923-2024).pdf
Porcentaje de población blanca europea en Europa Occidental (1923-2024).pdfPorcentaje de población blanca europea en Europa Occidental (1923-2024).pdf
Porcentaje de población blanca europea en Europa Occidental (1923-2024).pdf
 
REPORTE DE HOMICIDIO DOLOSO IRAPUATO ABRIL 2024
REPORTE DE HOMICIDIO DOLOSO IRAPUATO ABRIL 2024REPORTE DE HOMICIDIO DOLOSO IRAPUATO ABRIL 2024
REPORTE DE HOMICIDIO DOLOSO IRAPUATO ABRIL 2024
 
PIB PERÚ datos y análisis de los últimos años
PIB PERÚ datos y análisis de los últimos añosPIB PERÚ datos y análisis de los últimos años
PIB PERÚ datos y análisis de los últimos años
 
ETICA EN LA CADENAS la cadena de suministro
ETICA EN LA CADENAS la cadena de suministroETICA EN LA CADENAS la cadena de suministro
ETICA EN LA CADENAS la cadena de suministro
 
Cesar Vilchis Vieyra Cesar Vilchis Vieyra
Cesar Vilchis Vieyra  Cesar Vilchis VieyraCesar Vilchis Vieyra  Cesar Vilchis Vieyra
Cesar Vilchis Vieyra Cesar Vilchis Vieyra
 
EPIDEMIO CANCER PULMON resumen nnn.pptx
EPIDEMIO CANCER PULMON  resumen nnn.pptxEPIDEMIO CANCER PULMON  resumen nnn.pptx
EPIDEMIO CANCER PULMON resumen nnn.pptx
 
Principales Retos Demográficos de Puerto Rico
Principales Retos Demográficos de Puerto RicoPrincipales Retos Demográficos de Puerto Rico
Principales Retos Demográficos de Puerto Rico
 
Los más ricos administradores de fondo de cobertura (1968-2024).pdf
Los más ricos administradores de fondo de cobertura (1968-2024).pdfLos más ricos administradores de fondo de cobertura (1968-2024).pdf
Los más ricos administradores de fondo de cobertura (1968-2024).pdf
 

cap5sl.pdf

  • 1. Edgar Acuña Analisis de Regresion 1 CAPÍTULO 5 REGRESIÓN CON VARIABLES CUALITATIVAS Edgar Acuña Fernández Departamento de Matemáticas Universidad de Puerto Rico Recinto Universitario de Mayagüez
  • 2. Edgar Acuña Analisis de Regresion 2 Regresión con variables predictoras cualitativas • A veces algunas de las variables predictoras a considerar son cuantitativas y otras cualitativas. • Ejemplos de variables cuantitativas son: años de experiencia, años de educación, edad, etc. • Ejemplos de variables cualitativas son: sexo del empleado, estado civil, jerarquía del empleado, etc.
  • 3. Edgar Acuña Analisis de Regresion 3 Tipos de Variables cualitativas Variable “dummy” o variable binaria • Variables nominales • Variables ordinales
  • 4. Edgar Acuña Analisis de Regresion 4 Nota: En un problema de regresión debe haber por lo menos una variable predictora cuantitativa. Si todas las variables predictoras fueran cualitativas entonces el problema se convierte en uno de diseños experimentales.
  • 5. Edgar Acuña Analisis de Regresion 5 Regresión con una sola variable “Dummy” • Consideremos un modelo de regresión con una sola variable cualitativa A y una variable cuantitativa X. Es decir, Y=β0+β1X+β2A + ε (*) Consideremos los casos: Si A=0, Y= β0 + β1X + ε Si A=1, Y= (β0 + β2) + β1X + ε Es decir que el modelo (*) considera que las pendientes de ambas lineas son iguales. El valor estimado de β2 representa el cambio promedio en la variable de respuesta al cambiar el valor de la variable “dummy”.
  • 6. Edgar Acuña Analisis de Regresion 6 Si se desea comparar las pendientes de las línea de regresión de los dos grupos se puede usar una prueba de t similar a la prueba de comparación de dos medias y asumiendo que hay homogeneidad de varianza. También se puede usar una prueba de F parcial o probando la hipótesis Ho: β3=0 en el siguiente modelo Y=β0+β1A+β2X+β3AX +e Cuando la hipótesis nula no es rechazada se concluye que la pendiente de regresion de ambos grupos son iguales. Si no hubiera igualdad de varianza de los dos grupos, habria que usar una prueba de t aproximada similar al problema de Behrens-Fisher. Aquí se usa una t con grados de libertad aproximados
  • 7. Edgar Acuña Analisis de Regresion 7 Comparar Lineas de Regresión para Varios Grupos Supongamos que se tiene una variable predictora continua X para explicar el comportamiento de Y en tres grupos. Surgen tres modelos de regresión: i) Y= β01+β11X+ ε ii) Y=β02+β12X+ ε iii) Y=β03+β13X+ ε Para relacionar las lineas de regresión hay que introducir 3 variables “dummy” para identificar los grupos G1, G2, y G3 y 3 variables adicionales Z1=G1X, Z2=G2X, y Z3=G3X.
  • 8. Edgar Acuña Analisis de Regresion 8 Posibles modelos a) Las lineas se intersecten en un punto cualquiera, ya que tendrían diferente intersecto y pendiente. b) Las lineas sean paralelas (homogeneidad de pendientes). c) Las lineas tengan el mismo intercepto pero distinta pendientes (homogeneidad de interceptos). d) Las tres lineas coincidan.
  • 9. Edgar Acuña Analisis de Regresion 9 Prueba de hipótesis Ho: el modelo satisface b ) o c) o d) versus Ha: el modelo satisface a) Se usa una prueba de F parcial dada por Fm=[(SSEm-SSEa)/(glm-gla)]/[SSEa/gla] Donde m, representa los modelos b,c, o d. grados de libertad. La F parcial se distribuye como una F con (glm-gla, gla)
  • 10. Edgar Acuña Analisis de Regresion 10 Regresión Logística La variable de respuesta Y es una del tipo binario y que se tiene p variables predictoras x’s (aleatorias) Se tiene una muestra de tamaño n=n1+n2 , con n1 observaciones de la clase C1 y n2 observaciones de la clase C2 . La variable predictora Y se define como 0 y 1 para cada clase.
  • 11. Edgar Acuña Analisis de Regresion 11 La Curva Logística Funcion de distribución logística ) 1 ( 1 ) ( x e x F − + =
  • 12. Edgar Acuña Analisis de Regresion 12 Suposición en el Modelo Logístico • Sea f(x/Ci) (i=1,2) la función de densidad del vector aleatorio p-dimensional x en la clase Ci, en el modelo logístico se asume que: Donde, β es un vector de p parámetros y α representa el intercepto. x β' x x + = α ) ) / ( ) / ( log( 2 1 C f C f
  • 13. Edgar Acuña Analisis de Regresion 13 Odds Ratio Sea p=P(Y=1/x) la probabilidad a posteriori de que Y sea igual a 1 para un valor observado de x Se define la razón de apuestas (odds ratio) como: Donde: πi representa la probabilidad a priori de que Y pertenezca a la clase Ci. ) / ( ) / ( ) ( ) 0 / ( } 0 { ) ( ) 1 / ( } 1 { 1 2 2 1 1 C f C f f y f Y P f y f Y P p p x x x x x x π π = = = = = = −
  • 14. Edgar Acuña Analisis de Regresion 14 Transformación logit • Tomando logaritmos se tiene • Luego con la suposicion se tiene que: • Equivalentemente, ) / ( ) / ( log ) log( ) 1 log( 2 1 2 1 C f C f p p x x + = − π π x ' ) 1 log( β α + = − p p ) ' exp( 1 ) ' exp( x x β α β α + + + = p
  • 15. Edgar Acuña Analisis de Regresion 15 Cumplimiento de la suposicion del modelo Si las variables x en cada clase se distribuyen normalmente con medias u1, u2 y matríz de covarianza Σ entonces se satisface la suposición dado que: (u1-u2 )' Σ-1(x-1/2(u1+u2)) Donde La suposición también para otros tipos de distribuciones distintas de la normal multivariada tales como distribuciones de Bernoulli, y mezclas de éstas. = ) ) / ( ) / ( log( 2 1 C f C f x x 2 / ' ) u (u Σ ) u (u 2 1 1 2 1 + − − = − α 1 2 1 Σ ) u (u β − − = '
  • 16. Edgar Acuña Analisis de Regresion 16 Estimación del modelo logístico Método de Máxima Verosimilitud Dada una observación x, las probabilidades de que ésta pertenezca a las clases C1 y C2 son : Considerando una muestra de tamaño n=n1+n2 y un parámetro binomial p igual a la función de verosimilitud es de la forma ) ' exp( 1 ) ' exp( ) / ( 1 x x x β α β α + + + = C P ) ' exp( 1 1 ) / ( 1 ) / ( 1 2 x x x β α + + = − = C P C P ∏ + + ⋅ ∏ + + + = + = = n n j n i a L 1 1 1 1 ) exp( 1 1 ) exp( 1 ) exp( ) , ( β ' x β ' x β ' x β j i i α α α ) exp( 1 /( ) exp( x β' x β' + + + α α La solucion de la equacion de verosimilitud es solo numerica
  • 17. Edgar Acuña Analisis de Regresion 17 Otra forma de estimar los parámetros α y β Consideramos la regresión lineal múltiple de logit( ) versus x1,x2,…,xp luego su varianza será aproximadamente: Asi se llega a un problema donde la varianza no es constante y se puede usar mínimos cuadrados ponderados con pesos wi(x) = n1 (x)(1- (x)) para estimar los parámetros α y β del modelo logístico. p̂ ) 1 ( 1 ) 1 ( ] ) 1 ( 1 [ ] ˆ 1 ˆ [ln( 1 1 2 p p n n p p p p p p Var − = − − ≅ − p̂ p̂
  • 18. Edgar Acuña Analisis de Regresion 18 Medidas de Confiabilidad del Modelo Cuantifican el nivel de ajuste del modelo al conjunto de datos: • La Devianza • El Pseudo-R2 • El Criterio de Información de Akaike (AIC) • La Prueba de Bondad de Ajuste de Hosmer- Lemeshov.
  • 19. Edgar Acuña Analisis de Regresion 19 La Devianza Es similar a la suma de cuadrados del error de la regresión lineal. Si la variable de respuesta Y no está grupada se tiene que: D tiene una distribución Ji-Cuadrado con (n-p-1)gl. Si D es mayor que una Ji-Cuadrado con (n-p-1)gl para un nivel de significación dado entonces el modelo logístico no es confiable. : 1 : 0 ˆ 2{ log( ) log(1 )} i i n n i i i y i y D p p = = = − + − ∑ ∑ )
  • 20. Edgar Acuña Analisis de Regresion 20 El Pseudo-R2 • Es similar al R2 de la regresión lineal se define por: Donde la DevianzaNula es la devianza considerando solamente el intercepto y se distribuye como una Ji-Cuadrado con (n-1)gl. Para hallar la DevianzaNula se hace una regresión logística considerando que hay una sola variable predictora cuyos valores son todos unos. % 100 ) . 1 ( 2 Nula Devianza Devianza R Pseudo − = −
  • 21. Edgar Acuña Analisis de Regresion 21 El Criterio de Información de Akaike (AIC) Determina si un modelo es mejor que otro. Esta dado por: AIC=D+2(p+1) Donde, p es el número de variables predictoras. Un modelo es mejor que otro si su AIC es más pequeño.
  • 22. Edgar Acuña Analisis de Regresion 22 La Prueba de Bondad de Ajuste de Hosmer-Lemeshov. Se aplica cuando los datos son dados en forma agrupada y se define por Donde g es el número de grupos, es el número de observaciones en el i-ésimo grupo Oi es la suma de las y’s en el i-ésimo grupo y es el promedio de las pi en el i-ésimo grupo. ∑ = − − = g i i i i i i i p p n p n O C 1 2 ) 1 ( ' ) ' ( i n' i p
  • 23. Edgar Acuña Analisis de Regresion 23 Estadisticas Influenciales para regresión logística • Residuales de Pearson es similar al residual estudentizado usado en regresión lineal yi representa el número de veces que y=1 entre las mi repeticiones de Xi , de lo contrario mi=1 para todo i. • Residuales de Devianza Esta dado por: si yi=0 y si yi=1 Una observación será anormal si el residual de devianza es mayor que 2 en valor absoluto, entonces la observación correspondiente es anormal. ) ˆ 1 ( ˆ ˆ i i i i i i i p p m p m y r − − = | ) ˆ 1 log( | 2 i i p D − − = | ) ˆ log( | 2 i i p D =
  • 24. Edgar Acuña Analisis de Regresion 24 Uso de la regresión logística en Clasificación: La forma mas facil de discriminar es considerar que si p>0.5 la obervación pertenece a la clase que uno está interesado. Otros metodos son: i) Plotear el porcentaje de obervaciones que poseen el evento que han sido correctamente clasificadas (Sensitividad) versus distintos niveles de probabilidad y el porcentajes de observaciones de la otra clase que han sido correctamente clasificadas (especifidad) versus los mismos niveles de probabilidad anteriormente usados, en la misma gráfica. La probabilidad que se usará para clasificar las observaciones se obtienen intersectando las dos curvas.
  • 25. Edgar Acuña Analisis de Regresion 25 Las gráficas de los dos métodos aparecen en la siguiente figuras y embos caso el p-óptimo a usarse es p=0.3 0.0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 0 50 100 Especificidad Sensitividad p-optimo Este es el hallar el p-optimo Interseccion de las curvas de sensitividad y de especificidad para Ejemplo
  • 26. Edgar Acuña Analisis de Regresion 26 La curva ROC ii) Usar la curva ROC (Receiver Operating Characteristic Curva). En este caso se grafica la sensitividad versus (1-especifidad)100%, y se coge como el p ideal aquel que está más cerca a la esquina superior izquierda, osea al punto (100,0).
  • 27. Edgar Acuña Analisis de Regresion 27 Ejemplo de curva ROC