SlideShare una empresa de Scribd logo
1 de 16
Descargar para leer sin conexión
Tema 1: Introducci´on al An´alisis de
datos Categ´oricos
Introducci´on
Los datos categ´oricos aparecen cuando una variable se mide en una escala que s´olo
clasifica a los encuestados en un n´umero limitado de grupos. Por ejemplo, una encuesta
donde se recoge informaci´on sobre variables como sexo, estado civil y afiliaci´on pol´ıtica.
Adem´as de distinguir una variable como categ´orica (cualitativa) o continua (cuanti-
tativa), las variables tambi´en se pueden clasificar como independientes o dependientes.
El t´ermino independiente se refiere a una variable que se puede manipular experimen-
talmente (e.g. el tipo de tratamiento que se le asigna a cada persona), pero tambi´en
se aplica a menudo a una variable que se utiliza para predecir otra variable (e.g. nivel
socio-econ´omico).
El t´ermino dependiente se refiere en general a una variable cuyo inter´es primordial
es el resultado o la respuesta. Por ejemplo, se pueden considerar como variables depen-
dientes, el resultado de un tratamiento (basado en el tipo de tratamiento) o el nivel
educativo previsto a partir de una situaci´on socio-econ´omica,.
Otro ejemplo: supongamos que se desea determinar si los colegios concertados di-
fieren de manera sustancial de los colegios privados y p´ublicos en base a ciertos datos
demogr´aficos. Por ejemplo, la ubicaci´on: urbano, suburbano o rural, tipo: p´ublica o pri-
vada, situaci´on predominante socio-econ´omica de los estudiantes: bajo, medio o alto,
etc. Para este tipo de an´alisis es necesario usar t´ecnicas de an´alisis de datos categ´oricos,
porque todas las variables involucradas son categ´oricas.
Otro ejemplo: supongamos que un investigador quiere predecir si un estudiante se
graduar´a en secundaria en base a cierta informaci´on como el n´umero de d´ıas de asisten-
cia, promedio de las calificaciones y los ingresos familiares.
En este caso, se necesita un enfoque de an´alisis categ´orico donde la graduaci´on (s´ı o
no) sirve como variable dependiente en funci´on de otras variables explicativas.
1
Escalas de medida
La escala de medida de una variable de respuesta categ´orica es fundamental para la
elecci´on del an´alisis estad´ıstico apropiado.
Las variables de respuesta categ´orica pueden ser
Dicot´omicas
Ordinales
Nominales
De recuento
Respuestas dicot´omicas son aquellas que tienen dos posibles resultados que a menudo
son s´ı y no. ¿Se desarrollar´a la enfermedad? ¿El votante votar´a por el candidato A o
por el B? ¿Aprobar´a el examen?
Con frecuencia, las respuestas de los datos categ´oricos representan m´as de dos re-
sultados posibles y con frecuencia en estos resultados es posible considerar alg´un orden
inherente. Estas variables tienen una escala de respuesta ordinal de medici´on. ¿El nuevo
plan de estudios gusta a los estudiantes? ¿La muestra de agua es de dureza baja, media
o alta? En el primer caso, el orden de los niveles de respuesta es clara, pero no hay
ninguna pista en cuanto a las distancias relativas entre los niveles. En el segundo caso,
hay una distancia posible entre los niveles: medio podr´ıa tener el doble de la dureza de
baja y alta podr´ıa tener tres veces la dureza de baja.
Si existen m´as de dos categor´ıas posibles de resultados y no hay un orden inherente
entre las categor´ıas, entonces se tiene una escala de medida nominal. ¿A cu´al de los
cuatro candidatos votaste en las elecciones municipales de la ciudad? ¿Prefieres la playa,
la monta˜na o la ciudad para ir de vacaciones? No existe una escala subyacente en esos
resultados y no hay una forma aparente de ordenarlos.
Las variables categ´oricas a veces contienen recuentos. En lugar de considerar las
categor´ıas que presenta cada observaci´on, (s´ı, no) (bajo, medio, alto), los resultados que
se estudian son los n´umeros mismos. El tama˜no de la camada, ¿fue de 1, 2, 3, 4 ´o 5
animales? La casa tiene ¿1, 2, 3 ´o 4 equipos de aire acondicionado?
En la metodolog´ıa cl´asica habitual se analiza la media de los recuentos, pero los
supuestos que se tienen que cumplir en un modelo lineal est´andar con datos continuos,
no se cumplen a menudo con datos discretos. En general, los recuentos no se distribuyen
seg´un una distribuci´on normal y la varianza no suele ser homog´enea.
2
Distribuciones de Probabilidad
Distribuci´on binomial
Habitualmente, los datos proceden de n ensayos independientes e id´enticos con dos
posibles resultados para cada uno: ´exito y fracaso, con igual probabilidad de ´exito para
cada prueba. Ensayos independientes significa que los resultados son variables aleatorias
independientes. En particular, el resultado de una prueba no afecta al resultado de otra.
Se denominan ensayos de Bernoulli.
Se denota como π a la probabilidad de ´exito para un ensayo dado e Y denota el
n´umero de ´exitos de las n pruebas:
P(y) =
n!
y! (n − y)!
πy
(1 − π)n−y
para 0, 1, 2, . . . , n.
La distribuci´on binomial para n ensayos con par´ametro π tiene como media y des-
viaci´on est´andar:
E(Y ) = µ = nπ
σ = nπ(1 − π)
Las gr´aficas de las funciones de probabilidad y distribuci´on son, respectivamente,
# Script de R
# Funcion de p r o b a b i l i d a d de una binomial
X11()
plot (0:8, dbinom (0:8 ,8 ,0.3), type="h", xlab="x",ylab="P(X=x)",
xlim=c(-1,9))
title("Funcion de probabilidad de X∼Bin(8, 0.3)")
# Funcion de d i s t r i b u c i o n de una binomial
X11()
plot (0:8, pbinom (0:8 ,8 ,0.3), type="n", xlab="x", ylab="F(x)",
xlim=c(-1,9), ylim=c(0,1))
segments (-1,0,0,0)
segments (0:8, pbinom (0:8,8,.3), 1:9, pbinom (0:8,8,.3))
lines (0:7, pbinom (0:7,8,.3), type="p", pch =16)
segments (-1,1,9,1, lty =2)
title("Funcion de distribucion de X∼Bin(8, 0.3)")
3
4
Para generar 1000 observaciones de una distribuci´on binomial Bin (n = 5, p = 0,5):
# Uso la libreria PASWR
library(PASWR)
bino.gen (1000 , 5, 0.5)
Distribuci´on Multinomial
Algunos ensayos tienen m´as de dos resultados posibles. Por ejemplo, el resultado de
un un accidente de autom´ovil se puede clasificar en varias posibles categor´ıas:
1. sin lesiones,
2. lesiones que no requieren hospitalizaci´on,
3. lesiones que requieren hospitalizaci´on,
4. muerte.
5
Cuando los ensayos son independientes respecto a cada categor´ıa, la distribuci´on de
los recuentos en cada categor´ıa sigue una distribuci´on multinomial.
Sea c el n´umero de posibles categor´ıas. Dados n sucesos, se puede definir la variable
aleatoria Xi (para i = 1, . . . , c) que indica el n´umero de veces que aparece el resultado
i. Se denota la probabilidad de obtener cada resultado i como {π1, π2, . . . , πc} donde
i πi = 1.
Para n observaciones independientes, la probabilidad de que n1 observaciones caigan
en la categor´ıa 1, n2 caigan en la categor´ıa 2, ..., nc caigan en la categor´ıa c, (donde
i ni = n) es igual a
P (n1, n1, . . . , nc) =
n!
n1!n2! · · · nc!
πn1
1 πn2
2 · · · πnc
c .
La distribuci´on binomial es, en realidad, un caso particular de la distribuci´on multinomial
cuando c = 2.
Ejemplos:
Se puede generar una muestra de una multinomial Mult(10, (0,1, 0,2, 0,7)), o bien
calcular la probabilidad conjunta del vector (3, 7, 2) o del vector (1, 2, 9).
# D i s t r i b u c i o n m u l t i n o m i a l con R
rmultinom (10, size =12, prob=c(0.1 , 0.2 , 0.7))
dmultinom(c(3, 7, 2), prob=c(0.1 , 0.2 , 0.7))
dmultinom(c(1, 2, 9), prob=c(0.1 , 0.2 , 0.7))
La esperanza y varianza de observar el suceso i en n ensayos es
E (Xi) = npi
V ar (Xi) = npi(1 − pi)
La covarianza entre los sucesos i y j observados en n ensayos es
Cov (Xi, Xj) = −npipj (i = j)
Inferencia para la distribuci´on binomial
El m´etodo habitual en Inferencia Estad´ıstica, desde el punto de vista cl´asico, es
la estimaci´on por m´axima verosimilitud. El estimador de m´axima verosimilitud de un
par´ametro es el valor del par´ametro, para el que la probabilidad de obtener los datos
observados es mayor. Por ejemplo, si en n = 10 ensayos se obtienen 0 ´exitos, la funci´on
6
de verosimilitud en este caso l(π) = (1 − π)10
alcanza el m´aximo para ˆπ = 0. Es decir el
resultado de 0 ´exitos en 10 ensayos es m´as probable que ocurra cuando π = 0 que para
cualquier otro valor.
As´ı, en general, si una variable aleatoria X se observa con x ´exitos en n ensayos, el
estimador de m´axima verosimilitud (EMV ) de la probabilidad de ´exito p es simplemente
ˆp = x/n, la proporci´on observada de ´exitos entre n ensayos. La varianza es
V ar(p) =
p(1 − p)
n
y un intervalo de confiaza al 100×(1 − α) aproximado para p es
p ± zα
s
p(1 − p)
n
que se denomina, en algunos textos, intervalo de Wald.
Una mejor alternativa es el llamado intervalo de Wilson, (o q-interval) que se calcula
como un subproducto del Teorema Central del L´ımite.
p
n
n + z2
α
s
+
1
2
z2
α
s
n + z2
α
s
±
p(1 − p)
n



n2z2
α
s
n + z2
α
s
2


 +
1
4



z4
α
s
n + z2
α
s
2



Esta aproximaci´on funciona mejor que el intervalo de Wald para valores peque˜nos de n.
Estimaci´on num´erica de la funci´on de verosimilitud
En R se puede calcular de manera num´erica los estimadores de m´axima verosimilitud.
Por ejemplo:
# Funcion de v e r o s i m i l i t u d de una binomial
# Se define la funcion de v e r o s i m i l i t u d para una muestra de
# una binomial con N =10 Y =7 exitos
lklhd <- function(p){
dbinom (7,10,p)}
# Grafica de la funcion de v e r o s i m i l i t u d
plot(lklhd , 0, 1, xlab="p_i", ylab="l(p)",
main="Verosimilitud de una Binomial , N=10, Y=7")
# Estimador de maxima v e r o s i m i l t u d mediante la funcion nlm ()
optimize(lklhd ,c(0,1),maximum=TRUE)
7
Los intervalos de confianza exactos, o intervalos de Clopper-Pearson, se basan en el
c´alculo mediante la funci´on de distribuci´on de la distribuci´on binomial, no en aproxima-
ciones mediante la normal. Sin embargo, no son exactas en el sentido de que la funci´on de
distribuci´on binomial es discontinua en s´ı, lo que impide en la realidad el c´alculo exacto.
Estos intervalos son conservadores, es decir, suelen ser mayores que los calculados seg´un
los m´etodos asint´oticos.
Test de hip´otesis usando el m´etodo de la raz´on de verosimilitu-
des
En el m´etodo de la raz´on de verosimilitudes se compara la verosimilitud (probabilidad)
de los datos observados usando la proporci´on especificada bajo la hip´otesis nula, respecto
a la verosimilitud de los datos observados usando la estimaci´on muestral. La verosimilitud
obtenida bajo la hip´otesis nula se denota mediante L0 y la verosimilitud obtenida usando
el estimador muestral se denota como L1.
El cociente L0/L1 representa la raz´on de verosimilitudes. Si L1 (la verosimilitud
obtenida a partir de los datos observados) es mucho mayor que L0 (la verosimilitud bajo
la hip´otesis nula H0) la raz´on de verosimilitudes ser´a mucho menor que uno e indicar´a que
los datos muestran evidencia contra la hip´otesis nula.
El test de la raz´on de verosimilitudes se obtiene tomando el logaritmo (ln) de la raz´on
de verosimilitudes y multiplic´andola por –2. En concreto,
G2
= −2 ln
L0
L1
= −2 [ln (L0) − ln (L1)] .
Un valor alto de G2
(m´as positivo) indica una fuerte evidencia en contra de H0. Bajo
la hip´otesis nula y para una muestra razonablemente grande, G2
sigue una distribuci´on
χ2
con los grados de libertad igual al n´umero de par´ametros libres que existen bajo la
hip´otesis nula. En el caso de las proporciones es igual a 1.
Ejemplo
Se tiene una muestra de 2818 personas tal que el 34 % bebe la cantidad diaria de
agua recomendada (1.5 litros). Un intervalo de confianza aproximado del 95 % para la
proporci´on de toda la poblaci´on es, entonces,
0,34 ±
0,34 · 0,66
2818
= 0,34 ± 0,017 = (0,323, 0,357).
El intervalo de Wilson calculado es
8
p
n
n + z2
α
s
+
1
2
z2
α
s
n + z2
α
s
±
p(1 − p)
n



n2z2
α
s
n + z2
α
s
2


 +
1
4



z4
α
s
n + z2
α
s
2


 =
0,34 ·
2818
2818 + 1,962
+
1
2
1,962
2818 + 1,962
±
0,34 · 0,66
2818
·
28182 · 1,962
(2818 + 1,962)2 +
1
4
·
1,964
(2818 + 1,962)2 =
(0,32274, 0,35770)
Ejemplo
Uso de R para calcular intervalos de confianza para el par´ametro p de la binomial.
Supongamos un ensayo con 50 observaciones, entre los que se encuentran 46 ´exitos.
Se trata de calcular los intervalos de confianza.
# x =46 exitos
# n =50 o b s e r v a c i o n e s
res = prop.test(x=46, n=50, conf.level =0.95 , correct=F)
res
1-sample proportions test without continuity correction
data: 46 out of 50, null probability 0.5
X-squared = 35.28 , df = 1, p-value = 2.855e -09
alternative hypothesis: true p is not equal to 0.5
95 percent confidence interval:
0.8116175 0.9684505
sample estimates:
p
0.92
# A l t e r n a t i v a
library(Hmisc)
binconf (46,50, method="all")
PointEst Lower Upper
Exact 0.92 0.8076572 0.9777720
Wilson 0.92 0.8116175 0.9684505
Asymptotic 0.92 0.8448027 0.9951973
9
Ejemplo
Proporci´on de personas vegetarianas: Supongamos que se plantea un cuestionario a un
grupo de estudiantes donde se pregunta si son vegetarianos o no. Entre n = 25 estudian-
tes, y = 0 de ellos dicen ser vegetarianos. Aunque no es realmente una muestra aleatoria
de una poblaci´on, se puede usar como ejemplo para calcular los intervalos de confianza
al 95 % para el par´ametro p de la binomial.
lklhd <- function(p){
dbinom (0,25,p)}
# Grafica de la funcion de v e r o s i m i l i t u d
plot(lklhd , 0, 1, xlab="p_i", ylab="l(p)",
main="Verosimilitud de una Binomial , N=25, Y=0")
# Estimador de maxima v e r o s i m i l t u d mediante la funcion nlm ()
optimize(lklhd ,c(0,1),maximum=TRUE)
res = prop.test(x=0, n=25, conf.level =0.95 , correct=F)
res$conf.int
Inferencia para la distribuci´on multinomial
Los par´ametros que se tienen que estimar son (π1, . . . , πc) donde πc = 1 − c−1
i=1 πi.
Se obtiene que los estimadores por m´axima verosimilitud son
πj =
nj
n
para j = 1, . . . c.
Es decir, los estimadores son simplemente las proporciones muestrales.
Contraste para la distribuci´on de una multinomial
En 1900 Karl Pearson present´o una prueba de hip´otesis que fue uno de los prime-
ros m´etodos de inferencia que se inventaron y tuvo un gran impacto en el an´alisis de
datos categ´oricos, que hasta ese momento se hab´ıa centrado en la descripci´on de las
asociaciones entre variables.
La prueba de Pearson eval´ua si los par´ametros de una multinomial son iguales a unos
valores previos especificados.
Se considera como hip´otesis nula
H0 : πj = πj0 para j = 1, . . . , c donde j πj0 = 1
10
Cuando la hip´otesis nula es cierta, entonces los valores esperados de nj llamadas
frecuencias esperadas son iguales a nπj0 para j = 1, . . . , c.
Se define el siguiente estad´ıstico:
X2
=
j
(nj − nπj0)2
nπj0
.
Intuitivamente, diferencias elevadas entre lo que se espera seg´un H0 y lo observado
implica a su vez valores grandes de X2
.
Para un el tama˜no muestral no peque˜no, X2
se distribuye como una chi cuadrado χ2
con c − 1 grados de libertad.
El test es muy sensible a los tama˜nos muestrales. Si alguna categor´ıa tiene una
frecuencia esperada baja (menor que 5) el test pierde mucha potencia ya que se basa en
la aproximaci´on asint´otica a la distribuci´on χ2
.
Ejemplo
El test de Pearson se us´o en Gen´etica para contrastar las teor´ıas de Mendel so-
bre la herencia. Mendel cruz´o guisantes amarillos puros con guisantes verdes puros. Su
predicci´on era que 3/4 ten´ıan que ser amarillos y 1/4 verdes.
En un experimento se obtuvo n = 8023 guisantes, de los cuales n1 = 6022 fueron
amarillos y n2 = 2001 verdes.
Las frecuencias esperadas son, entonces,
H0 : π10 = 0,75
π20 = 0,25
de modo que
X2
=
(6022 − 8023 · 0,75)2
8023 · 0,75
+
(2001 − 8023 · 0,25)2
8023 · 0,25
= 1,59 × 10−2
Al compararlo con una distribuci´on χ2
con 1 grado de libertad, se obtiene un p-valor
igual a 0.90.
# Con R
pchisq (0.015 ,1, lower.tail=FALSE)
# D i r e c t a m e n t e con el comando chisq.test
chisq.test(x=c(6022 ,2001) ,p=c(.75 ,.25))
11
[1] 0.9025233
Chi -squared test for given probabilities
data: c(6022 , 2001)
X-squared = 0.015 , df = 1, p-value = 0.9025
12
Pero Fisher (y otros) vieron que Mendel tuvo demasiada suerte en su experimenta-
ci´on...
Fisher coment´o textualmente: “The general level of agreement between Mendel’s ex-
pectations and his reported results shows that it is closer than would be expected in the
best of several thousand repetitions... I have no doubt that Mendel was deceived by a
gardening assistant, who knew only too well what his principal expected from each trial
made.”
Con SAS se usar´ıa el siguiente programa:
OPTIONS ls =70;
DATA prueba1;
INPUT prof $ count;
DATALINES;
amarillos 6022
verdes 2001
;
PROC freq order=data;
weight count;
tables prof / binomial (p=0.75) alpha =0.05;
exact binomial;
RUN;
Se obtiene el siguiente resultado:
13
Procedimiento FREQ
Frecuencia Porcentaje
prof Frecuencia Porcentaje acumulada acumulado
_________________________________________________________________
amarillo 6022 75.06 6022 75.06
verdes 2001 24.94 8023 100 .00
Proporcion binomial para prof = amarillo
________________________________________
Proporcion (P) 0.7506
ASE 0.0048
95 % Limite conf. inferior 0.7411
95 % Limite conf. superior 0.7601
Limites conf. exactos
95 % Limite conf. inferior 0.7410
95 % Limite conf. superior 0.7600
Test de H0: Proporcion = 0.75
ASE bajo H0 0.0048
Z 0.1225
Pr de un lado > Z 0.4513
Pr de dos lados > |Z| 0.9025
Test exacto
Pr de un lado >= P 0.4572
Dos colas = 2 * Una cola 0.9144
Tama∼no de la muestra = 8023
14
Ejemplo
El departamento de instrucci´on p´ublica de Wisconsin usa cuatro categor´ıas para
medir las habilidades matem´aticas: advanced, proficient, basic y minimal.
Se considera una muestra de 71709 estudiantes de grado 10o
en 2006 y se supone que
las proporciones se mantienen en los mismos niveles que en a˜nos anteriores. Los datos
est´an en la siguiente tabla:
Nivel matem´atico Proporci´on esperada Frecuencia esperada Frecuencia observada
Advanced 15 % 10756.35 18644
Proficient 40 % 28683.60 32269
Basic 30 % 21512.70 10039
Minimal 15 % 10756.35 10757
Con R bastar´ıa escribir:
chisq.test(x=c(18644 ,32269 ,10039 ,10757) ,
p=c(0.15 ,0.40 ,0.30 ,0.15))
Con SAS se usar´ıa el siguiente programa:
OPTIONS ls =70;
DATA prueba2;
INPUT prof $ count;
DATALINES;
advanced 18644
proficient 32269
basic 10039
minimal 10757
;
PROC freq order=data;
weight count;
tables prof / testp =(0.15 0.40 0.30 0.15);
RUN;
15
Procedimiento FREQ
Test Frecuencia
Porcentaje
prof Frecuencia Porcentaje Porcentaje acumulada
acumulado
______________________________________________________________________
advanced 18644 26.00 15.00 18644 26.00
proficie 32269 45.00 40.00 50913 71.00
basic 10039 14.00 30.00 60952 85.00
minimal 10757 15.00 15.00 71709 100 .00
Test chi -cuadrado
para proporciones especificadas
_______________________________
Chi -cuadrado 12351 .6415
DF 3
Pr > ChiSq <.0001
Tama∼no de la muestra = 71709
16

Más contenido relacionado

La actualidad más candente

Estadistica 10 crreccion
Estadistica 10 crreccionEstadistica 10 crreccion
Estadistica 10 crreccionCarlos Cáceres
 
distribuciones muestrales
distribuciones muestralesdistribuciones muestrales
distribuciones muestralesJtonymattey
 
39028492 distribucion-t-de-student-scrib
39028492 distribucion-t-de-student-scrib39028492 distribucion-t-de-student-scrib
39028492 distribucion-t-de-student-scribJesus Blumer
 
5 Planteamiento de Hipotesis en mas de 2 Poblaciones (ji cuadrada)
5 Planteamiento de Hipotesis en mas de 2 Poblaciones (ji cuadrada)5 Planteamiento de Hipotesis en mas de 2 Poblaciones (ji cuadrada)
5 Planteamiento de Hipotesis en mas de 2 Poblaciones (ji cuadrada)Ana
 
Analisis de varianza alternativas1
Analisis de varianza alternativas1Analisis de varianza alternativas1
Analisis de varianza alternativas1joanmruizanton
 
Clase14 Evaluación de políticas públicas
Clase14 Evaluación de políticas públicasClase14 Evaluación de políticas públicas
Clase14 Evaluación de políticas públicasNerys Ramírez Mordán
 
Prueba t varianzas combinadas
Prueba t varianzas combinadasPrueba t varianzas combinadas
Prueba t varianzas combinadasjagi100
 
Laminas series bidimensionales y cronologicas
Laminas series bidimensionales y cronologicasLaminas series bidimensionales y cronologicas
Laminas series bidimensionales y cronologicasYolanda Colmenares
 

La actualidad más candente (16)

UNIDAD II
UNIDAD IIUNIDAD II
UNIDAD II
 
Estadistica 10 crreccion
Estadistica 10 crreccionEstadistica 10 crreccion
Estadistica 10 crreccion
 
Ji cuadrada
Ji cuadradaJi cuadrada
Ji cuadrada
 
distribuciones muestrales
distribuciones muestralesdistribuciones muestrales
distribuciones muestrales
 
tipos de prueba de hipotesis
tipos de prueba de hipotesis tipos de prueba de hipotesis
tipos de prueba de hipotesis
 
39028492 distribucion-t-de-student-scrib
39028492 distribucion-t-de-student-scrib39028492 distribucion-t-de-student-scrib
39028492 distribucion-t-de-student-scrib
 
5 Planteamiento de Hipotesis en mas de 2 Poblaciones (ji cuadrada)
5 Planteamiento de Hipotesis en mas de 2 Poblaciones (ji cuadrada)5 Planteamiento de Hipotesis en mas de 2 Poblaciones (ji cuadrada)
5 Planteamiento de Hipotesis en mas de 2 Poblaciones (ji cuadrada)
 
Analisis de varianza alternativas1
Analisis de varianza alternativas1Analisis de varianza alternativas1
Analisis de varianza alternativas1
 
Estadística II (I Bimestre)
Estadística II (I Bimestre)Estadística II (I Bimestre)
Estadística II (I Bimestre)
 
Estadística I (I Bimestre)
Estadística I (I Bimestre)Estadística I (I Bimestre)
Estadística I (I Bimestre)
 
Anova2
Anova2Anova2
Anova2
 
Clase14 Evaluación de políticas públicas
Clase14 Evaluación de políticas públicasClase14 Evaluación de políticas públicas
Clase14 Evaluación de políticas públicas
 
Prueba t varianzas combinadas
Prueba t varianzas combinadasPrueba t varianzas combinadas
Prueba t varianzas combinadas
 
ANOVA
ANOVAANOVA
ANOVA
 
Prueba de hipotesis para dos poblaciones
Prueba de hipotesis para dos poblacionesPrueba de hipotesis para dos poblaciones
Prueba de hipotesis para dos poblaciones
 
Laminas series bidimensionales y cronologicas
Laminas series bidimensionales y cronologicasLaminas series bidimensionales y cronologicas
Laminas series bidimensionales y cronologicas
 

Destacado

Seminario 5. 2
Seminario 5. 2Seminario 5. 2
Seminario 5. 2MariaMarba
 
Seminario 5 parte 3
Seminario 5 parte 3Seminario 5 parte 3
Seminario 5 parte 3MariaMarba
 
Análisis inferencial de datos categóricos
Análisis inferencial de datos categóricosAnálisis inferencial de datos categóricos
Análisis inferencial de datos categóricosVioleta Migallón
 
Loi masculine
Loi masculineLoi masculine
Loi masculinecatavrio
 
El teatro en imágenes
El teatro en imágenesEl teatro en imágenes
El teatro en imágenesinicial4jfk
 
Actividad 2 de lupita
Actividad 2 de lupitaActividad 2 de lupita
Actividad 2 de lupitaJesus Antonio
 
S schmidt v12_n1_2011unidad4
S schmidt v12_n1_2011unidad4  S schmidt v12_n1_2011unidad4
S schmidt v12_n1_2011unidad4 Oscarito Ayala
 
Nouvelle fable de_la_fontaine-sam__o
Nouvelle fable de_la_fontaine-sam__oNouvelle fable de_la_fontaine-sam__o
Nouvelle fable de_la_fontaine-sam__ocatavrio
 
De hefbomen van een succesvolle webshop : eCommerce Kortrijk eXpo
De hefbomen van een succesvolle webshop : eCommerce Kortrijk eXpo De hefbomen van een succesvolle webshop : eCommerce Kortrijk eXpo
De hefbomen van een succesvolle webshop : eCommerce Kortrijk eXpo Carole Lamarque
 
experiencia escuela coronel agustín ángel olmedo
experiencia escuela coronel agustín ángel olmedoexperiencia escuela coronel agustín ángel olmedo
experiencia escuela coronel agustín ángel olmedokarina simonetti
 
Visita de estudios al departamento de ANCASH
Visita de estudios al departamento de ANCASHVisita de estudios al departamento de ANCASH
Visita de estudios al departamento de ANCASHNiler Salvador Coronado
 
Precepte bouddhiste rk_pv_em_pp
Precepte bouddhiste rk_pv_em_ppPrecepte bouddhiste rk_pv_em_pp
Precepte bouddhiste rk_pv_em_ppcatavrio
 
Atelier Lean takeoff Agile Grenoble 2014
Atelier Lean takeoff Agile Grenoble 2014Atelier Lean takeoff Agile Grenoble 2014
Atelier Lean takeoff Agile Grenoble 2014Christophe NEY
 
Vente appartement neuf williams island
Vente appartement neuf williams islandVente appartement neuf williams island
Vente appartement neuf williams islandMarc Foujols
 

Destacado (20)

Seminario 5. 2
Seminario 5. 2Seminario 5. 2
Seminario 5. 2
 
Seminario 5 parte 3
Seminario 5 parte 3Seminario 5 parte 3
Seminario 5 parte 3
 
Modulometodosestadisticos2011 110329231153-phpapp01
Modulometodosestadisticos2011 110329231153-phpapp01Modulometodosestadisticos2011 110329231153-phpapp01
Modulometodosestadisticos2011 110329231153-phpapp01
 
Análisis inferencial de datos categóricos
Análisis inferencial de datos categóricosAnálisis inferencial de datos categóricos
Análisis inferencial de datos categóricos
 
Teorema de bayes
Teorema de bayesTeorema de bayes
Teorema de bayes
 
Loi masculine
Loi masculineLoi masculine
Loi masculine
 
El teatro en imágenes
El teatro en imágenesEl teatro en imágenes
El teatro en imágenes
 
Actividad 2 de lupita
Actividad 2 de lupitaActividad 2 de lupita
Actividad 2 de lupita
 
S schmidt v12_n1_2011unidad4
S schmidt v12_n1_2011unidad4  S schmidt v12_n1_2011unidad4
S schmidt v12_n1_2011unidad4
 
Nouvelle fable de_la_fontaine-sam__o
Nouvelle fable de_la_fontaine-sam__oNouvelle fable de_la_fontaine-sam__o
Nouvelle fable de_la_fontaine-sam__o
 
De hefbomen van een succesvolle webshop : eCommerce Kortrijk eXpo
De hefbomen van een succesvolle webshop : eCommerce Kortrijk eXpo De hefbomen van een succesvolle webshop : eCommerce Kortrijk eXpo
De hefbomen van een succesvolle webshop : eCommerce Kortrijk eXpo
 
B2c
B2cB2c
B2c
 
experiencia escuela coronel agustín ángel olmedo
experiencia escuela coronel agustín ángel olmedoexperiencia escuela coronel agustín ángel olmedo
experiencia escuela coronel agustín ángel olmedo
 
Visita de estudios al departamento de ANCASH
Visita de estudios al departamento de ANCASHVisita de estudios al departamento de ANCASH
Visita de estudios al departamento de ANCASH
 
Unidad 1
Unidad 1 Unidad 1
Unidad 1
 
Intermediarios primero
Intermediarios primeroIntermediarios primero
Intermediarios primero
 
Precepte bouddhiste rk_pv_em_pp
Precepte bouddhiste rk_pv_em_ppPrecepte bouddhiste rk_pv_em_pp
Precepte bouddhiste rk_pv_em_pp
 
Lps
LpsLps
Lps
 
Atelier Lean takeoff Agile Grenoble 2014
Atelier Lean takeoff Agile Grenoble 2014Atelier Lean takeoff Agile Grenoble 2014
Atelier Lean takeoff Agile Grenoble 2014
 
Vente appartement neuf williams island
Vente appartement neuf williams islandVente appartement neuf williams island
Vente appartement neuf williams island
 

Similar a Analisis de datos categoricos

Intro a la epidemio clase 4
Intro a la epidemio clase 4Intro a la epidemio clase 4
Intro a la epidemio clase 4Ariel Aranda
 
Intro a la epidemio clase 4
Intro a la epidemio clase 4Intro a la epidemio clase 4
Intro a la epidemio clase 4Ariel Aranda
 
Modelos probabilidades
Modelos probabilidadesModelos probabilidades
Modelos probabilidadesInstruccional
 
Diplomadoooo
DiplomadooooDiplomadoooo
DiplomadooooRosmeryrc
 
trabajo de estadistica
 trabajo de estadistica trabajo de estadistica
trabajo de estadisticaluce0218
 
Trabajo de estadistica
Trabajo de estadistica Trabajo de estadistica
Trabajo de estadistica luce0218
 
Estadistica III Unidad 1.pptx
Estadistica III Unidad 1.pptxEstadistica III Unidad 1.pptx
Estadistica III Unidad 1.pptxWendyBolivar6
 
Algo de probabilidad
Algo de probabilidadAlgo de probabilidad
Algo de probabilidadRojo Alvarez
 
Bioestadistica Y EpidemiologíA
Bioestadistica Y EpidemiologíABioestadistica Y EpidemiologíA
Bioestadistica Y EpidemiologíAPaola Torres
 
Ccw Bioestadistica Y EpidemiologíA
Ccw   Bioestadistica Y EpidemiologíACcw   Bioestadistica Y EpidemiologíA
Ccw Bioestadistica Y EpidemiologíAguest1c2eca
 
Distribuciòn binominal y otras distribuciones
Distribuciòn binominal y otras distribucionesDistribuciòn binominal y otras distribuciones
Distribuciòn binominal y otras distribucionessarilitmaita
 
Guia 1-estadistica
Guia 1-estadisticaGuia 1-estadistica
Guia 1-estadisticaBk M
 
Estadisticos modelos probabilisticos 29 3-2020
Estadisticos modelos probabilisticos 29 3-2020Estadisticos modelos probabilisticos 29 3-2020
Estadisticos modelos probabilisticos 29 3-2020agustin rojas
 
Informe de estadística descriptiva.
Informe de estadística descriptiva.Informe de estadística descriptiva.
Informe de estadística descriptiva.Cookie179
 

Similar a Analisis de datos categoricos (20)

Intro a la epidemio clase 4
Intro a la epidemio clase 4Intro a la epidemio clase 4
Intro a la epidemio clase 4
 
Intro a la epidemio clase 4
Intro a la epidemio clase 4Intro a la epidemio clase 4
Intro a la epidemio clase 4
 
Modelos probabilidades
Modelos probabilidadesModelos probabilidades
Modelos probabilidades
 
Diplomadoooo
DiplomadooooDiplomadoooo
Diplomadoooo
 
Medidas de tendencia_2013
Medidas de tendencia_2013Medidas de tendencia_2013
Medidas de tendencia_2013
 
trabajo de estadistica
 trabajo de estadistica trabajo de estadistica
trabajo de estadistica
 
Trabajo de estadistica
Trabajo de estadistica Trabajo de estadistica
Trabajo de estadistica
 
Estimacion de Parámetro.pdf
Estimacion de Parámetro.pdfEstimacion de Parámetro.pdf
Estimacion de Parámetro.pdf
 
Estadistica III Unidad 1.pptx
Estadistica III Unidad 1.pptxEstadistica III Unidad 1.pptx
Estadistica III Unidad 1.pptx
 
Algo de probabilidad
Algo de probabilidadAlgo de probabilidad
Algo de probabilidad
 
Bioestadistica Y EpidemiologíA
Bioestadistica Y EpidemiologíABioestadistica Y EpidemiologíA
Bioestadistica Y EpidemiologíA
 
Ccw Bioestadistica Y EpidemiologíA
Ccw   Bioestadistica Y EpidemiologíACcw   Bioestadistica Y EpidemiologíA
Ccw Bioestadistica Y EpidemiologíA
 
Estimación estadística
Estimación estadísticaEstimación estadística
Estimación estadística
 
Estimacion
EstimacionEstimacion
Estimacion
 
La estimación
La estimaciónLa estimación
La estimación
 
Distribuciòn binominal y otras distribuciones
Distribuciòn binominal y otras distribucionesDistribuciòn binominal y otras distribuciones
Distribuciòn binominal y otras distribuciones
 
Guia 1-estadistica
Guia 1-estadisticaGuia 1-estadistica
Guia 1-estadistica
 
Estadisticos modelos probabilisticos 29 3-2020
Estadisticos modelos probabilisticos 29 3-2020Estadisticos modelos probabilisticos 29 3-2020
Estadisticos modelos probabilisticos 29 3-2020
 
Informe de estadística descriptiva.
Informe de estadística descriptiva.Informe de estadística descriptiva.
Informe de estadística descriptiva.
 
Estadistica 2
Estadistica 2Estadistica 2
Estadistica 2
 

Último

CLASE 5 HOJA 2022.ppt botanica general 1
CLASE 5 HOJA 2022.ppt botanica general 1CLASE 5 HOJA 2022.ppt botanica general 1
CLASE 5 HOJA 2022.ppt botanica general 1jesusjja0210
 
Miología del bovino veterinaria métodos rápidos
Miología del bovino veterinaria métodos rápidosMiología del bovino veterinaria métodos rápidos
Miología del bovino veterinaria métodos rápidosmarielbispurocoleo5
 
CUADERNILLO DE RESPUESTAS DEL TEST DE BOSTON FORMATO ABREVIADO
CUADERNILLO DE RESPUESTAS DEL TEST DE BOSTON FORMATO ABREVIADOCUADERNILLO DE RESPUESTAS DEL TEST DE BOSTON FORMATO ABREVIADO
CUADERNILLO DE RESPUESTAS DEL TEST DE BOSTON FORMATO ABREVIADOCONSTANZAALEJANDRAMU3
 
Evangelismo los pasos para logar la sancion
Evangelismo los pasos para logar la sancionEvangelismo los pasos para logar la sancion
Evangelismo los pasos para logar la sancionniro13
 
5. Célula animal y vegetal y sus diferencias.pptx
5. Célula animal y vegetal y sus diferencias.pptx5. Célula animal y vegetal y sus diferencias.pptx
5. Célula animal y vegetal y sus diferencias.pptxealva1
 
INTRODUCCIÓN A LAS DISPENSACIONES abril 2024.pdf
INTRODUCCIÓN A LAS DISPENSACIONES abril 2024.pdfINTRODUCCIÓN A LAS DISPENSACIONES abril 2024.pdf
INTRODUCCIÓN A LAS DISPENSACIONES abril 2024.pdfGuillermoCamino4
 
Síndrome del Niño Maltratado signos de alerta
Síndrome del Niño Maltratado signos de alertaSíndrome del Niño Maltratado signos de alerta
Síndrome del Niño Maltratado signos de alertaanapauflores2007
 
FISIOLOGIA DEL APARATO REPRODUCTOR FEMENINO.pdf
FISIOLOGIA DEL APARATO REPRODUCTOR FEMENINO.pdfFISIOLOGIA DEL APARATO REPRODUCTOR FEMENINO.pdf
FISIOLOGIA DEL APARATO REPRODUCTOR FEMENINO.pdfOrlandoBruzual
 
Sistema Endocrino, rol de los receptores hormonales, hormonas circulantes y l...
Sistema Endocrino, rol de los receptores hormonales, hormonas circulantes y l...Sistema Endocrino, rol de los receptores hormonales, hormonas circulantes y l...
Sistema Endocrino, rol de los receptores hormonales, hormonas circulantes y l...GloriaMeza12
 
propiedades y clasificacion de los materiales metalicos
propiedades y clasificacion de los materiales metalicospropiedades y clasificacion de los materiales metalicos
propiedades y clasificacion de los materiales metalicosOmarazahiSalinasLpez
 
PLAN DE TUTORÍA DEL AULA PARA SEGUNDO GRADO
PLAN DE TUTORÍA DEL AULA PARA  SEGUNDO GRADOPLAN DE TUTORÍA DEL AULA PARA  SEGUNDO GRADO
PLAN DE TUTORÍA DEL AULA PARA SEGUNDO GRADOunsaalfredo
 
Descubrimiento de la Penicilina y su uso en la seguna guerra mundial.pdf
Descubrimiento de la Penicilina y su uso en la seguna guerra mundial.pdfDescubrimiento de la Penicilina y su uso en la seguna guerra mundial.pdf
Descubrimiento de la Penicilina y su uso en la seguna guerra mundial.pdfjavisoad
 
INTRODUCCIÓN A LAS CIENCIAS SOCIALES.pdf
INTRODUCCIÓN A LAS CIENCIAS SOCIALES.pdfINTRODUCCIÓN A LAS CIENCIAS SOCIALES.pdf
INTRODUCCIÓN A LAS CIENCIAS SOCIALES.pdfelsithakookmin
 
Clase ii INTRODUCCION AL TRABAJO SOCIAL.
Clase ii INTRODUCCION AL TRABAJO SOCIAL.Clase ii INTRODUCCION AL TRABAJO SOCIAL.
Clase ii INTRODUCCION AL TRABAJO SOCIAL.Victor Rivera Tapia
 
LEY FEDERAL DE TRABAJO IPN MEDICINA OCUPACIONAL.pdf
LEY FEDERAL DE TRABAJO IPN MEDICINA OCUPACIONAL.pdfLEY FEDERAL DE TRABAJO IPN MEDICINA OCUPACIONAL.pdf
LEY FEDERAL DE TRABAJO IPN MEDICINA OCUPACIONAL.pdfrvillegasp16001
 
Tractos ascendentes y descendentes de la médula
Tractos ascendentes y descendentes de la médulaTractos ascendentes y descendentes de la médula
Tractos ascendentes y descendentes de la méduladianymorales5
 
Aprendamos el proceso de regeneración.pptx
Aprendamos el proceso de regeneración.pptxAprendamos el proceso de regeneración.pptx
Aprendamos el proceso de regeneración.pptxJuanaMLpez
 
fisilogia y anatomia del oido y el equilibrio
fisilogia y anatomia del oido y el equilibriofisilogia y anatomia del oido y el equilibrio
fisilogia y anatomia del oido y el equilibrioyanezevelyn0
 
REVISTA DE BIOLOGIA E CIÊNCIAS DA TERRA ISSN 1519-5228 - Artigo_Bioterra_V24_...
REVISTA DE BIOLOGIA E CIÊNCIAS DA TERRA ISSN 1519-5228 - Artigo_Bioterra_V24_...REVISTA DE BIOLOGIA E CIÊNCIAS DA TERRA ISSN 1519-5228 - Artigo_Bioterra_V24_...
REVISTA DE BIOLOGIA E CIÊNCIAS DA TERRA ISSN 1519-5228 - Artigo_Bioterra_V24_...Universidade Federal de Sergipe - UFS
 
Presentación digital Sobre ecosistemas, la selva
Presentación digital Sobre ecosistemas, la selvaPresentación digital Sobre ecosistemas, la selva
Presentación digital Sobre ecosistemas, la selvajesusvelazquez601
 

Último (20)

CLASE 5 HOJA 2022.ppt botanica general 1
CLASE 5 HOJA 2022.ppt botanica general 1CLASE 5 HOJA 2022.ppt botanica general 1
CLASE 5 HOJA 2022.ppt botanica general 1
 
Miología del bovino veterinaria métodos rápidos
Miología del bovino veterinaria métodos rápidosMiología del bovino veterinaria métodos rápidos
Miología del bovino veterinaria métodos rápidos
 
CUADERNILLO DE RESPUESTAS DEL TEST DE BOSTON FORMATO ABREVIADO
CUADERNILLO DE RESPUESTAS DEL TEST DE BOSTON FORMATO ABREVIADOCUADERNILLO DE RESPUESTAS DEL TEST DE BOSTON FORMATO ABREVIADO
CUADERNILLO DE RESPUESTAS DEL TEST DE BOSTON FORMATO ABREVIADO
 
Evangelismo los pasos para logar la sancion
Evangelismo los pasos para logar la sancionEvangelismo los pasos para logar la sancion
Evangelismo los pasos para logar la sancion
 
5. Célula animal y vegetal y sus diferencias.pptx
5. Célula animal y vegetal y sus diferencias.pptx5. Célula animal y vegetal y sus diferencias.pptx
5. Célula animal y vegetal y sus diferencias.pptx
 
INTRODUCCIÓN A LAS DISPENSACIONES abril 2024.pdf
INTRODUCCIÓN A LAS DISPENSACIONES abril 2024.pdfINTRODUCCIÓN A LAS DISPENSACIONES abril 2024.pdf
INTRODUCCIÓN A LAS DISPENSACIONES abril 2024.pdf
 
Síndrome del Niño Maltratado signos de alerta
Síndrome del Niño Maltratado signos de alertaSíndrome del Niño Maltratado signos de alerta
Síndrome del Niño Maltratado signos de alerta
 
FISIOLOGIA DEL APARATO REPRODUCTOR FEMENINO.pdf
FISIOLOGIA DEL APARATO REPRODUCTOR FEMENINO.pdfFISIOLOGIA DEL APARATO REPRODUCTOR FEMENINO.pdf
FISIOLOGIA DEL APARATO REPRODUCTOR FEMENINO.pdf
 
Sistema Endocrino, rol de los receptores hormonales, hormonas circulantes y l...
Sistema Endocrino, rol de los receptores hormonales, hormonas circulantes y l...Sistema Endocrino, rol de los receptores hormonales, hormonas circulantes y l...
Sistema Endocrino, rol de los receptores hormonales, hormonas circulantes y l...
 
propiedades y clasificacion de los materiales metalicos
propiedades y clasificacion de los materiales metalicospropiedades y clasificacion de los materiales metalicos
propiedades y clasificacion de los materiales metalicos
 
PLAN DE TUTORÍA DEL AULA PARA SEGUNDO GRADO
PLAN DE TUTORÍA DEL AULA PARA  SEGUNDO GRADOPLAN DE TUTORÍA DEL AULA PARA  SEGUNDO GRADO
PLAN DE TUTORÍA DEL AULA PARA SEGUNDO GRADO
 
Descubrimiento de la Penicilina y su uso en la seguna guerra mundial.pdf
Descubrimiento de la Penicilina y su uso en la seguna guerra mundial.pdfDescubrimiento de la Penicilina y su uso en la seguna guerra mundial.pdf
Descubrimiento de la Penicilina y su uso en la seguna guerra mundial.pdf
 
INTRODUCCIÓN A LAS CIENCIAS SOCIALES.pdf
INTRODUCCIÓN A LAS CIENCIAS SOCIALES.pdfINTRODUCCIÓN A LAS CIENCIAS SOCIALES.pdf
INTRODUCCIÓN A LAS CIENCIAS SOCIALES.pdf
 
Clase ii INTRODUCCION AL TRABAJO SOCIAL.
Clase ii INTRODUCCION AL TRABAJO SOCIAL.Clase ii INTRODUCCION AL TRABAJO SOCIAL.
Clase ii INTRODUCCION AL TRABAJO SOCIAL.
 
LEY FEDERAL DE TRABAJO IPN MEDICINA OCUPACIONAL.pdf
LEY FEDERAL DE TRABAJO IPN MEDICINA OCUPACIONAL.pdfLEY FEDERAL DE TRABAJO IPN MEDICINA OCUPACIONAL.pdf
LEY FEDERAL DE TRABAJO IPN MEDICINA OCUPACIONAL.pdf
 
Tractos ascendentes y descendentes de la médula
Tractos ascendentes y descendentes de la médulaTractos ascendentes y descendentes de la médula
Tractos ascendentes y descendentes de la médula
 
Aprendamos el proceso de regeneración.pptx
Aprendamos el proceso de regeneración.pptxAprendamos el proceso de regeneración.pptx
Aprendamos el proceso de regeneración.pptx
 
fisilogia y anatomia del oido y el equilibrio
fisilogia y anatomia del oido y el equilibriofisilogia y anatomia del oido y el equilibrio
fisilogia y anatomia del oido y el equilibrio
 
REVISTA DE BIOLOGIA E CIÊNCIAS DA TERRA ISSN 1519-5228 - Artigo_Bioterra_V24_...
REVISTA DE BIOLOGIA E CIÊNCIAS DA TERRA ISSN 1519-5228 - Artigo_Bioterra_V24_...REVISTA DE BIOLOGIA E CIÊNCIAS DA TERRA ISSN 1519-5228 - Artigo_Bioterra_V24_...
REVISTA DE BIOLOGIA E CIÊNCIAS DA TERRA ISSN 1519-5228 - Artigo_Bioterra_V24_...
 
Presentación digital Sobre ecosistemas, la selva
Presentación digital Sobre ecosistemas, la selvaPresentación digital Sobre ecosistemas, la selva
Presentación digital Sobre ecosistemas, la selva
 

Analisis de datos categoricos

  • 1. Tema 1: Introducci´on al An´alisis de datos Categ´oricos Introducci´on Los datos categ´oricos aparecen cuando una variable se mide en una escala que s´olo clasifica a los encuestados en un n´umero limitado de grupos. Por ejemplo, una encuesta donde se recoge informaci´on sobre variables como sexo, estado civil y afiliaci´on pol´ıtica. Adem´as de distinguir una variable como categ´orica (cualitativa) o continua (cuanti- tativa), las variables tambi´en se pueden clasificar como independientes o dependientes. El t´ermino independiente se refiere a una variable que se puede manipular experimen- talmente (e.g. el tipo de tratamiento que se le asigna a cada persona), pero tambi´en se aplica a menudo a una variable que se utiliza para predecir otra variable (e.g. nivel socio-econ´omico). El t´ermino dependiente se refiere en general a una variable cuyo inter´es primordial es el resultado o la respuesta. Por ejemplo, se pueden considerar como variables depen- dientes, el resultado de un tratamiento (basado en el tipo de tratamiento) o el nivel educativo previsto a partir de una situaci´on socio-econ´omica,. Otro ejemplo: supongamos que se desea determinar si los colegios concertados di- fieren de manera sustancial de los colegios privados y p´ublicos en base a ciertos datos demogr´aficos. Por ejemplo, la ubicaci´on: urbano, suburbano o rural, tipo: p´ublica o pri- vada, situaci´on predominante socio-econ´omica de los estudiantes: bajo, medio o alto, etc. Para este tipo de an´alisis es necesario usar t´ecnicas de an´alisis de datos categ´oricos, porque todas las variables involucradas son categ´oricas. Otro ejemplo: supongamos que un investigador quiere predecir si un estudiante se graduar´a en secundaria en base a cierta informaci´on como el n´umero de d´ıas de asisten- cia, promedio de las calificaciones y los ingresos familiares. En este caso, se necesita un enfoque de an´alisis categ´orico donde la graduaci´on (s´ı o no) sirve como variable dependiente en funci´on de otras variables explicativas. 1
  • 2. Escalas de medida La escala de medida de una variable de respuesta categ´orica es fundamental para la elecci´on del an´alisis estad´ıstico apropiado. Las variables de respuesta categ´orica pueden ser Dicot´omicas Ordinales Nominales De recuento Respuestas dicot´omicas son aquellas que tienen dos posibles resultados que a menudo son s´ı y no. ¿Se desarrollar´a la enfermedad? ¿El votante votar´a por el candidato A o por el B? ¿Aprobar´a el examen? Con frecuencia, las respuestas de los datos categ´oricos representan m´as de dos re- sultados posibles y con frecuencia en estos resultados es posible considerar alg´un orden inherente. Estas variables tienen una escala de respuesta ordinal de medici´on. ¿El nuevo plan de estudios gusta a los estudiantes? ¿La muestra de agua es de dureza baja, media o alta? En el primer caso, el orden de los niveles de respuesta es clara, pero no hay ninguna pista en cuanto a las distancias relativas entre los niveles. En el segundo caso, hay una distancia posible entre los niveles: medio podr´ıa tener el doble de la dureza de baja y alta podr´ıa tener tres veces la dureza de baja. Si existen m´as de dos categor´ıas posibles de resultados y no hay un orden inherente entre las categor´ıas, entonces se tiene una escala de medida nominal. ¿A cu´al de los cuatro candidatos votaste en las elecciones municipales de la ciudad? ¿Prefieres la playa, la monta˜na o la ciudad para ir de vacaciones? No existe una escala subyacente en esos resultados y no hay una forma aparente de ordenarlos. Las variables categ´oricas a veces contienen recuentos. En lugar de considerar las categor´ıas que presenta cada observaci´on, (s´ı, no) (bajo, medio, alto), los resultados que se estudian son los n´umeros mismos. El tama˜no de la camada, ¿fue de 1, 2, 3, 4 ´o 5 animales? La casa tiene ¿1, 2, 3 ´o 4 equipos de aire acondicionado? En la metodolog´ıa cl´asica habitual se analiza la media de los recuentos, pero los supuestos que se tienen que cumplir en un modelo lineal est´andar con datos continuos, no se cumplen a menudo con datos discretos. En general, los recuentos no se distribuyen seg´un una distribuci´on normal y la varianza no suele ser homog´enea. 2
  • 3. Distribuciones de Probabilidad Distribuci´on binomial Habitualmente, los datos proceden de n ensayos independientes e id´enticos con dos posibles resultados para cada uno: ´exito y fracaso, con igual probabilidad de ´exito para cada prueba. Ensayos independientes significa que los resultados son variables aleatorias independientes. En particular, el resultado de una prueba no afecta al resultado de otra. Se denominan ensayos de Bernoulli. Se denota como π a la probabilidad de ´exito para un ensayo dado e Y denota el n´umero de ´exitos de las n pruebas: P(y) = n! y! (n − y)! πy (1 − π)n−y para 0, 1, 2, . . . , n. La distribuci´on binomial para n ensayos con par´ametro π tiene como media y des- viaci´on est´andar: E(Y ) = µ = nπ σ = nπ(1 − π) Las gr´aficas de las funciones de probabilidad y distribuci´on son, respectivamente, # Script de R # Funcion de p r o b a b i l i d a d de una binomial X11() plot (0:8, dbinom (0:8 ,8 ,0.3), type="h", xlab="x",ylab="P(X=x)", xlim=c(-1,9)) title("Funcion de probabilidad de X∼Bin(8, 0.3)") # Funcion de d i s t r i b u c i o n de una binomial X11() plot (0:8, pbinom (0:8 ,8 ,0.3), type="n", xlab="x", ylab="F(x)", xlim=c(-1,9), ylim=c(0,1)) segments (-1,0,0,0) segments (0:8, pbinom (0:8,8,.3), 1:9, pbinom (0:8,8,.3)) lines (0:7, pbinom (0:7,8,.3), type="p", pch =16) segments (-1,1,9,1, lty =2) title("Funcion de distribucion de X∼Bin(8, 0.3)") 3
  • 4. 4
  • 5. Para generar 1000 observaciones de una distribuci´on binomial Bin (n = 5, p = 0,5): # Uso la libreria PASWR library(PASWR) bino.gen (1000 , 5, 0.5) Distribuci´on Multinomial Algunos ensayos tienen m´as de dos resultados posibles. Por ejemplo, el resultado de un un accidente de autom´ovil se puede clasificar en varias posibles categor´ıas: 1. sin lesiones, 2. lesiones que no requieren hospitalizaci´on, 3. lesiones que requieren hospitalizaci´on, 4. muerte. 5
  • 6. Cuando los ensayos son independientes respecto a cada categor´ıa, la distribuci´on de los recuentos en cada categor´ıa sigue una distribuci´on multinomial. Sea c el n´umero de posibles categor´ıas. Dados n sucesos, se puede definir la variable aleatoria Xi (para i = 1, . . . , c) que indica el n´umero de veces que aparece el resultado i. Se denota la probabilidad de obtener cada resultado i como {π1, π2, . . . , πc} donde i πi = 1. Para n observaciones independientes, la probabilidad de que n1 observaciones caigan en la categor´ıa 1, n2 caigan en la categor´ıa 2, ..., nc caigan en la categor´ıa c, (donde i ni = n) es igual a P (n1, n1, . . . , nc) = n! n1!n2! · · · nc! πn1 1 πn2 2 · · · πnc c . La distribuci´on binomial es, en realidad, un caso particular de la distribuci´on multinomial cuando c = 2. Ejemplos: Se puede generar una muestra de una multinomial Mult(10, (0,1, 0,2, 0,7)), o bien calcular la probabilidad conjunta del vector (3, 7, 2) o del vector (1, 2, 9). # D i s t r i b u c i o n m u l t i n o m i a l con R rmultinom (10, size =12, prob=c(0.1 , 0.2 , 0.7)) dmultinom(c(3, 7, 2), prob=c(0.1 , 0.2 , 0.7)) dmultinom(c(1, 2, 9), prob=c(0.1 , 0.2 , 0.7)) La esperanza y varianza de observar el suceso i en n ensayos es E (Xi) = npi V ar (Xi) = npi(1 − pi) La covarianza entre los sucesos i y j observados en n ensayos es Cov (Xi, Xj) = −npipj (i = j) Inferencia para la distribuci´on binomial El m´etodo habitual en Inferencia Estad´ıstica, desde el punto de vista cl´asico, es la estimaci´on por m´axima verosimilitud. El estimador de m´axima verosimilitud de un par´ametro es el valor del par´ametro, para el que la probabilidad de obtener los datos observados es mayor. Por ejemplo, si en n = 10 ensayos se obtienen 0 ´exitos, la funci´on 6
  • 7. de verosimilitud en este caso l(π) = (1 − π)10 alcanza el m´aximo para ˆπ = 0. Es decir el resultado de 0 ´exitos en 10 ensayos es m´as probable que ocurra cuando π = 0 que para cualquier otro valor. As´ı, en general, si una variable aleatoria X se observa con x ´exitos en n ensayos, el estimador de m´axima verosimilitud (EMV ) de la probabilidad de ´exito p es simplemente ˆp = x/n, la proporci´on observada de ´exitos entre n ensayos. La varianza es V ar(p) = p(1 − p) n y un intervalo de confiaza al 100×(1 − α) aproximado para p es p ± zα s p(1 − p) n que se denomina, en algunos textos, intervalo de Wald. Una mejor alternativa es el llamado intervalo de Wilson, (o q-interval) que se calcula como un subproducto del Teorema Central del L´ımite. p n n + z2 α s + 1 2 z2 α s n + z2 α s ± p(1 − p) n    n2z2 α s n + z2 α s 2    + 1 4    z4 α s n + z2 α s 2    Esta aproximaci´on funciona mejor que el intervalo de Wald para valores peque˜nos de n. Estimaci´on num´erica de la funci´on de verosimilitud En R se puede calcular de manera num´erica los estimadores de m´axima verosimilitud. Por ejemplo: # Funcion de v e r o s i m i l i t u d de una binomial # Se define la funcion de v e r o s i m i l i t u d para una muestra de # una binomial con N =10 Y =7 exitos lklhd <- function(p){ dbinom (7,10,p)} # Grafica de la funcion de v e r o s i m i l i t u d plot(lklhd , 0, 1, xlab="p_i", ylab="l(p)", main="Verosimilitud de una Binomial , N=10, Y=7") # Estimador de maxima v e r o s i m i l t u d mediante la funcion nlm () optimize(lklhd ,c(0,1),maximum=TRUE) 7
  • 8. Los intervalos de confianza exactos, o intervalos de Clopper-Pearson, se basan en el c´alculo mediante la funci´on de distribuci´on de la distribuci´on binomial, no en aproxima- ciones mediante la normal. Sin embargo, no son exactas en el sentido de que la funci´on de distribuci´on binomial es discontinua en s´ı, lo que impide en la realidad el c´alculo exacto. Estos intervalos son conservadores, es decir, suelen ser mayores que los calculados seg´un los m´etodos asint´oticos. Test de hip´otesis usando el m´etodo de la raz´on de verosimilitu- des En el m´etodo de la raz´on de verosimilitudes se compara la verosimilitud (probabilidad) de los datos observados usando la proporci´on especificada bajo la hip´otesis nula, respecto a la verosimilitud de los datos observados usando la estimaci´on muestral. La verosimilitud obtenida bajo la hip´otesis nula se denota mediante L0 y la verosimilitud obtenida usando el estimador muestral se denota como L1. El cociente L0/L1 representa la raz´on de verosimilitudes. Si L1 (la verosimilitud obtenida a partir de los datos observados) es mucho mayor que L0 (la verosimilitud bajo la hip´otesis nula H0) la raz´on de verosimilitudes ser´a mucho menor que uno e indicar´a que los datos muestran evidencia contra la hip´otesis nula. El test de la raz´on de verosimilitudes se obtiene tomando el logaritmo (ln) de la raz´on de verosimilitudes y multiplic´andola por –2. En concreto, G2 = −2 ln L0 L1 = −2 [ln (L0) − ln (L1)] . Un valor alto de G2 (m´as positivo) indica una fuerte evidencia en contra de H0. Bajo la hip´otesis nula y para una muestra razonablemente grande, G2 sigue una distribuci´on χ2 con los grados de libertad igual al n´umero de par´ametros libres que existen bajo la hip´otesis nula. En el caso de las proporciones es igual a 1. Ejemplo Se tiene una muestra de 2818 personas tal que el 34 % bebe la cantidad diaria de agua recomendada (1.5 litros). Un intervalo de confianza aproximado del 95 % para la proporci´on de toda la poblaci´on es, entonces, 0,34 ± 0,34 · 0,66 2818 = 0,34 ± 0,017 = (0,323, 0,357). El intervalo de Wilson calculado es 8
  • 9. p n n + z2 α s + 1 2 z2 α s n + z2 α s ± p(1 − p) n    n2z2 α s n + z2 α s 2    + 1 4    z4 α s n + z2 α s 2    = 0,34 · 2818 2818 + 1,962 + 1 2 1,962 2818 + 1,962 ± 0,34 · 0,66 2818 · 28182 · 1,962 (2818 + 1,962)2 + 1 4 · 1,964 (2818 + 1,962)2 = (0,32274, 0,35770) Ejemplo Uso de R para calcular intervalos de confianza para el par´ametro p de la binomial. Supongamos un ensayo con 50 observaciones, entre los que se encuentran 46 ´exitos. Se trata de calcular los intervalos de confianza. # x =46 exitos # n =50 o b s e r v a c i o n e s res = prop.test(x=46, n=50, conf.level =0.95 , correct=F) res 1-sample proportions test without continuity correction data: 46 out of 50, null probability 0.5 X-squared = 35.28 , df = 1, p-value = 2.855e -09 alternative hypothesis: true p is not equal to 0.5 95 percent confidence interval: 0.8116175 0.9684505 sample estimates: p 0.92 # A l t e r n a t i v a library(Hmisc) binconf (46,50, method="all") PointEst Lower Upper Exact 0.92 0.8076572 0.9777720 Wilson 0.92 0.8116175 0.9684505 Asymptotic 0.92 0.8448027 0.9951973 9
  • 10. Ejemplo Proporci´on de personas vegetarianas: Supongamos que se plantea un cuestionario a un grupo de estudiantes donde se pregunta si son vegetarianos o no. Entre n = 25 estudian- tes, y = 0 de ellos dicen ser vegetarianos. Aunque no es realmente una muestra aleatoria de una poblaci´on, se puede usar como ejemplo para calcular los intervalos de confianza al 95 % para el par´ametro p de la binomial. lklhd <- function(p){ dbinom (0,25,p)} # Grafica de la funcion de v e r o s i m i l i t u d plot(lklhd , 0, 1, xlab="p_i", ylab="l(p)", main="Verosimilitud de una Binomial , N=25, Y=0") # Estimador de maxima v e r o s i m i l t u d mediante la funcion nlm () optimize(lklhd ,c(0,1),maximum=TRUE) res = prop.test(x=0, n=25, conf.level =0.95 , correct=F) res$conf.int Inferencia para la distribuci´on multinomial Los par´ametros que se tienen que estimar son (π1, . . . , πc) donde πc = 1 − c−1 i=1 πi. Se obtiene que los estimadores por m´axima verosimilitud son πj = nj n para j = 1, . . . c. Es decir, los estimadores son simplemente las proporciones muestrales. Contraste para la distribuci´on de una multinomial En 1900 Karl Pearson present´o una prueba de hip´otesis que fue uno de los prime- ros m´etodos de inferencia que se inventaron y tuvo un gran impacto en el an´alisis de datos categ´oricos, que hasta ese momento se hab´ıa centrado en la descripci´on de las asociaciones entre variables. La prueba de Pearson eval´ua si los par´ametros de una multinomial son iguales a unos valores previos especificados. Se considera como hip´otesis nula H0 : πj = πj0 para j = 1, . . . , c donde j πj0 = 1 10
  • 11. Cuando la hip´otesis nula es cierta, entonces los valores esperados de nj llamadas frecuencias esperadas son iguales a nπj0 para j = 1, . . . , c. Se define el siguiente estad´ıstico: X2 = j (nj − nπj0)2 nπj0 . Intuitivamente, diferencias elevadas entre lo que se espera seg´un H0 y lo observado implica a su vez valores grandes de X2 . Para un el tama˜no muestral no peque˜no, X2 se distribuye como una chi cuadrado χ2 con c − 1 grados de libertad. El test es muy sensible a los tama˜nos muestrales. Si alguna categor´ıa tiene una frecuencia esperada baja (menor que 5) el test pierde mucha potencia ya que se basa en la aproximaci´on asint´otica a la distribuci´on χ2 . Ejemplo El test de Pearson se us´o en Gen´etica para contrastar las teor´ıas de Mendel so- bre la herencia. Mendel cruz´o guisantes amarillos puros con guisantes verdes puros. Su predicci´on era que 3/4 ten´ıan que ser amarillos y 1/4 verdes. En un experimento se obtuvo n = 8023 guisantes, de los cuales n1 = 6022 fueron amarillos y n2 = 2001 verdes. Las frecuencias esperadas son, entonces, H0 : π10 = 0,75 π20 = 0,25 de modo que X2 = (6022 − 8023 · 0,75)2 8023 · 0,75 + (2001 − 8023 · 0,25)2 8023 · 0,25 = 1,59 × 10−2 Al compararlo con una distribuci´on χ2 con 1 grado de libertad, se obtiene un p-valor igual a 0.90. # Con R pchisq (0.015 ,1, lower.tail=FALSE) # D i r e c t a m e n t e con el comando chisq.test chisq.test(x=c(6022 ,2001) ,p=c(.75 ,.25)) 11
  • 12. [1] 0.9025233 Chi -squared test for given probabilities data: c(6022 , 2001) X-squared = 0.015 , df = 1, p-value = 0.9025 12
  • 13. Pero Fisher (y otros) vieron que Mendel tuvo demasiada suerte en su experimenta- ci´on... Fisher coment´o textualmente: “The general level of agreement between Mendel’s ex- pectations and his reported results shows that it is closer than would be expected in the best of several thousand repetitions... I have no doubt that Mendel was deceived by a gardening assistant, who knew only too well what his principal expected from each trial made.” Con SAS se usar´ıa el siguiente programa: OPTIONS ls =70; DATA prueba1; INPUT prof $ count; DATALINES; amarillos 6022 verdes 2001 ; PROC freq order=data; weight count; tables prof / binomial (p=0.75) alpha =0.05; exact binomial; RUN; Se obtiene el siguiente resultado: 13
  • 14. Procedimiento FREQ Frecuencia Porcentaje prof Frecuencia Porcentaje acumulada acumulado _________________________________________________________________ amarillo 6022 75.06 6022 75.06 verdes 2001 24.94 8023 100 .00 Proporcion binomial para prof = amarillo ________________________________________ Proporcion (P) 0.7506 ASE 0.0048 95 % Limite conf. inferior 0.7411 95 % Limite conf. superior 0.7601 Limites conf. exactos 95 % Limite conf. inferior 0.7410 95 % Limite conf. superior 0.7600 Test de H0: Proporcion = 0.75 ASE bajo H0 0.0048 Z 0.1225 Pr de un lado > Z 0.4513 Pr de dos lados > |Z| 0.9025 Test exacto Pr de un lado >= P 0.4572 Dos colas = 2 * Una cola 0.9144 Tama∼no de la muestra = 8023 14
  • 15. Ejemplo El departamento de instrucci´on p´ublica de Wisconsin usa cuatro categor´ıas para medir las habilidades matem´aticas: advanced, proficient, basic y minimal. Se considera una muestra de 71709 estudiantes de grado 10o en 2006 y se supone que las proporciones se mantienen en los mismos niveles que en a˜nos anteriores. Los datos est´an en la siguiente tabla: Nivel matem´atico Proporci´on esperada Frecuencia esperada Frecuencia observada Advanced 15 % 10756.35 18644 Proficient 40 % 28683.60 32269 Basic 30 % 21512.70 10039 Minimal 15 % 10756.35 10757 Con R bastar´ıa escribir: chisq.test(x=c(18644 ,32269 ,10039 ,10757) , p=c(0.15 ,0.40 ,0.30 ,0.15)) Con SAS se usar´ıa el siguiente programa: OPTIONS ls =70; DATA prueba2; INPUT prof $ count; DATALINES; advanced 18644 proficient 32269 basic 10039 minimal 10757 ; PROC freq order=data; weight count; tables prof / testp =(0.15 0.40 0.30 0.15); RUN; 15
  • 16. Procedimiento FREQ Test Frecuencia Porcentaje prof Frecuencia Porcentaje Porcentaje acumulada acumulado ______________________________________________________________________ advanced 18644 26.00 15.00 18644 26.00 proficie 32269 45.00 40.00 50913 71.00 basic 10039 14.00 30.00 60952 85.00 minimal 10757 15.00 15.00 71709 100 .00 Test chi -cuadrado para proporciones especificadas _______________________________ Chi -cuadrado 12351 .6415 DF 3 Pr > ChiSq <.0001 Tama∼no de la muestra = 71709 16