Introducción a la estadística
Algunas definiciones de estadística
• Ciencia de tomar decisiones en presencia de la incertidumbre. Freund, J.
E. – Eallis y Roberts
• § Rama del conocimiento científico que se ocupa del análisis numérico
e interpretación de los resultados que provienen de experimentos de
naturaleza aleatoria. Capelletti, C. A.
• § Disciplina que investiga la posibilidad de extraer de los datos
inferencias válidas, elaborando los métodos mediante los cuales pueden
obtenerse dichas inferencias. Cramer, H.
• § Ciencia de tomar decisiones en base a observaciones. Sprowls, C.
• § Operación de análisis matemático que permite estudiar con el máximo
de precisión los fenómenos no conocidos completamente. Mothes, J.
• § Disciplina que trata los problemas relativos a las características
operatorias de las reglas de comportamiento inductivo, basadas en
experimentos aleatorios. Neyman, J.
Introducción a la estadística
• Estadística descriptiva.
• Estadística inferencial.
• Relación entre variables, de acuerdo a los distintos
niveles de medición.
• Técnicas de análisis de asociación entre variables
de distintos niveles de medición.
• Lógica de los test de hipótesis.
Sistema de Información Estadística
• Un Sistema de Información Estadística
• “Conjunto de reglas, principios, métodos y actividades
ordenadamente relacionados entre sí, que permiten
observar y evaluar mediante mediciones periódicas o
permanentes y desde un punto de vista cuantitativo,
recursos, actividades, resultados y acciones realizadas
dentro de un sector, una entidad o de un conjunto de
sectores o de entidades ”.
Estadística
• Describir nuestro conjunto de datos:
Características, valores atípicos, dispersión,
tendencias para datos temporales.
• Descubrir patrones de comportamiento en los
datos o ciertas relaciones entre las variables
medidas.
• Intentar extrapolar la información contenida en la
muestra a un conjunto mayor de datos.
• Inferir futuros comportamientos de la población
estudiada (predicción)
Estadística: clasificaciones
• Estadística descriptiva
• Estadística inferencial
• Estadística exploratoria
• Estadística multivariada
• Estadística no paramétrica
Niveles de medición
• Nominal: El valor de la variable indica solo la clase de
pertenencia
• Ordinal: Las clases de pertenencia pueden ser ordenadas.
• Intervalo: El valor de la variable tiene un sentido y en
general podremos (en al mayoría de los casos) calcular
promedios, medidas de dispersión y aplicar test. Pero no
siempre podremos establecer razones ente dos valores de
la variable.
• Razón: Existe un cero absoluto, podemos efectuar
cocientes de los valores de la variable.
Resumen de información
• Estadísticos de posición o locación: ¿Donde esta
ubicado nuestro conjunto de datos?
– Modo
– Mediana
– Media
• Estadísticos de dispersión
– Rango
– Coeficiente de variación
Distribución de frecuencias
Statis tics
Average female life expect ancy
N

Valid
Missing

Median

0
74,00

St d. Deviat ion
P ercent iles

109

10,572
10

52,00

20

59,00

25

66,50

30

68,00

40

70,00

50

74,00

60

76,00

70

78,00

75

78,00

80

79,00

90

80,00
Variables cuantitativas: medidas de posición
• Modo.
• Mediana y percentiles
• Media: promedio de la variable

• El uso de estos estadisticos depende de los objetivos del
analista o de las características de la población que se
desea estudiar.
Histograma
Gráfico de dispersión


Average female life expectancy

80











70














60






50





























 





















 









 



















25

50

75

Females who read (%)

100
Pirámides de población
Variables simétricas

1.2

1

0.8

0.6

Ser ie1

0.4

0.2

0
- 2.5

-2

-1.5

-1

- 0.5

0

0.5

1

1.5

2

2.5
Variables Asimétricas
1.4

1.2

1

0.8
Ser ie1
0.6

0.4

0.2

0
0

1

2

3

4

5

6

7

8
Medidas de asimetría
• La medida más usual de asimetría: “skewness”
• Cuando se tiene variables asimétricas con valores positivos
(ingreso por ejemplo), es usual tomar logaritmo para
simetrizarlas.
Box-Plot
Box-Plot:
Horas trabajadas según sexo – Encuesta Permanente de Hogares
100,0

5.844 3.035
3.159
7.451 6.928

4.048
4.441 6.083
3.296
6.039 6.682
3.674 5.841
8.344 7.601

3.773

8.345

80,0

d
j
b
t
s
a
r
o
H

60,0

40,0

20,0

0,0

7.445
8.393
8.520
8.756

8.695
5.181
8.749
8.799

Varon

Mujer

Sexo
15000




Ingreso ocupacion
principal

1998
GBA





p21

EPH

10000

5000

0

































15000




p21

Ingreso ocupación
principal
10000
EPH
1998
GBA
Sin cero
5000

0






























Relación entre dos variables nominales
Tablas de contingencia
Condicion de actividad por sexo – Fuente: EPH - INDEC

Sexo

Condicion
de actividad

Total

Ocupado
Desocupado
Inactivo
Menor de 10 años

Varon
%
58.3
50.5
33.7
51.2
47.9

Mujer
%
41.7
49.5
66.3
48.8
52.1
Relación entre dos variables nominales:
Tablas de contingencia
• Hipótesis nula: no existe asociación estadistica entre las
dos variables, la distribución de los efectivos es
proporcional a los “marginales”: totales fila y columna.
• Hipotesis alternativa: existe asociación estadística entre las
variables
Tablas de contingencia
Test de Chi – Cuadrado
• Chi-cuadrado: Compara los efectivos teóricos (bajo el
supuesto de independencia) con los observados.
• Efectivos teóricos en la celda (i,j):

n

*
ji

=

n j • ⋅ n•i
n
Chi-cuadrado

χ

2
obs

=∑
i, j

(ni j − n )

* 2
ij

*
ij

n

• Si los observados son iguales a los teóricos, el coeficiente
vale cero.
• El coeficiente aumenta al aumentar la discrepancia entre el
observado y el teórico, respecto al valor teórico.
• Pero este coeficiente depende de n: Aumenta con el
número de observaciones.
Chi-cuadrado normalizado - PHI

φ =χ
2

• Se cumple que

φ

2
obs

/n

2

<=min(J-1, I-1)
V de Cramer

V= χ

2
obs

• Donde m = min(L-1, K-1)
• Se cumple que 0<=V<=1

/ n⋅m
Ejercicio practico 1:
Calcular el chi-cuadrado en la siguiente tabla
Variable X
Variable Y

C

D

A

0

20

B

12

0
Ejercicio practico 2:
Calcular el chi-cuadrado y el V de Cramer en
la siguiente tabla
Variable X
Variable Y

C

D

A

0

200

B

120

0
Asociación entre variables ordinales y
cuantitativas: Coeficientes de correlación
• Estos coeficientes reflejan en general el hecho de que una
de las variables aumenta de valor cuando la otra lo hace.
• Los más utilizados:
– Coeficiente de correlación de Pearson (Karl Pearson,
1857-1936)
– Coeficiente de correlación de Spearman (Charles
Spearman, (1863-1945)
Coeficiente de correlación de Pearson entre
dos variables X e Y
ρ = Cov(X, Y)/DS(X)*DS(Y)
• Variables continuas (de razón).
• Mide la existencia de una relación lineal entre las
variables.
• -1 <= ρ <= 1
• ρ =0 : ausencia de relación lineal
• ρ =1: relación lineal creciente
• ρ =-1: relación lineal decreciente
• Sensible a valores extremos o atípicos
Coeficiente de correlación de Pearson:
significado
• El ρ de Pearson indica la existencia de una
relación lineal entre X e Y.
• Identifica relaciones positivas y negativas. El
coeficiente 0 indica ausencia de relacion
estadística
• Puede haber una relación creciente, pero no lineal.
Ejercicio practico 3:
Coeficiente de correlación de Pearson
• Hallar el ρ de Pearson para la siguiente serie de
valores. Graficarla con Excel.
X
1
2
3
4

Y
1
4
9
16
Coeficiente de correlación de Spearman
entre dos variables X e Y
rs = ρ(rang(X), rang(Y))
• Variables ordinales.
• Mide la existencia de una relación creciente o
decreciente entre las variables.
• -1 <= ρ <= 1
• ρ =0 : ausencia de relación creciente o decreciente
• ρ =1: relación creciente
• ρ =-1: relación decreciente
•
Coeficiente de correlación de Spearman
entre dos variables X e Y
• En caso de rangos “empatados”, tomamos el
promedio de los rangos.
Ejercicio práctico 4: Asociación entre dos
variable ordinales y cuantitativas
• Dada el siguiente par de valores de dos variables,
comprobar que el coeficiente de correlación de Spearman
es el coeficiente de correlación de Pearson de los rangos
X
4

7

3
.

Y
2

1

2

5

3

2

2
Recta de regresión
• Supongamos tener n obervaciones bivariadas, o
sea a cada elemento le medimos un par de
variables (Xi, Yi) que supondremos continuas por
ahora.
–
–
–
–

Peso y estatura.
Producto Bruto Per capita y Tasa de mortalidad infantil.
Tasa de desempleo y ingreso medio de los asalariados
Cigarrillos fumados por día y probabilidad de sufrir
cáncer de pulmón.
Recta de regresión: Ejemplo
• En el siguiente gráfico se muestran los 8511 radios
censales del Gran Buenos Aires. A cada radio se le
midieron dos variables: % de hogares con celular y % de
hogares con freezer, según datos del CENSO 2001.
• Los datos se graficaron mediante un gráfico X-Y.
• El eje de las X (horizontal) indica al % de hogares con
freezer, el eje de las Y (vertical) el % de hogares con
celular.
• Vemos que hay una relación aproximadamente lineal entre
ambas variables, por lo menos en la parte central del
gráfico.
Nube de puntos y recta de regresión
300
y=1
.9852x +22.1
32
R2 = 0.8244

250

200

150
Ser ie1
Lineal ( Ser ie1)

100

50

0
0
-50

20

40

60

80

100

120
Modelo de regresión
• La relación puede ser lineal solo en una parte del recorrido
de las variables.
• Variable X: variable “independiente” o explicativa.
• Variable Y: variable “dependiente” o explicada.
• El modelo de regresión no implica “causalidad” (ej.
Educación e Ingreso).
• El modelo de regresión puede tener más de una variable:
explicativa: modelo de regresión múltiple.
Modelo de regresión: Forma general
• El modelo subyacente en la regresión lineal (simple o
múltiple) es que la variable dependientes una función
lineal de las variables independientes:
• Y= 1+b1·X1+b2·X2+…bk·Xk + e.
• e es una variable aleatoria, pues no es razonable suponer
una relación lineal exacta entre Y y X1,…, Xk
• Pero en promedio podemos suponer que e será igual a
cero.
• e se denomina el término de errror. Es igual a la diferencia
entre el valor observado y la recta de regresión.
Ajuste del modelo de regresión
• Por ajuste del modelo de regresión se interpreta cuan bien
la “nube de puntos” está cerca de la recta de regresión.
• El modelo de regresión tiene una medida de la “bondad de
ajsute”: el R2. Este valor está entre 0 y 1.
• 1 -> Ajuste perfecto
• 0 -> No hay efecto de las variables independientes y la
variable dependiente.
• No todos los modelos en estadística poseen una medida
objetiva del “ajuste” de los datos al modelo.
Ajuste del modelo de regresión
• Supongamos el modelo de regresión simple
• Y= a + b*X + e
– El “parámetro“ b indica cuánto aumenta Y por un
aumento unitario de X.
– Si X no tiene efecto sobre Y, b valdrá 0....
– a es la ordenada al origen.
Ajuste del modelo de regresión
• Los paquetes estadísticos o Excel nos proveen estadísticos
para evaluar el ajuste del modelo (R2).
• Y para evaluar si b es “significativamente distinto de cero”
o no..... Si es “significativamente distinto de cero”, la
variable independiente X tiene un efecto sobre Y.
Ajuste del modelo de regresión
• En general, si el tamaño de muestra es muy grande, los
parámetros pueden ser “significativamente distintos de
cero” a menudo.
• Esto no significa que sean relevantes para el investigador.
Recta de regresión: Cálculo de los
parámetros
• Para el ejemplo anterior son los 8511 radios censales, se
plantea el modelo que explica a la variable CEL (% de
celulares).
• Cel = a + b*Freezer + e
• Con el paquete Stata se calcularon los parámetros a y b. La
salida es la siguiente:
Modelo de regresión: Salida I
regress Cel Freez
Number of obs
F( 1, 8509)
Prob > F
R-squared
Adj R-squared

=
8511
=23555.43
= 0.0000
= 0.7346
= 0.7346

----------------------------------------------------------------------Cel |
Coef.
Std. Err.
t
P>|t|
[95% Conf. Interval]
------+---------------------------------------------------------------Freez |
.993698
.0064745
153.48
0.000
.9810063
1.00639
_cons | -33.26479
.3813768
-87.22
0.000
-34.01238
-32.5172
-----------------------------------------------------------------------

O sea la recta de regresión es Cel = -33.3 + 0.994*Frezzer
Modelo de regresión: Salida II
Number of obs
F( 7,
418)
Prob > F
R-squared

=
=
=
=

426
125.51
0.0000
0.6776

----------------------------------------------------------t_desoc | Coef.
Std. Er.
t
P>|t|
[95% Conf.Int]
---------+------------------------------------------------t_activ |
.308 .0803029
3.84
0.000
.15
.46
j_sipip |
.693 .0564412 12.29
0.000
.58
.80
j_ucp | -.231 .0649551 -3.56
0.000
-.35
-.10
Cta_prop|
.219 .2550068
0.86
0.390
-.28
.72
Publico |
.551 .2433731
2.27
0.024
.07
1.03
Privado |
.52 .2395047
2.18
0.030
.05
.99
Patron | -.048 .2832193 -0.17
0.865
-.60
.50
_cons | -33.9 24.51396 -1.39
0.167
-82.1 14.2
-----------------------------------------------------------
Ajuste del modelo de regresión
• Por ajuste del modelo se interpreta cuan bien los valores
observados se ajustan a nuestro modelo.
• En el modelo de regresión lineal hay un estadístico, el R2
que nos indica la bondad del ajuste. R2 está comprendido
entre 0 y 1. 1 indica un ajuste perfecto: todas las
observaciones están sobre una recta.
Prueba de los coeficientes
• Otra pregunta que el investigador se plantea es si algún
coeficiente es igual a cero. O si es “significativamente
distinto de cero”. Esta pregunta puede ser respondida
mediante el estadístico t de Student.
• Cuanto más grade es t, mayor la probabilidad de que el
coeficiente correspondiente sea igual a cero.
Análisis de los residuos
• Luego está el análisis de los residuos observados:
observaciones con residuos elevados en valor absoluto
pueden indicar errores de medición, puntos extremos, o un
modelo especificado incorrectamente.
• En general los paquetes estadísticos traen opciones para
graficar los residuos y detectar aquellos con valores grandes.
• Finalmente, corresponde al investigador social interpretar si
el modelo es plausible, que significan los parámetros, explicar
el porquébuna observación tiene un residuo excesivamente
grande, mantener o eliminar una variable.
Tipo de variables en el modelo de
regresión lineal
• El modelo de regresión se plantea en general cuando la
variable dependiente (Y) es continua
• En teoría, las variables explicativas (X) pueden ser todas
nominales (por ejemplo en un modelo que explique el
ingreso sexo, tramo de edad, etc.).
• Cuando la variable a explicar (Y) no es continua, debemos
aplicar otro modelo (Poisson, logit, etc)
Ejercicio practico 4:
Regresión lineal simple
• Para los siguientes datos, calcular los coeficientes
de regresión mediante el programa EXCEL.
X
2
5
10
40

Y
34
33
21
39
Ejercicio práctico 4:
Universo, población y muestra
• Universo, población, muestra.
• Parámetros poblacionales.
• Estimación a partir de una muestra: Inferencia y
estimadores.
• Propiedades de los estimadores.

2. niveles de medicion

  • 1.
    Introducción a laestadística Algunas definiciones de estadística • Ciencia de tomar decisiones en presencia de la incertidumbre. Freund, J. E. – Eallis y Roberts • § Rama del conocimiento científico que se ocupa del análisis numérico e interpretación de los resultados que provienen de experimentos de naturaleza aleatoria. Capelletti, C. A. • § Disciplina que investiga la posibilidad de extraer de los datos inferencias válidas, elaborando los métodos mediante los cuales pueden obtenerse dichas inferencias. Cramer, H. • § Ciencia de tomar decisiones en base a observaciones. Sprowls, C. • § Operación de análisis matemático que permite estudiar con el máximo de precisión los fenómenos no conocidos completamente. Mothes, J. • § Disciplina que trata los problemas relativos a las características operatorias de las reglas de comportamiento inductivo, basadas en experimentos aleatorios. Neyman, J.
  • 2.
    Introducción a laestadística • Estadística descriptiva. • Estadística inferencial. • Relación entre variables, de acuerdo a los distintos niveles de medición. • Técnicas de análisis de asociación entre variables de distintos niveles de medición. • Lógica de los test de hipótesis.
  • 3.
    Sistema de InformaciónEstadística • Un Sistema de Información Estadística • “Conjunto de reglas, principios, métodos y actividades ordenadamente relacionados entre sí, que permiten observar y evaluar mediante mediciones periódicas o permanentes y desde un punto de vista cuantitativo, recursos, actividades, resultados y acciones realizadas dentro de un sector, una entidad o de un conjunto de sectores o de entidades ”.
  • 4.
    Estadística • Describir nuestroconjunto de datos: Características, valores atípicos, dispersión, tendencias para datos temporales. • Descubrir patrones de comportamiento en los datos o ciertas relaciones entre las variables medidas. • Intentar extrapolar la información contenida en la muestra a un conjunto mayor de datos. • Inferir futuros comportamientos de la población estudiada (predicción)
  • 5.
    Estadística: clasificaciones • Estadísticadescriptiva • Estadística inferencial • Estadística exploratoria • Estadística multivariada • Estadística no paramétrica
  • 6.
    Niveles de medición •Nominal: El valor de la variable indica solo la clase de pertenencia • Ordinal: Las clases de pertenencia pueden ser ordenadas. • Intervalo: El valor de la variable tiene un sentido y en general podremos (en al mayoría de los casos) calcular promedios, medidas de dispersión y aplicar test. Pero no siempre podremos establecer razones ente dos valores de la variable. • Razón: Existe un cero absoluto, podemos efectuar cocientes de los valores de la variable.
  • 7.
    Resumen de información •Estadísticos de posición o locación: ¿Donde esta ubicado nuestro conjunto de datos? – Modo – Mediana – Media • Estadísticos de dispersión – Rango – Coeficiente de variación
  • 8.
    Distribución de frecuencias Statistics Average female life expect ancy N Valid Missing Median 0 74,00 St d. Deviat ion P ercent iles 109 10,572 10 52,00 20 59,00 25 66,50 30 68,00 40 70,00 50 74,00 60 76,00 70 78,00 75 78,00 80 79,00 90 80,00
  • 9.
    Variables cuantitativas: medidasde posición • Modo. • Mediana y percentiles • Media: promedio de la variable • El uso de estos estadisticos depende de los objetivos del analista o de las características de la población que se desea estudiar.
  • 10.
  • 11.
    Gráfico de dispersión  Averagefemale life expectancy 80       70        60     50                                                    25 50 75 Females who read (%) 100
  • 12.
  • 14.
    Variables simétricas 1.2 1 0.8 0.6 Ser ie1 0.4 0.2 0 -2.5 -2 -1.5 -1 - 0.5 0 0.5 1 1.5 2 2.5
  • 15.
  • 16.
    Medidas de asimetría •La medida más usual de asimetría: “skewness” • Cuando se tiene variables asimétricas con valores positivos (ingreso por ejemplo), es usual tomar logaritmo para simetrizarlas.
  • 17.
  • 18.
    Box-Plot: Horas trabajadas segúnsexo – Encuesta Permanente de Hogares 100,0 5.844 3.035 3.159 7.451 6.928 4.048 4.441 6.083 3.296 6.039 6.682 3.674 5.841 8.344 7.601 3.773 8.345 80,0 d j b t s a r o H 60,0 40,0 20,0 0,0 7.445 8.393 8.520 8.756 8.695 5.181 8.749 8.799 Varon Mujer Sexo
  • 19.
  • 20.
  • 21.
    Relación entre dosvariables nominales Tablas de contingencia Condicion de actividad por sexo – Fuente: EPH - INDEC Sexo Condicion de actividad Total Ocupado Desocupado Inactivo Menor de 10 años Varon % 58.3 50.5 33.7 51.2 47.9 Mujer % 41.7 49.5 66.3 48.8 52.1
  • 22.
    Relación entre dosvariables nominales: Tablas de contingencia • Hipótesis nula: no existe asociación estadistica entre las dos variables, la distribución de los efectivos es proporcional a los “marginales”: totales fila y columna. • Hipotesis alternativa: existe asociación estadística entre las variables
  • 23.
    Tablas de contingencia Testde Chi – Cuadrado • Chi-cuadrado: Compara los efectivos teóricos (bajo el supuesto de independencia) con los observados. • Efectivos teóricos en la celda (i,j): n * ji = n j • ⋅ n•i n
  • 24.
    Chi-cuadrado χ 2 obs =∑ i, j (ni j− n ) * 2 ij * ij n • Si los observados son iguales a los teóricos, el coeficiente vale cero. • El coeficiente aumenta al aumentar la discrepancia entre el observado y el teórico, respecto al valor teórico. • Pero este coeficiente depende de n: Aumenta con el número de observaciones.
  • 25.
    Chi-cuadrado normalizado -PHI φ =χ 2 • Se cumple que φ 2 obs /n 2 <=min(J-1, I-1)
  • 26.
    V de Cramer V=χ 2 obs • Donde m = min(L-1, K-1) • Se cumple que 0<=V<=1 / n⋅m
  • 27.
    Ejercicio practico 1: Calcularel chi-cuadrado en la siguiente tabla Variable X Variable Y C D A 0 20 B 12 0
  • 28.
    Ejercicio practico 2: Calcularel chi-cuadrado y el V de Cramer en la siguiente tabla Variable X Variable Y C D A 0 200 B 120 0
  • 29.
    Asociación entre variablesordinales y cuantitativas: Coeficientes de correlación • Estos coeficientes reflejan en general el hecho de que una de las variables aumenta de valor cuando la otra lo hace. • Los más utilizados: – Coeficiente de correlación de Pearson (Karl Pearson, 1857-1936) – Coeficiente de correlación de Spearman (Charles Spearman, (1863-1945)
  • 30.
    Coeficiente de correlaciónde Pearson entre dos variables X e Y ρ = Cov(X, Y)/DS(X)*DS(Y) • Variables continuas (de razón). • Mide la existencia de una relación lineal entre las variables. • -1 <= ρ <= 1 • ρ =0 : ausencia de relación lineal • ρ =1: relación lineal creciente • ρ =-1: relación lineal decreciente • Sensible a valores extremos o atípicos
  • 31.
    Coeficiente de correlaciónde Pearson: significado • El ρ de Pearson indica la existencia de una relación lineal entre X e Y. • Identifica relaciones positivas y negativas. El coeficiente 0 indica ausencia de relacion estadística • Puede haber una relación creciente, pero no lineal.
  • 32.
    Ejercicio practico 3: Coeficientede correlación de Pearson • Hallar el ρ de Pearson para la siguiente serie de valores. Graficarla con Excel. X 1 2 3 4 Y 1 4 9 16
  • 33.
    Coeficiente de correlaciónde Spearman entre dos variables X e Y rs = ρ(rang(X), rang(Y)) • Variables ordinales. • Mide la existencia de una relación creciente o decreciente entre las variables. • -1 <= ρ <= 1 • ρ =0 : ausencia de relación creciente o decreciente • ρ =1: relación creciente • ρ =-1: relación decreciente •
  • 34.
    Coeficiente de correlaciónde Spearman entre dos variables X e Y • En caso de rangos “empatados”, tomamos el promedio de los rangos.
  • 35.
    Ejercicio práctico 4:Asociación entre dos variable ordinales y cuantitativas • Dada el siguiente par de valores de dos variables, comprobar que el coeficiente de correlación de Spearman es el coeficiente de correlación de Pearson de los rangos X 4 7 3 . Y 2 1 2 5 3 2 2
  • 36.
    Recta de regresión •Supongamos tener n obervaciones bivariadas, o sea a cada elemento le medimos un par de variables (Xi, Yi) que supondremos continuas por ahora. – – – – Peso y estatura. Producto Bruto Per capita y Tasa de mortalidad infantil. Tasa de desempleo y ingreso medio de los asalariados Cigarrillos fumados por día y probabilidad de sufrir cáncer de pulmón.
  • 37.
    Recta de regresión:Ejemplo • En el siguiente gráfico se muestran los 8511 radios censales del Gran Buenos Aires. A cada radio se le midieron dos variables: % de hogares con celular y % de hogares con freezer, según datos del CENSO 2001. • Los datos se graficaron mediante un gráfico X-Y. • El eje de las X (horizontal) indica al % de hogares con freezer, el eje de las Y (vertical) el % de hogares con celular. • Vemos que hay una relación aproximadamente lineal entre ambas variables, por lo menos en la parte central del gráfico.
  • 38.
    Nube de puntosy recta de regresión 300 y=1 .9852x +22.1 32 R2 = 0.8244 250 200 150 Ser ie1 Lineal ( Ser ie1) 100 50 0 0 -50 20 40 60 80 100 120
  • 39.
    Modelo de regresión •La relación puede ser lineal solo en una parte del recorrido de las variables. • Variable X: variable “independiente” o explicativa. • Variable Y: variable “dependiente” o explicada. • El modelo de regresión no implica “causalidad” (ej. Educación e Ingreso). • El modelo de regresión puede tener más de una variable: explicativa: modelo de regresión múltiple.
  • 40.
    Modelo de regresión:Forma general • El modelo subyacente en la regresión lineal (simple o múltiple) es que la variable dependientes una función lineal de las variables independientes: • Y= 1+b1·X1+b2·X2+…bk·Xk + e. • e es una variable aleatoria, pues no es razonable suponer una relación lineal exacta entre Y y X1,…, Xk • Pero en promedio podemos suponer que e será igual a cero. • e se denomina el término de errror. Es igual a la diferencia entre el valor observado y la recta de regresión.
  • 41.
    Ajuste del modelode regresión • Por ajuste del modelo de regresión se interpreta cuan bien la “nube de puntos” está cerca de la recta de regresión. • El modelo de regresión tiene una medida de la “bondad de ajsute”: el R2. Este valor está entre 0 y 1. • 1 -> Ajuste perfecto • 0 -> No hay efecto de las variables independientes y la variable dependiente. • No todos los modelos en estadística poseen una medida objetiva del “ajuste” de los datos al modelo.
  • 42.
    Ajuste del modelode regresión • Supongamos el modelo de regresión simple • Y= a + b*X + e – El “parámetro“ b indica cuánto aumenta Y por un aumento unitario de X. – Si X no tiene efecto sobre Y, b valdrá 0.... – a es la ordenada al origen.
  • 43.
    Ajuste del modelode regresión • Los paquetes estadísticos o Excel nos proveen estadísticos para evaluar el ajuste del modelo (R2). • Y para evaluar si b es “significativamente distinto de cero” o no..... Si es “significativamente distinto de cero”, la variable independiente X tiene un efecto sobre Y.
  • 44.
    Ajuste del modelode regresión • En general, si el tamaño de muestra es muy grande, los parámetros pueden ser “significativamente distintos de cero” a menudo. • Esto no significa que sean relevantes para el investigador.
  • 45.
    Recta de regresión:Cálculo de los parámetros • Para el ejemplo anterior son los 8511 radios censales, se plantea el modelo que explica a la variable CEL (% de celulares). • Cel = a + b*Freezer + e • Con el paquete Stata se calcularon los parámetros a y b. La salida es la siguiente:
  • 46.
    Modelo de regresión:Salida I regress Cel Freez Number of obs F( 1, 8509) Prob > F R-squared Adj R-squared = 8511 =23555.43 = 0.0000 = 0.7346 = 0.7346 ----------------------------------------------------------------------Cel | Coef. Std. Err. t P>|t| [95% Conf. Interval] ------+---------------------------------------------------------------Freez | .993698 .0064745 153.48 0.000 .9810063 1.00639 _cons | -33.26479 .3813768 -87.22 0.000 -34.01238 -32.5172 ----------------------------------------------------------------------- O sea la recta de regresión es Cel = -33.3 + 0.994*Frezzer
  • 47.
    Modelo de regresión:Salida II Number of obs F( 7, 418) Prob > F R-squared = = = = 426 125.51 0.0000 0.6776 ----------------------------------------------------------t_desoc | Coef. Std. Er. t P>|t| [95% Conf.Int] ---------+------------------------------------------------t_activ | .308 .0803029 3.84 0.000 .15 .46 j_sipip | .693 .0564412 12.29 0.000 .58 .80 j_ucp | -.231 .0649551 -3.56 0.000 -.35 -.10 Cta_prop| .219 .2550068 0.86 0.390 -.28 .72 Publico | .551 .2433731 2.27 0.024 .07 1.03 Privado | .52 .2395047 2.18 0.030 .05 .99 Patron | -.048 .2832193 -0.17 0.865 -.60 .50 _cons | -33.9 24.51396 -1.39 0.167 -82.1 14.2 -----------------------------------------------------------
  • 48.
    Ajuste del modelode regresión • Por ajuste del modelo se interpreta cuan bien los valores observados se ajustan a nuestro modelo. • En el modelo de regresión lineal hay un estadístico, el R2 que nos indica la bondad del ajuste. R2 está comprendido entre 0 y 1. 1 indica un ajuste perfecto: todas las observaciones están sobre una recta.
  • 49.
    Prueba de loscoeficientes • Otra pregunta que el investigador se plantea es si algún coeficiente es igual a cero. O si es “significativamente distinto de cero”. Esta pregunta puede ser respondida mediante el estadístico t de Student. • Cuanto más grade es t, mayor la probabilidad de que el coeficiente correspondiente sea igual a cero.
  • 50.
    Análisis de losresiduos • Luego está el análisis de los residuos observados: observaciones con residuos elevados en valor absoluto pueden indicar errores de medición, puntos extremos, o un modelo especificado incorrectamente. • En general los paquetes estadísticos traen opciones para graficar los residuos y detectar aquellos con valores grandes. • Finalmente, corresponde al investigador social interpretar si el modelo es plausible, que significan los parámetros, explicar el porquébuna observación tiene un residuo excesivamente grande, mantener o eliminar una variable.
  • 51.
    Tipo de variablesen el modelo de regresión lineal • El modelo de regresión se plantea en general cuando la variable dependiente (Y) es continua • En teoría, las variables explicativas (X) pueden ser todas nominales (por ejemplo en un modelo que explique el ingreso sexo, tramo de edad, etc.). • Cuando la variable a explicar (Y) no es continua, debemos aplicar otro modelo (Poisson, logit, etc)
  • 52.
    Ejercicio practico 4: Regresiónlineal simple • Para los siguientes datos, calcular los coeficientes de regresión mediante el programa EXCEL. X 2 5 10 40 Y 34 33 21 39
  • 53.
  • 54.
    Universo, población ymuestra • Universo, población, muestra. • Parámetros poblacionales. • Estimación a partir de una muestra: Inferencia y estimadores. • Propiedades de los estimadores.