2. Aplicaciones de la estadística
La Estadística es una ciencia
que facilita la solución de
problemas en los cuales
necesitamos conocer
características sobre el
comportamiento de algún
suceso o evento.
Nos permite inferir el
comportamiento de sucesos
iguales o similares sin necesidad
de que estos ocurran.
3. Da la posibilidad de tomar
decisiones acertadas en tiempo
y forma, así como realizar
proyecciones del
comportamiento del suceso.
Sólo se realizan cálculos y
análisis con los datos obtenidos
de una muestra de la población
y no con toda la población.
4. Actualmente el INEGI es el encargado de
concentrar y publicar la información
estadística del estado y del país.
5. Conceptos básicos
Estadística:
Es la ciencia que se encarga de recolectar,
organizar, resumir y analizar datos para después
obtener conclusiones y tomar decisiones .
Se divide en:
Estadística Descriptiva y Estadística Inferencial.
Estadística descriptiva:
Se encarga de la
recolección, organización,
presentación y análisis de
los datos de una
población.
6. Estadística inferencial:
Se encarga de analizar la información
presentada por la estadística descriptiva
mediante técnicas que nos ayuden a
conocer, con determinado grado de
confianza, a la población. formulando
hipótesis y finalmente permite tomar
decisiones.
7. Población:
Conjunto definido de TODOS los INDIVIDUOS o
elementos, de donde se observa cierta característica.
Al número de integrantes de la población se llama
tamaño de la población y se representa con la letra N.
Las poblaciones pueden ser finitas o infinitas.
Muestra:
Subconjunto o elemento de una población, que intenta
reflejar las características de la población lo mejor
posible.
Variable:
Característica o propiedad de los individuos que se
desea estudiar y se puede medir o calificar
8. Tipos de datos para análisis
Datos Cuantitativos
(números):
Valores obtenidos al medir
peso, estatura, temperatura,
número de hijos.
Datos Cualitativos
(categorías):
Se obtienen al calificar la
característica en cuestión
como el sexo, estado civil,
grado máximo de estudios.
9. Recopilación de datos:
Encuesta
Experimentos
Documentos
Muestreo poblacional (aleatorio simple, sistemático,
estratificados o conglomerados)
Ordenar datos
Hay dos métodos comunes:
Listado en orden ascendente
Método de tallo y hojas
)
10. Ejemplo. Listado en orden ascendente
El proceso consiste en ordenarlos de menor a
mayor
Peso de 25 estudiantes (en kg)
42 40 48 51 49
56 44 43 55 52
52 62 44 50 59
63 50 56 55 45
57 66 63 51 58
Peso de 25 estudiantes (en kg)
40 42 43 44 44
45 48 49 50 50
51 51 52 52 55
55 56 56 57 58
59 62 63 63 66
11. Método de tallo y hojas
Si los números de los datos están
formados por dos dígitos, se hace una
columna con el primer dígito (decenas) y
a la derecha de cada uno de ellos se
escribe, en fila, sólo el segundo dígito
(unidades) de cada uno de los datos que
tengan el mismo primer dígito.
12. Datos sin ordenar:
2,0,8,9,4,3,4,5
1,6,5,2,2,0,9,0,6,5,7,1,8
2,3,6,3
Datos ordenados:
456
456
Peso de 25 estudiantes (en kg)
42 40 48 51 49
56 44 43 55 52
52 62 44 50 59
63 50 56 55 45
57 66 63 51 58
0,2,3,4,4,5,8,9
0,0,1,1,2,2,5,5,6,6,7,8,9
2,3,3,6
13. Doble tallo
Una variante de este método es en lugar de
dividir en un grupo las decenas, se divide en
dos grupos. El primero abarcando los dígitos
del 0 al 4 y el segundo del 5 al 9.
El ejemplo anterior
queda:
4 0,2,3,4,4
4 5,8,9
5 0,0,1,1,2,2,
5 5,5,6,6,7,8,9
6 2,3,3
6 6
14. Tabla de Frecuencia de Datos
Una vez que se tenga ordenados los datos, se
acomodan en la “Ta bla d e d is tribuc ió n d e fre c ue nc ia s o
ta bla d e fre c ue nc ia s ”.
La tabla es básicamente una tabla de valores x-y, dónde
“x” representa el dato y “y” representa la frecuencia. La frecuencia es el número de veces que aparece cada
dato.
Hay dos clases de tablas de frecuencias:
Para datos NO agrupados.
rosa Paarzau ldatosb laagnrcuopaadzousl. rosa
gris blanco café negro blanco
rosa azul café blanco blanco
gris azul blanco rosa gris
gris blanco café negro verde
Color Frecuencia
Azul
I I I I
Blanco
I I I I I
Café
Gris
Negro
Rosa
Verde
II
I I
I I I I
I I
I I I I
I
15. Ejemplo (no agrupadas)
Tabla de frecuencias de los pesos en kg de 25
alumnos.
Peso de 25 estudiantes (en kg)
40 42 43 44 44
45 48 49 50 50
51 51 52 52 55
55 56 56 57 58
59 62 63 63 66
xi f
40
42
43
44
45
48
49
50
51
xi f
52
55
56
57
58
59
62
63
66
Total
1
1
12
1
1
1
2
2
2
2
2
11
1
1
21
25
16. Frecuencia relativa y
acumulada
Por lo regular, se agregan dos columnas: la
de la frecuencia relativa “fr” y la de la
frecuencia acumulada “fa”.
La frecuencia relativa se obtiene mediante el
cociente de la frecuencia y el número total de
datos, esto es fr = f/n.
La frecuencia acumulada se obtiene sumando
las frecuencias anteriores a las frecuencias de
un dato dado.
17. Ejemplo
xi f fr fa
40 1
42 1
43 1
44 2
45 1
48 1
49 1
50 2
51 2
xi f fr fa
52 2
55 2
56 2
57 1
58 1
59 1
62 1
63 2
66 1
Tota
25
l
0.04
0.04
0.04
0.04
0.04
0.04
0.04
0.04
0.04
0.04
0.04
0.08
0.08
0.08
0.08
0.08
0.08
0.08
1/25
2/25
1
2
3
5
6
7
8
10
12
14
16
18
19
20
21
22
24
25
1
Siempre
es el
número
total
Siempre es 1
18. Intervalo de clase
En ocasiones es conveniente acomodar
los datos en pequeños grupos de igual
tamaño, llamados intervalos de clase.
El punto medio o marca de clase “xi”, se
obtiene con:
Marca de clase
=
Límite inferior + límite
superior 2
El tamaño del intervalo se obtiene
mediante la diferencia de los límites
superior e inferior.
20. Límite verdadero del intervalo
(ajuste)
Frontera de clase o límite verdadero del
inItnetrevravloal:o de clase Punto medio “xi”
37.5 – 42.5 40
42.5 – 47.5 45
47.5 – 52.5 50
52.5 – 57.5 55
57.5 – 62.5 60
62.5 – 67.5 65
40 – 2.5 40 + 2.5
21. Tabla de intervalos con
límites verdaderos Usando símbolos de
desigualdad
Usando paréntesis
y corchetes
Está incluido No está incluido Está incluido No está incluido
Intervalo de
clase
Punto
medio “xi”
37.5 ≤ x < 42.5 40
42.5 ≤ x < 47.5 45
47.5 ≤ x < 52.5 50
52.5 ≤ x < 57.5 55
57.5 ≤ x < 62.5 60
62.5 ≤ x < 67.5 65
Intervalo de
clase
Punto
medio “xi”
[37.5 , 42.5) 40
[42.5 , 47.5) 45
[47.5 , 52.5) 50
[52.5 , 57.5) 55
[57.5 , 62.5) 60
[62.5 , 67.5) 65
El tamaño del intervalo es de
22. Si por alguna razón no es fácil decidir el
ancho del intervalo y el número de ellos, se
pueden utilizar las siguientes fórmulas:
K = 1 + 3.3 log (n)
Donde K = número aproximado de clases
n = número de datos.
Amplitud de los intervalos = Rango / K
Donde Rango = diferencia entre el dato
mayor y el dato
menor.
23. Ejemplo
Para el ejemplo de los datos de los pesos de
25 alumnos, el valor de K:
K = 1 + 3.3 log (n) = 1 + 3.3 log (25) = 5.6.
Por lo tanto se requieren aproximadamente 6
intervalos.
Y la amplitud de los intervalos sería:
Amplitud = Rango / K = (66 – 40) / 5.6 = 4.64.
Aproximadamente 5 unidades es la amplitud
de los intervalos.
24. Tabla de distribución de
frecuencias para datos
agrupados
Se elabora con los intervalos de clase, sus
puntos medios y las frecuencias
correspondientes para cada uno de los
xini tervfalos.
40 1
42 1
43 1
44 2
45 1
48 1
49 1
50 2
51 2
52 2
55 2
56 2
57 1
58 1
59 1
62 1
63 2
66 1
Total 25 Datos sin agrupar
Datos agrupados
Intervalo
de clase
Punto medio
“xi”
f
38 – 42 40
43 – 47 45
48 – 52 50
53 – 57 55
58 – 62 60
63 - 67 65
Total
24
8
5
3
3
25
25. Se agregan las columnas de frecuencia
relativa “fr” y frecuencia acumulada “fa”:
Intervalo
de clase
Punto
medio “xi”
f fr Fa
38 – 42 40 2
43 – 47 45 4
48 – 52 50 8
53 – 57 55 5
58 – 62 60 3
63- 68 65 3
Total 25
0.08
0.16
0.32
0.20
0.12
0.12
1
2
6
14
19
22
25
2/25
4/25
8/25
26. Por último se agregan las columnas:
Frecuencia porcentual, “f%” ó “%f”, se obtiene
multiplicando la frecuencia relativa “fr” x 100.
Frecuencia relativa acumulada “fra”, se
obtiene sumando las frecuencias relativas
anteriores a un dato dado.
Frecuencia porcentual acumulada, “f%a”, se
obtiene sumando las frecuencias
porcentuales acumuladas a un dato dado.
27. Tablas de frecuencias absoluta,
relativa y acumulada
Intervalo
de clase
Punto medio
“xi”
0.08 x
100
f fr f% fa fra f%a
38 – 42 40 2 0.08 2
43 – 47 45 4 0.16 6
48 – 52 50 8 0.32 14
53 – 57 55 5 0.20 19
58 – 62 60 3 0.12 22
63- 68 65 3 0.12 25
Total 25 1
8
16
32
20
12
12
100
0.08
0.24
0.56
0.76
0.88
1
8
24
56
76
88
100
0.08 x
100
2/25
28. Gráfica de Datos
Existen dos tipos de gráficas mas
usuales:
Polígono de Frecuencias
Histograma
Otros gráficos:
Gráfica de barras
Pictograma
Gráfico Circular o de pastel.
29. Polígono de Frecuencias
Es la representación mediante un gráfico
de línea. En él se muestra la distribución
de frecuencias y está formado por
segmentos de línea que unen los puntos
correspondientes a la frecuencia de cada
una de las clases.
6 0
50
4 0
3 0
El eje “x” representa el dato “xi”
2 0
y el eje “y” las frecuencias. 0
10
33. Histograma
14
Es la representación gráfica de
12
10
los datos mediante una sucesión
8
6
4
de rectángulos.
2
0 0.95 2.95 4.95
Está formado por rectángulos cuya
anchura representa a cada uno de los
intervalos y la altura corresponde a la
frecuencia.
En el eje “x” estarán los límites
verdaderos, los puntos medios y en el eje
“y” las frecuencias.
34. Intervalo de
clase
Punto medio
“xi”
f
38 – 42 40 2
43 – 47 45 4
48 – 52 50 8
53 – 57 55 5
58 – 62 60 3
63 - 68 65 3
Total 25
Ejemplo (histograma)
35. También podemos usar la frecuencia relativa
y la frecuencia porcentual.
fr
xi
36. % f
xi
HISTOGRAMA DE FRECUENCIA
Presion (kpa) Frecuencia
98 2
99.5 2
100 1
101 3
104 2
3
2.5
2
1.5
1
0.5
0
histograma de frecuencia individual
98 99.5 100 101 104
histograma de frecuencia
individual
37. Pirámide Poblacional
Una variante en el histograma es colocar
en el eje “x” de tal manera que las
columnas quedarán en forma horizontal,
es muy común en datos poblacionales.
Forma rápida de hacer
comparativas entre dos
grupos
38. Ojiva
Es la representación gráfica de las frecuencias
acumuladas mediante un gráfico de línea. Se muestra la
distribución de frecuencias acumuladas de los datos.
En el eje “x” estarán los puntos medios y en el eje “y”
las frecuencias acumuladas.
Interval
o de
clase
Punto
medio
“xi”
f fr fa
38 – 42 40 2 0.08 2
43 – 47 45 4 0.16 6
48 – 52 50 8 0.32 14
53 – 57 55 5 0.20 19
58 – 62 60 3 0.12 22
63 - 68 65 3 0.12 25
Total 25 1
40. Gráfico Circular
También es llamado gráfico de pastel.
Sólo se representan datos de frecuencias
relativas o frecuencias porcentuales.
Se debe dividir el área del círculo de manera
proporcional a las frecuencias. 13%
17%
13%
57%
PERRO
PAJARO
HAMSTER
GATO
41. Ejemplo 1 (datos cuantitativos)
Intervalo
de clase
Punto
medio “xi”
0.08 x
360°
f fr (fr )
(360°)
38 – 42 40 2 0.08
43 – 47 45 4 0.16
48 – 52 50 8 0.32
53 – 57 55 5 0.20
58 – 62 60 3 0.12
63- 68 65 3 0.12
Total 25 1
28.8°
0.16 x
360°
57.6°
115.2°
72°
43.2°
43.2°
360°
42.
43. Ejemplo 2 (datos cuantitativos)
Color Frecuencia Conteo
Azul I I I I
4
Blanco I I I I I
7
Café 3
Gris 4
Negro 2
Rosa 4
Verde 1
II
I I
I I I I
I I
I I I I
I
44. Otros Gráficos
La gráfica de barras se traza similar al
Histograma, sólo que las barras se
dibujan separadas unas de otras.
La escala en el eje “x” es para mostrar
categorías o intervalos de números NO
consecutivos.
60
50
40
30
20
10
0
PERRO PAJARO HAMSTER GATO
Frecuencia absoluta
48. 48
Variables Cuantitativas
x = variable = valor de la variable en el individuo i i x
OOBBSSEERRVVAACCIIOONNEESS
y = variable i = 1,...,n
** EEll TTiippoo ddee GGrrááffiiccoo y
sseelleecccciioonnaaddoo = valor de vvaa la aa variable ddeeppeennddeerr en ddee llaa el vvaarriiaabbllee individuo eenn eessttuuddiioo..
i ** EEll GGrrááffiiccoo ddeebbee ccoonntteenneerr i uunn TTííttuulloo GGeenneerraall yy llaa iiddeennttiiffiiccaacciióónn ddee ccaaddaa eejjee
((vvaarriiaabbllee eenn eessttuuddiioo yy ffrreeccuueenncciiaa))..
** EEnn ooccaassiioonneess rreessuullttaa mmááss iilluussttrraattiivvoo uunn ggrrááffiiccoo qquuee uunnaa ttaabbllaa ddee ffrreeccuueenncciiaa..
** AAll iigguuaall qquuee llaass ttaabbllaass,, llooss ggrrááffiiccooss ddeebbeenn sseerr aauuttoo--eexxpplliiccaattiivvooss..
= + + = å=
c c c nc
n
i
1
a,b,c : constantes
å = + + =
å
= =
n
n i
i
n
i
i cx cx cx c x
1
1
1
n
i å + = + + + + = å +
= =1
ax b ax b ax b a x b
n i
i
n
i
1
1
( ) ( ) ( )
i x x x + + = å=
2 2
1
1
2
n
n
i
2
n
i x x x + + = å=
( ) ( ) 1
n
2
1
i
i i y x y x y x + + + + = + å=
( ) ( ) ( ) 1 1
n n
1
n
i
i i y x y x y x + + = å=
( ) ( ) ( ) 1 1
n n
1
n
i
NOTACIÓN
49. 49
D MEDIDAS DEE TTEENNDDEENNCCIIAA CCEENNTTRRAALL
-MMeeddiiaa AArriittmmééttiiccaa ((PPrroommeeddiioo))
-MMeeddiiaannaa
-MMooddaa
DDaattooss CCuuaannttiittaattiivvooss
MMeeddiiaa AArriittmmééttiiccaa oo PPrroommeeddiioo
x
i = å= 1
n
x
n
i
DDaattooss CCuuaannttiittaattiivvooss oorrddeennaaddooss ddee mmeennoorr aa mmaayyoorr
MMeeddiiaannaa
E ( ) M k = x
SSii nn eess iimmppaarr
= k k x x
M ( ) ( 1)
2
E
+ +
x
1 x
2 x
n x
x
(1) x
(2) x
(n) x
SSii nn eess ppaarr
dato del centro ( ) = k x
DDaattooss MMooddaa
CCuuaalliittaattiivvooss yy CCuuaannttiittaattiivvooss
M "el dato que más se repite" o =
DESCRIPTIVA
50. 50
Estadística
PPeerrcceennttiilleess,, DDeecciilleess oo CCuuaarrttiilleess
-PPeerrcceennttiill ((eejjeemmpplloo:: 2255,, 5500,, 7755))
-DDeecciill ((eejjeemmpplloo:: 44,, 55,, 88))
-CCuuaarrttiill ((eejjeemmpplloo:: 11,, 22,, 33))
PPeerrcceennttiill,, DDeecciill oo CCuuaarrttiill:: ccoorrrreessppoonnddee aall vvaalloorr qquuee ttoommaa llaa vvaarriiaabbllee ((ccuuaannttiittaattiivvaa)),, ccuuaannddoo llooss nn ddaattooss
eessttáánn oorrddeennaaddooss ddee MMeennoorr aa MMaayyoorr
Los Cuartiles, que dividen a la distribución en
cuatro partes (corresponden a los cuantiles 0.25,
0.50 y 0.75 );
Los Quintiles, que dividen a la distribución en
cinco partes (corresponden a los cuantiles 0.20,
EEll PPeerrcceennttiill vvaa ddee 11 aa 110000
EEll ppeerrcceennttiill 2255 ((2255//110000)):: eess eell vvaalloorr ddee llaa vvaarriiaabbllee qquuee rreeúúnnee aall mmeennooss eell 2255%% ddee llooss ddaattooss
EEjjeemmpplloo:: SSii NN==8800,, eell 2255%% ddee 8800 eess 2200;; ppoorr lloo ttaannttoo,, ssee bbuussccaa eell ddaattoo qquuee eessttee eenn llaa ppoossiicciióónn 2200..
SSii NN==8855,, eell 2255%% ddee 8855 eess 2211,,2255;; ppoorr lloo ttaannttoo ssee bbuussccaa eell ddaattoo qquuee eessttee eenn llaa ppoossiicciióónn 2222..
0.40, 0.60 y 0.80);
Los Deciles, que dividen a la distribución en diez
partes;
Los Percentiles, que dividen a la distribución en
cien partes.
EEll DDeecciill vvaa ddee 11 aa 1100
EEll DDeecciill 44 ((44//1100)):: eess eell vvaalloorr ddee llaa vvaarriiaabbllee qquuee rreeúúnnee aall mmeennooss eell 4400%% ddee llooss ddaattooss
EEjjeemmpplloo:: SSii NN==8800,, eell 4400%% ddee 8800 eess 3322;; ppoorr lloo ttaannttoo,, ssee bbuussccaa eell ddaattoo qquuee eessttee eenn llaa ppoossiicciióónn 3322..
SSii NN==8855,, eell 4400%% ddee 8855 eess 3344;; ppoorr lloo ttaannttoo ssee bbuussccaa eell ddaattoo qquuee eessttee eenn llaa ppoossiicciióónn 3344..
EEll CCuuaarrttiill vvaa ddee 11 aa 44
EEll CCuuaarrttiill 33 ((33//44)):: eess eell vvaalloorr ddee llaa vvaarriiaabbllee qquuee rreeúúnnee aall mmeennooss eell 7755%% ddee llooss ddaattooss
EEjjeemmpplloo:: SSii NN==8800,, eell 7755%% ddee 8800 eess 6600;; ppoorr lloo ttaannttoo,, ssee bbuussccaa eell ddaattoo qquuee eessttee eenn llaa ppoossiicciióónn 6600..
SSii NN==8855,, eell 7755%% ddee 8855 eess 6633,,7755;; ppoorr lloo ttaannttoo ssee bbuussccaa eell ddaattoo qquuee eessttee eenn llaa ppoossiicciióónn 6644..
51. 51
MMEEDDIIDDAASS DDEE DDIISSPPEERRSSIIÓÓNN
-RRaannggoo
-VVaarriiaannzzaa
-DDeessvviiaacciióónn EEssttáánnddaarr
RRaannggoo
VVaarriiaannzzaa
DDaattooss CCuuaannttiittaattiivvooss
x
1 x
2 x
n x
max( ) min( ) i i R = x - x
( ) 1 ( x
)
å å å
i i
n
1 1 2
DDeessvviiaacciióónn TTííppiiccaa oo EEssttáánnddaarr
x x
CCooeeffiicciieennttee ddee VVaarriiaacciióónn Comparación entre Variables
SSee rreeffiieerree aall ccoommppoorrttaammiieennttoo ddee llaass vvaarriiaabblleess ccuuaannttiittaattiivvaass eenn uunn
ggrruuppoo.. PPoorr eejjeemmpplloo:: SSii ssee ttiieennee uunn ccoonnjjuunnttoo ddee ppeerrssoonnaass aa llaass qquuee ssee
lleess mmiiddee EEssttaattuurraa,, PPeessoo,, EEddaadd:: EEnnttrree eessttaass vvaarriiaabblleess ¿ccuuááll pprreesseennttaa
mmaayyoorr vvaarriiaacciióónn??
2
1
2 2
1
2
2 1
x x
n n
x
n
s
n
i
i
n
i
n
i
n
i
i
= -
-
=
-
= å
=
= = =
s = s2
cv = s
x
Estadística
52. 52
Estadística
OOttrraass mmeeddiiddaass oo CCooeeffiicciieenntteess
-AAssiimmeettrrííaa ((sseessggoo))
-KKuurrttoossiiss oo AAppuunnttaammiieennttoo
Además de la posición y la dispersión de los datos, otra medida de interés en una distribución de frecuencias
es la simetría y el apuntamiento o kurtosis.
Coeficiente de
1
3
Asimetría ( x x
)3
n s
CA
n
i
i
×
-
=
å=
No agrupados
Si CA=0 si la distribución es simétrica alrededor de la media.
Si CA<0 si la distribución es asimétrica a la izquierda
Si CA>0 si la distribución es asimétrica a la derecha
Coeficiente de
Apuntamiento
å=
( )3
n s
x x fi
4
1
3
-
i
×
( x x
) 4
n s
CA
=
CAp
n
1
n
i
i
×
-
i
=
å=
- Si CAp=0 la distribución se dice normal (similar
a la distribución normal de Gauss) y recibe el
nombre de mesocúrtica.
- Si CAp>0, la distribución es más puntiaguda que
la anterior y se llama leptocúrtica, (mayor
concentración de los datos en torno a la media).
- Si CAp<0 la distribución es más plana y se
llama platicúrtica.
å=
( )4
n s
x -
x fi
4
n
1
CAp
i
i
×
=
agrupados
No agrupados
agrupados
Mesocúrtica (CAp=0) Leptocúrtica (CAp>0 ) Platicúrtica (CAp<0)
55. 55
Estadística
Media, Desviación típica, Coeficientes de AAssiimmeettrrííaa yy AAppuunnttaammiieennttoo ppaarraa
ddaattooss AAggrruuppaaddooss ((ttaabbllaa ddee ffrreeccuueenncciiaass))
TTaabbllaa ddee ffrreeccuueenncciiaa ((ppaarraa vvaarriiaabbllee ccuuaannttiittaattiivvaa))
Intervalo
Centro
de clase Amplitud F f FAA fra
f1
f2
I1 c1 a1
I2 c2 a2
.
.
Ik ck ak fk
n 1
Total n 1
n1
n2
nk
Sea cj la marca de clase (o centro de clase) y fj la
frecuencia relativa de la clase j, donde j=1, 2,…, k.
1) La Media para datos agrupados es igual a la
suma de los productos de las marcas de clase
por sus frecuencias relativas, de la forma:
å=
Media = x =
c f
c c j j k
j
1
2) LLaa DDeessvviiaacciióónn ttííppiiccaa ppaarraa ddaattooss
aaggrruuppaaddooss eessttaa ddaaddaa ppoorr::
k
å=
s = c -
x f
c j c j j
1
( )2
3) EEll CCooeeffiicciieennttee ddee AAssiimmeettrrííaa ppaarraa ddaattooss
aaggrruuppaaddooss eessttaa ddaaddoo ppoorr::
c -
x f
3
å=
1
( )3
c
k
j
j c j
CA
=
c s
4) EEll CCooeeffiicciieennttee ddee aappuunnttaammiieennttoo ppaarraa
ddaattooss aaggrruuppaaddooss eessttaa ddaaddaa ppoorr::
c x f
4
1
( )4
c
k
j
j c j
c s
CAp
å=
-
=
56. 56
Estadística (linealidad de datos y proyecciones)
D MEDIDAS DEE AASSOOCCIIAACCIIÓÓNN LLIINNEEAALL
- CCoovvaarriiaannzzaa
- CCoorrrreellaacciióónn
x
1 x
2 x
n x
DDaattooss
CCuuaannttiittaattiivvooss
CCoovvaarriiaannzzaa::
RReeccoorrddeemmooss qquuee:: HHaassttaa aahhoorraa hheemmooss eessttuuddiiaaddoo llaass mmeeddiiddaass tteennddeenncciiaa
cceennttrraall ((MMeeddiiaa,, MMeeddiiaannaa,, MMooddaa)) yy ddiissppeerrssiióónn
((VVaarriiaannzzaa yy DDeessvviiaacciióónn EEssttáánnddaarr)) ppaarraa uunnaa VVaarriiaabbllee
CCuuaannttiittaattiivvaa ((xx))..
EEss uunnaa mmeeddiiddaa ddee VVaarriiaabbiilliiddaadd CCoonnjjuunnttaa eennttrree ddooss vvaarriiaabblleess ((xx11 ,, xx22)) oo bbiieenn ((xx ,, yy))
x y
(1) x y(1)
(2) x y( 2 )
(n) x y( n )
n
å=
( xi x )( yi y )
1
= - -
i
n
cov( x, y )
1
SSii CCoovv((xx,,yy)) eess ppoossiittiivvaa:: llaa aassoocciiaacciióónn eennttrree xx ee yy eess ddiirreeccttaammeennttee pprrooppoorrcciioonnaall,, eess
ddeecciirr qquuee ccuuaannddoo xx aauummeennttaa yy ttaammbbiiéénn aauummeennttaa;; yy vviicceevveerrssaa..
SSii CCoovv((xx,,yy)) eess nneeggaattiivvaa:: llaa aassoocciiaacciióónn eennttrree xx ee yy eess iinnvveerrssaammeennttee pprrooppoorrcciioonnaall,,
eess ddeecciirr qquuee ccuuaannddoo xx aauummeennttaa yy ddiissmmiinnuuyyee;; yy vviicceevveerrssaa..
SSii CCoovv((xx,,yy)) eess cceerroo:: nnoo eexxiissttee aassoocciiaacciióónn eennttrree xx ee yy..
57. 57
D MEDIDAS DEE AASSOOCCIIAACCIIÓÓNN LLIINNEEAALL
- CCoovvaarriiaannzzaa
- CCoorrrreellaacciióónn
DDaattooss
CCuuaannttiittaattiivvooss
SSee rreeffiieerree aall ggrraaddoo ddee aassoocciiaacciióónn eennttrree ddooss vvaarriiaabblleess ((xx11 ,, xx22)) oo bbiieenn ((xx ,, yy))
CCooeeffiicciieennttee ddee CCoorrrreellaacciióónn ddee PPeeaarrssoonn ((rr)):: MMiiddee eell ggrraaddoo ddee AAssoocciiaacciióónn LLiinneeaall eennttrree
ddooss vvaarriiaabblleess CCuuaannttiittaattiivvaass
x y
(1) x y(1)
(2) x y( 2 )
(n) x y( n )
r = cov( x, y )
x y nxy
SSii rr eess ppoossiittiivvoo:: llaa aassoocciiaacciióónn eennttrree xx ee yy eess ddiirreeccttaammeennttee pprrooppoorrcciioonnaall,, eess ddeecciirr qquuee
ccuuaannddoo xx aauummeennttaa yy ttaammbbiiéénn aauummeennttaa;; yy vviicceevveerrssaa.. SSii rr==11:: llaa aassoocciiaacciióónn lliinneeaall eess
ppeerrffeeccttaa..
SSii rr eess nneeggaattiivvoo:: llaa aassoocciiaacciióónn eennttrree xx ee yy eess iinnvveerrssaammeennttee pprrooppoorrcciioonnaall,, eess ddeecciirr
qquuee ccuuaannddoo xx aauummeennttaa yy ddiissmmiinnuuyyee;; yy vviicceevveerrssaa.. SSii rr==--11:: llaa aassoocciiaacciióónn lliinneeaall eess
ppeerrffeeccttaa..
SSii rr eess cceerroo:: nnoo eexxiissttee aassoocciiaacciióónn eennttrree xx ee yy..
CCoorrrreellaacciióónn::
-1£ r £1
sxsy
x y
n
i
i i
( n )s s
r
1
1
-
-
=
å=
Estadística
58. 58
g EJEMPLO : Representación grrááffiiccaa ddee llaass vvaarriiaabblleess xx ee yy
r=1 r=-1
Estadística
r= 0 r≠ 0 ≠ 1 ≠-1
59. 59
RREEGGRREESSIIOONN LLIINNEEAALL SSIIMMPPLLEE
Objetivo 2
Estudiar si los valores de una variable
pueden ser utilizados para predecir el
valor de la otra (pronostico o
estimación)
Estadística
DDaattooss CCuuaannttiittaattiivvooss
Objetivo 1
DDeetteerrmmiinnaarr ssii ddooss vvaarriiaabblleess eessttáánn
aassoocciiaaddaass yy eenn qquuéé sseennttiiddoo ssee ddaa llaa
aassoocciiaacciióónn..
Determinar si existe relación
entre las variables x e y:
Coeficiente de Correlación
Estudiar la dependencia de una
variable respecto de la otra:
MMooddeelloo ddee RReeggrreessiióónn
x y
(1) x y(1)
(2) x y( 2 )
(n) x y( n )
Términos
Variable Respuesta (=variable dependiente)
Variable Explicativa (=variable Independiente)
Relación Lineal (modelo lineal)
Parámetros (intercepto y pendiente)
Intercepto (respuesta media)
Pendiente (efecto de la variable explicativa sobre la respuesta)
Error (residuo)
60. 60
RREEGGRREESSIIOONN LLIINNEEAALL SSIIMMPPLLEE
DDaattooss CCuuaannttiittaattiivvooss
Notación
Variable Respuesta: y ó dependiente
Variable Explicativa: x ó independiente
Modelo de Regresión Lineal Simple: yi=a+bxi+ei
Intercepto: a = a
Pendiente: b = b
Error: e
x y
(1) x y(1)
(2) x y( 2 )
(n) x y( n )
Modelo Estimado
(recta de regresión)
yˆ = a + bx
Método de Estimación: MMíínniimmooss CCuuaaddrraaddooss
a = y - bx
n xy x y
2
å -
å å
=
å å
= = =
1 1 1
2
n
ö i
çè
1 1
÷ø
- æ
= =
i
n
i
n
i
i
n
i
i
n
i
n x x
b
Residuos o Errores
i i i e = y - yˆ
Estadística
61. 61
RREEGGRREESSIIOONN LLIINNEEAALL SSIIMMPPLLEE
DDAATTOOSS
MODELO DE REGRESIÓN LINEAL SIMPLE
yi=a+bxi+ei
x y
(1) x y(1)
(2) x y( 2 )
(n) x y( n )
MODELO ESTIMADO
yˆ = a + bx
a = y - bx
n xy x y
2
å -
å å
=
å å
= = =
1 1 1
2
n
ö i
çè
1 1
÷ø
- æ
= =
i
n
i
n
i
i
n
i
i
n
i
n x x
b
ESTIMADORES
ERRORES
i i i e = y - yˆ
Estadística
62. 62
RREEGGRREESSIIOONN LLIINNEEAALL SSIIMMPPLLEE
EJEMPLO: Aplicación del Modelo de Regresión Lineal Simple
Problema 1: Se cuenta con las mediciones sobre la edad y la talla de 14 niños, y estamos
interesados en determinar si existe algún tipo de relación entre la talla del niño y su edad.
niño edad (meses) talla (cm)
i xi yi
1 3 55
2 6 68
3 5 64
4 5 66
5 3 62
6 4 65
7 9 74
8 8 75
9 9 73
10 7 69
11 6 73
12 5 68
13 8 73
14 6 71
y=talla / x=edad / n=14
956
14
= i
1
=
åi y y=68,3 =5,6 y s
= å=
i
84
14
1
i x x=6 =2 x s
cov(x, y)=9,07 =0,88 xy r
= å=
i
5863
14
1
14
2 = å=
i
i i x y 556
1
i x
Estadística
63. 63
RREEGGRREESSIIOONN LLIINNEEAALL SSIIMMPPLLEE
Estadística
EJEMPLO: Aplicación del Modelo de Regresión Lineal Simple
Problema 1: Se cuenta con las mediciones sobre la edad y la talla de 14 niños, y estamos
interesados en determinar si existe algún tipo de relación entre la talla del niño y su edad.
Modelo Estimado
yˆ=a+bx
b=2,44 a=53,64
yˆ=53,64+2,44x
Interpretación de los resultados
- Existe asociación o dependencia entre la Talla del niño y la edad (r=0,88); a
medida que la edad aumenta la talla aumenta.
- Desde los resultados del modelo de regresión lineal simple, se tiene que la talla
media de un niño es de 53,64 cm. Cuando la edad del niño (meses) aumenta en
una unidad la talla se incrementa en 2,44 cm.
64. 64
RREEGGRREESSIIOONN LLIINNEEAALL SSIIMMPPLLEE
EJEMPLO: Aplicación del Modelo de Regresión Lineal Simple
Problema 1: Se cuenta con las mediciones sobre la edad y la talla de 14 niños, y estamos
interesados en determinar si existe algún tipo de relación entre la talla del niño y su edad.
2 = - å=
i
14
å 2 å
= =
Bondad de Ajuste del Modelo
R2 = 0,77
De acuerdo al coeficiente de
determinación, el modelo ajustado
a los datos es adecuado (R2
cercano a 1)
niño edad (meses) talla (cm) Talla estimada error
i xi yi i yˆ i e
1 3 55 61,0 -6,0
2 6 68 68,3 -0,3
3 5 64 65,8 -1,8
4 5 66 65,8 0,2
5 3 62 61,0 1,0
6 4 65 63,4 1,6
7 9 74 75,6 -1,6
8 8 75 73,2 1,8
9 9 73 75,6 -2,6
10 7 69 70,7 -1,7
11 6 73 68,3 4,7
12 5 68 65,8 2,2
13 8 73 73,2 -0,2
14 6 71 68,3 2,7
( ) 402,86
14
1
i i y y
( ˆ ) 92,7
1
2
14
1
- = =
i
i
i
i i y y e
Estadística