Estadistica descriptiva presentación (ito)

ELEMENTOS DE
ESTADÍSTICA
DESCRIPTIVA
PRESENTA: Profr. Benito Santiago Guerra

Aplicaciones de la estadística
 La Estadística es una ciencia
que facilita la solución de
problemas en los cuales
necesitamos conocer
características sobre el
comportamiento de algún
suceso o evento.
 Nos permite inferir el
comportamiento de sucesos
iguales o similares sin necesidad
de que estos ocurran.

 Da la posibilidad de tomar
decisiones acertadas en tiempo
y forma, así como realizar
proyecciones del
comportamiento del suceso.
 Sólo se realizan cálculos y
análisis con los datos obtenidos
de una muestra de la población
y no con toda la población.

 Actualmente el INEGI es el encargado de
concentrar y publicar la información
estadística del estado y del país.

Conceptos básicos
 Estadística:
Es la ciencia que se encarga de recolectar,
organizar, resumir y analizar datos para después
obtener conclusiones y tomar decisiones .
Se divide en:
Estadística Descriptiva y Estadística Inferencial.
 Estadística descriptiva:
Se encarga de la
recolección, organización,
presentación y análisis de
los datos de una
población.

 Estadística inferencial:
Se encarga de analizar la información
presentada por la estadística descriptiva
mediante técnicas que nos ayuden a
conocer, con determinado grado de
confianza, a la población. formulando
hipótesis y finalmente permite tomar
decisiones.

 Población:
Conjunto definido de TODOS los INDIVIDUOS o
elementos, de donde se observa cierta característica.
Al número de integrantes de la población se llama
tamaño de la población y se representa con la letra N.
Las poblaciones pueden ser finitas o infinitas.
 Muestra:
Subconjunto o elemento de una población, que intenta
reflejar las características de la población lo mejor
posible.
 Variable:
Característica o propiedad de los individuos que se
desea estudiar y se puede medir o calificar

Tipos de datos para análisis
 Datos Cuantitativos
(números):
Valores obtenidos al medir
peso, estatura, temperatura,
número de hijos.
 Datos Cualitativos
(categorías):
Se obtienen al calificar la
característica en cuestión
como el sexo, estado civil,
grado máximo de estudios.

Recopilación de datos:
Encuesta
Experimentos
Documentos
Muestreo poblacional (aleatorio simple, sistemático,
estratificados o conglomerados)
 Ordenar datos
Hay dos métodos comunes:
Listado en orden ascendente
Método de tallo y hojas
)

Ejemplo. Listado en orden ascendente
 El proceso consiste en ordenarlos de menor a
mayor
Peso de 25 estudiantes (en kg)
42 40 48 51 49
56 44 43 55 52
52 62 44 50 59
63 50 56 55 45
57 66 63 51 58
40 42 43 44 44
45 48 49 50 50
51 51 52 52 55
55 56 56 57 58
59 62 63 63 66

Método de tallo y hojas
 Si los números de los datos están
formados por dos dígitos, se hace una
columna con el primer dígito (decenas) y
a la derecha de cada uno de ellos se
escribe, en fila, sólo el segundo dígito
(unidades) de cada uno de los datos que
tengan el mismo primer dígito.

 Datos sin ordenar:
2,0,8,9,4,3,4,5
1,6,5,2,2,0,9,0,6,5,7,1,8
2,3,6,3
 Datos ordenados:
456
456
42 40 48 51 49
56 44 43 55 52
52 62 44 50 59
63 50 56 55 45
57 66 63 51 58
0,2,3,4,4,5,8,9
0,0,1,1,2,2,5,5,6,6,7,8,9
2,3,3,6

Doble tallo
 Una variante de este método es en lugar de
dividir en un grupo las decenas, se divide en
dos grupos. El primero abarcando los dígitos
del 0 al 4 y el segundo del 5 al 9.
 El ejemplo anterior
queda:
4 0,2,3,4,4
4 5,8,9
5 0,0,1,1,2,2,
5 5,5,6,6,7,8,9
6 2,3,3
6 6

Tabla de Frecuencia de Datos
 Una vez que se tenga ordenados los datos, se
acomodan en la “Ta bla d e d is tribuc ió n d e fre c ue nc ia s o
ta bla d e fre c ue nc ia s ”.
 La tabla es básicamente una tabla de valores x-y, dónde
“x” representa el dato y “y” representa la frecuencia.  La frecuencia es el número de veces que aparece cada
dato.
 Hay dos clases de tablas de frecuencias:
 Para datos NO agrupados.
rosa Paarzau ldatosb laagnrcuopaadzousl. rosa
gris blanco café negro blanco
rosa azul café blanco blanco
gris azul blanco rosa gris
gris blanco café negro verde
Color Frecuencia
Azul
I I I I
Blanco
I I I I I
Café
Gris
Negro
Rosa
Verde
II
I I
I I I I
I I
I I I I
I

Ejemplo (no agrupadas)
 Tabla de frecuencias de los pesos en kg de 25
alumnos.
40 42 43 44 44
45 48 49 50 50
51 51 52 52 55
55 56 56 57 58
59 62 63 63 66
xi f
40
42
43
44
45
48
49
50
51
xi f
52
55
56
57
58
59
62
63
66
Total
1
1
12
1
1
1
2
2
2
2
2
11
1
1
21
25

Frecuencia relativa y
acumulada
 Por lo regular, se agregan dos columnas: la
de la frecuencia relativa “fr” y la de la
frecuencia acumulada “fa”.
 La frecuencia relativa se obtiene mediante el
cociente de la frecuencia y el número total de
datos, esto es fr = f/n.
 La frecuencia acumulada se obtiene sumando
las frecuencias anteriores a las frecuencias de
un dato dado.

Ejemplo
xi f fr fa
40 1
42 1
43 1
44 2
45 1
48 1
49 1
50 2
51 2
xi f fr fa
52 2
55 2
56 2
57 1
58 1
59 1
62 1
63 2
66 1
Tota
25
l
0.04
0.04
0.04
0.04
0.04
0.04
0.04
0.04
0.04
0.04
0.04
0.08
0.08
0.08
0.08
0.08
0.08
0.08
1/25
2/25
1
2
3
5
6
7
8
10
12
14
16
18
19
20
21
22
24
25
1
Siempre
es el
número
total
Siempre es 1

Intervalo de clase
 En ocasiones es conveniente acomodar
los datos en pequeños grupos de igual
tamaño, llamados intervalos de clase.
 El punto medio o marca de clase “xi”, se
obtiene con:
Marca de clase
=
Límite inferior + límite
superior 2
 El tamaño del intervalo se obtiene
mediante la diferencia de los límites
superior e inferior.

Ejemplo
Límite inferior Límite superior Lím inf + Lim sup
2
Intervalo de clase Punto medio “xi”
38 – 42 40
43 – 47 45
48 – 52 50
53 – 57 55
58 – 62 60
63 – 67 65

Límite verdadero del intervalo
(ajuste)
 Frontera de clase o límite verdadero del
inItnetrevravloal:o de clase Punto medio “xi”
37.5 – 42.5 40
42.5 – 47.5 45
47.5 – 52.5 50
52.5 – 57.5 55
57.5 – 62.5 60
62.5 – 67.5 65
40 – 2.5 40 + 2.5

Tabla de intervalos con
límites verdaderos  Usando símbolos de
desigualdad
 Usando paréntesis
y corchetes
Está incluido No está incluido Está incluido No está incluido
Intervalo de
clase
Punto
medio “xi”
37.5 ≤ x < 42.5 40
42.5 ≤ x < 47.5 45
47.5 ≤ x < 52.5 50
52.5 ≤ x < 57.5 55
57.5 ≤ x < 62.5 60
62.5 ≤ x < 67.5 65
Intervalo de
clase
Punto
medio “xi”
[37.5 , 42.5) 40
[42.5 , 47.5) 45
[47.5 , 52.5) 50
[52.5 , 57.5) 55
[57.5 , 62.5) 60
[62.5 , 67.5) 65
El tamaño del intervalo es de

 Si por alguna razón no es fácil decidir el
ancho del intervalo y el número de ellos, se
pueden utilizar las siguientes fórmulas:
 K = 1 + 3.3 log (n)
 Donde K = número aproximado de clases
n = número de datos.
 Amplitud de los intervalos = Rango / K
 Donde Rango = diferencia entre el dato
mayor y el dato
menor.

Ejemplo
 Para el ejemplo de los datos de los pesos de
25 alumnos, el valor de K:
K = 1 + 3.3 log (n) = 1 + 3.3 log (25) = 5.6.
Por lo tanto se requieren aproximadamente 6
intervalos.
 Y la amplitud de los intervalos sería:
Amplitud = Rango / K = (66 – 40) / 5.6 = 4.64.
Aproximadamente 5 unidades es la amplitud
de los intervalos.

Tabla de distribución de
frecuencias para datos
agrupados
 Se elabora con los intervalos de clase, sus
puntos medios y las frecuencias
correspondientes para cada uno de los
xini tervfalos.
40 1
42 1
43 1
44 2
45 1
48 1
49 1
50 2
51 2
52 2
55 2
56 2
57 1
58 1
59 1
62 1
63 2
66 1
Total 25 Datos sin agrupar
Datos agrupados
Intervalo
de clase
Punto medio
“xi”
f
38 – 42 40
43 – 47 45
48 – 52 50
53 – 57 55
58 – 62 60
63 - 67 65
Total
24
8
5
3
3
25

 Se agregan las columnas de frecuencia
relativa “fr” y frecuencia acumulada “fa”:
Intervalo
de clase
Punto
medio “xi”
f fr Fa
38 – 42 40 2
43 – 47 45 4
48 – 52 50 8
53 – 57 55 5
58 – 62 60 3
63- 68 65 3
Total 25
0.08
0.16
0.32
0.20
0.12
0.12
1
2
6
14
19
22
25
2/25
4/25
8/25

 Por último se agregan las columnas:
 Frecuencia porcentual, “f%” ó “%f”, se obtiene
multiplicando la frecuencia relativa “fr” x 100.
 Frecuencia relativa acumulada “fra”, se
obtiene sumando las frecuencias relativas
anteriores a un dato dado.
 Frecuencia porcentual acumulada, “f%a”, se
obtiene sumando las frecuencias
porcentuales acumuladas a un dato dado.

Tablas de frecuencias absoluta,
relativa y acumulada
Intervalo
de clase
Punto medio
“xi”
0.08 x
100
f fr f% fa fra f%a
38 – 42 40 2 0.08 2
43 – 47 45 4 0.16 6
48 – 52 50 8 0.32 14
53 – 57 55 5 0.20 19
58 – 62 60 3 0.12 22
63- 68 65 3 0.12 25
Total 25 1
8
16
32
20
12
12
100
0.08
0.24
0.56
0.76
0.88
1
8
24
56
76
88
100
0.08 x
100
2/25

Gráfica de Datos
 Existen dos tipos de gráficas mas
usuales:
 Polígono de Frecuencias
 Histograma
 Otros gráficos:
 Gráfica de barras
 Pictograma
 Gráfico Circular o de pastel.

Polígono de Frecuencias
 Es la representación mediante un gráfico
de línea. En él se muestra la distribución
de frecuencias y está formado por
segmentos de línea que unen los puntos
correspondientes a la frecuencia de cada
una de las clases.
6 0
50
4 0
3 0
 El eje “x” representa el dato “xi”
2 0
y el eje “y” las frecuencias. 0
10

Ejemplo
Intervalo de
clase
Punto medio
“xi”
f
38 – 42 40 2
43 – 47 45 4
48 – 52 50 8
53 – 57 55 5
58 – 62 60 3
63 - 68 65 3
Total 25
POLIGONO DE FRECUENCIA
Presion (kpa) Frecuencia
98 2
99.5 2
100 1
101 3
104 2
3.5
3
2.5
2
1.5
1
0.5
0
97 98 99 100 101 102 103 104 105
Frecuencia

 El eje “y” puede ser sustituido por las
frecuencias relativas o porcentuales.
fr
Polígono de Frecuencia Relativa
xi

% f
Polígono de Frecuencia Porcentual
xi

Histograma
14
 Es la representación gráfica de
12
10
los datos mediante una sucesión
8
6
4
de rectángulos.
2
0 0.95 2.95 4.95
 Está formado por rectángulos cuya
anchura representa a cada uno de los
intervalos y la altura corresponde a la
frecuencia.
 En el eje “x” estarán los límites
verdaderos, los puntos medios y en el eje
“y” las frecuencias.

Intervalo de
clase
Punto medio
“xi”
f
38 – 42 40 2
43 – 47 45 4
48 – 52 50 8
53 – 57 55 5
58 – 62 60 3
63 - 68 65 3
Total 25
Ejemplo (histograma)

 También podemos usar la frecuencia relativa
y la frecuencia porcentual.
fr
xi

% f
xi
HISTOGRAMA DE FRECUENCIA
Presion (kpa) Frecuencia
98 2
99.5 2
100 1
101 3
104 2
3
2.5
2
1.5
1
0.5
0
histograma de frecuencia individual
98 99.5 100 101 104
histograma de frecuencia
individual

Pirámide Poblacional
 Una variante en el histograma es colocar
en el eje “x” de tal manera que las
columnas quedarán en forma horizontal,
es muy común en datos poblacionales.
Forma rápida de hacer
comparativas entre dos
grupos

Ojiva
 Es la representación gráfica de las frecuencias
acumuladas mediante un gráfico de línea. Se muestra la
distribución de frecuencias acumuladas de los datos.
 En el eje “x” estarán los puntos medios y en el eje “y”
las frecuencias acumuladas.
Interval
o de
clase
Punto
medio
“xi”
f fr fa
38 – 42 40 2 0.08 2
43 – 47 45 4 0.16 6
48 – 52 50 8 0.32 14
53 – 57 55 5 0.20 19
58 – 62 60 3 0.12 22
63 - 68 65 3 0.12 25
Total 25 1

OJIVAS
Tiempo Temperatura
8.00 18
8.50 18.5
9.00 19
9.30 22
10.00 23
10.30 23
11.00 25
12.00 26
13.00 26
14.00 27
15.00 27
30
25
20
15
10
0 5
Cronologia
Temperatura Tiempo
6.00 8.00 10.00 12.00 14.00 16.00 18.00

Gráfico Circular
 También es llamado gráfico de pastel.
 Sólo se representan datos de frecuencias
relativas o frecuencias porcentuales.
 Se debe dividir el área del círculo de manera
proporcional a las frecuencias. 13%
17%
13%
57%
PERRO
PAJARO
HAMSTER
GATO

Ejemplo 1 (datos cuantitativos)
Intervalo
de clase
Punto
medio “xi”
0.08 x
360°
f fr (fr )
(360°)
38 – 42 40 2 0.08
43 – 47 45 4 0.16
48 – 52 50 8 0.32
53 – 57 55 5 0.20
58 – 62 60 3 0.12
63- 68 65 3 0.12
Total 25 1
28.8°
0.16 x
360°
57.6°
115.2°
72°
43.2°
43.2°
360°

Ejemplo 2 (datos cuantitativos)
Color Frecuencia Conteo
Azul I I I I
4
Blanco I I I I I
7
Café 3
Gris 4
Negro 2
Rosa 4
Verde 1
II
I I
I I I I
I I
I I I I
I

Otros Gráficos
 La gráfica de barras se traza similar al
Histograma, sólo que las barras se
dibujan separadas unas de otras.
 La escala en el eje “x” es para mostrar
categorías o intervalos de números NO
consecutivos.
60
50
40
30
20
10
0
PERRO PAJARO HAMSTER GATO
Frecuencia absoluta

Gráficos de barras
( cualitativos)
Carrera Alumnos
Medicina 8
Mecánica 11
Civil 8
Agronomía 3
Físico - Matemáticas 3
Leyes 6
Contaduría 11

Pictograma
 Similar al de barras, sólo que se sustituyen
por figuras, generalmente relacionadas con la
variable estudiada.

47
VARIABLES ESTADÍSTICOS
VVaarriiaabbllee:: ccoorrrreessppoonnddee aa llaa ccaarraacctteerrííssttiiccaa ddee llaa UUnniiddaadd ddee AAnnáálliissiiss
TTIIPPOOSS DDEE VVAARRIIAABBLLEESS
VVaarriiaabblleess CCuuaannttiittaattiivvaass
IInntteerrvvaalloo
DDIISSCCRREETTAA
VVaarriiaabblleess CCuuaalliittaattiivvaass
CCOONNTTIINNUUAA
TToommaa vvaalloorreess eenntteerrooss
EEjjeemmppllooss:: NNúúmmeerroo ddee HHiijjooss,, NNúúmmeerroo ddee
eemmpplleeaaddooss ddee uunnaa eemmpprreessaa,, NNúúmmeerroo ddee
aassiiggnnaattuurraass aapprroobbaaddaass eenn uunn sseemmeessttrree,, eettcc..
TToommaa ccuuaallqquuiieerr vvaalloorr ddeennttrroo ddee uunn iinntteerrvvaalloo
EEjjeemmppllooss:: PPeessoo;; EEssttaattuurraa;; TTeemmppeerraattuurraa,, eettcc..
NNOOMMIINNAALL OORRDDIINNAALL
CCaarraacctteerrííssttiiccaa oo ccuuaalliiddaadd
ccuuyyaass ccaatteeggoorrííaass nnoo ttiieenneenn
uunn oorrddeenn pprreeeessttaabblleecciiddoo..
EEjjeemmppllooss:: SSeexxoo,, DDeeppoorrttee
FFaavvoorriittoo,, eettcc..
CCaarraacctteerrííssttiiccaa oo ccuuaalliiddaadd ccuuyyaass
ccaatteeggoorrííaass ttiieenneenn uunn oorrddeenn
pprreeeessttaabblleecciiddoo..
EEjjeemmppllooss:: CCaalliiffiiccaacciióónn ((SS,, NN,, AA));;
GGrraaddoo ddee IInntteerrééss ppoorr uunn tteemmaa,, eettcc..
UUnniiddaadd ddee MMeeddiiddaa:: GGrraammooss oo KKiillooss ppaarraa llaa vvaarriiaabbllee PPeessoo;; GGrraaddooss CC oo FF ppaarraa TTeemmppeerraattuurraa

48
Variables Cuantitativas
x = variable = valor de la variable en el individuo i i x
OOBBSSEERRVVAACCIIOONNEESS
y = variable i = 1,...,n
** EEll TTiippoo ddee GGrrááffiiccoo y
sseelleecccciioonnaaddoo = valor de vvaa la aa variable ddeeppeennddeerr en ddee llaa el vvaarriiaabbllee individuo eenn eessttuuddiioo..
i ** EEll GGrrááffiiccoo ddeebbee ccoonntteenneerr i uunn TTííttuulloo GGeenneerraall yy llaa iiddeennttiiffiiccaacciióónn ddee ccaaddaa eejjee
((vvaarriiaabbllee eenn eessttuuddiioo yy ffrreeccuueenncciiaa))..
** EEnn ooccaassiioonneess rreessuullttaa mmááss iilluussttrraattiivvoo uunn ggrrááffiiccoo qquuee uunnaa ttaabbllaa ddee ffrreeccuueenncciiaa..
** AAll iigguuaall qquuee llaass ttaabbllaass,, llooss ggrrááffiiccooss ddeebbeenn sseerr aauuttoo--eexxpplliiccaattiivvooss..
= + + = å=
c c c nc
n
i

1
a,b,c : constantes
å = + + =
å
= =
n
n i
i
n
i
i cx cx cx c x
1
1
1

n
i å + = + + + + = å +
= =1
ax b ax b ax b a x b
n i
i
n
i
1
1
( ) ( )  ( )
i x x x + + = å=
2 2
1
1
2
n
n
i

2
n
i x x x + + = å=
( ) ( ) 1
n
2
1
i

i i y x y x y x + + + + = + å=
( ) ( ) ( ) 1 1
n n
1
n
i

i i y x y x y x + + = å=
( ) ( ) ( ) 1 1
n n
1
n
i

NOTACIÓN

49
D MEDIDAS DEE TTEENNDDEENNCCIIAA CCEENNTTRRAALL
-MMeeddiiaa AArriittmmééttiiccaa ((PPrroommeeddiioo))
-MMeeddiiaannaa
-MMooddaa
DDaattooss CCuuaannttiittaattiivvooss
MMeeddiiaa AArriittmmééttiiccaa oo PPrroommeeddiioo
x
i = å= 1
n
x
n
i
DDaattooss CCuuaannttiittaattiivvooss oorrddeennaaddooss ddee mmeennoorr aa mmaayyoorr
MMeeddiiaannaa
E ( ) M k = x
SSii nn eess iimmppaarr
= k k x x
M ( ) ( 1)
2
E
+ +
x
1 x
2 x

n x
x
(1) x
(2) x

(n) x
SSii nn eess ppaarr
dato del centro ( ) = k x
DDaattooss MMooddaa
CCuuaalliittaattiivvooss yy CCuuaannttiittaattiivvooss
M "el dato que más se repite" o =
DESCRIPTIVA

50
Estadística
PPeerrcceennttiilleess,, DDeecciilleess oo CCuuaarrttiilleess
-PPeerrcceennttiill ((eejjeemmpplloo:: 2255,, 5500,, 7755))
-DDeecciill ((eejjeemmpplloo:: 44,, 55,, 88))
-CCuuaarrttiill ((eejjeemmpplloo:: 11,, 22,, 33))
PPeerrcceennttiill,, DDeecciill oo CCuuaarrttiill:: ccoorrrreessppoonnddee aall vvaalloorr qquuee ttoommaa llaa vvaarriiaabbllee ((ccuuaannttiittaattiivvaa)),, ccuuaannddoo llooss nn ddaattooss
eessttáánn oorrddeennaaddooss ddee MMeennoorr aa MMaayyoorr
Los Cuartiles, que dividen a la distribución en
cuatro partes (corresponden a los cuantiles 0.25,
0.50 y 0.75 );
Los Quintiles, que dividen a la distribución en
cinco partes (corresponden a los cuantiles 0.20,
EEll PPeerrcceennttiill vvaa ddee 11 aa 110000
EEll ppeerrcceennttiill 2255 ((2255//110000)):: eess eell vvaalloorr ddee llaa vvaarriiaabbllee qquuee rreeúúnnee aall mmeennooss eell 2255%% ddee llooss ddaattooss
EEjjeemmpplloo:: SSii NN==8800,, eell 2255%% ddee 8800 eess 2200;; ppoorr lloo ttaannttoo,, ssee bbuussccaa eell ddaattoo qquuee eessttee eenn llaa ppoossiicciióónn 2200..
SSii NN==8855,, eell 2255%% ddee 8855 eess 2211,,2255;; ppoorr lloo ttaannttoo ssee bbuussccaa eell ddaattoo qquuee eessttee eenn llaa ppoossiicciióónn 2222..
0.40, 0.60 y 0.80);
Los Deciles, que dividen a la distribución en diez
partes;
Los Percentiles, que dividen a la distribución en
cien partes.
EEll DDeecciill vvaa ddee 11 aa 1100
EEll DDeecciill 44 ((44//1100)):: eess eell vvaalloorr ddee llaa vvaarriiaabbllee qquuee rreeúúnnee aall mmeennooss eell 4400%% ddee llooss ddaattooss
SSii NN==8855,, eell 4400%% ddee 8855 eess 3344;; ppoorr lloo ttaannttoo ssee bbuussccaa eell ddaattoo qquuee eessttee eenn llaa ppoossiicciióónn 3344..
EEll CCuuaarrttiill vvaa ddee 11 aa 44
EEll CCuuaarrttiill 33 ((33//44)):: eess eell vvaalloorr ddee llaa vvaarriiaabbllee qquuee rreeúúnnee aall mmeennooss eell 7755%% ddee llooss ddaattooss
SSii NN==8855,, eell 7755%% ddee 8855 eess 6633,,7755;; ppoorr lloo ttaannttoo ssee bbuussccaa eell ddaattoo qquuee eessttee eenn llaa ppoossiicciióónn 6644..

51
MMEEDDIIDDAASS DDEE DDIISSPPEERRSSIIÓÓNN
-RRaannggoo
-VVaarriiaannzzaa
-DDeessvviiaacciióónn EEssttáánnddaarr
RRaannggoo
VVaarriiaannzzaa
x
1 x
2 x

n x
max( ) min( ) i i R = x - x
( ) 1 ( x
)
å å å
i i
n
1 1 2
DDeessvviiaacciióónn TTííppiiccaa oo EEssttáánnddaarr
x x
CCooeeffiicciieennttee ddee VVaarriiaacciióónn Comparación entre Variables
SSee rreeffiieerree aall ccoommppoorrttaammiieennttoo ddee llaass vvaarriiaabblleess ccuuaannttiittaattiivvaass eenn uunn
ggrruuppoo.. PPoorr eejjeemmpplloo:: SSii ssee ttiieennee uunn ccoonnjjuunnttoo ddee ppeerrssoonnaass aa llaass qquuee ssee
lleess mmiiddee EEssttaattuurraa,, PPeessoo,, EEddaadd:: EEnnttrree eessttaass vvaarriiaabblleess ¿ccuuááll pprreesseennttaa
mmaayyoorr vvaarriiaacciióónn??
2
1
2 2
1
2
2 1
x x
n n
x
n
s
n
i
i
n
i
n
i
n
i
i
= -
-
=
-
= å
=
= = =
s = s2
cv = s
x
Estadística

52
Estadística
OOttrraass mmeeddiiddaass oo CCooeeffiicciieenntteess
-AAssiimmeettrrííaa ((sseessggoo))
-KKuurrttoossiiss oo AAppuunnttaammiieennttoo
Además de la posición y la dispersión de los datos, otra medida de interés en una distribución de frecuencias
es la simetría y el apuntamiento o kurtosis.
Coeficiente de
1
3
Asimetría ( x x
)3
n s
CA
n
i
i
×
-
=
å=
No agrupados
Si CA=0 si la distribución es simétrica alrededor de la media.
Si CA<0 si la distribución es asimétrica a la izquierda
Si CA>0 si la distribución es asimétrica a la derecha
Coeficiente de
Apuntamiento
å=
( )3
n s
x x fi
4
1
3
-
i
×
( x x
) 4
n s
CA
=
CAp
n
1
n
i
i
×
-
i
=
å=
- Si CAp=0 la distribución se dice normal (similar
a la distribución normal de Gauss) y recibe el
nombre de mesocúrtica.
- Si CAp>0, la distribución es más puntiaguda que
la anterior y se llama leptocúrtica, (mayor
concentración de los datos en torno a la media).
- Si CAp<0 la distribución es más plana y se
llama platicúrtica.
å=
( )4
n s
x -
x fi
4
n
1
CAp
i
i
×
=
agrupados
No agrupados
agrupados
Mesocúrtica (CAp=0) Leptocúrtica (CAp>0 ) Platicúrtica (CAp<0)

53
Estadística (análisis en SPSS)
-AAssiimmeettrrííaa
Ejemplos Histogramas con distinta asimetría y apuntamiento
1,0 2,0 3,0 4,0 5,0 6,0 7,0
V2
14
12
10
8
6
4
2
0
Desv. típ. = 1,67
Media = 3,9
N = 30,00
-1,0 0,0 1,0 2,0
V4
30
20
10
0
Desv. típ. = ,64
Media = 0,0
N = 30,00
1,0 2,0 3,0 4,0 5,0 6,0 7,0 8,0 9,0
V5
6
5
4
3
2
1
0
Desv. típ. = 2,42
Media = 5,2
N = 28,00

54
Estadística
-AAssiimmeettrrííaa
Ejemplos
Datos Histograma Medidas descriptivas
Media 3,9
Mediana 4
Moda 4
Desviación estándar 1,67
Varianza de la muestra 2,78
kurtosis -0,43
Coeficiente de asimetría -0,02
Rango 6
Mínimo 1
Máximo 7
Cuenta 30
1,0 2,0 3,0 4,0 5,0 6,0 7,0 8,0 9,0
V1
16
14
12
10
8
6
4
2
0
Desv. típ. = 1,77
Media = 5,4
N = 66,00
1 4 4
1 4 4
1 4 5
2 4 5
2 4 6
2 4 6
2 4 6
3 4 6
3 4 7
4 4 7

55
Estadística
Media, Desviación típica, Coeficientes de AAssiimmeettrrííaa yy AAppuunnttaammiieennttoo ppaarraa
ddaattooss AAggrruuppaaddooss ((ttaabbllaa ddee ffrreeccuueenncciiaass))
TTaabbllaa ddee ffrreeccuueenncciiaa ((ppaarraa vvaarriiaabbllee ccuuaannttiittaattiivvaa))
Intervalo
Centro
de clase Amplitud F f FAA fra
f1
f2
I1 c1 a1
I2 c2 a2
.
.
   
Ik ck ak fk
n 1
Total n 1
n1
n2
nk
Sea cj la marca de clase (o centro de clase) y fj la
frecuencia relativa de la clase j, donde j=1, 2,…, k.
1) La Media para datos agrupados es igual a la
suma de los productos de las marcas de clase
por sus frecuencias relativas, de la forma:
å=
Media = x =
c f
c c j j k
j
1
2) LLaa DDeessvviiaacciióónn ttííppiiccaa ppaarraa ddaattooss
aaggrruuppaaddooss eessttaa ddaaddaa ppoorr::
k
å=
s = c -
x f
c j c j j
1
( )2
3) EEll CCooeeffiicciieennttee ddee AAssiimmeettrrííaa ppaarraa ddaattooss
aaggrruuppaaddooss eessttaa ddaaddoo ppoorr::
c -
x f
3
å=
1
( )3
c
k
j
j c j
CA
=
c s
4) EEll CCooeeffiicciieennttee ddee aappuunnttaammiieennttoo ppaarraa
ddaattooss aaggrruuppaaddooss eessttaa ddaaddaa ppoorr::
c x f
4
1
( )4
c
k
j
j c j
c s
CAp
å=
-
=

56
Estadística (linealidad de datos y proyecciones)
D MEDIDAS DEE AASSOOCCIIAACCIIÓÓNN LLIINNEEAALL
- CCoovvaarriiaannzzaa
- CCoorrrreellaacciióónn
x
1 x
2 x

n x
DDaattooss
CCuuaannttiittaattiivvooss
CCoovvaarriiaannzzaa::
RReeccoorrddeemmooss qquuee:: HHaassttaa aahhoorraa hheemmooss eessttuuddiiaaddoo llaass mmeeddiiddaass tteennddeenncciiaa
cceennttrraall ((MMeeddiiaa,, MMeeddiiaannaa,, MMooddaa)) yy ddiissppeerrssiióónn
((VVaarriiaannzzaa yy DDeessvviiaacciióónn EEssttáánnddaarr)) ppaarraa uunnaa VVaarriiaabbllee
CCuuaannttiittaattiivvaa ((xx))..
EEss uunnaa mmeeddiiddaa ddee VVaarriiaabbiilliiddaadd CCoonnjjuunnttaa eennttrree ddooss vvaarriiaabblleess ((xx11 ,, xx22)) oo bbiieenn ((xx ,, yy))
x y
(1) x y(1)
(2) x y( 2 )
 
(n) x y( n )
n
å=
( xi x )( yi y )
1
= - -
i
n
cov( x, y )
1
SSii CCoovv((xx,,yy)) eess ppoossiittiivvaa:: llaa aassoocciiaacciióónn eennttrree xx ee yy eess ddiirreeccttaammeennttee pprrooppoorrcciioonnaall,, eess
ddeecciirr qquuee ccuuaannddoo xx aauummeennttaa yy ttaammbbiiéénn aauummeennttaa;; yy vviicceevveerrssaa..
SSii CCoovv((xx,,yy)) eess nneeggaattiivvaa:: llaa aassoocciiaacciióónn eennttrree xx ee yy eess iinnvveerrssaammeennttee pprrooppoorrcciioonnaall,,
eess ddeecciirr qquuee ccuuaannddoo xx aauummeennttaa yy ddiissmmiinnuuyyee;; yy vviicceevveerrssaa..
SSii CCoovv((xx,,yy)) eess cceerroo:: nnoo eexxiissttee aassoocciiaacciióónn eennttrree xx ee yy..

57
D MEDIDAS DEE AASSOOCCIIAACCIIÓÓNN LLIINNEEAALL
- CCoovvaarriiaannzzaa
- CCoorrrreellaacciióónn
DDaattooss
CCuuaannttiittaattiivvooss
SSee rreeffiieerree aall ggrraaddoo ddee aassoocciiaacciióónn eennttrree ddooss vvaarriiaabblleess ((xx11 ,, xx22)) oo bbiieenn ((xx ,, yy))
CCooeeffiicciieennttee ddee CCoorrrreellaacciióónn ddee PPeeaarrssoonn ((rr)):: MMiiddee eell ggrraaddoo ddee AAssoocciiaacciióónn LLiinneeaall eennttrree
ddooss vvaarriiaabblleess CCuuaannttiittaattiivvaass
x y
(1) x y(1)
(2) x y( 2 )
 
(n) x y( n )
r = cov( x, y )
x y nxy
SSii rr eess ppoossiittiivvoo:: llaa aassoocciiaacciióónn eennttrree xx ee yy eess ddiirreeccttaammeennttee pprrooppoorrcciioonnaall,, eess ddeecciirr qquuee
ccuuaannddoo xx aauummeennttaa yy ttaammbbiiéénn aauummeennttaa;; yy vviicceevveerrssaa.. SSii rr==11:: llaa aassoocciiaacciióónn lliinneeaall eess
ppeerrffeeccttaa..
SSii rr eess nneeggaattiivvoo:: llaa aassoocciiaacciióónn eennttrree xx ee yy eess iinnvveerrssaammeennttee pprrooppoorrcciioonnaall,, eess ddeecciirr
qquuee ccuuaannddoo xx aauummeennttaa yy ddiissmmiinnuuyyee;; yy vviicceevveerrssaa.. SSii rr==--11:: llaa aassoocciiaacciióónn lliinneeaall eess
ppeerrffeeccttaa..
SSii rr eess cceerroo:: nnoo eexxiissttee aassoocciiaacciióónn eennttrree xx ee yy..
CCoorrrreellaacciióónn::
-1£ r £1
sxsy
x y
n
i
i i
( n )s s
r
1
1
-
-
=
å=
Estadística

58
g EJEMPLO : Representación grrááffiiccaa ddee llaass vvaarriiaabblleess xx ee yy
r=1 r=-1
Estadística
r= 0 r≠ 0 ≠ 1 ≠-1

59
RREEGGRREESSIIOONN LLIINNEEAALL SSIIMMPPLLEE
Objetivo 2
Estudiar si los valores de una variable
pueden ser utilizados para predecir el
valor de la otra (pronostico o
estimación)
Estadística
Objetivo 1
DDeetteerrmmiinnaarr ssii ddooss vvaarriiaabblleess eessttáánn
aassoocciiaaddaass yy eenn qquuéé sseennttiiddoo ssee ddaa llaa
aassoocciiaacciióónn..
Determinar si existe relación
entre las variables x e y:
Coeficiente de Correlación
Estudiar la dependencia de una
variable respecto de la otra:
MMooddeelloo ddee RReeggrreessiióónn
x y
(1) x y(1)
(2) x y( 2 )
 
(n) x y( n )
Términos
Variable Respuesta (=variable dependiente)
Variable Explicativa (=variable Independiente)
Relación Lineal (modelo lineal)
Parámetros (intercepto y pendiente)
Intercepto (respuesta media)
Pendiente (efecto de la variable explicativa sobre la respuesta)
Error (residuo)

60
Notación
Variable Respuesta: y ó dependiente
Variable Explicativa: x ó independiente
Modelo de Regresión Lineal Simple: yi=a+bxi+ei
Intercepto: a = a
Pendiente: b = b
Error: e
x y
(1) x y(1)
(2) x y( 2 )
 
(n) x y( n )
Modelo Estimado
(recta de regresión)
yˆ = a + bx
Método de Estimación: MMíínniimmooss CCuuaaddrraaddooss
a = y - bx
n xy x y
2
å -
å å
=
å å
= = =
1 1 1
2
n
ö i
çè
1 1
÷ø
- æ
= =
i
n
i
n
i
i
n
i
i
n
i
n x x
b
Residuos o Errores
i i i e = y - yˆ
Estadística

61
DDAATTOOSS
MODELO DE REGRESIÓN LINEAL SIMPLE
yi=a+bxi+ei
x y
(1) x y(1)
(2) x y( 2 )
 
(n) x y( n )
MODELO ESTIMADO
yˆ = a + bx
a = y - bx
n xy x y
2
å -
å å
=
å å
= = =
1 1 1
2
n
ö i
çè
1 1
÷ø
- æ
= =
i
n
i
n
i
i
n
i
i
n
i
n x x
b
ESTIMADORES
ERRORES
i i i e = y - yˆ
Estadística

62
EJEMPLO: Aplicación del Modelo de Regresión Lineal Simple
Problema 1: Se cuenta con las mediciones sobre la edad y la talla de 14 niños, y estamos
interesados en determinar si existe algún tipo de relación entre la talla del niño y su edad.
niño edad (meses) talla (cm)
i xi yi
1 3 55
2 6 68
3 5 64
4 5 66
5 3 62
6 4 65
7 9 74
8 8 75
9 9 73
10 7 69
11 6 73
12 5 68
13 8 73
14 6 71
y=talla / x=edad / n=14
956
14
= i
1
=
åi y y=68,3 =5,6 y s
= å=
i
84
14
1
i x x=6 =2 x s
cov(x, y)=9,07 =0,88 xy r
= å=
i
5863
14
1
14
2 = å=
i
i i x y 556
1
i x
Estadística

63
Estadística
Modelo Estimado
yˆ=a+bx
b=2,44 a=53,64
yˆ=53,64+2,44x
Interpretación de los resultados
- Existe asociación o dependencia entre la Talla del niño y la edad (r=0,88); a
medida que la edad aumenta la talla aumenta.
- Desde los resultados del modelo de regresión lineal simple, se tiene que la talla
media de un niño es de 53,64 cm. Cuando la edad del niño (meses) aumenta en
una unidad la talla se incrementa en 2,44 cm.

64
2 = - å=
i
14
å 2 å
= =
Bondad de Ajuste del Modelo
R2 = 0,77
De acuerdo al coeficiente de
determinación, el modelo ajustado
a los datos es adecuado (R2
cercano a 1)
niño edad (meses) talla (cm) Talla estimada error
i xi yi i yˆ i e
1 3 55 61,0 -6,0
2 6 68 68,3 -0,3
3 5 64 65,8 -1,8
4 5 66 65,8 0,2
5 3 62 61,0 1,0
6 4 65 63,4 1,6
7 9 74 75,6 -1,6
8 8 75 73,2 1,8
9 9 73 75,6 -2,6
10 7 69 70,7 -1,7
11 6 73 68,3 4,7
12 5 68 65,8 2,2
13 8 73 73,2 -0,2
14 6 71 68,3 2,7
( ) 402,86
14
1
i i y y
( ˆ ) 92,7
1
2
14
1
- = =
i
i
i
i i y y e
Estadística

Datos reales da regresion lineal
x y (xi-Ẋ) (yi-Ẏ) (xi-Ẋ)*(yi-Ẏ) (xi-Ẋ)2 (yi-Ẏ)2 x y´
3.6 11.28 -1.77 -4.87 8.63 3.14 23.67 y
3.6 12.42
5.2 14.74 -0.17 -1.41 0.24 0.03 1.97 30
5.2 17.52
5.3 18.46 -0.07 2.31 -0.17 0.01 5.36 R² = 0.8219
5.3 17.84
7.3 20.01 1.93 3.86 7.45 3.71 14.94 25
y = 3.1838x - 0.9621
7.3 24.20
5 12.43 -0.37 -3.72 1.39 0.14 13.80 5 16.88
20
5.2 15.37 -0.17 -0.78 0.13 0.03 0.60 5.2 17.52
3 9.59 -2.37 -6.56 15.56 5.63 42.97 15
y
3 10.51
3.1 11.26 -2.27 -4.89 11.11 5.17 23.87 Lineal (y)
3.1 10.83
3.2 8.05 -2.17 -8.10 17.59 4.72 65.53 10
3.2 11.15
7.5 27.91 2.13 11.76 25.02 4.52 138.41 7.5 24.84
5
8.3 24.62 2.93 8.47 24.80 8.57 71.82 8.3 27.39
6.1 18.8 0.73 2.65 1.93 0.53 7.05 0
6.1 20.38
4.9 13.87 -0.47 -2.28 1.08 0.22 5.18 0 2 4 6 8 10
4.9 16.56
5.8 12.11 0.43 -4.04 -1.72 0.18 16.28 5.8 19.43
7.1 23.68 1.73 7.53 13.01 2.98 56.77 7.1 23.57
126.04 39.59 488.22 9 29.62
5.4 16.15 9.6 31.53
Ajuste por mínimos cuadrados
Pendiente m= Σ(xi-Ẋ)*(yi-Ẏ) c=Ẏ-mẊ
35.00
30.00
25.00
20.00
15.00
10.00
5.00
Σ (xi-Ẋ)2 y= 3.183 x -0.962
y´
y = 3.1838x + 0.9621
c= -0.962 R2= Correlación de lineal
m= 3.1838 R2= 1, significa ajuste perfecto
x=comisiones pagadas por vendedores de autos en un mes (%) R2= cero= sin ajuste
y=ganacias netas por ventas, en el mismo mes (millones de pesos)
R² = 1
0.00
0 2 4 6 8 10 12
y´
Lineal (y´)
PROGRAMA: EXCEL

LOS ANÁLISIS DE DATOS
ESTADISTICOS :
SE PUEDE APOYAR EN
HOJAS DE CALCULO EXCEL,
SPSS Y SUPERCEP
GRACIAS
ING. BENITO SANTIAGO GUERRA

Estadistica descriptiva presentación (ito)

Recomendados

Recomendados

Más contenido relacionado

La actualidad más candente

La actualidad más candente (20)

Similar a Estadistica descriptiva presentación (ito)

Similar a Estadistica descriptiva presentación (ito) (20)

Más de Benito Santiago

Más de Benito Santiago (10)

Último

Último (20)

Estadistica descriptiva presentación (ito)