2. ESTADÍSTICA
Ciencia que se encarga de la
recolección, estudio e
interpretación de los datos
obtenidos en un estudio
ESTADÍSTICA
DESCRIPTIVA
INFERENCIA
ESTADÍSTICA
Se dedica a los métodos
de recolección,
descripción,
visualización y resumen
de datos originados a
partir de los fenómenos
en estudio
Se dedica a la
generación de los
modelos, inferencias y
predicciones asociadas a
los fenómenos en
cuestión teniendo en
cuenta lo aleatorio e
incertidumbre en las
observaciones.
3. Población: conjunto de
personas, cosas o
situaciones, que tienen
alguna característica
común que las permite
agrupar.
Variable: Es la
característica
observable de una
población.
Variable Cuantitativa:
Son aquellas que
pueden medirse.
Discretas: Nº de
estudiantes, nº de
personas, etc.
(cantidades enteras).
Continuas: Edad, peso,
talla, etc.(cantidades
racionales)
Frecuencia absoluta
acumulada (Fi)
Frecuencia relativa
acumulada (Hi)
Frecuencia
relativa
porcentual
h
Muestra:
subconjunto
representativo de
una población.
Variable cualitativa:
Cuando es un
atributo o cualidad.
Deporte preferido,
sexo, lugar de
nacimiento, etc.
Frecuencia Absoluta (fi ):
nº de veces que se repite
un dato. La suma de
frecuencias es igual a
número de muestras
(n
N)
Frecuencia relativa
(h): Se obtiene
dividiendo la
frecuencia absoluta fi
y el número total de
datos (n)
fi
x100%
n
h
fi
n
4. Medidas de estadística
Centralización
– Indican valores con respecto a los que los datos
parecen agruparse.
Media, mediana y moda
Posición
– Dividen un conjunto ordenado de datos en grupos
con la misma cantidad de individuos.
Cuartiles, deciles y percentiles.
Dispersión
– Indican la mayor o menor concentración de los
datos con respecto a las medidas de centralización.
Desviación típica o estándar, coeficiente de variación,
rango, varianza, desviación media.
5. MEDIA ARITMÉTICA O PROMEDIO:
Es una de las medidas de tendencia central de mayor
uso. Es el valor que representa mejor el conjunto de
datos, es la medida de tendencia central mas estable y
confiable La media muestral se simboliza por
y la
X
media poblacional de denota por
.
6. MEDIA ARITMETICA PARA DATOS NO AGRUPADOS
Sea X una variable cuantitativa y x1, x2,…, xn una
muestra de tamaño "n" de valores de la variable, se
define la media aritmética de X como:
x1 x2 x3 ..... xn
X
n
Esta expresión se puede escribir también , com
n
xi
X
i 1
n
7. Ejemplo N 1
Consideremos la
personas
10
18
25
edad
en
32
12
años
5
de
ocho
7
7
En este ejemplo el promedio , media o media
aritmética de la edad de estas personas está
dada por:
10 18 25 32 12 5 7 7
x
8
Es decir la edad promedio de estas
personas es de 14,5 años.
8. MEDIA ARITMETICA PARA DATOS AGRUPADOS
Sea X una variable cuantitativa y x1, x2,…, xn una muestra de
tamaño "n" de valores de la variable, y fi la frecuencia de cada
variable. Se define la media aritmética para datos tabulados
como:
x1 f1 x2 f2 x3 f3 ..... xn fn
X
n
Esta expresión se puede escribir también , como:
n
xi
X
i 1
n
fi
fi = frecuencia
Xi = marca de clase
N= Nº datos
9. Ejemplo: Datos sobre los puntajes obtenidos en un concurso de
lógico matemática.
40-46-49-42-40-50-54-55-52-53-55-54-54-56-57-60-65-6666-64-63-63-62-68-69-67-65-65-64-67-69-68-61-61-62-6676-78-78-75-71-71-75-74-78-78-79-80-82-82-85-85-90-9991-100-109-110
Rango : R xmax xmin
Peso
Xi
fi
Fi
[40 ; 50[
45
5
5
[50 ; 60[
55
10
15
[ 60 ; 70[
65
21
36
[ 70 ; 80[
75
11
47
[ 80 ; 90[
85
5
52
[ 90 ; 100[
95
3
55
[100 ; 110[
105
3
Rango : R 110 40 70
58
58
Número de int ervalos : K
Número de int ervalos : K
58 7,616
Amplitud del int ervalo : C
Amplitud del int ervalo : C
x
n
R
k
70
9,19
7,616
xi f i
N
45 5 55 10 105 3
68,79
58
10. Ejemplo: Datos sobre los puntajes obtenidos en un concurso de
lógico matemática.
40-46-49-42-40-50-54-55-52-53-55-54-54-56-57-60-65-6666-64-63-63-62-68-69-67-65-65-64-67-69-68-61-61-62-6676-78-78-75-71-71-75-74-78-78-79-80-82-82-85-85-90-9991-100-109-110
Peso
Xi
fi
Fi
hi
Hi
hi%
xi.fi
[40 ; 50[
45
5
5
0,09
0,09
9
225
[50 ; 60[
55
10
15
0,17
0,26
17
550
[ 60 ; 70[
65
21
36
0,36
0,62
36
1365
[ 70 ; 80[
75
11
47
0,19
0,81
19
825
[ 80 ; 90[
85
5
52
0,09
0,90
9
425
[ 90 ; 100[
95
3
55
0,05
0,95
5
285
[100 ; 110[
105
3
58
0,05
1,00
5
315
100
3990
58
x
xi f i
N
1
45 5 55 10 105 3
68,79
58
12. MEDIANA PARA DATOS NO
AGRUPADOS
Ejemplo 1: Consideremos la edad en años de ocho personas
10
18
25
32
12
5
7
7
Para calcular la mediana , previamente se deben
ordenar las observaciones. En este caso lo haremos
en forma creciente:
5
7
7
10
12
18
25
32
Como la cantidad de datos es par, entonces la
mediana corresponde al promedio de los datos
centrales, por lo tanto la mediana es 11.
13. Ejemplo N 2
Consideremos el peso en kilogramos de una muestra de
11 personas
65
76
48
48
68
78
90
87
67
72
78
Recordemos que para calcular la mediana debemos ordenar los
datos:
48
48
65
67
68
72
76
78
78
87
90
El tamaño de la muestra es n=11, impar por lo tanto la mediana
corresponde al valor central, es decir, 72 Kg.
14. MEDIANA PARA DATOS AGRUPADOS
Si se tiene una distribución de frecuencias, la mediana es igualmente
ese valor que tiene 50% de las observaciones por debajo y 50 % por
encima. Geométricamente, la mediana es el valor de X sobre el eje de las
abscisas correspondiente a la ordenada que divide un histograma en
dos partes de igual área.
Md
Li
N
2
Faa
fm
Ic
donde:
Li = límite inferior de la clase mediana.
N = frecuencia total o Σfi .
Faa = frecuencia absoluta acumulada hasta la clase
premediana
fm = frecuencia absoluta de la clase mediana
Ic= amplitud de la clase mediana.
15. Ejemplo
Peso
xi
fi
Fi
40 < 50
45
5
5
50 < 60
60 < 70
70 < 80
80 < 90
90 < 100
100 < 110
55
65
75
85
95
115
10
21
11
5
3
3
58
15
36
47
52
55
58
Clase de mediana:
58/2=29
Mediana Li
1
N Fi 1
Ic 2
fi
1
58 15
60 10 2
21
66,6
16. Moda o Modo (Mo)
Como su nombre lo indica es aquel valor de la variable que tiene
una mayor frecuencia.
Si consideramos el ejemplo N 2 del peso de una
muestra de personas:
65
67
76
72
48
78
48
68
78
90
87
Mo = 48 kilos
Mo = 78 kilos.
Esto significa que la mayoría de estas personas
pesa 48 kilos y 78 kilos.
Esta distribución es bimodal.
17. Moda para datos agrupados
• La Moda puede deducirse de una distribución de
frecuencia o de un histograma a partir de la
fórmula.
Mo
1
Li
1
.Ic
2
Donde;
Li = límite inferior de la clase modal (clase
de mayor frecuencia absoluta (fa)
∆1 = diferencia de las frecuencias absolutas
de la clase modal y pre-modal.
∆2 = diferencia de las frecuencias absolutas
de la clase modal y post-modal
Ic = amplitud de la clase modal.
18. La moda: se define como el valor que tiene una mayor
frecuencia en un conjunto de datos (es decir, aquel que más se
repite).
Para datos agrupados en intervalos
Mo= Li + c.
D1: fi – fi -1
D2: fi – f i +1
D1
D1+D2
Peso
M. Clase
fi
Fi.
40 < 50
45
5
5
50 < 60
55
10
15
60 < 70
65
21
36
70 < 80
75
11
47
80 < 90
85
5
52
90 < 100
95
3
55
100 < 110
115
3
58
58
Intervalo modal
11
Mo 60 10
11 10
65,24
24. MEDIDAS DE POSICIÓN
Dividen un conjunto ordenado de datos en grupos con
la misma cantidad de individuos.
PERCENTILES : son 99 valores que distribuyen la serie de
datos, ordenada de forma creciente o decreciente, en cien
tramos iguales, en los que cada uno de ellos concentra el 1%
de los resultados
CUARTILES :son 3 valores que distribuyen la serie de
datos, ordenada de forma creciente o decreciente, en cuatro
tramos iguales, en los que cada uno de ellos concentra el 25%
de los resultados.
DECILES: son 9 valores que distribuyen la serie de datos,
ordenada de forma creciente o decreciente, en diez tramos
iguales, en los que cada uno de ellos concentra el 10% de los
resultados.
25. CUARTILES
Medida de localización que divide la población o
muestra en cuatro partes iguales.
Q1= Valor de la variable que deja a la izquierda el
25% de la distribución.
Q2= Valor de la variable que deja a la izquierda el
50% de la distribución = mediana.
Q3= Valor de la variable que deja a la izquierda el
75% de la distribución.
PQa
aN
4
Qa
Li
aN
4
Faa
fm
.Ic.
26. DECILES
Medida de localización que divide la población o
muestra en 10 partes iguales
No tiene mucho sentido calcularlas para variables
cualitativas discretas. Por lo que lo vamos a ver
sólo para las variables continuas.
PDa
aN
10
Da
Li
aN
10
Faa
fm
.Ic
27. PERCENTILES
Medida de localización que divide la población o
muestra en 100 partes iguales
No tiene mucho sentido calcularlas para variables
cualitativas discretas. Por lo que lo vamos a ver sólo
para las variables continuas.
PPa
aN
100
Pa
Li
aN
Faa
100
.Ic
fm
28. EJEMPLO
Los siguientes son los resultados de la prueba de aptitud
académica tomada a 50 alumnos de la Facultad de Educación,
con esos datos calcular Q1,Q3, D3, y P45
I
MC
FA
45-55
11
85-95
FR%
19
75-85
FRA
10
65-75
FR
06
55-65
FAA
04
50
1,000
100
29. EJEMPLO
Los siguientes son los resultados de la prueba de aptitud
académica tomada a 50 alumnos de la Facultad de Educación,
con esos datos calcular Q1,Q3, D3, y P45
I
MC
FA
FAA
45-55
50
06
06
0,12
0,12
12
55-65
60
10
16
0,20
0,32
20
65-75
70
19
35
0,38
0,70
38
75-85
80
11
46
0,22
0,92
22
85-95
90
04
50
0,08
1,00
08
50
FR
1,000
FRA
FR%
100
Cálculo de Q1
Buscamos en la columna de las frecuencias Acumuladas el valor
que supere al 25% de N=50, corresponde al 2º
intervalo.(50/4=12.5)
PQa
aN
4
Qa
Li
aN
4
Faa
fm
.Ic.
30. EJEMPLO
Los siguientes son los resultados de la prueba de aptitud
académica tomada a 50 alumnos de la Facultad de Educación,
con esos datos calcular Q1,Q3, D3, y P45
I
MC
FA
FAA
45-55
50
06
06
0,12
0,12
12
55-65
60
10
16
0,20
0,32
20
65-75
70
19
35
0,38
0,70
38
75-85
80
11
46
0,22
0,92
22
85-95
90
04
50
0,08
1,00
08
50
FR
1,000
FRA
FR%
100
Cálculo de Q3
Buscamos ahora en la misma columna el correspondiente al 75 %de N que en
este caso es el 4º intervalo (3.50/4=37.5)
PQa
aN
4
Qa
Li
aN
4
Faa
fm
.Ic.
31. EJEMPLO
Los siguientes son los resultados de la prueba de aptitud
académica tomada a 50 alumnos de la Facultad de Educación,
con esos datos calcular Q1,Q3, D3, y P45
I
MC
FA
FAA
FR
45-55
50
06
06
0,12
0,12
12
55-65
60
10
16
0,20
0,32
20
65-75
70
19
35
0,38
0,70
38
75-85
80
11
46
0,22
0,92
22
85-95
90
04
50
0,08
1,00
08
50
1,000
Cálculo de D3
(corresponde al 30 % 3 · 50 / 10 = 15) sería
el 2º intervalo.
aN
PDa
aN
Da
10
Li
10
Faa
fm
.Ic
FRA
FR%
100
32. EJEMPLO
Los siguientes son los resultados de la prueba de aptitud
académica tomada a 50 alumnos de la Facultad de Educación,
con esos datos calcular Q1,Q3, D3, y P45
I
MC
FA
FAA
45-55
50
06
06
0,12
0,12
12
55-65
60
10
16
0,20
0,32
20
65-75
70
19
35
0,38
0,70
38
75-85
80
11
46
0,22
0,92
22
85-95
90
04
50
0,08
1,00
08
50
Cálculo de P45
Ubicamos el percentil 45 (45·50/100 =
22.5) Corresponde al intervalo 3º
PPa
aN
100
Pa
Li
aN
Faa
100
.Ic
fm
FR
1,000
FRA
FR%
100
33.
34. Las
MEDIDAS
DE
DISPERSIÓN
cuantifican
la
separación, la dispersión, la variabilidad de los valores
de la distribución respecto al valor central.
50
40
30
20
10
Desv. típ. = 568,43
Media = 2023
N = 407,00
0
0
30
3.
0
90
2.
0
50
2.
0
10
2.
0
70
1.
0
30
1.
0
90
0
50
Peso recién nacidos en partos gemelares
35. MEDIDAS DE DISPERSIÓN
• RANGO
• DESVIACION MEDIA
• VARIANZA
• DESVIACIÓN TÍPICA (S) O ESTÁNDAR
• COEFICIENTE DE VARIACIÓN
36. AMPLITUD O RANGO
Mín.
P25
P50
Máx.
P75
0.03
0.04
0.05
Es la diferencia entre el valor de las observaciones mayor y
el menor. Re = xmax - xmin
2,1,4,3,8,4.
El rango es 8-1=7
0.02
25%
25% 25%
25%
0.01
Rango intercuartílico
0.00
Rango
150
160
170
180
190
38. VARIANZA ( S2 ):
Es el promedio del cuadrado de las distancias entre cada
observación y la media aritmética del conjunto de
observaciones.
Es el cuadrado de la desviación estándar.
S
2
1
n
2
( xi x ) . f i var ianza
i
39. DESVIACIÓN TÍPICA / ESTÁNDAR (S):
La varianza viene dada por las mismas unidades que
la variable pero al cuadrado, para evitar este problema
podemos usar como medida de dispersión la
desviación típica que se define como la raíz cuadrada
positiva de la varianza.
S
1
n
( xi
i
x ) 2 . f i desviación estándar
40. COEFICIENTE DE VARIACIÓN
Es la razón entre la desviación típica (estándar) y la
media. Mide la desviación típica en forma de
“qué tamaño tiene con respecto a la media”
. C.V. =
S
X
(100%)
También se la denomina variabilidad
relativa.
CV
S
x
Es frecuente mostrarla en porcentajes
Si la media es 80 y la desviación típica 20
entonces
CV=20/80=0,25=25% (variabilidad relativa)
41.
42. EJEMPLO 1
El número de días que necesitan 10 equipos de
trabajadores de electricidad para terminar 10
instalaciones de iguales características han sido: 21,
32, 15, 59, 60, 61, 64, 60, 71, y 80 días. Calcular el
rango, la varianza , desviación típica y el coeficiente
de variación.
45. RANGO O RECORRIDO
• Es la medida de dispersión más sencilla y
también, por tanto, la que proporciona
menos
información.
Además,
esta
información puede ser errónea, pues el
hecho de que no influyan más de dos
valores del total de la serie puede provocar
una deformación de la realidad.
• Comparemos, por ejemplo, estas dos
series:
• Serie 1: 1 5 7 7 8 9 9 10 17
• Serie 2: 2 4 6 8 10 12 14 16 18
• Ambas series tienen rango 16, pero están
desigualmente agrupadas, pues mientras la
primera tiene una mayor concentración en
el centro, la segunda se distribuye
uniformemente a lo largo de todo el
recorrido. El uso de esta medida de
dispersión, será pues, bastante restringido.
46. DESVIACIÓN MEDIA:
En teoría, la desviación puede referirse a
cada una de las medidas de tendencia
central: media, mediana o moda; pero el
interés se suele centrar en la medida de la
desviación con respecto a la media, que
llamaremos desviación media
La desviación media viene a indicar el
grado de concentración o de dispersión de
los valores de la variable. Si es muy alta,
indica gran dispersión; si es muy baja
refleja un buen agrupamiento y que los
valores son parecidos entre sí.
48. DESVIACIÓN ESTÁNDAR / TÍPICA
La desviación típica como medida absoluta de
dispersión, es la que mejor nos proporciona la
variación de los datos con respecto a la media
aritmética, su valor se encuentra en relación directa
con la dispersión de los datos, a mayor dispersión
de ellos, mayor desviación típica, y a menor
dispersión, menor desviación típica.
Es sin duda la medida de dispersión más
importante, ya que además sirve como medida
previa al cálculo de otros valores estadísticos. Es la
medida de dispersión más utilizada en las
investigaciones por ser la más estable de todas, ya
que para su cálculo se utilizan todos los desvíos
con respecto a la media aritmética de
las
observaciones.
49. COEFICIENTE DE VARIACIÓN: (%)
Existen
varias
medidas
de
dispersión relativa, pero, la más
usada es el coeficiente de variación
de Pearson, este es un índice de
variabilidad sin dimensiones, lo que
permite la comparación entre
diferentes
distribuciones
de
frecuencias, medidas en diferentes
unidades.