6. SU OBJETIVO: Análisis de la Tabla de Datos
Indiv. X1 … Xp
1
…
n
RESUMEN O SÍNTESIS
Lo más representativo Lo esencial Lo más típico
Lo más relevante La «forma» La «estructura» La «diversidad»
RETORNO A LOS DATOS
Página 6
7. SU OBJETIVO: Análisis de la Tabla de Datos
Indiv. X1 … Xp
1
…
n
RESUMEN O SÍNTESIS
NUMÉRICO GRÁFICO
Página 7
8. ANALIZANDO LA TABLA DE DATOS:
RESUMEN O SÍNTESIS
NUMÉRICO GRÁFICO
TENDENCIA CENTRAL
Promedio o media
Moda, mediana
DISPERSIÓN
Rango
Desviación estándar
Página 8
9. RESUMEN O SÍNTESIS
NUMÉRICO GRÁFICO
POSICIÓN
Valores extremos
Cuartiles, quintiles deciles
FORMA
Simetría
Curtosis
ANALIZANDO LA TABLA DE DATOS:
Página 9
10. RESUMEN O SÍNTESIS
NUMÉRICO GRÁFICO
Vestuario
Alimentación
Ocio
Transporte
Gráfico de sectores:
Variables cualitativas
Frecuencias
Informa de:
Distribución
ANALIZANDO LA TABLA DE DATOS: Recursos gráficos
Página 10
11. RESUMEN O SÍNTESIS
NUMÉRICO GRÁFICO
Gráfico de barras:
Variables cualitativas
Frecuencias
Vestuario Alimentación Ocio Transporte
0
5
10
15
20
25
30
35
40
45
Informa de:
Distribución
ANALIZANDO LA TABLA DE DATOS: Recursos gráficos
Página 11
12. RESUMEN O SÍNTESIS
NUMÉRICO GRÁFICO
0 0,3 0,6 0,9 1,2 1,5 1,8 2,1 2,4 2,7 3
Valores de la variable
0
4
8
12
16
20
24
28
32
36
Frecuencia
Histograma:
Variables cuantitativas continuas
Gran cantidad de observaciones
Informa de:
Forma, tendencia central
ANALIZANDO LA TABLA DE DATOS: Recursos gráficos
Página 12
13. RESUMEN O SÍNTESIS
NUMÉRICO GRÁFICO
Box-Plot:
Variables cuantitativas continuas
Peso
0
0,3
0,6
0,9
1,2
1,5
1,8
2,1
2,4
2,7
3
Valoresdelavariable
Informa de:
Forma, posición
ANALIZANDO LA TABLA DE DATOS: Recursos gráficos
Página 13
14. RESUMEN O SÍNTESIS
NUMÉRICO GRÁFICO
Lineas:
Variables cuantitativas
1 2 3 4 5 6 7 8 9 10 11 12
1,0
1,2
1,4
1,6
1,8
2,0
2,2
2,4
2,6
2,8
3,0 Variación mensual del IPC
Mes del año
Informa de:
Tendencia
ANALIZANDO LA TABLA DE DATOS: Recursos gráficos
Página 14
15. MEDIDAS NUMÉRICAS DE RESUMEN
Media:
Mediana:
X0.5
= Valor central (promedio de valores centrales) de la serie
ordenada de X
Moda:
Valor(es) más frecuente(s) de X (datos cuantitativos y
cualitativos)
∑=
=
n
i
ix
n
X
1
1
Tendencia central:
ANALIZANDO LA TABLA DE DATOS: Recursos numéricos
Página 15
16. MEDIDAS NUMÉRICAS DE RESUMEN
Rango: R(X) = Max(X) – min(X)
Desviación estándar:
Coeficiente de variación:
∑ −
−
= 2
)(
1
1
xx
n
S i
%100)(
X
S
XCV =
Dispersión:
ANALIZANDO LA TABLA DE DATOS: Recursos numéricos
Página 16
17. MEDIDAS NUMÉRICAS DE RESUMEN
Posición:
0% 25% 50% 75% 100%
| | | | |
Cantidad acumulada de información
min Q1 Q2 Q3
Max
Serie creciente de valores observados
Primer cuartil Segundo cuartil - mediana Tercer cuartil
ANALIZANDO LA TABLA DE DATOS: Recursos numéricos
Página 17
18. EL RETORNO A LOS DATOS
Regla empírica de Chebyshev:
Si la distribución de los datos es simétrica en torno de su media, entonces:
• Aproximadamente el 67% de los datos se encuentra a una distancia igual a
una desviación típica de la media.
• Aproximadamente el 95% de los datos se encuentra a una distancia de dos
desviaciones típicas de la media.
• Aproximadamente el 99% de los datos se encuentra a tres desviaciones
típicas de la media.
ANALIZANDO LA TABLA DE DATOS: Recursos numéricos
Página 18
19. RECURSOS INFORMÁTICOS
Programa R
Programa SPSS
Planilla de OpenOffice
MS Excel
Calculadora con
modo estadístico
Programa PAST
ANALIZANDO LA TABLA DE DATOS: Recursos informáticos
Página 19
ALTERNATIVAS COMERCIALES ALTERNATIVAS GRATUITAS O LIBRES
21. SINTETIZANDO:
Numérico Gráfico
Dispersión HistogramaTendencia central Posición
Ojiva
Box-plot (Gráfico de Cajas)
Información Continua
Resumiendo …
El Resumen puede ser:
Media
Mediana
Moda
Rango
Varianza
D. estándar
Polígono de frecuenciasCuartiles
Quintiles
Deciles
C. Variación Percentiles
Página 21
22. ESTADÍSTICA DESCRIPTIVA: Mirando un conjunto de datos
UN EJEMPLO
Rendimiento de alumnos de primero de secundaria
según tres niveles de autoestima
Nivel de autoestima
Nivel1 Nivel2 Nivel3 Nivel4
n 56 292 291 24
Min 4,3 3,87 3,67 4,27
Max 5,93 6,13 6,3 6,17
Mean 5,03446 5,0874 5,21608 5,18583
Variance 0,171756 0,207481 0,224896 0,345547
Stand. dev 0,414435 0,455501 0,474232 0,587833
Median 5,015 5,1 5,23 5,15
25 prcntil 4,7 4,77 4,93 4,69
75 prcntil 5,33 5,4225 5,57 5,5825
Σ = 663 estudiantes
Rendimiento similar
Grupo Nivel 1 menos disperso
Mediana similar a media: Simetría
Página 22
23. ESTADÍSTICA DESCRIPTIVA: Mirando un conjunto de datos
UN EJEMPLO
Rendimiento de alumnos de primero de secundaria
según tres niveles de autoestima
Rendimiento ligeramente
“cargado” a valores superiores
3,2 3,6 4 4,4 4,8 5,2 5,6 6 6,4
Promedio en Nivel 3 de Autoestima
0
6
12
18
24
30
36
42
48
54
Frecuencia
Página 23
24. ESTADÍSTICA DESCRIPTIVA: Mirando un conjunto de datos
UN EJEMPLO
Rendimiento de alumnos de primero de secundaria
según tres niveles de autoestima
Gráficos de caja permitiendo una
lectura comparativa del
rendimiento, según nivel de
autoestima.
En Nivel 3 se observan dos “out
liers” o valores atípicos.
Nivel1
Nivel2
Nivel3
Nivel4
3,2
3,6
4
4,4
4,8
5,2
5,6
6
6,4
Promedios
¿Qué grupo requiere
intervención pedagógica?
Página 24
25. DISTRIBUCIÓN DE FRECUENCIAS PARA DATOS NO AGRUPADOS
Sea X la variables que representa en número de fallas de asistencia al colegio
de los 50 alumnos de un curso durante un año escolar. X genera el siguiente
conjunto de los datos numéricos: 3, 2, 3, 4, 1, 2, 3, 4, 3, 3, 3, 5, 6, 6, 5, 3, 4, 1,
2, 3, 2, 5, 1, 3, 3, 3, 2, 4, 1, 2, 2, 3, 3, 5, 5, 6, 3, 4, 4, 1, 2, 4, 3, 7, 7, 3, 7, 6, 5, 3.
POBLACIÓN: La totalidad de los alumnos del colegios de estudio.
MUESTRA: Los 50 alumnos del curso en estudio
TIPO DE VARIABLE: La variable X solamente toma valores enteros en el
intervalo [ 1 , 7 ], razón por la cual afirmamos que x es una variable discreta.
Ordenemos los datos, representémoslos mediante una tabla de frecuencia y
un gráfico de barras, calculemos sus medidas de tendencia central: moda,
mediana y media aritmética.
25
26. TABLA DE DISTRIBUCIÓN DE FRECUENCIA PARA DATOS NO
AGRUPADOS
XXii
NúmeroNúmero
de fallasde fallas
ffii
FrecuenciaFrecuencia
absolutaabsoluta
FFii
FrecuenciaFrecuencia
absolutaabsoluta
acumuladaacumulada
hi Frecuenciahi Frecuencia
relativarelativa
acumuladaacumulada
porcentualporcentual
(fi/n)*100(fi/n)*100
HiHi
FrecuenciaFrecuencia
relativarelativa
porcentualporcentual
acumuladaacumulada
(Fi/n) *100(Fi/n) *100
XXii * f* fii
11 55 55 1010 1010 55
22 88 1313 2626 2626 1616
33 1717 3030 6060 6060 5151
44 77 3737 7474 7474 2828
55 66 4343 8686 8686 3030
66 44 4747 9494 9494 2424
77 33 5050 100100 100100 2121
TotalTotal 5050 175175
i
26
27. Recordemos que la frecuencia absoluta fi indica el número de veces que
aparece el valor xi de la variable.
Así: f5 = 6, indica que 6 de los 50 alumnos faltaron 5 días al colegio durante el
año escolar.
La frecuencia acumulada Fi indica el número de elementos del conjunto
que son inferiores o iguales a un valor xi determinado de la variable.
Así: F5 = 43, indica que 43 de los 50 alumnos registraron 6 ó menos faltas de
asistencia (como máximo o a lo sumo 6 faltas). Lo anterior equivale a
afirmar que el 43 / 50 * 100% = 86% de los estudiantes registraron como
máximo 6 faltas de asistencia.
27
28. 5
8
17
7 6
4 3
0
2
4
6
8
10
12
14
16
18
1 2 3 4 5 6 7
Númerodealumnos
Faltas de asistencia (ausencia)
DIAGRAMA DE BARRAS
DIAGRAMA DE BARRAS CORRESPONDIENTE AL NÚMERO DE
FALTAS DE ASISTENCIA DE UN GRUPO DE 50 ALUMNOS DURANTE
EL AÑO ESCOLAR
Adaptado por Lic. Mónica Valencia
Parra
28
29. MEDIDAS DE TENDENCIA CENTRAL
Moda: Número de ausencias más frecuente en el grupo.
Mediana: Número de días para el cual la mitad de los alumnos tuvo una
inasistencia superior.
Media aritmética: Promedio de faltas de asistencia del grupo durante el año
escolar.
LA MODA: La moda de una serie de datos estadísticos, ordenados en una
tabla de frecuencias, es el valor de la variable que tiene la máxima frecuencia
absoluta. En la tabla de distribución de frecuencia, la máxima frecuencia
absoluta fi es f3 = 17. Por tanto, la moda es el valor de la variable x3 = 3.
Luego, moda Mo = 3 faltas indica que en un año escolar lo más frecuente el el
grupo es que faltes durante tres días al colegio.
29
30. LA MEDIANA: La mediana de una serie de datos estadísticos numéricos,
ordenados en una tabla de frecuencias, es el valor de la variable tal que entre él
y sus menores cubren la mitad (50%) de la muestra.
Para determinar la mediana en la tabla, podemos emplear uno de los siguientes
procedimientos:
•Tomamos el valor de X que corresponde a la frecuencia acumulada
inmediatamente superior a n/2.
Así: n/2 = 50/2 = 25. La Fi inmediatamente superior a 25 es 30, al cual
corresponde el valor X3 = 3.
Luego, mediana = Me = 3 faltas significa que la mitad del grupo faltó 3 días
o menos al colegio.
•En la columna de frecuencias acumuladas porcentuales, leemos aquel
porcentaje que es inmediatamente superior al 50% y tomamos como
mediana el valor X que le corresponde.
Así: 60% es la frecuencia acumulada porcentual inmediatamente superior
a 50%; luego Me= 3 faltas. 30
31. Si n/2 coincide con una frecuencia acumulada, entonces tomamos como
mediana la semisuma del valor Xi correspondiente con el siguiente Xi+1.
Es decir :
2
1++
= ii
e
XX
M
LA MEDIA ARITMETICA: L a media aritmética o simplemente media de una serie
de datos estadísticos numéricos es un número que se obtiene sumando todos los
datos y dividiendo la suma por el tamaño de la muestra.
Para calcular la media cuando los datos se encuentran ordenados en un tabla de
frecuencias, procedemos de la siguiente manera:
Si los valores diferentes X1 , X2, X3, …, X k se presentan con frecuencia absolutas f1,
f2, f3, …, fk, entonces la media aritmética es:
n
fxfxfxfxfxfxfx
X 77665544332211 ++++++
=
5.3
50
175
==X
31
32. 5.3=X Faltas nos indica que en promedio los estudiantes del grupo faltan
3.5 días durante el año escolar.
Una vez hayas leído todas las diapositivas te invito a realizar el
ejemplo en forma individual y luego comparas tus resultados con el
ejercicio resuelto, verás que es sencillo, !anímate!
32
33. CONSTRUCCIÓN DE TABLA DE DATOS
AGRUPADOS
En esta presentación se construye una tabla
de datos agrupados paso por paso.
El objetivo es mostrar detalladamente las
operaciones aritméticas necesarias para
resumir una conjunto de datos agrupándolos
en intervalos.
Se incluye el calculo de intervalos
aparentes , cuantas veces sea necesario, hasta
llegar a los intervalos reales.
34. DATOS AGRUPADOS
• Procedimiento para datos agrupados.
•Basándote en la siguiente tabla estadística,
agrupa los datos en 9 intervalos.
35.
36. DATOS AGRUPADOS
•Primer paso:
•Encontrar en los datos el valor máximo y el mínimo para calcular el
rango.
•Valor máximo =1.577
•Valor mínimo = 1.419
•Rango = 1.577-1.419
•Rango = 0.158
37. DATOS AGRUPADOS
Segundo paso:
Determinar el numero de intervalos en que se van a agrupar
los datos. Existen varias formas:
El numero de intervalos se puede calcular obteniendo la raíz
cuadrada del numero de datos 300=17.3205
Se tomaría 17 o 18
Otra forma es establecer arbitrariamente el numero de
intervalos. Como en este caso que el Profesor Mata. Nos
asigno los intervalos.
Fijándolo en 9 intervalos.
38. DATOS AGRUPADOS
Tercer paso:
Determinar el tamaño del intervalo.
Se divide el rango entre el numero de intervalos:
0.158/9=0.017555555
Como los datos son decimales, se toma un tamaño de
intervalo también decimal, podría ser 0.017 o 0.018.
Tomaremos ambos para analizar los resultados y enseguida
fijar los intervalos aparentes.
39. DATOS AGRUPADOS
Cuarto paso:
Construir los 9 intervalos aparentes.
Se elige un valor inicial para que sea el primer limite
inferior. Debe ser menor o igual al valor mínimo.
En este caso tomaremos el 1.419 para nuestra primer tabla
de intervalos aparentes e iniciaremos con 1.418 para
nuestra segunda tabla de intervalos aparentes y así verificar
cual se ajusta a los requerimientos necesarios.
40. DATOS AGRUPADOS
INTERVALOS APARENTES
Este valor inicial bebe
ser menor o igual al
mínimo; pudo haberse
elegido
1.418;1.419;1.420;1.421
Posteriormente puede
cambiarse en caso
necesario.
41. DATOS AGRUPADOS
Cuarto paso:
A partir de este valor inicial se calculan los 9 limites
inferiores.
Se va sumando a cada limite el tamaño del intervalo como
se muestra en la siguiente diapositiva:
1.419+0.017=1.436
1.436+0.017=1.453
43. DATOS AGRUPADOS
INTERVALOS APARENTES
Cuarto paso;
Ahora vamos a obtener el primer limite superior.
Como los datos son decimales le restamos 0.001 decimal a segundo
limite inferior.
Segundo limite inferior=1.436
Menos 0.001
El primer limite superior es 1.435
44. DATOS AGRUPADOS . INTERVALOS APARENTES
Se resta 0.001 decimal
por que son tres
decimales. Si fuera un
numero entero se
restaría un entero.
45. DATOS AGRUPADOS
Cuarto paso:
Finalmente vamos a sumar el tamaño del intervalo a cada limite superior
en forma similar a lo que se llevo a cabo con los limites inferiores.
1.435+0.017=1.452
1.452+0.017=1.469
Debemos revisar que cumplan con la condiciones requeridas.
46. INTERVALOS APARENTES
Se suma
el tamaño
del
intervalo.
El primer limite
superior debe
ser mayor o
igual al valor
mínimo.
El ultimo
limite
superior debe
ser mayor o
igual al valor
máximo.
47. DATOS AGRUPADOS
Si una de las condiciones necesarias para continuar con el
procedimiento no se cumplió, debemos cambiar algunos de los
siguientes datos:
El primer limite inferior.
El tamaño del intervalo si es 0.017 usaremos 0.018
O se agregara el numero de intervalos es decir si los 9 intervalos
no es suficiente se pueden usar 10, 11, 12 o los necesarios para
cumplir las 4 reglas o condiciones.
En la siguiente tabla presentare los intervalos aparentes sumando
a los limites inferiores y superiores 0.018; veamos que sucede:
48. INTERVALOS APARENTES
Aquí podemos ver que ya cumplimos con las 4
condiciones necesarias.
Nuestro
tamaño
del
intervalo
es 0.017
al no ser
suficiente
tomamos
0.018 y lo
sumamos
en ambos
lados
Mínimo=
1.419;Meno
r o igual que
el valor
mínimo.
Máximo =1.577;
menor o igual al
valor máximo.
Máximo=
1.577;
mayor o
igual que
al valor
mínimo.
Máximo
=1.577;
mayor o
igual
que el
valor
máximo.
No olvides que aquí se
restan 0.001
O si en su caso fuera
un entero se restaría un
numero entero.
49. DATOS AGRUPADOS
No olvides que a veces es necesario realizar varios ajustes
antes de tener los intervalos apropiados.
Ten presente que cuando se toma el segundo numero
inferior 1.436 y le restamos 0.001 para obtener el primer
limite superior. Si al final de nuestros limites superiores, es
por ejemplo de 1.598 en lugar de restar 0.001 al limite inferior
le restamos lo que haga falta(0.002;0.003;0.004;0.005…)
para equilibrar el limite inferior con el limite superior y ser
mas exactos.
50. DATOS AGRUPADOS
Finalmente hemos obtenido los intervalos aparentes.
Estos intervalos son útiles para contar los datos cuando se trabaja
manualmente.
Es importante saber que los intervalos reales son los que van en la tabla.
En la siguiente presentación continuamos con el paso 5. Obtener
intervalos reales.
51. 3.2 Representaciones ráficas Clásicas
TIPOS DE VARIABLE GRAFICA EJE ABSCISAS (x) EJE ORDENADAS (y)
Nominal
(sexo, estadocivil)
Diagrama de barras
Valores que puede
adoptar la variable
Frecuencias
Pictograma o
diagrama de
sectores -- --
Cuantitativa
discreta (nº hijos)
y ordinales (grado
de Satisfacción de 1
a 5)
Diagrama de barras
Valores que puede
adoptar la variable
Frecuencias
Polígono de
frecuencias
Valores que puede
adoptar la variable
Frecuencias
Cuantitativa
contínua (horas de
estudio)
Polígono de
frecuencias
Valores que puede
adoptar la variable
Frecuencias
Histograma
Valores que puede
adoptar la variable
Frecuencias
Informes
psicopedagógicos o
de rendimiento
Perfil ortogonal
Diferentes
momentos de la
evaluación,
diferentes pruebas
Valores que puede
adoptar la variable
52. Representaciones gráficas: Exploratorias: DIAGRAMA
DE TALLO Y HOJAS
De cada puntuación se pueden diferenciar dos partes:
1) Tallo (primer o primeros dígitos) (común para diferentes
datos)
2) Hoja (resto de los dígitos)
Ex. 10 12 21 21 22 25 31 32 34 37 38 40
Principal ventaja: Nos permite identificar cada puntuación
individual al tiempo que ofrece un dibujo de la
distribución
1|02
2|1125
3|12478
4|0
1|02
2|1125
3|12478
4|0
53. Representaciones gráficas: Exploratorias: DIAGRAMA
DE CAJA Y BIGOTES
Se indica tanto la tendencia
central (Mediana –la línea
que corta la caja) como de
variabilidad (las dos línes
que hacen los límites de la
caja que son el percentil 75
y el percentil 25).
Además informan de las
puntuaciones “atípicas”.
ansiedad_Hom
2,00
4,00
6,00
8,00
10,00
12,00
14,00 9
54. MEDIDAS DE CENTRALIZACIÓN
Media Aritmética
N
X∑=µ
Suma de todos los valores de la población, dividida para el número total de
dichos datos.
Para calcular utilizamos la siguiente fórmula, que es la misma para la
MEDIA MUESTRAL
Donde:
u= Representa la media de los elementos
N= Número total de elementos
X= Representa los elementos.
∑= Es la letra griega en mayúscula, indica la operación de sumar.
∑X= Simboliza la suma de todos los valores X.
55. Media Ponderada.
Se presenta cuando hay varias observaciones con un mismo valor, lo cual
puede ocurrir si los datos se han agrupado en una distribucion de
frecuencias.
Cada observacion se multiplica por el numero de veces que se presenta.
56. Ejemplo- Media Ponderada
Venta de Tarjetas para Telefonía Móvil
ValorValor
TarjetaTarjeta
# de# de
ComprasCompras
3 17
6 8
10 12
20 5
30 4
Datos estimados
58. Mediana
Es un valor único de un conjunto de datos que mide al elemento central en los
datos.
Este único elemento es el más cercano a la mitad o el más central en el
conjunto de números.
En los DATOS NO AGRUPADOS . Es el valor que corresponde al punto medio
luego de ser ordenados de menor a mayor, donde el 50% deben ser mayores
que la mediana y 50% menores.
59. Mientras que en los datos AGRUPADOS se rige a la siguiente fórmula.
)(2 i
f
FA
n
LMediana
−
+=
De donde,
L → Limite inferior de la clase (mediana)
n → Número total de frecuencias
f → frecuencia de la clase (mediana)
FA → frecuencia acumulada menor
(mediana)
i → amplitud de clase
60. Es una medida de tendencia central parecida a la mediana ya que no se
calcula por métodos ordinarios de aritmética, Sino por simple
observación.
Valor que se repite más frecuentemente en un conjunto de datos.
En DATOS AGRUPADOS se calcula mediante el punto medio de clase
que contiene mayor número de frecuencia.
Moda
61. Ejemplo Datos no Agrupados
En la tabla se muestra el número de errores diarios en la
facturación realizada por una compañía telefónica local,
calcula la moda.
0, 2, 5, 7, 15, 0, 2, 5, 7, 15, 1, 4, 6, 8, 15, 1, 4, 6,
12, 19
Media=134/20 = 6.7
Moda = 15
Mediana= 0, 0, 1, 1, 2, 2, 4, 4, 5, 5, 6, 6, 7, 7, 8, 12,
15, 15, 15, 19 = 5+ 6 /2 = 5.5
.
62. Ejemplo Datos Agrupados
Número de Estudiantes que utilizan mensualmente las salas de cómputo.
Calcular Media, Mediana y Moda.
MEDIA
# Alumnos Frecuencia Punto Medio
5 -11 10 8
11 -17 3 14
17 -21 4 19
21 -27 15 24
total 32
FX
80
42
76
360
558
n
fX
X
∑=
P. Medio * (fx)
44.17
32
558
==
64. La dispersión es la variación en un conjunto de datos que proporciona información
adicional y permite juzgar la confiabilidad de la medida de tendencia central.
MEDIDAS DE DISPERSIÓN
Las medidas de dispersión nos permiten conocer si los valores en general están cerca o
alejados de los valores centrales, muestran la variabilidad de una distribución de datos,
indicando por medio de un número si las diferentes puntuaciones de una variable están
muy alejadas de la medida de tendencia central.
QUE ES LA DISPERSIÓN?
65. MEDIDAS DE DISPERSIÓN
Para proseguir con el tema de medidas de dispersión estudiaremos los conceptos que a
continuación vamos a definir. Estas medidas de dispersión son muy parecidas a la
mediana en cuanto a que divide a la distribución en partes iguales.
RANGO (AMPLITUD DE VARIACIÓN): Es la diferencia entre el valor máximo y el
mínimo en nuestros datos, esta medida de dispersión aunque es la más fácil de obtener,
en lo general es muy poco usada.
66. CUARTILES: permiten dividir un conjunto de datos en 4 partes iguales.
DECILES: son muy parecidos a los cuartiles; pero dividen al conjunto de datos en 10
partes iguales
PERCENTILES: también se lo conoce como centil, y permite dividir un conjunto de
datos en 100 partes iguales.
67. Dentro de las medidas de dispersión más usadas tenemos:
DESVIACIÓN MEDIA: Esta medida de dispersión considera todos los datos, esta
definida como el promedio aritmético de los valores absolutos de la desviación de cada
valor de la variable con respecto a la media aritmética.
X: media aritmética de los valores.
X: valor de cada observación
n: número de observaciones en la muestra
| |: valor absoluto
68. VARIANZA
La varianza esta basada en las desviaciones con respecto a la media.
VARIANZA: Es el promedio de los cuadrados de las desviaciones de cada observación
con respecto de la media. Esta varianza es cero si todas las observaciones son iguales.
Existen dos tipos de varianza.
•Varianza poblacional.
•Varianza muestral.
69. VARIANZA POBLACIONAL: Varianza de toda la población.
Es el valor medio de las desviaciones con respecto a la media, elevadas al cuadrado.
Su fórmula es:
El proceso para calcular la varianza poblacional es el siguiente:
1.Calcular la media aritmética.
2.Comprobar ٤(X-u) = 0, por cada número se resta la media poblacional y se realiza la
sumatoria.
3.Calcular (X-u) 2
4.Obtener varianza.
70. VARIANZA MUESTRAL
La varianza muestral es el valor medio de las desviaciones con respecto a la media,
elevadas al cuadrado.
El proceso para calcularla es el siguiente:
1.Calcular X 2
2.Calcular ٤X y ٤ X2
3.Reemplazar en la fórmula.
SU FÓRMULA ES:
71. DESVIACIÓN
Es la medida de dispersión mas utilizada, también se la conoce como desviación
típica, y es la raíz cuadrada de la varianza.
Esta medida pretende conseguir que la medida de dispersión se exprese en las
mismas unidades que los datos u observaciones, al igual que la varianza existen dos
tipos:
•Desviación estándar poblacional
•Desviación estándar muestral.
72. DESVIACIÓN ESTÁNDAR POBLACIONAL: Para toda la población o datos, es
la raíz cuadrada de la varianza poblacional.
DESVIACIÓN ESTÁNDAR MUESTRAL: Es un estimado de la desviación
estándar poblacional. Es la raíz cuadrada de varianza muestral, su fórmula es:
73. Propiedades de la Varianza
1 La varianza será siempre un valor positivo o cero, en el caso de
que las puntuaciones sean iguales.
2 Si a todos los valores de la variable se les suma un número la
varianza no varía.
3 Si todos los valores de la variable se multiplican por un número la
varianza queda multiplicada por el cuadrado de dicho número.
4 Si tenemos varias distribuciones con la misma media y conocemos
sus respectivas varianzas se puede calcular la varianza total.
Si todas las muestras tienen el mismo tamaño:
74. Propiedades de la Desviación Típica
1. La desviación típica será siempre un valor positivo o cero, en el caso
de que las puntuaciones sean iguales.
2 Si a todos los valores de la variable se les suma un número la
desviación típica no varía.
3 Si todos los valores de la variable se multiplican por un número la
desviación típica queda multiplicada por dicho número.
4 Si tenemos varias distribuciones con la misma media y conocemos sus
respectivas desviaciones típicas se puede calcular la desviación típica
total.
75. MEDIDAS DE TENDENCIA CENTRAL Y DIPERSIÓN.
DATOS SIMPLES CON FRECUENCIA ASOCIADA
La tabla representa el peso que cargan diariamente algunos
empleados de una empresa.
MEDIA= 900 = 56.25
16
MODA: 50, 60 BIMODAL (AMBOS VALORES CON FRECUENCIA DE 5
MEDIANA: DATO NÚMERO 8, COMPRENDIDO EN LA COLUMNA
d.f.a. CON VALOR DE 9, LA MEDIANA ES 55
PESO DE LA
PERSONA (KG)
NÚMERO
DE
PERSONAS
x f d.f.a.
50 5 50 2500 5 250 12500 5
55 4 55 3025 4 220 12100 9
60 5 60 3600 5 300 18000 14
65 2 65 4225 2 130 8450 16
16 900 51050
∑ f
݂݂ଶ
݂݂
σ ݂݂ ∑݂݂ଶ
݂ଶ
76. LA VARIANZA Y DESVIACIÓN ESTÁNDAR DEL
EJEMPLO
=
⁼ -
∑ f - 1
∑݂݂ଶ ( ∑݂݂݂ଶ
݂ଶ
σ ݂
13350 - 51050
16
15
77. Histograma en Excel
Un histograma es una representación gráfica de una variable en forma de
barras donde el tamaño de cada barra es proporcional a la frecuencia del
valor que está representando. El eje horizontal del histograma tiene los
valores de las variables y el eje vertical las frecuencias.
78. Para este ejemplo supondremos que hemos recolectado las edades de
un grupo de personas que han respondido a una encuesta. En total se
tiene un listado de 100 personas con sus respectivas edades:
79. Para poder crear el histograma en Excel es necesario agrupar los
datos por clases. Por clases nos referimos a las diferentes “categorías”
en las que se clasificarán los datos que en nuestro ejemplo son las
edades 18, 19, 20, etc. El objetivo del histograma es representar
gráficamente cuántos elementos pertenecen a cada una de dichas
clases.
80. Si no conoces las clases de los datos de entrada, puedes hacer una
copia del rango de datos y utilizar el comando Quitar duplicados para
obtener una lista de valores únicos. En este caso se conocen de
antemano que el rango de edades recolectadas en la encuesta está
entre 18 y 25 así que, se ingresa manualmente en la columna C:
81.
82. Herramienta Histograma en Excel
Para poder clasificar los datos para el histograma en Excel hay que
empezar por activar las Herramientas para análisis que son un
complemento de Excel. Debemos ir a la ficha Archivo > Opciones >
Complementos > Complementos de Excel
83.
84. Después de activar las Herramientas para análisis debemos ir a la
ficha Datos y dentro del grupo Análisis, hacer clic sobre el
comando Análisis de datos para obtener el siguiente cuadro de diálogo
y selecciona la opción Histograma la cual nos permitirá especificar los
argumentos necesarios para poder clasificar nuestros datos
85. Como Rango de entrada especificar el rango que
contiene las edades (sin incluir el título de la columna) y
en el cuadro Rango de clases colocar el rango de celdas
con las clases previamente creadas. Asegurarse de
seleccionar la opción En una hoja nueva y de marcar la
opción Crear gráfico. Al pulsar el botón Aceptar se
creará una nueva hoja con el histograma.
86.
87. Dar formato al Histograma en Excel
Para mejorar un poco la apariencia del gráfico de Histograma recién
creado, aplicar algunas acciones adicionales. Primero, eliminar de la
tabla de datos la opción “y mayor…” de manera que dicha opción no
aparezca en el gráfico y en segundo lugar eliminar la leyenda del
gráfico.
88. Finalmente remover los espacios entre las columnas del gráfico. Para
ello puedes hacer clic derecho sobre alguna de las columnas y
seleccionar la opción Dar formato a serie de datos y en la sección
de Opciones de serie colocar el Ancho del intervalo en 0%.
89. Después de aplicar este último ajuste tendremos un histograma en
Excel como el mostrado al inicio de este tema.
91. DISTRIBUCIONES
MUESTRALES
Uno de los objetivos de la estadística es saber acerca del comportamiento de
parámetros poblacionales tales como: la media ( ), la varianza ( ) o la
proporción ( ). Se extrae una muestra aleatoria de la población y se calcula el
valor de un estadístico correspondiente, por ejemplo, la media muestral
( ), la varianza muestral ( ) o la proporción muestral ( ). El valor del
estadístico es aleatorio porque depende de los elementos elegidos en la
muestra seleccionada. y, por lo tanto, el estadístico tiene una distribución de
probabilidad la cual es llamada la Distribución Muestral del Estadístico.
µ 2
σ
p
X pˆ2
s
92. 6.1 Distribución de la Media
Muestral cuando la población
es normal
Se extraen muestras aleatorias de tamaño n de una población
infinita con media poblacional y varianza :
La media de las medias muestrales es igual a la media
poblacional. Es decir, .
La varianza de las medias muestrales es igual a la varianza
poblacional dividida por . En consecuencia la desviación
estándar de las medias muestrales (llamada también el error
estándar de la media muestral), es igual a la deviación
estándar poblacional dividida por la raíz cuadrada de .Es
decir .
Si la población fuera finita de tamaño N, se aplica el factor
de correción: al error estándar de la media muestral
µµ =x
n
n
x
σ
σ =
µ 2
σ
1
N n
N
−
−
n
93. 6.2 El Teorema del Límite
Central
De una población infinita con media y varianza se extraen
muestras aleatorias de tamaño , entonces la media muestral se
comporta aproximadamente como una variable aleatoria normal con
media igual a la media poblacional y con varianza igual a la
varianza poblacional dividida por el tamaño de la muestra, siempre
que sea grande. Esto es:
, Estandarizando:
n
µ 2
σ
),(~
2
n
NX
σ
µ
n
)1,0(~ N
n
X
Z
σ
µ−
=
95. DISTRIBUCIÓN DE LA
MEDIA MUESTRAL
Notar que la desviación estándar (o la varianza) es mucho menor
en la muestra que en la población.
96. Ejemplo 6.1
Considerar una población que consiste de 3, 4, 6, 8, 10, 11, 12, 15, 20.
Solución:
1) Calculamos la media y desviación estándar de dicha población.
2) Extraemos 30 muestras de tamaño 4 de dicha población, ejecutando 4 veces
la siguiente secuencia CON MINITAB CalcRandom DataSample from
columns. Se guardan cada una de las 4 observaciones de las muestras en 4
columnas distintas: Obs1, Obs2, Obs3, y Obs4.
97. Ejemplo 6.1
3) Tercero, calculamos las medias de todas esas muestras usando la opción Row
Statistics del menú Calc y tratamos de ver gráficamente al menos si hay
acercamiento a Normalidad.
Se eligen las 30 muestras.
Las medidas estadísticas de la media muestral son:
Interpretación: Notar que la media de las medias muestrales es
que está bien cerca de la media poblacional . Además la desviación
estándar de la media muestral es 2.806 mientras que es igual a
5.42/2=2.71 ambos valores también están relativamente cerca. El histograma
si está un poco alejado de la normalidad.
Si se incrementa el tamaño de las muestras se puede notar una mejor
aproximación a la Normal.
nσ
10.108=xµ
89.9=µ
99. 6.3 Distribución de la Proporción
Muestral
Si de una población distribuida Binomialmente con probabilidad de
éxito p, se extrae una muestra aleatoria de tamaño n, entonces se
puede mostrar que la media de X: número de éxitos en la muestra,
es y que su varianza es
. En consecuencia la proporción muestral tiene
media p, y varianza . Entonces: por el Teorema del Limite
Central, cuando n es grande se tiene:
np=µ npq=2
σ
n
X
p =ˆ
n
pq
n
pq
pp
npq
npX
z
−
=
−
=
ˆ