El documento describe las diferentes escalas de medición (nominal, ordinal, de intervalo y de razón) y provee ejemplos de cada una. También explica conceptos estadísticos básicos como media, mediana, moda, desviación estándar y representaciones gráficas de distribuciones de frecuencias.
2. 21-1
MEDICIÓN
•Proceso de asignar números o
etiquetas a las cosas, según
reglas especificas, para
representar atributos de cantidad
o calidad
Medir lo que es medible y
tratar de hacer medible lo
que todavía no lo es.
Galileo Galilei
3. 3
ESCALAS DE MEDICIÓN
NOMINALES. Dividen
los datos en categorías mutuamente
excluyentes. Los números que se
asignan a objetos o fenómenos son
nombres o clasificaciones, solo son
etiquetas.
Sexo (masculino, femenino) se le
asigna 0 a masculino y 1 a
femenino.
Área geográfica (urbana , rural )
4. 4
ESCALAS DE MEDICIÓN
ORDINALES. Escalas
nominales que permiten ordenar
datos. Los números ordinales se
emplean para indicar orden de
clasificación.
Nivel de medición ordinal.
Ordene de mayor a menor
preferencia hacia los
siguientes sabores de
gaseosas de postobon
Uva ____
Naranja _____
Kola ____
Qué factores tuvo en cuenta en la selección
de la entidad bancaria a la hora de adquirir
alguno de sus productos.
(Ordene numéricamente en grado de importancia,
donde 1 es más importante que 2
y así sucesivamente)
5. 5
ESCALAS DE MEDICIÓN
ESCALA DE INTERVALO.
Los números se utilizan para clasificar
objetos, de manera que las distancias
numéricamente iguales en la escala representan
distancias iguales en la característica que se
mide.
Las preferencias por los 10 supermercados en
Colombia en una escala de 7 Éxito recibe 6 y
Cajasan2, no significa que Éxito se prefiera 3
veces mas que Cajasan.
Éxito 6
Cajasan 2
6. 6
ESCALAS DE MEDICIÓN
ESCALA DE RAZON. Tiene
todas las propiedades de las
anteriores y además punto cero
absoluto. Con esta escala podemos
clasificar los objetos, ordenarlos y
comparar diferencias. Estatura
edad
peso
ventas
participación de mercado.
8. 8
Datos
País Observación Año
Esperanza
de vida en
años
PNB per
cápita
Gasto en
salud per
cápita
% de
población
cubierta
por gastos
médicos
Australia 1 1960 70,7 1,962 0,046 100
Australia 2 1970 72 2,47 0,067 100
Australia 3 1980 74 5,942 0,322 100
Australia 4 1990 76,5 12,844 0,712 100
Austria 1 1960 68,7 1,51 0,046 78
Austria 2 1970 72 1,956 0,065 91
Austria 3 1980 72 5,138 0,262 99
Austria 4 1990 74,8 12,246 0,662 99
Bélgica 1 1960 70,3 1,546 0,033 58
Bélgica 2 1970 72 2,08 0,062 99
Bélgica 3 1980 73 5,254 0,274 99
Bélgica 4 1990 75,2 11,943 0,726 99
9. 9
• La media de la población es un parámetro de posición,
un valor de resumen, un representante de los datos.
• Se define como la suma de todos los valores
ponderados por 1/N; N es el tamaño de la población:
Nx
x
N
x
N
x
N
i
N
/
1
;..
1
;
1
21
3-2
poblaciónladeTamaño-N
)(
=
2N
1i2
N
xxi
Medidas de resumen
14. 14
Propiedades de la media aritmética
Todo conjunto de datos de nivel de intervalo y de nivel de razón
tiene un valor medio.
Al evaluar la media se incluyen todos los valores.
Un conjunto de valores sólo tiene una media.
La cantidad de datos a evaluar rara vez afecta la media.
La media es la única medida de ubicación donde la suma de
las desviaciones de cada valor con respecto a la media,
siempre es cero.
15. 15
Propiedades de la mediana
• La mediana es única para cada conjunto de datos.
• No se ve afectada por valores muy grandes o muy
pequeños, y por lo tanto es una medida valiosa de
tendencia central cuando ocurren.
• Puede obtenerse para datos de nivel de razón, de intervalo
y ordinal.
• Puede calcularse para una distribución de frecuencias con
una clase de extremo abierto, si la mediana no se encuentra
en una de estas clases.
16. 16
Moda
• La moda es el valor de la observación que aparece con más
frecuencia.
• EJEMPLO 5: las calificaciones de un examen de diez
estudiantes son: 81, 93, 84, 75, 68, 87, 81, 75, 81, 87. Como la
calificación 81 es la que más ocurre, la calificación modal es 81.
17. 17
Media geométrica
• La media geométrica (MG) de un conjunto de n números
positivos se define como la raíz n-ésima del producto de los n
valores. Su fórmula es:
• La media geométrica se usa para encontrar el promedio de
porcentajes, razones, índices o tasas de crecimiento.
n nXXXXMG ))...()()(( 321
3-14
18. 18
EJEMPLO 7
Las tasas de interés de tres bonos son 5%, 7% y 4%.
La media geométrica es
= 5.192.
La media aritmética es (5 + 7 + 4)/3 = 5.333.
La MG da una cifra de ganancia más conservadora porque no
tiene una ponderación alta para la tasa de 7%.
3 )4)(5)(7(MG
19. 19
Descripción de los datos:
medidas de dispersión
Desviación media: media aritmética de los
valores absolutos de las desviaciones
respecto a la media aritmética.
MD
X X
n
4-3
20. 20
Variancia muestral
La varianza muestral estima la varianza de la población.
n
xx
s
n
x
s
i
i
)(
=
1
)x-(Σ
=ˆ
n
1i2
2
i2
La desviación estándar muestral es la raíz cuadrada de la
varianza muestral.
la amplitud o rango es la diferencia entre los valores mayor y
menor en un conjunto de datos.
AMPLITUD = valor mayor - valor menor
4-11
21. 21
Interpretación y usos de la desviación estándar
Teorema de Chebyshev: para cualquier
conjunto de observaciones, la proporción
mínima de valores que está dentro de k
desviaciones estándar desde la media es al
menos
1 – 1/k2, donde k2 es una constante mayor
que 1.
22. 22
Dispersión relativa
El coeficiente de variación es la razón de la
desviación estándar a la media aritmética,
expresada como porcentaje:
CV
s
X
(100%)
4-17
23. 231-1
Descripción de los datos:
distribuciones de frecuencias y
representaciones gráficas
Distribución de frecuencias: agrupamiento
de datos en categorías que muestran el
número de observaciones en cada categoría
mutuamente excluyente.
24. 24
Elaboración de una distribución de frecuencias
pregunta que
se desea
responder
recolección
de datos
(datos originales)
distribución
de frecuencias
organización
de datos
presentación
de datos
(gráfica)
obtención
de
conclusiones
2-3
25. 25
EJEMPLO 1
• Un profesor de estadística matemática y
desea determinar cuántas horas
estudian los alumnos. Selecciona una
muestra aleatoria de 30 estudiantes y
determina el número de horas por
semana que estudia cada uno: 15.0,
23.7, 19.7, 15.4, 18.3, 23.0, 14.2, 20.8,
13.5, 20.7, 17.4, 18.6, 12.9, 20.3, 13.7,
21.4, 18.3, 29.8, 17.1, 18.9, 10.3, 26.1,
15.7, 14.0, 17.8, 33.8, 23.2, 12.9, 27.1, 16.6
• Organice los datos en una distribución
de frecuencias.
2-5
26. 26
EJEMPLO 1 continuación
Horas de estudio Frecuencia, f
8-13 1
13-18 12
18-23 10
23-28 5
28-33 1
33-37 1
2-6
Considere las clases 8-12 y 13-17. Las marcas de clase son
10 y 15. El intervalo de clase es 5 (13 - 8).
27. 27
Distribución de frecuencia relativa
• La frecuencia relativa de una clase se obtiene dividiendo la
frecuencia de clase entre la frecuencia total.
2-9
Frecuencia,
f
Frecuencia
relativa
8-13 1 1/30=.0333
13-18 12 12/30=.400
18-23 10 10/30=.333
23-27 5 5/30=.1667
28-33 1 1/30=.0333
33-37 1 1/30=.0333
TOTAL 30 30/30=1
T
Horas
28. 28
Representaciones de tallo y hoja
• Representaciones de tallo y hoja:
técnica estadística para representar
un conjunto de datos. Cada valor
numérico se divide en dos partes: los
dígitos principales son el tallo y el
dígito siguiente es la hoja.
• Nota: una ventaja de la
representación de tallo y hoja
comparado con la distribución de
frecuencias es que no se pierde la
identidad de cada observación.
2-10
29. 29
EJEMPLO 2
• CAROLINA logró las siguientes calificaciones en
el doceavo examen de matemáticas del semestre:
86, 79, 92, 84, 69, 88, 91, 83, 96, 78, 82, 85.
Construya una representación de tallo y hoja
para los datos.
tallo hoja
6 9
7 8 9
8 2 3 4 5 6 8
9 1 2 6
2-11
30. 30
Presentación gráfica de una distribución de frecuencias
• Las tres formas de gráficas más usadas son
histogramas, polígonos de frecuencia y
distribuciones de frecuencias acumuladas
(ojiva).
• Histograma: gráfica donde las clases se
marcan en el eje horizontal y las frecuencias
de clase en el eje vertical. Las frecuencias
de clase se representan por las alturas de
las barras y éstas se trazan adyacentes
entre sí.
2-12
31. 31
Presentación gráfica de una distribución de frecuencias
• Un polígono de frecuencias consiste en
segmentos de línea que conectan los
puntos formados por el punto medio de
la clase y la frecuencia de clase.
• Una distribución de frecuencias
acumulada (ojiva) se usa para
determinar cuántos o qué proporción de
los valores de los datos es menor o
mayor que cierto valor.
2-13
32. 32
Histograma para las horas de estudio
0
2
4
6
8
10
12
14
10 15 20 25 30 35
Horas de estudio
Frecuencia
2-14
33. 33
Polígono de frecuencias para las horas de estudio
0
2
4
6
8
10
12
14
10 15 20 25 30 35
Horas de estudio
Frecuencia
2-15
34. 34
Distribución de frecuencias acumuladas menor que para
las horas de estudio
0
5
10
15
20
25
30
35
10 15 20 25 30 35
Horas de estudio
Frecuencia
35. 35
Gráfica de barras
• Una gráfica de barras se puede usar
para describir cualquier nivel de
medición (nominal, ordinal, de
intervalo o de razón).
• EJEMPLO 3: construya una gráfica de
barras para el número de personas
desempleadas por cada 100 000
habitantes de ciertas ciudades en
1995.
2-17
36. 36
EJEMPLO 3 continuación
Ciudad Número de desempleados
por 100 000 habitantes
Cali, Ca 7300
Bucaramanga, BU 5400
Cartagena, CR 6700
Bogota, BO 8900
Medellin, ME 8200
Cucuta, CU. 8900
2-18
37. 37
Gráfica de barras para los datos de desempleados
7300
5400
6700
8900
8200
8900
0
2000
4000
6000
8000
10000
1 2 3 4 5 6
Ciudades
#desempleados/100000
Cali
Bucaramanga
Cartagena
Bogota
Medellin
Cucuta
2-19
38. 38
Matriculados total (Programas de pregrado)
13853 14468 14182
529 441 461
0
2000
4000
6000
8000
10000
12000
14000
16000
2003 2004 2005
Años
Númerodeestudiantes
Presencial
Distancia
MATRICULADOS TOTAL
39. 39
Gráfica circular
• Una gráfica circular es en especial
útil para desplegar una distribución
de frecuencias relativas. Se divide
un círculo de manera proporcional
a la frecuencia relativa y las
rebanadas representan los
diferentes grupos.
• EJEMPLO 4: se pidió a una muestra
de 200 corredores que indicaran su
tipo favorito de zapatos para correr.
2-20
40. 40
EJEMPLO 4 continuación
• Dibuje una gráfica circular basada en la
siguiente información.
Tipo de zapato # de corredores
Nike 92
Adidas 49
Reebok 37
Asics 13
Otros 9
2-21
41. 41
Gráfica circular para tipos de zapatos
Nike
Adidas
Reebok
Asics
Otros
Nike
Adidas
Reebok
Asics
Otros
2-22
43. 43
Asimetría
Asimetría (sesgo) es la medida de la falta de simetría en una
distribución.
El coeficiente de asimetría se calcula mediante la siguiente
fórmula:
4-18
3
3
4
4
1
,
1
i
i
x x
A
n s
x x
K
n s
45. 45
Distribución con asimetría positiva
• sesgo a la derecha: media y
mediana se
encuentran a la
derecha de la
moda.
3-27
46. 46
Distribución con asimetría negativa
• sesgo a la izquierda: media y
mediana
están a la izquierda de la
moda.
3-28
47. 47
NOTA
• Si se conocen dos promedios de una
distribución de frecuencias con sesgo
moderado, el tercero se puede
aproximar.
• moda = media - 3(media - mediana)
• media = [3(mediana) - moda]/2
• mediana = [2(media) + moda]/3
3-29
48. 48
Diagramas de caja
Un diagrama de caja es una ilustración gráfica, basada en
cuartiles, que ayuda a visualizar un conjunto de datos.
Se requieren cinco tipos de datos para construir un diagrama de
caja: el valor mínimo, el primer cuartil, la mediana, el tercer
cuartil, y el valor máximo.
4-26
49. 49
Diagramas de caja
Calcule la mediana, el primero y tercer cuartil de la muestra.
Indique éstos con líneas horizontales. Dibuje líneas verticales
para completar la caja.
Encuentre el valor de la muestra más grande que no esté a más
de 1.5IQR arriba del tercer cuartil y el valor de la muestra más
pequeño que no esté a más de 1.5 IQR debajo del primer cuartil.
Extienda líneas verticales («bigotes») desde las líneas de los
cuartiles a estos puntos.
Puntos a más de 1.5IQR arriba del tercer cuartil, o a mas de
1.5IQR del primer cuartil, se denominan datos atípicos.
4-26
52. 52
Tabla de Frecuencias para Edad
Límite Límite Frecuencia Frecuencia Frecuencia
Clase Inferior Superior Punto Medio Frecuencia Relativa Acumulada Rel. Acum.
menor o igual 19,0 6 0,2308 6 0,2308
1 19,0 20,0 19,5 9 0,3462 15 0,5769
2 20,0 21,0 20,5 6 0,2308 21 0,8077
3 21,0 22,0 21,5 3 0,1154 24 0,9231
4 22,0 23,0 22,5 1 0,0385 25 0,9615
mayor de 23,0 1 0,0385 26 1,0000
Media = 20,5 Desviación Estándar = 1,30384
53. 53
Ejemplo
Se lleva a cabo un experimento para probar la capacidad
de un determinado polímero para eliminar desechos
tóxicos del agua. Se considera que la temperatura es un
factor importante en la eliminación de desechos. Se mide
el porcentaje de impurezas eliminadas por el polímero.
57. 57
Media de datos agrupados
• La media de una muestra de datos
organizados en una distribución de
frecuencias se calcula mediante la
siguiente fórmula:
n
xf
x
k
i
kk
1
3-18
58. 58
EJEMPLO 9
• Una muestra de diez cines en una gran
área metropolitana dio el número total
de películas exhibidas la semana
anterior. Calcule la media de las
películas proyectadas.
3-19
60. 60
Moda de datos agrupados
• La moda de los datos agrupados se
aproxima por el punto medio de la
clase que contiene la frecuencia de
clase mayor.
• Las modas en el EJEMPLO 10 son 5.5
y 9.5. Cuando dos valores ocurren
una gran cantidad de veces, la
distribución se llama bimodal, como
en el ejemplo 10.
3-25
62. 62
A continuación se presentan los datos para siete empresas, llamadas
A,B,C,D,E,F,G, seguido de la información respecto a numero de máquinas,
volumen de ventas, tipos de productos, tiempo de entrega, plazo financiero.
Matriz de datos empresas.
Empresa x1 x 2 x 3 x 4 x 5
A 30 180 2 3 5
B 40 220 6 10 16
C 10 50 7 9 15
D 5 30 4 4 12
E 50 200 2 2 20
F 15 80 8 7 10
G 30 150 5 5 5
Taller
63. 63
Empresasx1 x2 x3 x4 x5
A 30 180 2 3 5
B 40 220 6 10 16
C 10 50 7 9 15
D 5 30 4 4 12
E 50 200 2 2 20
F 15 80 8 7 10
G 30 150 5 5 5
MEDIA 25,71 130 4,85 5,71 11,85
desv
estandar 15,21 70,50 2,16 2,81 5,2
desv
estandar116,4 76,15 2,34 3,039 5,63
x 12345ABCDEFG
64. 64
1) Encuentre la media para cada una de las variables
2) Encuentre la desviación estándar
3) Encuentre la mediana
4) Encuentre la media recortada a 10%
5) Encuentre el primer cuartil
6) Encuentre el rango intercuartil
7) Construya un diagrama de caja
8) Determine el valor de A y K.
9) Presente un informe ejecutivo sobre las empresas.
65. 65
Ejercicio
Con el propósito de comparar los precios del pan (de una
determinada marca) se llevo a cabo un experimento en cuatro
zonas del área metropolitana: Cañaveral, Centro, Cabecera y
Girón. En cada zona de la ciudad se tomaron muestra de 8
tiendas, pero en Girón, debido a una omisión, se tomó una
muestra solamente 7 tiendas.
¿Cuál zona seleccionaría para comprar pan?
¿En cuál zona considera que existe mayor variabilidad en los
precios? Podría explicar la variación de los precios en las
diferentes zonas.
Realizar una gráfica de perfiles del precio en función de la
zona.
Calcular la media armónica y geométrica y compararlas con
la media aritmética.
Calcular el promedio de las desviaciones cuadráticas respecto
a las tres medidas de tendencia central.