1. Fundación Universitaria Católica del Norte
Unidad 1
NOMBRE DE LA ASIGNATURA: ESTADÍSTICA DESCRIPTIVA
NOMBRE DE LA UNIDAD: ORGANIZACIÓN DE LA INFORMACIÓN
DATOS GENERALES DE LA UNIDAD
Introducción:
En la estadística es de vital importancia el manejo de la información, ya que
normalmente se manejan grandes volúmenes de la misma.
El manejo de la información en gran parte depende de la habilidad del que la
administra, como también de la forma como esté organizada, pues información
mal organizada nos puede llevar a cometer errores de apreciación e inclusive en
los cálculos matemáticos.
Temas:
TEMA 1: CONCEPTOS BÁSICOS
1.1 Definición
1.2 Conceptos básicos
TEMA II. ORGANIZACIÓN Y REPRESENTACIÓN DE DATOS
2.1 Tablas de frecuencias simples
2.2 Tabla de frecuencia para datos agrupados.
TEMA III MEDIDAS DESCRIPTIVAS
3.1. Medidas de tendencia central
3.2. Medidas de dispersión
3.3. Medidas de posición
Bibliografía:
1
2. Fundación Universitaria Católica del Norte
Bejarano Barrera, Hernán. Estadística Descriptiva. Unisur.
Chow, Ya-Lun Análisis estadístico. 2 edi. México: Interamericana 1977
Douglas A. Lind, Robert D. Mason, William G. Marchal, Estadística para
Guarín Salazar Norberto estadística descriptiva/ Norberto Guanín Salazar
Medellín: Lealon 1987
Hoggy Craig. Introducción a la estadística Matemática.
TEMA 1 CONCEPTOS BASICOS
1.1 DEFINICIÓN
La Estadística es la ciencia que trata de la recopilación, el análisis, la
interpretación y la presentación de una gran cantidad de datos. Su uso es
fundamental en el diseño de experimentos en los cuales se requiera recolectar
información y obtener conclusiones sobre una población. Es la ciencia que mas
se utiliza como herramienta en la mayoría de disciplinas, ya que se relaciona
directamente con el método científico utilizado en el desarrollo de una
investigación
Se clasifica en dos grandes ramas de acuerdo con la necesidad de cada situación:
la estadística descriptiva y la estadística inferencial.
Estadística descriptiva: Describe, analiza y representa un grupo de datos
utilizando métodos numéricos, gráficos y tablas que resumen y presentan la
información contenida en ellos.
Estadística inferencial: Apoyándose en el cálculo de probabilidades y a partir de
datos muéstrales, efectúa estimaciones, decisiones, predicciones u otras
generalizaciones sobre un conjunto mayor de datos.
1.2 CONCEPTOS BÁSICOS
Individuo: cualquier elemento que porte información sobre el fenómeno que se
estudia. Así, si estudiamos la altura de los niños de una clase, cada alumno es
un individuo; si estudiamos el precio de la vivienda, cada vivienda es un individuo.
2
3. Fundación Universitaria Católica del Norte
Población: conjunto de todos los individuos (personas, objetos, animales, entre
otros.) que porten información sobre el fenómeno que se estudia. Por ejemplo, si
estudiamos el precio de la vivienda en una ciudad, la población será el total de las
viviendas de dicha ciudad. La cantidad de elementos de la población se
representa con la letra N
Muestra: subconjunto que seleccionamos de la población. Así, si se estudia el
precio de la vivienda de una ciudad, lo normal será no recoger información sobre
todas las viviendas de la ciudad (sería una labor muy compleja), sino que se suele
seleccionar un subgrupo (muestra) que se entienda que es suficientemente
representativo. La cantidad de elementos de la muestra se representa con la
letra n
La muestra es más pequeña que la población
Variable estadística
Una variable es una característica que va a ser estudiada en una población.
Puede tomar diferentes valores en personas, animales o cosas
Una variable es estadística, si puede ser escrita como una pregunta cuyas
respuestas pueden ser tabuladas o clasificadas dentro de determinados rangos.
Las variables estadísticas se construyen de acuerdo con el objetivo del estudio y
apuntan a recolectar la información de manera eficaz y efectiva
Las variables pueden ser de dos tipos: Variables Cualitativas y Variables
Cuantitativas
Variables cualitativas o atributos: no se pueden medir numéricamente (por
ejemplo: nacionalidad, color de la piel, sexo).
Variables cuantitativas: tienen valor numérico (edad, precio de un producto,
ingresos anuales).
Las variables cuantitativas se pueden clasificar en discretas y continuas:
Discretas: sólo pueden tomar valores enteros (1, 2, 8, -4, etc.). Por ejemplo:
número de hermanos (puede ser 1, 2, 3...., etc. Por ejemplo, nunca podrá ser
3,45).
Continuas: pueden tomar cualquier valor real dentro de un intervalo. Por ejemplo,
la velocidad de un vehículo puede ser 80,3 Km./h, 94,57 Km./h...etc.
3
4. Fundación Universitaria Católica del Norte
TEMA II. ORGANIZACIÖN Y REPRESENTACIÓN DE DATOS
Para ordenar y estudiar los datos de una variable estadística se utilizan tablas de
frecuencias. Se pueden elaborar tablas de frecuencias dependiendo del número
de datos que se van a estudiar y el tipo de variables que se van a tener en cuenta.
2.1 TABLAS DE FRECUENCIAS SIMPLES
Se utiliza para datos no agrupados, cuando la variable x , toma pocos valores,
estos se registran en una tabla de dos columnas. En la primera columna se
escriben los valores de la variable en forma creciente y en la segunda columna se
escribe el número de veces que aparece cada uno de ellos. Este número se
llama frecuencia absoluta y se representa por ni . La suma de las frecuencias
absolutas de la tabla debe ser el total de la muestra. La cantidad de elementos
de la muestra se representa con la letra n
k: Datos diferentes entre el total de n datos
Al dividir las frecuencias absolutas ni entre el número total de datos n , se obtiene
la frecuencia relativa hi :
ni
hi
n
Al multiplicar los valores de la frecuencia relativa por 100, se obtiene la frecuencia
relativa porcentual que se representa por el símbolo % (por ciento).
Es decir, % hi 100
La suma de las frecuencias porcentuales de la tabla es igual 100%
N i : Frecuencia absoluta acumulada
Es la suma de las i frecuencias absolutas anteriores
H i : Frecuencia relativa acumulada
Es la suma de las i frecuencias relativas anteriores
4
5. Fundación Universitaria Católica del Norte
i
Hi h1 h2 .... hi hj
j 1
Ejemplo, se tomo una muestra de 20 alumnos del programa de agropecuaria
cuyas edades y sexo son:
Mujeres: 20 años, 20 años, 20 años, 20 años, 22 años, 21 años, 21 años, 20
años, 21 años, 21 años, 22 años, 22 años, 20 años
Hombres: 20 años, 21 años, 22 años, 22 años, 20 años, 21 años, 21 años
En estos datos se identifican dos variables: el sexo, que es una variable
cualitativa, y la edad, que es una variable cuantitativa discreta.
Para organizar la información se elabora una tabla de frecuencias para la edad y
otra para el sexo
Tabla de frecuencias para datos sin agrupar
La edad de los estudiantes
x ni Ni hi % Hi %
20 8 8 40 40
21 7 15 35 75
22 5 20 25 100
Total 20
Tabla de frecuencia para el sexo
x ni Ni hi % Hi %
Femenino 13 13 65 65
masculino 7 20 35 100
Total 20
De las tablas anteriores se puede concluir que en el grupo de estudiantes hay más
mujeres que hombres, que los alumnos de menor edad tienen 20 años y equivalen
al 40%; que el menor número de alumnos tiene 22 años y equivale al 25% del
total.
5
6. Fundación Universitaria Católica del Norte
2.2 TABLA DE FRECUENCIA PARA DATOS AGRUPADOS.
Cuando el número de datos es grande y la variable toma muchos valores distintos,
conviene agruparlos en intervalos de la misma amplitud, llamados intervalos de
clase.
Mediante un ejemplo veremos como se agrupa una muestra y como se representa
mediante una tabla de frecuencias.
Pasos para su construcción:
Paso 1. Elección del número de clases (k)
No existen reglas y la elección se hace teniendo en cuenta el tamaño de la
muestra. Existen varias formas de cálculo:
La formula propuesta por STURGES es k 1 3.32 log n
Otra formula es k n
El número de intervalos también se puede calcular de acuerdo a la experiencia del
investigador
Paso 2. Rango de los datos (R)
El rango es la diferencia entre el valor máximo y el valor mínimo
Rango = X M - X m
Paso 3.Se calcula la amplitud (A)
Se divide el rango entre el número de intervalos definidos.
XM Xm R
A= en otras palabras A=
número.de. int ervalos k
Si el resultado anterior no es un número entero, se redondea al entero
Superior.
Paso 4. Limites de los intervalos de clase
Los limites deben escogerse en tal forma que ellos incluyan los valores máximos y
mínimos mediante la formula
Lo primero que se hace es calcular el rango R , A k
6
7. Fundación Universitaria Católica del Norte
Para establecer los límites de los intervalos trabajaremos con este nuevo rango
Llamado rango ampliado ( R , ) el cual ampliaremos de tal forma que la diferencia
de rangos ( R , R ) se reparta mas o menos en partes iguales en los dos extremos
(en los valores máximo y mínimo de la serie de datos)
En estadística, los intervalos usados son de la forma a, b , que incluyen todos
los números mayores o iguales que a y menores que b
Al número a se llama límite inferior del intervalo ( li ) y al número b se llama límite
superior del intervalo ( l s ).
Los límites de los intervalos se trabajan con los valores del rango ampliado
El limite inferior del primer intervalo es el valor mínimo del rango ampliado, a este
valor mínimo se le suma A (amplitud) y se obtiene el valor del limite superior del
primer intervalo que es también el limite inferior del segundo intervalo.
Para construir los otros intervalos se toma como límite inferior, el límite superior
del intervalo anterior y para el límite superior se le suma la amplitud del intervalo
hallado
Paso 5. Calculo de la marca de clase ( M c )
El punto medio de cada intervalo se llama marca de clase y se usa para identificar
el intervalo en donde se encuentra ese dato, evitando nombrar cada uno de los
a b
valores que entran en él, se simboliza M c y su valor es, M c
2
Paso 6 conteos de datos y construcción de la tabla de frecuencias teniendo en
cuenta que en la columna de ni se escribe el número de datos que agrupa cada
intervalo.
Ejemplo
Los datos siguientes corresponden a la estatura de 40 alumnos en centímetros.
Después de ordenarlos en forma creciente, los resultados fueron: 147, 148, 149,
149, 150, 150, 151, 151, 152, 153, 153,154, 156, 157, 157, 158, 158, 158, 158,
158, 159, 159, 160, 162, 162, 163, 163, 164, 165, 165, 166, 168, 170, 170, 170,
171, 173, 173, 176, 179.
a. Representar los datos en una tabla de frecuencias.
b. Realizar un análisis de la información.
Solución
7
8. Fundación Universitaria Católica del Norte
a. La variable estatura es continua; como en este ejemplo la variable toma
muchos valores diferentes, se debe trabajar con tabla de frecuencias para
datos agrupados.
Paso 1. Es necesario agrupar los datos en intervalos. Para este caso se usarán 5
intervalos.
K=5
Paso 2. Se halla el rango
R = 179 147 = 32
Paso 3. Se halla la amplitud del intervalo
32
Amplitud del intervalo A = 6,4; como el resultado no es un número entero se
5
redondea al entero superior, en este caso se redondea al entero 7 por lo tanto, la
amplitud del intervalo es 7
A=7
Paso 4. Se hallan los límites de los intervalos de clase
Para establecer los límites de los intervalos trabajaremos con este nuevo rango
Llamado rango ampliado ( R , )
R , A k = 5 R , 5 7 35
La diferencia de rangos ( R , R )
35 -32=3
El cual ampliaremos de tal forma que la diferencia de rangos ( R , R )se reparta
mas o menos en partes iguales en los dos extremos (en los valores máximo y
mínimo de la serie de datos ) como la diferencia es 3 ampliamos un numero a la
izquierda y dos números a la derecha, queda así:
147-1= 146 Limite inferior
179+2 = 181 Limite inferior
Se hallan los intervalos:
Primer intervalo: 146,146 7 146,153
Segundo intervalo 153,153 7 153,160
Tercer intervalo 160,160 7 160,167
8
9. Fundación Universitaria Católica del Norte
Para construir los otros intervalos se toma como límite inferior, el
límite superior del intervalo anterior y para el límite superior se le
suma la amplitud del intervalo hallado
Paso 5. Se halla la marca de clase de cada intervalo. Así, en el primer intervalo.
146 153
Mc 149,5
2
Paso 6. Finalmente se construye la tabla de frecuencias, teniendo en cuenta que
en la columna de ni se escribe el número de datos que agrupa cada intervalo.
Tabla de frecuencias para datos agrupados
k x ( li l s ) M c ni Ni hi % Hi %
1 146,153 149,5 9 9 22.5 22.5
2 153,160 156,5 13 22 32.5 55
3 160,167 163,5 9 31 22.5 77.5
4 167,174 170,5 7 38 17.5 95
5 174,181 177,5 2 40 5 100
Total 40
b. De la tabla se puede concluir que la mayoría de los alumnos miden
entre153 y 160 cm. El porcentaje de los alumnos de mayor estatura es 5% y el de
los de menor estatura es 22.5%. El total de la población es de 40 alumnos. El
22.5% de los alumnos miden entre 160 y 167 cm.
TEMA III MEDIDAS DESCRIPTIVAS
Las principales medidas son: medidas de tendencia central y medidas de
dispersión.
3.1 MEDIDAS DE TENDENCIA CENTRAL
Las principales medidas de tendencia central son: la media aritmética o promedio,
la mediana y la moda.
9
10. Fundación Universitaria Católica del Norte
MEDIDAS DE TENDENCIA CENTRAL PARA DATOS SIN AGRUPAR
Media aritmética
La media de un conjunto de datos es el promedio aritmético de ellos.
Generalmente, se nota por X si x1 , x 2 ,......, x n es un conjunto de datos, entonces
k
xi
i 1 x1 x2 .....x n
X La media se interpreta como el individuo o dato típico
n n
de un grupo, y se puede considerar como el dato que mejor representa al conjunto
Ejemplo 1 si tenemos el conjunto de números siguientes 2, 3, 5, 6
xi 2 3 5 6 16
x 4
n 4 4
Ejemplo 2 Para el conjunto de números siguientes hallar la media aritmética
10, 13, 10, 13, 14, 10, 13, 10, 15
Media Aritmética Ponderada
Si los valores que toma x en una serie de datos, no todos tienen la misma
importancia, es valido asignar "pesos" o "ponderaciones" de acuerdo a la
importancia de cada dato.
En la serie del ejemplo anterior aparecen los números; pero cada uno con
diferente frecuencia. Si cada uno de estos datos se multiplica por su respectiva
frecuencia o ponderación y se suman estos productos, se obtendrá la misma suma
que si se hubieran sumado uno por uno.
k
xi ni
i 1 x1n1 x 2 n2 .....x n nk
Formula de la media ponderada X
n n
10
11. Fundación Universitaria Católica del Norte
Dato Frecuencia Producto
xi absoluta x i ni
ni
10 4 40
13 3 39
14 1 14
15 1 15
Total 9 108
k
xi ni
i 1 40 39 14 15
X 12
n 9
Mediana
La mediana es el dato que divide un conjunto de datos en dos partes
~
porcentualmente iguales. Es notada por X .
Para calcular la mediana se ordena el conjunto de datos de menor a mayor y
luego, se ubica el punto o valor que esta en el centro de ellos. Para encontrar la
mediana se tienen dos casos
~
Caso uno si el número de datos n es impar X x n 1
2
Recordar que en xi i es la posición del dato
Ejemplo 2, 3, 4, 5, 6
~
X x 5 1
x3 Que corresponde a la posición 3 de la serie de datos en este caso
2
el valor es 4
x n
x n
1
~ 2 2
Caso dos: si el número de datos n es par X
2
Ejemplo dada en la siguiente serie de datos 3, 4, 5, 6, 7, 8, 9, 10
11
12. Fundación Universitaria Católica del Norte
x 8
x 8
1
~ 2 2 x4 x5
X La posición 4 corresponde al número 6 y la posición 5
2 2
~ 6 7 13
corresponde al 7; luego X 6.5
2 2
Ejemplo 2
Calcular la mediana de las siguientes series de datos
7, 8, 8, 10, 12, 19, 23
~
X xn1 x 7 1 x 4 10
2 2
x 4 Corresponde a la posición 4 de la serie ordenada si miras esta posición
corresponde al número 10
Ejemplo 3
3, 4, 4, 5, 16, 19, 25, 30
x8 x8
1
~ 2 2 x 4 x5
X La posición 4 corresponde al número 5 y la posición 5
2 2
~ 5 16 21
corresponde al 16; luego X 10.5
2 2
Moda
La moda es el valor que aparece con mayor frecuencia en la serie de datos. Así
por ejemplo, de la serie {14, 15, 17, 17, 21, 21, 21, 33, 36, 40}, la moda es 21.
La moda es una medida muy natural para describir un conjunto de datos; su
concepto se adquiere fácilmente: es la altura más corriente, es la velocidad más
común, etc. Además tiene la ventaja de que no se ve afectada por la presencia de
valores altos o bajos.
La principal limitación esta en el hecho de que requiere un número suficiente de
observaciones para que se manifieste o se defina claramente.
Otros inconvenientes son que puede darse el caso de que una determinada serie
no tenga moda o que tenga varias modas.
Por ejemplo:
L, K, M, O, N (no hay moda)
5, 6, 10, 5, 8, 6, 7, 4 (2 modas 5 y 6)
12
13. Fundación Universitaria Católica del Norte
MEDIDAS DE TENDENCIA CENTRAL PARA DATOS AGRUPADOS
Cuando los datos se presentan en tablas de frecuencias los cálculos de las
medidas de tendencia central son.
MEDIA ARITMÉTICA para datos agrupados
n
M ci ni
i 1
X
n
Tabla de frecuencias para datos agrupados
k x ( li l s ) M c ni Ni hi % Hi %
1 146,153 149,5 9 9 22.5 22.5
2 153,160 156,5 13 22 32.5 55
3 160,167 163,5 9 31 22.5 77.5
4 167,174 170,5 7 38 17.5 95
5 174,181 177,5 2 40 5 100
Total 40
Aplicando la formula queda
149.5 9 156.5 13 163.5 9 170.5 7 177.5 2
X
40
MODA para datos agrupados
k x ( li l s ) Mc ni Ni
1 29.5-34.5 32 1 1
2 34.5-39.5 37 3 4
3 39.5-44.5 42 8 12
4 44.5-49.5 47 9 21
5 49.5-54.5 52 7 28
6 54.5-59.5 57 4 32
7 59.5-64.5 62 3 35
8 64.5-69.5 67 3 38
9 69.5-74.5 72 2 40
Total
13
14. Fundación Universitaria Católica del Norte
La formula es:
d1
Mo Li A
d1 d2
Donde:
Li = Limite inferior de la clase modal.
d1 = Diferencia entre la frecuencia del intervalo que contiene la moda y la
frecuencia del intervalo anterior al que contiene la moda.
d2 = Diferencia entre la frecuencia del intervalo que contiene la moda y la
frecuencia del intervalo posterior al que contiene la moda.
A =Amplitud del Intervalo.
Para ubicar el intervalo que contiene la moda se busca el intervalo que mayor
frecuencia tiene y este es el intervalo que contiene la moda
y luego aplicar la formula.
d1
Mo Li A
d1 d2
El intervalo que mayor frecuencia tiene es : 44.5 - 49.5
Entonces:
d1 =9 - 8 = 1
d2= 9 7=2
1
Mo 44.5 5 46.17
1 2
MEDIANA (para datos agrupados)
La formula es:
n
Na
~
x Li A 2
ni Me
14
15. Fundación Universitaria Católica del Norte
L1 : limite inferior del intervalo que contiene la mediana
n : Número de datos
N a : Frecuencia absoluta acumulada anterior al intervalo que contienen la mediana
ni Me : Frecuencia absoluta del intervalo mediano
A: amplitud del intervalo
Pasos:
Lo primero que debes hacer es hallar el intervalo que contiene la mediana y se
n
halla de la siguiente manera el valor medio se halla y se busca en la
2
frecuencia absoluta acumulada y en el intervalo que este, es donde se encuentra
el intervalo que contiene la mediana, luego se aplica la formula.
Para el ejercicio anterior el intervalo que contiene la mediana es el 4
40
12
~
x 44.5 5 2 48.94
9
3.2 MEDIDAS DE DISPERSIÓN
Son medidas que indican que tan espaciados o distanciados están los datos con
referencia de un valor particular.
Las medidas más usadas de la dispersión de un conjunto de datos son: el rango,
la desviación media de la varianza, la desviación típica y el coeficiente de
variación.
MEDIDAS DE DISPERSIÓN PARA DATOS SIN AGRUPAR
RANGO: es igual a la diferencia entre el valor máximo y el valor mínimo de la
muestra.
Solo da una idea general de la variabilidad de los datos es poco informativo por
que tiene en cuenta únicamente los valores externos.
15
16. Fundación Universitaria Católica del Norte
R = valor máximo valor medio
LA DESVIACIÓN MEDIA
Para que una medida sea indicativa de la variabilidad debe tener en cuenta el
valor de cada una de los datos, una forma de media la variabilidad consiste en
elegir un valor central y observar que tan alejados están los datos de ese valor
central.
Si los datos están muy alejados la variabilidad es grande, en el caso continúan la
variabilidad sea pequeña.
La distancia de cada dato al valor central se llama desviación o error. Si el valor
central es la media entonces se llama desviación del dato xi a la diferencia
xi x , la suma de estas desviaciones es siempre cero ya que unas serán
positivas y otras negativas y la suma total se anula. Por lo tanto la suma de las
desviaciones no puede ser una medida de la dispersión. Si tomamos los valores
absolutos de la desviación y los sumamos y esta suma la dividimos por el número
de datos obtenemos la desviación media.
n
1
DM (desviación media) = xi x
n i 1
La desviación media es difícil de manejar matemáticamente por lo que su uso es
muy limitado en estadística
VARIANZA
La varianza es una medida que pretende establecer la cercanía de cada uno de
los datos con respecto a la media.
Para calcular la varianza es necesario determinar la desviación o distancia entre
cada uno de los datos y la media.
Se tiene que si el valor de la desviación es negativo, entonces el dato
correspondiente es menor que el promedio, y si la desviación es positiva,
entonces, el dato correspondiente es mayor que el promedio. La suma de las
desviaciones es cero.
La varianza de un conjunto de datos x1 , x 2 ,......, x n , se nota por S 2 y su formula es
16
17. Fundación Universitaria Católica del Norte
n
2
xi x
S2 i 1
n 1
Donde xi x es la desviación del i ésimo dato
Ejemplo tenemos el conjunto de números siguientes 2, 3, 5, 6
Lo primero que tienes que hallar es la media
xi 2 3 5 6 16
x 4
n 4 4
n
2
xi x
Luego calculamos la varianza S 2 i 1
n 1
Luego calculamos las desviaciones de cada término y la sumamos
2 2 2 2
2 4 3 4 5 4 6 4
22 12 12 2 2
4 1 1 4 10
Luego se reemplaza en la formula recuerda que n 4
10
S2 3.33
3
OTRA FORMULA DE LA VARIANZA (para datos sin agrupar) es:
2
k k
2
n xi xi
2 i 1 i 1
S
nn 1
17
18. Fundación Universitaria Católica del Norte
DESVIACIÓN ESTÁNDAR
La desviación estándar, notada como S , es la raíz cuadrada positiva de la
varianza.
Es la más utilizada y representa la concentración de los datos alrededor de un
valor central
S S2
En el ejemplo anterior S S2 3.33 1.82
La desviación estándar representa un dato que al sumarlo y restarlo, dos veces a
la media, proporciona un intervalo en el cual se concentra el 95% de los datos. Si
el intervalo es grande, los datos están muy alejados entre si y el promedio no
representa bien al grupo. Si el intervalo es pequeño se tendrán la mayoría de los
datos cercanos y la media será un buen representante del grupo.
Ejemplo
Calcular la varianza y la desviación estándar de los siguientes datos que son los
puntajes obtenidos en las pruebas de admisión, por 25 aspirantes a ingresar en
una universidad de la ciudad:
55, 78, 50, 41, 55, 44, 41, 42, 51, 54, 64, 56, 41, 54, 76, 76, 75, 47, 62, 59, 75, 46,
49, 54, 57
n
xi
i 1 55 78 .....57
Solución: primero calculamos la media X 56
n 25
Luego podemos construir la tabla siguiente
Dato Desviación Desviacion 2
2
xi x xi x
55 -1 1
78 22 484
50 -6 36
18
19. Fundación Universitaria Católica del Norte
41 -15 225
55 -1 1
44 -12 144
41 -15 225
42 -14 196
51 -5 25
54 -2 4
64 8 64
56 0 0
41 -15 225
54 -2 4
76 20 400
76 20 400
75 19 361
47 -9 81
62 6 36
59 3 9
75 19 361
46 -10 100
49 -7 49
54 -2 4
57 1 1
1 484 36 .... 4 1
Así, la varianza es S 2 143.16 puntos 2
25 1
La desviación estándar es S S2 143.16 11.96 puntos
Teniendo el valor de S = 11.96 se construye el intervalo de extremos X 2S y
X 2 S así: 56 2 11.96 y 56 2 11.96 ; es decir, 32.08 79.92 dentro de este
intervalo se encuentra el 95% de los puntajes. Como el intervalo es muy grande la
variación entre los puntajes es muy alta es decir, en esta caso la media no es una
medida que representa bien los datos
19
20. Fundación Universitaria Católica del Norte
COEFICIENTE DE VARIACION
Coeficiente de variación es una medida relativa de la variabilidad de un conjunto
de datos y se denota por CV y es el cociente entre la desviación típica y la media
S
aritmética CV 100 (expresada en porcentaje)
X
El CV permite comparar varios conjuntos de datos expresados en diferentes
unidades o en las mismas unidades pero con diferente orden de magnitud
Este coeficiente se emplea cuando se desea comparar dos o más distribuciones
con el fin de determinar cual de ellos tienen mayor o menor dispersión.
MEDIDAS DE DISPERSIÓN PARA DATOS AGRUPADOS
Rango es la diferencia entre el límite superior del último intervalo y el límite inferior
del primer intervalo
n
1
DM (desviación media)= xi x ni
n i 1
Varianza para datos agrupados
1 2
S2 = x i x ni
n 1
OTRA FORMULA DE LA VARIANZA (para datos agrupados)
k k 2
2
n xi ni x i ni
i 1 i 1
S2
nn 1
Ejemplo
Datos agrupados correspondientes a las estaturas de 98 estudiantes
Marca de
Intervalos en clase 2 2
ni x i ni xi x i ni
mts xi
1.47-1.53 1.50 9 13.50 2.25 20.2500
1.53-159 1.56 18 28.08 2.43 43.8048
1.59-1.65 1.62 20 32.40 2.62 52.4880
20
21. Fundación Universitaria Católica del Norte
1.65-1.71 1.68 16 26.88 2.82 45.1584
1.71-1.77 1.74 19 33.06 3.03 57.5244
1.77-1.83 1.80 8 14.40 3.24 25.9200
1.83-1.89 1.86 5 9.30 3.46 17.2980
1.89-1.95 1.92 3 5.76 3.69 11.0592
98 163.38 273.5028
R = 1.95 1.47 = 0.48
xi ni 163.38
x 1.67 mts
n 98
k k 2
2
n xi ni x i ni
2 i 1 i 1
S
nn 1
2
98 273.5028 163.38
S2 0.0116mts
98 97
S S2
2
S 0.0116 0.11
3.3 MEDIDAS DE POSICIÓN
Medidas de posición
Las medidas de posición permiten conocer otros puntos característicos de la
distribución que no son los valores centrales. Entre otros indicadores, se suelen
utilizar una serie de valores que dividen la muestra en tramos iguales: Así como la
mediana divide el conjunto de datos en dos partes iguales, es decir, la mitad de los
valores son inferiores a la mediana y la otra mitad son superiores
Cuartiles: son 3 valores que distribuyen la serie de datos, ordenada de forma
creciente o decreciente, en cuatro tramos iguales, en los que cada uno de ellos
concentra el 25% de los resultados. Se denota por Q
21
22. Fundación Universitaria Católica del Norte
Q1cuartil 1 equivale al 25%, Q2 equivale al 50%, Q3 equivale al 75%,
Deciles: son 9 valores que distribuyen la serie de datos, ordenada de forma
creciente o decreciente, en diez tramos iguales, en los que cada uno de ellos
concentra el 10% de los resultados. se denota por D
D1:decil 1 equivale al 10%, D2 . decil 2 equivale al 20%, .........D9. decil 9
equivale al 90%,
Percentiles: son 99 valores que distribuyen la serie de datos, ordenada de forma
creciente o decreciente, en cien tramos iguales, en los que cada uno de ellos
concentra el 1% de los resultados.
P1:percentil 1 equivale al 1%,...... P10:percentil 10 equivale al 10%,
.........P90:percentil 90 equivale al 90%,
Tanto la mediana, como los cuartiles y los deciles pueden expresarse como
percentiles. Se denota por P
Por ejemplo:
Me = P50; Q3 = P75; D4 = P40
Así que conociendo los percentiles se puede averiguar cualquier valor.
Para el cálculo de los percentiles, el conjunto de datos debe estar ordenado, luego
se aplica la siguiente formula:
Xp p n 1
Donde p: representa el orden del percentil, varía entre 0 y 1. Por ejemplo el
43
percentil 43 es igual a 0.43 de donde p = 0.43,
100
El valor de p debe estar entre 0 y 1
X p : Representa el percentil de orden p ejemplo X 0.43
n : Número de datos (número total de observaciones)
Calcular el percentil 77 de los siguientes datos:
32, 35, 36, 37, 40, 40, 41, 41, 42, 43, 43, 44, 45, 45,
46, 46, 47, 47, 48, 49, 49, 50, 51, 51, 52, 53, 53, 54,
55, 56, 57, 59, 60, 60, 62, 66, 67, 68, 70, 74.
22
23. Fundación Universitaria Católica del Norte
X 0.77 0.77 41 31.57
El percentil 77 (P77) será el valor que este ubicado en la 31. 57 posición del
conjunto de datos.
CALCULO DE MEDIDAS DE POSICIÓN PARA DATOS AGRUPADOS
Se calcula mediante los percentiles
La formula es:
np N a
Xp Li A
ni X p
Donde
X p : Representa el percentil de orden p
p: representa el orden del percentil, varía entre 0 y 1
L1 : limite inferior del intervalo que contiene el percentil
n : Número de datos (número total de observaciones)
N a : Frecuencia absoluta acumulada anterior al intervalo que contienen el percentil
ni Me : Frecuencia absoluta del intervalo que contiene el percentil
A: amplitud del intervalo
Pasos:
Lo primero que debes hacer es hallar el intervalo que contiene el percentil, se
halla de la siguiente manera se calcula ( n p ) y este valor ubica en la
frecuencia absoluta acumulada y en este intervalo es donde se encuentra el
intervalo que contiene el percentil, luego se aplica la formula.
Lo ilustraremos con un ejemplo
23
24. Fundación Universitaria Católica del Norte
Ejemplo: Vamos a calcular el percentil 72 de la serie de datos siguientes
k x ( li l s ) Mc ni Ni
1 29.5-34.5 32 1 1
2 34.5-39.5 37 3 4
3 39.5-44.5 42 8 12
4 44.5-49.5 47 9 21
5 49.5-54.5 52 7 28
6 54.5-59.5 57 4 32
7 59.5-64.5 62 3 35
8 64.5-69.5 67 3 38
9 69.5-74.5 72 2 40
Total
Donde
X p : X 72
p = 0.72
Lo primero que se hace es ubicar el intervalo que contiene el percentil, se calcula
( n p ) = ( 40 0.72 )= 28.8, se ubica en la frecuencia acumulada absoluta, para
este caso 28.8 se encuentra en el sexto intervalo (28.8 no esta en el intervalo
quinto porque en este están hasta el 28 y en el sexto esta hasta el 32)
L1 = 54.5
n = 40
N a =28
ni Me = 4
A =5
Reemplazando en la formula tenemos
24
26. This document was created with Win2PDF available at http://www.daneprairie.com.
The unregistered version of Win2PDF is for evaluation or non-commercial use only.