Este documento describe diferentes métodos para resumir datos cuantitativos, incluyendo tablas estadísticas, gráficas y estadísticos descriptivos. Explica que el resumen de datos consiste en sustituir una tabla de datos con indicadores estadísticos que describen las características más importantes de la distribución. Estos indicadores incluyen medidas de tendencia central como la media, mediana y moda, así como medidas de variación como la desviación estándar y el coeficiente de variación.
¿QUE SON LOS AGENTES FISICOS Y QUE CUIDADOS TENER.pptx
Análisis descriptivo datos cuantitativos
1. ANALISIS DESCRIPTIVO DE DATOS
CUANTITATIVOS
• El análisis de estos datos
pueden hacerse mediante:
• Tablas estadísticas
• Gráficas o diagramas
estadísticos.
• Resumen de datos :Indicadores
estadísticos o estadígrafos
• RESUMEN DE DATOS . En
sí el resumen de datos consiste
en sustituir una tabla o cuadro,
por unos indicadores que
describen las características
más importantes de una
distribución de datos
0
10
20
30
40
50
60
70
80
90
1er trim. 3er trim.
Este
Oeste
Norte
2. RESUMEN DE DATOS
• Estas características y sus medidas son:
• Tendencia Central: (media aritmética, media
geométrica, moda, mediana, cuantiles o
percentiles, etc.)
• Variación o Dispersión: (fluctuación, desviación
media, varianza, desviación estándar, coeficiente
de variación.)
• Asimetría: (coeficiente de asimetría.)
• Apuntamiento: (coeficiente de apuntamiento)
3. • Estas medidas tienden a ubicarse en el
centro del conjunto.
• Proporcionan un valor simple y
representativo, que resume un gran
volumen de información.
• Media Aritmética
• Media Geométrica
• Moda
• Mediana
• Percentiles
Medidas de Tendencia Central
4. EJEMPLO. Una Industria produce varillas de fierro utilizadas en la construcción.
Se toma una muestra aleatoria de 10 varillas y se mide el diámetro. Los datos
obtenidos aparecen abajo.
. Tabla 01
Medición Nº Diametro(mm)
1
2
3
4
5
6
7
8
9
10
8.24
8.23
8.20
8.21
8.20
8.28
8.23
8.26
8.24
8.25
To t a l 82.34
Entonces:
X = (82.34 mm)/(10 varillas) = 8.234 (mm)/varilla
1.1 Cálculo deX , para datos sinagrupar (n<30)
Fórmula:
n
x
=
x i
n
1
5. Media aritmética para datos agrupados
1.2 Cálculo deX , para datos agrupados (n30)
Fórmula:
n
n
x
=
x i
i
m
1
donde:X : media aritmética muestral.
xi: punto medio del intervalo.
ni: frecuencia absoluta simple.
m : número de intervalos.
EJEMPLO. Se ensayaron la resistencia a la compresión de 60 probetas de concreto normal, obteniéndose
los datos que han sido organizados como sigue:
Tab: 02.CONCRETO NORMAL SEGUN SU RESISTENCIA A LA COMPRESIÓN
RESISTENCIA
(Kg/cm²)
PUNTOS MEDIOS
(Xi)
Nº PROBETAS
(ni)
xini
140-150
150-160
160-170
170-180
180-190
190-200
200-210
210-220
145
155
165
175
185
195
205
215
8
5
12
15
9
6
3
2
1160
775
1980
2625
1665
1170
615
430
TOTAL --- 60 10420
A partir de estos datos calcular la resistencia promedio a la compresión/probeta.
/probeta
Kg/cm
173.7
=
probetas
60
Kg/cm
10420
=
n
n
x
=
x i
i
8
1 2
2
6. Uso adecuado de la Media aritmética
El uso de la media aritmética se recomienda en
los siguientes casos:
• Para promediar valores de una variable
cuantitativa cuya distribución es simétrica o
moderadamente asimétrica.
• Cuando se desea una medida de tendencia central
que tenga la mayor estabilidad.
• Cuando se tenga que calcular otras medidas
estadísticas, en cuyo cálculo incluye la media
aritmética, tales como: la varianza, coeficiente de
correlación, coeficiente de variación, etc.
7. MEDIANA (Me)
Es el valor de la variable que divide a la
distribución en 2 partes iguales, tal que deje
por debajo al 50%, y por encima al otro
50% de los datos observados.
50% 50%
__________________________________
Li Me Ls
8. CALCULO DE Me
ParadatosnoAgrupados.
Primeroseordenalosdatosenformaascendente(odescendente).
Consideramos2casos:
1. Númeropardedatos(npar).
Sehamedidoladensidadde6muestrasdesuelo,siendolosresultadoslossiguientes:
1800,1950,2000,2300,2800,2850(gr/cm3
).
Me =[(Xn/2 +X(n+2)/2)/2]=(2000+2300)/2=2150(gr/cm3
)
2. Númeroimpardedatos(nimpar).
Seharegistradolaresistenciaalesfuerzocortantede7probetassiendolosresultados:
320,330,350,357,361,365(KN/m2
).
Me =X(n+1)/2 =350(KN/m2
9. Mediana para datos agrupados
• Me = Li + {[(n/2)- N(i-1)]/ni}Ci .
• Siendo:
• Li : Límite real inferior del intervalo mediano.
• ni : Frec. absoluta simple del intervalo mediano.
• N(i-1) :Frec. acumulada del intervalo anterior al
intervalo mediano
• Ci : Amplitud del intervalo mediano
10. EJEMPLO
Calcular la reinversión promedio anual de utilidades por cada
Constructora. A partir de la siguiente distribución de frecuencias:
Reinversión en miles de $
Nº de Constructora
(ni )
Nº de Constructoras
( N i )
Menos de 8
1. - 16
2. - 24
3. - 32
32 - 40
1. - 56
56 ó más
17
21
9
8
3
1
1
17
38
47
55
58
59
60
T o t a l 60 ////////////////////////////
11. Procedimiento de cálculo
1º. Determinar Ni.
2º. Calcular (n/2) = (60/2)=30.
3º. Clase mediana es la que corresponde al menor
Ni que contiene a (n/2)= 30; en este caso el
intervalo mediano es [8-16>.
4º. Cálculo de los otros términos de la fórmula:
li = 8, N(i-1) = 17, ni = 21, Ci = 8
5º. Luego reemplazando los datos en fórmula:
Me = 8 + [(30-17)/21]8 = $ 12950/Industria
12. Medidas de posición
CENTIL O PERCENTIL (Pj)
Es aquel valor de la variable que deja por debajo de sí el tanto por ciento de los
datos que indica y por encima a su complementario (resto).
CALCULO DE CENTILES O PERCENTILES (DATOS AGRUPADOS).
Fórmula: Pj= Li + {[(jn/100)-N(i-1)]/ni}Ci.
Siendo:
Pj: j-ésimo percentil (deja j% a la izquierda)
Li: Límite inferior del intervalo del j percentil.
N(i-1):Frecuencia absoluta acumulada del intervalo anterior al
del j-percentil.
ni: Frecuencia absoluta simple del intervalo del j-percentil
Ci: Amplitud del intervalo del j-percentil.
CUARTILES. Son cuatro medidas que dividen a la distribución
en 4 partes iguales: Q1, Q2, y Q3. que tienen sus equivalentes
en los percentiles: P25, P50, P75.
13.
14. EJEMPLO.
Calcular Q3 y P40, para la distribución de industrias manufactureras
a) Qj= Li + {[(jn/100)-N(i-1)]/ni}Ci.
Q3 = 16 + [(45- 38)/9]8 = 22.22 = $ 22220
Interpretación. Un 25% de industrias reinvierten
más de $ 22,220 de utilidades por año.
b) P40= Li + {[(40n/100)-N(i-1)]/ni}Ci.
= 8 + [(24-17)/21]8 = 10.67
= $ 10670.
Deciles: Los deciles dividen a la distribución en
10 partes iguales, son 9 medidas D1, D2,...,D9, y
que tienen sus equivalentes en los centiles: P10,
P20, …, P90.
15. MODA (MO).
Definición. Es el valor de la variable que se repite
con más frecuencia. Se puede calcular a partir de
cualquier escala de medida. En el caso de escalas
cualitativas, se habla de categoría modal o
categoría más frecuente.
CALCULO DE LA MODA.
a) Si la escala es nominal u ordinal, la moda es la
categoría de mayor frecuencia. Por ejemplo se
habla de categoría ocupacional más frecuente
b) Si la escala es de intervalo o razón:
consideramos 2 casos:
16. Moda para datos sin agrupar
Datos sin agrupar. (n<30)
Ejemplo. Los siguientes son los números de niños por
familia correspondientes a 15 familias que viven en una
Urbanización de renta baja. Determine el número típico de
niños por familia:
2, 5, 7, 6, 5, 3, 3, 4, 4, 8, 4, 2, 6, 4, 7.
Mo = 4 niños / familia.
Nota. Frecuentemente al registrar una serie de valores de
una variable contínua, los datos no se repiten, por el nivel
de precisión de los instrumentos utilizados. En tales casos
para datos sin agrupar es difícil identificar el valor de la
moda, y es conveniente agruparlo, especialmente cuando
se trata de una muestra de tamaño consistente
17. Moda para datos agrupados
Fórmula:
Mo = Li + [Δ1/(Δ1 + Δ2)]Ci.
Siendo
Li:Límite inf. del interv. más
frecuente.
Δ1: ni - n(i-1).
Δ2: ni - n(i+1).
ni: Frec. interv. Modal.
n(i-1): Frec. interv. premodal.
n(i+1): Frec. interv. posmodal.
Ci : Amplitud del intervalo modal.
Ejemplo.Calcular e interpretar el valor
de la moda para la reinversión de
utilidades de las industrias
manufactureras.
Solución.
1. Intervalo de la clase modal (8-16);
Li=8.
2. ni = 21; n(i-1) = 17, n(i+1) = 9.
Δ1 = 21-17 = 4, Δ2 = 21 - 9 = 12,
Ci = 8.
Mo = 8 + [4/(4+12)]8 = $ 10,000/
Ind.
Interpretación. La reinversión
promedio (más típica) anual de
utilidades por industria es aprox. $
10,000.
18. . LA MEDIA GEOMÉTRICA (G).
• La media geométrica puede definirse como la n-ésima
raíz del producto de los n valores observados de la
variable X. La media geométrica de la variable X se
expresa de la siguiente manera:
donde:
G : media geométrica muestral.
xi: valores observados.
n : número de valores observados.
x
.....
x
x
=
G n
2
1
n )
n
x
(
antilog
=
G i
n
1 log
19. Ejemplo. La población de una ciudad durante el
período comprendido entre los años 1999- 2005, ha
evolucionado de la manera siguiente:
Ejemplo. La población de una ciudad durante el período comprendido entre los años 1992-1998, ha evolucionado de la
manera siguiente:
PERÍODO POBLACIÓN
(miles de hab.)
INCREMENTOS
RELATIVOS (xi)%
1999
2000
2001
2002
2003
2004
2005
28.4
29.2
30.1
30.8
31.9
32.8
33.6
----
2.82
3.08
2.32
3.57
2.82
2.44
a. Calcular la tasa de incremento promedio anual de la población.
b. Usando la tasa estimada, proyectar la población para 2007, valiéndose de la fórmula: Pn=Po(1+r)k
20. Solución
a. Aplicando la fórmula conocida, obtenemos:
2.44
*
2.82
*
3.57
*
2.32
*
3.08
*
2.82
=
G 6
G=2.81%
Esta tasa puede ser hallada también teniendo en cuenta la siguiente fórmula:
1
-
P
P
=
G
O
6
G=0.02842 = 2.84% anual.
b. Para proyectar la población hacemos uso de la siguiente fórmula:
Pn=Po(1+r)n
donde: Pn= Población proyectada.
Po= Población base
n = nº de años (Período proyección)
r = Tasa de crecimiento anual.
P2007 = P2005(1+0.0284)² = 33600*1.02842
= 35536 habitantes
21. RELACIONES ENTRE LOS PROMEDIOS:
x, Me, Mo y G.
1º. En una distribución de datos simétrica se cumple:
Media aritmética = Mediana = Moda
2º. En una distribución de datos moderadamente
asimétrica, las relaciones entre la media
aritmética, la mediana y moda es:
Moda = Media- 3(media - mediana).
3º. En una distribución de datos, entre la media
aritmética y la media geométrica se da la siguiente
relación: Gx, la igualdad se cumple para series
constantes
X
X
23. MEDIDAS DE VARIACIÓN O
DISPERSION.
a. Medidas de Variación Absoluta. Cuando vienen
expresadas en las mismas unidades de los datos originales
de la variable:
• La fluctuación o rango.
• La desviación media.
• La varianza.
• La desviación estándar.
b. Medidas de Variación Relativa. Estas medidas son
abstractas, carecen de unidades, generalmente se expresan
en porcentaje (%).
• Coeficiente de Variación.
• Coeficiente de apertura
• Recorrido Relativo
24. LA FLUCTUACIÓN O RANGO (R).
• El Rango de variación o Fluctuación, R, de una serie
de datos, es la medida más sencilla de variación, es la
diferencia entre el máximo y el mínimo valor
observado de la serie (X), es decir:
R = xmax - xmin.
R = valor máximo - valor mínimo.
El rango es una medida de dispersión muy fácilmente
calculable, pero es muy inestable, ya que depende
únicamente de los dos valores extremos. Su valor
puede cambiar si se añade o elimina un sólo dato. Por
ser una medida sujeta a grandes fluctuaciones, su uso
es muy limitado
25. RANGO INTERCUARTIL: RI = Q3 - Q1
50%
Li I I I I I Ls
Q1 Q2 = Me Q3
RI = Q3 – Q1
Si el rango intercuartil es pequeño entonces describe una alta
uniformidad o pequeña variación de los valores centrales
• Ejemplo. Si n = 100 100 ingresos mensuales
• se encuentra Q1 = S/.250, y Q3 = S/. 400, Entonces:
RI = 400 - 250 = 150.
Significa que el 50% de los ingresos mensuales de los 100
empleados tiene una variación de S/. 150.
26. VARIANZA: σ2; σn²; σn-1²
La varianza de una variable X, cuyos valores son: x1,x2,x3,...,xn, se define como la media aritmética de los cuadrados de las
desviacionesdelasobservacionesconrespectoasumediaydenotadaporσn².Esdecir:
n
)
x
-
x
( i
2
n
1
=
2
n
.............................................(n30)
1
-
n
n
)
x
(
-
x
=
1
-
n
)
x
-
x
(
=
i
i
2
i
1
-
n
2
2
2
..................... (n<30)
donde:
σn²:varianzamuestral
xi :i-ésimovalordex
x :mediaaritméticamuestral
n :tamañomuestral
27. Datos Agrupados:
hi : Frec. relativa Clase i
Xi : Marca Clase i
X : Media Aritmética
ni : Frec. absoluta Clase i
n : Tamaño Muestra
m : N° de clases
_
=
m
i
- X
X i
i
h
1
2
)
(
S2 =
_
ae
ne
xi
xi-1 xm
_
x
ni
nm
Datos NO Agrupados:
Cálculo: Varianza Muestral
=
n
i
- X
X i
1
2
)
(
S2 =
_
s2 : Variancia Muestral
X : Media Aritmética
Xi : i-ésimo valor observado
n : Tamaño Muestra
El denominador debe ser:
n-1 : cuando (n<30)
1
n
28. EJEMPLO. Los contenidos de cobre de en 6 muestras
analizadas de un mismo material han reportado los datos
registrados en la tabla. Calcular la varianza y la Desviación
estándar
Además: X = 23 % /muestra
Tab: 07
Contenido en Cobre
Xi (%)
xi²
20
22
26
19
27
24
400
484
676
361
729
576
138 3226
%
6
)
138
(
2
3.22
=
5
-
3226
=
1
-
n
29. Desviación estándar para n≥ 30
A. Datos sin agrupar
2
2
2
)
n
x
(
-
n
x
=
n
)
x
-
x
(
= i
i
i
n
1
n
donde:
σ : desviación estándar
xi : valor observado de x
X : media aritmética
n : tamaño de la muestra
B. Datos agrupados
2
2
2
)
n
n
x
(
-
n
n
x
=
n
n
)
x
-
x
(
= i
i
i
i
i
i
m
1
n
donde:
σ : desviación estándar
xi : Puntos medios
X : media aritmética
n : tamaño de la muestra
ni : Frecuenciasabsolutassimples
30. EJEMPLO. Para los datos correspondientes a la Emisión
diaria (en Toneladas) de óxido de azufre de una planta
industrial, calcular la varianza y la desviación estándar
Öxido de azufre
[Toneladas>
xi no
de días Xi*ni
Xi
2
* ni
5- 9 7 3 21 147
9 – 13 11 10 110 1210
13 –17 15 14 210 3150
17 – 21 19 25 475 9025
21 – 25 23 17 391 8993
25 – 29 27 9 243 6561
29 – 33 31 2 62 1922
TOTAL 80 1512 31008
Usando lasfórmulasparadatosagrupados, setiene:
2
=30.39Toneladas2
= 5.51Toneladas.
Öxido de azufre
[Toneladas>
xi no
de días Xi*ni
Xi
2
* ni
5- 9 7 3 21 147
9 – 13 11 10 110 1210
13 –17 15 14 210 3150
17 – 21 19 25 475 9025
21 – 25 23 17 391 8993
25 – 29 27 9 243 6561
29 – 33 31 2 62 1922
TOTAL 80 1512 31008
Usando lasfórmulasparadatosagrupados, setiene:
2
=30.39Toneladas2
= 5.51Toneladas.
31. USO DE LA DESVIACIÓN ESTÁNDAR
1. Se usa para juzgar la representatividad de la media, mientras menor es la desviación estándar de una distribución de
datos, más representativa es la media con respecto a su serie.
1. Se usa para comparar la variabilidad de dos o más series, o distribuciones con la misma media o con media
aproximadamente iguales.
3. La desviación estándar y la media se usan conjuntamente para estratificar el rango de una variable y determinar áreas
bajo una curva normal.
68.27%
95.45%
µ-3σ µ-2σ µ-σ µ µ+σ µ+ 2σ µ+3σ
- El 68.27% de unidades experimentales se encuentran en la fluctuación: x±σ, (x:media)
- El 95.45% de unidades experimentales se encuentran en la fluctuación: x±2σ, (x:media)
- El 99.73% de unidades experimentales se encuentran en la fluctuación: x±3σ, (x:media).
CONCLUSIÓN. Consideramos que la variable X bajo estudio admite un rango práctico entre <x-3σ;x+3σ>, cuando X
sigue una distribución aproximadamente normal.
32. COEFICIENTE DE VARIACIÓN: CV
Es la medida de variación relativa más importante y más usada (ideada por Karl Pearson) se define como la razón de la
D.E. con respecto a la media aritmética, es decir:
media
:
X
100
*
X
=
CV
X
=
CV ;
;
USO DEL COEFICIENTE DE VARIACIÓN
1. Esta medida se usa para comparar el grado de variabilidad de dos o más distribuciones de datos, siendo divergentes sus
medidas de tendencia central, y sus dispersiones absolutas.
2. Por sus características se usa para comparar la variabilidad de dos series que vienen expresadas en diferentes unidades
de medida. Puesto que es una medida adimensional, resultante de dividir la desv. Estándar entre la media
INTERPRETACIÓN. Se usa para juzgar la representatividad de la media aritmética, respecto de su serie, es decir, si:
- 0%<CV<5%, Entonces la media es altamente representativa de su serie.
- 5%<CV<10%, Entonces la media es representativa de su serie.
- 10%<CV<15%, Entonces la media es moderadamente representativa de su serie.
- 15%<CV<30%, Entonces la media tiene un bajo grado de representatividad.
- CV>30%, La media no tiene ningún grado de representatividad y es sólo. referencial
33. Coeficiente de Simetría de Fisher 1 = Sesgo.
3
S
m3
0 2,5 5 7,5 10 12,5 15 17,5 20
0,01
0,02
0,03
0,04
0,05
0,06
0,07
0,08
0,09
1 < 0
Distribución, tiende a
concentrarse en Valores Altos
de la Variable
Mo > MA > Me
0
0,00
0,05
0,10
0,15
0,20
0,25
0,30
0,35
0,40
0,45
-4 -3 -2 -1 0 1 2 3 4
1 = 0
Distribución, es simétrica respecto
a la Media
Mo = MA = Me
1 > 0
Distribución, tiende
a concentrarse en
Valores Bajos de la
Variable
Mo < MA < Me
Características de forma: Simetría
0,01
0,02
0,03
0,04
0,05
0,06
0,07
0,08
0,09
0 2,5 5 7,5 10 12,5 15 17,5 20
34. Medidas de Asimetría: As=γ1
C
Co
oe
ef
fiic
ciie
en
nt
te
e d
de
e A
As
siim
me
et
tr
ríía
a e
en
n b
ba
as
se
e a
a M
Mo
om
me
en
nt
to
os
s..
s
n
n
)
x
-
x
(
=
A 3
i
3
i
m
1
S
P
Pr
riim
me
er
ro
o y
y s
se
eg
gu
un
nd
do
o ¢
¢o
oe
ef
fiic
ciie
en
nt
te
e d
de
e a
as
siim
me
et
tr
ríía
a d
de
e P
PE
EA
AR
RS
SO
ON
N
A. As =(X-Mo)/σ;Denominadoprimercoefic.deParson.
B. As =3[X-Me ]/σ;Denominadosegundocoefic.dePearson.
Cualquierasealafórmulausada,ladecisiónsobrelaformadeladistribuciónserálamisma.
Decisión: As=0,entoncesladistribuciónessimétrica.
As<0,entoncesladistribuciónesasimétrica(-)
As>0,entoncesladistribuciónesasimétrica(+)
36. Medidas de curtosis: K = γ2
C
CU
UR
RT
TO
OS
SI
IS
S E
EN
N F
FU
UN
NC
CI
IO
ON
N D
DE
E M
MO
OM
ME
EN
NT
TO
OS
S:
media
:
x
;
M
M
=
s
n
n
)
x
-
x
(
=
K 2
2
4
4
i
4
i
m
1
3
3 -
-
Decisión:
K=0, Entonces la distribución posee una curva mesocúrtica (Normal).
K<0, Entonces la distribución posee una curva platicúrtica.
K>0, Entonces la distribución posee una curva leptocúrtica.
CURTOSIS EN FUNCION DE CUARTILES Y PERCENTILES.
K = (Q3 - Q1)/2(P90 - P10)
Decisión:
Si: K=0.263, la distribución es mesocúrtica.
K<0.263, la distribución es platicúrtica.
K>0.263, la distribución es leptocúrtica.
37. Ejemplo. Determinar si la emisión diaria de oxido de azufre
de una planta industrial se asemeja a una distribución normal
05-sep 7 3 -5055,4770 60160,1763
9 – 13 11 10 -4930,3900 38950,0810
13 –17 15 14 -830,4660 3238,8174
17 – 21 19 25 0,0250 0,0025
21 – 25 23 17 1171,6570 4803,7937
25 – 29 27 9 4782,9690 38742,0489
29 – 33 31 2 3543,1220 42871,7762
TOTAL 80 -1318,5600 10207918,7280
media = 0018,90
Desv. Estan 0005,51
C.Asimet -0000,10 Simétrica
C.Curtosi 135,43 Leptocúrtica
Conclusión: La distribución de datos es simétrica, pero es leptocúrtica,
en consecuencia, no se asemeja a una distrib. Normal.
(Xi - 18,9)^3*ni (Xi - 18,9)^4*ni
Öxido de
azufre
xi no
de días
38. Representación visual para describir, simultáneamente, varias
características importantes tales como
• Centro
• Dispersión
• Desviación de la asimetría
• Identificación de las observaciones (valores atípicos)
Q1 Q2 Q3
1.5 RI
1.5 RI
Mediana
Valores
Atípicos
Valores
Atípicos
Gráficos de Cajas
40. Ejercicio:
La siguiente figura representa un gráfico de cajas correspondiente a 58 notas de los alumnos de un curso de
matemáticas.
2 8 9 12 18
* *
0 20
Se observa que el centro de los datos es 9 (la mediana). El percentil 25 es 8, el percentil 75 es 12. E
rengo intercuartil es 4 ( el 50% de las notas están entre 9 y 14). Las notas 19 y 20 son datos atípicos
discordantesoOutliers.