ESTADISTICA APLICADA A LA SST.pptx

Estadística Aplicada a la
Seguridad y Salud en el
Trabajo
Ing. Anibal Paredes Mendoza

Definición
La estadística es una rama de las
matemáticas, a la cual le
corresponde la colección, análisis,
interpretación, presentación y
organización de datos (conjunto de
valores de variable cualitativa o
cuantitativa). Esta disciplina busca
explicar las relaciones y
dependencias de un fenómeno
(físico o natural).

Historia de la Estadística
 Egipto (3050 a.c): Datos sobre la población y riqueza del país.
Ramsés II realizó un censo de tierras con el objeto de verificar una
nueva repartición.
 Israel: La Biblia da referencias en el libro de los Números de datos
estadísticos obtenidos en dos recuentos de la población hebrea. Por
otra parte el rey David ordeno realizar un censo de Israel para
conocer el número de la población.
 China: Efectuaron censos hace más de 40 siglos.

Griegos: Censos con fines tributarios, sociales y militares. La
investigación histórica revela que realizaron 69 censos para
calcular los impuestos, derecho al voto y ponderar la potencia
guerrera.
Roma: fueron los que mejor emplearon los recursos de la
estadística. Realizaban censos cada 5 años y los funcionarios
públicos tenían la obligación de llevar un registro de nacimientos,
matrimonios y defunciones, además un recuento periódico de
ganado y de las riquezas contenidas en las tierras conquistadas.

Edad Media: se realizaron muy pocas operaciones estadísticas con
la excepción de las relaciones de tierras pertenecientes a la iglesia
compiladas por Pipino el Breve en el 758 y por Carlomagno en el
762 d.c.
En Inglaterra, Guillermo el Conquistador recopilo el Domesday
Book ó libro del Gran Catastro para el año 1086, un documento de
la propiedad, extensión y valor de las tierras de Inglaterra. Esta
obra fue el primer compendio estadístico de Inglaterra.

Durante los siglos XV,XVI,XVII, hombres como Da Vinci,
Copernico, Galileo, Neper, Harvey, Sir Francis Bacon y Descartes,
hicieron grandes operaciones al método científico, de forma tal que
cuando se crearon los Estados Nacionales y surgió el comercio
internacional ya existía un método capaz de aplicarse a los datos
económicos.
Para el año 1532 empezaron a registrarse en Inglaterra las
defunciones debido a la Peste publicando estadísticas semanales de
los decesos, esta costumbre continuo por muchos años, y en 1632
estos Bills of mortality (cuentas de mortalidad) contenían
nacimientos y fallecimientos por sexo.

En 1662, John Graunt usó documentos que abarcaban treinta años
y efectuó predicciones sobre el número de personas que morirían
de varias enfermedades y sobre las proporciones de nacimientos de
varones y mujeres en su obra Natural and Political Observations.
Made upon the Bill of Mortality. Este fue uno de los primeros
esfuerzos innovadores en el análisis estadístico.
Durante el siglo XVII el alemán Sebastián Muster aportó
indicaciones más concretas de métodos de observación y análisis
cuantitativo y amplio los campos de la inferencia y la teoría
estadística.

Los Eruditos del siglo XVII demostraron especial interés por la
estadística demográfica como resultado de la especulación sobre si la
población aumentaba, decrecía o permanecía igual.
En tiempos modernos los métodos estadísticos fueron utilizados por
algunos reyes que necesitaban conocer las riquezas monetarias y el
potencia humano de sus respectivos reinos.
El primer empleo de datos estadísticos sin fines políticos estuvo a cargo de
Gaspar Neumann el cual demostró que en los años terminados en siete no
fallecían más personas que en los demás. Los procedimientos de Neumann
fueron conocidos por Halley quien los aplico al estudio de la vida humana.
Sus cálculos sirvieron para base para las tablas de mortalidad que hoy
utilizan todas las compañías de seguros.

Durante el siglo XVII y principios de XVIII, matemáticos como
Bernoulli, Francis Maseres, Lagrange y Laplace desarrollaron la
teoría de probabilidades.
Godofredo Achenwall, acuño en 1760 la palabra estadística, que
extrajo del termino italiano statista (estadista). La raíz remota se
halla, por otra parte, en el termino latino status, que significa estado
o situación.
Jacques Quételect es quien aplica las estadísticas a las ciencias
sociales. Este interpretó la teoría de la probabilidad para el uso en las
ciencias sociales y resolver la aplicación del principio de promedios
y de variabilidad a los fenómenos sociales.

En el periodo de 1800 a 1820 se desarrollaron dos conceptos
matemáticos fundamentales para la teoría de la estadística; la
teoría de errores de observación, aportada por Laplace y Gauss;
y la teoría de los mínimos cuadrados desarrollada por Laplace,
Gauss y Legendre.
A finales del siglo XIX, Sir Francis Gaston ideó el método
conocido como correlación, que tenia por objeto medir la
influencia relativa de los factores sobre las variables. De aquí
partió el desarrollo del coeficiente de correlación creado por
Karl Pearson y otros investigadores de la ciencia biométrica
como J. Pease Norton, R. H Hooker y G. Udny Yule que
efectuaron amplio estudios sobre la medida de las relaciones.

Los progresos más recientes en el campo de la
estadística se refieren al desarrollo del cálculos de
probabilidades, particularmente en la rama
denominada indeterminismo o relatividad

¿Importancia de la estadística?
 La Ciencia se ocupa en general de fenómenos observables.
 La Ciencia se desarrolla observando hechos, formulando leyes que
los explican y realizando experimentos para validar o rechazar dichas
leyes.
 Los modelos que crea la ciencia son de tipo determinista o aleatorio.
 La Estadística se utiliza como tecnología al servicio de las ciencias donde la
variabilidad y la incertidumbre forman parte de su naturaleza.
 Es la Ciencia que se ocupa del recuento de hechos sociales, cientificos o
de cualquier clase y de la comparacion de las cifras obtenidas.

Características de la estadística
 Su estudio, uso y aplicación es fundamental para la toma de
decisiones de diferentes ámbitos.
 Da lugar a un proceso que estudia problemas sociales,
científicos e industriales.
 Es un sistema que puede tomar un tiempo hasta generar
resultados verídicos y con soluciones pautadas.
 Proporciona un resultado estimado, ya sea numérico o social, a
la vez que ofrece conclusiones que conducen a una solución.

Ramas de la estadística
• Sistematización, recogida, ordenación y
presentación de los datos referentes a un fenómeno
que presenta variabilidad o incertidumbre para su
estudio metódico, con objeto de
• deducir las leyes que rigen esos fenómenos,
• y poder de esa forma hacer previsiones sobre los
mismos, tomar
decisiones u obtener conclusiones.

Población y muestra
 Población es el conjunto sobre el que estamos
interesados en obtener conclusiones (hacer inferencia).
 Normalmente es demasiado grande para poder
abarcarlo.
 Muestra es un subconjunto de la poblacion al que
tenemos acceso y sobre el que realmente hacemos las
observaciones (mediciones)
 Debe ser “representativo”
 Esta formado por miembros “seleccionados” de la
población (individuos, unidades experimentales).

Dato estadístico
 Dato son valores que se obtienen al llevar a cabo un estudio de tipo
estadístico producto de una observación de un fenómeno que se pretende
analizar.
Ejemplo:
Las notas de un alumno son 4.5, 5.2,
6.4, 5.8 y 6.7.
Podemos expresar estos 5 datos como:
X1 = 4.5; X2 = 5.2; X3 = 6.4; X4 = 5.8
X5 = 6.7

Variable estadística
 Variable es una
característica o cualidad de
un individuo que está
propensa a adquirir
diferentes valores. Estos
valores, a su vez, se
caracterizan por poder
medirse.
Por ejemplo, el color de pelo, las notas de un examen, el sexo o la estatura de
una persona, son variables estadísticas.

Organización de datos
 Datos cualitativos no pueden ser determinados en cantidades de forma
directa, marcando estos datos clasificaciones más amplias. Ejemplo: el sexo
de un individuo, la salud, el status entre otros.
 Datos cuantitativos representados por valores numéricos, lo que permite una
mayor distinción de rangos. Ejemplo: la edad, peso de cierta muestra, etc.
 Datos cronológicos son aquellos que se manifiestan acorde a un lapso de
tiempo en el que acaecen los hechos objeto de estudio.
 Datos geográficos se agrupan conforma a una zona geográfica determinada.
Clasificación de datos estadístico

Variables
 Una variable es una característica observable que varía entre los
diferentes individuos de una población. La información que
disponemos de cada individuo es resumida en variables.
 En los individuos de la población peruana, de uno a otro
es variable:
El grupo sanguíneo {A, B, AB, O}  Var. Cualitativa
Su nivel de felicidad “declarado”
{Deprimido, Ni fu ni fa, Muy Feliz}  Var. Ordinal
El número de hijos {0,1,2,3,...}  Var. Numérica discreta
La altura {1’62 ; 1’74; ...}  Var. Numérica continua

 Cualitativas
Si sus valores (modalidades) no se pueden asociar
naturalmente a un número (no se pueden hacer
operaciones algebraicas con ellos)
 Nominales: Si sus valores no se pueden ordenar
 Sexo, Grupo Sanguíneo, Religión, Nacionalidad, Fumar (Sí/No)
 Ordinales: Si sus valores se pueden ordenar
 Mejoría a un tratamiento, Grado de satisfacción, Intensidad del dolor
Tipos de variables

Tipos de Variables
 Cuantitativas o Numéricas
Si sus valores son numéricos (tiene sentido hacer operaciones
algebraicas con ellos).
 Discretas: Si toma valores enteros
 Número de hijos, Número de cigarrillos, Número
de cumpleaños.
 Continuas: Si entre dos valores, son posibles infinitos valores
intermedios.
 Altura, Presión intraocular, Dosis de medicamento
administrado, edad.

Tabla de distribución de frecuencias
Rango
Es un valor numérico que sirve para manifestar la diferencia entre el valor
máximo y valor mínimo de una muestra poblacional.
R = Máx – Min
Por ejemplo, imaginemos que se mide la estatura de 25 alumnos varones de una
clase de universidad. El estudiante con mayor estatura mide 1.93 metros, mientras
que el alumno con una estatura menor mide 1.67 metros; es decir, el rango es:
R = 1.93 – 1.67 = 0.26 metros
Esto quiere decir que la variación máxima de estatura entre el alumno más bajo y
el alumno más alto es de 26 centímetros.

Regla de Sturges
Es un criterio muy utilizado para determinar el número de clases o intervalos que son necesarios para
representar gráficamente un conjunto de datos estadístico.
𝐾 = 1 + 3.322(𝐿𝑜𝑔𝑁)
Donde:
K = Número de clases
N = Número total de observaciones de la muestra
Por ejemplo, para elaborar un histograma de frecuencia que exprese una muestra aleatoria de la estatura de
142 niños, el número de intervalos o clases que tendrá la distribución es:
K = 1 + 3.322 ( Log142)
K = 8.14  8
Así, la distribución será de 8 intervalos representado por números enteros. En caso de que sea decimal,
redondear al número entero más próximo.

Marca de clase
También conocida como punto medio, es el valor que se encuentra en el centro de una
clase, el cual representa a todos los valores que están en dicha categoría. Se representa
por Xi.
Fundamentalmente, la marca de clase es usada para el cálculo de ciertos parámetros,
como la media aritmética o la desviación estándar.
Por ejemplo, tenemos agrupados en intervalo los pagos semanales en soles a
trabajadores de construcción civil: 205; 245; 245, 285 y así sucesivamente.
𝑋𝑖 =
(245+205)
2
= 225 𝑋𝑖 =
(285+245)
2
= 265

Frecuencia absoluta
La frecuencia absoluta (ni) de un valor xi es el número de veces que el valor está en el conjunto de
datos (X1, X2, … , Xn).
La suma de las frecuencias absolutas de todos los elementos del conjunto debe ser igual al número
total de datos n.
Ejemplo: Un profesor tiene la lista de notas en matemática de 30 alumnos de su clase. Las notas
son las siguientes:
NOTAS EN MATEMATICA DE 30 ALUMNOS
6 10 5 5 4 4 6 6 5 4
6 7 7 5 6 3 6 7 9 5
6 5 7 3 8 8 4 7 8 9

Frecuencia absoluta
Si se realiza el recuento de la variable
que se estudia (notas) para ver el
número de veces que aparece cada
nota se resume en el siguiente cuadro:
Xi Frecuencia
absoluta ni
3 2
4 4
5 6
6 7
7 5
8 3
9 2
10 1
TOTAL 30

Frecuencia relativa
La frecuencia relativa (fi) de un valor Xi es la proporción de valores iguales a Xi en el conjunto de datos
(X1, X2, X3, … , Xn). Es decir, la frecuencia relativa es la frecuencia absoluta dividida por el número total
de elementos n.
Las frecuencias relativas son valore entre 0 y 1, 0  fi  1. La suma de las frecuencias relativas de todos los
datos da 1.
Basándonos en el cuadro anterior:
Para la primera fila: 𝑓1 =
2
30
=0.066
Para la segunda fila: 𝑓2 =
4
30
= 0.133
Para la última fila: 𝑓8 =
1
30
= 0.033
Si sumamos: 𝑓1 + 𝑓2 + 𝑓3 + 𝑓4 + 𝑓5 + 𝑓6 + 𝑓7 + 𝑓8 = 1.000

Frecuencia absoluta acumulada
La frecuencia absoluta acumulada (Ni) de un valor Xi, es la suma de las frecuencias
absolutas de los valores menores o iguales a Xi.
Frecuencia relativa acumulada
La frecuencia relativa acumulada (Fi) de un valor Xi, como la proporción de valores
iguales o menores a Xi. Es decir, la frecuencia absoluta acumulada dividida por el
numero total de datos N.

Elaboración de tablas de frecuencias
Elaboración de una tabla de frecuencia con datos no agrupados
Ejemplo: Los resultados sobre el número de dormitorios por vivienda fueron los
siguientes:
1 1 3 4 1 3 3 4 1 2
2 2 2 2 1 1 4 4 4 3
Colocamos los valores de los datos, pero sin repetir, ordenados de menor a mayor.
Ahora vamos a obtener la frecuencia absoluta de cada uno de los valores:
- El 1 se repite 6 veces.

Elaboración de una tabla de frecuencia con datos no agrupados
La frecuencia absoluta acumulada de 4 coincide con el número total de datos.
La tabla quedaría de la siguiente manera:
Dato
xi
Frecuenci
a absoluta
fi
Frecuencia
absoluta
acumulada Fi
Frecuencia
relativa ni
Frecuencia relativa
acumulada Ni
1 6 6 0.30 0.30
2 5 11 0.25 0.55
3 4 15 0.20 0.75
4 5 20 0.25 1.00
Total 20 1.00

Elaboración de una tabla de frecuencia con datos agrupados
Se toma una muestra de peces de una cierta especie y se miden sus longitudes en
centímetros, cuyos resultados son:
5.42 6.22 8.42 7.54 6.44 6.76 5.90 7.43
6.18 7.16 6.80 7.32 8.12 6.84 7.12 6.87
8.21 8.13 7.25 7.34 5.56 8.32 7.45 7.10
Como primer paso se calcula el rango R, para ello se identifica el valor máximo 8.42 y
el valor mínimo 5.42, por tanto:
R = 8.42 – 5.42 = 3

El siguiente paso es calcular la cantidad de intervalos de clase, para ello usamos el
método de Sturges:
𝑘 = 1 + 3.322 𝐿𝑜𝑔24 = 5.58 ≈ 6 intervalos
El ancho de clase se calcula de la siguiente manera:
𝑐 =
𝑅
𝐾
=
3
6
= 0.5
Para calcular la frecuencia absoluta se contabiliza todos los datos comprendidos en
cada intervalo de clase.

La tabla resultante se muestra en el siguiente cuadro:
Intervalo de
clase
Frecuencia
absoluta fi
Frecuencia
absoluta
acumulada Fi
Frecuencia
relativa ni
Frecuencia
relativa Ni
[5.42 – 5.92) 3 3 0.125 0.125
[5.92 – 6.42) 2 5 0.083 0.208
[6.42 – 6.92) 5 10 0.208 0.416
[6.92 – 7.42) 6 16 0.250 0.666
[7.42 – 7.92) 3 19 0.125 0.791
[7.92 – 8.42] 5 24 0.208 1.000
Total 24 1.000

Ejercicio 1:
Se tiene las edades de 30 alumnos escogidos para un concurso de matemática
organizado en el colegio Innova. A partir de los datos construir una tabla de
frecuencias.
EDADES DE 30 ALUMNOS SALON KINDER
4 5 6 6 4 4 5 5 10 6
5 9 7 6 3 6 5 7 7 6
9 8 7 4 8 8 3 7 5 6

Ejercicio 2:
Construir una tabla de frecuencias a partir de los datos de lluvia caída en un día en 60
ciudades de una región, medida en 𝑙/𝑚2
, han sido según la tabla siguiente:
LLUVIA EN 60 LOCALIDADES
23.2 17.6 15.7 16.2 19.9 3.4
4.2 16.6 8.8 23.6 4.5 9.5
23.8 17.0 13.2 5.8 12.2 26.4
24.0 10.1 14.7 21.2 17.7 7.7
2.8 18.2 18.0 23.0 19.0 15.0
15.2 18.3 26.2 5.1 14.8 11.7
3.4 22.1 17.2 23.4 19.8 19.4
22.4 20.6 2.2 9.8 21.8 3.9
22.8 20.9 25.7 18.9 20.2 7.2
25.5 16.0 21.0 11.2 25.4 22.4

Gráficos estadísticos
Definición
 En estadística denominamos gráficos a aquellas imágenes que, combinando la
utilización de sombreado, colores, puntos, líneas, símbolos, números, texto y un
sistema de referencia (coordenadas), permiten presentar información cuantitativa.
 No sólo sirve como sustituto a las tablas, sino también constituyen por si mismos
una poderosa herramienta para describir, resumir y analizar los datos.
 Los gráficos son medios más convenientes para la representación visual de la
totalidad de la información, de tal modo que se pueda percibir fácilmente los
hechos esenciales y compararlos con otros.

Tipos de gráficos estadísticos
a) Gráfico de barras.- Es una representación gráfica en un eje cartesiano de las frecuencias de una
variable cualitativa o discreta.
Cereales Miles de toneladas
Cebada 11.945
Trigo 6.436
Avena 4.310
Centeno 261
Trigo
Producción agrícola en Argentina 2019
Producción de cereales en Argentina 2019
Millones de toneladas
Cebada Avena Centeno
Fuente: Ministerio de Agricultura,
Alimentación y Medio Ambiente
En uno de los ejes se posicionan las distintas categorías o modalidades de la variable cualitativa
o discreta (en el ejemplo, el tipo de cereal) y en el otro el valor o frecuencia de cada categoría
en una determinada escala (en el ejemplo, la producción en millones de toneladas de granos).

La orientación del gráfico puede ser:
 Vertical: las distintas categorías están situadas en el eje horizontal y las barras de frecuencia crecen verticalmente.
 Horizontal: las categorías se sitúan en el eje vertical y las barras crecen horizontalmente. Suelen usarse cuando hay muchas
categorías o sus nombres son demasiados largos.
Las categorías pueden ordenarse alfabéticamente facilitando su búsqueda o por sus frecuencias facilitando la comparación de los
datos. Veamos el siguiente ejemplo del porcentaje de habitantes usuarios de internet del 2007 por países (Fuente: Unión Internacional de
Telecomunicaciones).
Orientación vertical y orden por frecuencias
Orientación horizontal y por orden alfabético
Países
bajos
Alemania España
Alemania
España
Francia
Grecia
Países bajos
Portugal
Rumanía
Francia Portugal Grecia Rumanía

Se suelen usar para:
 Comparar magnitudes de varias categorías.
 Ver la evolución en el tiempo de una
magnitud concreta.
Producción de cereales. 2008
Producción de cereales en España
España Francia Italia Portugal
Fuente: Organización de las Naciones Unidas para la
Agricultura y la Alimentación (FAO)

Tipos de gráficas de barras:
 Sencillo, contiene una única serie de datos .
 Agrupado, contienes varias series de datos y cada
una se representa por un tipo de barra de un mismo
color o textura.
 Apilado, contiene varias series de datos. La barra
se divide en segmentos de diferentes colores o
texturas y cada uno de ellos representa una serie.
Artes Ciencias de la
Naturaleza y de la
Salud
Humanidades
y Ciencias
Sociales
Tecnología
Alumnado que terminó Bachillerato por su opción académica
Miles de alumnos Centros Públicos Centros Privados
Fuente: Ministerio de Educación. Curso 2006/07
Naturaleza y de la
Salud
Humanidades
y Ciencias
Sociales
Tecnología
Naturaleza y de la
Salud
Humanidades
y Ciencias
Sociales
Tecnología

Histograma.- Se usa para representar las frecuencias de una variable cuantitativa continua. En uno
de los ejes se posicionan las clases de la variable continua (los intervalos o las marcas de clase que son
los puntos medios de cada intervalo) y en el otro eje las frecuencias. No existe separación entre las
barras.
Euros
Fuente: Encuesta de Presupuestos Familiares. INE
Número de hogares según ingresos 2008
Miles de hogares

Bi-direccional.- Tiene orientación horizontal y contiene dos series de datos cuyas barras de
frecuencias crecen en sentidos opuestos. Las más comunes son las pirámides de población de las que
hablaremos más adelante.
50 40 30 20 10
Fuente: Encuesta Nacional de Salud 2006. INE
0 10 20 30 40
75 y más
De 65 a 74
De 55 a 64
De 45 a 54
De 35 a 44
De 25 a 34
De 16 a 24
Varones Mujeres
Consumo de tabaco según sexo y grupos de edad
Fumadores diarios (porcentajes)

Pirámide de población.- Es un histograma bi-direccional que muestra la estatura demográfica de una población,
por sexo y edad, en un momento determinado.
En el eje vertical se posicionan los rangos de edades y en el horizontal los porcentajes de población. En una de las
direcciones se colocan las barras que representan la distribución (% sobre el total de población) por edad de los varones y en
la otra la distribución por edad de las mujeres.
Pirámide de la población española. 2009
5 4 3 2 1 0 1 2 3 4 5
Fuente: Explotación estadística del Padrón. INE
Varones Mujeres
85 y más
80-84
75-79
70-74
65-69
60-64
55-59
50-54
45-49
40-44
35-39
30-34
25-29
20-24
15-19
10-14
05-09
0-4

Pirámide de población
Estos gráficos nos dan una visión de la juventud, madurez o vejez de una población y, por tanto, su grado de desarrollo.
Según su forma puede haber distintos tipos de pirámides:
 Progresiva: Existe un alto porcentaje de población joven que va
desapareciendo según avanzan las edades. Son típicas de países
subdesarrollados cuya esperanza d vida es baja y la tasa de natalidad
alta.
 Regresiva: En la base existen menos población que en el medio y la
población envejecida es considerable. Son típicas de países
desarrollados cuya natalidad esta descendiendo y la esperanza de
vida es alta.
Varones Mujeres
Varones Mujeres

Pirámide de población
 Estancada: Los tramos intermedios de edades tienen la
misma población que la base. Son típicas de países en
vías de desarrollo donde se ha controlado la mortalidad y
se empieza a controlar la natalidad.
Pirámide de Población 2009 y 2018
Fuente: Explotación estadística del Padrón,
estimaciones y proyecciones. INE
Nos podemos encontrar varias series
de datos en un mismo gráfico, como
por ejemplo, la población en distintos
años o de distintos países.
Varones Mujeres

b) Gráfico de líneas.- Es una representación gráfica en un eje cartesiano de la relación que existe
entre dos variables reflejando con claridad los cambios producidos.
En cada eje se representa cada una de las variables cuya relación se quiere observar (en el ejemplo, en el
eje horizontal los meses y en el eje vertical la media mensual del IPC correspondiente a esos meses).
110
109
108
107
106
105
jul- ago- sep-
09 09 09
Fuente: IPC. INE
oct- nov- dic-
09 09 09
ene- feb- mar- abr- may- jun- jul-
10 10 10 10 10 10 10
Índice de precios al consumidor
Base 2006
IPC
jul-09
ago-09
sep-09
oct-09
nov-09
dic-09
ene-10
feb-10
mar-10
abr-10
may-10
jun-10
jul-10
106,3
106,7
106,4
107,2
107,8
107,8
106,7
106,5
107,3
108,4
108,7
108,9
108,4
IPC 2009 – 2010
Base 2006

Gráfico de líneas
Se suelen usar para presentar tendencias temporales.
En el eje horizontal se ha de posicionar la variable que indica las
unidades de tiempo y en el vertical se introduce la escala de la
variable cuya variación en el tiempo queremos ver.
Pueden aparecer varias variables para compararlas.
0
500
1.000
1.500
2.000
2005 2006 2007 2008 2009
Educación Primaria
Educación Secundaria 1ª etapa y formación e
inserción laboral correspondiente
Educación Secundaria 2ª etapa y formación e
inserción laboral correspondiente
Educación superior, excepto doctorado
Doctorado
Desempleados en España según formación alcanzada
Miles de personas Analfabetos
Fuente: Encuesta de Población Activa. INE
2005 2006 2007 2008 2009
0
4.000
Desempleados en España
Miles de personas
1.000
2.000
3.000
5.000

Gráfico de líneas
Casos particulares:
 Si se unen los puntos medios de las bases superiores de las
barras en los gráficos de barra se obtiene el polígono de
frecuencias.
30
25
20
15
10
5
0
2000 2001 2002 2003 2004 2005 2006 2007 2008
Fuente: Organización de las Naciones Unidas para la Agricultura y la
Alimentación (FAO).
Producción de cereales en España
Millones de toneladas métricas
Pirámide de población de
España 2010
Fuente: Explotación Estadística del Padrón.
INE
 Las pirámides de población se pueden
presentar como un gráfico de líneas. Es útil
cuando se quieren presentar varias series de
datos, por ejemplo, si se quieren comparar
pirámides de varios países, ver la población
extranjera o comparar la estructura de
población de varios años.

c) Gráfico de Pareto.- Es un tipo de gráfico de barras vertical ordenado por frecuencias de forma
descendente que identifica y da un orden de prioridad a los datos.
Causas externas de mortalidad Defunciones % % acumulados
1 Suicidio y lesiones autoinfligidas 3.457 23 23
2 Accidentes de tráfico de vehículos de motor 3.030 20 43
3 Ahogamiento, sumersión y sofocación accidentales 2.258 15 58
4 Otros accidentes 2.212 14 72
5 Caídas accidentales 1.845 12 84
6 Envenenamiento accidental por psicofármacos y drogas de abuso 599 4 88
7 Otros accidentes de transporte 476 3 91
8 Complicaciones de la atención médica y quirúrgica 404 3 94
9 Agresiones (Homicidios) 378 2 96
10 Otros envenenamientos accidentales 281 2 98
11 Accidentes por fuego, humo y sustancias calientes 202 1 99
12 Otras causas externas y sus efectos tardíos 147 1 100
Total 15.289 100
4.000
3.500
3.000
2.500
2.000
1.500
1.000
500
0 1 2 3 4 5 6 7 8 9 10 11 12
En el eje horizontal se representan las categorías de la
variable que queremos estudiar (diferentes causas externas
de mortalidad). En el eje vertical derecho se muestra la escala
de porcentajes y en el eje vertical izquierdo la escala de
frecuencias (número de defunciones).
Las barras muestran las frecuencias de las categorías de la
variable y la línea representa el porcentaje acumulado de dichas
frecuencias respecto al total.

Gráfico de Pareto
Este gráfico muestra el Principio de Pareto, formulado por el estadístico italiano Vilfredo Pareto
(1848–1923).
pocos vitales, muchos triviales
Es decir, hay muchos problemas sin importancia frente a unos pocos graves, ya que, por lo general, el
20% de las causas totales hacen que sean originados el 80% de los efectos.
Pareto formulo este principio tras un estudio sobre la distribución de la riqueza con el que estableció
que la desigualdad económica es inevitable en cualquier sociedad.
En el ejemplo anterior, casi el 80% de las defunciones por causas externas de mortalidad (el 72%) son
debidas a 4 de las 2 causas detalladas (el 33%).

d) Gráfico de sectores.- Es una representación circular de las frecuencias relativas de una variable
cualitativa o discreta que permite, de una manera sencilla y rápida su comparación.
Alojamientos Turísticos. 2009
Categoría Número de viajeros
Total 69.152.754
Cinco estrellas 4.216.253
Cuatro estrellas 31.960.442
Tres estrellas 24.079.125
Dos estrellas 6.331.715
Una estrella 2.565.219
Fuente: Encuesta de Ocupación en Alojamientos
Turísticos
Viajeros hospedados en hoteles españoles
por categoría del establecimiento. 2009
Cuatro estrellas
46%
Tres estrellas
35%
Una estrella
4%
Dos estrellas
9%
Cinco estrellas
6%
El círculo representa la totalidad que se quiere observar (en el ejemplo, total de viajeros hospedados en hoteles) y
cada porción, llamadas sectores, representan la proporción de cada categoría de la variable (en el ejemplo, tipo de
hotel) respecto el total. Suele expresarse en porcentajes.

Gráfico de sectores
Obtención de los ángulos de cada sector:
Categoría Frecuencia absoluta Frecuencia relativa Porcentaje (%)
Cinco estrellas 4.216.253 0,06 6
Cuatro estrellas 31.960.442 0,46 46
Tres estrellas 24.079.125 0,35 35
Dos estrellas 6.331.715 0,09 9
Una estrella 2.565.219 0,04 4
Total 69.152.754 1,00 100
𝐹𝑟𝑒𝑐𝑒𝑛𝑐𝑖𝑎 𝑟𝑒𝑙𝑎𝑡𝑖𝑣𝑎 =
𝐹𝑟𝑒𝑐𝑢𝑒𝑛𝑐𝑖𝑎 𝑎𝑏𝑠𝑜𝑙𝑢𝑡𝑎
𝑡𝑜𝑑𝑎𝑠 𝑓𝑟𝑒𝑐𝑢𝑒𝑛𝑐𝑖𝑎𝑠 𝑎𝑏𝑠𝑜𝑙𝑢𝑡𝑎𝑠
𝑃𝑜𝑟𝑐𝑒𝑛𝑡𝑎𝑗𝑒 = 𝐹𝑟𝑒𝑐𝑢𝑒𝑛𝑐𝑖𝑎 𝑟𝑒𝑙𝑎𝑡𝑖𝑣𝑎 𝑥 100
Á𝑛𝑔𝑢𝑙𝑜 = 𝐹𝑟𝑒𝑐𝑢𝑒𝑛𝑐𝑖𝑎 𝑟𝑒𝑙𝑎𝑡𝑖𝑣𝑎 𝑥 360 (𝑔𝑟𝑎𝑑𝑜𝑠 𝑑𝑒 𝑢𝑛𝑎 𝑐𝑖𝑟𝑢𝑛𝑓𝑒𝑟𝑒𝑛𝑐𝑖𝑎)

Gráfico de sectores
Son útiles cuando las categorías son pocas. Si el gráfico tuviera muchas variables, no aportaría casi
información y sería prácticamente incomprensible, como ocurre en el siguiente ejemplo.
Proporción de superficies de los países europeos
Reino Unido
2%
Italia
3%
Noruega
3%
Polonia
3%
Bielorusia
(Rusia Blanca)
2%
España
5%
Finlandia
3%
Francia
5%
Alemania
3%
Ucrania
6%
Suecia
4%
Rusia
41%
Alemania
Austria
Bielorusia (Rusia Blanca)
Bulgaria
Dinamarca
Eslovenia
Estonia
Francia
Hungría
Islandia
Kazajstán
Lituania
Macedonia
Monaco
Países Bajos
Portugal
República Checa
Rusia
Serbia y Montenegro
Suiza
Albania
Andorra
Bélgica
Bosnia-Herzegovina
Croacia
Eslovaquia
España
Finlandia
Grecia
Irlanda
Italia
Letonia
Luxemburgo
Moldavia
Noruega
Polonia
Reino Unido
Rumania
San Marino
Suecia
Turquía Ucrania

e) Pictograma.- Es un gráfico que representa mediante figuras o símbolos las frecuencias de una variable
cualitativa o discreta.
Al igual que los gráficos de barras suelen usarse para comparar magnitudes o ver la evolución en el tiempo de una
categoría concreta.
Tipos de pictogramas:
 Gráfica de barras, cuyas barras están constituidas por símbolos o figuras distorsionadas que se adaptan a la longitud de
la barra.
Fuente: Encuesta de Hogar y Medio ambiente
Icono obtenido de la web del ayuntamiento de Madrid área Medio ambiente
Vidrio Papel y
Cartón
Pilas y
pequeñas
baterías
Medicamentos Aceites de
Envases
plásticos,
metálicos
cocina
Porcentaje de viviendas cuyos residentes depositan
residuos en su punto especificado de recogida (2008)
80
70
60
50
40
30
20
10
0

Pictograma
 Gráficas de barras cuyas barras están
constituidas por símbolos o figuras del
mismo tamaño que representan una
cantidad especifica (a mayor frecuencia,
más acumulación de figuras).
Porcentaje de viviendas cuyos residentes depositan
residuos en su punto especificado de recogida. 2008
Vidrio
Papel y Cartón
Pilas y pequeñas
baterías
Envases plásticos,
metálicos
Medicamentos
10%
Aceites de cocina
Aceites de cocina Medicamentos
24 69,5
Envases de plástico, Pilas y pequeñas
Papel y cartón Vidrio
71,8 72,3 74,5
metálicos baterías
75,3
 Símbolo o figuras cuyas áreas representan las frecuencias de cada categoría de la variable.

f) Gráfico de dispersión muestra en un eje cartesiano la relación que existe entre dos variables.
Alemania 1.779.455 106.041
Austria 110.512 10.407
Bulgaria 138.464 13.294
Chipre 7.982 239
Dinamarca 205.829 19.361
Eslovaquia 91.673 7.350
Eslovenia 53.907 1.051
España 983.409 55.739
Estonia 33.500 1.830
Finlandia 161.159 9.186
Francia 2.395.024 135.819
Grecia 201.549 12.507
Hungría 316.520 26.130
Irlanda 312.655 5.133
Italia 729.420 48.634
Letonia 83.301 4.045
Lituania 153.797 7.309
Países Bajos 261.493 13.255
Polonia 1.080.261 59.860
Portugal 76.250 2.694
Reino Unido 1.048.100 54.754
República Checa 289.063 16.840
Rumanía 240.880 31.273
Suecia 190.838 11.012
Suiza 50.844 3.111 Producción
agrícola
(miles
de
toneladas)
País Fertilizantes Nitrogenados* Produccion agrícola**
Gráfico de dispersión
Año 2008
140.000
120.000
100.000
80.000
60.000
40.000
20.000
0
0 500 1.000 1.500 2.000 2.500 3.000
Fertilizantes nitrogenados (miles de toneladas métricas)
* Tonelada métrica de elemento nutritivo consumido.
** Miles de toneladas

Este gráfico nos informa del grado de correlación entre las dos variables; es decir, nos muestra si el
incremento o disminución de los valores de una de las variables, denominada variable independiente y
que se suele representar en el eje horizontal, altera de alguna manera los valores de la otra, denominada
variable dependiente y que representa generalmente en el eje vertical.
En el ejemplo, el consumo de fertilizantes nitrogenadas de cada país está representado en el eje
horizontal y la producción agrícola en el vertical.
El tipo de correlación se puede deducir según la
forma de la nube de puntos:
 Correlación nula: No existe ninguna relación
entre las variables. Se dice que ambas son
independientes.

 Correlación lineal: Existe una relación lineal
negativa si al aumentar los valores de la
variable independiente disminuyen los valores
de la variable dependiente y la relación lineal
positiva si al aumentar los valores de la
variable independiente aumentan los valores de
la variable dependiente.
 Correlación no lineal: Existe una relación
entre las variables, pero no es lineal.
negativa positiva

Dentro de la correlación lineal, en
algunos gráficos se dibuja la recta de
regresión obtenida gracias a un
método matemático: el ajuste lineal.
Esta recta nos muestra mas clara y
rápidamente la tendencia de los puntos
y, por tanto, la relación.
60.000
40.000
20.000
0
80.000
160.000
140.000
120.000
100.000
0 500 1.000 1.500 2.000 2.500 3.000
Fertilizantes nitrogenados (miles de toneladas métricas)
Producción
agrícola
(miles
de
toneladas)
Año 2008
En el ejemplo se puede apreciar que los
países con más producción agrícola
consumen más fertilizantes nitrogenados.
Se observa en principio una relación
lineal positiva.

g) Polígono de frecuencias es una herramienta gráfica que se emplea a partir de un histograma de
frecuencia (es decir, otro tipo de gráfico que expresa las frecuencias mediante columnas verticales).
Para ello, se unen con una línea los distintos puntos medios de las columnas del histograma, sin
dejar espacio entre una y otra, logrando así una forma geométrica o polígono.
Con esta herramienta gráfica pueden representarse variables cuantitativas o distribuciones diferentes,
cosa que tradicionalmente no hace un histograma, de un modo rápido y sencillo.

h) Cartograma es un mapa en el que se presentan datos estadísticos por regiones bien poniendo el
numero o coloreando las distintas zonas en función del dato que representan.

Representación gráfica de los reportes estadísticos
Ejemplos de gráficos 1:
Ingresos Tributarios del Gobierno Central: agosto 2021
En agosto 2021 los ingresos tributarios del Gobierno Central ascendieron a S/ 13 985 millones, cifra que representó un incremento de
88,2% respecto de agosto 2020, reflejando la recuperación de la actividad económica, con crecimientos importantes del PBI y la Demanda
Interna; así como la mayor recaudación de tributos aduaneros asociada al aumento del tipo de cambio (15%), y el incremento de las
importaciones que habrían crecido 54,9% en agosto. A nivel de componentes, los tributos internos se incrementaron 73,0%; al igual que
los tributos aduaneros que se incrementaron 81,6%. Por otro lado, las devoluciones de impuestos se incrementaron en 6,4%.
El Impuesto a la Renta recaudado en agosto creció 47,7%, explicado principalmente por la mayor recaudación en los pagos a cuenta del
Régimen General (118,2%), así como los pagos a cuenta del Régimen MYPE Tributario (102,2%), atenuado levemente por la menor
recaudación de pagos por Regularización que disminuyó -44,6%. En agosto también crecieron significativamente las Rentas de Segunda
Categoría (170,7%), Régimen Especial de Renta (72,0%), las Rentas de Cuarta Categoría (27,2%), las rentas de la Primera Categoría
(16,4%), las Rentas de Quinta Categoría (9,5%), y las Otras Rentas (2,9%). Sólo las rentas de No Domiciliados se redujeron (-2,0%).
El Impuesto General a las Ventas de agosto, aumentó 49,0% tanto por efecto de los mayores pagos del IGV Importaciones (87,7%) como de
IGV Interno (24,4%) asociados al favorable desempeño de la Demanda Interna y las mayores importaciones que crecieron 54,9%. Por su
parte, los pagos por Impuesto Selectivo al Consumo crecieron 40,7%, debido principalmente al crecimiento del ISC Importado que creció
60,4%; y en menor medida al ISC Interno que creció 27,5%.

Ingresos Tributarios del Gobierno Central: agosto 2021
* Tributo.- Es una prestación de dinero que el estado exige
en el ejercicio de su poder de imperio sobre la base de la
capacidad contributiva en virtud de una ley, y para cubrir
los gastos que le demande el cumplimiento de sus fines.
* PBI.- Valor monetario de todos los bienes y servicios
producidos. Su cálculo sigue una metodología que incluye
algunas actividades y excluye otras. Por ejemplo, solo
incluye bienes y servicios transados en los mercados y lo
producido en el país, sin importar la nacionalidad de quien
lo produzca. Esto significa que la producción de una firma
extranjera en el país eleva el PBI del Perú.
* Impuesto.- El impuesto es un tributo o carga que las
personas están obligadas a pagar a alguna organización
(gobierno, rey, etc.) sin que exista una contraprestación
directa. Esto es, sin que se le entregue o asegure un
beneficio directo por su pago.
* Renta.- La renta es la utilidad, beneficio o ganancia que
se obtiene de algo, que puede ser un negocio o cualquier
empresa. La renta es lo que generamos en un periodo
determinado.

Comercio exterior: agosto 2021
Los resultados observados tanto en importaciones como en exportaciones de agosto y julio, respectivamente, reflejaron cifras favorables que
demuestran la senda de recuperación sostenida luego de los efectos negativos de la Pandemia de la COVID-19 sobre la economía mundial y
en particular sobre el comercio del Perú con el mundo.
En agosto las Importaciones CIF ascendieron a US $ 4 391 millones, registrando un crecimiento de 54,9% con relación al mismo mes del
año anterior, manteniendo así tasas de crecimiento bastante representativas en un contexto de recuperación sostenida de la actividad
económica en el país.
A nivel de CUODE las importaciones de bienes de consumo ascendieron a US$ 887 millones creciendo 17,1% y las materias primas y
productos intermedios totalizaron US$ 2 224 millones, registrando un incremento de 91,5%. Por su parte, las importaciones de bienes de
capital y materiales de construcción sumaron US$ 1 274 millones, creciendo 39,0%.

* CIF.- Del inglés cost (coste), Insurance
(seguro) y freight (flete). Fórmula de pago o
clave utilizada en el comercio internacional para
indicar que en el precio de venta de un
determinado artículo está incluido también
el seguro y el flete. El comprador se hace cargo
de la mercancía en el puerto de destino y, a partir
de ese momento, todos los gastos, incluidos los
de desembarque, corren por su cuenta.

FOB.- Del inglés Free On Board, el vendedor
entrega la mercancía en el puerto de embarque y
asume los costos de trámites aduaneros de
exportación y licencias de exportación. El
comprador realiza los trámites de importación,
consigue el transporte desde el puerto de
embarque y asume los costos durante la entrega de
la mercancía (descarga, flete, despacho, etc.).
CUODE.- Codificación de las mercancías según el
fin económico al cual serán destinadas, es decir,
bienes de capital, intermedios y de consumo. La
estructura de la CUODE se codifica con base en
tres dígitos. El primer dígito corresponde al grupo
de clasificación según uso o destino económico.
El segundo dígito corresponde a los subgrupos y
el tercer dígito al grado de elaboración.

Representación gráfica de los reportes
estadísticos
Perú: Notificaciones de accidentes de trabajo por sexo, según parte del
cuerpo lesionada, marzo de 2020.
MASCULINO FEMENINO
Abdomen (pared abdominal) 6 3 9
Antebrazo 24 6 30
Aparato auditivo 5 0 5
Aparato digestivo en general 0 1 1
Boca(con inclusión de labios, dientesy lengua 4 1 5
Brazo 37 15 52
Cabeza, ubicacionesmúltiples 74 23 97
Cadera 11 5 16
Cara(ubicación no clasificadaen otro epígrafe) 30 6 36
Codo 15 3 18
Cuello 5 1 6
Dedosde lamano 242 56 298
Dedo de lospies 17 1 18
Hombro (inclusión de clavículas, omóplato y axila) 56 10 66
Mamas 3 1 4
Mano (con excepción de losdedossolos) 119 21 140
Miembro inferior, ubicacionesmúltiples 5 3 8
Miembro superior, ubicacionesmúltiples 5 2 7
Muñeca 52 15 67
Muslo 7 1 8
Narizy senosparanasales 16 2 18
Ojos(con inclusión de lospárpados, laórbitay el nervio óptico) 178 20 198
Organo, aparato o sistemaafectado por sustanciasquímicas-plaguisidas 2 1 3
Pelvis 6 3 9
Pie (con excepción de losdedos) 69 18 87
Pie (solo afeccionesdérmicas) 6 0 6
Pierna 81 11 92
Región cervical 10 0 10
Región dorsal 3 0 3
Región lumbosacra(columnavertebral y muscular adyacente) 94 10 104
Rodilla 81 21 102
Tobillo 81 26 107
Torax (costillas, esternón) 34 4 38
Tronco, ubicacionesmúltiples 9 1 10
Ubicacionesmúltiples, compromiso de doso mászonasafectadasespecificadas 78 33 111
Otros 209 41 250
TOTAL 1674 365 2039
TOTAL
SEXO
PARTES DEL CUERPOLESIONADA

Perú: Notificaciones de accidentes de
trabajo, según parte del cuerpo lesionada,
marzo de 2020.
6
24
5
0
4
37
74
11
30
15
5
242
17
56
3
119
5
5
52
7
16
178
2
6
69
6
81
10
3
94
81
81
34
9
78
209
0 50 100 150 200 250 300
Abdomen (pared abdominal)
Antebrazo
Aparato auditivo
Aparato digestivo en general
Boca (con inclusión de labios, dientes y lengua
Brazo
Cabeza, ubicaciones múltiples
Cadera
Cara (ubicación no clasificada en otro epígrafe)
Codo
Cuello
Dedos de la mano
Dedo de los pies
Hombro (inclusión de clavículas, omóplato y axila)
Mamas
Mano (con excepción de los dedos solos)
Miembro inferior, ubicaciones múltiples
Miembro superior, ubicaciones múltiples
Muñeca
Muslo
Nariz y senos paranasales
Ojos (con inclusión de los párpados, la órbita y el nervio óptico)
Organo, aparato o sistema afectado por sustancias químicas-plaguisidas
Pelvis
Pie (con excepción de los dedos)
Pie (solo afecciones dérmicas)
Pierna
Región cervical
Región dorsal
Región lumbosacra (columna vertebral y muscular adyacente)
Rodilla
Tobillo
Torax (costillas, esternón)
Tronco, ubicaciones múltiples
Ubicaciones múltiples, compromiso de dos o más zonas afectadas…
Otros
SEXO FEMENINO SEXO MASCULINO

Ejercicios de cálculo de siniestralidad
Índice de frecuencia
El Índice de Frecuencia es un indicador de Recursos Humanos que mide el grado de exposición de los (as) trabajadores (as) al riesgo
laboral, calculando el número de accidentes laborales que han provocado al menos un día de baja por cada millón de horas
trabajadas. Permite a las empresas estimar la frecuencia de los accidentes laborales, con el fin de establecer una estrategia eficaz para la
Gestión de Riesgos que ayude a prevenirlos.
¿Cómo se calcula el Índice de Frecuencia de accidentes laborales?
Toma en cuenta tres aspectos:
 El número de accidentes de trabajo que fueron objeto de una incapacidad de por lo menos 24 horas. Esta cifra excluye el día del
accidente.
 El número de horas trabajadas. Corresponde al número de trabajadores a tiempo completo multiplicado por el número de horas
trabajadas durante un año.
 Según OSHA: Para 100 trabajadores se multiplicará por 200,000 horas-hombre y para 500 trabajadores se multiplicará por 1´000,000
horas-hombre.

Fórmula para calcular el Índice de Frecuencia:
𝐼𝐹 =
𝑁° 𝑑𝑒 𝑎𝑐𝑐𝑖𝑑𝑒𝑛𝑡𝑒𝑠 𝑙𝑎𝑏𝑜𝑟𝑎𝑙𝑒𝑠 𝑐𝑜𝑛 𝑏𝑎𝑗𝑎
𝑁° 𝑑𝑒 ℎ𝑜𝑟𝑎𝑠 𝑡𝑟𝑎𝑏𝑎𝑗𝑎𝑑𝑎𝑠
x 1´000,000
Ejemplo:
Una empresa ha tenido 30 accidentes. En la misma trabajan 300 personas, durante 50 semanas al año y cada semana de 48 horas. Durante
este periodo los trabajadores han faltado al trabajo (por distintas razones) el 8% del total del tiempo trabajado en ese año.
Datos:
Número de accidentes ocurridos = 30
Número de Trabajadores Expuestos = 300
Número de semanas trabajadas = 50
Numero de horas por semana trabajadas = 48
Porcentaje de ausentismo total = 8%

TOTAL, HORAS HOMBRE TRABAJADAS = (Trabajadores cubiertos) x (semanas Trabajadas) x (Horas trabajadas por semana) =300 x
50 x 48 = 720.000
Lo que debemos hacer ahora es restar el 8% del total de horas-hombre, ya que de esta manera obtendremos la cifra real del Total de Horas-
Hombre de Exposición al Riesgo:
720,000 x 0.08 = 57,600
Luego el total de horas netos es: 720.000 – 57.600 = 662.400
Entonces: 𝐼𝐹 =
30 𝑥 1´000,000
662,400
= 45.28
Conclusión: En un año sucedieron 46 accidentes por cada millón de horas-hombres trabajadas.

Índice de severidad
Expresa los días perdidos según el evento que se trate. La gravedad o severidad de los eventos se mide mediante los días perdidos que a
su vez se compone de dos factores: los días de incapacidad y los días cargados.
Los días perdidos por incapacidad deben estar certificados mediante el documento legal definido por la empresa, la incapacidad
generada y certificada por un profesional de la salud. El otro aspecto que suma en los días perdidos son los días cargados.
Según OSHA: Para 100 trabajadores se multiplica por 200,000 horas-hombre y para 500 trabajadores se multiplica por 1´000,000 horas-
hombre.
𝐼𝑛𝑑𝑖𝑐𝑒 𝑑𝑒 𝑠𝑒𝑣𝑒𝑟𝑖𝑑𝑎𝑑 =
𝐷í𝑎𝑠 𝑝𝑒𝑟𝑑𝑖𝑑𝑜𝑠
𝐻𝑜𝑟𝑎𝑠 − 𝐻𝑜𝑚𝑏𝑟𝑒 𝑡𝑟𝑎𝑏𝑎𝑗𝑎𝑑𝑎𝑠
𝑥 200,000
Ejemplo:
En la empresa “Cambio” en enero del 2010 sucedieron dos accidentes de trabajo, el primero de ellos genero 8 días de incapacidad y el
segundo 12 días de incapacidad, pero trajo como consecuencia la amputación de los falanges media y distal del tercer dedo de la mano
derecha (se debe considerar 150 días cargados).

Índice de severidad
𝐼𝑛𝑑𝑖𝑐𝑒 𝑑𝑒 𝑠𝑒𝑣𝑒𝑟𝑖𝑑𝑎𝑑 =
8 + 12 + 150
3496
𝑥 200,000
𝐼𝑛𝑑𝑖𝑐𝑒 𝑑𝑒 𝑠𝑒𝑣𝑒𝑟𝑖𝑑𝑎𝑑 = 9725.4
No tiene unas unidades definidas, ya que combina varias, pero se lee para iniciar su interpretación de la siguiente forma:
En la empresa “Cambio” por cada 3946 horas-hombre trabajadas se pierden 9725.4 días por cada doscientos mil horas trabajadas.
Índice de accidentalidad
Una medición que combina el índice de frecuencia de lesiones son tiempo perdido (IF) y el índice de severidad de lesiones (IS), como un
medio de clasificar a las empresas. Es el producto del valor del índice de frecuencia por el índice de severidad dividido entre 1000.
𝐼𝑛𝑑𝑖𝑐𝑒 𝑑𝑒 𝑎𝑐𝑐𝑖𝑑𝑒𝑛𝑡𝑎𝑏𝑖𝑙𝑖𝑑𝑎𝑑 =
𝐼𝑛𝑑𝑖𝑐𝑒 𝑑𝑒 𝑓𝑟𝑒𝑐𝑢𝑒𝑛𝑐𝑖𝑎 𝑥 𝐼𝑛𝑑𝑖𝑐𝑒 𝑑𝑒 𝑠𝑒𝑣𝑒𝑟𝑖𝑑𝑎𝑑
1000

Este asimismo puede expresarse en % (10 al cuadrado); en este caso representa el número de accidentes ocurridos por cada 100
trabajadores. Este índice es un parámetro claro e intuitivo para la dirección y trabajadores de una empresa, sin embargo, no permite
comparación directa con periodos diferentes (mes, trimestre, año), por ello si el periodo a analizar es inferior a un año, se debe emplear la
siguiente expresión:
En las jornadas de pérdida deben contabilizarse exclusivamente los días laborales. Los días cargados se pueden extraerse de la norma ANSI
Z16.l-1973.
Donde: Nº = (número de siniestros al mes N x 12) / número de meses.
Por ejemplo, para calcular el Índice de Accidentalidad de una empresa que en Enero ha tenido 01 accidente, tenemos que extrapolar este
dato a Diciembre por lo que suponiendo que sigue esa misma progresión, tendrá 12 accidentes en el año (1 accidente x 12 / 12). Este
índice de Accidentalidad extrapolado a diciembre nos permitirá compararnos por ejemplo con el Índice de Accidentalidad del año anterior.

Medidas de tendencia central
Media simple
También llamada promedio simple, es un conjunto infinito de números, es el valor característico de una serie de datos
cuantitativos, objeto de estudio que parte del principio del valor esperado, se obtiene a partir de la suma de todos sus valores
dividida entre el número total de sumandos. Recibe el nombre de media cuando el conjunto es una muestra aleatoria, siendo
uno de los principales estadísticos muestrales.
La media simple se define como:
𝑥 =
1
𝑛
𝑖=1
𝑛
𝑥𝑖 =
𝑥1 + 𝑥2 + ⋯ + 𝑥𝑛
𝑛
Ejemplo:
La media aritmética de 8, 5 y -1 es igual a:
𝑥 =
8 + 5 + (−1)
3
= 4

Media ponderada
La media ponderada es una medida de tendencia central, que es apropiada cuando en un conjunto de datos cada uno de ellos
tiene una importancia relativa (o peso) respeto de los demás datos. Se obtiene multiplicando cada uno de los datos por su
ponderación (peso) para luego sumarlos, obteniendo así una suma ponderada; después se divide esta entre la suma de los pesos,
dando como resultado la media ponderada. Para una serie de datos numéricos no vacía:
𝑋 = 𝑥1; 𝑥2; 𝑥3; … ; 𝑥𝑛
A la que corresponden los pesos:
𝑊 = 𝑤1; 𝑤2; 𝑤3; … ; 𝑤𝑛
La media ponderada se calcula de la siguiente manera:
𝑥 =
𝑖=1
𝑛
𝑥𝑖𝑤1
𝑖=1
𝑛
𝑤𝑖
=
𝑥1𝑤1 + 𝑥2𝑤2 + 𝑥3𝑤3 + ⋯ + 𝑥𝑛𝑤𝑛
𝑤1 + 𝑤2 + 𝑤3 + ⋯ + 𝑤𝑛

Media ponderada
Ejemplo:
Se puede usar una media ponderada para calcular la nota final de un curso escolar, en donde se asigna distinta importancia
(peso) a los distintos exámenes que se realicen. Sea el caso de que los dos primeros exámenes tienen un peso o valor de 30% y
20% respectivamente, y el último del 50%; las calificaciones respectivas son de 6.4; 9.2 y 8.1, entonces la notal final
corresponde a la siguiente media ponderada.
Datos: X = {6.4; 9.2; 8.1}
Pesos: W = {0.3; 0.2; 0.5}
𝑀𝑒𝑑𝑖𝑎 𝑝𝑜𝑛𝑑𝑒𝑟𝑎𝑑𝑎: 𝑥 =
6.4 𝑥 0.3 + 9.2 𝑥 0.2 + 8.1 𝑥 0.5
0.3 + 0.2 + 0.5
= 7.81

Mediana
Es un valor que se encuentra a la mitad de los otros valores, es decir, que, al ordenar los números de menor a mayor, éste se encuentra
justamente en medio entre los que están por arriba. Los pasos para sacar la mediana son:
1. Ordena todos los números del más pequeño al más grande.
2. Encuentra el número del medio del conjunto.
 Si tienes una cantidad impar: Tacha el número al final de la izquierda, después el primero a la derecha, y repite el proceso hasta
quedarte con un número, que será la mediana.
 Si tienes una cantidad par, al final quedarás con dos números en el centro. Súmalos y divídalos entre 2 para obtener la mediana.
Ejemplo:
- La cantidad de valores es impar: Se tienen los valores 9, 5, 4, 2 y 7; se ordenan: 2, 4, 5, 7, 9. El elemento de en medio es el 5, ya que
se encuentra dos valores por encima y dos valores por debajo.
- La cantidad de valores es par: Si se tienen los valores 9, 5, 4 y 2; se ordenan: 2, 4, 5, 9. En este caso se toman los dos valores centrales
5 y 4, la mediana es el promedio de ambos: 9.

Moda
Es un valor que aparece más dentro de un conglomerado. En un grupo puede haber dos modas y se conoce como bimodal, y más de dos
modas o multimodal cuando se repiten más de dos valores; se llama amodal cuando en un conglomerado no se repiten los valores.
Por último, se conoce como moda adyacente cuando dos valores continuos tienen la misma cantidad de repeticiones. En este caso se saca el
promedio de ambos. Los pasos para obtener la moda de un conjunto son:
 Escribe todos los números del conjunto.
 Encuentra el número o los números (en los casos bimodales o multimodales) que aparezcan más veces.
Ejemplo:
Moda 2, 5, 5, 7, 9, 10 M = 5
Bimodal 2, 3, 3, 5, 7, 8, 9, 9 M = 3, 9
Multimodal 2, 3, 3, 5, 7, 7, 8, 9, 9 M = 3, 7, 9
Amodal 2, 4, 5, 7, 9 M = No
Adyancente 𝟐,
(𝟑+𝟑+𝟓+𝟓)
𝟒
, 𝟕, 𝟖 M = 4

Cuartiles, Deciles y Percentiles
Los cuantiles son medidas de localización, su función es informar del valor de la variable que ocupará la posición (en tanto por ciento)
que no interese respecto de todo el conjunto de variables.
Podemos decir que los cuantiles son unas medidas de posición que dividen a la distribución en un cierto número de partes, de manera
que en cada una de ellas hay los mismos valores de las variables.
Cuartiles
Deciles
Percentiles
Se dividen los datos en cuatro partes iguales
(Q1 = 25 %; Q2 = 50 % ; Q3 = 75%)
Se dividen los datos en 10 partes iguales
Se calcula desde el D1 a D9
Se dividen los datos en 100 partes iguales
Se calcula del P1 a P99

Cálculo de cuantiles para datos no agrupados
a. Cuartil
Para encontrar la posición:
𝑸𝟏 =
(𝒏+𝟏)
𝟒
; 𝑸𝟐 =
𝟐(𝒏+𝟏)
𝟒
; 𝑸𝟑 =
𝟑(𝒏+𝟏)
𝟒
Datos:
𝑸𝟏,𝟐,𝟑 = 𝐶𝑢𝑎𝑟𝑡𝑖𝑙
n = total de datos
𝑸𝟐 =
𝟐(𝒏+𝟏)
𝟒
, este cuartil equivale al 50 %, por lo tanto, también debe de ser igual a la mediana.

b. Decil
𝑫𝟏 =
(𝒏+𝟏)
𝟏𝟎
; 𝑫𝟓 =
𝟓(𝒏+𝟏)
𝟏𝟎
; 𝑫𝟗 =
𝟗(𝒏+𝟏)
𝟏𝟎
Datos:
𝑫𝟏,,…𝟗 = 𝐷𝑒𝑐𝑖𝑙
n = total de datos
𝑫𝟓 =
𝟓(𝒏+𝟏)
𝟏𝟎

c. Percentil
𝑷𝟏 =
(𝒏+𝟏)
𝟏𝟎𝟎
; 𝑷𝟓𝟎 =
𝟓𝟎(𝒏+𝟏)
𝟏𝟎𝟎
; 𝑷𝟗𝟗 =
𝟗𝟗(𝒏+𝟏)
𝟏𝟎𝟎
Datos:
𝑷𝟏,,…𝟗𝟗 = 𝑃𝑒𝑟𝑐𝑒𝑛𝑡𝑖𝑙
n = total de datos
𝑷𝟓𝟎 =
𝟓𝟎(𝒏+𝟏)
𝟏𝟎𝟎

Ejemplo
De 20 estudiantes tenemos sus evaluaciones de un examen, ¿Calcular Q1, D5 y P75?
5, 5, 8, 7, 9, 10, 7, 6, 8, 7, 8, 9, 10, 10, 8, 7, 6, 5, 9, 6
Calculamos Q1:
Primero debemos ordenar los números de forma ascendente:
5, 5, 5, 6, 6, 6, 7, 7, 7, 7, 8, 8, 8, 8, 9, 9, 9, 10, 10, 10
𝑄1 =
(20+1)
4
= 5.25, esta es la posición y la buscamos en la serie de datos ya ordenada.
𝑄1 = 6

Calculamos D5:
5, 5, 5, 6, 6, 6, 7, 7, 7, 7, 8, 8, 8, 8, 9, 9, 9, 10, 10, 10
𝐷5 =
5(20+1)
10
Por lo tanto, se calcula después de haber encontrado la posición que es 10.5, se realiza lo siguiente:
7+8
2
= 7.5 , por lo tanto, la mitad es:
𝐷5 = 7.5

Calculamos P75:
5, 5, 5, 6, 6, 6, 7, 7, 7, 7, 8, 8, 8, 8, 9, 9, 9, 10, 10, 10
𝑃75 =
75(20+1)
100
𝑃75 = 9

Cálculo de cuantiles para datos agrupados
Antes de ocupar la formula general debemos primero de encontrar la posición en una distribución de frecuencias y esta se calcula de la
siguiente manera:
𝑄1 =
𝑛
4
; 𝑄2 =
2 (𝑛)
4
; 𝑄3 =
3 (𝑛)
4
𝐷1 =
𝑛
10
; … … . . 𝐷5 =
5 𝑛
10
… … . ; 𝐷9 =
9 (𝑛)
10
𝑃1 =
𝑛
100
; … … . . 𝑃50 =
50 𝑛
100
… … . ; 𝑃99 =
99 (𝑛)
100

La fórmula para calcular los cuantiles es:
𝑄𝑛; 𝐷𝑛; 𝑃𝑛 = 𝐿𝑖 +
𝑓𝑄𝑛; 𝐷𝑛; 𝑃𝑛−𝑓𝑎
𝑓𝑄,𝐷,𝑃
∗ 𝐶
Donde:
𝑄𝑛 ; 𝐷𝑛; 𝑃𝑛 = Cuartil, decil y percentil que desea calcular.
Li = Límite real inferior donde se encuentra la frecuencia del cuartil, decil y percentil.
𝑓𝑎 = Frecuencia de la clase cuartil, decil y percentil donde se localiza.
𝑓𝑄,𝐷,𝑃 = Frecuencia de la clase cuartil, decil y percentil donde se localiza.
C = Amplitud de clase.
𝑃1 =
𝑛
100
; … … . . 𝑃50 =
50 𝑛
100
… … . ; 𝑃99 =
99 (𝑛)
100

Ejemplo:
En un banco se tomó la muestra de 40 personas que realizan sus diferentes
movimientos. Para el banco es de gran importancia atender a sus clientes lo más
pronto posible. Desean saber de las cuarenta personas, qué tiempo se tardan en
atender al 25 %, 50 % y 75 %. Para esto hay que calcular las medidas de posición.
𝑄1 =
40
4
= 10 𝑑𝑒 𝑝𝑜𝑠𝑖𝑐𝑖ó𝑛
Aplicando la fórmula:
𝑄1 = 8.15 +
10−9
11
∗ 1.1
𝑄1 = 8.25
𝐷5 =
5 (40)
10
= 20 , 𝑒𝑠 𝑙𝑎 𝑝𝑜𝑠𝑖𝑐𝑖ó𝑛
Intervalo clase Frecuencia
Marca de
clase7
7.1 a 8.1 9 7.6
8.2 a 9.2 11 8.7
9.3 a 10.3 8 9.8
10.4 a 11.4 7 10.9
11.5 a 12.5 1 12.0
12.6 a 13.6 1 13.1
13.7 a 14.7 1 14.2
14.8 a 15.8 2 15.3
TOTAL 40

Ejemplo:
En un banco se tomó la muestra de 40 personas que realizan sus diferentes movimientos. Para el banco es de gran importancia atender
a sus clientes lo más pronto posible. Desean saber de las cuarenta personas, qué tiempo se tardan en atender al 25 %, 50 % y 75 %.
Para esto hay que calcular las medidas de posición.
𝐷5 =
5 (40)
10
= 20 , 𝑒𝑠 𝑙𝑎 𝑝𝑜𝑠𝑖𝑐𝑖ó𝑛
𝐷5 = 8.15 +
20−9
11
∗ 1.1
𝐷5 = 9.25
𝑃75 =
75 (40)
100
= 30, 𝑒𝑠 𝑙𝑎 𝑝𝑜𝑠𝑖𝑐𝑖ó𝑛
𝑃75 = 10.35 +
30−28
7
∗ 1.1
𝑃75 = 10.66
Como conclusión, podemos argumentar que el 25% de los 40 clientes que esperaron para ser atendidos 8 minutos con 25 segundos.
El 50 % de los 40 clientes para que fueran atendidos tuvieron que esperar 9 minutos con 25 segundos, por lo tanto, fueron 20 personas.
El 75 % de los 40 clientes esperaron más de 11 minutos.

Medidas de variabilidad
Rango
El rango es un valor numérico que indica la diferencia entre el valor máximo y el mínimo de una población
o muestra estadística. El rango suele ser utilizado para obtener la dispersión total. Es decir, si tenemos una muestra
con dos observaciones: 10 y 100 soles, el rango será de 90 soles.
Sobre todo, en finanzas, el rango es muy útil para observar cuán grande podría llegar a ser una variación o cambio. Vale
la pena mencionar también que, en no pocas ocasiones, el rango no es una medida fija. Por ejemplo, imaginemos que
el crecimiento del producto bruto interno (PBI) de un país, ha estado entre el 3 y el 5% durante los últimos 20 años. El
rango para estos datos será del 2% pero esto no quiere decir que siempre vaya a ser ese. De modo que si en el año 21, el
crecimiento es del -1%, el rango de los últimos 21 años pasará del 2% al 6% (5 – (-1) = 6%).
𝑅 = 𝑀á𝑥𝑥 − 𝑀í𝑛𝑥
Donde R es el rango, Máx. es el valor máximo de la muestra o población, Mín. es el valor mínimo de la muestra o
población estadística y X es la variable sobre la que se pretende calcular la medida.

Ejemplo:
Supongamos que tenemos una empresa que produce microchips para luego venderlos a las principales
marcas de computadoras. Esta empresa encarga a un economista que realice un estudio sobre la evolución
de las ventas (últimos 4 años) para, posteriormente, ofrecer consejos que mejoren los resultados
empresariales. Entre otras muchas métricas, se pide que se calcule el rango de producción de microchips. A
continuación, se muestra la siguiente tabla de datos:
Meses 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16
Ventas 44347 12445 26880 23366 42464 15480 21562 11625 39496 39402 47699 44315 29581 44320 35264 10264
Meses 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32
Ventas 43520 26360 19534 30755 37327 15832 33919 29498 46136 18007 36339 27696 47413 47636 20978 49079
Meses 33 34 35 36 37 38 39 40 41 42 43 44 45 46 47 48
Ventas 40668 45932 40454 46132 35054 11054 22532 43045 45074 16505 27336 37831 29757 37765 22237 38601

El mes que más microchips produjo la empresa
(MÁXIMO) fue el mes 32 con 49079 microchips
producidos. Por su parte, el momento que menos
microchips produjo tuvo lugar en el mes 16 con 10.124
microchips producidos. Por tanto, el rango estadístico
que es la diferencia (49079-10124) se sitúa en 38955.
¿Cómo se interpreta esto? Esto quiere decir, que durante
los últimos 4 años la variación máxima que ha habido ha
sido de 38.955 microchips producidos. Gráficamente
podemos verlo del siguiente modo.
El punto verde es el máximo, el punto rojo el mínimo y
la línea discontinua amarilla situada a la derecha es la
diferencia. Esto es, el rango.

Varianza
La varianza es una medida de dispersión que representa la variabilidad de una serie de datos respecto a su media.
Formalmente se calcula como la suma de los residuos al cuadrado divididos entre el total de observaciones. También se
puede calcular como la desviación típica al cuadrado. Dicho sea de paso, entendemos como residuo a la diferencia entre
el valor de una variable en un momento y el valor medio de toda la variable.
La unidad de medida de la varianza será siempre la unidad de medida correspondiente a los datos, pero elevada al
cuadrado. La varianza siempre es mayor o igual que cero. Al elevarse los residuos al cuadrado es matemáticamente
imposible que la varianza salga negativa. Y de esa forma no puede ser menor que cero.
𝑉𝑎𝑟 𝑥 =
1
𝑛
( 𝑥𝑖 − 𝑥 )2
𝑛
Donde:
 X es la variable sobre la que se pretenden calcular la varianza.
 𝑥𝑖 es la observación número i de la variable X. i puede tomar valores de 1 y n.
 n es el número de observaciones.
 𝑥 es la medida de la variable X.

¿Por qué se elevan al cuadrado los residuos?
La razón por la que los residuos se elevan al cuadrado es sencilla. Si no se elevasen al cuadrado, la suma de
residuos sería cero. Es una propiedad de los residuos. Así pues, para evitarlo, tal como ocurre con la desviación
típica se elevan al cuadrado. El resultado es la unidad de medida en la que se miden los datos, pero elevada al
cuadrado.
¿Qué diferencia existe entre la varianza y la desviación típica?
Una cuestión que se podría plantear, y con razón, sería la diferencia entre varianza y desviación típica. En realidad,
vienen a medir lo mismo. La varianza es la desviación típica elevada al cuadrado. O al revés, la desviación
típica es la raíz cuadrada de la varianza.
La desviación típica se hace para poder trabajar en las unidades de medida iniciales. Claro que, como es normal, uno
puede preguntarse, ¿De qué sirve tener como concepto la varianza?. Bien, aunque la interpretación del valor que
arroja no nos da demasiada información, su cálculo es necesario para obtener el valor de otros parámetros.

Ejemplo:
Vamos a acuñar una serie de datos sobre salarios. Tenemos cinco personas, cada uno con un salario diferente:
Juan 1500 soles, Pepe 1200 soles, José 1700 soles, Miguel 1300 soles y Mateo 1800 soles. La media del salario, la
cual necesitamos para nuestro cálculo, es de ((1500 + 1200 + 1700 + 1300 + 1800) /5) 1500 soles.
Dado que la fórmula de la varianza en su forma desglosada se formula como sigue:
𝑉𝑎𝑟 𝑥 =
(1500−1500)2+ (1200−1500)2+(1700−1500)2+(1300−1500)2+(1800−1500)2
5
𝑉𝑎𝑟 𝑥 = 52000 𝑠𝑜𝑙𝑒𝑠
El resultado es de 52000 soles al cuadrado. Es importante recordar que siempre que calculamos la varianza tenemos
las unidades de medida al cuadrado. Para pasarlo a soles, en este caso tendríamos que realizar la desviación típica.
El resultado aproximado sería de 228 soles. Esto quiere decir que, en media, la diferencia entre los salarios de las
distintas personas será de 228 soles.

Desviación media:
La desviación respecto a la media es la diferencia entre cada valor de la variable estadística y la media aritmética:
𝜎𝑖 = 𝑥 − 𝑥
La desviación media es la media aritmética de los valores absolutos de las desviaciones respecto a la media.
La desviación media se representa por 𝐷𝑥.
𝜎𝑥 =
𝑥1−𝑥 + 𝑥2−𝑥 +⋯+ 𝑥𝑛+𝑥
𝑁
𝜎𝑥 = 𝑖=1
𝑛
𝑥𝑖−𝑥
𝑁
Ejemplo:
Calcular la desviación media de la distribución: 9, 3, 8, 8, 9, 8, 9, 18.
𝑥 =
9 + 3 + 8 + 8 + 9 + 8 + 9 + 18
8
= 9

𝜎𝑥 =
9 − 9 + 3 − 9 + 8 − 9 + 8 − 9 + 9 − 9 + 8 − 9 + 9 − 9 + 18 − 9
8
= 2.25
Si los datos vienen agrupados en una tabla de frecuencias, la expresión de la desviación media es:
𝜎𝑥 =
𝑥1 − 𝑥 𝑓1 + 𝑥2 − 𝑥 𝑓2 + … + 𝑥𝑛 − 𝑥 𝑓𝑛
𝑁
Ejemplo:
Calcular la desviación media de la distribución: Xi fi X1 . fi |𝒙 − 𝒙| |𝒙 − 𝒙|. fi
[10, 15] 12.5 3 37.5 9.286 27.858
[15, 20] 17.5 5 87.5 4.286 21.43
[20, 25] 22.5 7 157.5 0.714 4.998
[25, 30] 27.5 4 110 5.714 22.856
[30, 35] 32.5 2 65 10.714 21.428
21 457.5 98.57

𝑥 =
457.5
21
= 21.786
𝐷𝑥 =
98.57
21
= 4.69
Desviación estándar o típica
La desviación estándar o desviación típica es una medida que ofrece información sobre la dispersión media de una
variable. La desviación estándar es siempre mayor o igual que cero. Para entender este concepto necesitamos analizar 2
conceptos fundamentales:
 Esperanza matemática, valor esperado o media: Es la media de nuestra serie de datos.
 Desviación: La desviación es la separación que existe entre un valor cualquiera de la serie y la media.
Ahora, entendiendo estos dos conceptos la desviación típica se calculará de forma similar a la media. Pero tomando
como valores las desviaciones. Y aunque este razonamiento es intuitivo y lógico tiene un fallo que vamos a comprobar
con el siguiente gráfico.

En la imagen anterior tenemos 6 observaciones, es decir, N = 6. La media de las observaciones está representa por la
línea negra situada en el centro del gráfico y es 3. Entenderemos por desviación, la diferencia que existe entre
cualquiera de las observaciones y la línea negra. Así pues, tenemos 6 desviaciones.
1. Desviación (2 – 3) = -1 4. Desviación (4 – 3) = 1
2. Desviación (4 – 3) = 1 5. Desviación (2 – 3) = -1
3. Desviación (2 – 3) = -1 6. Desviación (4 – 3) = 1

Como podemos ver si sumamos las 6 desviaciones y dividimos entre N (6 observaciones), el resultado es cero. La lógica
sería que la desviación media fuese de 1. Pero una característica matemática de la media respecto a los valores que la
forman es, precisamente, que la suma de las desviaciones es cero. ¿Cómo arreglamos esto? Elevando al cuadrado las
desviaciones.
La formula de la desviación típica es:
𝜎 = 𝑖
𝑁
(𝑥𝑖 − 𝑥)2
𝑁
Ejemplo:
Vamos a ver un ejemplo de cómo calcular la desviación típica. Vamos a calcular la desviación típica de las notas del
Amigo C:
Amigo A: 3, 6, 5, 7, 4
Amigo B: 8, 9, 1, 4, 3
Amigo C: 10, 2, 2, 1, 10
Amigo D: 4, 7, 6, 4, 4

Se tendrá la siguiente tabla:
La suma de las distancias al cuadrado es 50 y lo tenemos en la última fila de la quinta columna. El número total de datos
es 5, que lo tenemos al final de la segunda columna:
𝜎 =
50
5
= 10 = 3.16
Dato Frecuencia
absoluta fi
Xi . Fi Distancia
𝒙𝒊 − 𝒙
(𝒙𝒊 − 𝒙𝟐
1 1 1 4 16
2 2 4 3 9
10 2 20 5 25
Total 5 25 12 50

Por tanto, la desviación típica para el Amigo C es 3,16. Las desviaciones típicas para el resto de los amigos
son:
 Desviación típica Amigo A = 2
 Desviación típica Amigo B = 3.03
 Desviación típica Amigo D = 1.26
El Amigo A y el Amigo D tenían la misma desviación media, pero ahora, cada uno tiene una desviación típica
distinta, ya que esta determina de forma única la dispersión, por lo que con más seguridad podemos decir
que el Amigo D tiene los datos menos dispersos de todos.

Medida de asimetría
La asimetría es la medida que indica la simetría de la distribución de una variable respecto a la media
aritmética, sin necesidad de hacer la representación gráfica. Los coeficientes de asimetría indican si hay el
mismo número de elementos a izquierda y derecha de la media. Existen tres tipos de curva de distribución
según su asimetría:
 Asimetría negativa: la cola de la distribución se alarga para valores inferiores a la media.
 Simétrica: hay el mismo número de elementos a izquierda y derecha de la media. En este caso,
coinciden la media, la mediana y la moda. La distribución se adapta a la forma de la campana de Gauss,
o distribución normal.
 Asimetría positiva: la cola de la distribución se alarga (a la derecha) para valores superiores a la media.

Coeficiente de asimetría
Coeficiente de asimetría de Fisher. Este coeficiente 𝐶𝐴𝐹 evalúa la proximidad de los datos a su media 𝑋.
Cuanto mayor sea la suma (𝑋𝑖 − 𝑋)3, mayor será la asimetría. Sea el conjunto X = (𝑥1, 𝑥2, … , 𝑥𝑁), entonces
la fórmula de la asimetría de Fisher es:
𝐶𝐴𝐹 =
𝑖=1
𝑁
(𝑥𝑖 − 𝑥)3
𝑁 . 𝑆𝑥
3
Siendo 𝑥 la media y 𝑆𝑥 la desviación típica.
Cuando los datos están agrupados o agrupados en intervalo, la fórmula del coeficiente de asimetría de
Fisher se convierte en:
𝐶𝐴𝐹 =
𝑖=1
𝑁
(𝑥𝑖 − 𝑥)3
. 𝑛𝑖
𝑁 . 𝑆𝑥
3
Siendo 𝑥𝑖 uno de los datos o, en datos agrupados en intervalos, la marca de clase, 𝑥 la media, 𝑛𝑖 la
frecuencia absoluta de 𝑥𝑖 o de cada intervalo i y 𝑆𝑥 la desviación típica.

- Si 𝑪𝑨𝑭 < 𝟎 : la distribución tiene una asimetría negativa y se alarga a valores menores que la media.
- Si 𝑪𝑨𝑭 = 𝟎 : la distribución normal.
- Si 𝑪𝑨𝑭 > 𝟎 : la distribución tiene una asimetría positiva y se alarga a valores mayores que la media.

Coeficiente de asimetría de Pearson. Este coeficiente 𝐶𝐴𝐹 mide la diferencia entre la media y la moda
respecto a la dispersión del conjunto X = (𝑥1, 𝑥2, … , 𝑥𝑁).
este procedimiento, menos usado, lo empleadores solamente en distribuciones unimodales y poco
asimétricas.
𝐶𝐴𝐹 =
𝑥 − 𝑀𝑜(𝑋)
𝑆𝑥
Siendo 𝑥 la media, 𝑀𝑜 (X) la moda y 𝑆𝑥 la desviación típica.
Si. 𝑪𝑨𝑷 < 𝟎 : la distribución tiene una asimetría negativa, puesto que la media es menor que la moda.
Si 𝑪𝑨𝑷 = 𝟎 : la distribución es simétrica.
Si 𝑪𝑨𝑷 > 𝟎 : la distribución tiene una asimetría positiva, ya que la media es mayor que la moda.

Coeficiente de variación
El coeficiente de variación, también denominado como coeficiente de variación de Pearson, es una medida
estadística que nos informa acerca de la dispersión relativa de un conjunto de datos. Es decir, nos informa al
igual que otras medidas de dispersión, de si una variable se mueve mucho, poco, más o menos que
otra.
Su cálculo se obtiene de dividir la desviación típica entre el valor absoluto de la media del conjunto y por lo
general se expresa en porcentaje para su mejor comprensión:
𝐶𝑉 =
𝜎𝑥
𝑋
Donde:
X = Variable sobre la que se pretende calcular la varianza.
𝜎𝑥 = Desviación típica de la variable X.
𝑋 = Media de la variable X en valor absoluto con 𝑥 ≠ 0.
El coeficiente de variación se utiliza para comparar conjuntos de datos pertenecientes a poblaciones
distintas. Si atendemos a su fórmula, vemos que este tiene en cuenta el valor de la media. Por lo tanto, el
coeficiente de variación nos permite tener una medida de dispersión que elimine las posibles distorsiones de
las medias de dos o más poblaciones.

A continuación, mostramos algunos ejemplos sobre esta medida de dispersión:
Comparación de conjuntos de datos de diferente dimensión
Se quiere comprar la dispersión entre la altura de 50 alumnos de una clase y su peso. Para comparar la
altura podríamos utilizar como unidad de medida metros y centímetros y para el peso el kilogramo.
Comparar estas dos distribuciones mediante la desviación estándar, no tendría sentido dado que se
pretenden medir dos variables cuantitativas distintas (una medida de longitud y una de masa).
Comparar conjuntos con gran diferencia entre medias
Imaginemos por ejemplo que queremos medir el peso de los escarabajos y el de los hipopótamos. El
peso de los escarabajos se mide en gramos o miligramos y el peso de los hipopótamos por lo general se
mide en toneladas. Si para nuestra medición convertimos el peso de los escarabajos a toneladas para que
ambas poblaciones estén en la misma escala, utilizar la desviación estándar como medida de dispersión no
sería lo adecuado. El peso medio de los escarabajos medido en toneladas sería tan pequeño que, si
utilizamos la desviación estándar, apenas habría dispersión en los datos. Esto sería un error dado que el
peso entre las diferentes especies de escarabajos puede variar de manera considerable.

Ejemplo de cálculo del coeficiente de variación
Pensemos en una población de elefantes y otra de ratones. La población de elefantes tiene un peso medio
de 5.000 kilogramos y una desviación típica de 400 kilogramos. La población de ratones tiene un peso medio
de 15 gramos y una desviación típica de 5 gramos. Si comparáramos la dispersión de ambas poblaciones
mediante la desviación típica podríamos pensar que hay mayor dispersión para la población de elefantes
que para la de los ratones.
Sin embargo, al calcular el coeficiente de variación para ambas poblaciones, nos daríamos cuenta de que es
justo, al contrario.
Elefantes: 400/5000 = 0,08
Ratones: 5/15 = 0,33
Si multiplicamos ambos datos por 100, tenemos que el coeficiente de variación para los elefantes es de
apenas un 8%, mientras que el de los ratones es de un 33%. Como consecuencia de la diferencia entre las
poblaciones y su peso medio, vemos que la población con mayor dispersión no es la que tiene una mayor
desviación típica.

Sesgo
Se han realizado comentarios previos sobre la relación que guardan la media, la mediana y la moda, pues
resulta interesante que a partir de los valores que tomen, la distribución puede representar o no cierta
simetría o sesgo.
El sesgo es el grado de asimetría o falta de asimetría de una distribución.
Dentro de las características más importantes que se pueden observar gráficamente, son las siguientes:
 Una curva es simétrica si las observaciones o datos son equidistantes con el valor máximo centrado en la
curva.
 Si la distribución tiene una cola más larga a la derecha del máximo que a la izquierda, la distribución
recibe el nombre de asimetría positiva, sesgada a la derecha o que tiene sesgo positivo.
 En el caso en que una distribución tenga una cola más larga a la izquierda, a la distribución se le
denomina asimetría negativa, sesgada a la izquierda o que tiene sesgo negativo.
 Una forma de estimar el sesgo o nivel de asimetría de una distribución es mediante la siguiente
expresión:
𝐴𝑠𝑖𝑚𝑒𝑡𝑟í𝑎 =
𝑥 − 𝑀𝑜
𝑆

Las operaciones que intervienen en el cálculo del sesgo, todas se calculan a partir del conjunto de datos. El
valor del sesgo puede ser el siguiente:

En lo que representa al valor máximo y mínimo de los datos, la distribución puede adoptar las siguientes
formas:
En cuanto a la moda, como es de tu conocimiento, representa el valor más alto o máximo de la curva del
polígono de frecuencias; como se ha estudiado, una distribución puede no tener moda, o bien puede
presentar más de una, la presencia de más de una moda indica que los datos no son homogéneos, las
formas que representan son las siguientes:

Los diferentes tipos de asimetría se pueden visualizar en las siguientes imágenes:

Análisis de Tendencias y Variabilidad de los Reportes
Estadísticos
Accidentes de trabajo en
un periodo de 5 años
Según la base de datos del MTPE, como
se puede observar en el siguiente
gráfico, el número de notificaciones de
trabajadores accidentados con
consecuencias fatales se ha mantenido
en un rango de 128 y 188. Por otro lado,
la información de esta base de datos
hace posible desagregar estas
estadísticas sobre trabajadores fallecidos
por variables como: edad, sexo, seguro
social, región y actividad económica.

Estadísticos
La base de datos sobre accidentabilidad laboral del MTPE
contiene información de los accidentes laborales, tanto
mortales como no mortales, reportados desde el año
2010 a la actualidad. Los reportes sobre accidentabilidad
se hacen por trabajador lesionado; es decir, con esta es
posible calcular el número de total de accidentados, más
no el número de accidentes laborales, ya que en un
accidente se puede lesionar más de una persona. En el
siguiente cuadro, se puede observar el total de accidentes
mortales y no mortales reportados, y notificados por el
MTPE, desde el año 2010 hasta parte del año 2017. Como
se puede observar, el número de accidentados no
mortales notificados ha ido aumentando en gran medida,
pasando de ser 4,731 en el año 2011; a ser 20,873 en el
año 2016. En cambio, el reporte de trabajadores
accidentados fallecidos se ha mantenido en un rango de
128 a 188, durante los últimos años.

Estadísticos
Se puede observar en el siguiente gráfico, respecto al
número de accidentes leves, este ha tenido un gran
crecimiento en el año 2016, alcanzando un total de
12,635 accidentes después de haberse reducido los
dos años anteriores. Mientras que, en el caso de los
accidentes incapacitantes, se han ido reduciendo en
los últimos 6 años, pasando de ser 1,456 en el año
2011 a ser 985 en el año 2016. Finalmente, respecto
a los accidentes fatales, han estado en un rango de
32 a 54 accidentes producidos en los últimos 6 años.
Cabe resaltar, la importancia de la salud ocupacional
en el sector minero, ya que es considerado una de las
actividades laborales más riesgosas.

ESTADISTICA APLICADA A LA SST.pptx

Recomendados

Recomendados

Más contenido relacionado

La actualidad más candente

La actualidad más candente (20)

Similar a ESTADISTICA APLICADA A LA SST.pptx

Similar a ESTADISTICA APLICADA A LA SST.pptx (20)

Más de Ingenieroanibal

Más de Ingenieroanibal (20)

Último

Último (20)

ESTADISTICA APLICADA A LA SST.pptx