medidas de tendencia central

MEDIDAS DE TENDENCIA
CENTRAL Y DISPERSIÓN
Luisa Montoya
Bioestadística
Bogotá, Colombia
Septiembre 2017

MEDIDA
Número que se calcula sobre la muestra y que
refleja cierta cualidad de la misma.

MEDIDAS CARACTERÍSTICAS
1. Medidas de tendencia central: Son medidas que nos
indican la posición que ocupa la muestra.
2. Medidas de dispersión: Se utilizan para describir la
variabilidad o esparcimiento de los datos de la muestra
respecto a la posición central.
3. Medidas de localización: Permiten hacerse una idea
acerca de la forma de la distribución de una variable y
su dispersión.

MEDIA ARITMÉTICA (PROMEDIO)
La media aritmética 𝑋 de un conjunto de
datos: 𝑥1, 𝑥2, … , 𝑥 𝑛 se define como:
𝑋 =
𝑖=1
𝑛
𝑥𝑖
𝑛
=
1
𝑛
𝑖=1
𝑛
𝑥𝑖

MEDIANA
La mediana tiene el objetivo de dividir el conjunto de
datos en dos partes iguales, el 50% de los datos son
inferiores a la mediana y el 50% superiores.
𝑀𝑒 =
𝑋 𝑛+1
2
𝑆𝑖 𝑛 𝑒𝑠 𝑖𝑚𝑝𝑎𝑟
𝑋 𝑛
2
+ 𝑋 𝑛
2+1
2
𝑆𝑖 𝑛 𝑒𝑠 𝑝𝑎𝑟

MODA
• Cuando la variable de interés es de naturaleza discreta, la
moda (Mo) corresponde al dato de la muestra que tiene mayor
frecuencia (dato que más se repite).
• Cuando se trata de una variable de naturaleza continua, la
moda corresponde al(os) valor(es) alrededor del(os) cual(es) se
produce una mayor concentración de datos, es decir, a los
puntos de mayor densidad de frecuencia.

PERCENTILES, DECILES Y CUARTILES
 Los percentiles dividen la distribución en 100 partes
porcentualmente iguales (𝑃1, … , 𝑃20 , … , 𝑃50, … , 𝑃80, …).
 Por su parte los deciles dividen la distribución en 10
partes porcentualmente iguales (𝐷1, 𝐷2, … , 𝐷10).
 Los cuartiles dividen la distribución en 4 partes
porcentualmente iguales (𝑄1, 𝑄2, 𝑄3).

PERCENTILES
Son tres valores que dividen la muestra ordenada en cien partes
que contienen aproximadamente el mismo número de datos.
Para calcular los percentiles se identifica primero el intervalo y se
aplica la siguiente fórmula:
𝑃𝑥 = 𝐿𝑖𝑛𝑓 +
𝑥 − 𝐹 𝐿𝑖𝑛𝑓
𝑓𝑖
𝐶𝑖

Nótese que:
• 𝑃10 = 𝐷1
• 𝑃20 = 𝐷2
• 𝑃25 = 𝑄1
• 𝑃50 = 𝐷5 = 𝑄2 = 𝑀𝑒
• 𝑃75 = 𝑄3
• 𝑃100 = 𝐷10
ALGUNAS CONSIDERACIONES

¿POR QUÉ SE ESTUDIA LA DISPERSIÓN?
• Las medidas de tendencia central no trabajan solas,
deben apoyarse en alguna medida de dispersión.
• Un índice de dispersión pequeño indica baja
variabilidad, por ende el valor de tendencia central
será más confiable.
• Un índice de dispersión grande indica gran
variabilidad, esto implica que el indicador de
tendencia central sea poco confiable.

RANGO
Es sencillo de calcular pues solo utiliza dos valores.
“El rango es una medida insuficiente dado que sólo tiene
en cuenta 2 valores de los n disponibles en el conjunto de
observaciones”
“Es demasiado sensible a valores extremos”
𝑅𝑎𝑛𝑔𝑜 = 𝑀á𝑥 − 𝑀í𝑛

VARIANZA
El indicador de dispersión más usado en estadística es la
varianza y está definido como:
“Una desventaja de la varianza es que sus unidades no
coinciden con las unidades de la variable en estudio”
𝑆2 =
𝑖=1
𝑛
𝑥𝑖 − 𝑋 2
𝑛 − 1

DESVIACIÓN ESTÁNDAR
Cantidad promedio en que los valores observados
difieren de su media. Se define como la raíz cuadrada de
la varianza.
𝑆 = 𝑆2

RANGO INTERCUARTÍLICO (RIC)
Se calcula como la diferencia entre el tercer y el primer
cuartil.
RIC= 𝑄3 − 𝑄1

DISTRIBUCIONES DE
PROBABILIDAD DISCRETAS
Y CONTINUAS
Luisa Montoya
Bioestadística
Bogotá, Colombia
Septiembre 2017

La distribución de probabilidad de la variable aleatoria
binomial 𝑋, determina el número de éxitos en n ensayos
independientes, esta es:
𝑓 𝑥 =
𝑛
𝑥
𝑝 𝑥
1 − 𝑝 𝑛−𝑥
𝑥 = 0, 1, 2, … , 𝑛
DISTRIBUCIÓN BINOMIAL

• En un centro de salud se encuentra que las citologías tienen una
probabilidad del 3% de tener resultado insatisfactorio. Si se realiza el
tamizaje a un grupo de 7 mujeres:
a) ¿Cuál es la probabilidad de que ninguna citología sea insatisfactoria?
b) ¿Cuál es la probabilidad que al menos 2 sean insatisfactorias?
c) ¿Cuál es la probabilidad de que máximo 3 sean insatisfactorias?
• Un laboratorio afirma que una droga causa efectos secundarios en 1 de
cada 100 pacientes. Para contrastar esta afirmación, otro laboratorio elige
al azar a 20 pacientes a los que aplica la droga. ¿Cuál es la probabilidad de
que por lo menos 5 pacientes presenten efectos secundarios?
DISTRIBUCIÓN BINOMIAL: EJEMPLOS

Distribución muy útil en la que la variable aleatoria
representa el número de eventos independientes que
ocurren a una velocidad constante en el tiempo o espacio.
Algunos ejemplos comunes son:
• Número de pacientes que llegan por día a urgencias
• Número de viviendas por km
• Número de personas por 𝑚3 de tierra
DISTRIBUCIÓN POISSON

Sea 𝑋 una variable aleatoria que representa el número de
eventos aleatorios independientes que ocurren a una rapidez
constante sobre el tiempo o el espacio. Se dice entonces que
la variable aleatoria 𝑋 tiene una distribución de Poisson con
función de probabilidad:
𝑓 𝑋 =
𝜆 𝑥
𝑥!
𝑒−𝜆 ; 𝑥 = 0, 1, 2, …
DISTRIBUCIÓN POISSON

En una unidad de urgencias el número de ingresos tiene una
distribución Poisson de media 10.
• ¿Cuál es la probabilidad de que en un día cualquiera
ingresen a lo sumo 3 pacientes a la sala de urgencias?
• ¿Cuál es la probabilidad de que ingresen por lo menos 6
pacientes a la sala de urgencias?
DISTRIBUCIÓN POISSON: EJEMPLOS

El call center de un hospital para citas de consulta externa
recibe en promedio dos llamadas por minuto.
1. ¿Cuál es la probabilidad de que se reciban 5 llamadas en
dos minutos?
2. ¿Y de que se reciban no más de ocho llamadas en cinco
minutos?
3. ¿Cuál es la probabilidad de que se reciban por lo menos
100 llamadas en una hora?
DISTRIBUCIÓN POISSON: EJEMPLOS

La distribución normal es una de las distribuciones más importantes y de
uso más frecuente en la estadística, puesto que gran parte de la teoría fue
desarrollada inicialmente para variables con esta distribución.
La gran mayoría de variables aleatorias que se estudian en experimentos
físicos (alturas, pesos) son aproximadamente modelados por una
distribución normal.
Muchas distribuciones de probabilidad, incluyendo discretas, pueden ser
aproximadas por esta distribución (si se cumplen ciertas condiciones).
Aunque una variable no se distribuya normal, las sumas y promedios de
las variables, si se cumplen ciertas condiciones, tendrán una distribución
normal aproximada (Teorema Central del Límite).
DISTRIBUCIÓN NORMAL

1. Es simétrica respecto a la
media
2. La media, la mediana y la
moda son iguales
3. El área total bajo la curva
debe sumar la unidad
DISTRIBUCIÓN NORMAL:
CARACTERÍSTICAS

Una variable aleatoria 𝑋 tiene distribución normal con
parámetros 𝜇 (media) y 𝜎2 (varianza) si su función está dada
por:
𝑓 𝑥 =
1
2𝜋𝜎2
𝑒
−
1
2𝜎2 𝑥−𝜇 2

Si 𝑋 tiene una distribución normal con media 𝜇 y desviación estándar 𝜎,
entonces:
𝑍 =
𝑋 − 𝜇
𝜎
Tiene una distribución normal estándar así:
𝑃 𝑎 ≤ 𝑋 ≤ 𝑏 = 𝑃
𝑎 − 𝜇
𝜎
≤ 𝑍 ≤
𝑏 − 𝜇
𝜎
Al estandarizar, cualquier probabilidad en la que interviene 𝑋 se puede
expresar como una probabilidad asociada a una variable aleatoria 𝑍
(Normal Estándar)

Estandarización para una muestra:
𝑍 =
𝑋 − 𝑋
𝑠
𝑛

La longitud del fémur de cualquier feto a las 25 semanas de
gestación sigue una distribución Normal con media 44𝑚𝑚 y
varianza 4𝑚𝑚. Si se toma una embarazada al azar con 25
semanas de gestación:
• ¿Qué probabilidad hay de que el fémur de su feto mida más de 46𝑚𝑚?
• ¿Qué probabilidad hay de que el fémur de su feto mida menos de
49𝑚𝑚?
• ¿Qué probabilidad hay de que el fémur de su feto esté entre
45𝑚𝑚 𝑦 48𝑚𝑚?
DISTRIBUCIÓN NORMAL: EJEMPLO

Un profesor ha calculado que el tiempo invertido por los
estudiantes en hacer su examen sigue una distribución normal
de media 150 minutos y una desviación estándar de 40
minutos.
a) Si el examen termina en 3 horas, ¿Cuál es la probabilidad de
que un estudiante no alcance a resolverlo completamente?
b) Si el examen durara 2 horas, ¿Cuál es la probabilidad de que
un estudiante no lo alcance a resolver completamente?
DISTRIBUCIÓN NORMAL: EJEMPLO

Describen la variabilidad que presentan variables que se utilizan en los
procesos de inferencia.
• Distribución t de student: Se utiliza para calcular probabilidades
relacionadas con distribuciones normales cuando el desconocimiento
de la varianza poblacional impide utilizar la distribución normal
estándar.
• Distribución 𝜒2
de Pearson: Se utiliza para explicar la variabilidad que
presenta la varianza muestral de muestras obtenidas de poblaciones
normales.
• Distribución F de Snedecor: Describe la variabilidad que presenta el
cociente de dos varianzas muestrales obtenidas de poblaciones
normales independientes y con la misma varianza poblacional.
DISTRIBUCIONES ESPECIALES

INTERVALOS DE CONFIANZA Y
PRUEBAS DE HIPÓTESIS
Luisa Montoya
Bioestadística
Bogotá, Colombia
Septiembre 2017

RAMAS DE LA ESTADÍSTICA
ESTADÍSTICA
DESCRIPTIVA
ESTADÍSTICA
INFERENCIAL

INFERENCIA ESTADÍSTICA
INFERENCIA
ESTADÍSTICA
Pruebas de
Hipótesis
Estimación
Correlación
Análisis de
Regresión

INFERENCIA ESTADÍSTICA
ESTIMACIÓN
Puntual
Intervalos
CONTRASTE
Pruebas de
hipótesis

ESTIMADOR VS PARÁMETRO
PARÁMETRO: Característica
medible sobre la población.
ESTIMADOR: Característica
medible sobre la muestra.

ESTIMACIÓN
Procedimiento estadístico en el cual se logra
una valoración de un indicador asociado a una
población no medida, mediante el estudio de
una muestra aleatoria.
“Si el procedimiento de muestreo es adecuado y
la característica no es muy variable, se
esperaría que el estimador brinde la mejor idea
del parámetro”

ERROR DE MUESTREO
Se define como la diferencia entre el valor del
estimador y el valor real del parámetro.

TIPOS DE ESTIMACIÓN
Se intenta dar estimaciones de los parámetros
desconocidos sin hacer hipótesis previas sobre
los posibles valores de los mismos.
1. Estimación puntual
2. Estimación por intervalos

ESTIMACIÓN PUNTUAL
• Se usa un valor numérico para estimar un
parámetro, es decir, se asigna al parámetro el
valor obtenido en un estadístico.
• Es el tipo de estimación más sencillo, ya que
se vale del valor del estadístico mas
adecuado para estimarlo.

ESTIMACIÓN PUNTUAL: EJEMPLO
Suponga que su población está compuesta por
un conjunto de 5 niños, cuyas edades son:
7; 10; 8; 6; 9
De tal forma que el parámetro edad promedio
del conjunto de niños es:
𝜇 =
7 + 10 + 8 + 6 + 9
5
=
40
5
= 8

Si se decidiera tomar una muestra aleatoria de
2 de estos niños para realizar el cálculo del
respectivo estimador, se tendría las siguientes
posibles estimaciones:
“En muy pocas
ocasiones una
estimación puntual
acertará con
Exactitud”

Ejemplo: Si se permitiera un error de
estimación de ± 0.5 años, el porcentaje de
acierto será de 60%.
Es más adecuado
permitirse un rango de
variación de tal manera
que permita
mejorar el porcentaje
de acierto.

ESTIMACIÓN POR INTERVALOS
• En la estimación por intervalos, ya no se
busca dar un valor para el parámetro, la idea
es encontrar una banda de valores dentro del
cual se dice que el parámetro se encuentra
con un nivel de confianza establecido.
• La idea es que al definir el intervalo 𝐿1, 𝐿2 ,
la probabilidad de encontrar el verdadero
valor de dicho parámetro sea de 1 − 𝛼 .

REQUISITOS PARA CONSTRUIR UN IC
Se requiere:
1. Una muestra aleatoria de la población en
estudio
2. Un estimador del parámetro a estudiar
3. Un nivel de confianza

IC PARA PROMEDIOS
𝑥 − 𝑧 𝛼
2
𝑠
𝑛
; 𝑥 + 𝑧 𝛼
2
𝑠
𝑛
𝑥 − 𝑡 𝑛−1,𝛼/2
𝑠
𝑛
; 𝑥 + 𝑡 𝑛−1,𝛼/2
𝑠
𝑛
MUESTRAS GRANDES
MUESTRAS
PEQUEÑAS

EJERCICIO EN CLASE
Se requiere estimar el estado de depresión de una comunidad, para ello se
ha tomado una muestra aleatoria de 45 individuos a quienes se les aplicó una
escala de depresión (mayor puntaje significa mayor depresión). Los
siguientes son los datos obtenidos:
2 5 6 8 8 9 9 10 11 11 11 13 13 14 14 14 14 14 14 15 15 16 16 16 16 16 16 16
16 17 17 17 18 18 18 19 19 19 19 19 19 19 19 20 20
Dar una estimación puntual y por intervalo (al 90% de confianza) para el nivel
medio de depresión de esta comunidad.

IC PARA PROPORCIONES
𝑝 − 𝑧 𝛼
2
𝑝 1 − 𝑝
𝑛
; 𝑝 + 𝑧 𝛼
2
𝑝(1 − 𝑝)
𝑛
MUESTRAS GRANDES O PEQUEÑAS

EJERCICIO EN CLASE
En un estudio de prevalencia de factores de riesgo en una
cohorte de 412 mujeres mayores de 15 años en la ciudad de
Cali, se encontró que el 17.6% eran hipertensas. Calcular un
intervalo de 95% de confianza para la proporción de mujeres
hipertensas.

PRUEBAS DE HIPÓTESIS
Otra manera de hacer inferencia es haciendo
una afirmación acerca del valor de un
parámetro de la población.
Esta afirmación puede basarse en apreciaciones
o experiencias anteriores que serán contrastada
con la evidencia que se obtenga a través de la
información contenida en la muestra. Esto se
conoce como Prueba de Hipótesis.

CONSTRUCCIÓN DE HIPÓTESIS
El valor preestablecido de un parámetro va en la
hipótesis nula, este esta dado por estudios
previos, análisis de expertos u otro tipo de
fuente.
El valor que usted como investigador quiere
verificar va en la hipótesis alterna, ya que esa
afirmación va en contra a lo que se conoce del
parámetro.

NIVEL DE SIGNIFICANCIA
El nivel de significancia es una probabilidad, que
indica que tan plausible es rechazar una
hipótesis nula que es verdadera.
Esta probabilidad debe ser pequeña, ya que
rechazar una hipótesis nula que es verdadera
seria un error.

TIPOS DE ERROR
Hablamos anteriormente que existe la
posibilidad de rechazar una hipótesis que sea
verdadera, pero también existe la posibilidad de
no rechazar una hipótesis que es falsa.
Este tipo de errores se conocen como Error Tipo
1 y Error Tipo 2 respectivamente.

TIPOS DE ERROR
El siguiente cuadro muestra las posibles
acciones que un investigador puede enfrentar
en una prueba de hipótesis:

TIPOS DE ERROR
Se tiene por definición que la probabilidad de cometer un Error
Tipo I se define como 𝛼 y la probabilidad de cometer un Error
Tipo II es 𝛽 y se define como:
Otro concepto importante derivado es el de potencia, definida
como la probabilidad de escoger 𝐻1 cuando esta es cierta y se
define como:

TIPOS DE ERROR
Se debe tener en claro este concepto de error y cuando se
puede presentar cada uno de estos:

La prueba chi-cuadrado de Pearson es considerada como una
prueba no paramétrica que mide la discrepancia entre una
distribución observada y otra teórica (esperada), indicando en
qué medida las diferencias existentes entre ambas, de haberlas,
se deben al azar en el contraste de hipótesis.
𝜒2 =
𝑜 − 𝑒 2
𝑒
PRUEBA CHI-CUADRADO

La prueba chi-cuadrado se utiliza con dos tipos de hipótesis que
se denominan:
a) Pruebas de independencia: Cuando queremos averiguar si dos
variables son independientes.
b) Pruebas de bondad de ajuste: Cuando queremos comprobar si
una variable, tiene una determinada función de probabilidad.
PRUEBA CHI-CUADRADO

Se hizo una encuesta a 300 personas, 100 mujeres y 200
hombres, y se les preguntó si eran fumadores activos.
Fuman No fuman Total
Mujeres 20 80 100
Hombres 40 160 200
Total 60 240 300
¿El ser fumador es independiente del sexo?
PRUEBA CHI-CUADRADO: EJEMPLO

BIBLIOGRAFÍA
Wayne D. Estadística Descriptiva. En: Daniel 4ª
Edición. Bioestadística: Base para el Análisis de las
Ciencias de la Salud. Limusa Wiley. p.15 -56.
Martínez González MA, de Irala Estévez J, López
Aspiazu I. Procedimientos Descriptivos. En:
Martínez González MA, De Irala J, Faulín Fajardo FJ.
Bioestadística Amigable. Madrid: Díaz de Santos;
2001. p.11 -59.

BIBLIOGRAFÍA
Wayne D. Distribuciones de probabilidad. En: Daniel
4ª Edición. Bioestadística: Base para el Análisis de
las Ciencias de la Salud. Limusa Wiley. Cap 4. p. 83 -
123.
Martínez González MA, de Irala Estévez J, López
Aspiazu I. Contraste de hipótesis. En: Martínez
González MA, De Irala J, Faulín Fajardo FJ.
Bioestadística amigable. Madrid: Díaz de Santos;
2001. p.117-41

BIBLIOGRAFÍA
Macchi RL. Estimación de parámetros. En: Macchi RL.
Introducción a la estadística en las ciencias de la
salud. Bogotá, Buenos Aires, Caracas, Madrid, México, Sao
Paulo: Editorial Médica Panamericana; 2014. p. 55-66
Macchi RL. Prueba de hipótesis: generalidades. En: Macchi
RL. Introducción a la estadística en las ciencias de la
salud. Bogotá, Buenos Aires, Caracas, Madrid, México, Sao
Paulo: Editorial Médica Panamericana; 2014. p. 67-72.

medidas de tendencia central

Recomendados

Recomendados

Más contenido relacionado

La actualidad más candente

La actualidad más candente (20)

Similar a medidas de tendencia central

Similar a medidas de tendencia central (20)

Último

Último (20)

medidas de tendencia central