Este documento introduce conceptos básicos de estadística descriptiva e inferencial. Explica que la estadística descriptiva se encarga de la recopilación, organización y análisis de datos, mientras que la estadística inferencial deduce conclusiones sobre una población a partir de una muestra. También define términos clave como población, muestra, variables cualitativas y cuantitativas, y medidas de tendencia central y dispersión como la media, mediana, varianza y desviación estándar.
2. Probabilidad y estadística
Estadística Descriptiva Probabilidad
Generalidades Organización y
presentación de
datos
Principios de
probabilidad
Distribuciones de
probabilidad
Estadística Inferencial
Estimación
Pruebas de
hipótesis
3. Estadística
Ciencia que se encarga de la recopilación,
organización, tratamiento, análisis de datos y toma de
decisiones.
Fuente: Google Imágenes
6. Tipos de Estadística
• La Estadística descriptiva o deductiva:
– Trata del recuento, ordenación y clasificación de
los datos obtenidos de las observaciones:
• Construcción de tablas, gráficos y cálculo de parámetros.
• La Estadística inferencial o inductiva:
– Utiliza los resultados de la estadística
descriptiva y se apoya en el cálculo de
probabilidades para la obtención de conclusiones
sobre una población a partir de los resultados
obtenidos de una muestra.
6
8. Conjunto infinito o finito de
objetos o personas que tienen
características en común.
Recolección completa de
observaciones de interés
investigador.
todas las
para el
Subconjunto de la población de
interés.
Parte representativa de la población
estudiada ya que la población es
demasiado grande para ser analizada en
su totalidad.
Población Muestra
Fuente: Google Imágenes
9. Medida descriptiva de una característica
de la población total de todas las
para el
observaciones de interés
investigador.
Medida que describe una característica
estimación del parámetro de
de una muestra y sirve como una
la
población correspondiente.
Parámetro Estadístico
Fuente: Google Imágenes
10. Individuo u objeto sobre el cual se mide
una variable.
Unidad experimental
Fuente: Google Imágenes
12. Miden una cualidad. Se mide de
manera no numérica.
Miden una cantidad numérica. Se
expresan numéricamente.
Variable discreta: Adopta un número
contable o finito de valores.
Variable continua: Toma cualquier
valor en un intervalo dado.
Variable Cualitativa Variable Cuantitativa
13. Escalas de medición
Nominal Ordinal De razón
Intervalo
Clasificaciones que
se utilizan para datos
en categorías
distintas y
separadas.
Clasifican las
observaciones en
categorías con un
orden significativo.
Medidas en una
escala numérica en
la cual el valor de
cero es arbitrario
pero la diferencia
entre valores es
importante.
Medidas numéricas
en las cuales cero es
un valor fijo en
cualquier escala y
refleja la ausencia
total de la variable.
14. • Dicotómicas: Sólo hay dos categoría, que son
excluyentes una de la otra
Ejemplo: enfermo-sano, muerto-vivo, mujer-hombre
• Nominal: tiene mas de dos categorías y no hay orden
entre ellas.
Ejemplo: color de los ojos, grupo sanguíneo
• Ordinal: tiene varias categorías y hay orden entre
ellas.
Ejemplo: grado tumoral, calificación del riesgo en
anestesia.
Tipos de Variables Cualitativas
15. • Continuas: números infinito no numerables de
elementos. Tiene asociado el concepto de
medida, en unidades a veces fraccionarias.
Ejemplo: Presión arterial, Edad, peso.
• Discretas: números finitos o infinitos
numerables de elementos. Se asocia con el
concepto de conteo.
Ejemplo: N° de hijos, N° de casos de
tuberculosis por estado.
Tipos de Variables Cuantitativas
16. • Las descripciones numéricas de datos son
importantes. Dado un conjunto de n
observaciones :
• La estadística descriptiva nos ayuda
mediante el manejo de medidas de
tendencia central relativas a la posición
de los datos y medidas de dispersión
relativas a la variabilidad de los datos.
x , x ,....., x
1 2 n
Diferentes tipos de medidas
17. • Las medidas descriptivas más comunes de
tendencia central o posición son: la media
aritmética y la mediana
• Existen otras medidas de tendencia central
que en ocasiones pueden resultar de interés
tales como : la moda, los cuartiles, los
deciles, los percentiles, la media armónica,
la media geométrica y la media ponderada.
Medidas de Tendencia Central
18. Media Aritmética
• La media aritmética es simplemente el
promedio (también llamada media muestral
ya que generalmente se calcula en relación a
una muestra).
• Se calcula de la siguiente forma: si las
observaciones de una muestra de tamaño n
son x1, x2,…,xn entonces:
n
n
n
X
x i
i 1
x 1 x 2
.
.
. x n
19. Ventajas :
• Fácil de calcular e interpretar.
• En su cálculo intervienen todos los datos disponibles.
• Su valor es único para una serie de datos.
• Es el punto de equilibrio de la información.
Desventajas :
• No es representativa con pocos datos
• Se ve afectada por el grado de dispersión
• Es poco útil con datos muy heterogéneos
• No todos los valores contribuyen de igual forma ,los
mayores tienen más peso
Características de la media
20. si n es impar
si n es par
xn 1 2
• La mediana se suele definir como el valor
“más intermedio o central ” una vez que los
datos han sido ordenados en forma creciente.
Se suele denotar por Me. La forma más
general de calcular la mediana es la siguiente:
Me
xn 2 x(n 2)1
2
Mediana
21. Ventajas :
• Valor único que no se ve afectado por los extremos por ser
equidistante de ellos.
• Se localiza a la mitad de los datos , dejando el 50 % por arriba y
el 50 % por debajo de su valor.
• Es menos sensible a las variaciones de los datos.
• No se ve afectada por la dispersión de los datos.
Desventajas :
• No se emplea para hacer cálculos
• Utiliza muy poca información de los datos
• Cuanto más grande es la serie de datos , más complicado se
vuelve su determinación.
Características de la mediana
22. • La moda de un conjunto de observaciones es el
valor que más se repite, aquel cuya frecuencia
absoluta es máxima.
• Puede ser única, que haya más de una, o que
no exista.
• Cuando hay más de una , la distribución de los
datos se denomina acorde : bimodal , trimodal,
polimodal, etc.
Moda
23. Uso de : Media , Mediana y Moda
Nos brindan una idea muy clara de la “posición” de los
parámetros dentro de una distribución de datos.
• La media tiene el uso más frecuente y sencillo ,
tales como : talla media del mexicano, temperatura
histórica promedio , etc.
• La mediana es representativa en poblaciones
heterogéneas , tales como : distribución de salarios
, peso medio, etc.
• La moda literalmente tiene que ver con “estar de
moda” o lo que más se lleva , tal como: número de
individuos por casa en México, cantidad de
usuarios de ciertos equipos celulares , etc.
24. La forma de distribución de las observaciones puede variar ,
causando desviaciones de estas mediciones centrales , por eso
es conveniente el empleo conjunto de la media y la mediana en
una población o muestra.
Relación entre : Media,Mediana y Moda
La media se usa para distribuciones simétricas que no
tienen sesgo , mientras que la mediana es más
representativa cuando se tienen datos de distribución
sesgada.
25. • Las medidas descriptivas más comunes de
dispersión son: el rango, la varianza y la
desviación estándar .
• Existen otras medidas de dispersión que en
ocasiones pueden resultar de interés tales
como : rango semi-intercuartilar , rango
percentilar y coeficiente de variación.
Medidas de Dispersión
26. Rango
• El rango de la muestra es la medida de
variabilidad más sencilla entre todas las
mencionadas
• Como valor se define como la diferencia entre la
observación más grande y la más pequeña :
• Indica el ancho, recorrido o amplitud de valores .
Tiene como sus límites el valor mayor y el menor
en la distribución de datos.
xmin
r xmax
27. Ventajas :
• Fácil de determinar e interpretar.
• Nos indica los límites de nuestra información.
• Nos permite visualizar la amplitud de dispersión
de los valores de forma sencilla.
Desventajas :
• Ignora toda la información de la muestra
• No mide el grado de dispersión , solo su ancho
• No nos da una idea detallada de la información
de las observaciones.
Características del rango
28. Varianza
• Es una medida significativa de la dispersión de
las observaciones alrededor de la media.
• Se define como el promedio de las desviaciones
respecto a su media , elevadas al cuadrado :
n
n
i
2
s2
i1
(x x)
29. Ventajas :
• Fácil de calcular mediante su fórmula.
• Indica el grado y forma de dispersión de los
datos con respecto a la media.
• Depende de todas las mediciones.
Desventajas :
• Es impráctica por ser un término cuadrático de
poco sentido en la realidad.
• Es un número muy grande de referencia
matemática , pero sin valor concreto y de difícil
manejo comparativo.
Características de la Varianza
30. Desviación estándar
• Es una medida significativa de la dispersión de
las observaciones alrededor de la media.
• Se define como la raíz cuadrada del promedio de
las desviaciones respecto a su media , elevadas al
cuadrado ; es decir la raíz cuadrada de la
varianza :
n
i
i1
n
2
(x x)
31. Ventajas :
• Fácil de calcular mediante su fórmula y particularmente en
hojas de cálculo como Excel que lo hacen de forma
automática.
• Indica el grado y forma de dispersión de los datos con
respecto a la media.
• Depende de todas las mediciones.
• Muy práctica por usar los mismos valores de las unidades
que se analizan.
• Un valor grande indica que los datos se alejan mucho de la
media y un valor pequeño indica que se acercan a la media.
Desventajas :
• Si hacemos el cálculo manual , es complicado.
Características de la Desviación Estándar
32. • Las medidas centrales solo nos indican el valor medio
alrededor del cual se agrupan nuestros datos , pero
las de dispersión nos detallan la variación de las
observaciones en cuanto a forma y extensión.
• Nos muestran claramente la distancia entre los
datos y la media aritmética, además de que
dependen de todas las observaciones.
• Son únicas de una serie de datos y por eso se
denominan absolutas , pero pierden sentido de
comparación , para lo cual hay que usar el
coeficiente de variación (desviación estándar sobre
la media en porcentaje) .
Utilidad de las medidas de dispersión
33. • Las medidas de distribución nos permiten
identificar la forma en que se separan o
aglomeran los valores de acuerdo a su
representación gráfica. Son : la simetría y la
curtosis.
• Estas medidas describen la manera como los
datos tienden a reunirse de acuerdo con la
frecuencia con que se hallen dentro de la
información.
• Su utilidad radica en la posibilidad de
identificar las características de la
distribución sin necesidad de generar el
gráfico.
Medidas de Distribución
34. 3
s3
(1/ n)( i
(x x)
g1 i1
Simetría y Asimetría
• Si los valores de la serie de datos presentan
la misma tendencia (forma) a izquierda y
derecha de un valor central como la media
aritmética, se dice que es simétrica de lo
contrario será asimétrica.
• Para medir el nivel de asimetría se utiliza el
llamado Coeficiente de Asimetría de Fisher,
que viene definido:
n
35. • g1 < 0 (distribución asimétrica
negativa; existe mayor
concentración de valores a la
izquierda de la media que a su
derecha)
• g1 = 0 (distribución simétrica;
existe la misma concentración de
valores a la derecha y a la
izquierda de la media)
• g1 > 0 (distribución asimétrica
positiva; existe mayor
concentración de valores a la
derecha de la media que a su
izquierda)
Simetría y Asimetría
Los resultados pueden ser los siguientes:
36. • Los resultados pueden ser :
g2 = 0 (distribución mesocúrtica).
g2 > 0 (distribución leptocúrtica).
g2 < 0 (distribución platicúrtica).
Curtosis
4
s4
(x x)
(1/ n)(
• El Coeficiente de Curtosis analiza el grado de concentración que presentan los valores alrededor
de la zona central de la distribución.
• Se calcula con la siguiente fórmula :
n
g2 i1
3
i
37. • Existen 3 tipos de distribuciones según su grado
de curtosis se observar de la siguiente forma :
Curtosis
38. • Distribución mesocúrtica: presenta un grado de
concentración medio alrededor de los valores
centrales de la variable (el mismo que presenta
una distribución normal).
• Distribución leptocúrtica: presenta un elevado
grado de concentración alrededor de los valores
centrales de la variable.
• Distribución platicúrtica: presenta un reducido
grado de concentración alrededor de los valores
centrales de la variable.
Tipos de Curtosis