1. Estadística Descriptiva
1.1 Medidas de Tendencia Central: Media; Mediana; Moda
1.2 Medidas de Dispersión: Rango; Desviación estándar; Varianza
1.3 Medidas de Forma: Curtosis; Sesgo
1.4 Resumen numérico de datos con Excel
TEMA 1.
Profesor./ Investigador . Dr. Ricardo Hernández Pérez
Duración en horas del curso : 30 horas
Instituto Tecnológico de Zacatepec
Dirección
TEMARIO DE ESTADÍSTICA PARA EL EXAMEN DE
ADMISIÓN
2. 1.1 Medidas de Tendencia Central: Media; Mediana; Moda
¿Ha realizado algún análisis estadístico en
su trabajo, explique??
“La Bioestadística es un recurso para dar Rigor Científico a
un artículo que NO lo tiene????”.
Podría explicar el siguiente planteamiento:
¿o es el Rigor Científico lo que impone el uso de la Bioestadística?
3. Estadística descriptiva: es una disciplina que se encarga
de recoger, almacenar, ordenar, realizar tablas o gráficos
y calcular parámetros básicos sobre el conjunto de
datos.
La estadística descriptiva se diferencia de la estadística
inferencial. La primera ofrece información sobre un conjunto de
un conjunto de datos completo, mientras que la segunda ofrece
conclusiones generales a partir de una muestra de toda una
población.
4. Es describir los datos observados de forma sintética y significativa
para poder analizarlos mejor. Es recoger observaciones sobre
sujetos con una determinada propiedad y traducir estas
observaciones en números que proporcionen información sobre
dicha propiedad.
Objetivo de la estadística descriptiva
En resumen, su objetivo es estructurar y representar
la información contenida en los datos.
5. Variable cuantitativa: Hace referencia a una medida
cuantitativa. Ejemplos: la altura de una persona en centímetros
o el peso de una persona en kilogramos.
Dentro de la estadística descriptiva, podemos describir los
datos de manera cualitativa o cuantitativa.
Variable cualitativa: Hace referencia a una cualidad. Ejemplo: el
color de ojos de una persona o el color de pelo
6. Si tuviéramos que medir en un ensayo la Velocidad de Viento
(Km/h), la Humedad Relativa (%) y la Temperatura (°C), para
ver su efecto sobre la incidencia de Cólera Porcino en una
región o estado. ¿Que estaríamos midiendo, una Variable
Cuantitativa o Cualitativa??
Explique sobre el siguiente caso:
7.
8.
9. La estadística descriptiva comprende tres categorías principales:
Distribución de frecuencias, medidas de Tendencia Central y medidas
de Variabilidad.
Ejemplo de Estadifica
Descriptiva:
El 30% de los compañeros de clase de
Juan tienen los ojos azules, el 60%
castaños y el 10% restante negros.
Se trataría de una variable cualitativa
(color de ojos), pero estamos
describiendo la frecuencia con la que
aparece.
10. Distribución de frecuencias
Utilizada tanto para datos cualitativos y cuantitativos.
Representa la frecuencia o el recuento de los diferentes resultados en un
conjunto de datos o muestras.
La distribución de frecuencias se presenta normalmente en una tabla o un
gráfico. Cada entrada de la tabla o el gráfico va acompañada del recuento o la
frecuencia de aparición de los valores, en un intervalo, rango o grupo
específico.
La distribución de frecuencias es básicamente una presentación o un resumen
de datos agrupados que se han clasificado en función de clases mutuamente
excluyentes y del número de ocurrencias en cada clase respectiva. Permite una
forma más estructurada y organizada de presentar los datos en bruto.
•Los cuadros y gráficos más comunes utilizados en la presentación y visualización de la distribución de
frecuencias incluyen: •Histograma.
•Gráfico de barras.
•Gráfico de sectores.
•Tablas de probabilidad.
•Tablas bidimensionales.
•Gráfico de cajas
13. Histogramas de frecuencia partículas de virus TMV
Grafico de barras con plaguicidas mas frecuentes
Grafico de cajas o bigotes Tablas de probabilidad
14. Tendencia Central
La tendencia central es otro de los
tipos de estadística descriptiva, y se
refiere al resumen descriptivo de un
conjunto de datos utilizando un único
valor que refleja el centro de la
distribución de los datos.
Las medidas de tendencia central
también se conocen como medidas de
localización central.
La media, la mediana y la moda son
consideradas las medidas de tendencia
central.
15. Se considera la medida de tendencia central más
popular, es el valor medio o más común en un
conjunto de datos.
La media
La mediana se refiere a la puntuación media de un conjunto de
datos en orden ascendente.
La mediana
La moda se refiere a la puntuación o valor más frecuente
en un conjunto de datos.
La moda
Tendencia Central
18. 1.2 Medidas de Dispersión: Rango; Desviación
estándar; Varianza
19. El rango de una variable estadística se define como la diferencia entre el mayor y el menor valor de la
variable.
El rango de los datos se da como la diferencia entre los
valores máximo y mínimo de las observaciones en los datos.
Se exponen tres medidas de dispersión muy utilizadas
para datos no agrupados:
Rango
Desviación Standard
Varianza
Medidas de Dispersión
Ejemplo.
Calcular el rango de las siguientes edades (en años) de alumnos del grupo 470-A de la prepa 8 de la UNAM que son de
excelencia académica:
El valor mínimo es 14 años y el valor máximo es 18, por lo tanto:
Rango= 18 años -14 años = 4 años
20. Es la diferencia entre el valor más grande y el más pequeño del conjunto de
datos.
Rango para datos no agrupados.
Rango = Valor máximo - Valor mínimo
R = 64 – 12 = 52
Rango para datos agrupados:
R = límite superior de la última clase - límite inferior de la primera clase
R = 10.5 – 5.2 = 5.3
Rango
21.
22. EJEMPLO
Rta/ La mayor Dispersión la
tiene el 2do Jugador Vicioso
1) CV= 30/240 *100
= 12,5
2) CV= 3/5*100
= 60
23. DESVIACIÓN ESTÁNDAR
La desviación estándar es la medida de dispersión más común, que indica qué tan dispersos
están los datos con respecto a la media. Mientras mayor sea la desviación estándar, mayor será
la dispersión de los datos.
Una desviación estándar grande indica que los puntos están lejos de la media, y una desviación
pequeña indica que los datos están agrupados cerca de la media.
La fórmula para calcular la desviación estándar es:
24.
25. Ejemplo
Este valor se interpreta como que la media de las diferencias cuadráticas de los siete datos
con respecto a su media aritmética es alta, esto significa que las edades son muy dispersas.
26.
27. Ejemplo 1:
Calcular la varianza y la desviación estándar de una población de
niños a partir de la siguiente tabla:
•Calculamos el número de elementos.
•Calculamos las marcas de clase.
•Calculamos la media.
•Calculamos la varianza.
•Calculamos la desviación estándar , que es la raíz cuadrada de la varianza.
SOLUCIÓN
En este caso, nos dicen que los datos pertenecen a una población de niños, por lo tanto, usaremos las
fórmulas de la población.
Primero calculamos el número de elementos de la población N:
Con ayuda de la tabla, calculamos la suma de las
frecuencias fi.
28. Ahora sí, calculamos N.
Como segundo paso, calcularemos las marcas de clase. Recordemos que la marca de clase xi, es el punto
medio del límite inferior y el límite superior de cada intervalo. Se calcula con la siguiente fórmula:
Agregamos una columna más a nuestra tabla para la marca de
clase xi:
Nota: Recuerden que cuando se pone [ se debe considerar desde el
mismo número posterior al corchete. Ej. [0-2), significa que
consideraremos al 0.
Como tercer paso, calculamos la media poblacional µ:
Agregamos una columna más a nuestra tabla, dónde colocaremos los valores de xi・fi:
29. Aplicamos la fórmula:
La media poblacional µ tiene un valor de 4 años.
Como cuarto paso, calculamos la varianza de la
población:
Agregamos más columnas a nuestra tabla, buscando la forma de la fórmula de la varianza:
Recuerda que la varianza queda expresada en
unidades al cuadrado, por ello, nos queda en años al
cuadrado.
Como último paso, calculamos la desviación estándar, recordando que es la raíz cuadrada positiva de
la varianza.
32. Ejercicios
1. Calcular el rango del siguiente conjunto de datos: 1, 3, 5 y 7.
2. Las ganancias de la primera mitad del año pasado de una empresa que vende ositos de peluche en lata se muestran
en la tabla. Calcular el rango de las ganancias:
4. Hallar la desviación media del siguiente conjunto de datos: 2, 3, 6, 11, 13.
6. Calcular la desviación media de las longitudes de las barras de acero indicadas en la tabla:
8. Si el conjunto de datos formado por 1, 3, 5 y 7 corresponde a una población, calcular la varianza y la desviación
estándar.
9. Si el conjunto de datos formado por 1, 3, 5 y 7 corresponde a una muestra, calcular la varianza y la desviación
estándar
10. Los salarios por hora de una muestra de empleados de una tienda son: $12, $20, $16, $18 y $19. Calcular la
varianza y la desviación estándar
33. 11. Si el conjunto de datos formado por 12, 6, 7, 10, 11, 12, 6, 11, 14 y 11 corresponde a una población, calcular la
varianza y la desviación estándar.
12. Los siguientes datos son una muestra de la tasa de producción diaria de autos en una fábrica de Japón. Los datos
son: 17, 18, 21, 27, 21, 17, 22, 22, 20, 23, 18 El jefe de producción siente que una desviación estándar mayor a 3
autos por día indica variaciones de tasas de producción inaceptables. ¿Debe preocuparse por la tasa de producción
de la fábrica?
16. Calcular la varianza y desviación estándar de las edades de una población de niños a partir de la siguiente tabla:
18. Una población de alumnos tiene una estatura media de 180 cm con una desviación estándar de 18 cm. Estos
mismos alumnos, tienen un peso medio de 60 kg con una desviación estándar de 12 kg. ¿Cuál de las 2 variables
presenta mayor dispersión relativa?
19. El peso de una muestra de futbolistas de Perú tiene una media de 60 kg y una desviación estándar de 5 kg,
mientras que el peso de otra muestra de futbolistas de Colombia tiene una media de 85 kg y una desviación
estándar de 6,8 kg. ¿Cuál de las muestras de futbolistas tiene mayor dispersión relativa respecto al peso de los
jugadores?
34. 21. El siguiente conjunto de datos forma una población: 2, 4, 6, 8 y 10. Calcular:
a) El rango. b) La varianza. c) La desviación estándar. d) El coeficiente de variación. e) La desviación media.
https://youtu.be/gxqORJj_OKk
https://youtu.be/zAKZbfqP5MU
REVISAR LOS VIDEOS SIGUIENTES
Video, vamos a revisar un ejercicio muy interesante de
varianza y desviación estándar para datos agrupados
Video revisar otro ejercicio de varianza y desviación
estándar para datos agrupados por intervalos.
37. La curtosis es un valor numérico propio de cada distribución de frecuencias, que de acuerdo a la
concentración de los valores alrededor de la media, se clasifican en tres grupos:
Definición
Casi todos los valores de una variable aleatoria tienden a agruparse alrededor de un valor central como la
media. Pero en algunas distribuciones, los valores están más dispersos que en otras, dando como resultado
curvas más aplanadas o más esbeltas.
Se clasifican en
tres grupos:
38. –Leptocúrtica: en la cual los valores están muy agrupados alrededor de la
media, por lo que la distribución se presenta bastante apuntada y esbelta.
–Mesocúrtica: posee una concentración moderada de valores alrededor de
la media.
Platicúrtica: está distribución tiene una forma más ancha, pues los valores
tienden a estar más dispersos .
Símbolos y Ecuaciones
La curtosis puede tener cualquier valor, sin limitaciones. Su cálculo se lleva a cabo dependiendo de la
manera en que se entreguen los datos. La notación empleada en cada caso es la siguiente:
-Coeficiente de curtosis: g2
-Media aritmética: X o x con barra ( )
-Un valor i-ésimo: xi
-La desviación estándar: σ (Representada por la letra griega sigma en minúscula)
-El número de datos: N
-La frecuencia del valor i-ésimo: fi
-Marca de clase: mxi
Con esta notación, presentamos algunas de las fórmulas más utilizadas para encontrar la curtosis:
40. Curva A leptocúrtica, es
bastante homogéneo
Curva B es mesocúrtica,
indicativa de que los resultados
de la prueba siguieron una
distribución normal.
Curva C indican una mayor
heterogeneidad en el grupo,
41.
42.
43. ¿Qué significa que la curtosis sea positiva?
Una distribución con un valor positivo de curtosis indica que la distribución tiene colas más pesadas
que la distribución normal. Por ejemplo, los datos que siguen una distribución t tienen un valor
positivo de curtosis.
Si el coeficiente es positivo, la distribución se llama Leptocúrtica, más
puntiaguda que la anterior. Hay una mayor concentración de los datos en
torno a la media.
Si el coeficiente es negativo, la distribución se llama Platicúrtica y hay una
menor concentración de datos en torno a la media.
46. Sesgo
También llamado coeficiente de asimetría, y la curtosis, son un tipo de medición característicos de una serie de valores tanto
como las medidas de tendencia central o las medidas de dispersión.
Aclaremos un poco los términos: una distribución de probabilidad es simplemente un término estadístico para saber qué tan
probable es que una variable “X” asuma un valor “x”; pueden ser discretas, como la cantidad de personas en un evento o continuas
como un kilometraje recorrido.
Cuando tienes una variable continua (como la altura en centímetros, pies o pulgadas, el peso en gramos, kilogramos o libras o un
índice de inteligencia) medida y recogida a través una muestra, hay varias maneras de describir su distribución.
La media o promedio es una medida de tendencia central, la desviación estándar es una medida de dispersión de los datos. Pero
también hay medidas de forma y es donde la curtosis y el sesgo toman parte.
El sesgo mide si la cola de la distribución es más larga hacia la derecha o la izquierda, es decir, que tan “ladeada” o asimétrica
pudiera estar la curva de la distribución de datos.
47. ¿Cómo calcular el sesgo en Excel?
El procedimiento para calcular el sesgo o coeficiente de asimetría en Excel es muy similar al de la curtosis.
Ve a una celda vacía, haz clic en el menú “Fórmulas”, luego en “Más funciones”, busca la opción “Estadísticas” y por último ubica la
función “Coeficiente Asimetría”.
En el primer cuadro, selecciona las celdas que contienen tus datos, presiona "Enter" y ya tendrás el sesgo.
Utiliza los mismos dígitos del caso anterior para probar la fórmula del Sesgo.
Ingresa los dígitos 3, 4, 5, 2, 3, 4, 5, 6, 4, 7 en una columna en tu hoja de cálculo.
Presiona enter o cierra el paréntesis de la fórmula de ser necesario. El resultado para el coeficiente de asimetría en éste caso será
0,3595.
Según el resultado anterior, un sesgo mayor a “0” indica que hay asimetría hacia la derecha o una cola más larga hacia la derecha.
Si el resultado de la fórmula de sesgo es menos de 0, indica un sesgo hacia la izquierda o una cola más larga hacia la izquierda.
El sitio de soporte de Office nos muestra cómo usar de manera correcta la fórmula de coeficiente de asimetría o sesgo en Excel.
50. 1.4 Resumen numérico de datos con Excel
¿CÓMO CALCULAR LA TABLA DE FRECUENCIAS Y DIBUJAR EL HISTOGRAMA?
Solo tienes que ir a la pestaña Datos > y al final a la derecha tienes la
herramienta que has cargado antes Análisis de datos
Selecciona histograma. Con esta opción vas a crear la tabla de
frecuencias que mejor se ajusta a tus datos y el histograma.
51.
52. Excel se ha encargado de seleccionar el rango de clases óptimo para
tu caso.
Este es el resultado:
Puedes juntar las barras del histograma de manera muy sencilla. Selecciona
las barras >> botón derecho y ancho de intervalo 0.
53.
54. Puedes también decidir el intervalo de clases manualmente.
Por ejemplo he decido usar de 10 en 10 kg. He creado una
nueva columna con las clases personalizadas.
Para crear este nuevo histograma con los intervalos de clases de 10 en 10
solo tienes que introducir estos intervalos de clase en la opción Rango
de clases >
55.
56. Fíjate que ahora el histograma tiene los intervalos que yo he puesto. Fácil,
¿verdad?
¿CÓMO DIBUJAR EL DIAGRAMA DE PARETO?
Te puede interesar dibujar el diagrama de Pareto. Es decir ordenar las alturas
de las barras del histograma de mayor a menor. Sencillamente selecciona la
opción Pareto (Histograma Ordenado)…….
57. ¿CÓMO CREAR EL RESUMEN NUMÉRICO DE LOS DATOS EN
EXCEL?
Es muy sencillo. Se trata de calcular los números que pueden resumir
las propiedades del histograma:
• Centralidad
• Dispersión
58.
59. En cambio los cuartiles se calculan ordenando los datos de menor a mayor. Y agrupando en 4 grupos
iguales en número. Las fronteras son los cuartiles.
La mediana es el cuartil 2.
El rango intercuartílico es la diferencia entre el cuartil 1y 2.
60. ¿CÓMO COMPLETAR EL RESUMEN NUMÉRICO CON LA HERRAMIENTA PARA EL ANÁLISIS?
Aún puedes calcular más parámetros con la herramienta Análisis de Datos. ¡Vamos a ver
cuáles!
Para hacerlo: en la pestaña Datos >> Análisis de datos y después selecciona la opción
Estadística Descriptiva.
Selecciona el rango de entrada de datos como siempre y el rango de salida. Dónde quieres
pintar la tabla del resumen numérico:
61.
62. Esta opción sirve para obtener una tabla con distintas características
numéricas:
63. ¿CÓMO CONSTRUIR UN DIAGRAMA DE BARRAS CON VARIABLES CATEGÓRICAS?
Hasta ahora he mostrado las opciones con variables numéricas. Pero a veces
aparecen variables categóricas.
En este caso la variable sexo, es categórica. Tienes las categorías HOMBRE y MUJER.
El conceptos del diagrama de barras de variables categóricas es bastante sencillo.
La altura de cada barra será el número de personas de cada grupo o categoría. Para
hacerlo en Excel.
64.
65. Excel crea
automáticamente un
gráfico con tablas
dinámicas.
Recuerda que ya se
explicó en como
crear una tabla
dinámica .
En este caso
la tabla
dinámica consiste
en contar el
número de personas
de cada grupo.
66.
67. También lo puedes hacer manualmente con la función CONTAR y obtener la misma tabla y
hacer el gráfico de barras sencillamente.
Otra opción es hacer la tabla dinámica como tu quieras. Sólo tienes que seleccionar los
datos así:
Después Insertar >> Tabla Dinámica y seleccionar la celda donde quieres que se calcule
la tabla:
68.
69. Ahora teniendo seleccionada la tabla dinámica que acabas de crear puedes cambiar el tipo de cálculo:
Puedes calcular el peso total por cada categoría
o puedes calcular el promedio o media por cada categoría
…
Yo he calculado el promedio utilizando las opciones…
70.
71. Ejercicios I : Tema 1
1. La Komen Race for the Cure Series,… es la serie de carreras de 5.000 metros más
multitudinaria del mundo. La Susan G. Komen Breast Cancer Foundation recauda fondos para
financiar la lucha contra el cáncer de mama y para darla a conocer; apoya los proyectos de
educación, selección y tratamiento en comunidades de todo el mundo; alaba a las mujeres
que han sobrevivido y honra a las que han perdido la batalla contra la enfermedad. Halle las
medidas de la tendencia central de una muestra de cinco tiempos (en minutos) que hicieron
los participantes en una reciente Race for the Cure: 45, 53, 45, 50, 48.
2. En una muestra aleatoria de ocho empresas estadounidenses, los beneficios por acción
han experimentado este año las siguientes variaciones porcentuales en comparación con
el año pasado:
0% 0% 8,1% 13,6% 19,4% 20,7% 10,0% 14,2%. Calcule la media, la moda y la
mediana.
3. Los sueldos anuales de una muestra de cinco empleados son $39000,
$37500, $35200, $40400 y $100000. Calcule las medidas de tendencia
central.
72. Tratamt Peso inicial
Trat. Alcalino
NaOH)
Blanqueado Pretrat. HCL Rend %
T1R1 20g 8.00 6 5.95 29.75
T1R2 20g 8.40 6.5 5.9 29.5
T1R3 20g 8.40 6.4 5.9 29.5
Media
T2R1 20g 10.0 6 5.5 27.5
T2R2 20g 16.6 10.5 6.18 30.9
T2R3 20g 15.5 11.6 6.18 30.9
Media
T3R1 20g 10.5 7.80 6.80 34
T3R2 20g 15.7 10.40 9.70 48.5
T3R3 20g 13.3 9.70 8.60 43
Media
T4R1 20g 5.40 4.50 4.00 20
T4R2 20g 6.00 4.20 3.63 18.1
T4R3 20g 6.70 4.90 4.20 21
Media
Ejercicios II : Tema 1
Ordene los datos de la Tabla, halle la Media del Rendimiento de Celulosa obtenido en tres etapas del
proceso: (Tratamiento Alcalino, Tratamiento con Hipoclorito (NaOH), y PreTrat (HCl). Confeccione Gráficos
para comprender el proceso y la diferencia de los Tratamientos cuando fue empleado un tamizado de las
muestras [T1 (0 malla), T2. (10 malla), T3 (30 malla) y T4 (50 malla)]. Interprete su Grafico.?.
To link to this article: https://doi.org/10.1080/03067319.2021.1972991... Rice husk Var. ‘Morelos A-2010’ as an eco-friendly
alternative for the waste management converting them cellulose and nanocellulose