SlideShare una empresa de Scribd logo
1 de 32
Descargar para leer sin conexión
Cecilia Larraín R Estadística Descriptiva Página 1
S 1Estadística Descriptiva Univariada
Organización de los datos
La estadística descriptiva, entrega las técnicas que permiten condensar
grandes grupos de datos mediante el uso de tablas de frecuencias,
gráficos y medidas de resumen como media, desviación estándar,
correlación.
d resume
Tabla o distribución de La presentación gráfica
frecuencias puede revelar de un
Es una tabla que constituye vistazo las
el resumen básico de principales
los datos características
de un conjunto
de datos
Descripción estadística de una variable cualitativa
Gráficos
- Sectorial
- Barras
Separadas
- Diagrama
de Pareto
- Pictograma
Medida de resumen
Moda: es el dato o
modalidad de mayor
frecuencia ≡ dato
más representativo
Cecilia Larraín R
Ejemplo
Reporte de la inspección final de
defectos de 150 productos para la
línea de armado A12.
DATOS DIRECTOS (brutos)
Rayado Manchado Manchado Manchado
Abollado Astillado Doblado Manchado
Astillado Rayado Manchado Rayado
Astillado Astillado Manchado Manchado
Otros Astillado Astillado Abollado
Manchado Manchado Rayado Astillado
Rayado Rayado Manchado Manchado
Astillado Rayado Abollado Manchado
Doblado Manchado Manchado Astillado
Rayado Manchado Manchado Doblado
Rayado Manchado Doblado Abollado
Manchado Manchado Astillado Manchado
Manchado Manchado Astillado Rayado
Otros Otros Rayado Doblado
Abollado Rayado Manchado Astillado
Manchado Manchado Astillado Manchado
Rayado Manchado Rayado Rayado
Manchado Rayado Manchado Rayado
Otros Astillado Manchado Astillado
Rayado Rayado Abollado Manchado
Doblado Astillado Manchado Rayado
Doblado Manchado Abollado Rayado
Rayado Manchado Rayado Rayado
Manchado Doblado Manchado Rayado
Manchado Manchado Manchado Manchado
Rayado Astillado Astillado Rayado
Abollado Manchado Rayado Manchado
Manchado Manchado Rayado Rayado
Rayado Manchado Manchado Rayado
Rayado Astillado Astillado Astillado
Datos en bruto: Datos registrados en la
secuencia en que fueron recolectados,
antes de ser procesados u ordenados
Estadística Descriptiva
Ejemplo. Defectos_Linea A12
eporte de la inspección final de
defectos de 150 productos para la
Manchado
Manchado
Rayado
Manchado
Abollado
Astillado
Manchado
Manchado
Astillado
Doblado
Abollado
Manchado
Rayado
Doblado
Astillado
Manchado
Rayado
Rayado
Astillado
Manchado
Rayado
Rayado
Rayado
Rayado
Manchado
Rayado
Manchado
Rayado
Rayado
Astillado
: Datos registrados en la
fueron recolectados,
antes de ser procesados u ordenados
Tabla de frecuencias
Defecto del
producto Frecuencia
Abollado 8
Astillado 23
Doblado 12
Manchado 56
Otros 6
Rayado 45
Total 150
¿Cuál es la unidad de observación?
Gráfico de barras separadas
Frecuencia
60
50
40
30
20
10
0
56
12
23
8
Defecto del producto
ManchadoDobladoAstilladoAbollado
El defecto más frecuente en la
línea de armado es Manchado
Moda = manchado
Página 2
Tabla de frecuencias
Porcentaje
5,3
15,3
8,0
37,3
4,0
30,0
100,0
¿Cuál es la unidad de observación?
Gráfico de barras separadas
6
45
Defecto del producto
OtroRayadoManchado
El defecto más frecuente en la
línea de armado es Manchado
Cecilia Larraín R
Defectos del
producto
Frecuencia absoluta
Abollado
Astillado 23
Doblado 12
Manchado 56
Rayado
Otros 45
Total 150
Frecuencia absoluta (ni):
Frecuencia relativa (fi): Es la proporción de la categoría o modalidad respecto
del total de datos. i = 1,2, …,k
Gráfico sectorial:
Círculo dividido en
porciones que
representan las
frecuencias relativas
o porcentajes de una
población o muestra
perteneciente a
diferentes categorías.
Como sabemos, un
círculo contiene 360
grados. Para construir un
gráfico sectorial, se
multiplica por 360 la
frecuencia relativa de
cada categoría, para
obtener la medida del
ángulo correspondiente
¿Cuál es Defecto más frecuente?
Estadística Descriptiva
Frecuencia absoluta
ni
Frecuencia Relativa
fi
8 0,053
23 0,153
12 0,080
56 0,373
6 0,040
45 0,300
150 1,000
): Número de veces que ocurre la modalidad i.
): Es la proporción de la categoría o modalidad respecto
del total de datos. i = 1,2, …,k
Defectos del producto
¿Cuál es Defecto más frecuente?
Abollado
5,33%
Astillado
15,33%
Manchado
37,33%
Rayado
30,00%
Otros
4,00%
Página 3
Porcentaje
%
5,33
15,33
8,00
37,33
4,00
30,00
100%
Número de veces que ocurre la modalidad i. i = 1,2, …,k
): Es la proporción de la categoría o modalidad respecto
Astillado
15,33%
Doblado
8,00%
Cecilia Larraín R Estadística Descriptiva Página 4
Diagrama de Pareto
Herramienta básica de la mejora de calidad. Muy útil para priorizar los
problemas o las causas que los generan.
Su fundamento parte de considerar que un pequeño porcentaje de las
causas producen la mayoría de los efectos. Se tratar de identificar ese
pequeño porcentaje de causas “vitales” para actuar prioritariamente sobre
él.
Defecto frecuencia % frec. Acum. % acumulado
Manchado 56 37,33 56 37,33
Rayado 45 30,00 101 67,33
Astillado 23 15,33 124 82,67
Doblado 12 8,00 136 90,67
Abollado 8 5,33 144 96,00
Otros 6 4,00 150 100
TOTAL 150 100,0%
Se calculan solamente para el diagrama
Pareto (en este tipo de variable)
Cecilia Larraín R Estadística Descriptiva Página 5
Tabla de frecuencias, gráficos y medidas de resumen
para una variable cuantitativa
Tablas y gráficos: Distinguir si la variable es discretas
continua
Si las observaciones en un conjunto de datos cuantitativos son discretos
(contables) o si los valores de la variable asumen sólo unos pocos valores
distintos, puede ser apropiado armar tablas de frecuencia con valores
únicos.
La distribución de frecuencias (tabla)
- La distribución de frecuencias para variables cuantitativas discretas
es similar a la de variables cualitativas. Los valores que toma la
variable se ordenan de de menor a mayor lo que permite registrar en la
tabla las frecuencias acumuladas. La representación gráfica que se
utiliza para este tipo de variables es barras separadas o el gráfico de
varas.
Distribución de frecuencias de la variable X
Nombre de la
variable
X
Frec.
Absoluta
ni
Frec. Relativa
i
i
n
f =
n
Frec. Abs.
Acumulada
Ni
Frec. Relat.
Acumulada
i
i
N
F=
n
x1 n1 f1 N1 = n1 F1
x2 n2 f2 N2 = n1 + n2 F2
x3 n3 f3 N3 = n1 + n2 + n3 F3
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
xk nk fk Nk = n Fk = 1
Total n 1
xi= valor que toma la variable. i= 1,2, …,k
Cecilia Larraín R Estadística Descriptiva Página 6
Ejemplo: Variable discreta
Tabla –gráficos para variable continua:
Cuando la variable es continua o el número de valores posibles de una
variable discreta sea grande, para construir la tabla de frecuencias,
conviene agrupar los datos intervalos reales. Éstos agrupan todos aquellos
Casos contenidos entre dos valores, conocidos como el límite superior e
inferior.
Números de averías en
Febrero.2011 de 40 centrales
Eléctricas.
0 1 0 0 2
2 1 3 1 1
0 1 1 3 1
2 0 0 0 1
0 0 1 1 0
3 1 1 1 0
0 2 3 4 2
2 0 3 2 2
Tabla de frecuencias
N° de
averías Frecuencia Porcentaje
Porcentaje
acumulado
0 13 32,5 32,5
1 13 32,5 65,0
2 8 20,0 85,0
3 5 12,5 97,5
4 1 2,5 100,0
Total 40 100,0
¿cuál es la unidad de observación?
Gráfico: Varas
N°de averías
43210
Recuento
14
12
10
8
6
4
2
0
1
5
8
1313
Estadísticos (Medidas de resumen)
N°de averías
40
0
1,20
1,00
0a
1,114
,637
,374
-,445
,733
0
4
,00
1,00
2,00
Válidos
Perdidos
n
Media
Mediana
Moda
Desv. típ.
Asimetría
Error típ. de asimetría
Curtosis
Error típ. de curtosis
Mínimo
Máximo
25
50
75
Percentiles
Existen varias modas. Se mostrará el menor de los
valores.
a.
Cecilia Larraín R Estadística Descriptiva Página 7
Otros gráficos:
Polígono de frecuencias
Tallo-Hojas
Diagrama de cajas
Estadísticos (medidas de resumen)
Edad (años)
50
0
23,42
22,50
19
4,540
20,616
1,252
1,284
18
18
36
20,00
22,50
25,00
Válidos
Perdidos
n
Media
Mediana
Moda
Desv. típ.
Varianza
Asimetría
Curtosis
Rango
Mínimo
Máximo
25
50
75
Percentiles
Ejemplo:
Edad (en años) de 50
estudiantes seleccionados
de una casa de estudio
superior
21 24 29
18 19 19
25 31 23
22 21 22
25 18 27
19 25 34
20 22 19
19 19 18
28 20 22
23 36 23
26 36 20
25 25 25
23 23 21
21 19 24
21 21 22
27 33 19
23 26
Tabla de frecuencias
Edad
(años) Frecuencia Porcentaje
Porcentaje
acumulado
18 - 21 14 28,0 28,0
21 - 24 17 34,0 62,0
24 - 27 10 20,0 82,0
27 - 30 4 8,0 90,0
30 - 33 1 2,0 92,0
33 - 36 4 8,0 100,0
Total 50 100,0
¿Cuál es la unidad de observación?
Gráfico
Edad
393633302724211815
N°estudiantes
20
15
10
5
0
4
1
4
10
17
14
Histograma
Cecilia Larraín R
El rango de los datos se ha dividido en 7 intervalos (llamados tallos), cada uno
representado por un renglón en la tabla. Los tallos se etiquetan utilizando uno ó más
dígitos indicadores para los valores que caen dentro de ese intervalo. En cada renglón,
los valores individuales se representan por un dígito (llamado hoja) a la derecha de la
línea vertical. Si hay algunos
colocan en tallos alto y bajo separados. En este caso, hay 4 puntos
de números de la extrema izquierda contiene los recuentos acumulados desde el inicio y
desde el fondo de la tabla, deteniéndose en el renglón que contiene a la med
19,518,016,515,0
N°alumnos 20
15
10
5
0
14
0
Estadística Descriptiva
Polígono de frecuencias
El rango de los datos se ha dividido en 7 intervalos (llamados tallos), cada uno
representado por un renglón en la tabla. Los tallos se etiquetan utilizando uno ó más
valores que caen dentro de ese intervalo. En cada renglón,
los valores individuales se representan por un dígito (llamado hoja) a la derecha de la
Si hay algunos datos muy alejados del resto (llamados datos
colocan en tallos alto y bajo separados. En este caso, hay 4 puntos atípicos
de números de la extrema izquierda contiene los recuentos acumulados desde el inicio y
desde el fondo de la tabla, deteniéndose en el renglón que contiene a la med
Edad
37,536,034,533,031,530,028,527,025,524,022,521,0
4
1
4
10
17
Página 8
El rango de los datos se ha dividido en 7 intervalos (llamados tallos), cada uno
representado por un renglón en la tabla. Los tallos se etiquetan utilizando uno ó más
valores que caen dentro de ese intervalo. En cada renglón,
los valores individuales se representan por un dígito (llamado hoja) a la derecha de la
datos atípicos), se
ípicos. La columna
de números de la extrema izquierda contiene los recuentos acumulados desde el inicio y
desde el fondo de la tabla, deteniéndose en el renglón que contiene a la mediana.
39,037,5
0
Cecilia Larraín R Estadística Descriptiva Página 9
Medidas de Resumen
Entre las medidas que permiten resumir información proveniente de una
población o muestra, podemos considerar: medidas de tendencia posición,
de dispersión o variabilidad, de forma y de asociación
Medidas de posición: Tendencia Central - Percentiles
Tendencia Central: Moda - Promedio - Mediana
Son índices de localización central, empleados en la descripción de las
distribuciones de frecuencias. Las más usadas son la moda, la mediana y el
promedio.
Moda (Mo) : Es el valor de la variable que ocurre más frecuentemente
Promedio Aritmético (o media Aritmética)
La media aritmética o promedio aritmético :
En general se utiliza letras mayúsculas para denotar a las variables, y
letras minúsculas para los valores que toma las variables (datos).
Sea X la variable cuantitativa de interés y sea x1, x2, …, xn los n valores
que posee dicha variable. El promedio aritmético se obtiene sumando los
valores de X y dividiendo luego por el número de datos.
n
i
1 2 3 n i =1
x
x +x +x ...+x total
x = =
n n n
=
∑
Observación: En Estadística Descriptiva, la media de la población se define
de la misma forma pero se utiliza el símbolo µµµµ para denotarla:
µµµµ
N
i
1 2 3 Ni 1
x
x +x +x ...+x
N N
total
N
=
= = =
∑
n ≡ tamaño de la muestra
N ≡ tamaño de la población
Cecilia Larraín R Estadística Descriptiva Página 10
Mediana (Me)
Mediana: es un valor tal que, ordenados en magnitud los n datos de una
variable X, el 50% es menor o igual que ella, y el 50% es mayor o igual.
Para el cálculo de la mediana la variable debe ser por lo menos ordinal
En datos no agrupados (directos), con n impar, el valor central es la
mediana.
Ejemplo: 3, 5, 7, 8, 9, 12, 13, 15, 20. n = 9 datos. La mediana es el
valor 9.
Se puede observar que la mediana es el valor que ocupa el lugar
1+ n
2
En datos no agrupados con n par, el valor de la mediana será el punto
medio entre los dos valores centrales.
Ejemplo: 5, 7, 9, 10, 14, 16, 17, 18. n = 8 datos; la mediana es el
valor 12.
Es preciso ordenar los datos de menor a mayor para hacer el cálculo.
Ejemplo: Edad (en años) de 50 estudiantes seleccionados de una casa de
estudio superior
EDAD Estadísticos
Media 23,42
Mediana 22,5
Moda 19
Cuenta 50
¿Cuál de las tres medidas de
tendencia central representa
mejor los datos?
Cecilia Larraín R Estadística Descriptiva Página 11
Ejemplo: Si los datos de una variable discreta están ya tabulados.
"X: Número de avería diarias en un taller
Xi
Frec. abs.
ni Xi ⋅ ni
Frec. abs. acum.
Ni
0
1
2
3
4
5
40
30
10
6
3
1
0
30
20
18
12
5
40
60
Total n = 90
¿Cuál de las tres medidas de tendencia central representa mejor los
datos?
Promedio:
k
i i
i 1
xn
85
x = = 0,944
n 90
=
=
∑
Moda = 0
Me es el valor que ocupa el
lugar
1+ n
= 45,5
2
 
 
 
Mediana = 1 avería.
Interpretación:
Cecilia Larraín R Estadística Descriptiva Página 12
Comparación entre x , Me y Mo
Desde un punto de vista descriptivo las tres medidas proporcionan
información complementaria, sus propiedades son distintas:
Estadísticos de tendencia central Observaciones
Media
aritmética
x
n
i
i =1
x
total
x = =
n n
∑
- El nivel de medición de la
variable X sea por lo menos en
escala de intervalos.
- La media es muy sensible
cuando existen datos atípicos
o extremos.
- Es preferible utilizar el promedio
aritmético como medida de
resumen si los datos son
homogéneos.
Mediana
Me
Es un valor tal que, ordenados
en magnitud los n datos de
una variable X, el 50% es
menor o igual que ella, y el
50% es mayor o igual.
- La mediana utiliza menos
información que la media, ya
que solo tiene en cuenta el
orden de los datos y no su
magnitud, por lo tanto, para
poder calcular la mediana el
nivel de medición de la variable
X debe ser por lo menos en
escala ordinal.
- La mediana se ve menos
alterada por los datos atípicos o
extremos.
Moda
Mo
Es el valor de la variable que
ocurre más frecuentemente
- Para el cálculo de la moda la
variable puede tener cualquier
nivel de medición, luego es la
única medida de tendencia
central que se puede calcular si
el nivel de medición de la
variable X es en escala nominal.
X ≠≠≠≠ Mediana ⇒⇒⇒⇒ asimetría, lo que sugiere heterogeneidad en los datos.
∴∴∴∴ en este caso la Mediana es la medida de tendencia central
adecuada para resumir los datos.
Cecilia Larraín R Estadística Descriptiva Página 13
Simétrica
X = Me = Mo
Asimetría positiva
Mo < Me < X
Asimetría Negativa
X < Me < Mo
Existen varias maneras de de medir asimetría:
• X ≠ Mediana ⇒ asimetría
• Gráficos: Histograma – Polígono de frecuencias – tallo hojas- caja
• Coeficiente pearsoniano de asimetría SK
3(media - mediana)
SK = ; en general -3 SK 3
desviación estándar
≤ ≤
Si SK > 0, la distribución es asimétrica positiva o a la derecha.
Si SK = 0, la distribución es simétrica.
Si SK < 0, la distribución es asimétrica negativa o a la izquierda.
• Coeficiente de asimetría de Pearson AP
Se basa en el hecho de que en una distribución simétrica, la media coincide con la
moda.
P
Promedio - Moda
A =
Desviación estándar
Si AP > 0, la distribución es asimétrica positiva o a la derecha.
Si AP = 0, la distribución es simétrica.
Si AP < 0, la distribución es asimétrica negativa o a la izquierda.
Este coeficiente no es muy bueno para medir asimetrías leves.
• Coeficiente de asimetría de Fisher
x
32.527.522.517.512.57.52.5
Simétrica
10
8
6
4
2
0
X
32.527.522.517.512.57.52.5
10
8
6
4
2
0
X
32.527.522.517.512.57.52.5
10
8
6
4
2
0
Cecilia Larraín R Estadística Descriptiva Página 14
Cuartiles – Quintiles – Deciles - PERCENTILES
Son medidas estadísticas que dividen una serie ordenada de observaciones
en 4, 5, 10, 100 partes iguales.
Si dividimos en 4 partes iguales, tenemos los cuartiles (Qk) 1, 2 y 3. Cada
parte le corresponde un 25%.
| 25%
| 25%
| 25%
| 25%
|
Mín Q1 Q2 Q3 Máx
Si dividimos en 5 partes iguales, tenemos los quintiles (qk) 1, 2, 3 y 4. Cada
parte le corresponde un 20%.
| 20%
| 20%
| 20%
| 20%
| 20%
|
Mín q1 q2 q3 q4 Máx
Si dividimos en 10 partes iguales tenemos los deciles (Dk)
Los Percentiles Pp son los valores que dividen un conjunto de datos
ordenados de menor a mayor en 100 partes con igual
(aproximadamente) número de datos.
p% (100 - p)%
| | |
x(1) Pp x(n)
Mín Máx
Si dividimos en 10 partes iguales tenemos los deciles (D) y en 100 partes
iguales, los percentiles (Pp).
p% (100 - p)%
| | |
x(1) Pp x(n)
Mín. Máx.
Entre mín y Pp se encuentra el p% de los datos o entre Pp y máx se
encuentra el (100 – p)% de los datos.
Cecilia Larraín R Estadística Descriptiva Página 15
Recordemos se dividimos la serie de datos ordenada en dos partes iguales,
tenemos la mediana (Me)
Tenemos: Q1 = P25 Me = Q2 = D5 = P50 Q3 = P75
q1 = D2 = P20
q2 =
q3 =
q4 =
Cálculo de Percentiles (datos directos)
Ejemplo: Los siguientes datos corresponden a los puntajes obtenidos por
14 alumnos en un examen de Física II. (0 – 100 puntos)
84 52 85 61 74 77 65 63 57 64 72 55 68 76
Diagrama de puntos
Puntaje
Cálculo percentiles Pp
En la definición de percentil en un conjunto de datos “es el valor tal que el p% de
los datos es menor o igual que él y el (100 – p)% de los datos es superior o igual
a él”, puede que ningún valor cumpla exactamente la definición. Existen diversas
formas de interpolar para el cálculo del Pp, en este curso vamos a utilizar el
método AEMPIRAL explicado en la página 22 de texto “Probabilidad y
Estadística”. Douglas C. Montgomery y George C. Runger (1996)
1ro
) Se ordenan los n datos de menor a mayor
2do
) Pp es el valor que ocupa el lugar j =
np
100
. El método AEMPIRAL asigna la
media de x(j) y x(j+1) cuando j es un número entero, y asigna el valor que
ocupa la posición siguiente a la parte entera de j cuando j =
np
100
es un número
decimal
Cecilia Larraín R
¿Entre qué valores e encuentra
- Determine el percentil 7
Gráfico de caja
Es un gráfico que suministra información sobre los valores mínimo y máximo,
los cuartiles Q1 = P25, Q
y la simetría de la distribución.
bisagras de Tukey. De determinan de la manera siguiente:
Q1 = P25 ≡ mediana entre el mínimo y la mediana de la variable
Q3 = P75 ≡ mediana entre el mediana de la variable y el máximo
Ejemplo: Edad (página 7)
Bisagras de Tukey
18 19 22 23
18 20 22 24
18 20 22 24
19 20 22 25
19 21 22 25
19 21 23 25
19 21 23 25
19 21 23 25
19 21 23 25
19 21 23 26
Estadística Descriptiva
e encuentra el 25% de los mejores puntajes?
Determine el percentil 75 e interprete.
Es un gráfico que suministra información sobre los valores mínimo y máximo,
, Q2 o mediana Q3 = P75 la existencia de valores atípicos
y la simetría de la distribución. Los cuartiles 1 y 3 se les d
. De determinan de la manera siguiente:
mediana entre el mínimo y la mediana de la variable
mediana entre el mediana de la variable y el máximo
Ejemplo: Edad (página 7)
Percentiles
20,00 22,50 25,00Edad
25 50 75
Percentiles
Se sabe que un dato es atípico, si su
valor no se encuentra en el
(Q1 – 1,5⋅⋅⋅⋅RI , Q3
RI = Q3 – Q
26
27
27
28
29
31
33
34
36
36
3636
34
33
Edad
40
30
20
10
0
Página 16
% de los mejores puntajes?
Es un gráfico que suministra información sobre los valores mínimo y máximo,
la existencia de valores atípicos
1 y 3 se les denominan
Se sabe que un dato es atípico, si su
en el intervalo
+ 1,5⋅⋅⋅⋅RI)
Q1
Cecilia Larraín R Estadística Descriptiva Página 17
Cálculo de percentiles datos tabulados en intervalos (datos
secundarios ≡ no se dispone de los datos directos):
Los valores que toman los percentiles cuando tenemos la información
agrupada (intervalos reales) en una tabla de frecuencias de una variable
cuantitativa son aproximados.
Mediante interpolación lineal en el gráfico de frecuencias acumulada
(ojiva) se llega a la fórmula del percentil.
Puntaje en un test de aptitud
DISTRIBUCIÓN DE FRECUENCIA ACUMULADA
Puntaje
X
Frec. Abs. Acumulada
Ni
< 15 0
< 20 8
< 25 15
< 30 29
< 35 35
< 40 38
< 45 40
Puntaje
X
N°de
sujetos
ni
Frecuencias acumuladas
Ni
(absoluta)
Fi
(relativa)
15 – 20 8 8 0,200
20 – 25 7 15 0,375
j 25 – 30 14 29 0,725
30 – 35 6 35 0,875
35 – 40 3 38 0,950
40 – 45 2 40 1,000
n = 40
n = 40
lugar
np
100
=
n 50
20
100
⋅
=
el percentil 50 o
mediana
aproximadamente se
encuentra en el lugar 20,
observando la columna Ni
de frec. acumuladas o el
gráfico ojiva, el valor que
ocupa el lugar 20 se
encuentra en el tercer
intervalo.
P50 = Me ∈ [25, 30)
Cecilia Larraín R Estadística Descriptiva Página 18
OJIVA (POLÍGONO DE FRECUENCIAS ACUMULADAS)
Puntaje
P50 ∈ [25, 30) ← 25 es el límite inferior del intervalo j
30 – 25 = 5 es la amplitud del intervalo j
intervalo j
Hay 14 sujetos (frec, abs.) con puntaje en el intervalo j
frec. abs. acumulada anterior al intervalo j es 15
La fórmula que entrega la interpolación lineal para el cálculo de percentiles
con datos agrupados en intervalos reales es:
j-1
p inf j
j
np
100 - N
P = lim +am plitud
nj
     
Aplicando la fórmula de percentil para datos agrupados
50
20 15
P 25 5 26,79
14
puntos
− 
= + ⋅ = 
 
Interpretación …………………………….
- Suponga que al 15% de los puntajes más altos pasan a una segunda
etapa,
- ¿a partir de qué puntaje se va a realizar el corte para seleccionar a
dichos sujetos?
- Determine e interprete el valor del percentil 5.
Interpolando
Linealmente, se
obtiene
Se utiliza
cuando no se
tienen los
datos de cada
unidad de
observación
Cecilia Larraín R Estadística Descriptiva Página 19
MEDIDAS DE DISPERSIÓN ( O VARIABILIDAD)
Las medidas de tendencia central (promedio, mediana, moda) y los
percentiles, dan información incompleta, acerca de las observaciones.
Ejemplo: Los puntajes (X) obtenidos en una Test por 2 grupos de
alumnos son los siguientes:
Grupo 1 4 3 5 6 4 5 5 7 5 6
Grupo 2 1 4 3 5 6 8 2 7 5 9
En ambos casos el promedio aritmético o media aritmética es 5 (x = 5),
pero sus gráficos son distintos
Diagramas de puntos
Los diagramas de ambos grupos muestran que los puntajes se distribuyen
simétricamente respecto al 5, pero en el grupo 1 existe una menor
dispersión que en el grupo 2, es decir, los grupos tienen igual promedio pero
la variabilidad de los puntajes respecto a la media es distinta.
Las medidas de variabilidad indican la dispersión de los datos obtenidos por
los sujetos o las unidades de medición. Cuando los datos están con baja
dispersión se dice que es homogéneo. Cuando están altamente dispersos
se dice que es heterogéneo.
Las medidas de dispersión más utilizadas son las siguientes:
• Amplitud o rango o recorrido,
• Rango intercuartílico
• Desviación estándar - varianza
• Coeficiente de variación.
Rango o recorrido: Es la distancia en la escala de medidas entre los valores
mayor y menor. Rango = valor máximo – valor mínimo
Cecilia Larraín R Estadística Descriptiva Página 20
Rango Intercuatílico (RI): se define como la diferencia entre el tercer y el primer
cuartel, RI = Q3 – Q1, es la longitud del 50% central de la distribución de datos
Q3 = P75 Q1 = P25
RI se usa con mayor frecuencia acompañando a la mediana cuando la
presencia de valores extremos hace poco recomendable el uso del
promedio.
Defectos. No permite hacer una interpretación precisa de un valor dentro de
una distribución.
No interviene en relaciones matemáticas importantes en la inferencia
estadística.
Desviación estándar o desviación típica
(medida de dispersión asociada al promedio aritmético)
Es la raíz cuadrada de la media de las desviaciones al cuadrado.
Dado un conjunto (o muestra) de datos x1, x2, …,xn de una variable X con
nivel de medición en escala de intervalos o de razón, se define la
desviación estándar o desviación típica como el promedio de las
desviaciones di de los valores xi respecto a su promedio aritmético.
Desviación estándar:
n
2
i
i =1
(x - x)
s =
n
∑
La desviación estándar toma valores no
negativos y mide la dispersión: a mayor
desviación estándar mayor dispersión.
El cuadrado de la desviación estándar s2
, se denomina varianza.
Las desviaciones
di = (xi - x )
se elevan al cuadrado para
convertirlas en positivas,
además recuerde que
n
i
i =1
(x - x)∑ = 0
y se extrae la raíz cuadrada
para que la medida resultante
tenga la misma unidad de
medición de la variable.
Cecilia Larraín R Estadística Descriptiva Página 21
n
2
i
2 i 1
Varianza s
(x x)
n
=
−
=
∑
Del ejemplo Puntaje de un Test:
Grupo 1 Grupo 2
x x - x 2
(x - x) x x - x 2
(x - x)
3 -2 4 1 -4 16
4 -1 1 2 -3 9
4 -1 1 3 -2 4
5 0 0 4 -1 1
5 0 0 5 0 0
5 0 0 5 0 0
5 0 0 6 1 1
6 1 1 7 2 4
6 1 1 8 3 9
7 2 4 9 4 16
Total 50 0 12 50 0 60
Grupo n Promedio
Desviación
estándar
Varianza
1 10
50
5 ptos
10
= 12
= 1,0954 ptos
10
(1,0954)2
2 10
50
5 ptos
10
= 60
= 2,4495 ptos
10
(2,4495)2
Se observa que ambos grupos tienen igual promedio pero los datos del grupo dos tienen
mayor dispersión o variabilidad.
Ventajas de la desviación estándar
- Permite una interpretación precisa de los valores dentro de una
distribución.
- La desviación como el promedio pertenece a un sistema matemático
que permite su uso en métodos estadísticos más avanzados.
Cecilia Larraín R Estadística Descriptiva Página 22
i=1
2n
in
2 i=1
i
2
2
n
i=1
i
x
x -
n
=
n-1
(x -x)
n -1
s
     
=
∑
∑
∑
Propiedades de la desviación estándar (demostración tarea)
- Si se suman a todos los valores de la variable un valor constante, el
promedio queda aumentado en ese valor, pero la desviación estándar
permanece igual.
- Si se multiplica cada valor original por una constante, tanto el
promedio como la desviación estándar queda amplificados por ese
valor.
- La desviación estándar de una constante es cero.
Observaciones:
−Notación de la varianza poblacional
N
2
i
2 i 1
(x µ)
σ
N
=
−
=
∑
µ media de la población, N tamaño de la población
- En algunos textos de Estadística la fórmula de la varianza
(s2
) de la muestra (la muestra es representativa) viene dada por:
2
2
i
n
i=1=
(x -x)
n -1
s
∑
Si los datos se encuentran tabulados (en tabla de frecuencias ←
tenemos datos secundarios) las fórmulas de la varianza y desviación
estándar son:
k
2
i i
2 i 1
x
(x x) n
n - 1
Varianza s =
−
=
∑
llamada varianza corregida o cuasivarianza y
se utiliza en Inferencia Estadística como la
estimación de la varianza poblacional σσσσ2
, es
la fórmula que vamos a utilizar en este
curso como varianza muestral.
Cecilia Larraín R Estadística Descriptiva Página 23
k
2
i i
i 1
Desviación estándar: s
(x -x) n
n - 1
=
=
∑
xi es el valor de la variable discreta en una tabla o la marca de clase en el
intervalo i (datos agrupados en intervalos reales)
Ejemplo: Cierto tipo de resistencias de película de óxido metálico son
agrupadas en paquetes de 50 unidades. Se seleccionaron 60 paquetes y se
contó el número de resistencias que no cumplían con las especificaciones,
resultando la siguiente tabla
X = N°de resistencia defectuosas en cada paquete
X ni i ix n⋅ 2
i i(x - x) n⋅
0 5 0 31,25
1 10 10 22,50
2 16 32 4,00
3 15 45 3,75
4 9 36 20,25
5 3 15 18,75
6 2 12 24,50
Total n = 60 150
150
x =
60
125,00
2 125
s =
59
= 2,119 ← varianza
Desviación estándar s = varianza
= 2,119 1,456=
2
k
i ik
2 i=1
i ii
2 i=1
2
k
i=1
i
x n
x n -n
n
= =
n-1
(x -x)
n -1
Varianza: Datos tabulados
s
  ⋅    
⋅⋅∑
∑
∑
Cecilia Larraín R Estadística Descriptiva Página 24
2
k
i ik
2 i=1
i ii
i=1
2
k
i=1
i
x n
x n -n
n
= =
n -1
(x -x)
n -1
Desviación estandar: Datos tabulados
s
  ⋅    
⋅⋅∑
∑
∑
Del ejemplo de resistencia de película de óxido metálico:
i
2
i ii
x n = 150 ; x n = 500∑ ∑
2
(150)
500
60 1,456
59
s
−
= =
Coeficiente de variación (CV):
Es una medida relativa de variabilidad
X
X
CV =
|x|
s
Se utiliza para comparar la dispersión de variables que
aparecen en unidades distintas de medición o que toman valores de
magnitudes muy diferentes, ya que no depende de la unidad de
medición de las variables.
Ejemplo: La tabla siguiente muestra el peso en kg y la estatura en cm de 10
sujetos
sujeto 1 2 3 4 5 6 7 8 9 10
Peso (Y) 78 75 70 68 44 66 72 95 70 74
Estatura (X) 172 175 168 178 159 166 176 180 179 171
Para analizar cuál distribución de datos es más homogénea, se debe determinar
los coeficientes de variación de cada variable
Variable Media Desv. típ. CV
Peso (Y) 71,20 12,541
Estatura (X) 172,40 6,620
Interpretación:
Cecilia Larraín R Estadística Descriptiva Página 25
Ejercicios
1. Se realizó un estudio sobre los costos operacionales (Y), en millones de
dólares anuales, en empresas de dos rubros distintos( A ; B ). Se
tomaron muestras de 25 empresas de cada rubro, obteniéndose:
Rubro
A
5,3
4,4
4,4
8,2
2,8
1,5
7,5
6,2
8,5
4,8
4,2
7,2
3,9
6,4
5,3
5,4
2,7
7,1
8,2
5,9
3,9
6,4
4,2
7,5
5,2
Rubro
B
3,5
6,1
4,5
4,0
4,1
4,8
3,6
5,4
5,2
3,5
4,6
5,4
2,9
4,3
4,0
4,8
4,7
2,6
5,5
5,4
2,9
3,5
5,9
3,8
4,9
Rubro A
Frecuencia Tallo & Hoja
1,00 1 . 5
2,00 2 . 78
2,00 3 . 99
5,00 4 . 22448
5,00 5 . 23349
3,00 6 . 244
4,00 7 . 1255
3,00 8 . 225
Multiplicar por 10
-1
Rubro B
Frecuencia Tallo & Hoja
3,00 2 . 699
0,00 3 .
5,00 3 . 55568
4,00 4 . 0013
6,00 4 . 567889
4,00 5 . 2444
2,00 5 . 59
1,00 6 . 1
Multiplicar por 10
-1
a. Compare la dispersión de los costos de operación, entre los dos rubros.
Rubro n y s CV
A
B
Comentarios:
b. ¿Entre qué costos operacionales se ubica el 50% central de las empresas del
rubro B?
c. Según estimaciones, realizadas en las empresas del rubro A, los costos
operacionales aumentarán en un 3%. Determine e interprete la nueva
mediana y la nueva varianza.
2. Los datos que se muestran a continuación son los grados de dureza
Brinell obtenidos para muestras de dos aleaciones de magnesio:
Cecilia Larraín R Estadística Descriptiva Página 26
Y = grado de dureza Brinell
Aleación 1 66,3 63,5 64,9 61,8 64,3 64,7 65,1 64,5 68,4 63,2
Aleación 2 71,3 60,4 62,6 63,9 68,8 70,1 64,8 68,9 65,8 66,2
Gráfico de cajas
ALEACION
21
DUREZA
74
72
70
68
66
64
62
60
58
9
Informe: dureza Brinell
ALEACION n Media Desv. típ. C. V. Mín. Máx.
1 10 64,670 1,787
2
Percentiles
ALEACION 25 50 75 RI 1,5·RI Valor de dato atípico
1 63,5 64,6 65,1
2 63,9 66,0 68,9
Interpretación: ___________________
Cecilia Larraín R Estadística Descriptiva Página 27
2. Se toman muestras, de barras planas de dos tipos de acero, de tamaño 80 y 100
respectivamente, para analizar la resistencia a la ruptura. Los siguientes gráficos
muestran los tiempos máximos (Y), en minutos que soportan dichas barras antes
de fragmentarse, cuando son sometidos a la tensión:
Muestra 1 Muestra 2
minutos minutos
2.1. En base a la información contenida en los gráficos, determine que
distribución es más homogénea y qué tipo de acero resistió en mejor forma la
tensión aplicada. Justifique utilizando medidas de resumen adecuadas.
2.2. Si las barras de acero tipo 1, se clasifican de acuerdo a su resistencia en
{RB, RM, RA}
Baja resistencia (RB) : si soportan un tiempo máximo inferior a 5,5 minutos
Alta resistencia (RA) : si soportan un tiempo máximo de por lo menos 14 minutos
Resistencia media (RM) : en otro caso.
Muestre gráficamente la distribución de las barras de acuerdo a la nueva
clasificación.
2.3. Determine e interprete el valor del percentil 60 para ambas muestras.
Cecilia Larraín R Estadística Descriptiva Página 28
Descripción conjunta de dos variables cuantitativas
Es frecuente que se pueda determinar el grado de relación entre 2 (o más)
variables cuantitativas, ya que al tener este conocimiento, se puede predecir
una variable a partir de la otra.
Para expresar cuantitativamente el grado en que dos variables están
relacionadas, es necesario calcular un coeficiente de correlación.
Coeficiente de correlación lineal poblacional : ρ
Coeficiente de correlación lineal muestral: r
Un coeficiente de correlación para variables cuantitativas: es un
número que indica el grado de asociación y la dirección de esa
asociación. Indica cómo varía o cambia una característica cuando la
otra característica o variable asociada cambia.
Sin el conocimiento de cómo una cosa varía con otra sería imposible hacer
predicciones. La predicción sólo es posible basándose en el conocimiento
de la relación que hay entre 2 variables.
Un coeficiente de correlación lineal (con variables por lo menos ordinales)
nos proporciona 3 datos principales:
- La existencia o no de una relación entre las variables estudiadas.
- La dirección de la relación.
- El grado de esta relación.
Como por ejemplo:
• estatura y peso
• el ingreso familiar y los gastos en educación
Para el cálculo de “r” (correlación muestral) es preciso tener 2 conjuntos de
medidas de los mismos individuos (o parejas de individuos que tengan
alguna forma de relación)
Tabla de datos:
Gráfico adecuado: Diagrama de dispersión, muestra si hay relación lineal
entre las variables.
Sujeto 1 2 3 n
Variable X x1 x2 x3 … xn
Variable Y y1 y2 y3 … yn
La tabla contiene n
pares ordenados
Cecilia Larraín R Estadística Descriptiva Página 29
Ejemplos
Una correlación lineal positiva perfecta
X Y
2 4
4 6
5 7
6 8
7 9
8 10
9 11
10 12
12 14
13 15
a) Una correlación lineal elevada positiva (+0,76) (relación directa)
X Y
13 11
12 14
10 11
10 7
8 9
6 11
6 3
5 7
3 6
2 1
En general, personas con alto puntaje en x también tendrán alto puntaje en y.
b) Una baja correlación lineal positiva (+0,14)
X Y
13 7
12 11
10 3
8 7
7 2
6 12
6 6
4 2
3 9
1 6
r = 1
Cecilia Larraín R Estadística Descriptiva Página 30
c) Un caso de alta correlación lineal negativa (-0,70) (relación inversa)
X Y
12 7
10 3
9 8
8 5
7 7
7 12
6 10
5 9
4 13
2 11
El signo algebraico del coeficiente de correlación tiene que ver, por lo tanto,
con la dirección de relación entre dos cosas, ya sea directa o inversa.
Significado de la correlación
El valor de de la correlación puede variar desde -1 (lo que indica
correlación negativa perfecta), pasando por el 0 (que indica
independencia completa o ninguna relación), hasta +1 (que significa
perfecta correlación positiva)
La magnitud se relaciona con la intensidad o estrechez de la relación.
Coeficiente de correlación lineal de Pearson
yx
xy
ss
s
r =
n
i i
i 1
xy
(x -x)(y -y)
n-1
s =
=
∑
X e Y variables cuantitativas
; -1 < r < 1
covarianza de una muestra (representativa de la
población objeto), indica la dirección de la relación.
Cecilia Larraín R Estadística Descriptiva Página 31
COVARIANZA
n n
i in n
i=1 i=1
i i i i
i=1 i=1
xy
x y
(x -x)(y -y) x y -
n
=
n-1 n-1
s
  
  
  
=
∑ ∑
∑ ∑
Ejemplo:
sujeto x y (x - x ) (y - y ) (x - x )2
(y - y )2
(x - x )(y - y )
1 13 11 5,5 3 30,25 9 16,5
2 12 14 4,5 6 20,25 36 27
3 10 11 2,5 3 6,25 9 7,5
4 10 7 2,5 -1 6,25 1 -2,5
5 8 9 0,5 1 0,25 1 0,5
6 6 11 -1,5 3 2,25 9 -4,5
7 6 3 -1,5 -5 2,25 25 7,5
8 5 7 -2,5 -1 6,25 1 2,5
9 3 6 -4,5 -2 20,25 4 9
10 2 1 -5,5 -7 30,25 49 38,5
Total 75 80 124,5 144 102
promedio x =7,5 y = 8,0
Desviación estándar de X:
2
x
(x - x) 124,5
= 3,719
n - 1 9
s = =
∑
Desviación estándar de Y:
2
y
(y - y) 144
= 4,000
n - 1 9
s = =
∑
Covarianza de (x,y): xy
(x -x)(y -y)
102
= = 11,333
n - 1 9
s =
∑
Coeficiente de correlación lineal de Pearson: xy
11,333
r = 0,762
(3,719)(4,000)
=
Interpretación: _________________________________________
Covarianza positiva
Interpretación: si hubiese
relación lineal, esta sería
directa
Cecilia Larraín R Estadística Descriptiva Página 32
Ejercicios
Ejercicio VI-1
Para determinada tarea en una fábrica, donde se necesita mucha destreza, se quiere
investigar si “la productividad en el trabajo debe ser mayor al aumentar los años de
experiencia”. Se seleccionaron al azar diez empleados de entre lo que tienen ese trabajo.
Los datos de años de experiencia y medición de productividad son los siguientes:
Empleado 01 02 03 04 05 06 07 08 09 10
Años de experiencia 4 6 10 2 12 6 5 10 13 9
Productividad 80 82 88 81 92 85 83 86 91 90
a. Realice el diagrama de dispersión y calcular el coeficiente r de Pearson.
b. Interprete los resultados.
Ejercicio VI-2
El tiempo de respuestas (en nanosegundos) de un circuito lógico en frío (X) y el tiempo de
respuesta tras una hora de uso intensivo (Y), para una muestra de 12 máquinas es el
siguiente:
Máquina 1 2 3 4 5 6 7 8 9 10 11 12
Tiempo de respuesta en frío (X) 6 5 8 14 7 4 5 9 6 5 7 6
Tiempo de respuesta tras una hora
de uso (Y)
4 8 15 8 9 6 9 6 11 7 5 9
a. Se desea pronosticar el tiempo que tardará un determinado circuito lógico tras una hora
de funcionamiento intensivo, utilizando información del tiempo de respuesta en frío.
Para un pronóstico fiable, las variables deben estar fuertemente relacionadas, utilizando
una mediada estadística adecuada, ¿qué concluiría usted?
b. Se sabe que un dato es atípico, si su valor no se encuentra en el intervalo
(Q1 – 1,5⋅⋅⋅⋅RI , Q3 + 1,5⋅⋅⋅⋅RI)
Detecte los posibles valores atípico en Y.
(Qk ≡ cuartil k RI ≡ Amplitud (rango) intercuartílica)

Más contenido relacionado

La actualidad más candente

Dispersion no agrupados
Dispersion no agrupadosDispersion no agrupados
Dispersion no agrupadosALANIS
 
Teoría de Conjuntos y Ejercicios
Teoría de Conjuntos y Ejercicios Teoría de Conjuntos y Ejercicios
Teoría de Conjuntos y Ejercicios pcomba
 
Ejercicio 2. Datos no agrupados.
Ejercicio 2. Datos no agrupados.Ejercicio 2. Datos no agrupados.
Ejercicio 2. Datos no agrupados.luis jaramillo
 
Estadística inferencial-TEST DE HIPÓTESIS por Bioq. José Luis Soto Velásquez ...
Estadística inferencial-TEST DE HIPÓTESIS por Bioq. José Luis Soto Velásquez ...Estadística inferencial-TEST DE HIPÓTESIS por Bioq. José Luis Soto Velásquez ...
Estadística inferencial-TEST DE HIPÓTESIS por Bioq. José Luis Soto Velásquez ...joseluissotovelasquez
 
Medidas de tendencia central o posición
Medidas de tendencia central o posiciónMedidas de tendencia central o posición
Medidas de tendencia central o posiciónEnedina Rodriguez
 
Operaciones con números enteros
Operaciones con números enterosOperaciones con números enteros
Operaciones con números enterosMar Tuxi
 
La Distribucion Normal - Ing Juan Carlos Gallardo Mendoza- jcgallardo11@gmail...
La Distribucion Normal - Ing Juan Carlos Gallardo Mendoza- jcgallardo11@gmail...La Distribucion Normal - Ing Juan Carlos Gallardo Mendoza- jcgallardo11@gmail...
La Distribucion Normal - Ing Juan Carlos Gallardo Mendoza- jcgallardo11@gmail...jcgallardo11
 
Teoria de conjuntos 4 g
Teoria de conjuntos 4 g Teoria de conjuntos 4 g
Teoria de conjuntos 4 g Henry Villalba
 
Ejercicios resueltos matriz conmutable, idempotente, nilpotente...
Ejercicios resueltos matriz conmutable, idempotente, nilpotente...Ejercicios resueltos matriz conmutable, idempotente, nilpotente...
Ejercicios resueltos matriz conmutable, idempotente, nilpotente...algebra
 
MÁXIMO COMÚN DIVISOR Y MÍNIMO COMÚN MÚLTIPLO
MÁXIMO COMÚN DIVISOR Y MÍNIMO COMÚN MÚLTIPLOMÁXIMO COMÚN DIVISOR Y MÍNIMO COMÚN MÚLTIPLO
MÁXIMO COMÚN DIVISOR Y MÍNIMO COMÚN MÚLTIPLOmaria
 
Tabla de la Distribución Binomial
Tabla de la Distribución BinomialTabla de la Distribución Binomial
Tabla de la Distribución Binomialisamasquemates
 
Conjuntos demostraciones
Conjuntos demostracionesConjuntos demostraciones
Conjuntos demostracionesRafa Cruz
 

La actualidad más candente (20)

Dispersion no agrupados
Dispersion no agrupadosDispersion no agrupados
Dispersion no agrupados
 
Teoría de Conjuntos y Ejercicios
Teoría de Conjuntos y Ejercicios Teoría de Conjuntos y Ejercicios
Teoría de Conjuntos y Ejercicios
 
Desigualdades
DesigualdadesDesigualdades
Desigualdades
 
Combinaciones y permutaciones
Combinaciones y permutacionesCombinaciones y permutaciones
Combinaciones y permutaciones
 
Presentación ANOVA
Presentación ANOVAPresentación ANOVA
Presentación ANOVA
 
Presentacion estadistica
Presentacion estadisticaPresentacion estadistica
Presentacion estadistica
 
Ejercicio 2. Datos no agrupados.
Ejercicio 2. Datos no agrupados.Ejercicio 2. Datos no agrupados.
Ejercicio 2. Datos no agrupados.
 
Algebra de Baldor
Algebra de BaldorAlgebra de Baldor
Algebra de Baldor
 
Estadística inferencial-TEST DE HIPÓTESIS por Bioq. José Luis Soto Velásquez ...
Estadística inferencial-TEST DE HIPÓTESIS por Bioq. José Luis Soto Velásquez ...Estadística inferencial-TEST DE HIPÓTESIS por Bioq. José Luis Soto Velásquez ...
Estadística inferencial-TEST DE HIPÓTESIS por Bioq. José Luis Soto Velásquez ...
 
Medidas de tendencia central o posición
Medidas de tendencia central o posiciónMedidas de tendencia central o posición
Medidas de tendencia central o posición
 
Pruebas t de student
Pruebas t de studentPruebas t de student
Pruebas t de student
 
Operaciones con números enteros
Operaciones con números enterosOperaciones con números enteros
Operaciones con números enteros
 
La Distribucion Normal - Ing Juan Carlos Gallardo Mendoza- jcgallardo11@gmail...
La Distribucion Normal - Ing Juan Carlos Gallardo Mendoza- jcgallardo11@gmail...La Distribucion Normal - Ing Juan Carlos Gallardo Mendoza- jcgallardo11@gmail...
La Distribucion Normal - Ing Juan Carlos Gallardo Mendoza- jcgallardo11@gmail...
 
Estadistica y probabilidad
Estadistica y probabilidadEstadistica y probabilidad
Estadistica y probabilidad
 
Teoria de conjuntos 4 g
Teoria de conjuntos 4 g Teoria de conjuntos 4 g
Teoria de conjuntos 4 g
 
Ejercicios resueltos matriz conmutable, idempotente, nilpotente...
Ejercicios resueltos matriz conmutable, idempotente, nilpotente...Ejercicios resueltos matriz conmutable, idempotente, nilpotente...
Ejercicios resueltos matriz conmutable, idempotente, nilpotente...
 
Ejemplos (1)
Ejemplos (1)Ejemplos (1)
Ejemplos (1)
 
MÁXIMO COMÚN DIVISOR Y MÍNIMO COMÚN MÚLTIPLO
MÁXIMO COMÚN DIVISOR Y MÍNIMO COMÚN MÚLTIPLOMÁXIMO COMÚN DIVISOR Y MÍNIMO COMÚN MÚLTIPLO
MÁXIMO COMÚN DIVISOR Y MÍNIMO COMÚN MÚLTIPLO
 
Tabla de la Distribución Binomial
Tabla de la Distribución BinomialTabla de la Distribución Binomial
Tabla de la Distribución Binomial
 
Conjuntos demostraciones
Conjuntos demostracionesConjuntos demostraciones
Conjuntos demostraciones
 

Similar a estadística descriptiva

2_DISTRIBUCIÓN DE FRECUENCIAS (ORGANIZACIÓN DE DATOS)-2023-3-3 (1).pdf
2_DISTRIBUCIÓN DE FRECUENCIAS (ORGANIZACIÓN DE DATOS)-2023-3-3 (1).pdf2_DISTRIBUCIÓN DE FRECUENCIAS (ORGANIZACIÓN DE DATOS)-2023-3-3 (1).pdf
2_DISTRIBUCIÓN DE FRECUENCIAS (ORGANIZACIÓN DE DATOS)-2023-3-3 (1).pdfPaoloFranciscoHurtad
 
Ordenamiento de datos en estadistica iv (1)
Ordenamiento de datos en estadistica iv (1)Ordenamiento de datos en estadistica iv (1)
Ordenamiento de datos en estadistica iv (1)YULIANA ROSAS
 
Técnicas estadísticas básicas
Técnicas estadísticas básicasTécnicas estadísticas básicas
Técnicas estadísticas básicasDaniel Remondegui
 
Cap02 organización y presentación de datos actualizado
Cap02 organización y presentación de datos actualizadoCap02 organización y presentación de datos actualizado
Cap02 organización y presentación de datos actualizadoEren Sanchez Blanco
 
Resumen estadístico-para-temperatura
Resumen estadístico-para-temperaturaResumen estadístico-para-temperatura
Resumen estadístico-para-temperaturaWil LF
 
TALLER ESTADISTICA
TALLER ESTADISTICATALLER ESTADISTICA
TALLER ESTADISTICAloreduque
 
Resumen u4
Resumen u4Resumen u4
Resumen u4pam00077
 
Introducción a la Estadística ccesa007
Introducción a la Estadística  ccesa007Introducción a la Estadística  ccesa007
Introducción a la Estadística ccesa007Demetrio Ccesa Rayme
 
Estadistica Descriptivas para aprendices
Estadistica Descriptivas para aprendicesEstadistica Descriptivas para aprendices
Estadistica Descriptivas para aprendicesJackyLinCebaPerifric
 
Trabajo representacion grafica. armando gonzalez
Trabajo representacion grafica. armando gonzalezTrabajo representacion grafica. armando gonzalez
Trabajo representacion grafica. armando gonzalezarmandogonzalezuts
 
UNIDAD # 1. TEMA 5. Construcción de gráficas..pptx
UNIDAD # 1. TEMA 5. Construcción de gráficas..pptxUNIDAD # 1. TEMA 5. Construcción de gráficas..pptx
UNIDAD # 1. TEMA 5. Construcción de gráficas..pptxJoseCR16
 

Similar a estadística descriptiva (20)

2_DISTRIBUCIÓN DE FRECUENCIAS (ORGANIZACIÓN DE DATOS)-2023-3-3 (1).pdf
2_DISTRIBUCIÓN DE FRECUENCIAS (ORGANIZACIÓN DE DATOS)-2023-3-3 (1).pdf2_DISTRIBUCIÓN DE FRECUENCIAS (ORGANIZACIÓN DE DATOS)-2023-3-3 (1).pdf
2_DISTRIBUCIÓN DE FRECUENCIAS (ORGANIZACIÓN DE DATOS)-2023-3-3 (1).pdf
 
Estadistica ii
Estadistica iiEstadistica ii
Estadistica ii
 
Ordenamiento de datos en estadistica iv (1)
Ordenamiento de datos en estadistica iv (1)Ordenamiento de datos en estadistica iv (1)
Ordenamiento de datos en estadistica iv (1)
 
diapositiva 1
diapositiva 1diapositiva 1
diapositiva 1
 
diapositiva 4
diapositiva 4diapositiva 4
diapositiva 4
 
Técnicas estadísticas básicas
Técnicas estadísticas básicasTécnicas estadísticas básicas
Técnicas estadísticas básicas
 
01 presentacion de datos u ap
01 presentacion de datos u ap01 presentacion de datos u ap
01 presentacion de datos u ap
 
Cap02 organización y presentación de datos actualizado
Cap02 organización y presentación de datos actualizadoCap02 organización y presentación de datos actualizado
Cap02 organización y presentación de datos actualizado
 
Resumen estadístico-para-temperatura
Resumen estadístico-para-temperaturaResumen estadístico-para-temperatura
Resumen estadístico-para-temperatura
 
TALLER ESTADISTICA
TALLER ESTADISTICATALLER ESTADISTICA
TALLER ESTADISTICA
 
Ed 3
Ed 3Ed 3
Ed 3
 
Resumen u4
Resumen u4Resumen u4
Resumen u4
 
Introducción a la Estadística ccesa007
Introducción a la Estadística  ccesa007Introducción a la Estadística  ccesa007
Introducción a la Estadística ccesa007
 
Mic sesión 3
Mic sesión 3Mic sesión 3
Mic sesión 3
 
Clase 3. Gráficos.ppt
Clase 3. Gráficos.pptClase 3. Gráficos.ppt
Clase 3. Gráficos.ppt
 
Estadistica Descriptivas para aprendices
Estadistica Descriptivas para aprendicesEstadistica Descriptivas para aprendices
Estadistica Descriptivas para aprendices
 
Tema 1 03 u6
Tema 1 03 u6Tema 1 03 u6
Tema 1 03 u6
 
Trabajo representacion grafica. armando gonzalez
Trabajo representacion grafica. armando gonzalezTrabajo representacion grafica. armando gonzalez
Trabajo representacion grafica. armando gonzalez
 
UNIDAD # 1. TEMA 5. Construcción de gráficas..pptx
UNIDAD # 1. TEMA 5. Construcción de gráficas..pptxUNIDAD # 1. TEMA 5. Construcción de gráficas..pptx
UNIDAD # 1. TEMA 5. Construcción de gráficas..pptx
 
Clase 2. Estadística Básica.ppt
Clase 2. Estadística Básica.pptClase 2. Estadística Básica.ppt
Clase 2. Estadística Básica.ppt
 

Último

Magnetismo y electromagnetismo principios
Magnetismo y electromagnetismo principiosMagnetismo y electromagnetismo principios
Magnetismo y electromagnetismo principiosMarceloQuisbert6
 
SEGURIDAD EN CONSTRUCCION PPT PARA EL CIP
SEGURIDAD EN CONSTRUCCION PPT PARA EL CIPSEGURIDAD EN CONSTRUCCION PPT PARA EL CIP
SEGURIDAD EN CONSTRUCCION PPT PARA EL CIPJosLuisFrancoCaldern
 
Sesion 02 Patentes REGISTRO EN INDECOPI PERU
Sesion 02 Patentes REGISTRO EN INDECOPI PERUSesion 02 Patentes REGISTRO EN INDECOPI PERU
Sesion 02 Patentes REGISTRO EN INDECOPI PERUMarcosAlvarezSalinas
 
PPT SERVIDOR ESCUELA PERU EDUCA LINUX v7.pptx
PPT SERVIDOR ESCUELA PERU EDUCA LINUX v7.pptxPPT SERVIDOR ESCUELA PERU EDUCA LINUX v7.pptx
PPT SERVIDOR ESCUELA PERU EDUCA LINUX v7.pptxSergioGJimenezMorean
 
Tiempos Predeterminados MOST para Estudio del Trabajo II
Tiempos Predeterminados MOST para Estudio del Trabajo IITiempos Predeterminados MOST para Estudio del Trabajo II
Tiempos Predeterminados MOST para Estudio del Trabajo IILauraFernandaValdovi
 
Diapositiva de Topografía Nivelación simple y compuesta
Diapositiva de Topografía Nivelación simple y compuestaDiapositiva de Topografía Nivelación simple y compuesta
Diapositiva de Topografía Nivelación simple y compuestajeffsalazarpuente
 
MANIOBRA Y CONTROL INNOVATIVO LOGO PLC SIEMENS
MANIOBRA Y CONTROL INNOVATIVO LOGO PLC  SIEMENSMANIOBRA Y CONTROL INNOVATIVO LOGO PLC  SIEMENS
MANIOBRA Y CONTROL INNOVATIVO LOGO PLC SIEMENSLuisLobatoingaruca
 
Polimeros.LAS REACCIONES DE POLIMERIZACION QUE ES COMO EN QUIMICA LLAMAMOS A ...
Polimeros.LAS REACCIONES DE POLIMERIZACION QUE ES COMO EN QUIMICA LLAMAMOS A ...Polimeros.LAS REACCIONES DE POLIMERIZACION QUE ES COMO EN QUIMICA LLAMAMOS A ...
Polimeros.LAS REACCIONES DE POLIMERIZACION QUE ES COMO EN QUIMICA LLAMAMOS A ...SuannNeyraChongShing
 
Presentación N° 1 INTRODUCCIÓN Y CONCEPTOS DE GESTIÓN AMBIENTAL.pdf
Presentación N° 1 INTRODUCCIÓN Y CONCEPTOS DE GESTIÓN AMBIENTAL.pdfPresentación N° 1 INTRODUCCIÓN Y CONCEPTOS DE GESTIÓN AMBIENTAL.pdf
Presentación N° 1 INTRODUCCIÓN Y CONCEPTOS DE GESTIÓN AMBIENTAL.pdfMIGUELANGELCONDORIMA4
 
Flujo multifásico en tuberias de ex.pptx
Flujo multifásico en tuberias de ex.pptxFlujo multifásico en tuberias de ex.pptx
Flujo multifásico en tuberias de ex.pptxEduardoSnchezHernnde5
 
Elaboración de la estructura del ADN y ARN en papel.pdf
Elaboración de la estructura del ADN y ARN en papel.pdfElaboración de la estructura del ADN y ARN en papel.pdf
Elaboración de la estructura del ADN y ARN en papel.pdfKEVINYOICIAQUINOSORI
 
Manual_Identificación_Geoformas_140627.pdf
Manual_Identificación_Geoformas_140627.pdfManual_Identificación_Geoformas_140627.pdf
Manual_Identificación_Geoformas_140627.pdfedsonzav8
 
estadisticasII Metodo-de-la-gran-M.pdf
estadisticasII   Metodo-de-la-gran-M.pdfestadisticasII   Metodo-de-la-gran-M.pdf
estadisticasII Metodo-de-la-gran-M.pdfFlorenciopeaortiz
 
Reporte de simulación de flujo del agua en un volumen de control MNVA.pdf
Reporte de simulación de flujo del agua en un volumen de control MNVA.pdfReporte de simulación de flujo del agua en un volumen de control MNVA.pdf
Reporte de simulación de flujo del agua en un volumen de control MNVA.pdfMikkaelNicolae
 
El proyecto “ITC SE Lambayeque Norte 220 kV con seccionamiento de la LT 220 kV
El proyecto “ITC SE Lambayeque Norte 220 kV con seccionamiento de la LT 220 kVEl proyecto “ITC SE Lambayeque Norte 220 kV con seccionamiento de la LT 220 kV
El proyecto “ITC SE Lambayeque Norte 220 kV con seccionamiento de la LT 220 kVSebastianPaez47
 
2. UPN PPT - SEMANA 02 GESTION DE PROYECTOS MG CHERYL QUEZADA(1).pdf
2. UPN PPT - SEMANA 02 GESTION DE PROYECTOS MG CHERYL QUEZADA(1).pdf2. UPN PPT - SEMANA 02 GESTION DE PROYECTOS MG CHERYL QUEZADA(1).pdf
2. UPN PPT - SEMANA 02 GESTION DE PROYECTOS MG CHERYL QUEZADA(1).pdfAnthonyTiclia
 
Calavera calculo de estructuras de cimentacion.pdf
Calavera calculo de estructuras de cimentacion.pdfCalavera calculo de estructuras de cimentacion.pdf
Calavera calculo de estructuras de cimentacion.pdfyoseka196
 
¿QUE SON LOS AGENTES FISICOS Y QUE CUIDADOS TENER.pptx
¿QUE SON LOS AGENTES FISICOS Y QUE CUIDADOS TENER.pptx¿QUE SON LOS AGENTES FISICOS Y QUE CUIDADOS TENER.pptx
¿QUE SON LOS AGENTES FISICOS Y QUE CUIDADOS TENER.pptxguillermosantana15
 
TAREA 8 CORREDOR INTEROCEÁNICO DEL PAÍS.pdf
TAREA 8 CORREDOR INTEROCEÁNICO DEL PAÍS.pdfTAREA 8 CORREDOR INTEROCEÁNICO DEL PAÍS.pdf
TAREA 8 CORREDOR INTEROCEÁNICO DEL PAÍS.pdfAntonioGonzalezIzqui
 
Propositos del comportamiento de fases y aplicaciones
Propositos del comportamiento de fases y aplicacionesPropositos del comportamiento de fases y aplicaciones
Propositos del comportamiento de fases y aplicaciones025ca20
 

Último (20)

Magnetismo y electromagnetismo principios
Magnetismo y electromagnetismo principiosMagnetismo y electromagnetismo principios
Magnetismo y electromagnetismo principios
 
SEGURIDAD EN CONSTRUCCION PPT PARA EL CIP
SEGURIDAD EN CONSTRUCCION PPT PARA EL CIPSEGURIDAD EN CONSTRUCCION PPT PARA EL CIP
SEGURIDAD EN CONSTRUCCION PPT PARA EL CIP
 
Sesion 02 Patentes REGISTRO EN INDECOPI PERU
Sesion 02 Patentes REGISTRO EN INDECOPI PERUSesion 02 Patentes REGISTRO EN INDECOPI PERU
Sesion 02 Patentes REGISTRO EN INDECOPI PERU
 
PPT SERVIDOR ESCUELA PERU EDUCA LINUX v7.pptx
PPT SERVIDOR ESCUELA PERU EDUCA LINUX v7.pptxPPT SERVIDOR ESCUELA PERU EDUCA LINUX v7.pptx
PPT SERVIDOR ESCUELA PERU EDUCA LINUX v7.pptx
 
Tiempos Predeterminados MOST para Estudio del Trabajo II
Tiempos Predeterminados MOST para Estudio del Trabajo IITiempos Predeterminados MOST para Estudio del Trabajo II
Tiempos Predeterminados MOST para Estudio del Trabajo II
 
Diapositiva de Topografía Nivelación simple y compuesta
Diapositiva de Topografía Nivelación simple y compuestaDiapositiva de Topografía Nivelación simple y compuesta
Diapositiva de Topografía Nivelación simple y compuesta
 
MANIOBRA Y CONTROL INNOVATIVO LOGO PLC SIEMENS
MANIOBRA Y CONTROL INNOVATIVO LOGO PLC  SIEMENSMANIOBRA Y CONTROL INNOVATIVO LOGO PLC  SIEMENS
MANIOBRA Y CONTROL INNOVATIVO LOGO PLC SIEMENS
 
Polimeros.LAS REACCIONES DE POLIMERIZACION QUE ES COMO EN QUIMICA LLAMAMOS A ...
Polimeros.LAS REACCIONES DE POLIMERIZACION QUE ES COMO EN QUIMICA LLAMAMOS A ...Polimeros.LAS REACCIONES DE POLIMERIZACION QUE ES COMO EN QUIMICA LLAMAMOS A ...
Polimeros.LAS REACCIONES DE POLIMERIZACION QUE ES COMO EN QUIMICA LLAMAMOS A ...
 
Presentación N° 1 INTRODUCCIÓN Y CONCEPTOS DE GESTIÓN AMBIENTAL.pdf
Presentación N° 1 INTRODUCCIÓN Y CONCEPTOS DE GESTIÓN AMBIENTAL.pdfPresentación N° 1 INTRODUCCIÓN Y CONCEPTOS DE GESTIÓN AMBIENTAL.pdf
Presentación N° 1 INTRODUCCIÓN Y CONCEPTOS DE GESTIÓN AMBIENTAL.pdf
 
Flujo multifásico en tuberias de ex.pptx
Flujo multifásico en tuberias de ex.pptxFlujo multifásico en tuberias de ex.pptx
Flujo multifásico en tuberias de ex.pptx
 
Elaboración de la estructura del ADN y ARN en papel.pdf
Elaboración de la estructura del ADN y ARN en papel.pdfElaboración de la estructura del ADN y ARN en papel.pdf
Elaboración de la estructura del ADN y ARN en papel.pdf
 
Manual_Identificación_Geoformas_140627.pdf
Manual_Identificación_Geoformas_140627.pdfManual_Identificación_Geoformas_140627.pdf
Manual_Identificación_Geoformas_140627.pdf
 
estadisticasII Metodo-de-la-gran-M.pdf
estadisticasII   Metodo-de-la-gran-M.pdfestadisticasII   Metodo-de-la-gran-M.pdf
estadisticasII Metodo-de-la-gran-M.pdf
 
Reporte de simulación de flujo del agua en un volumen de control MNVA.pdf
Reporte de simulación de flujo del agua en un volumen de control MNVA.pdfReporte de simulación de flujo del agua en un volumen de control MNVA.pdf
Reporte de simulación de flujo del agua en un volumen de control MNVA.pdf
 
El proyecto “ITC SE Lambayeque Norte 220 kV con seccionamiento de la LT 220 kV
El proyecto “ITC SE Lambayeque Norte 220 kV con seccionamiento de la LT 220 kVEl proyecto “ITC SE Lambayeque Norte 220 kV con seccionamiento de la LT 220 kV
El proyecto “ITC SE Lambayeque Norte 220 kV con seccionamiento de la LT 220 kV
 
2. UPN PPT - SEMANA 02 GESTION DE PROYECTOS MG CHERYL QUEZADA(1).pdf
2. UPN PPT - SEMANA 02 GESTION DE PROYECTOS MG CHERYL QUEZADA(1).pdf2. UPN PPT - SEMANA 02 GESTION DE PROYECTOS MG CHERYL QUEZADA(1).pdf
2. UPN PPT - SEMANA 02 GESTION DE PROYECTOS MG CHERYL QUEZADA(1).pdf
 
Calavera calculo de estructuras de cimentacion.pdf
Calavera calculo de estructuras de cimentacion.pdfCalavera calculo de estructuras de cimentacion.pdf
Calavera calculo de estructuras de cimentacion.pdf
 
¿QUE SON LOS AGENTES FISICOS Y QUE CUIDADOS TENER.pptx
¿QUE SON LOS AGENTES FISICOS Y QUE CUIDADOS TENER.pptx¿QUE SON LOS AGENTES FISICOS Y QUE CUIDADOS TENER.pptx
¿QUE SON LOS AGENTES FISICOS Y QUE CUIDADOS TENER.pptx
 
TAREA 8 CORREDOR INTEROCEÁNICO DEL PAÍS.pdf
TAREA 8 CORREDOR INTEROCEÁNICO DEL PAÍS.pdfTAREA 8 CORREDOR INTEROCEÁNICO DEL PAÍS.pdf
TAREA 8 CORREDOR INTEROCEÁNICO DEL PAÍS.pdf
 
Propositos del comportamiento de fases y aplicaciones
Propositos del comportamiento de fases y aplicacionesPropositos del comportamiento de fases y aplicaciones
Propositos del comportamiento de fases y aplicaciones
 

estadística descriptiva

  • 1. Cecilia Larraín R Estadística Descriptiva Página 1 S 1Estadística Descriptiva Univariada Organización de los datos La estadística descriptiva, entrega las técnicas que permiten condensar grandes grupos de datos mediante el uso de tablas de frecuencias, gráficos y medidas de resumen como media, desviación estándar, correlación. d resume Tabla o distribución de La presentación gráfica frecuencias puede revelar de un Es una tabla que constituye vistazo las el resumen básico de principales los datos características de un conjunto de datos Descripción estadística de una variable cualitativa Gráficos - Sectorial - Barras Separadas - Diagrama de Pareto - Pictograma Medida de resumen Moda: es el dato o modalidad de mayor frecuencia ≡ dato más representativo
  • 2. Cecilia Larraín R Ejemplo Reporte de la inspección final de defectos de 150 productos para la línea de armado A12. DATOS DIRECTOS (brutos) Rayado Manchado Manchado Manchado Abollado Astillado Doblado Manchado Astillado Rayado Manchado Rayado Astillado Astillado Manchado Manchado Otros Astillado Astillado Abollado Manchado Manchado Rayado Astillado Rayado Rayado Manchado Manchado Astillado Rayado Abollado Manchado Doblado Manchado Manchado Astillado Rayado Manchado Manchado Doblado Rayado Manchado Doblado Abollado Manchado Manchado Astillado Manchado Manchado Manchado Astillado Rayado Otros Otros Rayado Doblado Abollado Rayado Manchado Astillado Manchado Manchado Astillado Manchado Rayado Manchado Rayado Rayado Manchado Rayado Manchado Rayado Otros Astillado Manchado Astillado Rayado Rayado Abollado Manchado Doblado Astillado Manchado Rayado Doblado Manchado Abollado Rayado Rayado Manchado Rayado Rayado Manchado Doblado Manchado Rayado Manchado Manchado Manchado Manchado Rayado Astillado Astillado Rayado Abollado Manchado Rayado Manchado Manchado Manchado Rayado Rayado Rayado Manchado Manchado Rayado Rayado Astillado Astillado Astillado Datos en bruto: Datos registrados en la secuencia en que fueron recolectados, antes de ser procesados u ordenados Estadística Descriptiva Ejemplo. Defectos_Linea A12 eporte de la inspección final de defectos de 150 productos para la Manchado Manchado Rayado Manchado Abollado Astillado Manchado Manchado Astillado Doblado Abollado Manchado Rayado Doblado Astillado Manchado Rayado Rayado Astillado Manchado Rayado Rayado Rayado Rayado Manchado Rayado Manchado Rayado Rayado Astillado : Datos registrados en la fueron recolectados, antes de ser procesados u ordenados Tabla de frecuencias Defecto del producto Frecuencia Abollado 8 Astillado 23 Doblado 12 Manchado 56 Otros 6 Rayado 45 Total 150 ¿Cuál es la unidad de observación? Gráfico de barras separadas Frecuencia 60 50 40 30 20 10 0 56 12 23 8 Defecto del producto ManchadoDobladoAstilladoAbollado El defecto más frecuente en la línea de armado es Manchado Moda = manchado Página 2 Tabla de frecuencias Porcentaje 5,3 15,3 8,0 37,3 4,0 30,0 100,0 ¿Cuál es la unidad de observación? Gráfico de barras separadas 6 45 Defecto del producto OtroRayadoManchado El defecto más frecuente en la línea de armado es Manchado
  • 3. Cecilia Larraín R Defectos del producto Frecuencia absoluta Abollado Astillado 23 Doblado 12 Manchado 56 Rayado Otros 45 Total 150 Frecuencia absoluta (ni): Frecuencia relativa (fi): Es la proporción de la categoría o modalidad respecto del total de datos. i = 1,2, …,k Gráfico sectorial: Círculo dividido en porciones que representan las frecuencias relativas o porcentajes de una población o muestra perteneciente a diferentes categorías. Como sabemos, un círculo contiene 360 grados. Para construir un gráfico sectorial, se multiplica por 360 la frecuencia relativa de cada categoría, para obtener la medida del ángulo correspondiente ¿Cuál es Defecto más frecuente? Estadística Descriptiva Frecuencia absoluta ni Frecuencia Relativa fi 8 0,053 23 0,153 12 0,080 56 0,373 6 0,040 45 0,300 150 1,000 ): Número de veces que ocurre la modalidad i. ): Es la proporción de la categoría o modalidad respecto del total de datos. i = 1,2, …,k Defectos del producto ¿Cuál es Defecto más frecuente? Abollado 5,33% Astillado 15,33% Manchado 37,33% Rayado 30,00% Otros 4,00% Página 3 Porcentaje % 5,33 15,33 8,00 37,33 4,00 30,00 100% Número de veces que ocurre la modalidad i. i = 1,2, …,k ): Es la proporción de la categoría o modalidad respecto Astillado 15,33% Doblado 8,00%
  • 4. Cecilia Larraín R Estadística Descriptiva Página 4 Diagrama de Pareto Herramienta básica de la mejora de calidad. Muy útil para priorizar los problemas o las causas que los generan. Su fundamento parte de considerar que un pequeño porcentaje de las causas producen la mayoría de los efectos. Se tratar de identificar ese pequeño porcentaje de causas “vitales” para actuar prioritariamente sobre él. Defecto frecuencia % frec. Acum. % acumulado Manchado 56 37,33 56 37,33 Rayado 45 30,00 101 67,33 Astillado 23 15,33 124 82,67 Doblado 12 8,00 136 90,67 Abollado 8 5,33 144 96,00 Otros 6 4,00 150 100 TOTAL 150 100,0% Se calculan solamente para el diagrama Pareto (en este tipo de variable)
  • 5. Cecilia Larraín R Estadística Descriptiva Página 5 Tabla de frecuencias, gráficos y medidas de resumen para una variable cuantitativa Tablas y gráficos: Distinguir si la variable es discretas continua Si las observaciones en un conjunto de datos cuantitativos son discretos (contables) o si los valores de la variable asumen sólo unos pocos valores distintos, puede ser apropiado armar tablas de frecuencia con valores únicos. La distribución de frecuencias (tabla) - La distribución de frecuencias para variables cuantitativas discretas es similar a la de variables cualitativas. Los valores que toma la variable se ordenan de de menor a mayor lo que permite registrar en la tabla las frecuencias acumuladas. La representación gráfica que se utiliza para este tipo de variables es barras separadas o el gráfico de varas. Distribución de frecuencias de la variable X Nombre de la variable X Frec. Absoluta ni Frec. Relativa i i n f = n Frec. Abs. Acumulada Ni Frec. Relat. Acumulada i i N F= n x1 n1 f1 N1 = n1 F1 x2 n2 f2 N2 = n1 + n2 F2 x3 n3 f3 N3 = n1 + n2 + n3 F3 . . . . . . . . . . . . . . . xk nk fk Nk = n Fk = 1 Total n 1 xi= valor que toma la variable. i= 1,2, …,k
  • 6. Cecilia Larraín R Estadística Descriptiva Página 6 Ejemplo: Variable discreta Tabla –gráficos para variable continua: Cuando la variable es continua o el número de valores posibles de una variable discreta sea grande, para construir la tabla de frecuencias, conviene agrupar los datos intervalos reales. Éstos agrupan todos aquellos Casos contenidos entre dos valores, conocidos como el límite superior e inferior. Números de averías en Febrero.2011 de 40 centrales Eléctricas. 0 1 0 0 2 2 1 3 1 1 0 1 1 3 1 2 0 0 0 1 0 0 1 1 0 3 1 1 1 0 0 2 3 4 2 2 0 3 2 2 Tabla de frecuencias N° de averías Frecuencia Porcentaje Porcentaje acumulado 0 13 32,5 32,5 1 13 32,5 65,0 2 8 20,0 85,0 3 5 12,5 97,5 4 1 2,5 100,0 Total 40 100,0 ¿cuál es la unidad de observación? Gráfico: Varas N°de averías 43210 Recuento 14 12 10 8 6 4 2 0 1 5 8 1313 Estadísticos (Medidas de resumen) N°de averías 40 0 1,20 1,00 0a 1,114 ,637 ,374 -,445 ,733 0 4 ,00 1,00 2,00 Válidos Perdidos n Media Mediana Moda Desv. típ. Asimetría Error típ. de asimetría Curtosis Error típ. de curtosis Mínimo Máximo 25 50 75 Percentiles Existen varias modas. Se mostrará el menor de los valores. a.
  • 7. Cecilia Larraín R Estadística Descriptiva Página 7 Otros gráficos: Polígono de frecuencias Tallo-Hojas Diagrama de cajas Estadísticos (medidas de resumen) Edad (años) 50 0 23,42 22,50 19 4,540 20,616 1,252 1,284 18 18 36 20,00 22,50 25,00 Válidos Perdidos n Media Mediana Moda Desv. típ. Varianza Asimetría Curtosis Rango Mínimo Máximo 25 50 75 Percentiles Ejemplo: Edad (en años) de 50 estudiantes seleccionados de una casa de estudio superior 21 24 29 18 19 19 25 31 23 22 21 22 25 18 27 19 25 34 20 22 19 19 19 18 28 20 22 23 36 23 26 36 20 25 25 25 23 23 21 21 19 24 21 21 22 27 33 19 23 26 Tabla de frecuencias Edad (años) Frecuencia Porcentaje Porcentaje acumulado 18 - 21 14 28,0 28,0 21 - 24 17 34,0 62,0 24 - 27 10 20,0 82,0 27 - 30 4 8,0 90,0 30 - 33 1 2,0 92,0 33 - 36 4 8,0 100,0 Total 50 100,0 ¿Cuál es la unidad de observación? Gráfico Edad 393633302724211815 N°estudiantes 20 15 10 5 0 4 1 4 10 17 14 Histograma
  • 8. Cecilia Larraín R El rango de los datos se ha dividido en 7 intervalos (llamados tallos), cada uno representado por un renglón en la tabla. Los tallos se etiquetan utilizando uno ó más dígitos indicadores para los valores que caen dentro de ese intervalo. En cada renglón, los valores individuales se representan por un dígito (llamado hoja) a la derecha de la línea vertical. Si hay algunos colocan en tallos alto y bajo separados. En este caso, hay 4 puntos de números de la extrema izquierda contiene los recuentos acumulados desde el inicio y desde el fondo de la tabla, deteniéndose en el renglón que contiene a la med 19,518,016,515,0 N°alumnos 20 15 10 5 0 14 0 Estadística Descriptiva Polígono de frecuencias El rango de los datos se ha dividido en 7 intervalos (llamados tallos), cada uno representado por un renglón en la tabla. Los tallos se etiquetan utilizando uno ó más valores que caen dentro de ese intervalo. En cada renglón, los valores individuales se representan por un dígito (llamado hoja) a la derecha de la Si hay algunos datos muy alejados del resto (llamados datos colocan en tallos alto y bajo separados. En este caso, hay 4 puntos atípicos de números de la extrema izquierda contiene los recuentos acumulados desde el inicio y desde el fondo de la tabla, deteniéndose en el renglón que contiene a la med Edad 37,536,034,533,031,530,028,527,025,524,022,521,0 4 1 4 10 17 Página 8 El rango de los datos se ha dividido en 7 intervalos (llamados tallos), cada uno representado por un renglón en la tabla. Los tallos se etiquetan utilizando uno ó más valores que caen dentro de ese intervalo. En cada renglón, los valores individuales se representan por un dígito (llamado hoja) a la derecha de la datos atípicos), se ípicos. La columna de números de la extrema izquierda contiene los recuentos acumulados desde el inicio y desde el fondo de la tabla, deteniéndose en el renglón que contiene a la mediana. 39,037,5 0
  • 9. Cecilia Larraín R Estadística Descriptiva Página 9 Medidas de Resumen Entre las medidas que permiten resumir información proveniente de una población o muestra, podemos considerar: medidas de tendencia posición, de dispersión o variabilidad, de forma y de asociación Medidas de posición: Tendencia Central - Percentiles Tendencia Central: Moda - Promedio - Mediana Son índices de localización central, empleados en la descripción de las distribuciones de frecuencias. Las más usadas son la moda, la mediana y el promedio. Moda (Mo) : Es el valor de la variable que ocurre más frecuentemente Promedio Aritmético (o media Aritmética) La media aritmética o promedio aritmético : En general se utiliza letras mayúsculas para denotar a las variables, y letras minúsculas para los valores que toma las variables (datos). Sea X la variable cuantitativa de interés y sea x1, x2, …, xn los n valores que posee dicha variable. El promedio aritmético se obtiene sumando los valores de X y dividiendo luego por el número de datos. n i 1 2 3 n i =1 x x +x +x ...+x total x = = n n n = ∑ Observación: En Estadística Descriptiva, la media de la población se define de la misma forma pero se utiliza el símbolo µµµµ para denotarla: µµµµ N i 1 2 3 Ni 1 x x +x +x ...+x N N total N = = = = ∑ n ≡ tamaño de la muestra N ≡ tamaño de la población
  • 10. Cecilia Larraín R Estadística Descriptiva Página 10 Mediana (Me) Mediana: es un valor tal que, ordenados en magnitud los n datos de una variable X, el 50% es menor o igual que ella, y el 50% es mayor o igual. Para el cálculo de la mediana la variable debe ser por lo menos ordinal En datos no agrupados (directos), con n impar, el valor central es la mediana. Ejemplo: 3, 5, 7, 8, 9, 12, 13, 15, 20. n = 9 datos. La mediana es el valor 9. Se puede observar que la mediana es el valor que ocupa el lugar 1+ n 2 En datos no agrupados con n par, el valor de la mediana será el punto medio entre los dos valores centrales. Ejemplo: 5, 7, 9, 10, 14, 16, 17, 18. n = 8 datos; la mediana es el valor 12. Es preciso ordenar los datos de menor a mayor para hacer el cálculo. Ejemplo: Edad (en años) de 50 estudiantes seleccionados de una casa de estudio superior EDAD Estadísticos Media 23,42 Mediana 22,5 Moda 19 Cuenta 50 ¿Cuál de las tres medidas de tendencia central representa mejor los datos?
  • 11. Cecilia Larraín R Estadística Descriptiva Página 11 Ejemplo: Si los datos de una variable discreta están ya tabulados. "X: Número de avería diarias en un taller Xi Frec. abs. ni Xi ⋅ ni Frec. abs. acum. Ni 0 1 2 3 4 5 40 30 10 6 3 1 0 30 20 18 12 5 40 60 Total n = 90 ¿Cuál de las tres medidas de tendencia central representa mejor los datos? Promedio: k i i i 1 xn 85 x = = 0,944 n 90 = = ∑ Moda = 0 Me es el valor que ocupa el lugar 1+ n = 45,5 2       Mediana = 1 avería. Interpretación:
  • 12. Cecilia Larraín R Estadística Descriptiva Página 12 Comparación entre x , Me y Mo Desde un punto de vista descriptivo las tres medidas proporcionan información complementaria, sus propiedades son distintas: Estadísticos de tendencia central Observaciones Media aritmética x n i i =1 x total x = = n n ∑ - El nivel de medición de la variable X sea por lo menos en escala de intervalos. - La media es muy sensible cuando existen datos atípicos o extremos. - Es preferible utilizar el promedio aritmético como medida de resumen si los datos son homogéneos. Mediana Me Es un valor tal que, ordenados en magnitud los n datos de una variable X, el 50% es menor o igual que ella, y el 50% es mayor o igual. - La mediana utiliza menos información que la media, ya que solo tiene en cuenta el orden de los datos y no su magnitud, por lo tanto, para poder calcular la mediana el nivel de medición de la variable X debe ser por lo menos en escala ordinal. - La mediana se ve menos alterada por los datos atípicos o extremos. Moda Mo Es el valor de la variable que ocurre más frecuentemente - Para el cálculo de la moda la variable puede tener cualquier nivel de medición, luego es la única medida de tendencia central que se puede calcular si el nivel de medición de la variable X es en escala nominal. X ≠≠≠≠ Mediana ⇒⇒⇒⇒ asimetría, lo que sugiere heterogeneidad en los datos. ∴∴∴∴ en este caso la Mediana es la medida de tendencia central adecuada para resumir los datos.
  • 13. Cecilia Larraín R Estadística Descriptiva Página 13 Simétrica X = Me = Mo Asimetría positiva Mo < Me < X Asimetría Negativa X < Me < Mo Existen varias maneras de de medir asimetría: • X ≠ Mediana ⇒ asimetría • Gráficos: Histograma – Polígono de frecuencias – tallo hojas- caja • Coeficiente pearsoniano de asimetría SK 3(media - mediana) SK = ; en general -3 SK 3 desviación estándar ≤ ≤ Si SK > 0, la distribución es asimétrica positiva o a la derecha. Si SK = 0, la distribución es simétrica. Si SK < 0, la distribución es asimétrica negativa o a la izquierda. • Coeficiente de asimetría de Pearson AP Se basa en el hecho de que en una distribución simétrica, la media coincide con la moda. P Promedio - Moda A = Desviación estándar Si AP > 0, la distribución es asimétrica positiva o a la derecha. Si AP = 0, la distribución es simétrica. Si AP < 0, la distribución es asimétrica negativa o a la izquierda. Este coeficiente no es muy bueno para medir asimetrías leves. • Coeficiente de asimetría de Fisher x 32.527.522.517.512.57.52.5 Simétrica 10 8 6 4 2 0 X 32.527.522.517.512.57.52.5 10 8 6 4 2 0 X 32.527.522.517.512.57.52.5 10 8 6 4 2 0
  • 14. Cecilia Larraín R Estadística Descriptiva Página 14 Cuartiles – Quintiles – Deciles - PERCENTILES Son medidas estadísticas que dividen una serie ordenada de observaciones en 4, 5, 10, 100 partes iguales. Si dividimos en 4 partes iguales, tenemos los cuartiles (Qk) 1, 2 y 3. Cada parte le corresponde un 25%. | 25% | 25% | 25% | 25% | Mín Q1 Q2 Q3 Máx Si dividimos en 5 partes iguales, tenemos los quintiles (qk) 1, 2, 3 y 4. Cada parte le corresponde un 20%. | 20% | 20% | 20% | 20% | 20% | Mín q1 q2 q3 q4 Máx Si dividimos en 10 partes iguales tenemos los deciles (Dk) Los Percentiles Pp son los valores que dividen un conjunto de datos ordenados de menor a mayor en 100 partes con igual (aproximadamente) número de datos. p% (100 - p)% | | | x(1) Pp x(n) Mín Máx Si dividimos en 10 partes iguales tenemos los deciles (D) y en 100 partes iguales, los percentiles (Pp). p% (100 - p)% | | | x(1) Pp x(n) Mín. Máx. Entre mín y Pp se encuentra el p% de los datos o entre Pp y máx se encuentra el (100 – p)% de los datos.
  • 15. Cecilia Larraín R Estadística Descriptiva Página 15 Recordemos se dividimos la serie de datos ordenada en dos partes iguales, tenemos la mediana (Me) Tenemos: Q1 = P25 Me = Q2 = D5 = P50 Q3 = P75 q1 = D2 = P20 q2 = q3 = q4 = Cálculo de Percentiles (datos directos) Ejemplo: Los siguientes datos corresponden a los puntajes obtenidos por 14 alumnos en un examen de Física II. (0 – 100 puntos) 84 52 85 61 74 77 65 63 57 64 72 55 68 76 Diagrama de puntos Puntaje Cálculo percentiles Pp En la definición de percentil en un conjunto de datos “es el valor tal que el p% de los datos es menor o igual que él y el (100 – p)% de los datos es superior o igual a él”, puede que ningún valor cumpla exactamente la definición. Existen diversas formas de interpolar para el cálculo del Pp, en este curso vamos a utilizar el método AEMPIRAL explicado en la página 22 de texto “Probabilidad y Estadística”. Douglas C. Montgomery y George C. Runger (1996) 1ro ) Se ordenan los n datos de menor a mayor 2do ) Pp es el valor que ocupa el lugar j = np 100 . El método AEMPIRAL asigna la media de x(j) y x(j+1) cuando j es un número entero, y asigna el valor que ocupa la posición siguiente a la parte entera de j cuando j = np 100 es un número decimal
  • 16. Cecilia Larraín R ¿Entre qué valores e encuentra - Determine el percentil 7 Gráfico de caja Es un gráfico que suministra información sobre los valores mínimo y máximo, los cuartiles Q1 = P25, Q y la simetría de la distribución. bisagras de Tukey. De determinan de la manera siguiente: Q1 = P25 ≡ mediana entre el mínimo y la mediana de la variable Q3 = P75 ≡ mediana entre el mediana de la variable y el máximo Ejemplo: Edad (página 7) Bisagras de Tukey 18 19 22 23 18 20 22 24 18 20 22 24 19 20 22 25 19 21 22 25 19 21 23 25 19 21 23 25 19 21 23 25 19 21 23 25 19 21 23 26 Estadística Descriptiva e encuentra el 25% de los mejores puntajes? Determine el percentil 75 e interprete. Es un gráfico que suministra información sobre los valores mínimo y máximo, , Q2 o mediana Q3 = P75 la existencia de valores atípicos y la simetría de la distribución. Los cuartiles 1 y 3 se les d . De determinan de la manera siguiente: mediana entre el mínimo y la mediana de la variable mediana entre el mediana de la variable y el máximo Ejemplo: Edad (página 7) Percentiles 20,00 22,50 25,00Edad 25 50 75 Percentiles Se sabe que un dato es atípico, si su valor no se encuentra en el (Q1 – 1,5⋅⋅⋅⋅RI , Q3 RI = Q3 – Q 26 27 27 28 29 31 33 34 36 36 3636 34 33 Edad 40 30 20 10 0 Página 16 % de los mejores puntajes? Es un gráfico que suministra información sobre los valores mínimo y máximo, la existencia de valores atípicos 1 y 3 se les denominan Se sabe que un dato es atípico, si su en el intervalo + 1,5⋅⋅⋅⋅RI) Q1
  • 17. Cecilia Larraín R Estadística Descriptiva Página 17 Cálculo de percentiles datos tabulados en intervalos (datos secundarios ≡ no se dispone de los datos directos): Los valores que toman los percentiles cuando tenemos la información agrupada (intervalos reales) en una tabla de frecuencias de una variable cuantitativa son aproximados. Mediante interpolación lineal en el gráfico de frecuencias acumulada (ojiva) se llega a la fórmula del percentil. Puntaje en un test de aptitud DISTRIBUCIÓN DE FRECUENCIA ACUMULADA Puntaje X Frec. Abs. Acumulada Ni < 15 0 < 20 8 < 25 15 < 30 29 < 35 35 < 40 38 < 45 40 Puntaje X N°de sujetos ni Frecuencias acumuladas Ni (absoluta) Fi (relativa) 15 – 20 8 8 0,200 20 – 25 7 15 0,375 j 25 – 30 14 29 0,725 30 – 35 6 35 0,875 35 – 40 3 38 0,950 40 – 45 2 40 1,000 n = 40 n = 40 lugar np 100 = n 50 20 100 ⋅ = el percentil 50 o mediana aproximadamente se encuentra en el lugar 20, observando la columna Ni de frec. acumuladas o el gráfico ojiva, el valor que ocupa el lugar 20 se encuentra en el tercer intervalo. P50 = Me ∈ [25, 30)
  • 18. Cecilia Larraín R Estadística Descriptiva Página 18 OJIVA (POLÍGONO DE FRECUENCIAS ACUMULADAS) Puntaje P50 ∈ [25, 30) ← 25 es el límite inferior del intervalo j 30 – 25 = 5 es la amplitud del intervalo j intervalo j Hay 14 sujetos (frec, abs.) con puntaje en el intervalo j frec. abs. acumulada anterior al intervalo j es 15 La fórmula que entrega la interpolación lineal para el cálculo de percentiles con datos agrupados en intervalos reales es: j-1 p inf j j np 100 - N P = lim +am plitud nj       Aplicando la fórmula de percentil para datos agrupados 50 20 15 P 25 5 26,79 14 puntos −  = + ⋅ =    Interpretación ……………………………. - Suponga que al 15% de los puntajes más altos pasan a una segunda etapa, - ¿a partir de qué puntaje se va a realizar el corte para seleccionar a dichos sujetos? - Determine e interprete el valor del percentil 5. Interpolando Linealmente, se obtiene Se utiliza cuando no se tienen los datos de cada unidad de observación
  • 19. Cecilia Larraín R Estadística Descriptiva Página 19 MEDIDAS DE DISPERSIÓN ( O VARIABILIDAD) Las medidas de tendencia central (promedio, mediana, moda) y los percentiles, dan información incompleta, acerca de las observaciones. Ejemplo: Los puntajes (X) obtenidos en una Test por 2 grupos de alumnos son los siguientes: Grupo 1 4 3 5 6 4 5 5 7 5 6 Grupo 2 1 4 3 5 6 8 2 7 5 9 En ambos casos el promedio aritmético o media aritmética es 5 (x = 5), pero sus gráficos son distintos Diagramas de puntos Los diagramas de ambos grupos muestran que los puntajes se distribuyen simétricamente respecto al 5, pero en el grupo 1 existe una menor dispersión que en el grupo 2, es decir, los grupos tienen igual promedio pero la variabilidad de los puntajes respecto a la media es distinta. Las medidas de variabilidad indican la dispersión de los datos obtenidos por los sujetos o las unidades de medición. Cuando los datos están con baja dispersión se dice que es homogéneo. Cuando están altamente dispersos se dice que es heterogéneo. Las medidas de dispersión más utilizadas son las siguientes: • Amplitud o rango o recorrido, • Rango intercuartílico • Desviación estándar - varianza • Coeficiente de variación. Rango o recorrido: Es la distancia en la escala de medidas entre los valores mayor y menor. Rango = valor máximo – valor mínimo
  • 20. Cecilia Larraín R Estadística Descriptiva Página 20 Rango Intercuatílico (RI): se define como la diferencia entre el tercer y el primer cuartel, RI = Q3 – Q1, es la longitud del 50% central de la distribución de datos Q3 = P75 Q1 = P25 RI se usa con mayor frecuencia acompañando a la mediana cuando la presencia de valores extremos hace poco recomendable el uso del promedio. Defectos. No permite hacer una interpretación precisa de un valor dentro de una distribución. No interviene en relaciones matemáticas importantes en la inferencia estadística. Desviación estándar o desviación típica (medida de dispersión asociada al promedio aritmético) Es la raíz cuadrada de la media de las desviaciones al cuadrado. Dado un conjunto (o muestra) de datos x1, x2, …,xn de una variable X con nivel de medición en escala de intervalos o de razón, se define la desviación estándar o desviación típica como el promedio de las desviaciones di de los valores xi respecto a su promedio aritmético. Desviación estándar: n 2 i i =1 (x - x) s = n ∑ La desviación estándar toma valores no negativos y mide la dispersión: a mayor desviación estándar mayor dispersión. El cuadrado de la desviación estándar s2 , se denomina varianza. Las desviaciones di = (xi - x ) se elevan al cuadrado para convertirlas en positivas, además recuerde que n i i =1 (x - x)∑ = 0 y se extrae la raíz cuadrada para que la medida resultante tenga la misma unidad de medición de la variable.
  • 21. Cecilia Larraín R Estadística Descriptiva Página 21 n 2 i 2 i 1 Varianza s (x x) n = − = ∑ Del ejemplo Puntaje de un Test: Grupo 1 Grupo 2 x x - x 2 (x - x) x x - x 2 (x - x) 3 -2 4 1 -4 16 4 -1 1 2 -3 9 4 -1 1 3 -2 4 5 0 0 4 -1 1 5 0 0 5 0 0 5 0 0 5 0 0 5 0 0 6 1 1 6 1 1 7 2 4 6 1 1 8 3 9 7 2 4 9 4 16 Total 50 0 12 50 0 60 Grupo n Promedio Desviación estándar Varianza 1 10 50 5 ptos 10 = 12 = 1,0954 ptos 10 (1,0954)2 2 10 50 5 ptos 10 = 60 = 2,4495 ptos 10 (2,4495)2 Se observa que ambos grupos tienen igual promedio pero los datos del grupo dos tienen mayor dispersión o variabilidad. Ventajas de la desviación estándar - Permite una interpretación precisa de los valores dentro de una distribución. - La desviación como el promedio pertenece a un sistema matemático que permite su uso en métodos estadísticos más avanzados.
  • 22. Cecilia Larraín R Estadística Descriptiva Página 22 i=1 2n in 2 i=1 i 2 2 n i=1 i x x - n = n-1 (x -x) n -1 s       = ∑ ∑ ∑ Propiedades de la desviación estándar (demostración tarea) - Si se suman a todos los valores de la variable un valor constante, el promedio queda aumentado en ese valor, pero la desviación estándar permanece igual. - Si se multiplica cada valor original por una constante, tanto el promedio como la desviación estándar queda amplificados por ese valor. - La desviación estándar de una constante es cero. Observaciones: −Notación de la varianza poblacional N 2 i 2 i 1 (x µ) σ N = − = ∑ µ media de la población, N tamaño de la población - En algunos textos de Estadística la fórmula de la varianza (s2 ) de la muestra (la muestra es representativa) viene dada por: 2 2 i n i=1= (x -x) n -1 s ∑ Si los datos se encuentran tabulados (en tabla de frecuencias ← tenemos datos secundarios) las fórmulas de la varianza y desviación estándar son: k 2 i i 2 i 1 x (x x) n n - 1 Varianza s = − = ∑ llamada varianza corregida o cuasivarianza y se utiliza en Inferencia Estadística como la estimación de la varianza poblacional σσσσ2 , es la fórmula que vamos a utilizar en este curso como varianza muestral.
  • 23. Cecilia Larraín R Estadística Descriptiva Página 23 k 2 i i i 1 Desviación estándar: s (x -x) n n - 1 = = ∑ xi es el valor de la variable discreta en una tabla o la marca de clase en el intervalo i (datos agrupados en intervalos reales) Ejemplo: Cierto tipo de resistencias de película de óxido metálico son agrupadas en paquetes de 50 unidades. Se seleccionaron 60 paquetes y se contó el número de resistencias que no cumplían con las especificaciones, resultando la siguiente tabla X = N°de resistencia defectuosas en cada paquete X ni i ix n⋅ 2 i i(x - x) n⋅ 0 5 0 31,25 1 10 10 22,50 2 16 32 4,00 3 15 45 3,75 4 9 36 20,25 5 3 15 18,75 6 2 12 24,50 Total n = 60 150 150 x = 60 125,00 2 125 s = 59 = 2,119 ← varianza Desviación estándar s = varianza = 2,119 1,456= 2 k i ik 2 i=1 i ii 2 i=1 2 k i=1 i x n x n -n n = = n-1 (x -x) n -1 Varianza: Datos tabulados s   ⋅     ⋅⋅∑ ∑ ∑
  • 24. Cecilia Larraín R Estadística Descriptiva Página 24 2 k i ik 2 i=1 i ii i=1 2 k i=1 i x n x n -n n = = n -1 (x -x) n -1 Desviación estandar: Datos tabulados s   ⋅     ⋅⋅∑ ∑ ∑ Del ejemplo de resistencia de película de óxido metálico: i 2 i ii x n = 150 ; x n = 500∑ ∑ 2 (150) 500 60 1,456 59 s − = = Coeficiente de variación (CV): Es una medida relativa de variabilidad X X CV = |x| s Se utiliza para comparar la dispersión de variables que aparecen en unidades distintas de medición o que toman valores de magnitudes muy diferentes, ya que no depende de la unidad de medición de las variables. Ejemplo: La tabla siguiente muestra el peso en kg y la estatura en cm de 10 sujetos sujeto 1 2 3 4 5 6 7 8 9 10 Peso (Y) 78 75 70 68 44 66 72 95 70 74 Estatura (X) 172 175 168 178 159 166 176 180 179 171 Para analizar cuál distribución de datos es más homogénea, se debe determinar los coeficientes de variación de cada variable Variable Media Desv. típ. CV Peso (Y) 71,20 12,541 Estatura (X) 172,40 6,620 Interpretación:
  • 25. Cecilia Larraín R Estadística Descriptiva Página 25 Ejercicios 1. Se realizó un estudio sobre los costos operacionales (Y), en millones de dólares anuales, en empresas de dos rubros distintos( A ; B ). Se tomaron muestras de 25 empresas de cada rubro, obteniéndose: Rubro A 5,3 4,4 4,4 8,2 2,8 1,5 7,5 6,2 8,5 4,8 4,2 7,2 3,9 6,4 5,3 5,4 2,7 7,1 8,2 5,9 3,9 6,4 4,2 7,5 5,2 Rubro B 3,5 6,1 4,5 4,0 4,1 4,8 3,6 5,4 5,2 3,5 4,6 5,4 2,9 4,3 4,0 4,8 4,7 2,6 5,5 5,4 2,9 3,5 5,9 3,8 4,9 Rubro A Frecuencia Tallo & Hoja 1,00 1 . 5 2,00 2 . 78 2,00 3 . 99 5,00 4 . 22448 5,00 5 . 23349 3,00 6 . 244 4,00 7 . 1255 3,00 8 . 225 Multiplicar por 10 -1 Rubro B Frecuencia Tallo & Hoja 3,00 2 . 699 0,00 3 . 5,00 3 . 55568 4,00 4 . 0013 6,00 4 . 567889 4,00 5 . 2444 2,00 5 . 59 1,00 6 . 1 Multiplicar por 10 -1 a. Compare la dispersión de los costos de operación, entre los dos rubros. Rubro n y s CV A B Comentarios: b. ¿Entre qué costos operacionales se ubica el 50% central de las empresas del rubro B? c. Según estimaciones, realizadas en las empresas del rubro A, los costos operacionales aumentarán en un 3%. Determine e interprete la nueva mediana y la nueva varianza. 2. Los datos que se muestran a continuación son los grados de dureza Brinell obtenidos para muestras de dos aleaciones de magnesio:
  • 26. Cecilia Larraín R Estadística Descriptiva Página 26 Y = grado de dureza Brinell Aleación 1 66,3 63,5 64,9 61,8 64,3 64,7 65,1 64,5 68,4 63,2 Aleación 2 71,3 60,4 62,6 63,9 68,8 70,1 64,8 68,9 65,8 66,2 Gráfico de cajas ALEACION 21 DUREZA 74 72 70 68 66 64 62 60 58 9 Informe: dureza Brinell ALEACION n Media Desv. típ. C. V. Mín. Máx. 1 10 64,670 1,787 2 Percentiles ALEACION 25 50 75 RI 1,5·RI Valor de dato atípico 1 63,5 64,6 65,1 2 63,9 66,0 68,9 Interpretación: ___________________
  • 27. Cecilia Larraín R Estadística Descriptiva Página 27 2. Se toman muestras, de barras planas de dos tipos de acero, de tamaño 80 y 100 respectivamente, para analizar la resistencia a la ruptura. Los siguientes gráficos muestran los tiempos máximos (Y), en minutos que soportan dichas barras antes de fragmentarse, cuando son sometidos a la tensión: Muestra 1 Muestra 2 minutos minutos 2.1. En base a la información contenida en los gráficos, determine que distribución es más homogénea y qué tipo de acero resistió en mejor forma la tensión aplicada. Justifique utilizando medidas de resumen adecuadas. 2.2. Si las barras de acero tipo 1, se clasifican de acuerdo a su resistencia en {RB, RM, RA} Baja resistencia (RB) : si soportan un tiempo máximo inferior a 5,5 minutos Alta resistencia (RA) : si soportan un tiempo máximo de por lo menos 14 minutos Resistencia media (RM) : en otro caso. Muestre gráficamente la distribución de las barras de acuerdo a la nueva clasificación. 2.3. Determine e interprete el valor del percentil 60 para ambas muestras.
  • 28. Cecilia Larraín R Estadística Descriptiva Página 28 Descripción conjunta de dos variables cuantitativas Es frecuente que se pueda determinar el grado de relación entre 2 (o más) variables cuantitativas, ya que al tener este conocimiento, se puede predecir una variable a partir de la otra. Para expresar cuantitativamente el grado en que dos variables están relacionadas, es necesario calcular un coeficiente de correlación. Coeficiente de correlación lineal poblacional : ρ Coeficiente de correlación lineal muestral: r Un coeficiente de correlación para variables cuantitativas: es un número que indica el grado de asociación y la dirección de esa asociación. Indica cómo varía o cambia una característica cuando la otra característica o variable asociada cambia. Sin el conocimiento de cómo una cosa varía con otra sería imposible hacer predicciones. La predicción sólo es posible basándose en el conocimiento de la relación que hay entre 2 variables. Un coeficiente de correlación lineal (con variables por lo menos ordinales) nos proporciona 3 datos principales: - La existencia o no de una relación entre las variables estudiadas. - La dirección de la relación. - El grado de esta relación. Como por ejemplo: • estatura y peso • el ingreso familiar y los gastos en educación Para el cálculo de “r” (correlación muestral) es preciso tener 2 conjuntos de medidas de los mismos individuos (o parejas de individuos que tengan alguna forma de relación) Tabla de datos: Gráfico adecuado: Diagrama de dispersión, muestra si hay relación lineal entre las variables. Sujeto 1 2 3 n Variable X x1 x2 x3 … xn Variable Y y1 y2 y3 … yn La tabla contiene n pares ordenados
  • 29. Cecilia Larraín R Estadística Descriptiva Página 29 Ejemplos Una correlación lineal positiva perfecta X Y 2 4 4 6 5 7 6 8 7 9 8 10 9 11 10 12 12 14 13 15 a) Una correlación lineal elevada positiva (+0,76) (relación directa) X Y 13 11 12 14 10 11 10 7 8 9 6 11 6 3 5 7 3 6 2 1 En general, personas con alto puntaje en x también tendrán alto puntaje en y. b) Una baja correlación lineal positiva (+0,14) X Y 13 7 12 11 10 3 8 7 7 2 6 12 6 6 4 2 3 9 1 6 r = 1
  • 30. Cecilia Larraín R Estadística Descriptiva Página 30 c) Un caso de alta correlación lineal negativa (-0,70) (relación inversa) X Y 12 7 10 3 9 8 8 5 7 7 7 12 6 10 5 9 4 13 2 11 El signo algebraico del coeficiente de correlación tiene que ver, por lo tanto, con la dirección de relación entre dos cosas, ya sea directa o inversa. Significado de la correlación El valor de de la correlación puede variar desde -1 (lo que indica correlación negativa perfecta), pasando por el 0 (que indica independencia completa o ninguna relación), hasta +1 (que significa perfecta correlación positiva) La magnitud se relaciona con la intensidad o estrechez de la relación. Coeficiente de correlación lineal de Pearson yx xy ss s r = n i i i 1 xy (x -x)(y -y) n-1 s = = ∑ X e Y variables cuantitativas ; -1 < r < 1 covarianza de una muestra (representativa de la población objeto), indica la dirección de la relación.
  • 31. Cecilia Larraín R Estadística Descriptiva Página 31 COVARIANZA n n i in n i=1 i=1 i i i i i=1 i=1 xy x y (x -x)(y -y) x y - n = n-1 n-1 s          = ∑ ∑ ∑ ∑ Ejemplo: sujeto x y (x - x ) (y - y ) (x - x )2 (y - y )2 (x - x )(y - y ) 1 13 11 5,5 3 30,25 9 16,5 2 12 14 4,5 6 20,25 36 27 3 10 11 2,5 3 6,25 9 7,5 4 10 7 2,5 -1 6,25 1 -2,5 5 8 9 0,5 1 0,25 1 0,5 6 6 11 -1,5 3 2,25 9 -4,5 7 6 3 -1,5 -5 2,25 25 7,5 8 5 7 -2,5 -1 6,25 1 2,5 9 3 6 -4,5 -2 20,25 4 9 10 2 1 -5,5 -7 30,25 49 38,5 Total 75 80 124,5 144 102 promedio x =7,5 y = 8,0 Desviación estándar de X: 2 x (x - x) 124,5 = 3,719 n - 1 9 s = = ∑ Desviación estándar de Y: 2 y (y - y) 144 = 4,000 n - 1 9 s = = ∑ Covarianza de (x,y): xy (x -x)(y -y) 102 = = 11,333 n - 1 9 s = ∑ Coeficiente de correlación lineal de Pearson: xy 11,333 r = 0,762 (3,719)(4,000) = Interpretación: _________________________________________ Covarianza positiva Interpretación: si hubiese relación lineal, esta sería directa
  • 32. Cecilia Larraín R Estadística Descriptiva Página 32 Ejercicios Ejercicio VI-1 Para determinada tarea en una fábrica, donde se necesita mucha destreza, se quiere investigar si “la productividad en el trabajo debe ser mayor al aumentar los años de experiencia”. Se seleccionaron al azar diez empleados de entre lo que tienen ese trabajo. Los datos de años de experiencia y medición de productividad son los siguientes: Empleado 01 02 03 04 05 06 07 08 09 10 Años de experiencia 4 6 10 2 12 6 5 10 13 9 Productividad 80 82 88 81 92 85 83 86 91 90 a. Realice el diagrama de dispersión y calcular el coeficiente r de Pearson. b. Interprete los resultados. Ejercicio VI-2 El tiempo de respuestas (en nanosegundos) de un circuito lógico en frío (X) y el tiempo de respuesta tras una hora de uso intensivo (Y), para una muestra de 12 máquinas es el siguiente: Máquina 1 2 3 4 5 6 7 8 9 10 11 12 Tiempo de respuesta en frío (X) 6 5 8 14 7 4 5 9 6 5 7 6 Tiempo de respuesta tras una hora de uso (Y) 4 8 15 8 9 6 9 6 11 7 5 9 a. Se desea pronosticar el tiempo que tardará un determinado circuito lógico tras una hora de funcionamiento intensivo, utilizando información del tiempo de respuesta en frío. Para un pronóstico fiable, las variables deben estar fuertemente relacionadas, utilizando una mediada estadística adecuada, ¿qué concluiría usted? b. Se sabe que un dato es atípico, si su valor no se encuentra en el intervalo (Q1 – 1,5⋅⋅⋅⋅RI , Q3 + 1,5⋅⋅⋅⋅RI) Detecte los posibles valores atípico en Y. (Qk ≡ cuartil k RI ≡ Amplitud (rango) intercuartílica)