GRÁFICOS PARA DATOS
CUANTITATIVOS
DISTRIBUCIÓN DE FRECUENCIAS
Una distribución de frecuencias es un resumen tabular de los
datos que muestra el número(frecuencia) de elementos en
cada una de varias clases(intervalos) que no se superponen.
DEFINICIONES
 Los límites inferiores de clase son las cifras más pequeñas
que pueden pertenecer a cada una de las clases.
 Los límites superiores de clase son las cifras más grandes
que pueden pertenecer a cada una de las clases.
 Las fronteras de clase son las cifras que se utilizan para
separar las clases, pero sin los espacios creados por los
límites de clase. Dividen la diferencia entre el final de una
clase y el comienzo de la siguiente
 Las marcas de clase son los valores en el punto medio de
las clases. Cada marca de clase se puede encontrar al
sumar el límite inferior de clase más el límite superior de
clase y dividir la suma por 2.
 Anchura de clase es la diferencia entre dos límites
inferiores de clase consecutivos (o dos fronteras
inferiores de clase consecutivas) en una distribución de
frecuencias.
 Las distribuciones de frecuencias se elaboran
para:
1. Resumir grandes conjuntos de datos,
2. Observar la distribución e identificar los valores
atípicos
3. Tener una base para producir gráficas (como los
histogramas)
Considere la vida para 40 baterías para automóviles
similares, registradas al décimo de año más cercano.
Las baterías se garantizan por 3 años.
2.2,4.1,3.5,4.5,3.2,3.7,3.0,2.6,3.4,1.6,3.1,3.3,3.8,
3.1,4.7,3.7,2.5,4.3,3.4,3.6,2.9,3.3,3.9,3.1,3.3,3.1,
3.7,4.4,3.2,4.1,1.9,3.4,4.7,3.8,3.2,2.6,3.9,3.0,4.2,3
.5
Pasos para definir clases de una distribución de
frecuencias con datos cuantitativos:
1. Determine el número de clases que no se
superponen. Se pueden elegir las el número de
clases de acuerdo a nuestros intereses o usar alguna
de las siguientes reglas:
Recuerde que 𝑥 (parte entera de x) denota el
menor entero mayor o igual a x.
Fórmula de Sturges : Recomienda para un conjunto
de n observaciones, el número de clases
𝑘 = 1 + 3.322 ∙ log10 𝑛 Para n>30
Regla 2 a la k: Un método útil para determinar la
cantidad de clases k es la regla de 2 a la k, la cual
sugiere elegir el menor número k para el número
de clases, de manera que 2𝑘 sea mayor que el
número de observaciones.
Regla de Scott: La regla de Scott establece que el
número de intervalos se calcula mediante la
expresión:
𝑘 =
𝑑𝑎𝑡𝑜 𝑚𝑎𝑦𝑜𝑟 − 𝑑𝑎𝑡𝑜 𝑚𝑒𝑛𝑜𝑟
𝐴𝑠
Donde 𝐴𝑠 es la amplitud teórica 𝑘 = 3.5 ∙ 𝑠 ∙ 𝑛−1/3
y
s representa la desviación estándar de los datos.
Este autor se basó en la distribución normal.
https://aprender-uib.github.io/AprendeR1/chap-
hist.html
Usando la Regla de Sturges: 𝒌 ≈ 𝟔. 𝟑𝟐𝟐=7
2. Defina el ancho (o anchura) de cada clase
Generalmente es el mismo para todas las clases.
Todas las clases juntas deben cubrir por lo menos la
distancia del valor más bajo hasta el más alto de los
datos. Para lo cual se utiliza la fórmula:
𝑖 ≥
𝑣𝑎𝑙𝑜𝑟 𝑚á𝑥𝑖𝑚𝑜 𝑑𝑒 𝑑𝑎𝑡𝑜𝑠 − 𝑣𝑎𝑙𝑜𝑟 𝑚í𝑛𝑖𝑚𝑜 𝑑𝑒 𝑑𝑎𝑡𝑜𝑠
𝑛ú𝑚𝑒𝑟𝑜 𝑑𝑒 𝑐𝑙𝑎𝑠𝑒𝑠
Donde i es el ancho o longitud de clase (o intervalo).
En la práctica, el tamaño de cada clase se redondea a
una cifra conveniente
𝑖 =
4.7 − 1.6
7
= 0.44 ≈ 0.5
Así la anchura de clase es 0.5
3. Defina el valor para el primer límite inferior de
clase utilizando el valor mínimo o un valor
conveniente por debajo del mínimo.
Elegimos a 1.5
DISTRIBUCIÓN DE FRECUENCIAS
4. A partir del primer límite inferior de clase y de la
anchura de clase, liste los demás limites inferiores de
clase.
Para hacer esto se suma la anchura de clase al primer
límite inferior de clase para obtener el segundo límite
inferior de clase. Después se suma la anchura de clase
al segundo límite inferior de clase para obtener el tercer
límite inferior de clase, y así sucesivamente
Liste los limites inferiores de clase en una columna
vertical y después determine e introduzca los limites
superiores de clase.
Vida media Frecuencia
1.5 - 1.9
2 - 2.4
2.5 - 2.9
3 – 3.4
3.5 – 3.9
4 – 4.4
4.5 – 4.9
Vida media Frecuencia
[1.5 , 2)
[2 , 2.5)
[2.5 , 3)
[3 , 3.5)
[3.5 , 4)
[4 , 4.5)
[4.5 , 5)
library(fdth)
dist_frec<-fdt(x,start=1.5,end=5,h=0.5);dist_frec
plot(dist_frec,type="fh",xlim=c(1.5,5),ylim=c(0,15),
main="Vida media de baterías",
col="palevioletred")
plot(dist_frec,type=“cfh",xlim=c(1.5,5),ylim=c(0,40),
main="Vida media de baterías",
col="palevioletred")
DISTRIBUCIÓN DE FRECUENCIAS install.package(agricolae)
library(agricolae)
?graph.freq
DISTRIBUCIÓN DE FRECUENCIAS ACUMULADAS
Muestra el número de datos menores o iguales que el límite
superior de cada clase si la clase incluye tanto el límite
inferior como el superior y, estrictamente menor si la clase no
incluye el límite superior(método de inclusión a izquierda).
DISTRIBUCIÓN DE FRECUENCIAS RELATIVA
ACUMULADAS
Muestra LA PROPORCIÓN de datos con valores
menores o iguales que el límite superior de cada clase
si la clase incluye tanto el límite inferior como el superior
y, estrictamente menor si la clase no incluye el límite
superior(método de inclusión a izquierda).
DISTRIBUCIÓN DE FRECUENCIAS PORCENTUAL
ACUMULADA
Muestra el PORCENTAJE de datos con valores
menores o iguales que el límite superior de cada clase
si la clase incluye tanto el límite inferior como el superior
y, estrictamente menor si la clase no incluye el límite
superior(método de inclusión a izquierda).
En la tabla de frecuencias arrojada en la consola:
 f: frecuencia absoluta
 rf: frecuencia relativa
 rf(%): frecuencia relativa porcentual
 cf : frecuencia acumulada
 cf(%): frecuencia acumulada porcentual
Para especificar el tipo histograma:
Type=“tipo de histograma” escriba:
 fh para histograma de frecuencias absolutas
 cfh para histograma de frecuencias absolutas
acumuladas
 rfh para histograma de frecuencias relativas
 fp para polígono de frecuencias
 cfp para polígono de frecuencias
acumulada(ojiva)
HISTOGRAMA
 Es una representación gráfica común de los datos
cuantitativos.
 Se elabora para datos previamente resumidos mediante
una distribución de frecuencias, de frecuencia relativas o
de frecuencias porcentual.
Para elaborarlo, la variable de interés se coloca sobre el eje
horizontal y la frecuencia (de que se trate) en el eje
vertical.
La frecuencia, frecuencia relativa o la frecuencia porcentual
de cada clase se indica con el trazo de un rectángulo, cuya
base está determinada por los límites de clase sobre el eje
horizontal, y cuya altura es la frecuencia.
La altura de los rectángulos es proporcional a las frecuencias
de clase.
En un histograma si los datos son discretos, se
puede asignar una clase para cada valor entero
tomado por los datos. Para un número grande de
valores enteros, puede que sea necesario
agruparlos en clases.
En un histograma, los rectángulos adyacentes están
en contacto uno con otro, a diferencia de una
gráfica de barras, no existe una separación natural
entre los rectángulos de las clases adyacentes.
OJIVA: También llamada gráfico de frecuencias
acumulados, es una línea que conecta puntos que
son el porcentaje acumulado de observaciones
situadas por debajo del límite superior de cada
intervalo en una distribución de frecuencias
acumuladas.
Para realizar la ojiva elaboro la tabla de
frecuencias acumuladas.
HISTOGRAMA
 library(agricolae)
 h<-graph.freq(x,plot=T,frequency =
2,axes=T,breaks=c(1.5,2,2.5,3,3.5,4,4.5,5),
main="Vida media de baterías",col="lightyellow",
ylab="Frecuencia relativa",xlab="variable",ylim=c(0,0.4))
?graph.freq?
polygon.freqpolygon.freq(h,frequency=2,col="lightpink",lwd=
4,lty=1)
#lty: tipo de línea a usar para el borde
#Para cambiar el ancho de línea, se puede usar el
argumento lwd.ogive.freq(h,col="gold",frame=T,
xlab="variable", ylab="Frecuencia relativa acumulada",
main="Ojiva Teimpo de vida",lty=3,lwd=2,pch=4)
MEDIDAS DE TENDENCIA CENTRAL
MEDIDAS DE TENDENCIA CENTRAL PARA DATOS NO AGRUPADOS
Los datos están “distribuidos” a lo largo de la recta
horizontal, por lo que las medidas de tendencia
central se ubican en el eje horizontal y localizan el
centro de la distribución.
Las medidas de tendencia central permiten
determinar el valor más representativo de la
variable que estamos analizando. Las medidas de
tendencia central más utilizadas son la media, la
mediana y la moda.
Si la medida se calcula para los datos de una
muestra, se le llama estadístico muestral o
estadístico.
Si se calcula para los datos de una población, se le
llama parámetro poblacional ó parámetro.
En la inferencia estadística, un estadístico muestral
se conoce como estimador puntual del parámetro
poblacional correspondiente.
Ejemplo: Cambridge Power seleccionó una muestra
aleatoria de 20 clientes residenciales. A continuación
se muestra el valor pagado redondeado al dólar más
próximo, que se cobraron a los clientes por el
servicio de luz el mes anterior. Calcule la media y
señale si se trata de un estadístico o de un
parámetro
54 48 58 50 25 47 75 46 60 70 67 68 39 35 56 66 33 63
65 67
 Media
También conocida como promedio aritmético, valor
promedio o promedio o media aritmética, o media.
La media poblacional, notada μ, y la media muestral
notada 𝑥, en el caso de que los datos no están
agrupados en una distribución de frecuencias es la
suma de todos los valores observados en la población(o
muestra) dividida entre el número de valores de la
población(o de la muestra).
𝑀𝑒𝑑𝑖𝑎
=
𝑠𝑢𝑚𝑎 𝑑𝑒 𝑡𝑜𝑑𝑜𝑠 𝑙𝑜𝑠 𝑣𝑎𝑙𝑜𝑟𝑒𝑠 𝑜𝑏𝑠𝑒𝑟𝑣𝑎𝑑𝑜𝑠 𝑒𝑛 𝑙𝑎 𝑝𝑜𝑏𝑙𝑎𝑐𝑖ó𝑛
𝑁ú𝑚𝑒𝑟𝑜 𝑑𝑒 𝑣𝑎𝑙𝑜𝑟𝑒𝑠 𝑒𝑛 𝑙𝑎 𝑝𝑜𝑏𝑙𝑎𝑐𝑖ó𝑛
𝚺𝒙
𝑵
Donde
N es el número de valores en la población
𝑥 representa cualquier valor particular
Σ es la letra mayúscula griega sigma, e indica la
operación de suma
MEDIDAS DE TENDENCIA CENTRAL PARA DATOS NO AGRUPADOS
 Ejemplo: Por ejemplo, suponga que los ingresos
mensuales de un pequeño grupo de corredores de
bolsa es 2 500 000, 2 700 000, 2 200 000, 2 300
000 y 2 600 000. Calcule el ingreso medio
 Si hay valores extremos, es decir valores
extremadamente grandes o valores
extremadamente pequeños, la media no será
una medida representativa del centro de la
distribución de datos.
Ejemplo: Suponga que los ingresos mensuales de un
pequeño grupo de corredores de bolsa es 2 500 000,
2 700 000, 2 200 000, 2 300 000, 2 600 000 y 32 500
000. ¿Es la media una medida representativa de los
datos?
 Ejemplo: Suponga que va a un supermercado y
gasta 65800 en 15 artículos. ¿Cuál es el precio
promedio por artículo?
 Ejemplo: Calcule la media aritmética y señale si
se trata de un estadístico o un parámetro:
Midtown Ford emplea a 10 vendedores. El número de
automóviles que cada uno vendió el mes anterior
fue:
15, 23, 4, 19, 18, 10, 10, 8, 28, 19
 Mediana
Si los datos contienen uno o dos valores muy grandes o
muy pequeños, la media aritmética no resulta
representativa. Es posible describir el centro de dichos
datos a partir de una medida de ubicación denominada
mediana.
Mediana: es el valor de la variable que ocupa la posición
del centro, cuando los datos se ordenan de menor a
mayor, es decir, es el punto medio de los valores una
vez que se han ordenado de menor a mayor o de mayor
a menor.
Por lo que se deduce que la mitad de las observaciones
son menores o iguales a la mediana.
 Para determinar el valor de la mediana primero se
ordenan los datos con los que se está trabajando y
luego se identifica la mediana. Para calcular la
mediana se tienen dos casos:
Si el número de datos es impar, la mediana es el valor
de en medio.
 Si el número de datos es par, la mediana es el
promedio de las dos observaciones de en medio.
EJEMPLO: CALCULE LA MEDIANA de los ingresos
mensuales de un pequeño grupo de corredores de bolsa
de los ejemplos mencionados anteriormente.
MEDIDAS DE TENDENCIA CENTRAL PARA DATOS NO AGRUPADOS
 Al contrario de la media, a la mediana no la
afectan valores extremos, ya que sólo considera
la posición del valor central.
 Por ejemplo, si está buscando un apto y la
persona de la inmobiliaria le da los precios de
los arriendos de los 4 aptos disponibles que
tiene: 800 000, 900 000, 950 000,5 000 000.
En este caso la media no es una medida
representativa de los precios de los arriendos,
pero la mediana sí.
 Moda
La moda es el valor que más se repite o se presenta
con mayor frecuencia en una lista de datos.
La moda es de especial utilidad para resumir datos
de nivel nominal.
En resumen, es posible determinar la moda para
todos los niveles de datos: nominal, ordinal, de
intervalo y de razón. La moda también tiene la
ventaja de que no influyen en ella valores
extremadamente grandes o pequeños.
Las desventajas, por las cuales la moda se le utiliza
con menor frecuencia que a la media o la mediana
son:
 Cuando en el conjunto de datos no existe la moda,
porque ningún valor se presenta más de una vez. Por
ejemplo, no hay moda en los ingresos anuales del
pequeño grupo de corredores de bolsa, los cuales son
2 500 000, 2 700 000, 2 200 000, 2 300 000 y 32 500
000. Sin embargo, como cada valor es diferente, se
podría argumentar que cada valor es la moda.
 Cuando un conjunto de datos tiene más de una
moda. Suponga que las edades de los miembros de
un club de inversionistas son 22, 26, 27, 27, 31, 35 y
35. Las edades 27 y 35 son modas. Este
agrupamiento de edades se denomina bimodal (tiene
dos modas). Alguien podría cuestionar la utilización
de dos modas para representar la ubicación de este
conjunto de datos de edades.
 Si hay más de dos modas en una lista de datos, se
dice que el conjunto de datos es multimodal.
DIAGRAMA DE PUNTOS
Una tarea inicial para estudiar las observaciones
recolectadas de una variable aleatoria cuantitativa cuando el
conjunto de datos es relativamente pequeño es visualizar los
datos mediante un diagrama o gráfico de puntos para así
identificar con facilidad la localización y la dispersión de los
mismos.
En r-studio:
stripchart(datos, pch=19, at=1.05, xlim=c( , ), main=“título
del gráfico”,xlab=“nombre de la variable”)
En un histograma si los datos son discretos, se
puede asignar una clase para cada valor entero
tomado por los datos. Para un número grande de
valores enteros, puede que sea necesario
agruparlos en clases.
En un histograma, los rectángulos adyacentes están
en contacto uno con otro, a diferencia de una
gráfica de barras, no existe una separación natural
entre los rectángulos de las clases adyacentes.
OJIVA: También llamada gráfico de frecuencias
acumulados, es una línea que conecta puntos que
son el porcentaje acumulado de observaciones
situadas por debajo del límite superior de cada
intervalo en una distribución de frecuencias
acumuladas.
Para realizar la ojiva elaboro la tabla de
frecuencias acumuladas.
MEDIDAS DE VARIABILIDAD
 Medidas de dispersión o de variabilidad
 Las medidas de dispersión miden el grado de
dispersión de los valores de la variable. Dicho en otros
términos las medidas de dispersión pretenden evaluar
en qué medida los datos difieren entre sí. Las medidas
de dispersión muestran la variabilidad de una
distribución, indicando por medio de un número, si las
diferentes puntuaciones de una variable están muy
alejadas de la media. Cuanto mayor sea ese valor,
mayor será la variabilidad, cuanto menor sea, más
homogénea será a la media. Así se sabe si todos los
casos son parecidos o varían mucho entre ellos.
 Rango o recorrido: diferencia entre el mayor y el
menor de los datos de una distribución estadística.
 Desviación: La desviación respecto a la media es la
diferencia entre cada valor de la variable estadística y
la media. Para calcular la variabilidad que una
distribución tiene respecto de su media, se calcula
el promedio de las desviaciones de los datos
respecto a la media aritmética. Pero la suma de las
desviaciones y su promedio es siempre cero o cercana
a cero (por los redondeos), por lo que existen dos
estrategias resolver este problema. Una es tomando
las desviaciones en valor absoluto (desviación media)
y otra es tomando las desviaciones al cuadrado
(varianza).

Datos cuantitativos .pptx

  • 1.
  • 2.
    DISTRIBUCIÓN DE FRECUENCIAS Unadistribución de frecuencias es un resumen tabular de los datos que muestra el número(frecuencia) de elementos en cada una de varias clases(intervalos) que no se superponen. DEFINICIONES  Los límites inferiores de clase son las cifras más pequeñas que pueden pertenecer a cada una de las clases.  Los límites superiores de clase son las cifras más grandes que pueden pertenecer a cada una de las clases.  Las fronteras de clase son las cifras que se utilizan para separar las clases, pero sin los espacios creados por los límites de clase. Dividen la diferencia entre el final de una clase y el comienzo de la siguiente  Las marcas de clase son los valores en el punto medio de las clases. Cada marca de clase se puede encontrar al sumar el límite inferior de clase más el límite superior de clase y dividir la suma por 2.  Anchura de clase es la diferencia entre dos límites inferiores de clase consecutivos (o dos fronteras inferiores de clase consecutivas) en una distribución de frecuencias.  Las distribuciones de frecuencias se elaboran para: 1. Resumir grandes conjuntos de datos, 2. Observar la distribución e identificar los valores atípicos 3. Tener una base para producir gráficas (como los histogramas) Considere la vida para 40 baterías para automóviles similares, registradas al décimo de año más cercano. Las baterías se garantizan por 3 años. 2.2,4.1,3.5,4.5,3.2,3.7,3.0,2.6,3.4,1.6,3.1,3.3,3.8, 3.1,4.7,3.7,2.5,4.3,3.4,3.6,2.9,3.3,3.9,3.1,3.3,3.1, 3.7,4.4,3.2,4.1,1.9,3.4,4.7,3.8,3.2,2.6,3.9,3.0,4.2,3 .5 Pasos para definir clases de una distribución de frecuencias con datos cuantitativos: 1. Determine el número de clases que no se superponen. Se pueden elegir las el número de clases de acuerdo a nuestros intereses o usar alguna de las siguientes reglas:
  • 3.
    Recuerde que 𝑥(parte entera de x) denota el menor entero mayor o igual a x. Fórmula de Sturges : Recomienda para un conjunto de n observaciones, el número de clases 𝑘 = 1 + 3.322 ∙ log10 𝑛 Para n>30 Regla 2 a la k: Un método útil para determinar la cantidad de clases k es la regla de 2 a la k, la cual sugiere elegir el menor número k para el número de clases, de manera que 2𝑘 sea mayor que el número de observaciones. Regla de Scott: La regla de Scott establece que el número de intervalos se calcula mediante la expresión: 𝑘 = 𝑑𝑎𝑡𝑜 𝑚𝑎𝑦𝑜𝑟 − 𝑑𝑎𝑡𝑜 𝑚𝑒𝑛𝑜𝑟 𝐴𝑠 Donde 𝐴𝑠 es la amplitud teórica 𝑘 = 3.5 ∙ 𝑠 ∙ 𝑛−1/3 y s representa la desviación estándar de los datos. Este autor se basó en la distribución normal. https://aprender-uib.github.io/AprendeR1/chap- hist.html Usando la Regla de Sturges: 𝒌 ≈ 𝟔. 𝟑𝟐𝟐=7 2. Defina el ancho (o anchura) de cada clase Generalmente es el mismo para todas las clases. Todas las clases juntas deben cubrir por lo menos la distancia del valor más bajo hasta el más alto de los datos. Para lo cual se utiliza la fórmula: 𝑖 ≥ 𝑣𝑎𝑙𝑜𝑟 𝑚á𝑥𝑖𝑚𝑜 𝑑𝑒 𝑑𝑎𝑡𝑜𝑠 − 𝑣𝑎𝑙𝑜𝑟 𝑚í𝑛𝑖𝑚𝑜 𝑑𝑒 𝑑𝑎𝑡𝑜𝑠 𝑛ú𝑚𝑒𝑟𝑜 𝑑𝑒 𝑐𝑙𝑎𝑠𝑒𝑠 Donde i es el ancho o longitud de clase (o intervalo). En la práctica, el tamaño de cada clase se redondea a una cifra conveniente 𝑖 = 4.7 − 1.6 7 = 0.44 ≈ 0.5 Así la anchura de clase es 0.5 3. Defina el valor para el primer límite inferior de clase utilizando el valor mínimo o un valor conveniente por debajo del mínimo. Elegimos a 1.5
  • 4.
    DISTRIBUCIÓN DE FRECUENCIAS 4.A partir del primer límite inferior de clase y de la anchura de clase, liste los demás limites inferiores de clase. Para hacer esto se suma la anchura de clase al primer límite inferior de clase para obtener el segundo límite inferior de clase. Después se suma la anchura de clase al segundo límite inferior de clase para obtener el tercer límite inferior de clase, y así sucesivamente Liste los limites inferiores de clase en una columna vertical y después determine e introduzca los limites superiores de clase. Vida media Frecuencia 1.5 - 1.9 2 - 2.4 2.5 - 2.9 3 – 3.4 3.5 – 3.9 4 – 4.4 4.5 – 4.9 Vida media Frecuencia [1.5 , 2) [2 , 2.5) [2.5 , 3) [3 , 3.5) [3.5 , 4) [4 , 4.5) [4.5 , 5) library(fdth) dist_frec<-fdt(x,start=1.5,end=5,h=0.5);dist_frec plot(dist_frec,type="fh",xlim=c(1.5,5),ylim=c(0,15), main="Vida media de baterías", col="palevioletred") plot(dist_frec,type=“cfh",xlim=c(1.5,5),ylim=c(0,40), main="Vida media de baterías", col="palevioletred")
  • 5.
    DISTRIBUCIÓN DE FRECUENCIASinstall.package(agricolae) library(agricolae) ?graph.freq DISTRIBUCIÓN DE FRECUENCIAS ACUMULADAS Muestra el número de datos menores o iguales que el límite superior de cada clase si la clase incluye tanto el límite inferior como el superior y, estrictamente menor si la clase no incluye el límite superior(método de inclusión a izquierda). DISTRIBUCIÓN DE FRECUENCIAS RELATIVA ACUMULADAS Muestra LA PROPORCIÓN de datos con valores menores o iguales que el límite superior de cada clase si la clase incluye tanto el límite inferior como el superior y, estrictamente menor si la clase no incluye el límite superior(método de inclusión a izquierda). DISTRIBUCIÓN DE FRECUENCIAS PORCENTUAL ACUMULADA Muestra el PORCENTAJE de datos con valores menores o iguales que el límite superior de cada clase si la clase incluye tanto el límite inferior como el superior y, estrictamente menor si la clase no incluye el límite superior(método de inclusión a izquierda). En la tabla de frecuencias arrojada en la consola:  f: frecuencia absoluta  rf: frecuencia relativa  rf(%): frecuencia relativa porcentual  cf : frecuencia acumulada  cf(%): frecuencia acumulada porcentual Para especificar el tipo histograma: Type=“tipo de histograma” escriba:  fh para histograma de frecuencias absolutas  cfh para histograma de frecuencias absolutas acumuladas  rfh para histograma de frecuencias relativas  fp para polígono de frecuencias  cfp para polígono de frecuencias acumulada(ojiva)
  • 6.
    HISTOGRAMA  Es unarepresentación gráfica común de los datos cuantitativos.  Se elabora para datos previamente resumidos mediante una distribución de frecuencias, de frecuencia relativas o de frecuencias porcentual. Para elaborarlo, la variable de interés se coloca sobre el eje horizontal y la frecuencia (de que se trate) en el eje vertical. La frecuencia, frecuencia relativa o la frecuencia porcentual de cada clase se indica con el trazo de un rectángulo, cuya base está determinada por los límites de clase sobre el eje horizontal, y cuya altura es la frecuencia. La altura de los rectángulos es proporcional a las frecuencias de clase. En un histograma si los datos son discretos, se puede asignar una clase para cada valor entero tomado por los datos. Para un número grande de valores enteros, puede que sea necesario agruparlos en clases. En un histograma, los rectángulos adyacentes están en contacto uno con otro, a diferencia de una gráfica de barras, no existe una separación natural entre los rectángulos de las clases adyacentes. OJIVA: También llamada gráfico de frecuencias acumulados, es una línea que conecta puntos que son el porcentaje acumulado de observaciones situadas por debajo del límite superior de cada intervalo en una distribución de frecuencias acumuladas. Para realizar la ojiva elaboro la tabla de frecuencias acumuladas.
  • 7.
    HISTOGRAMA  library(agricolae)  h<-graph.freq(x,plot=T,frequency= 2,axes=T,breaks=c(1.5,2,2.5,3,3.5,4,4.5,5), main="Vida media de baterías",col="lightyellow", ylab="Frecuencia relativa",xlab="variable",ylim=c(0,0.4)) ?graph.freq? polygon.freqpolygon.freq(h,frequency=2,col="lightpink",lwd= 4,lty=1) #lty: tipo de línea a usar para el borde #Para cambiar el ancho de línea, se puede usar el argumento lwd.ogive.freq(h,col="gold",frame=T, xlab="variable", ylab="Frecuencia relativa acumulada", main="Ojiva Teimpo de vida",lty=3,lwd=2,pch=4)
  • 8.
  • 9.
    MEDIDAS DE TENDENCIACENTRAL PARA DATOS NO AGRUPADOS Los datos están “distribuidos” a lo largo de la recta horizontal, por lo que las medidas de tendencia central se ubican en el eje horizontal y localizan el centro de la distribución. Las medidas de tendencia central permiten determinar el valor más representativo de la variable que estamos analizando. Las medidas de tendencia central más utilizadas son la media, la mediana y la moda. Si la medida se calcula para los datos de una muestra, se le llama estadístico muestral o estadístico. Si se calcula para los datos de una población, se le llama parámetro poblacional ó parámetro. En la inferencia estadística, un estadístico muestral se conoce como estimador puntual del parámetro poblacional correspondiente. Ejemplo: Cambridge Power seleccionó una muestra aleatoria de 20 clientes residenciales. A continuación se muestra el valor pagado redondeado al dólar más próximo, que se cobraron a los clientes por el servicio de luz el mes anterior. Calcule la media y señale si se trata de un estadístico o de un parámetro 54 48 58 50 25 47 75 46 60 70 67 68 39 35 56 66 33 63 65 67  Media También conocida como promedio aritmético, valor promedio o promedio o media aritmética, o media. La media poblacional, notada μ, y la media muestral notada 𝑥, en el caso de que los datos no están agrupados en una distribución de frecuencias es la suma de todos los valores observados en la población(o muestra) dividida entre el número de valores de la población(o de la muestra). 𝑀𝑒𝑑𝑖𝑎 = 𝑠𝑢𝑚𝑎 𝑑𝑒 𝑡𝑜𝑑𝑜𝑠 𝑙𝑜𝑠 𝑣𝑎𝑙𝑜𝑟𝑒𝑠 𝑜𝑏𝑠𝑒𝑟𝑣𝑎𝑑𝑜𝑠 𝑒𝑛 𝑙𝑎 𝑝𝑜𝑏𝑙𝑎𝑐𝑖ó𝑛 𝑁ú𝑚𝑒𝑟𝑜 𝑑𝑒 𝑣𝑎𝑙𝑜𝑟𝑒𝑠 𝑒𝑛 𝑙𝑎 𝑝𝑜𝑏𝑙𝑎𝑐𝑖ó𝑛 𝚺𝒙 𝑵 Donde N es el número de valores en la población 𝑥 representa cualquier valor particular Σ es la letra mayúscula griega sigma, e indica la operación de suma
  • 10.
    MEDIDAS DE TENDENCIACENTRAL PARA DATOS NO AGRUPADOS  Ejemplo: Por ejemplo, suponga que los ingresos mensuales de un pequeño grupo de corredores de bolsa es 2 500 000, 2 700 000, 2 200 000, 2 300 000 y 2 600 000. Calcule el ingreso medio  Si hay valores extremos, es decir valores extremadamente grandes o valores extremadamente pequeños, la media no será una medida representativa del centro de la distribución de datos. Ejemplo: Suponga que los ingresos mensuales de un pequeño grupo de corredores de bolsa es 2 500 000, 2 700 000, 2 200 000, 2 300 000, 2 600 000 y 32 500 000. ¿Es la media una medida representativa de los datos?  Ejemplo: Suponga que va a un supermercado y gasta 65800 en 15 artículos. ¿Cuál es el precio promedio por artículo?  Ejemplo: Calcule la media aritmética y señale si se trata de un estadístico o un parámetro: Midtown Ford emplea a 10 vendedores. El número de automóviles que cada uno vendió el mes anterior fue: 15, 23, 4, 19, 18, 10, 10, 8, 28, 19  Mediana Si los datos contienen uno o dos valores muy grandes o muy pequeños, la media aritmética no resulta representativa. Es posible describir el centro de dichos datos a partir de una medida de ubicación denominada mediana. Mediana: es el valor de la variable que ocupa la posición del centro, cuando los datos se ordenan de menor a mayor, es decir, es el punto medio de los valores una vez que se han ordenado de menor a mayor o de mayor a menor. Por lo que se deduce que la mitad de las observaciones son menores o iguales a la mediana.  Para determinar el valor de la mediana primero se ordenan los datos con los que se está trabajando y luego se identifica la mediana. Para calcular la mediana se tienen dos casos: Si el número de datos es impar, la mediana es el valor de en medio.  Si el número de datos es par, la mediana es el promedio de las dos observaciones de en medio. EJEMPLO: CALCULE LA MEDIANA de los ingresos mensuales de un pequeño grupo de corredores de bolsa de los ejemplos mencionados anteriormente.
  • 11.
    MEDIDAS DE TENDENCIACENTRAL PARA DATOS NO AGRUPADOS  Al contrario de la media, a la mediana no la afectan valores extremos, ya que sólo considera la posición del valor central.  Por ejemplo, si está buscando un apto y la persona de la inmobiliaria le da los precios de los arriendos de los 4 aptos disponibles que tiene: 800 000, 900 000, 950 000,5 000 000. En este caso la media no es una medida representativa de los precios de los arriendos, pero la mediana sí.  Moda La moda es el valor que más se repite o se presenta con mayor frecuencia en una lista de datos. La moda es de especial utilidad para resumir datos de nivel nominal. En resumen, es posible determinar la moda para todos los niveles de datos: nominal, ordinal, de intervalo y de razón. La moda también tiene la ventaja de que no influyen en ella valores extremadamente grandes o pequeños. Las desventajas, por las cuales la moda se le utiliza con menor frecuencia que a la media o la mediana son:  Cuando en el conjunto de datos no existe la moda, porque ningún valor se presenta más de una vez. Por ejemplo, no hay moda en los ingresos anuales del pequeño grupo de corredores de bolsa, los cuales son 2 500 000, 2 700 000, 2 200 000, 2 300 000 y 32 500 000. Sin embargo, como cada valor es diferente, se podría argumentar que cada valor es la moda.  Cuando un conjunto de datos tiene más de una moda. Suponga que las edades de los miembros de un club de inversionistas son 22, 26, 27, 27, 31, 35 y 35. Las edades 27 y 35 son modas. Este agrupamiento de edades se denomina bimodal (tiene dos modas). Alguien podría cuestionar la utilización de dos modas para representar la ubicación de este conjunto de datos de edades.  Si hay más de dos modas en una lista de datos, se dice que el conjunto de datos es multimodal.
  • 12.
    DIAGRAMA DE PUNTOS Unatarea inicial para estudiar las observaciones recolectadas de una variable aleatoria cuantitativa cuando el conjunto de datos es relativamente pequeño es visualizar los datos mediante un diagrama o gráfico de puntos para así identificar con facilidad la localización y la dispersión de los mismos. En r-studio: stripchart(datos, pch=19, at=1.05, xlim=c( , ), main=“título del gráfico”,xlab=“nombre de la variable”) En un histograma si los datos son discretos, se puede asignar una clase para cada valor entero tomado por los datos. Para un número grande de valores enteros, puede que sea necesario agruparlos en clases. En un histograma, los rectángulos adyacentes están en contacto uno con otro, a diferencia de una gráfica de barras, no existe una separación natural entre los rectángulos de las clases adyacentes. OJIVA: También llamada gráfico de frecuencias acumulados, es una línea que conecta puntos que son el porcentaje acumulado de observaciones situadas por debajo del límite superior de cada intervalo en una distribución de frecuencias acumuladas. Para realizar la ojiva elaboro la tabla de frecuencias acumuladas.
  • 13.
    MEDIDAS DE VARIABILIDAD Medidas de dispersión o de variabilidad  Las medidas de dispersión miden el grado de dispersión de los valores de la variable. Dicho en otros términos las medidas de dispersión pretenden evaluar en qué medida los datos difieren entre sí. Las medidas de dispersión muestran la variabilidad de una distribución, indicando por medio de un número, si las diferentes puntuaciones de una variable están muy alejadas de la media. Cuanto mayor sea ese valor, mayor será la variabilidad, cuanto menor sea, más homogénea será a la media. Así se sabe si todos los casos son parecidos o varían mucho entre ellos.  Rango o recorrido: diferencia entre el mayor y el menor de los datos de una distribución estadística.  Desviación: La desviación respecto a la media es la diferencia entre cada valor de la variable estadística y la media. Para calcular la variabilidad que una distribución tiene respecto de su media, se calcula el promedio de las desviaciones de los datos respecto a la media aritmética. Pero la suma de las desviaciones y su promedio es siempre cero o cercana a cero (por los redondeos), por lo que existen dos estrategias resolver este problema. Una es tomando las desviaciones en valor absoluto (desviación media) y otra es tomando las desviaciones al cuadrado (varianza).