1. UNIVERSIDAD NACIONAL EXPERIMENTAL
“FRANCISCO DE MIRANDA”
DPTO. DE FÍSICA Y MATEMÁTICA
UNIDAD CURRICULAR: ESTADÍSTICA
TEMA Nº 1. ESTADÍSTICA DESCRIPTIVA
DATOS:
Son números o medidas que han sido recopilados como resultado de
observaciones. La información relativa a un hecho o fenómeno en estudio se
manifiesta a través de los datos.
Los datos representan la materia prima de la Estadística ya que resultan de la
medición que se realice sobre los sucesos de los fenómenos en estudio.
CLASIFICACIÓN DE LOS DATOS:
DATOS CUANTITATIVOS: Son las observaciones derivadas de un
experimento que representan características medibles.
Ej.:
5, 4, 25, 24, 10 (Número de estudiantes de un curso)
0, 1, 2, 5, 10 (Número de hijos en una familia)
DATOS CUALITATIVOS: Son aquellos que representan características
observables pero no medibles.
Ej.:
Negro, Azul, Blanco (Color de un objeto)
Fuma, No fuma (Clasificación de un grupo de estudiantes en
fumadores y no fumadores)
Sobresaliente, Bueno, Deficiente (Clasificación de un grupo de
estudiantes en sobresalientes y deficientes)
ORGANIZACIÓN DE LOS DATOS:
La organización de los datos se realiza de acuerdo a si los datos son
Cualitativos o Cuantitativos.
Organización de Datos Cualitativos: La agrupación de los datos es muy sencilla
y se hace de acuerdo a las modalidades que presente la variable en estudio,
mediante un conteo se determina el número de datos (Frecuencia)
correspondiente a las diferentes categorías de la variable.
2. Ej.: En un estudio sobre las personas que estudian Enfermería se realizaron 20
entrevistas y en relación al sexo se obtuvo lo siguiente:
FMFFFFMMFMFMFFFFFFFF
Dado que este conjunto de datos corresponden a una Variable Cualitativa,
entonces se realiza el conteo de los mismos y la agrupación quedaría:
Sexo Personas
F 15
M 5
Total 20
Organización de Datos Cuantitativos: Para Organizar datos cuantitativos, se
utiliza un procedimiento similar pero más laborioso.
Ej.: Se tiene la información correspondiente a las alturas (en cmts.) de un grupo
de estudiantes.
181.3 182.5 183.0 177.5 181.3
176.7 177.4 179.6 182.5 176.7
176.5 169.9 166.9 177.4 182.5
1. Se ordenan los datos en orden ascendente:
166.9 169.9 176.5 176.7 176.7
177.4 177.4 177.5 179.6 181.3
181.3 182.5 182.5 182.5 183.0
2. Se colocan en forma tabular cada uno de los datos con sus
respectivas frecuencias
Altura Nº Estudiantes Altura Nº Estudiantes
166.9 1 177.5 1
169.9 1 179.6 1
176.5 1 181.3 2
176.7 2 182.5 3
177.4 2 183.0 1
DISTRIBUCIÓN DE FRECUENCIAS:
Es una ordenación tabular de los datos en intervalos de clases con sus
respectivas frecuencias. Cuando los datos se presentan en Distribuciones de
Frecuencias se habla de Datos Agrupados. Cuando los datos se presentan
individualmente, se habla de Datos no Agrupados.
3. ELEMENTOS DE UNA DISTRIBUCIÓN DE FRECUENCIAS:
1. CLASES: Consisten en intervalos de valores ordenados en forma
ascendente y que cubren todos los valores disponibles.
2. LÍMITES DE CLASES: Son los extremos de las clases. El valor menor
se denomina Límite Inferior (LI) y el Valor Mayor se denomina Límite
Superior (LS). Pueden ser abiertos ( ) o cerrados .
3. AMPLITUD DE CLASE: Se obtiene hallando la diferencia entre los
límites de clase. Se denota C.
4. MARCA DE CLASE: Es el punto medio de las clases, es decir, la
semisuma del LS y el LI.
(LS LI)
Xi
2
5. FRECUENCIA ABSOLUTA: Es el número de observaciones contenidas
o incluidas en las clases, también se le conoce como Frecuencia de
Clase. Se denota f i.
6. FRECUENCIA RELATIVA: Se obtiene dividiendo la Frecuencia Absoluta
de clase fi entre el número total de observaciones n. Se denota fr i.
7. FRECUENCIA ABSOLUTA ACUMULADA: Se obtiene sumando las
frecuencias absolutas de todas las clases anteriores a ellas y la
Frecuencia Absoluta de la clase considerada. Se denota F i.
8. FRECUENCIA RELATIVA ACUMULADA: Se obtiene dividiendo la
Frecuencia Absoluta Acumulada Fi entre el número total de
observaciones. Se denota Fri.
PROCEDIMIENTO PARA CONSTRUIR UNA DISTRIBUCIÓN DE
FRECUENCIAS:
1. Se determina el valor máximo y el valor mínimo (VM / Vm) de los datos y
se calcula la diferencia entre estos valores.
2. Se determina el número de clases y las amplitudes de clases. Este
número no debe ser inferior a 5 ni mayor de 15. (Un número excesivo de
clases no estaría ayudando a resumir los datos y uno muy pequeño
significaría una agrupación extremada). Las clases deben tener la
misma amplitud. Si se conoce de antemano el número de clases K que
se requiere en la distribución de frecuencias, entonces se divide la
diferencia VM y Vm entre el número de clases.
VM Vm
C
K
3. Si no se tiene idea sobre cuantas deben ser las clases ni la amplitud de
las mismas, entonces se aplica la Regla de Sturges:
VM Vm
C
(1 3,322 log n)
4. 4. Se procede a construir intervalos de clase una vez que se ha
determinado la amplitud de clases C. Se precisa cual va a ser el Límite
Inferior de la 1era. clase LI1, ya que una vez fijado éste, utilizando la
amplitud de clase se generan las clases.
5. Se puede elegir como Límite Inferior de la 1era. clase el valor mínimo de
los datos o cualquier otro valor menor que éste pero que no se
encuentre muy alejado.
6. Una vez fijado LI1, se le suma la amplitud C y se obtiene el Límite
Superior de la 1era. clase LS1, el cual va a coincidir con el Límite Inferior
de la 2da. Clase LI2, este procedimiento se realiza hasta obtener todas
las clases de la distribución. Se tomarán intervalos semiabiertos por la
derecha para que un mismo valor no pertenezca a dos intervalos de
clases diferentes.
7. Se determina el número de datos contenidos en cada clase, es decir,
determinar frecuencias absolutas de clase fi, mediante un conteo y se
recomienda ir tomando dato por dato, en el orden en que aparezcan, e
irlos ubicando en el intervalo al cual pertenecen.
EJ.: Se desea determinar cómo varían las estaturas de las obreras de un
instituto de Educación Superior al tomar una muestra de 40 mujeres. Utilice 6
clases.
67 53 60 63 65 67 55 60 63 65
56 61 63 65 67 57 61 63 65 68
57 61 64 65 68 58 61 64 65 69
58 62 64 66 69 59 62 64 66 70
La distribución de Frecuencias del Número de Obreras de la Institución
quedaría de la siguiente forma:
Clase Xi fi fri FI Fri
53 – 55 54 2 0.050 2 0.050
56 – 58 57 5 0.125 7 0.175
59 – 61 60 7 0.175 14 0.350
62 – 64 63 10 0.250 24 0.600
65 – 67 66 11 0.275 35 0.875
68 - 71 69 5 0.125 40 1.0
MEDIDAS DESCRIPTIVAS NUMÉRICAS:
Son números que servirán para caracterizar el conjunto de datos y mostrar
algunas propiedades sobresalientes. Las tres propiedades o características
5. mayores que describen un conjunto de datos pertenecientes a algunas
variables numéricas o fenómenos son:
Medidas de Tendencia Central
Medidas de Dispersión
Medidas de Forma
MEDIDAS DE TENDENCIA CENTRAL: También conocidas como
medidas de localización o posición, permiten determinar los valores
centrales de una colección de datos, entendiéndose “centro” no solo en
cuanto a la posición de los datos, sino también desde el punto de vista
más común entre los datos, es decir, la característica más importante
que describe o resume un conjunto de datos es su posición. Las tres
medidas de tendencia central más importantes son: La Media Aritmética,
la Mediana y la Moda.
MEDIA ARITMÉTICA: Representa el centro físico del conjunto de
datos, es decir, el valor típico representativo del conjunto. Se
denota X .
Para datos No Agrupados:
n
Xi
i 1
X
n
Para datos Agrupados:
n
Xi fi
i 1
X
n
Donde: Xi = Marca de clase
fi = Frecuencia Absoluta de clase
MEDIANA: Es el valor para el cual cuando todos los datos se
encuentran ordenados de manera creciente, la mitad de éstos es
~
menor que este valor y la otra es mayor. Se denota X .
Para datos No Agrupados:
~
X = Número central de la colección de datos ordenados en forma
ascendente
6. Para datos Agrupados:
~ j
X L C
Fm
Donde:
j: Número de observaciones necesarias para lograr
un total de n/2 en Fi
Fm: Frecuencia absoluta de la clase siguiente a la
clase de donde se obtuvo j
C: Longitud de clase
L: Límite inferior donde se encuentra Fm
MODA: Es el valor de las observaciones que ocurre con mayor
frecuencia en el conjunto de datos, es decir, es el valor más típico
o más común observado en el conjunto. Puede ocurrir que un
conjunto de datos tenga 2 modas (Bimodal) o varias modas
(Multimodal). Se denota Mo.
Para datos No Agrupados: Mo = El valor de mayor frecuencia
en el conjunto.
d1
Para datos Agrupados: Mo L C, donde:
d1 d2
L: Límite inferior de la clase de mayor frecuencia
d1: Valor absoluto de la diferencia entre la frec. de la clase modal
y la clase anterior
d2: Valor absoluto de la diferencia entre la frec. de la clase modal
y la clase siguiente
C: Longitud de clase
MEDIDAS DE DISPERSIÓN: Las medidas de Tendencia Central
proporcionan información acerca de los valores centrales de un conjunto
de datos, pero no proporcionan ninguna idea de la variabilidad de las
observaciones de dicho conjunto. Las medidas de dispersión son valores
numéricos que describen la cantidad de dispersión o variabilidad que se
encuentra entre los datos. “Datos bastante agrupados poseen
valores relativamente pequeños y datos más dispersos tiene
valores más grandes”. La dispersión se refiere a la extensión de los
datos en una distribución. Las tres medidas de dispersión son: el Rango,
la Varianza y la Desviación Estándar.
7. RANGO: Es una medida sencilla, fácil de calcular y no es más
que la diferencia entre el más alto y el más pequeño de los
valores observados.
Para datos No Agrupados: R = Vmáximo - Vmínimo
Para datos Agrupados: R = LS de la última clase – LI de la 1era
clase
VARIANZA: “La varianza de las observaciones x1, x2,…, xn es en
esencia el promedio del cuadrado de las distancias entre cada
observación y la media del conjunto de observaciones”. La
varianza es una medida relativamente buena de variabilidad
debido a que si muchas de las diferencias son grandes (o
pequeñas) entonces, el valor de la varianza será grande (o
pequeño). Además, puede sufrir cambios desproporcionados aún
más que la media por la existencia de valores extremos en el
conjunto.
Para datos No Agrupados:
n 2
n
Xi
2 i 1
Xi
n
s2 i 1
n 1
Para datos Agrupados:
n
2
Xi fi nX2
s2 i 1
n 1
Donde: Xi = Marca de clase
fi = Frecuencia Absoluta de clase
DESVIACIÓN ESTÁNDAR: Es la raíz cuadrada positiva de la
varianza. La desviación estándar es la medida de variación más
útil, su ventaja con respecto a la varianza es que está dada en las
mismas unidades que las observaciones.
Para datos No Agrupados y Agrupados: s s2
8. MEDIDAS DE FORMA: La forma de una distribución de Frecuencias o
de una colección de datos viene dada por el aspecto que presenta el
gráfico que la representa. Existen dos medidas de forma: La Asimetría y
el Apuntamiento.
ASIMETRÍA: Una distribución es simétrica respecto a un punto,
cuando las frecuencias se reparten siguiendo el mismo patrón a
ambos lados de ese punto. También es simétrica cuando la curva
que la representa es exactamente igual a ambos lados de ese
punto. La Asimetría puede ser positiva (por la derecha) cuando la
mayoría de los datos se concentran hacia la izquierda, o negativa
(por la izquierda) si los datos se ubican a la derecha. Para calcular
la asimetría existen dos métodos:
- Coeficiente de Asimetría de Pearson: Está basado en la
relación que existe entre la media y la mediana. El
coeficiente de Pearson varía entre los límites
3 ASP 3 , aunque valores de ASP fuera del intervalo
-1,1 se consideran excepcionales. Este viene dado por:
~
3X X
ASP
S
~
Si: ASP = 0 entonces es Simétrica, ( X X )
ASP < 0 entonces es Asimétrica por la derecha
ASP > 0 entonces es Asimétrica por la izquierda
- Coeficiente de Asimetría de Fisher: Su interpretación es
similar a la del coeficiente de Pearson, aunque su cálculo
es mucho más laborioso. El coeficiente Fisher está
basado en la media aritmética e indica de qué lado las
diferencias respecto a ésta son mayores. Se le considera
un excelente indicador de Asimetría aunque tiene el
inconveniente de ser afectado por valores extremos.
n
3
Xi X
i 1
S3 Datos no Agrupados
n
γ1
n
3
Xi X fi
i 1
S3 Datos Agrupados
n
9. Simétrica
Asimetría por la Izquierda
Asimetría por la Derecha
APUNTAMIENTO O CURTOSIS: Proporciona una idea del grado
en que la curva correspondiente a una distribución de frecuencias
es apuntada o achatada en su parte central, mide el nivel de
concentración de datos en la región. La medición del
achatamiento de una curva se hace mediante un patrón de
referencia que es la curva Normal o curva de Gauss, es decir, una
curva unimodal simétrica con forma de campana. A esta curva se
le denomina Mesocúrtica; cuando la curva es más achatada que
la Normal, se le llama Leptocúrtica y cuando es más aguda o
puntiaguda se le denomina Platicúrtica. La curtosis puede
calcularse a través de:
- Coeficiente 2 de Pearson:
n
4
Xi X
i 1
S4 Datos no Agrupados
n
β2
n
10. Si: 2 = 3 entonces la curva es Mesocúrtica
2 > 3 entonces la curva es Leptocúrtica
2 < 3 entonces la curva es Platicúrtica
Mesocúrtica
Leptocúrtica
Platicúrtica