SlideShare una empresa de Scribd logo
1 de 14
Estadística: 
Ciencia que proporciona técnicas para tratar gran volumen de datos para extraer y 
mostrar la información que subyace en ellos. Permite obtener información de un 
colectivo muy amplio de datos a partir de un conjunto relativamente pequeño de datos 
procedentes de él, gracias a ello se formulan modelos matemáticos que representen la 
repuesta obtenida en alguna característica de interés al ser influenciada por diferentes 
factores. Con esta información en la mano se puede tomar decisiones cuando exista un 
marco de incertidumbre. 
En Estadística se estudian fenómenos aleatorios, que son aquellos cuyo resultado no es 
previsible aunque se repitan en idénticas condiciones. 
Colectivo o Población: es el conjunto todos los individuos a los que va dirigido el 
estudio estadístico. 
Muestra: es el subconjunto de datos elegidos del colectivo que realmente se analizan. 
Variable estadística: es cada una de las características que se miden de cada uno de los 
individuos que forman la muestra. 
Las variables estadísticas pueden ser cualitativas y cuantitativas. 
Se dice que una variable estadística es cualitativa cuando los valores que puede tomar 
son atributos. Variables cuantitativas son aquellas que pueden tomar valores numéricos. 
Las variables cualitativas pueden ser: 
Nominales o categóricas: los valores no admiten ordenación, por ejemplo, el color, o la 
marca de bebida preferida, o el partido político elegido, o el lugar de procedencia, etc. 
Ordinales: los valores de este tipo de variables admiten ordenación, aunque sean 
cualitativas, por ejemplo, el estado de salud de pacientes de un hospital: Muy grave, 
Grave, Leve. También son ordinales las variables que miden el grado de satisfacción 
conseguido por algún servicio: Muy mal, Mal, Regular, Bien, Muy bien. 
Las variables cuantitativas pueden ser: 
Discretas: aquellas que solo pueden tomar valores aislados, y dados dos consecutivos 
no puede haber valores intermedios, frecuentemente van asociadas a procesos de 
conteo: Nº de ramas de un árbol, Nº de puestas en nidos, Nº de miembros por familia, 
etc. 
Continuas: aquellas variables numéricas que, si se poseyesen instrumentos con infinita 
precisión, su valor podría ser expresado con infinitas cifras decimales, dados dos 
valores, por próximos que estén, siempre sería posible encontrar valores intermedios 
entre ambos. La mayoría de las variables que implican una medición son de este tipo: la 
temperatura de la atmósfera, la velocidad del vuelo de un ave, la altura que alcanza un 
árbol, son ejemplos de variables cuantitativas Continuas. 
A veces, cuando las variables son numéricas, es necesario conocer su escala de medida: 
Decimos que una variable numérica está medida en escala por intervalos cuando no 
hay un cero absoluto origen de las medidas, por ejemplo: la hora de llegada de un tren a 
una estación, si se toma como cero las 24 horas del día anterior y ha llegado un tren a 
las 0h 10 min. y otro a las 0h 20 min., sabemos que el segundo llegó 10 minutos 
después que el primero, pero no podemos decir que el segundo haya tardado el doble 
que el primero en llegar, pues no se ha adoptado un cero absoluto común a todos los 
recorridos. Un ejemplo clásico de este tipo de variable es la temperatura: si el aire hoy 
está a 10ºC y ayer estaba a 20ºC, no podemos decir que la temperatura hoy sea el doble 
de la de ayer, pues el cero en la escala de medida se ha tomado de modo arbitrario, para 
comprobarlo, basta con expresar ambas temperaturas en grados Fahrenheit. 
Una variable estadística está medida en escala por ratios cuando existe un cero 
absoluto, entonces podemos considerar diferencias entre las medidas y también 
proporciones. La mayoría de los fenómenos físicos que consideremos están medidos en 
1
este tipo de escala, por ejemplo, la temperatura absoluta, en grados Kelvin es una 
variable medida en escala por ratios, también el peso, la longitud, o la masa lo son. 
Estadística descriptiva: 
Es la parte de la estadística que proporciona técnicas para extraer y mostrar la 
información que subyace en conjuntos de muy numerosos datos. 
Cuando se acomete un estudio científico, es habitual medir gran cantidad de parámetros 
sobre cada uno de los individuos elegidos, la estadística descriptiva univariante 
permite estudiar los datos correspondientes a cada característica sin considerar la 
influencia de las demás. 
Tablas de frecuencias 
Como resultado del estudio estadístico se posee una serie de estadillos o cuestionarios, 
uno por cada individuo considerado en el que se recogen todas las medidas realizadas a 
cada individuo. La tabla siguiente es un ejemplo de uno de estos estadillos , en él se han 
anotado seis características de árboles de un vivero después de un año de haber sido 
plantadas, la tabla recoge las medidas correspondientes a los diez primeros. 
Árbol nº Replantado Grado de 
afección 
Nº de 
ramas 
primarias 
Diámetro 
(cm) 
Altura (cm) 
1 N MG 1 3,9 160,4 
2 S NA 0 4,3 203,7 
3 N M 2 3,9 160,5 
4 N G 1 2,5 146,3 
5 N M 3 3,9 123,0 
6 S NA 4 4,2 184,4 
7 N L 2 4,5 153,0 
8 N L 1 5,3 186,0 
9 S MG 0 2,5 169,8 
10 S M 2 2,9 168,8 
Códigos: S: Si 
N: No 
NA: No Afectado 
L: Leve 
M: Medio 
G: Grave 
MG: Muy Grave 
el primer paso para sintetizar la información es tabular los datos. Consideraremos 
distintos tipos de agrupaciones de datos: 
Tablas de frecuencias de datos en agrupamiento discreto: 
Realizamos este tipo de agrupamiento cuando el número de posibles respuestas a la 
variable en estudio es reducido. Las variables cualitativas se prestan muy bien a este 
sistema de agrupamiento 
Para construir una tabla de frecuencias de agrupamiento discreto se anotan en una 
columna cada uno de los distintos valores que tome la variable y en la columna 
siguiente su frecuencia o número de veces que se repite. 
La tabla de frecuencia de la variable Replantado es: 
Replantado frecuencia 
S 4 
N 6 
Total: 10 
2
La tabla de frecuencia de la variable X = Grado de afección es: 
Grado de 
afección 
xi 
frecuencia 
ni 
frecuencia 
relativa 
fi 
NA 2 0.2 
L 2 0.2 
M 3 0.3 
G 1 0.1 
MG 2 0.2 
Total 10 1.0 
La frecuencia relativa es la frecuencia absoluta dividida entre el número de 
observaciones, indica la proporción de datos que muestran un determinado valor de la 
variable. Se puede expresar también en %. 
La tabla de frecuencia de la variable X=Número de ramas primarias es. 
Nº ramas 
primarias 
xi 
frecuencia 
ni 
frecuencia 
relativa 
fi 
Frecuencia 
acumulada 
Ni 
Frecuencia 
acumulada 
relativa 
Fi 
0 2 0.2 2 0.2 
1 3 0.3 5 0.5 
2 3 0.3 8 0.8 
3 1 0.1 9 0.9 
4 1 0.1 10 1.0 
Total 10 1.0 
La frecuencia acumulada es el número de datos que presentan un valor menor o igual 
que uno dado de la variable. La frecuencia acumulada relativa es la proporción de datos 
menores o iguales a uno dado. 
Tablas de frecuencias de datos agrupados en clases: 
Cuando tenemos una variable continua, o cuando, siendo discreta, el número de valores 
diferentes es muy grande, se agrupan los datos en clases o intervalos. 
El número de intervalos o clases I a considerar es una cuestión importante y no hay un 
criterio fijo para establecerlo. La fórmula de Sturges es una de las que se pueden utilizar 
para determinarlo, según ella, I es el exponente de la primera potencia de dos cuyo 
resultado supera al número de datos, con un mínimo de 4 clases. 
Para el ejemplo que estamos comentando, con 10 datos, como 24>10, se toma I=4. 
Para determinar la amplitud de cada clase se divide el rango o diferencia entre el mayor 
y el menor de los valores observados entre el número de clases I. 
Para la variable diámetro, la amplitud es: 
= = 5.3 - 2.5 = 2.8 = 
0.7 
4 4 
Si el cociente no es exacto se puede redondear por exceso, aunque eso hará que la 
última clase termine en un valor superior al máximo observado. 
Para evitar dudas, se consideran todos los intervalos cerrados por la derecha y abiertos 
por la izquierda, salvo el primero que se considera cerrado por ambos extremos. 
a R 
I 
3
Cada clase o intervalo se identifica con una cifra llamada marca de clase, que es la 
media entre ambos extremos. 
La tabla de frecuencias de la variable diámetro es: 
Clases Marcas 
de clase 
xi 
frecuencia 
ni 
frecuencia 
relativa 
fi 
frecuencia 
acumulada 
Ni 
frecuencia 
acumulada 
relativa 
Fi 
[2.5 ; 3.2] 2.85 3 0.3 3 0.3 
(3.2 ; 3.9] 3.55 3 0.3 6 0.6 
(3.9 ; 4.6] 4.25 3 0.3 9 0.9 
(4.6 ; 5.3] 4.95 1 0.1 10 1.0 
Representaciones gráficas: 
Diagramas de sectores o de tarta: 
Son aplicables a cualquier tipo de variables, pero se utilizan sobre todo para las 
categóricas. Se construyen dividiendo un círculo en tantos sectores como categorías se 
vayan a representar. Cada sector abarca un ángulo proporcional a la frecuencia que se 
desea representar. El diagrama de sectores de la variable Replantado es: 
Diagrama de sectores 
Diagramas de barras: 
Son representaciones aplicables a tablas de frecuencias de datos en agrupamiento 
discreto, se pueden aplicar tanto a datos cualitativos como cuantitativos discretos. 
Consisten en un sistema de ejes cartesianos sobre cuyo eje de abcisas se llevan los 
valores de la variable y sobre el de ordenadas la frecuencia absoluta o relativa, 
acumulada o no. Por cada valor de la variable se levantará una línea o barra (aunque 
puede ser un rectángulo) de altura equivalente a la frecuencia que se desea representar. 
Se muestran diagramas de barras de la variable Grado de afección y de la variable Nº 
de ramas: 
4 
S 
40% 
N 
60%
3.5 
3 
2.5 
2 
1.5 
1 
0.5 
1.2 
1 
0.8 
0.6 
0.4 
0.2 
Los diagramas de barras, al representar sobre el eje de abcisas los valores de la variable, 
y ser el eje numérico, tienen mejor aplicación en variables como mínimo ordinales, pues 
en las variables nominales no hay una ordenación de los valores y se pueden representar 
en cualquier orden. 
Histograma 
Aplicables a tablas de frecuencias de datos agrupados en clases. Consiste en llevar sobre 
un eje horizontal segmentos consecutivos que representen las amplitudes de cada clase, 
posteriormente se traza sobre cada clase un rectángulo cuyo área sea proporcional a la 
frecuencia que se desea representar. Si todas las clases tienen igual amplitud, los 
rectángulos tienen no solo el área proporcional a la frecuencia, su altura también lo es. 
Las alturas de los rectángulos representan frecuencia por cada unidad de amplitud, que 
también se llama densidad de frecuencia. Si se traza un eje vertical, la escala sobre este 
es la frecuencia por unidad de amplitud. 
A continuación se muestran histogramas de la variable Diámetro. 
3 
2.5 
2 
1.5 
1 
0.5 
1 
0.8 
0.6 
0.4 
0.2 
acumulada por unidad de 
En estos dos histogramas se ha tomado la unidad de longitud igual a la amplitud y, 
como todas las amplitudes son iguales, la cifra que indica el área de cada rectángulo 
coincide con la que indica la altura y ambas con la frecuencia que se representa. 
Polígonos de frecuencias: 
Aplicables a variables numéricas, aunque también se pueden trazar sobre cualitativas 
ordinales, se construyen uniendo los extremos de los diagramas de barras o los centros 
de las bases superiores de los rectángulos del histograma mediante líneas rectas. Si se 
desea cerrar la línea poligonal por sus dos extremos, se podría inventar un valor o 
intervalo por delante del primero y otro mayor que el último, cuyas frecuencias serán 
5 
diagrama de barras 
0 
NA L M G MG 
Grado de afección 
frecuencia absoluta 
Diagrama de barras 
0 
0 1 2 3 4 
Nº de ramas primarias 
Frecuencia acumulada 
relativa 
Histograma de frecuencias 
0 
2.85 3.55 4.25 4.95 
Marcas de clase 
Frecuencia por unidad de 
amplitud 
Histograma de frecuencias acumuladas 
relativas 
0 
2.85 3.55 4.25 4.95 
Marcas de clase 
Frecuencia relativa 
amplitud
cero. En el caso de datos agrupados también es frecuente unir el origen de la primera 
clase con el centro de su base superior y el centro de la base superior del último 
rectángulo con el extremo de su base inferior. 
Polígono de frecuencias 
3 
2.5 
2 
1.5 
1 
0.5 
Existen otros tipos de gráficos, como los pictogramas que utilizan símbolos gráficos 
para representar las frecuencias, ya sea repitiendo un mismo símbolo varias veces para 
indicar las mayores o menores frecuencias, o aumentando o disminuyendo el tamaño del 
símbolo según la frecuencia que se represente. 
Medidas de posición: 
Otra vía de resumir la información es expresar algunas cifras que de algún modo 
resuman lo más característico de los datos, podemos calcular medidas de posición y de 
dispersión. Entre las primeras se verán: 
Moda: es la categoría, valor o marca de clase que más se repite. Cuando tengamos 
datos de tipo contínuo solo tendrá sentido la moda después de haber sido agrupados en 
clases. 
La moda de la variable Replantado es N, pues su frecuencia es la mayor entre las dos 
categorías posibles. La moda de la variable Grado de afección es M, en tanto que para la 
variable Nº de ramas primarias hay dos valores con máxima frecuencia, son 1 y 2 
ramas. 
La moda puede no ser única, y hablamos de distribuciones de frecuencias bimodales, 
trimodales, etc. 
Mediana: es aplicable a datos como mínimo ordinales, y se define como aquél valor de 
la variable que ocupa la posición central del conjunto de datos ordenados, también se 
puede definir como aquél valor de la variable que resulta ser mayor o igual que la mitad 
de los datos y menor que la otra mitad. 
Cuando se considera los N datos sin agrupar, la mediana es el dato que ocupa la 
posición (N+1)/2, de los datos ordenados. 
Si el número de datos N es impar la mediana se calcula de modo inmediato, si el 
número de datos es par, la mediana es la media aritmética de los datos que ocupan las 
posiciones N/2 y N/2 + 1. 
6 
0 
0 1 2 3 4 
Nº de ramas primarias 
frecuencia absoluta
Para el conjunto de datos que se están considerando, la mediana es el dato que ocupa la 
posición 11/2=5.5, por tanto es la media entre los datos que ocupen las posiciones 5ª y 
6ª . 
1º 2º 3º 4º 5º 6º 7º 8º 9º 10º 
Datos ordenados Mediana 
Grado de afección NA NA L L M M M G MG MG M 
Nº de ramas primarias 0 0 1 1 1 2 2 2 3 4 1.5 
Diámetro 2.5 2.5 2.9 3.9 3.9 3.9 4.2 4.3 4.5 5.3 3.9 
En realidad, si los datos son cualitativos no tiene sentido calcular la mediana, en este 
caso se puede calcular la mediana del grado de afección porque los datos 5º y 6º son 
ambos M. 
Cuando los datos son de tipo contínuo y no se posee la lista original de valores, sino 
solo los intervalos, sus marcas y frecuencias, el modo de proceder es diferente: 
En este caso buscaremos el intervalo mediano, que es aquél cuya frecuencia acumulada 
es N/2 o su frecuencia acumulada relativa es 0.5. Si estas cifras no aparecen entre las 
frecuencias, el intervalo mediano es aquél que primero supera dicha cantidad. 
Una vez localizado el intervalo mediano, un modo de proceder será decir que la 
mediana es la marca de la clase de ese intervalo. 
Procediendo de este modo, la mediana para la variable Diámetro, calculada a partir de 
los datos de la tabla de frecuencias es: 
Para 10 datos, N/2=5 
Intervalo mediano: el 2º, pues es el primero en que se supera la cantidad 5 en la 
columna Frecuencia acumulada (0.5 si se mira la acumulada relativa). La mediana es la 
marca de este intervalo: 
me = 3.55 
Este modo de proceder se basa en suponer que todos los datos de cada intervalo son 
iguales entre sí e iguales a la marca de clase. 
Hay otro modo de proceder, consiste en suponer que los datos dentro de cada intervalo 
se reparten uniformemente con valores crecientes de la variable, bajo esta suposición, y 
suponiendo que el intervalo mediano es el j-ésimo, cuyos extremos son xj, xj+1, con una 
frecuencia absoluta nj y siendo Nj y Nj-1 las frecuencias acumuladas correspondientes al 
intervalo mediano y al inmediato anterior, la mediana se calcula como: 
x x N x x N me x N x N 
j + 1 - = j æ ö j + 
1 
- j 
æ ö j + - = + - N j - N ç j - 1 ÷ j ç j 
- 
1 
÷ , para el caso actual: 
j - 
1 è 2 ø n 
j 
è 2 
ø 3.29 3.9 3.2 ( 5 3) 3.757 
me = + - - = 
3 
Este valor no coincide con el calculado con la marca de clase ni con el que se obtuvo a 
partir de los datos originales, por ello siempre que se disponga de los datos originales, 
se calculará la mediana como si se tratase de datos discretos. 
La expresión anterior para la mediana se puede formular en función de las frecuencias 
relativas: 
x x 
1 ( ) 
0.5 1 j j 
j j 
me x F 
j 
f 
+ 
- 
- 
= + - 
Media: solo es aplicable a datos de tipo numérico, es la media aritmética de los datos 
observados, o sea, la suma de todos ellos dividido por el número de observaciones: 
7
N 
å K para datos sin tabular, si están tabulados en tablas de 
= + + + = = 
1 2 1 
i 
N i 
x 
x x x x 
N N 
frecuencias: 
å , siendo k el número de valores distintos y ni la frecuencia absoluta 
1 
k 
i i 
i 
x n 
x 
N 
= = 
correspondiente al valor xi de la variable. 
En caso que tengamos una variable tabulada en clases, en la formula anterior, k es el 
número de clases y xi cada marca de clase. Como siempre, si se puede, es preferible 
realizar los cálculos sobre los datos originales. 
La media de la variable Nº de ramas primarias es: 
x = + + + + + + + + + = + + + + = = 
y la de la variable diámetro: 
0 0 1 1 1 2 2 2 3 4 0* 2 1*3 2*3 3*1 4*1 16 1.6 
10 10 10 
x = 3.9 + 4.3 + 3.9 + 2.5 + 3.9 + 4.2 + 4.5 + 5.3 + 2.5 + 2.9 = 37.9 = 3.79 
cm 
10 10 
esta última calculada a partir de la tabla de frecuencias es: 
x = 2.85*3 + 3.55*3 + 4.25*3 + 4.95*1 = 8.55 + 10.65 + 12.75 + 4.95 = 36.9 = 3.69 
cm 
10 10 10 
y no coincide con el valor calculado para los datos originales, por lo que se vuelve a 
poner de manifiesto que siempre que se pueda, se debe operar con ellos. 
Otras medidas de posición: 
La media, mediana y moda son medidas que indican el centro de la distribución, vamos 
a ver algunas más, que no indican el centro: 
Cuartiles: 
Si se localiza en el conjunto de datos ordenados aquellos que lo dividen en cuatro 
intervalos con el mismo número de observaciones, habremos encontrado los cuartiles 
primero, segundo y tercero. 
Primer cuartil Q1: Es aquél valor de la variable que resulta ser mayor o igual que el 
25% de los datos y menor que el 75% restante. 
Para calcular Q1 se procede de diferente modo si los datos están agrupados en clases o 
no. Para datos sin agrupar o con agrupamiento discreto, consideraremos el conjunto 
original de datos ordenados, si de este conjunto eliminamos la mediana, quedan dos 
subconjuntos, la mediana del primero de ellos es Q1. 
Si se divide la lista de datos ordenados correspondiente a la variable Nº de ramas 
primarias por el punto que corresponde a la mediana , quedan dos grupos de datos, 
ambos con cinco datos : 
Nº de ramas primarias 0 0 1 1 1 mediana 2 2 2 3 4 
La mediana de la primera mitad es el dato (5+1)/2 = 3º, por tanto 
Q1 
Q1 = 1 : Nº de ramas primarias 0 0 1 1 1 
Si los datos están agrupados en clases y no se dispone de los datos originales, se 
procede de modo similar a lo hecho para la mediana en estos casos, y se puede aplicar la 
8
fórmula vista, sustituyendo la frecuencia acumulada por N/4 o la acumulada relativa por 
0.25: 
x x 
1 ( ) 
1 0.25 1 j j 
j j 
Q x F 
j 
f 
+ 
- 
- 
= + - 
aquí se considera que el intervalo que contiene al primer cuartil es el j-ésimo. 
Para la variable diámetro, el intervalo que contiene el primer cuartil es el primero, cuyos 
límites son 2.5 y 3.2 , la frecuencia relativa es 0.3 y la acumulada relativa, 0.3 también, 
por ser el 1º por ello la frecuencia acumulada relativa correspondiente al intervalo 
anterior es 0. 
1 2.5 3.2 2.5 ( 0.25 0) 2.5 0.7 0.25 3.0833 
Q = + - - = + = 
0.3 0.3 
Para esta variable, procediendo como datos discretos, Q1 = 2.9, siempre que se pueda se 
debe trabajar sobre los datos originales, sin agrupar. 
Segundo cuartil: Q2 es la mediana. 
Tercer cuartil: Q3 , es aquél valor de la variable que resulta ser mayor o igual que el 
75% de los datos y menor que el 25% restante. 
Para datos sin agrupar, se calcula como la mediana de la segunda mitad de los datos 
ordenados que se obtiene al dividir la lista original eliminando el dato mediano. 
Respecto de la variable Nº de ramas primarias, la mediana de la segunda mitad es el 
dato 5+(5+1)/2 = 8º, por tanto 
Q3 
Nº de ramas primarias 0 0 1 1 1 mediana 2 2 2 3 4 
Q3 = 2 
Para datos agrupados en clases, se localiza primero el intervalo que contiene el tercer 
cuartil, que es aquél cuya frecuencia relativa acumulada es mayor o igual a 0.75, sea 
este intervalo el j-ésimo, entonces: 
x Q 3 = x + j + 1 - 
x 
j j ( 0.75 - 
F 
j 
) 
j 
f 
El tercer cuartil de la variable Diámetro está en el tercer intervalo (frecuencia 
acumulada relativa = 0.9), su valor se puede calcular como: 
3 3.9 4.6 3.9 ( 0.75 0.6) 4.25 
Q = + - - = 
0.3 
mientras que de los datos originales como si fuesen discretos, Q3=4.3 
Percentiles: Como extensión, si el primer cuartil es el valor de la variable que resulta ser 
mayor o igual que el 25% de los datos y menor que el 75%, se define Percentil como el 
valor de la variable que resulta ser mayor o igual que un porcentaje dado de los datos, 
así se habla del percentil 10, del percentil 20, etc., se fácil comprobar que: 
p25 = Q1; p50 = Q2 = me ; p75 = Q3 
Si se desea calcular el percentil pa y el primer intervalo cuya frecuencia acumulada 
relativa es igual o mayor que a/100 es el j-ésimo: 
x x 
+ 1 
- = + æ a 
ç - ö è ÷ ø 
p x F 
a f 
100 1 
j j 
j j 
j 
- 
9
En general, definimos el cuantil a ( en tanto por 1) como aquél valor de la variable que 
resulta ser menor que el 100a% de los datos y mayor o igual que el 100(1- a)% 
restante, es evidente que cuantil a = p100(1-a) . 
Medidas de dispersión: 
Para mejorar la información sobre el conjunto de datos no basta saber en torno a qué 
valores está la mayoría de los datos, también es conveniente saber si el conjunto de 
medidas son todas muy parecidas entre sí o si son muy diferentes, esto se consigue con 
las medidas de dispersión o variabilidad. 
Rango: es la medida de variabilidad más simple, es el mayor valor menos el más 
pequeño, conforme más próximos sean los valores observados, menor será el rango. 
R= max(xi) – min(xi) 
Rango intercuartílico: El rango está influenciado por la presencia de algún error de 
medida, que suele traducirse en valores excesivamente grandes o pequeños, por eso se 
prefiere como medida de variabilidad, la diferencia entre los cuartiles tercero y primero, 
también llamado Rango intercuartílico: 
RI = Q3-Q1 
Desviación media es la media de las diferencias o desviaciones de cada dato hasta la 
media, tomadas en valor absoluto, pues de lo contrario la suma se anula: 
N 
1 
i 
i 
m 
x x 
d 
N 
= 
- 
= 
k 
å si los datos están agrupados: 1 
i i 
i 
m 
x x n 
d 
N 
= 
- 
= 
å 
Varianza: es la media de los cuadrados de las diferencias o desviaciones de cada dato 
hasta la media: 
N N 
å å 
( x - 
x ) x 
2 
i i 
2 i = 1 i 
= 
1 2 
s = = - 
x 
N N 
k k 
å å 
si los datos están agrupados en clases, la fórmula es: ( ) 2 
x - 
x n x n 
i i i i 
2 i = 1 i 
= 
1 2 
s = = - 
x 
N N 
Para la variable Nº de ramas primarias, el cálculo de la varianza es: 
( ) 2 ( ) 2 ( ) 2 ( ) 2 
2 0 1.6 0 1.6 1 1.6 K 
4 1.6 14.4 1.44 
10 10 
s 
- + - + - + + - 
= = = 
Tratándolos como datos y frecuencias: 
( ) 2 ( ) 2 ( ) 2 ( ) 2 ( ) 2 
s - ´ + - ´ + - ´ + - ´ + - ´ 
2 0 1.6 2 1 1.6 3 2 1.6 3 3 1.6 1 4 1.6 1 
1.44 
= = 
10 
y por la fórmula reducida: 
2 2 2 2 2 
( ) ( ) ( ) ( ) ( ) ( ) 
s ´ + ´ + ´ + ´ + ´ 
2 0 2 1 3 2 3 3 1 4 1 1.6 2 40 2.56 4 2.56 1.44 
= - = - = - = 
10 10 
La varianza se expresa en unidades al cuadrado y no es comparable con los datos, por 
eso se define 
Desviación típica, es la raíz cuadrada positiva de la varianza, 
s = s2 
La desviación típica de la variable Nº de ramas primarias es : s = 1.44 =1.2 
10
La varianza mide la dispersión de los datos respecto de la media de los propios datos. Si 
lo que tenemos es una muestra, y se desea estimar la varianza de toda la población 
con los datos de la muestra, se utiliza la 
Cuasivarianza: ( ) 2 
2 1 
1 1 
N 
i 
i 
x x 
s Ns 
N N 
= 
- 
= = 
- - 
å 
para datos agrupados en clases, la fórmula es: ( ) 2 
2 1 
1 1 
k 
i i 
i 
x x n 
s Ns 
N N 
= 
- 
= = 
- - 
å 
De modo similar a la desviación típica, se define: 
Cuasi desviación típica: s = s 2 
Para estimar la varianza de toda la población respecto a la variable Nº de ramas 
primarias, se usa la cuasivarianza de esa variable calculada con los datos de la muestra: 
2 10 1.44 14.4 1.6 
s = ´ = = 
9 9 
y la cuasidesviación típica: s = s 2 = 1.6 =1.265 
Para comparar variabilidad entre magnitudes diferentes o entre diferentes muestras, se 
utiliza el coeficiente de variación, que es la desviación típica expresada en medias: 
CV s 
x 
= 
El coeficiente de variación de la variable Nº ramas primarias es: CV = 1.4 = 
0.875 
1.6 
En ocasiones, al tomar las medidas de un experimento, o cuando se transcriben los datos 
para procesarlos, se comenten errores y aparecen datos mucho más grandes o mucho 
menores que el resto, son los denominados Outliers, y es importante poder detectarlos y 
comprobar si se trata o no de un error. Tanto la media como la varianza son muy 
sensibles a la presencia de Outliers y por eso interesa detectarlos. La detección de 
Outliers se puede hacer a partir de la media y desviación típica ya calculadas, se puede 
demostrar que datos cuya desviación respecto de la media sea superior en valor absoluto 
a tres desviaciones típicas son raros, por eso se suelen considerar outliers aquellos datos 
que cumplan: 
xi - x > 3s 
No obstante, la presencia de los posibles outliers ha intervenido en el cálculo de la 
media y de la desviación típica, por lo que sería recomendable utilizar otras medidas de 
posición y dispersión para localizarlos, por eso se consideran outliers aquellas medidas 
que sean menores que el primer cuartil menos 1.5 veces el rango intercuartílico, o 
mayores que el tercer cuartil más 1.5 veces RI: 
xi es un outlier por defecto, si: Q1- xi >1.5RI 
xi es un outlier por exceso, si: xi - Q3 >1.5RI 
Si la distancia llega a superar las 3 veces RI, entonces el outlier se considera grave, en 
caso contrario, lo consideraremos leve. 
Medidas de asimetría y de forma: 
Además de dar información sobre la tendencia central de los datos y sobre cómo se 
reparten respecto del centro, en ocasiones interesa conocer si los datos se reparten de un 
modo simétrico a ambos lados de la media o no. 
11
El coeficiente de asimetría mide esta propiedad, y se calcula como: 
( ) 
( ) 
3 
å 
1 3 
1 
1 
= 
1 3 3 
= 
- 
- 
= = 
å 
N 
i N 
i i 
i 
x x 
x x 
g N 
s s N 
, o , si los datos están agrupados: 
( ) 
( ) 
3 
å 
1 3 
1 
1 
= 
1 3 3 
= 
- 
- 
= = 
å 
k 
i i k 
i i i 
i 
x x n 
x x n 
g N 
s s N 
Si g<0, existe asimetría hacia la izquierda. Si g>0, la asimetría es hacia la derecha. Si 
g=0, la distribución de datos es simétrica. 
El coeficiente de curtosis o apuntamiento mide si las frecuencias de los datos 
centrales son mucho mayores que las de los datos extremos, o si, por el contrario, todos 
los datos se repiten un número más o menos igual de veces. Se calcula como: 
( ) 
( ) 
4 
4 
å 
1 
1 
1 
4 4 
N 
i N 
i i 
i 
x x 
x x 
k N 
s s N 
= 
= 
- 
- 
= = 
å , y , si los datos están agrupados: ( ) 4 
= 
1 
1 
4 
k 
- 
i i 
i 
x x n 
k 
s N 
= 
å 
Cuando los datos proceden de una distribución Normal, tomando la fórmula de la 
densidad de una distribución normal se puede demostrar que el anterior coeficiente k 
toma el valor 3. Por este motivo, el coeficiente de apuntamiento que se usa 
habitualmente es: 
å k 
( ) 4 
1 
x x n 
i i 
3 1 = 3 
g k 
2 4 
- 
i 
= - = - 
s N 
y compara el apuntamiento de los datos con el que 
tendría una distribución normal teórica con igual media y varianza que la de nuestros 
datos. 
Si g2<0 decimos que los datos son poco apuntados (distribución platicúrtica, 
apuntamiento menor que el de una normal), si g2 » 0 diremos que los datos tienen un 
apuntamiento semejante al de una normal (distribución mesocúrtica), si g2>0 diremos 
que nuestros datos tienen una distribución leptocúrtica o más apuntados que la normal. 
Análisis exploratorio de datos: 
Se conoce con este nombre a un conjunto de técnicas que mezclan gráficos y medidas 
numéricas, y facilitan mucho la visión rápida de la distribución de los datos. 
Diagrama de tallo y hojas: 
Se construye considerando, por una parte la cifra de menor valor significativo de todos 
los datos. Habitualmente esta cifra es la de las unidades, pero puede ser las decenas, si 
todas las cifras terminan en cero, o las décimas o centésimas, etc., si los datos poseen 
decimales. Con estas cifras se forman lo que se denomina “hojas”. Por otra parte se 
considera el resto de dígitos que forma la cifra de los datos, es lo que se denomina 
“tallo”. 
Para construir el diagrama se tabulan los datos en varias filas. Cada fila está encabezada 
por un tallo, y detrás de él se escriben ordenados e igualmente espaciados los dígitos 
que forman las hojas correspondientes a cada tallo. Para la variable Diámetro: 
12
Diámetro, datos ordenados 2.5 2.5 2.9 3.9 3.9 3.9 4.2 4.3 4.5 5.3 
De cada dato, Tallo 2 2 2 3 3 3 4 4 4 5 
Hoja 5 5 9 9 9 9 2 3 5 3 
Diagrama de tallo y hojas: 
Tallo Hojas 
2 5 5 9 
3 9 9 9 
4 2 3 5 
5 3 
Si lo vemos como en sentido horizontal, se muestra como un diagrama de barras y se 
aprecia la forma de la distribución de frecuencias, y la simetría. 
Para completar la información se suele añadir una columna delante del tallo en la que se 
cuentan las frecuencias de cada tallo acumulándolas de arriba hacia abajo y viceversa, 
en el tallo donde se encuentre el dato mediano se escribe solamente la frecuencia de ese 
tallo, encerrada entre paréntesis. Si se desea se pueden marcar las filas donde estén los 
cuartiles colocando un asterisco a continuación de la frecuencia. Para los datos 
anteriores: 
frecuencias Tallo Hojas 
3* 2 5 5 9 
(3) 3 9 9 9 
4* 4 2 3 5 
1 5 3 
Diagrama de cajón y pata: 
Es un gráfico en el que se incide más en la simetría y en la presencia de outliers, 
consiste en dibujar un eje horizontal (también se podría hacer vertical) en el que se lleva 
una escala correspondiente a los datos, más arriba se dibuja un segmento vertical sobre 
la mediana y dos más, uno sobre cada cuartil posteriormente se cierran ambos 
segmentos por segmentos horizontales, con esto se forma la caja. La posición relativa 
del segmento mediano respecto de los lados de la caja ya nos informa sobre la simetría 
de los datos. 
A continuación y desde el centro de cada uno de los lados de la caja se lleva un 
segmento horizontal que termina en el los valores observados menor y mayor que no 
son outliers, si los hay, o en los valores menor y mayor de los observados. Si hay 
outliers se marcan con símbolos especiales, por ejemplo, * para los leves y # para los 
graves. 
El diagrama de cajón y pata para la variable diámetro es: 
Q1 me Q3 
13 
Diagrama de caja 
0 1 2 3 4 5 6
En este caso no hay outliers, y por eso la pata empieza con el menor dato y termina con 
el mayor. Se puede ver que los datos se extienden desde algo más de 2 hasta algo más 
de 5, que la distribución presenta una cola o asimetría hacia la derecha y que no hay 
outliers; además se aprecia la ubicación y valor de la mediana y cuartiles. Respecto del 
50% de los datos centrales, como puede verse en la caja, la asimetría es hacia la 
izquierda. 
14

Más contenido relacionado

La actualidad más candente

Prueba del t student
Prueba del t studentPrueba del t student
Prueba del t studentLeticia KN
 
ESTADÍSTICA BÁSICA
ESTADÍSTICA BÁSICAESTADÍSTICA BÁSICA
ESTADÍSTICA BÁSICAUGM NORTE
 
Estadística descriptiva para una variable
Estadística descriptiva para una variableEstadística descriptiva para una variable
Estadística descriptiva para una variableLennys Febres
 
Estadistica I, Tabla de Distribucion de Frecuencia
Estadistica I, Tabla de Distribucion de Frecuencia Estadistica I, Tabla de Distribucion de Frecuencia
Estadistica I, Tabla de Distribucion de Frecuencia Jotanh
 
Tabla de datos categóricos
Tabla de datos categóricosTabla de datos categóricos
Tabla de datos categóricosCarlos Acevedo
 
Estadística datos y variables.
Estadística datos y variables.Estadística datos y variables.
Estadística datos y variables.Abigail Arellano
 
1.4 organización de los datos000
1.4 organización de los datos0001.4 organización de los datos000
1.4 organización de los datos000paola barragan
 
Distribuciones de frecuencias
Distribuciones de frecuenciasDistribuciones de frecuencias
Distribuciones de frecuenciasnchacinp
 
Estadisticas
EstadisticasEstadisticas
EstadisticasMallory01
 
Diapositivas estadistica.
Diapositivas estadistica.Diapositivas estadistica.
Diapositivas estadistica.lissethperez
 
39028492 distribucion-t-de-student-scrib
39028492 distribucion-t-de-student-scrib39028492 distribucion-t-de-student-scrib
39028492 distribucion-t-de-student-scribJesus Blumer
 
Practica 2.preguntas medidas de resumen y dispersion
Practica 2.preguntas medidas de resumen y dispersionPractica 2.preguntas medidas de resumen y dispersion
Practica 2.preguntas medidas de resumen y dispersionnchacinp
 
Informe sobre análisis de datos experimentales en el laboratorio.
Informe sobre análisis de datos experimentales en el laboratorio.Informe sobre análisis de datos experimentales en el laboratorio.
Informe sobre análisis de datos experimentales en el laboratorio.Jean Vega
 

La actualidad más candente (20)

Prueba del t student
Prueba del t studentPrueba del t student
Prueba del t student
 
ESTADÍSTICA BÁSICA
ESTADÍSTICA BÁSICAESTADÍSTICA BÁSICA
ESTADÍSTICA BÁSICA
 
Varianza
VarianzaVarianza
Varianza
 
T de student
T de studentT de student
T de student
 
Estadística descriptiva para una variable
Estadística descriptiva para una variableEstadística descriptiva para una variable
Estadística descriptiva para una variable
 
Estadistica I, Tabla de Distribucion de Frecuencia
Estadistica I, Tabla de Distribucion de Frecuencia Estadistica I, Tabla de Distribucion de Frecuencia
Estadistica I, Tabla de Distribucion de Frecuencia
 
Tabla de datos categóricos
Tabla de datos categóricosTabla de datos categóricos
Tabla de datos categóricos
 
Estadistica I (I Bimestre)
Estadistica I (I Bimestre)Estadistica I (I Bimestre)
Estadistica I (I Bimestre)
 
Estadística datos y variables.
Estadística datos y variables.Estadística datos y variables.
Estadística datos y variables.
 
1.4 organización de los datos000
1.4 organización de los datos0001.4 organización de los datos000
1.4 organización de los datos000
 
Distribuciones de frecuencias
Distribuciones de frecuenciasDistribuciones de frecuencias
Distribuciones de frecuencias
 
Estadisticas
EstadisticasEstadisticas
Estadisticas
 
Error absoluto
Error absolutoError absoluto
Error absoluto
 
Estadistica descriptiva
Estadistica descriptivaEstadistica descriptiva
Estadistica descriptiva
 
Diapositivas estadistica.
Diapositivas estadistica.Diapositivas estadistica.
Diapositivas estadistica.
 
39028492 distribucion-t-de-student-scrib
39028492 distribucion-t-de-student-scrib39028492 distribucion-t-de-student-scrib
39028492 distribucion-t-de-student-scrib
 
Estadistica
EstadisticaEstadistica
Estadistica
 
Practica 2.preguntas medidas de resumen y dispersion
Practica 2.preguntas medidas de resumen y dispersionPractica 2.preguntas medidas de resumen y dispersion
Practica 2.preguntas medidas de resumen y dispersion
 
Analisis de datos 2
Analisis de datos 2Analisis de datos 2
Analisis de datos 2
 
Informe sobre análisis de datos experimentales en el laboratorio.
Informe sobre análisis de datos experimentales en el laboratorio.Informe sobre análisis de datos experimentales en el laboratorio.
Informe sobre análisis de datos experimentales en el laboratorio.
 

Similar a Estadistica descriptiva

Estadística I ( medidas de tendencia)
Estadística I ( medidas de tendencia)Estadística I ( medidas de tendencia)
Estadística I ( medidas de tendencia)Gabriela Silva
 
Estadística descriptiva
Estadística descriptivaEstadística descriptiva
Estadística descriptivagustavo Micelli
 
Estadística i tema 1 2
Estadística i tema 1 2Estadística i tema 1 2
Estadística i tema 1 2Melanie Nogué
 
Apuntes estadistica 4_eso
Apuntes estadistica 4_esoApuntes estadistica 4_eso
Apuntes estadistica 4_esoRobert Araujo
 
Análisis de los datos y tabulación
Análisis de los datos y tabulaciónAnálisis de los datos y tabulación
Análisis de los datos y tabulaciónTomás Calderón
 
Presentación estadistica l
Presentación estadistica lPresentación estadistica l
Presentación estadistica ljouberth24
 
ANÁLISIS DE DATOS E INFORME DE LOS HALLAZGOS DE LA INVESTIGACIÓN. Facultad de...
ANÁLISIS DE DATOS E INFORME DE LOS HALLAZGOS DE LA INVESTIGACIÓN.Facultad de...ANÁLISIS DE DATOS E INFORME DE LOS HALLAZGOS DE LA INVESTIGACIÓN.Facultad de...
ANÁLISIS DE DATOS E INFORME DE LOS HALLAZGOS DE LA INVESTIGACIÓN. Facultad de...Nancy Rodriguez Aizprua
 
Luis venzales presentacion
Luis venzales presentacionLuis venzales presentacion
Luis venzales presentacionluisvenzalez
 
Medidas de tedencia_central_posicion_y_dispersion.pdf
Medidas de tedencia_central_posicion_y_dispersion.pdfMedidas de tedencia_central_posicion_y_dispersion.pdf
Medidas de tedencia_central_posicion_y_dispersion.pdfJoseGabrielDeCairesG
 
Esta Di Stica Descriptiva
Esta Di Stica DescriptivaEsta Di Stica Descriptiva
Esta Di Stica DescriptivaDanielDierN
 

Similar a Estadistica descriptiva (20)

Alonzo torres manuel-u2_act2b
Alonzo torres manuel-u2_act2bAlonzo torres manuel-u2_act2b
Alonzo torres manuel-u2_act2b
 
Estadística I ( medidas de tendencia)
Estadística I ( medidas de tendencia)Estadística I ( medidas de tendencia)
Estadística I ( medidas de tendencia)
 
Estadística descriptiva
Estadística descriptivaEstadística descriptiva
Estadística descriptiva
 
Estadística i tema 1 2
Estadística i tema 1 2Estadística i tema 1 2
Estadística i tema 1 2
 
Medidas de tendencia central
Medidas de tendencia centralMedidas de tendencia central
Medidas de tendencia central
 
organización de los datos
organización de los datos organización de los datos
organización de los datos
 
organización de los datos
organización de los datos organización de los datos
organización de los datos
 
Presentation1
Presentation1Presentation1
Presentation1
 
Apuntes estadistica 4_eso
Apuntes estadistica 4_esoApuntes estadistica 4_eso
Apuntes estadistica 4_eso
 
Análisis de los datos y tabulación
Análisis de los datos y tabulaciónAnálisis de los datos y tabulación
Análisis de los datos y tabulación
 
Presentación estadistica l
Presentación estadistica lPresentación estadistica l
Presentación estadistica l
 
ANÁLISIS DE DATOS E INFORME DE LOS HALLAZGOS DE LA INVESTIGACIÓN. Facultad de...
ANÁLISIS DE DATOS E INFORME DE LOS HALLAZGOS DE LA INVESTIGACIÓN.Facultad de...ANÁLISIS DE DATOS E INFORME DE LOS HALLAZGOS DE LA INVESTIGACIÓN.Facultad de...
ANÁLISIS DE DATOS E INFORME DE LOS HALLAZGOS DE LA INVESTIGACIÓN. Facultad de...
 
Estadística
EstadísticaEstadística
Estadística
 
Presentación1
Presentación1Presentación1
Presentación1
 
Luis venzales presentacion
Luis venzales presentacionLuis venzales presentacion
Luis venzales presentacion
 
Estadistica
EstadisticaEstadistica
Estadistica
 
Medidas de tedencia_central_posicion_y_dispersion.pdf
Medidas de tedencia_central_posicion_y_dispersion.pdfMedidas de tedencia_central_posicion_y_dispersion.pdf
Medidas de tedencia_central_posicion_y_dispersion.pdf
 
Alonzo torres manuel-u2_act2
Alonzo torres manuel-u2_act2Alonzo torres manuel-u2_act2
Alonzo torres manuel-u2_act2
 
Estadistica clase1
Estadistica clase1 Estadistica clase1
Estadistica clase1
 
Esta Di Stica Descriptiva
Esta Di Stica DescriptivaEsta Di Stica Descriptiva
Esta Di Stica Descriptiva
 

Último

El Legado de Walter Gropius y Frank Lloyd Wright en la Arquitectura Moderna_c...
El Legado de Walter Gropius y Frank Lloyd Wright en la Arquitectura Moderna_c...El Legado de Walter Gropius y Frank Lloyd Wright en la Arquitectura Moderna_c...
El Legado de Walter Gropius y Frank Lloyd Wright en la Arquitectura Moderna_c...MariangelUrrieta
 
dia de la madre dia de la madre dia de la madre dia de la madres dia de la madre
dia de la madre dia de la madre dia de la madre dia de la madres dia de la madredia de la madre dia de la madre dia de la madre dia de la madres dia de la madre
dia de la madre dia de la madre dia de la madre dia de la madres dia de la madreVICTORSANTISTEBANALV
 
Fundamentos del concreto armado propiedades .pptx
Fundamentos del concreto armado propiedades .pptxFundamentos del concreto armado propiedades .pptx
Fundamentos del concreto armado propiedades .pptxalexvelasco39
 
Resumen de generalidades de la fotografia.
Resumen de generalidades de la fotografia.Resumen de generalidades de la fotografia.
Resumen de generalidades de la fotografia.CentroEspecializacio
 
Leyendo una obra: presentación de las hermanas Sanromán.
Leyendo una obra: presentación de las hermanas Sanromán.Leyendo una obra: presentación de las hermanas Sanromán.
Leyendo una obra: presentación de las hermanas Sanromán.nixnixnix15dani
 
702009258-Betting-On-You-Lynn-Painter.pdf
702009258-Betting-On-You-Lynn-Painter.pdf702009258-Betting-On-You-Lynn-Painter.pdf
702009258-Betting-On-You-Lynn-Painter.pdfkevinalexiscastillo1
 
Infografia de El Minierismo reflejado en la Arquitectura
Infografia de El Minierismo reflejado en la ArquitecturaInfografia de El Minierismo reflejado en la Arquitectura
Infografia de El Minierismo reflejado en la Arquitecturafrenyergt23
 
Presentación La Escala en el Dibujo Arquitectónico.pptx
Presentación La Escala en el Dibujo Arquitectónico.pptxPresentación La Escala en el Dibujo Arquitectónico.pptx
Presentación La Escala en el Dibujo Arquitectónico.pptxMarcelaAlzate6
 
EXPONENTES DEL MODERNISMO-VIRGINIA PRIETO.pdf
EXPONENTES DEL MODERNISMO-VIRGINIA PRIETO.pdfEXPONENTES DEL MODERNISMO-VIRGINIA PRIETO.pdf
EXPONENTES DEL MODERNISMO-VIRGINIA PRIETO.pdfVirginiaPrieto1
 
Un tiempo para mí cuaderno de trabajo Tutoría para 3.° Secundaria.pdf
Un tiempo para mí cuaderno de trabajo Tutoría para 3.° Secundaria.pdfUn tiempo para mí cuaderno de trabajo Tutoría para 3.° Secundaria.pdf
Un tiempo para mí cuaderno de trabajo Tutoría para 3.° Secundaria.pdfdianavillegaschiroqu
 
-7dia de la madre 2024 DISCURSO PARA EL DIA DE LA MADRES.docx
-7dia de la madre 2024 DISCURSO PARA EL DIA DE LA MADRES.docx-7dia de la madre 2024 DISCURSO PARA EL DIA DE LA MADRES.docx
-7dia de la madre 2024 DISCURSO PARA EL DIA DE LA MADRES.docxykiara
 
CONSECUENCIAS DE LA DIGLOSIA EN LA EDUCACION^J.pptx
CONSECUENCIAS DE LA DIGLOSIA EN LA EDUCACION^J.pptxCONSECUENCIAS DE LA DIGLOSIA EN LA EDUCACION^J.pptx
CONSECUENCIAS DE LA DIGLOSIA EN LA EDUCACION^J.pptxAndresIdrovo4
 
Dialnet-DesafiosDeLaGestionDelTransporteYLogisticaEnLosCen-8399928.pdf
Dialnet-DesafiosDeLaGestionDelTransporteYLogisticaEnLosCen-8399928.pdfDialnet-DesafiosDeLaGestionDelTransporteYLogisticaEnLosCen-8399928.pdf
Dialnet-DesafiosDeLaGestionDelTransporteYLogisticaEnLosCen-8399928.pdfarturocastellanos569
 
Reconocimiento y reparación de los exiliados a través del arte - Sofía Leo...
Reconocimiento y reparación de los exiliados a través del arte - Sofía Leo...Reconocimiento y reparación de los exiliados a través del arte - Sofía Leo...
Reconocimiento y reparación de los exiliados a través del arte - Sofía Leo...Aeroux
 
TRIPTICO LA CADENA ALIMENTICIA PARA EL CONSUMO HUMANO (2).pdf
TRIPTICO LA CADENA ALIMENTICIA PARA EL CONSUMO HUMANO (2).pdfTRIPTICO LA CADENA ALIMENTICIA PARA EL CONSUMO HUMANO (2).pdf
TRIPTICO LA CADENA ALIMENTICIA PARA EL CONSUMO HUMANO (2).pdfjavierchana780
 
PRESENTACION EL DIA DE LA MADRE POR SU DIA
PRESENTACION EL DIA DE LA MADRE POR SU DIAPRESENTACION EL DIA DE LA MADRE POR SU DIA
PRESENTACION EL DIA DE LA MADRE POR SU DIAJLLANOSGRickHunter
 
minierismo historia caracteristicas gabriel silva.pdf
minierismo historia caracteristicas gabriel silva.pdfminierismo historia caracteristicas gabriel silva.pdf
minierismo historia caracteristicas gabriel silva.pdfgabrielandressilvaca
 
Módulo de teoría sobre fotografía pericial
Módulo de teoría sobre fotografía pericialMódulo de teoría sobre fotografía pericial
Módulo de teoría sobre fotografía pericialntraverso1
 
Generalidades de las cámaras fotogr[aficas
Generalidades de las cámaras fotogr[aficasGeneralidades de las cámaras fotogr[aficas
Generalidades de las cámaras fotogr[aficasntraverso1
 

Último (20)

El Legado de Walter Gropius y Frank Lloyd Wright en la Arquitectura Moderna_c...
El Legado de Walter Gropius y Frank Lloyd Wright en la Arquitectura Moderna_c...El Legado de Walter Gropius y Frank Lloyd Wright en la Arquitectura Moderna_c...
El Legado de Walter Gropius y Frank Lloyd Wright en la Arquitectura Moderna_c...
 
dia de la madre dia de la madre dia de la madre dia de la madres dia de la madre
dia de la madre dia de la madre dia de la madre dia de la madres dia de la madredia de la madre dia de la madre dia de la madre dia de la madres dia de la madre
dia de la madre dia de la madre dia de la madre dia de la madres dia de la madre
 
Fundamentos del concreto armado propiedades .pptx
Fundamentos del concreto armado propiedades .pptxFundamentos del concreto armado propiedades .pptx
Fundamentos del concreto armado propiedades .pptx
 
Resumen de generalidades de la fotografia.
Resumen de generalidades de la fotografia.Resumen de generalidades de la fotografia.
Resumen de generalidades de la fotografia.
 
Leyendo una obra: presentación de las hermanas Sanromán.
Leyendo una obra: presentación de las hermanas Sanromán.Leyendo una obra: presentación de las hermanas Sanromán.
Leyendo una obra: presentación de las hermanas Sanromán.
 
Elaboracion regalo dia de las madres.pdf
Elaboracion regalo dia de las madres.pdfElaboracion regalo dia de las madres.pdf
Elaboracion regalo dia de las madres.pdf
 
702009258-Betting-On-You-Lynn-Painter.pdf
702009258-Betting-On-You-Lynn-Painter.pdf702009258-Betting-On-You-Lynn-Painter.pdf
702009258-Betting-On-You-Lynn-Painter.pdf
 
Infografia de El Minierismo reflejado en la Arquitectura
Infografia de El Minierismo reflejado en la ArquitecturaInfografia de El Minierismo reflejado en la Arquitectura
Infografia de El Minierismo reflejado en la Arquitectura
 
Presentación La Escala en el Dibujo Arquitectónico.pptx
Presentación La Escala en el Dibujo Arquitectónico.pptxPresentación La Escala en el Dibujo Arquitectónico.pptx
Presentación La Escala en el Dibujo Arquitectónico.pptx
 
EXPONENTES DEL MODERNISMO-VIRGINIA PRIETO.pdf
EXPONENTES DEL MODERNISMO-VIRGINIA PRIETO.pdfEXPONENTES DEL MODERNISMO-VIRGINIA PRIETO.pdf
EXPONENTES DEL MODERNISMO-VIRGINIA PRIETO.pdf
 
Un tiempo para mí cuaderno de trabajo Tutoría para 3.° Secundaria.pdf
Un tiempo para mí cuaderno de trabajo Tutoría para 3.° Secundaria.pdfUn tiempo para mí cuaderno de trabajo Tutoría para 3.° Secundaria.pdf
Un tiempo para mí cuaderno de trabajo Tutoría para 3.° Secundaria.pdf
 
-7dia de la madre 2024 DISCURSO PARA EL DIA DE LA MADRES.docx
-7dia de la madre 2024 DISCURSO PARA EL DIA DE LA MADRES.docx-7dia de la madre 2024 DISCURSO PARA EL DIA DE LA MADRES.docx
-7dia de la madre 2024 DISCURSO PARA EL DIA DE LA MADRES.docx
 
CONSECUENCIAS DE LA DIGLOSIA EN LA EDUCACION^J.pptx
CONSECUENCIAS DE LA DIGLOSIA EN LA EDUCACION^J.pptxCONSECUENCIAS DE LA DIGLOSIA EN LA EDUCACION^J.pptx
CONSECUENCIAS DE LA DIGLOSIA EN LA EDUCACION^J.pptx
 
Dialnet-DesafiosDeLaGestionDelTransporteYLogisticaEnLosCen-8399928.pdf
Dialnet-DesafiosDeLaGestionDelTransporteYLogisticaEnLosCen-8399928.pdfDialnet-DesafiosDeLaGestionDelTransporteYLogisticaEnLosCen-8399928.pdf
Dialnet-DesafiosDeLaGestionDelTransporteYLogisticaEnLosCen-8399928.pdf
 
Reconocimiento y reparación de los exiliados a través del arte - Sofía Leo...
Reconocimiento y reparación de los exiliados a través del arte - Sofía Leo...Reconocimiento y reparación de los exiliados a través del arte - Sofía Leo...
Reconocimiento y reparación de los exiliados a través del arte - Sofía Leo...
 
TRIPTICO LA CADENA ALIMENTICIA PARA EL CONSUMO HUMANO (2).pdf
TRIPTICO LA CADENA ALIMENTICIA PARA EL CONSUMO HUMANO (2).pdfTRIPTICO LA CADENA ALIMENTICIA PARA EL CONSUMO HUMANO (2).pdf
TRIPTICO LA CADENA ALIMENTICIA PARA EL CONSUMO HUMANO (2).pdf
 
PRESENTACION EL DIA DE LA MADRE POR SU DIA
PRESENTACION EL DIA DE LA MADRE POR SU DIAPRESENTACION EL DIA DE LA MADRE POR SU DIA
PRESENTACION EL DIA DE LA MADRE POR SU DIA
 
minierismo historia caracteristicas gabriel silva.pdf
minierismo historia caracteristicas gabriel silva.pdfminierismo historia caracteristicas gabriel silva.pdf
minierismo historia caracteristicas gabriel silva.pdf
 
Módulo de teoría sobre fotografía pericial
Módulo de teoría sobre fotografía pericialMódulo de teoría sobre fotografía pericial
Módulo de teoría sobre fotografía pericial
 
Generalidades de las cámaras fotogr[aficas
Generalidades de las cámaras fotogr[aficasGeneralidades de las cámaras fotogr[aficas
Generalidades de las cámaras fotogr[aficas
 

Estadistica descriptiva

  • 1. Estadística: Ciencia que proporciona técnicas para tratar gran volumen de datos para extraer y mostrar la información que subyace en ellos. Permite obtener información de un colectivo muy amplio de datos a partir de un conjunto relativamente pequeño de datos procedentes de él, gracias a ello se formulan modelos matemáticos que representen la repuesta obtenida en alguna característica de interés al ser influenciada por diferentes factores. Con esta información en la mano se puede tomar decisiones cuando exista un marco de incertidumbre. En Estadística se estudian fenómenos aleatorios, que son aquellos cuyo resultado no es previsible aunque se repitan en idénticas condiciones. Colectivo o Población: es el conjunto todos los individuos a los que va dirigido el estudio estadístico. Muestra: es el subconjunto de datos elegidos del colectivo que realmente se analizan. Variable estadística: es cada una de las características que se miden de cada uno de los individuos que forman la muestra. Las variables estadísticas pueden ser cualitativas y cuantitativas. Se dice que una variable estadística es cualitativa cuando los valores que puede tomar son atributos. Variables cuantitativas son aquellas que pueden tomar valores numéricos. Las variables cualitativas pueden ser: Nominales o categóricas: los valores no admiten ordenación, por ejemplo, el color, o la marca de bebida preferida, o el partido político elegido, o el lugar de procedencia, etc. Ordinales: los valores de este tipo de variables admiten ordenación, aunque sean cualitativas, por ejemplo, el estado de salud de pacientes de un hospital: Muy grave, Grave, Leve. También son ordinales las variables que miden el grado de satisfacción conseguido por algún servicio: Muy mal, Mal, Regular, Bien, Muy bien. Las variables cuantitativas pueden ser: Discretas: aquellas que solo pueden tomar valores aislados, y dados dos consecutivos no puede haber valores intermedios, frecuentemente van asociadas a procesos de conteo: Nº de ramas de un árbol, Nº de puestas en nidos, Nº de miembros por familia, etc. Continuas: aquellas variables numéricas que, si se poseyesen instrumentos con infinita precisión, su valor podría ser expresado con infinitas cifras decimales, dados dos valores, por próximos que estén, siempre sería posible encontrar valores intermedios entre ambos. La mayoría de las variables que implican una medición son de este tipo: la temperatura de la atmósfera, la velocidad del vuelo de un ave, la altura que alcanza un árbol, son ejemplos de variables cuantitativas Continuas. A veces, cuando las variables son numéricas, es necesario conocer su escala de medida: Decimos que una variable numérica está medida en escala por intervalos cuando no hay un cero absoluto origen de las medidas, por ejemplo: la hora de llegada de un tren a una estación, si se toma como cero las 24 horas del día anterior y ha llegado un tren a las 0h 10 min. y otro a las 0h 20 min., sabemos que el segundo llegó 10 minutos después que el primero, pero no podemos decir que el segundo haya tardado el doble que el primero en llegar, pues no se ha adoptado un cero absoluto común a todos los recorridos. Un ejemplo clásico de este tipo de variable es la temperatura: si el aire hoy está a 10ºC y ayer estaba a 20ºC, no podemos decir que la temperatura hoy sea el doble de la de ayer, pues el cero en la escala de medida se ha tomado de modo arbitrario, para comprobarlo, basta con expresar ambas temperaturas en grados Fahrenheit. Una variable estadística está medida en escala por ratios cuando existe un cero absoluto, entonces podemos considerar diferencias entre las medidas y también proporciones. La mayoría de los fenómenos físicos que consideremos están medidos en 1
  • 2. este tipo de escala, por ejemplo, la temperatura absoluta, en grados Kelvin es una variable medida en escala por ratios, también el peso, la longitud, o la masa lo son. Estadística descriptiva: Es la parte de la estadística que proporciona técnicas para extraer y mostrar la información que subyace en conjuntos de muy numerosos datos. Cuando se acomete un estudio científico, es habitual medir gran cantidad de parámetros sobre cada uno de los individuos elegidos, la estadística descriptiva univariante permite estudiar los datos correspondientes a cada característica sin considerar la influencia de las demás. Tablas de frecuencias Como resultado del estudio estadístico se posee una serie de estadillos o cuestionarios, uno por cada individuo considerado en el que se recogen todas las medidas realizadas a cada individuo. La tabla siguiente es un ejemplo de uno de estos estadillos , en él se han anotado seis características de árboles de un vivero después de un año de haber sido plantadas, la tabla recoge las medidas correspondientes a los diez primeros. Árbol nº Replantado Grado de afección Nº de ramas primarias Diámetro (cm) Altura (cm) 1 N MG 1 3,9 160,4 2 S NA 0 4,3 203,7 3 N M 2 3,9 160,5 4 N G 1 2,5 146,3 5 N M 3 3,9 123,0 6 S NA 4 4,2 184,4 7 N L 2 4,5 153,0 8 N L 1 5,3 186,0 9 S MG 0 2,5 169,8 10 S M 2 2,9 168,8 Códigos: S: Si N: No NA: No Afectado L: Leve M: Medio G: Grave MG: Muy Grave el primer paso para sintetizar la información es tabular los datos. Consideraremos distintos tipos de agrupaciones de datos: Tablas de frecuencias de datos en agrupamiento discreto: Realizamos este tipo de agrupamiento cuando el número de posibles respuestas a la variable en estudio es reducido. Las variables cualitativas se prestan muy bien a este sistema de agrupamiento Para construir una tabla de frecuencias de agrupamiento discreto se anotan en una columna cada uno de los distintos valores que tome la variable y en la columna siguiente su frecuencia o número de veces que se repite. La tabla de frecuencia de la variable Replantado es: Replantado frecuencia S 4 N 6 Total: 10 2
  • 3. La tabla de frecuencia de la variable X = Grado de afección es: Grado de afección xi frecuencia ni frecuencia relativa fi NA 2 0.2 L 2 0.2 M 3 0.3 G 1 0.1 MG 2 0.2 Total 10 1.0 La frecuencia relativa es la frecuencia absoluta dividida entre el número de observaciones, indica la proporción de datos que muestran un determinado valor de la variable. Se puede expresar también en %. La tabla de frecuencia de la variable X=Número de ramas primarias es. Nº ramas primarias xi frecuencia ni frecuencia relativa fi Frecuencia acumulada Ni Frecuencia acumulada relativa Fi 0 2 0.2 2 0.2 1 3 0.3 5 0.5 2 3 0.3 8 0.8 3 1 0.1 9 0.9 4 1 0.1 10 1.0 Total 10 1.0 La frecuencia acumulada es el número de datos que presentan un valor menor o igual que uno dado de la variable. La frecuencia acumulada relativa es la proporción de datos menores o iguales a uno dado. Tablas de frecuencias de datos agrupados en clases: Cuando tenemos una variable continua, o cuando, siendo discreta, el número de valores diferentes es muy grande, se agrupan los datos en clases o intervalos. El número de intervalos o clases I a considerar es una cuestión importante y no hay un criterio fijo para establecerlo. La fórmula de Sturges es una de las que se pueden utilizar para determinarlo, según ella, I es el exponente de la primera potencia de dos cuyo resultado supera al número de datos, con un mínimo de 4 clases. Para el ejemplo que estamos comentando, con 10 datos, como 24>10, se toma I=4. Para determinar la amplitud de cada clase se divide el rango o diferencia entre el mayor y el menor de los valores observados entre el número de clases I. Para la variable diámetro, la amplitud es: = = 5.3 - 2.5 = 2.8 = 0.7 4 4 Si el cociente no es exacto se puede redondear por exceso, aunque eso hará que la última clase termine en un valor superior al máximo observado. Para evitar dudas, se consideran todos los intervalos cerrados por la derecha y abiertos por la izquierda, salvo el primero que se considera cerrado por ambos extremos. a R I 3
  • 4. Cada clase o intervalo se identifica con una cifra llamada marca de clase, que es la media entre ambos extremos. La tabla de frecuencias de la variable diámetro es: Clases Marcas de clase xi frecuencia ni frecuencia relativa fi frecuencia acumulada Ni frecuencia acumulada relativa Fi [2.5 ; 3.2] 2.85 3 0.3 3 0.3 (3.2 ; 3.9] 3.55 3 0.3 6 0.6 (3.9 ; 4.6] 4.25 3 0.3 9 0.9 (4.6 ; 5.3] 4.95 1 0.1 10 1.0 Representaciones gráficas: Diagramas de sectores o de tarta: Son aplicables a cualquier tipo de variables, pero se utilizan sobre todo para las categóricas. Se construyen dividiendo un círculo en tantos sectores como categorías se vayan a representar. Cada sector abarca un ángulo proporcional a la frecuencia que se desea representar. El diagrama de sectores de la variable Replantado es: Diagrama de sectores Diagramas de barras: Son representaciones aplicables a tablas de frecuencias de datos en agrupamiento discreto, se pueden aplicar tanto a datos cualitativos como cuantitativos discretos. Consisten en un sistema de ejes cartesianos sobre cuyo eje de abcisas se llevan los valores de la variable y sobre el de ordenadas la frecuencia absoluta o relativa, acumulada o no. Por cada valor de la variable se levantará una línea o barra (aunque puede ser un rectángulo) de altura equivalente a la frecuencia que se desea representar. Se muestran diagramas de barras de la variable Grado de afección y de la variable Nº de ramas: 4 S 40% N 60%
  • 5. 3.5 3 2.5 2 1.5 1 0.5 1.2 1 0.8 0.6 0.4 0.2 Los diagramas de barras, al representar sobre el eje de abcisas los valores de la variable, y ser el eje numérico, tienen mejor aplicación en variables como mínimo ordinales, pues en las variables nominales no hay una ordenación de los valores y se pueden representar en cualquier orden. Histograma Aplicables a tablas de frecuencias de datos agrupados en clases. Consiste en llevar sobre un eje horizontal segmentos consecutivos que representen las amplitudes de cada clase, posteriormente se traza sobre cada clase un rectángulo cuyo área sea proporcional a la frecuencia que se desea representar. Si todas las clases tienen igual amplitud, los rectángulos tienen no solo el área proporcional a la frecuencia, su altura también lo es. Las alturas de los rectángulos representan frecuencia por cada unidad de amplitud, que también se llama densidad de frecuencia. Si se traza un eje vertical, la escala sobre este es la frecuencia por unidad de amplitud. A continuación se muestran histogramas de la variable Diámetro. 3 2.5 2 1.5 1 0.5 1 0.8 0.6 0.4 0.2 acumulada por unidad de En estos dos histogramas se ha tomado la unidad de longitud igual a la amplitud y, como todas las amplitudes son iguales, la cifra que indica el área de cada rectángulo coincide con la que indica la altura y ambas con la frecuencia que se representa. Polígonos de frecuencias: Aplicables a variables numéricas, aunque también se pueden trazar sobre cualitativas ordinales, se construyen uniendo los extremos de los diagramas de barras o los centros de las bases superiores de los rectángulos del histograma mediante líneas rectas. Si se desea cerrar la línea poligonal por sus dos extremos, se podría inventar un valor o intervalo por delante del primero y otro mayor que el último, cuyas frecuencias serán 5 diagrama de barras 0 NA L M G MG Grado de afección frecuencia absoluta Diagrama de barras 0 0 1 2 3 4 Nº de ramas primarias Frecuencia acumulada relativa Histograma de frecuencias 0 2.85 3.55 4.25 4.95 Marcas de clase Frecuencia por unidad de amplitud Histograma de frecuencias acumuladas relativas 0 2.85 3.55 4.25 4.95 Marcas de clase Frecuencia relativa amplitud
  • 6. cero. En el caso de datos agrupados también es frecuente unir el origen de la primera clase con el centro de su base superior y el centro de la base superior del último rectángulo con el extremo de su base inferior. Polígono de frecuencias 3 2.5 2 1.5 1 0.5 Existen otros tipos de gráficos, como los pictogramas que utilizan símbolos gráficos para representar las frecuencias, ya sea repitiendo un mismo símbolo varias veces para indicar las mayores o menores frecuencias, o aumentando o disminuyendo el tamaño del símbolo según la frecuencia que se represente. Medidas de posición: Otra vía de resumir la información es expresar algunas cifras que de algún modo resuman lo más característico de los datos, podemos calcular medidas de posición y de dispersión. Entre las primeras se verán: Moda: es la categoría, valor o marca de clase que más se repite. Cuando tengamos datos de tipo contínuo solo tendrá sentido la moda después de haber sido agrupados en clases. La moda de la variable Replantado es N, pues su frecuencia es la mayor entre las dos categorías posibles. La moda de la variable Grado de afección es M, en tanto que para la variable Nº de ramas primarias hay dos valores con máxima frecuencia, son 1 y 2 ramas. La moda puede no ser única, y hablamos de distribuciones de frecuencias bimodales, trimodales, etc. Mediana: es aplicable a datos como mínimo ordinales, y se define como aquél valor de la variable que ocupa la posición central del conjunto de datos ordenados, también se puede definir como aquél valor de la variable que resulta ser mayor o igual que la mitad de los datos y menor que la otra mitad. Cuando se considera los N datos sin agrupar, la mediana es el dato que ocupa la posición (N+1)/2, de los datos ordenados. Si el número de datos N es impar la mediana se calcula de modo inmediato, si el número de datos es par, la mediana es la media aritmética de los datos que ocupan las posiciones N/2 y N/2 + 1. 6 0 0 1 2 3 4 Nº de ramas primarias frecuencia absoluta
  • 7. Para el conjunto de datos que se están considerando, la mediana es el dato que ocupa la posición 11/2=5.5, por tanto es la media entre los datos que ocupen las posiciones 5ª y 6ª . 1º 2º 3º 4º 5º 6º 7º 8º 9º 10º Datos ordenados Mediana Grado de afección NA NA L L M M M G MG MG M Nº de ramas primarias 0 0 1 1 1 2 2 2 3 4 1.5 Diámetro 2.5 2.5 2.9 3.9 3.9 3.9 4.2 4.3 4.5 5.3 3.9 En realidad, si los datos son cualitativos no tiene sentido calcular la mediana, en este caso se puede calcular la mediana del grado de afección porque los datos 5º y 6º son ambos M. Cuando los datos son de tipo contínuo y no se posee la lista original de valores, sino solo los intervalos, sus marcas y frecuencias, el modo de proceder es diferente: En este caso buscaremos el intervalo mediano, que es aquél cuya frecuencia acumulada es N/2 o su frecuencia acumulada relativa es 0.5. Si estas cifras no aparecen entre las frecuencias, el intervalo mediano es aquél que primero supera dicha cantidad. Una vez localizado el intervalo mediano, un modo de proceder será decir que la mediana es la marca de la clase de ese intervalo. Procediendo de este modo, la mediana para la variable Diámetro, calculada a partir de los datos de la tabla de frecuencias es: Para 10 datos, N/2=5 Intervalo mediano: el 2º, pues es el primero en que se supera la cantidad 5 en la columna Frecuencia acumulada (0.5 si se mira la acumulada relativa). La mediana es la marca de este intervalo: me = 3.55 Este modo de proceder se basa en suponer que todos los datos de cada intervalo son iguales entre sí e iguales a la marca de clase. Hay otro modo de proceder, consiste en suponer que los datos dentro de cada intervalo se reparten uniformemente con valores crecientes de la variable, bajo esta suposición, y suponiendo que el intervalo mediano es el j-ésimo, cuyos extremos son xj, xj+1, con una frecuencia absoluta nj y siendo Nj y Nj-1 las frecuencias acumuladas correspondientes al intervalo mediano y al inmediato anterior, la mediana se calcula como: x x N x x N me x N x N j + 1 - = j æ ö j + 1 - j æ ö j + - = + - N j - N ç j - 1 ÷ j ç j - 1 ÷ , para el caso actual: j - 1 è 2 ø n j è 2 ø 3.29 3.9 3.2 ( 5 3) 3.757 me = + - - = 3 Este valor no coincide con el calculado con la marca de clase ni con el que se obtuvo a partir de los datos originales, por ello siempre que se disponga de los datos originales, se calculará la mediana como si se tratase de datos discretos. La expresión anterior para la mediana se puede formular en función de las frecuencias relativas: x x 1 ( ) 0.5 1 j j j j me x F j f + - - = + - Media: solo es aplicable a datos de tipo numérico, es la media aritmética de los datos observados, o sea, la suma de todos ellos dividido por el número de observaciones: 7
  • 8. N å K para datos sin tabular, si están tabulados en tablas de = + + + = = 1 2 1 i N i x x x x x N N frecuencias: å , siendo k el número de valores distintos y ni la frecuencia absoluta 1 k i i i x n x N = = correspondiente al valor xi de la variable. En caso que tengamos una variable tabulada en clases, en la formula anterior, k es el número de clases y xi cada marca de clase. Como siempre, si se puede, es preferible realizar los cálculos sobre los datos originales. La media de la variable Nº de ramas primarias es: x = + + + + + + + + + = + + + + = = y la de la variable diámetro: 0 0 1 1 1 2 2 2 3 4 0* 2 1*3 2*3 3*1 4*1 16 1.6 10 10 10 x = 3.9 + 4.3 + 3.9 + 2.5 + 3.9 + 4.2 + 4.5 + 5.3 + 2.5 + 2.9 = 37.9 = 3.79 cm 10 10 esta última calculada a partir de la tabla de frecuencias es: x = 2.85*3 + 3.55*3 + 4.25*3 + 4.95*1 = 8.55 + 10.65 + 12.75 + 4.95 = 36.9 = 3.69 cm 10 10 10 y no coincide con el valor calculado para los datos originales, por lo que se vuelve a poner de manifiesto que siempre que se pueda, se debe operar con ellos. Otras medidas de posición: La media, mediana y moda son medidas que indican el centro de la distribución, vamos a ver algunas más, que no indican el centro: Cuartiles: Si se localiza en el conjunto de datos ordenados aquellos que lo dividen en cuatro intervalos con el mismo número de observaciones, habremos encontrado los cuartiles primero, segundo y tercero. Primer cuartil Q1: Es aquél valor de la variable que resulta ser mayor o igual que el 25% de los datos y menor que el 75% restante. Para calcular Q1 se procede de diferente modo si los datos están agrupados en clases o no. Para datos sin agrupar o con agrupamiento discreto, consideraremos el conjunto original de datos ordenados, si de este conjunto eliminamos la mediana, quedan dos subconjuntos, la mediana del primero de ellos es Q1. Si se divide la lista de datos ordenados correspondiente a la variable Nº de ramas primarias por el punto que corresponde a la mediana , quedan dos grupos de datos, ambos con cinco datos : Nº de ramas primarias 0 0 1 1 1 mediana 2 2 2 3 4 La mediana de la primera mitad es el dato (5+1)/2 = 3º, por tanto Q1 Q1 = 1 : Nº de ramas primarias 0 0 1 1 1 Si los datos están agrupados en clases y no se dispone de los datos originales, se procede de modo similar a lo hecho para la mediana en estos casos, y se puede aplicar la 8
  • 9. fórmula vista, sustituyendo la frecuencia acumulada por N/4 o la acumulada relativa por 0.25: x x 1 ( ) 1 0.25 1 j j j j Q x F j f + - - = + - aquí se considera que el intervalo que contiene al primer cuartil es el j-ésimo. Para la variable diámetro, el intervalo que contiene el primer cuartil es el primero, cuyos límites son 2.5 y 3.2 , la frecuencia relativa es 0.3 y la acumulada relativa, 0.3 también, por ser el 1º por ello la frecuencia acumulada relativa correspondiente al intervalo anterior es 0. 1 2.5 3.2 2.5 ( 0.25 0) 2.5 0.7 0.25 3.0833 Q = + - - = + = 0.3 0.3 Para esta variable, procediendo como datos discretos, Q1 = 2.9, siempre que se pueda se debe trabajar sobre los datos originales, sin agrupar. Segundo cuartil: Q2 es la mediana. Tercer cuartil: Q3 , es aquél valor de la variable que resulta ser mayor o igual que el 75% de los datos y menor que el 25% restante. Para datos sin agrupar, se calcula como la mediana de la segunda mitad de los datos ordenados que se obtiene al dividir la lista original eliminando el dato mediano. Respecto de la variable Nº de ramas primarias, la mediana de la segunda mitad es el dato 5+(5+1)/2 = 8º, por tanto Q3 Nº de ramas primarias 0 0 1 1 1 mediana 2 2 2 3 4 Q3 = 2 Para datos agrupados en clases, se localiza primero el intervalo que contiene el tercer cuartil, que es aquél cuya frecuencia relativa acumulada es mayor o igual a 0.75, sea este intervalo el j-ésimo, entonces: x Q 3 = x + j + 1 - x j j ( 0.75 - F j ) j f El tercer cuartil de la variable Diámetro está en el tercer intervalo (frecuencia acumulada relativa = 0.9), su valor se puede calcular como: 3 3.9 4.6 3.9 ( 0.75 0.6) 4.25 Q = + - - = 0.3 mientras que de los datos originales como si fuesen discretos, Q3=4.3 Percentiles: Como extensión, si el primer cuartil es el valor de la variable que resulta ser mayor o igual que el 25% de los datos y menor que el 75%, se define Percentil como el valor de la variable que resulta ser mayor o igual que un porcentaje dado de los datos, así se habla del percentil 10, del percentil 20, etc., se fácil comprobar que: p25 = Q1; p50 = Q2 = me ; p75 = Q3 Si se desea calcular el percentil pa y el primer intervalo cuya frecuencia acumulada relativa es igual o mayor que a/100 es el j-ésimo: x x + 1 - = + æ a ç - ö è ÷ ø p x F a f 100 1 j j j j j - 9
  • 10. En general, definimos el cuantil a ( en tanto por 1) como aquél valor de la variable que resulta ser menor que el 100a% de los datos y mayor o igual que el 100(1- a)% restante, es evidente que cuantil a = p100(1-a) . Medidas de dispersión: Para mejorar la información sobre el conjunto de datos no basta saber en torno a qué valores está la mayoría de los datos, también es conveniente saber si el conjunto de medidas son todas muy parecidas entre sí o si son muy diferentes, esto se consigue con las medidas de dispersión o variabilidad. Rango: es la medida de variabilidad más simple, es el mayor valor menos el más pequeño, conforme más próximos sean los valores observados, menor será el rango. R= max(xi) – min(xi) Rango intercuartílico: El rango está influenciado por la presencia de algún error de medida, que suele traducirse en valores excesivamente grandes o pequeños, por eso se prefiere como medida de variabilidad, la diferencia entre los cuartiles tercero y primero, también llamado Rango intercuartílico: RI = Q3-Q1 Desviación media es la media de las diferencias o desviaciones de cada dato hasta la media, tomadas en valor absoluto, pues de lo contrario la suma se anula: N 1 i i m x x d N = - = k å si los datos están agrupados: 1 i i i m x x n d N = - = å Varianza: es la media de los cuadrados de las diferencias o desviaciones de cada dato hasta la media: N N å å ( x - x ) x 2 i i 2 i = 1 i = 1 2 s = = - x N N k k å å si los datos están agrupados en clases, la fórmula es: ( ) 2 x - x n x n i i i i 2 i = 1 i = 1 2 s = = - x N N Para la variable Nº de ramas primarias, el cálculo de la varianza es: ( ) 2 ( ) 2 ( ) 2 ( ) 2 2 0 1.6 0 1.6 1 1.6 K 4 1.6 14.4 1.44 10 10 s - + - + - + + - = = = Tratándolos como datos y frecuencias: ( ) 2 ( ) 2 ( ) 2 ( ) 2 ( ) 2 s - ´ + - ´ + - ´ + - ´ + - ´ 2 0 1.6 2 1 1.6 3 2 1.6 3 3 1.6 1 4 1.6 1 1.44 = = 10 y por la fórmula reducida: 2 2 2 2 2 ( ) ( ) ( ) ( ) ( ) ( ) s ´ + ´ + ´ + ´ + ´ 2 0 2 1 3 2 3 3 1 4 1 1.6 2 40 2.56 4 2.56 1.44 = - = - = - = 10 10 La varianza se expresa en unidades al cuadrado y no es comparable con los datos, por eso se define Desviación típica, es la raíz cuadrada positiva de la varianza, s = s2 La desviación típica de la variable Nº de ramas primarias es : s = 1.44 =1.2 10
  • 11. La varianza mide la dispersión de los datos respecto de la media de los propios datos. Si lo que tenemos es una muestra, y se desea estimar la varianza de toda la población con los datos de la muestra, se utiliza la Cuasivarianza: ( ) 2 2 1 1 1 N i i x x s Ns N N = - = = - - å para datos agrupados en clases, la fórmula es: ( ) 2 2 1 1 1 k i i i x x n s Ns N N = - = = - - å De modo similar a la desviación típica, se define: Cuasi desviación típica: s = s 2 Para estimar la varianza de toda la población respecto a la variable Nº de ramas primarias, se usa la cuasivarianza de esa variable calculada con los datos de la muestra: 2 10 1.44 14.4 1.6 s = ´ = = 9 9 y la cuasidesviación típica: s = s 2 = 1.6 =1.265 Para comparar variabilidad entre magnitudes diferentes o entre diferentes muestras, se utiliza el coeficiente de variación, que es la desviación típica expresada en medias: CV s x = El coeficiente de variación de la variable Nº ramas primarias es: CV = 1.4 = 0.875 1.6 En ocasiones, al tomar las medidas de un experimento, o cuando se transcriben los datos para procesarlos, se comenten errores y aparecen datos mucho más grandes o mucho menores que el resto, son los denominados Outliers, y es importante poder detectarlos y comprobar si se trata o no de un error. Tanto la media como la varianza son muy sensibles a la presencia de Outliers y por eso interesa detectarlos. La detección de Outliers se puede hacer a partir de la media y desviación típica ya calculadas, se puede demostrar que datos cuya desviación respecto de la media sea superior en valor absoluto a tres desviaciones típicas son raros, por eso se suelen considerar outliers aquellos datos que cumplan: xi - x > 3s No obstante, la presencia de los posibles outliers ha intervenido en el cálculo de la media y de la desviación típica, por lo que sería recomendable utilizar otras medidas de posición y dispersión para localizarlos, por eso se consideran outliers aquellas medidas que sean menores que el primer cuartil menos 1.5 veces el rango intercuartílico, o mayores que el tercer cuartil más 1.5 veces RI: xi es un outlier por defecto, si: Q1- xi >1.5RI xi es un outlier por exceso, si: xi - Q3 >1.5RI Si la distancia llega a superar las 3 veces RI, entonces el outlier se considera grave, en caso contrario, lo consideraremos leve. Medidas de asimetría y de forma: Además de dar información sobre la tendencia central de los datos y sobre cómo se reparten respecto del centro, en ocasiones interesa conocer si los datos se reparten de un modo simétrico a ambos lados de la media o no. 11
  • 12. El coeficiente de asimetría mide esta propiedad, y se calcula como: ( ) ( ) 3 å 1 3 1 1 = 1 3 3 = - - = = å N i N i i i x x x x g N s s N , o , si los datos están agrupados: ( ) ( ) 3 å 1 3 1 1 = 1 3 3 = - - = = å k i i k i i i i x x n x x n g N s s N Si g<0, existe asimetría hacia la izquierda. Si g>0, la asimetría es hacia la derecha. Si g=0, la distribución de datos es simétrica. El coeficiente de curtosis o apuntamiento mide si las frecuencias de los datos centrales son mucho mayores que las de los datos extremos, o si, por el contrario, todos los datos se repiten un número más o menos igual de veces. Se calcula como: ( ) ( ) 4 4 å 1 1 1 4 4 N i N i i i x x x x k N s s N = = - - = = å , y , si los datos están agrupados: ( ) 4 = 1 1 4 k - i i i x x n k s N = å Cuando los datos proceden de una distribución Normal, tomando la fórmula de la densidad de una distribución normal se puede demostrar que el anterior coeficiente k toma el valor 3. Por este motivo, el coeficiente de apuntamiento que se usa habitualmente es: å k ( ) 4 1 x x n i i 3 1 = 3 g k 2 4 - i = - = - s N y compara el apuntamiento de los datos con el que tendría una distribución normal teórica con igual media y varianza que la de nuestros datos. Si g2<0 decimos que los datos son poco apuntados (distribución platicúrtica, apuntamiento menor que el de una normal), si g2 » 0 diremos que los datos tienen un apuntamiento semejante al de una normal (distribución mesocúrtica), si g2>0 diremos que nuestros datos tienen una distribución leptocúrtica o más apuntados que la normal. Análisis exploratorio de datos: Se conoce con este nombre a un conjunto de técnicas que mezclan gráficos y medidas numéricas, y facilitan mucho la visión rápida de la distribución de los datos. Diagrama de tallo y hojas: Se construye considerando, por una parte la cifra de menor valor significativo de todos los datos. Habitualmente esta cifra es la de las unidades, pero puede ser las decenas, si todas las cifras terminan en cero, o las décimas o centésimas, etc., si los datos poseen decimales. Con estas cifras se forman lo que se denomina “hojas”. Por otra parte se considera el resto de dígitos que forma la cifra de los datos, es lo que se denomina “tallo”. Para construir el diagrama se tabulan los datos en varias filas. Cada fila está encabezada por un tallo, y detrás de él se escriben ordenados e igualmente espaciados los dígitos que forman las hojas correspondientes a cada tallo. Para la variable Diámetro: 12
  • 13. Diámetro, datos ordenados 2.5 2.5 2.9 3.9 3.9 3.9 4.2 4.3 4.5 5.3 De cada dato, Tallo 2 2 2 3 3 3 4 4 4 5 Hoja 5 5 9 9 9 9 2 3 5 3 Diagrama de tallo y hojas: Tallo Hojas 2 5 5 9 3 9 9 9 4 2 3 5 5 3 Si lo vemos como en sentido horizontal, se muestra como un diagrama de barras y se aprecia la forma de la distribución de frecuencias, y la simetría. Para completar la información se suele añadir una columna delante del tallo en la que se cuentan las frecuencias de cada tallo acumulándolas de arriba hacia abajo y viceversa, en el tallo donde se encuentre el dato mediano se escribe solamente la frecuencia de ese tallo, encerrada entre paréntesis. Si se desea se pueden marcar las filas donde estén los cuartiles colocando un asterisco a continuación de la frecuencia. Para los datos anteriores: frecuencias Tallo Hojas 3* 2 5 5 9 (3) 3 9 9 9 4* 4 2 3 5 1 5 3 Diagrama de cajón y pata: Es un gráfico en el que se incide más en la simetría y en la presencia de outliers, consiste en dibujar un eje horizontal (también se podría hacer vertical) en el que se lleva una escala correspondiente a los datos, más arriba se dibuja un segmento vertical sobre la mediana y dos más, uno sobre cada cuartil posteriormente se cierran ambos segmentos por segmentos horizontales, con esto se forma la caja. La posición relativa del segmento mediano respecto de los lados de la caja ya nos informa sobre la simetría de los datos. A continuación y desde el centro de cada uno de los lados de la caja se lleva un segmento horizontal que termina en el los valores observados menor y mayor que no son outliers, si los hay, o en los valores menor y mayor de los observados. Si hay outliers se marcan con símbolos especiales, por ejemplo, * para los leves y # para los graves. El diagrama de cajón y pata para la variable diámetro es: Q1 me Q3 13 Diagrama de caja 0 1 2 3 4 5 6
  • 14. En este caso no hay outliers, y por eso la pata empieza con el menor dato y termina con el mayor. Se puede ver que los datos se extienden desde algo más de 2 hasta algo más de 5, que la distribución presenta una cola o asimetría hacia la derecha y que no hay outliers; además se aprecia la ubicación y valor de la mediana y cuartiles. Respecto del 50% de los datos centrales, como puede verse en la caja, la asimetría es hacia la izquierda. 14