2. Conceptos estadísticos
Proyecto Integrado Tema 1
Población
Se denomina población al conjunto de todos los elementos que
cumplen una determinada característica, que deseamos medir o
Ejemplo: Los alumnos de un curso.
Muestra
Se denomina muestra a cualquier subconjunto de la población.
Ejemplo: 10 alumnos escogidos al azar.
Individuo (objeto)
En estadística, se considera individuo a cada uno de los
elementos de la población.
Ejemplo: Un alumno
Carácter estadístico
Conjunto de propiedades (aspectos) que pueden estudiarse en los
individuos de una población.
· Un carácter permite clasificar a los individuos de la población.
• Un carácter puede ser cuantitativo si se puede medir.
Ejemplo: Discreto: Número de hermanos. Continuo: Velocidad de un vehículo
• Un carácter es cualitativo si no se puede medir (se compara).
Ejemplo: Color de los ojos
Se define modalidad como las diferentes posibilidades de un carácter.
1
3. Proyecto Integrado Tema 1
Variable estadística.
El conjunto de valores que toma un carácter estadístico.
Dependiendo del carácter, una variable estadística puede ser cuantitativa o cualitativa.
• Variable discreta: Una variable estadística se llama discreta cuando sólo puede
tomar determinados valores (con más precisión, cuando puede tomar un
número finito o infinito numerable de valores).
• Variable continua: La variable se llama continua cuando puede tomar todos los
valores de un intervalo (valores tan próximos como se quiera).
Ejemplos: (Véanse caracteres estadísticos)
2
4. Organización de los datos: tablas de
Proyecto Integrado Tema 1
frecuencias
Una distribución de frecuencias es una tabla en la que se organizan los datos en clases,
es decir, en grupos de valores que describen una característica de los datos y muestra
el número de observaciones del conjunto de datos que caen en cada una de las clases.
La tabla de frecuencias ayuda a agrupar cualquier tipo de dato numérico. En principio,
en la tabla de frecuencias se detalla cada uno de los valores diferentes en el conjunto
de datos junto con el número de veces que aparece, es decir, su frecuencia absoluta. Se
puede complementar la frecuencia absoluta con la denominada frecuencia relativa,
que indica la frecuencia en porcentaje sobre el total de datos
Tipos de frecuencia:
Frecuencia absoluta
La frecuencia absoluta (f i ) es el número de veces que aparece un determinado valor en
un estudio estadístico
La suma de las frecuencias absolutas es igual al número total de datos, que
se representa por N.
Frecuencia absoluta acumulada
. La frecuencia acumulada F i es la suma de las frecuencias absolutas en
sentido descendente
3
5. Proyecto Integrado Tema 1
Frecuencia relativa
La frecuencia relativa n i es el cociente entre la frecuencia absoluta de un
determinado valor y el número total de datos.
La suma de las frecuencias relativas es igual a 1.
Facilitan el análisis de los datos, en especial para comparar distribuciones
de frecuencias basadas en diferentes números de observaciones
Frecuencia relativa acumulada
. La frecuencia relativa acumulada es el cociente entre la frecuencia absoluta
acumulada de un determinado valor y el número total de datos. Se puede expresar
Diagrama depor ciento
en tantos Barras
Las representaciones gráficas deben conseguir que un simple análisis visual ofrezca la
mayor información posible. Según el tipo del carácter que estemos estudiando,
usaremos una representación gráfica u otra.
Diagrama de barras
El diagrama de barras es un gráfico sobre ejes cartesianos en el que distribuimos en el
eje X o eje de abscisa:
·Las modalidades si el carácter es cualitativo
·Los valores si la variable es no agrupada
Sobre ellos se levantan barras o rectángulos de igual base (que no se solapen) cuya
altura sea proporcional a sus frecuencias. También se suelen utilizar para series
cronológicas y pueden, asimismo, representarse horizontalmente, intercambiando los
ejes.
4
6. Histogramas
Proyecto Integrado Tema 1
La representación gráfica contribuye a un mejor análisis de los datos. Facilita la
comprensión del fenómeno considerado. Pierde detalle pero se obtiene otro tipo de
información.
Gráficos utilizados: histograma, polígono de frecuencia y ojiva son útiles, ya que
resaltan los patrones de los datos y atraen la atención.
Un histograma es una representación gráfica de una variable en forma de barras,
donde la superficie de cada barra es proporcional a la frecuencia de los valores
En el eje vertical se representan las frecuencias, y en el eje horizontal los valores de las
variables, normalmente señalando las marcas de clase, es decir, la mitad del intervalo
en el que están agrupados los datos.
Se utiliza cuando se estudia una variable continua, como franjas de edades o altura de
la muestra, y, por comodidad, sus valores se agrupan en clases, es decir, valores
continuos.
Regla de Nordclife:
Cuando la variable estadística toma muchos valores o es continua conviene agruparla
en intervalos, utilizando grandes dosis de sentido común o bien, en algunos casos es
útil utilizar el criterio de NORDCLIFE, que establece que el número de datos debe
coincidir con la raíz cuadrada del número de datos.
Ejemplo:
Las edades de las personas que acuden al logopeda, a lo largo de un año son:
3,2,11,13,4,3,2,4,5,6,7,3,4,5,3,2,5,6,27,15,4,21,12,4,3,6,29,13,6,17,6,13,6,5,12,26.
Hay 36 datos, entonces la raíz de 36, es 6 y ese será el número de intervalos que vamos
a tomar.
El Rango estadístico es 27, ya que se obtiene de restarle al mayor dato (29, en este
caso) el menor (2).
Sin embargo, por conveniencia, para que sea más fácil operar, lo agrandamos a 30 para
que sea múltiplo de 6.
5
7. Proyecto Integrado Tema 1
Ejemplo de histograma:
Los datos son el número de espectadores en 32 partidos del equipo nacional (en miles).
42,1 51,0 30,0 35,2 29,3 10,9 16,1 51,6
47,0 51,4 35,2 31,7 17,8 67,0 43,2 23,7
25,2 36,1 32,3 51,7 46,0 12,2 21,1 29,0
14,3 47,2 31,3 35,4 29,1 23,0 10,3 34,2
En primer lugar, dividimos los datos en intervalos de igual anchura.
El valor mínimo de la muestra es 10,3 y el valor máximo es 67,0. Ponemos intervalos de
anchura 10 y construimos una tabla de frecuencias.
Clases (intervalos de variable estadística)
Construimos el histograma:
Con diferencia a los datos discretas, las
barras están conectadas.
Además, observamos que igual que para los
datos discretas, es posible construir el
histograma con frecuencias absolutas o
relativas o con frecuencias (absolutas o
relativas) acumuladas.
6
8. Proyecto Integrado Tema 1
Tipos de histogramas
• Diagramas de barras simples
Representa la frecuencia simple (absoluta o relativa)
mediante la altura de la barra la cual es proporcional a
la frecuencia simple de la categoría que representa.
• Diagramas de barras compuesta
Se usa para representar la información de una tabla
de doble entrada sea a partir de dos variables, las
cuales se representan así; la altura de la barra
representa la frecuencia simple de las modalidades o
categorías de la variable y esta altura es
proporcional a la frecuencia simple de cada
modalidad.
• Diagramas de barras agrupadas
Se usa para representar la información de una tabla de
doble entrada o sea a partir de dos variables, el cual es
representado mediante un conjunto de barras como se
clasifican respecto a las diferentes modalidades.
7
9. Proyecto Integrado Tema 1
• Polígono de frecuencias
Es un gráfico de líneas que se las frecuencias absolutas de los
valores de una distribución en el cual la altura del punto
asociado a un valor de las variables es proporcional a la
frecuencia de dicho valor.
• Ojiva porcentual
Es un gráfico acumulativo, el cual es muy útil cuando se
quiere representar el rango porcentual de cada valor en una
distribución de frecuencias.
8
10. Función de distribución
Proyecto Integrado Tema 1
La función de distribución describe el comportamiento probabilístico de una variable
aleatoria X asociada a un experimento aleatorio y se representa como:
F(x) ó Fx
Para estudiar la función de distribución distinguiremos entre el caso discreto y el caso
continuo.
Variable discreta
Se denomina distribución de variable discreta a aquella cuya función de probabilidad
sólo toma valores positivos en un conjunto de valores de X finito o infinito numerable.
A dicha función se le llama función de masa de probabilidad. En este caso la
distribución de probabilidad es la suma de la función de masa, por lo que tenemos
entonces que:
Y, tal como corresponde a la definición de distribución de probabilidad, esta expresión
representa la suma de todas las probabilidades desde hasta el valor x.
Ejemplo 1:
Si una persona compra una papeleta en una rifa, en la que puede ganar de 5.000 € ó un
segundo premio de 2000 € con probabilidades de: 0.001 y 0.003. ¿Cuál sería el precio
justo a pagar por la papeleta?
μ = 5000 · 0.001 + 2000 · 0.003 = 11 €
Ejemplo 2:
Sea X una variable aleatoria discreta cuya función de probabilidad es: pi
x
0 0,1
1 0,2
2 0,1
3 0,4
4 0,1
5 0,1
9
11. Proyecto Integrado Tema 1
1. Calcular, representar gráficamente la función de distribución.
2. Calcular las siguientes probabilidades:
p (X < 4.5)
p (X < 4.5) = F (4.5) = 0.9
p (X ≥ 3)
p (X ≥ 3) = 1 - p(X < 3) = 1 - 0.4 = 0.6
p (3 ≤ X < 4.5)
p (3 ≤ X < 4.5) = p (X < 4.5) - p(X < 3) = 0.9 - 0.4 = 0.5
Ejemplo 3:
Un jugador lanza dos monedas. Gana 1 ó 2 € si aparecen una o dos caras. Por otra
parte pierde 5 € si no aparece cara. Determinar la esperanza matemática del juego y si
éste es favorable.
E = {(c,c);(c,x);(x,c);(x,x)}
p(+1) = 2/4
p(+2) = 1/4
p(−5) = 1/4
μ = 1 · 2/4 + 2 · 1/4 - 5 · 1/4 = −1/4. Es desfavorable
10
12. Proyecto Integrado Tema 1
Variable continua
Si tenemos una variable continua X, podemos definir la función acumulada de
distribución de la misma manera que para una variable discreta.
F(x) = P(X ≤ x).
Ahora esta función sería una función suave y no una función escalón, pero tendrá las
mismas propiedades que la función de distribución para una variable discreta.
F(−∞) = 0, F(∞) = 1, F(x + #) ≥ F(x) para cualquier # > 0.
Ejemplo:
¿Cuáles de las siguientes funciones pueden ser funciones de distribución para una
variable continua X?
Las funciones 1 y 3 pueden ser
funciones de distribución. La función 2
es negativa en el rango −1 < x < 0.
Los siguientes dibujos muestran las funciones de
distribución en casos 1 y 3:
11
13. Reducción numérica de los datos
Proyecto Integrado Tema 1
Se busca reducir los datos de nuestra investigación con el fin de expresarlos y
describirlos de alguna manera (conceptual, numérica o gráficamente), de tal manera
que respondan a una estructura sistemática, inteligible para otras personas, y por lo
tanto significativa. La reducción de datos es una clase de operación que se realiza a lo
largo de todo el proceso de investigación y pude hacerse de distintas formas
(conceptual, numérica o gráficamente, como se indicó), pero que en la investigación
cualitativa se refiere más que nada a la categorización y dosificación de los datos.
Cuando estudiamos una determinada población según el carácter C y tenemos
recogidos los datos correspondientes a las distintas modalidades del carácter, la
primeraforma de reducir dichos datos es mediante las tablas estadísticas y las
representaciones gráficas.
Aunque‚ a estas nos permiten obtener, de una manera rápida, una idea aproximada del
comportamiento de la distribución, conviene estudiar las distribuciones de una forma
más rigurosa.
Es por esto por lo que vamos a estudiar la manera de resumir y sintetizar el gran
número de datos de una distribución en unos pocos números que nos proporcionen
una idea, lo más aproximadamente posible, de toda la distribución. El estudio de estos
números se referirá a su significado, su cálculo e interpretación.
Estos números de los que hablamos reciben el nombre de parámetros estadísticos.
Hay muchos parámetros estadísticos. Suelen clasificarse según el papel que juegan, en
varios tipos:
- Medidas de posición, señalan la situación de algunos valores importantes en la
distribución: cuartiles, deciles, centiles. Podemos destacar las Medidas de
centralización o de tendencia central: ya que "tienden" a situarse hacia el centro del
conjunto de datos. También se les llama promedios: moda, media, mediana.
- Medidas de dispersión, que nos indican si los datos numéricos están agrupados o no
alrededor de los valores centrales (grado de alejamiento de los datos.): desviación
media, varianza, desviación típica...
- Medidas de asimetría, para señalar si la distribución está sesgada hacia uno u otro
lado.
- Medidas de apuntamiento o curtosis, que indican si la distribución es mas o menos
puntiaguda.
Evidentemente, todo proceso de síntesis conlleva una pérdida de información. Pero
esta pérdida se compensa con el hecho de trabajar con pocos parámetros con un
significado muy preciso.
12
14. Medidas descriptivas
Proyecto Integrado Tema 1
Son valores numéricos calculados a partir de la muestra y que nos resumen la información
contenida en ella.
Las medidas descriptivas surgen con la necesidad de disponer medidas que resuman o
condensen los datos y por tanto el objetivo que se persigue es la sintetización de la
información que nos aportan los datos con la menor pérdida posible.
Los parámetros se recogen en tres grupos principales dependiendo de su función:
medidas de posición, medidas de centralización y medidas de dispersión. Aunque
existen algunas menos usuales como medidas de forma o medidas robustas.
Muchas de ellas no tienen sentido para las variables cualitativas.
13
15. Proyecto Integrado Tema 1
Medidas de centralización
Media aritmética ( ):
Es el valor obtenido al sumar todos los datos y dividir el resultado entre el número
total de datos. Informa sobre la tendencia general sobre la variable X en una muestra
de n sujetos. Es la más importante.
La letra µ se usa para la media aritmética de una población, es decir, el valor esperado
de una variable
Cálculo para datos ordenados de forma creciente:
Cálculo para datos agrupados:
Ejemplo:
La media aritmética de un conjunto de números positivos siempre es igual o superior a
la media geométrica
14
16. Proyecto Integrado Tema 1
Propiedades :
• La suma de las desviaciones de todas las puntuaciones de una distribución
respecto a la media de la misma igual a cero.
Por ejemplo: X ~ 8, 3, 5, 12, 10
8 − 7.6 + 3 − 7.6 + 5 − 7.6 + 12 − 7.6 + 10 − 7.6 = 0
• La suma de los cuadrados de las desviaciones de los valores de la variable con
respecto a un número cualquiera se hace mínima cuando dicho número
coincide con la media aritmética.
• Si a todos los valores de la variable se les suma un mismo número, la media
aritmética queda aumentada en dicho número.
• Si todos los valores de la variable se multiplican por un mismo número la media
aritmética queda multiplicada por dicho número.
Observaciones:
• La media se puede hallar sólo para variables cuantitativas.
• La media es independiente de las amplitudes de los intervalos.
• La media es muy sensible a los valores extremos. Si tenemos una distribución
con los siguientes pesos:
65 kg, 69kg , 65 kg, 72 kg, 66 kg, 75 kg, 70 kg, 110 kg.
La media es igual a 74 kg, que es una medida de centralización poco
representativa de la distribución.
La aparición de una observación extrema hará que la media se desplace en esa
dirección.
• La media no se puede calcular si hay un intervalo con una amplitud
indeterminada.
• Es muy sensible a los valores extremos de la variable: todas las observaciones
intervienen en el cálculo de la media, así, la aparición de una observación
extrema hará que la media se desplace en esa dirección.
• No es recomendable usar la media como medida central en las distribuciones
muy asimétricas.
15
17. Proyecto Integrado Tema 1
Mediana(Me):
el lugar central de todos los datos cuando éstos están ordenados
Es el valor que ocupa el lugar central de todos los datos cuando éstos están ordenados
de menor a mayor. de menor a mayor.
Cálculo para datos ordenados de forma creciente:
Si n es impar, la mediana es el valor que ocupa la posición (n + 1) / 2.
Si n es par, la mediana es la media aritmética de las dos observaciones centrales, que
ocuparan las posiciones n/2 y n/2+1.
Es decir: Me = (xn / 2 + (xn / 2 + 1)) / 2
Por ejemplo: X ~ 2, 3, 4, 4, 4, 5, 5, 6, 6,7
n es par y se hace la media de las posiciones: n/2 ≡ 4 y n/ 2+1 ≡ 5-> Me= 4,5
Cálculo para datos agrupados
Li es el límite inferior de la clase donde se encuentra la
mediana.
es la semisuma de las frecuencias absolutas.
Fi-1es la frecuencia acumulada anterior a la clase mediana.
ai es la amplitud de la clase.
La mediana es independiente de las amplitudes de los intervalos.
Por ejemplo:
Propiedades:
• Como medida descriptiva, tiene la ventaja de no estar afectada por las
observaciones extremas, ya que no depende de los valores que toma la
distribuciones asimétricas (X ∼ 2, 5, 7, 9, 12 y X ∼ 2, 5, 7, 9, 125 en este caso la
variable, sino del orden de las mismas. Por ello es adecuado su uso en
media cambia, pero no la mediana).
• Es de cálculo rápido y de interpretación sencilla, pero no tiene sentido su
cálculo en variables de tipo cualitativo o nominal, al igual que la media.
• A diferencia de la media, la mediana de una variable es siempre un valor de la
variable que se estudia (ej. La mediana de una variable número de hijos toma
siempre valores enteros).
16
18. Proyecto Integrado Tema 1
Moda (Mo):
La moda es el valor que tiene mayor frecuencia absoluta.
Se puede hallar la moda para variables cualitativas y cuantitativas.
Cálculo para datos ordenados de forma creciente:
Mo es el valor xi que se repita más veces.
Ejemplo: 1, 1, 1, 4, 4, 5, 5, 5, 7, 8, 9, 9, 9 Mo= 1, 5, 9
Puede ser más de un xi, pero si todas las puntuaciones tienen la misma frecuencia no
hay moda.
Si dos puntuaciones adyacentes tienen la frecuencia máxima, la moda se puede hacer
como el promedio de las dos puntuaciones adyacentes.
Ejemplo: 0, 1, 3, 3, 5, 5, 7, 8 Mo = 4
Cálculo para datos agrupados
Todos los intervalos tienen la misma amplitud
Li es el límite inferior de la clase modal.
fi es la frecuencia absoluta de la clase modal.
fi--1 es la frecuencia absoluta inmediatamente inferior a la clase modal.
fi-+1 es la frecuencia absoluta inmediatamente posterior a la clase modal.
ai es la amplitud de la clase.
También se utiliza otra fórmula de la moda que da un valor
aproximado de ésta.
Ejemplo:
17
19. Proyecto Integrado Tema 1
Los intervalos tienen amplitudes distintas
Primero hallamos la altura (hi)
La clase modal es la que tiene mayor altura
Ejemplo:
Media geométrica:
Dada una población o muestra con n elementos distintos, se llama media geométrica
de esos elementos a la raíz n-ésima de su producto:
Por ejemplo:
Media armónica (H):
La media armónica, de una cantidad finita de números es igual al recíproco, o
inverso, de la media aritmética de los recíprocos de dichos valores.
Así, dados n números x1, x2, ... , xn la media armónica será igual a:
La media armónica resulta poco influida por la existencia de determinados valores
mucho más grandes que el conjunto de los otros, siendo en cambio sensible a valores
mucho más pequeños que el conjunto.
La media armónica no está definida en el caso de que exista algún valor nulo.
18
20. Proyecto Integrado Tema 1
Medidas de posición:
Las medidas de posición (no central) dividen un conjunto de datos en grupos con el
mismo número de individuos. Entre ellas destacan los cuartiles, deciles y percentiles.
Cuartiles
Los cuartiles son los tres valores que dividen al conjunto de datos ordenados en
cuatro partes porcentualmente iguales.
Hay tres cuartiles denotados usualmente Q1, Q2, Q3. El segundo cuartil es
precisamente la mediana. El primer cuartil, es el valor en el cual o por debajo del cual
queda un cuarto (25%) de todos los valores de la sucesión (ordenada); el tercer cuartil,
es el valor en el cual o por debajo del cual quedan las tres cuartas partes (75%) de los
datos
Cálculo para datos ordenados de menor a mayor:
Buscamos el lugar que ocupa cada cuartil mediante la expresión:
Si N es par, se coge, además, el valor adyacente siguiente y se calcula la media
aritmética de ambos.
Ejemplo:
19
21. Proyecto Integrado Tema 1
Cálculo para datos agrupados
En primer lugar buscamos la clase donde se encuentra, en la tabla de las frecuencias
acumuladas.
Por ejemplo:
Deciles
Los deciles son ciertos números que dividen la sucesión de datos ordenados en diez
partes porcentualmente iguales. Son también un caso particular de los percentiles.
Son los nueve valores que dividen al conjunto de datos ordenados en diez partes
iguales
Los deciles se denotan D1, D2,..., D9, que se leen primer decil, segundo decil, etc. D5
coincide con la mediana.
Los deciles, al igual que los cuartiles, son ampliamente utilizados para fijar el
aprovechamiento académico.
20
22. Proyecto Integrado Tema 1
Cálculo:
En primer lugar buscamos dónde se encuentra la clase ,
en la tabla de las frecuencias acumuladas.
Si no disponemos de los datos ordenados, se hallan de la siguiente forma:
Li es el límite inferior de la clase donde se encuentra la mediana.
N es la suma de las frecuencias absolutas.
Fi-1 es la frecuencia acumulada anterior a la clase mediana.
ai es la amplitud de la clase.
Por ejemplo:
Cáculo de D4 de la distribución de la tabla:
21
23. Proyecto Integrado Tema 1
Percentiles
Los percentiles son, tal vez, las medidas más utilizadas para propósitos de ubicación o
clasificación de las personas cuando atienden características tales como peso,
estatura, etc.
Los percentiles son valores que dividen la sucesión de datos ordenados en cien
partes porcentualmente iguales.
Estos son los 99 valores que dividen en cien partes iguales el conjunto de datos
ordenados. Los percentiles (P1, P2,... P99), leídos primer percentil,..., percentil 99.
En primer lugar buscamos dónde se encuentra la clase ,
en la tabla de las frecuencias acumuladas.
Si no disponemos de los datos ordenados, se hallan de la siguiente forma:
Li es el límite inferior de la clase donde se encuentra la mediana.
N es la suma de las frecuencias absolutas.
Fi-1 es la frecuencia acumulada anterior a la clase mediana.
ai es la amplitud de la clase.
Por ejemplo:
Calcular P60 de la distribución de la tabla:
22
24. Medidas de dispersión
Proyecto Integrado Tema 1
Las medidas de tendencia central tienen como objetivo el sintetizar los datos en un
valor representativo, las medidas de dispersión nos dicen hasta que punto estas
medidas de tendencia central son representativas como síntesis de la información.
Representan la separación, la dispersión, la variabilidad de los valores de la
distribución respecto al valor central. Distinguimos entre medidas de dispersión
absolutas, que no son comparables entre diferentes muestras y las relativas que nos
permitirán comparar varias muestras.
Dispersión absoluta
Rango
Diferencia entre el valor mínimo y el valor máximo en un grupo de números aleatorios.
Se suele simbolizar con R.
• Ordenamos los números según su tamaño.
• Restamos el valor mínimo del valor máximo
Ejemplo: Para una muestra (8,7,6,9,4,5), el dato menor es 4 y el dato mayor es 9 (Valor
unitario inmediatamente posterior al dato mayor menos el dato menor). Sus valores se
encuentran en un rango de:
Rango = 5
23
25. Proyecto Integrado Tema 1
Desviación media absoluta
Las medidas de dispersión como el rango o el rango intercuartílico son poco
significativas y sólo se apoyan en dos datos, sería conveniente tener una medida de la
dispersión de los datos respecto a la media (valor en el que se resumen todos los
datos) y en la que tomásemos información de todas la observaciones.
Una medida para conocer la dispersión de los datos sería ver que errores se comenten
al dar la media en lugar del auténtico valor, en el valor i-ésimo cometeríamos un error .
Si sumamos todas las desviaciones. Se compensan las desviaciones positivas y
negativas, por lo no podemos conocer la desviación. Para corregir ese problema
podemos considerar todos los errores que calculemos como positivos, para ello basta
con tomar el valor absoluto, si además consideramos la media de esos errores
obtenemos la desviación media.
La desviación respecto a la media es la diferencia en valor absoluto entre cada valor de
la variable estadística y la media aritmética.
Di = |x - x|
La desviación media (Dx) es la media aritmética de los valores absolutos de las
desviaciones respecto a la media.
Por ejemplo:
Calcular la desviación media de la distribución: 9, 3, 8, 8, 9, 8, 9, 18
24
26. Proyecto Integrado Tema 1
Si los datos están agrupados:
Si los datos vienen agrupados en una tabla de frecuencias, la expresión de la desviación media
es:
Por ejemplo:
Calcular la desviación media de la distribución:
Propiedades
• Nos da la media de la dispersión de los datos.
• Intervienen para su cálculo todos los datos.
• Cada vez que insertemos un dato nuevo se modificará.
• Al intervenir un valor absoluto los cálculos son complicados.
• A mayor concentración de los datos entorno a la media menor será su valor.
• DM es no negativa
• DM=0 si y sólo si todos los valores son coincidentes.
25
27. Proyecto Integrado Tema 1
Varianza (σ2)
La desviación media es una medida de dispersión de datos correcta pero presenta un
inconveniente y es la complejidad de manipulación al intervenir valores absolutos. Sería
conveniente encontrar otra medida que no presente el problema inicial (que no se compensen
las dispersiones negativas con las positivas) y cuyo manejo sea más sencillo. Otra forma de
evitar la compensación de dispersiones es elevar al cuadrado la diferencia y es más sencillo
trabajar con cuadrados que con valores absolutos, teniendo en cuenta esta consideración
introduciremos el concepto de varianza.
La varianza (σ2)es la media aritmética del cuadrado de las desviaciones respecto a
la media de una distribución estadística.
Observaciones:
• La varianza, al igual que la media, es un índice muy sensible a las puntuaciones
extremas.
• En los casos que no se pueda hallar la media tampoco será posible hallar la
varianza.
• La varianza no viene expresada en las mismas unidades que los datos, ya que
las desviaciones están elevadas al cuadrado.
Cálculo:
Podemos simplificar los cálculos así:
Cálculo para datos agrupados:
Podemos simplificarlo así:
26
28. Proyecto Integrado Tema 1
Ejemplos:
Calcular la varianza de la distribución: 9, 3, 8, 8, 9, 8, 9, 18
Primero se calcula la media aritmética.
Se utiliza:
Sustituimos:
Calcular la varianza de la distribución de la tabla:
Propiedades:
• Siempre es positiva
• Si a todos los valores de la variable se les suma un número la varianza no varía.
• Si todos los valores de la variable se multiplican por un número la varianza
queda multiplicada por el cuadrado de dicho número.
• Si tenemos varias distribuciones con la misma media y conocemos sus
respectivas varianzas se puede calcular la varianza total.
Si todas las muestras tienen el mismo tamaño:
Si las muestras tienen distinto tamaño:
27
29. Proyecto Integrado Tema 1
Desviación típica (σ)
Con la varianza se elevan al cuadrado las unidades de medida, sería interesante tener
una medida de dispersión con las mismas unidades de la media y los datos, esto lo
podemos conseguir haciendo la raíz cuadrada positiva de la varianza, a la que
llamaremos desviación típica.
La desviación típica (σ) es la raíz cuadrada de la varianza.
Observaciones:
• La desviación típica, al igual que la media y la varianza, es un índice muy sensible a las
puntuaciones extremas.
• En los casos que no se pueda hallar la media tampoco será posible hallar la desviación
típica.
• Cuanta más pequeña sea la desviación típica mayor será la concentración de datos
alrededor de la media.
Cálculo:
Cálculo para datos agrupados:
Ejemplos:
Calcular la desviación típica de la distribución: 9, 3, 8, 8, 9, 8, 9, 18
28
30. Proyecto Integrado Tema 1
Calcular la desviación típica de la distribución de la tabla:
Propiedades:
• Es siempre positiva
• Si a todos los valores de la variable se les suma un número la desviación típica
no varía.
• Si todos los valores de la variable se multiplican por un número la desviación
típica queda multiplicada por dicho número.
• Si tenemos varias distribuciones con la misma media y conocemos sus
respectivas desviaciones típicas se puede calcular la desviación típica total.
o Si todas las muestras tienen el mismo tamaño:
o Si las muestras tienen distinto tamaño:
29
31. Proyecto Integrado Tema 1
Dispersión relativa
Cuando las medias de dos distribuciones son iguales, es fácil comparar cuál de ellas es
más dispersa, pero cuando las medias son distintas, no siempre podemos comparar su
dispersión; en particular si las distribuciones corresponden a variables con distintos
sistemas de medida.
En estos casos, hemos de utilizar otras medidas que prescindan de las unidades de
medida, lo que nos permitirá comparar variables de diferente tipo. Estas son las
medidas de dispersión relativas.
Coeficiente de variación Pearson
Es una medida de dispersión relativa. Se utiliza cuando se pretenden comparar la
dispersión de dos variables:
Propiedades:
1. Cuanto menor sea el coeficiente de variación, menor será la dispersión de la muestra y, por
tanto, más representativa será su media y más homogéneos los valores de la distribución.
2. No se puede calcular si la media es cero.
3. Si la media es muy próxima a cero, el coeficiente de variación puede resultar erróneo, por lo
que no es recomendable su uso.
4. No tiene dimensiones, por lo que permite comparar distribuciones con distintas unidades.
5. Utiliza toda la información de la distribución.
6. Se anula cuando la desviación típica es cero. En este caso no hay dispersión, y todos los
valores son iguales.
30
32. Diagrama Box-Whisker
Proyecto Integrado Tema 1
Estos diagramas, también llamados de “Caja con bigotes”, son una presentación visual
que describe varias características importantes, al mismo tiempo, tales como la
dispersión y simetría.
Para su realización se representan los tres cuartiles y los valores mínimo y máximo de
los datos, sobre un rectángulo, alineado horizontal o verticalmente.
Construcción
Una gráfica de este tipo consiste en una caja rectangular, donde los lados más largos
muestran el recorrido intercuartílico. Este rectángulo está dividido por un segmento
vertical que indica donde se posiciona la mediana y por lo tanto su relación con los
cuartiles primero y tercero(recordemos que el segundo cuartil coincide con la
mediana).
Esta caja se ubica a escala sobre un segmento que tiene como extremos los valores
mínimo y máximo de la variable. Las lineas que sobresalen de la caja se llaman bigotes.
Estos bigotes tienen tienen un límite de prolongación, de modo que cualquier dato o
caso que no se encuentre dentro de este rango es marcado e identificado
individualmente
Ejemplo de distribuciones de edades
Utilizamos la edad de un colectivo de 20 personas.
36 25 37 24 39 20 36 45 31 31
39 24 29 23 41 40 33 24 34 40
Ordenar los datos
Para calcular los parámetros estadístico, lo primero es ordenar la distribución
20 23 24 24 24 25 29 31 31 33 34 36 36 37 39 39 40 40 41 45
31
33. Proyecto Integrado Tema 1
Cálculo de cuartiles
Q1, el cuartil Primero es el valor mayor que el 25% de los valores de la distribución. Como N =
20 resulta que N/4 = 5; el primer cuartil es la media aritmética de dicho valor y el siguiente:
Q1=(24 + 25) / 2 = 24,5
Q2, el Segundo Cuartil es, evidentemente, la mediana de la distribución, es el valor de la
variable que ocupa el lugar central en un conjunto de datos ordenados. Como N/2 =10 ; la
mediana es la media aritmética de dicho valor y el siguiente:
me= Q2 = (33 + 34)/ 2 =33,5
Q3 , el Tercer Cuartil, es el valor que sobrepasa al 75% de los valores de la distribución. En
nuestro caso, como 3N / 4 = 15, resulta
Q2=(39 + 39) / 2 = 39
Dibujar la caja y los bigotes
El bigote de la izquierda representa al colectivo de edades ( Xmín, Q1)
La primera parte de la caja a (Q1, Q2),
La segunda parte de la caja a (Q2, Q3)
El bigote de la derecha viene dado por (Q3, Xmáx).
32
34. Cómo realizar una encuesta
Proyecto Integrado Tema 1
Cuando se decide utilizar la encuesta como medio de recogida de información se llevaran a
cabo ordenadamente las siguientes fases:
1) Determinación de los objetivos
Lo primero es definir los objetivos de la encuesta, la información concreta requerida y la
población que la puede facilitar. En esta etapa es fundamental la utilización de información
secundaria existente acerca del tema a estudiar y de la población a analizar.
2) Determinación del tipo de encuesta
Se deberá identificar cual es el tipo de encuesta más idóneo para llevar a cabo la investigación.
La encuesta podrá ser personal, telefónica o postal aunque las nuevas tecnologías ofrecen
nuevos métodos para le realización de encuestas como el correo electrónico o a través de una
página Web. La elección de un tipo de encuesta u otro vendrá determinada por el tema de la
investigación, la población a estudiar y el presupuesto disponible.
3) Diseño del cuestionario
El diseño del cuestionario es fundamental y requiere un especial cuidado y atención. El
cuestionario es el instrumento para la obtención de la información y por tanto su diseño es
esencial para alcanzar los objetivos deseados.
4) Codificación del cuestionario
Una vez diseñado y testado el cuestionario debemos codificarlo antes de realizar el trabajo de
campo, con el fin de evitar posibles errores de diseño. La codificación del cuestionario facilita
la tabulación de los datos resultantes y su análisis posterior a través de un programa
informático.
5) Muestreo
Se aplica un muestreo estadístico para seleccionar una muestra representativa de la población.
6) Trabajo de campo
Llegado este punto estamos en condiciones de comenzar a entrevistar a los integrantes de la
muestra seleccionada. El trabajo de campo deberá ser supervisado por el investigador para
evitar distorsiones.
7) Tabulación de datos.
Una vez finalizado el trabajo de campo y con los cuestionarios cumplimentados, se tabulan
estadísticamente los datos obtenidos.
8 )Análisis de resultados y elaboración del informe.
33
35. Proyecto Integrado Tema 1
Por último, se analizan los datos tabulados y en base a los resultados y conclusiones se redacta
el informe final de la investigación
34
36. Proyecto Integrado Tema 1
Ejercicios finales
1. Dos compañías aseguradoras tienen formas diferentes de pagar a sus empleados.
La compañía A lo hace mediante un sueldo fijo mensual y la compañía B a través de
un porcentaje sobre los seguros realizados. La distribución de los salarios por
categorías es:
a) Por término medio, ¿gana más un empleado de la compañía A o de la B?
b) Calcular y comentar la representatividad de los sueldos medios.
c) ¿Cuál es el sueldo más frecuente en la compañía A?
d) Aunque en la compañía B el sueldo se gana por méritos, ¿crees que el reparto de
salarios por categorías es equitativo?
e) Si en la compañía B el salario fuese el anterior más un fijo de 10000 pesetas, ¿cuál
sería el salario medio y la desviación típica?
Solución:
a) Sean:
X = «sueldo (en miles de pesetas) de los empleados de la compañía A».
Y = «sueldo (en miles de pesetas) de los empleados de la compañía B»
Y=107.842105
X=84.5
b) VX = 0.27273876, VY = 0.31479111, los sueldos están menos dispersos en la empresa
A.
c) Mo = 80000 pesetas.
d) IG(Y) = ‘.200456171
e) Z = Y + 10
Z = Y + 10 = 107.842105 + 10 = 117.842105
35
38. Proyecto Integrado Tema 1
2. Se comparan dos tipos de rosca de tornillo para ver su resistencia ala tensión. Se
prueban 50 piezas de cada tipo de cuerda bajo condiciones similares, la marca A tuvo
una resistencia promedio a la tensión de 78.3 Kg, mientras que la marca B tuvo una
resistencia promedio de 87.2 Kg. Se sabe de antemano que las desviaciones
poblacionales son de 6.5 Kg para la marca A y 6.3 Kg para la B.
Determine el intervalo de confianza del 95% para la diferencia de las dos medias
poblacionales.
Solución:
37